• ElasticSearch - 基于 docker 部署 es、kibana,配置中文分词器、扩展词词典、停用词词典


    目录

    一、ElasticSearch 部署

    1.1、创建网络

    1.2、加载镜像

    1.3、运行

    1.4、检查是否部署成功

    二、部署 Kibana

    2.1、加载镜像

    2.2、运行

    三、部署 IK 分词器

    3.1、查看数据卷目录

    3.2、上传分词器

    3.3、重启容器

    3.4、测试

    3.4、扩展词词典

    3.5、停用词词典


    一、ElasticSearch 部署


    1.1、创建网络

    这里为了 es 和 将来要下载的 kibana 进行互联,因此需要我们去创建一个网络.

    Ps:这里也可以使用 docker-compose 一键互联,但是考虑到未来可能不会使用 kibana(可替代组件,前面的章节讲过),只需要 es,所以这里我们还是单独部署.

    docker network create es-net

    1.2、加载镜像

    这里我们使用 es 的 7.12.1 版本的镜像,体积比较大,接近 1G,大家可以自己去 pull 下来,也可以去找一些现有的资源(因为太大了,我上传不了,bibana 也是如此).

    上传完成以后,去加载镜像即可.

    docker load -i es.tar

     

    1.3、运行

    部署单点 es 命令如下.

    1. docker run -d \
    2. --name es \
    3. -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
    4. -e "discovery.type=single-node" \
    5. -v es-data:/usr/share/elasticsearch/data \
    6. -v es-plugins:/usr/share/elasticsearch/plugins \
    7. --privileged \
    8. --network es-net \
    9. -p 9200:9200 \
    10. -p 9300:9300 \
    11. elasticsearch:7.12.1
    • -e 表示配置环境变量,这里环境变量有两个.
    • -e "ES_JAVA_OPTS=-Xms512m -Xmx512m"`:内存大小(es 底层是 Java 实现的,所以这里是配置 jvm 的堆内存大小),值得注意的是,这里 512 已经是能配置的最小内存了,不能更小,否则回出现内存不足的情况.
    • -e "discovery.type=single-node"`:非集群模式(single node 就是单个节点的意思)
    • -v es-data:/usr/share/elasticsearch/data`:挂载数据卷,绑定es的数据目录
    • -v es-plugins:/usr/share/elasticsearch/plugins`:挂载数据卷,绑定es的插件目录(将来作拓展,就要在这里存东西)
    • --privileged`:授予数据卷访问权
    • --network es-net` :加入一个名为es-net的网络中
    • -p 9200:9200: 这里是 http 协议端口,供我们访问.
    • -p 9300:9300:这里是 es 容器各个节点之间的互联端口.(这个端口现在用不到,不暴露也没关系,只是后面部署集群的时候,还得打开).

    如果要设置集群,可以如下配置:

    • -e "cluster.name=es-docker-cluster"`:设置集群名称

    运行镜像

    1.4、检查是否部署成功

    可以先通过 docker ps 命令,看一下是不是启动成功了.

    接下来,打开浏览器,输入 http://你的云服务ip:9200 即可(这里我就不暴露 ip了,孩子吃了不少教训,害怕黑客攻击了...)

    Ps:这里别忘了开 9200 端口的防火墙.

    如果看到如下界面,就说明 ElasticSearch 部署完成~

    二、部署 Kibana


    这里为什么还要安装 kibana 呢?因为 kibana 中提供了一个 dev tools 工具,可以让我们非常方便的编写 es  中 DSL 语句.

    2.1、加载镜像

    这里的镜像同样不建议大家去 pull,可以去网上找找其他的资源,但是值得注意的是,kibana 的版本要和 es 匹配才行.

    docker load -i kibana.tar

    2.2、运行

    运行以下命令,运行镜像

    1. docker run -d \
    2. --name kibana \
    3. -e ELASTICSEARCH_HOSTS=http://es:9200 \
    4. --network=es-net \
    5. -p 5601:5601 \
    6. kibana:7.12.1
    • --network es-net` :加入一个名为es-net的网络中,与elasticsearch在同一个网络中.
    • -e ELASTICSEARCH_HOSTS=http://es:9200"`:设置elasticsearch的地址,因为kibana已经与elasticsearch在一个网络,因此可以用容器名直接访问elasticsearch.
    • -p 5601:5601`:端口映射配置.

    Kibana 启动一般比较慢,需要多等待一会,可以通过 docker logs -f kibana 命令来查看他的运行日志信息.

    最后,在浏览器中输入地址:http://你的云服务器 ip:5601 既可看到结果.

    这里专门提供了一个工具,用来编写 DSL 代码,来操作 es,并且还有 DSl 语句自动补全功能.

    三、部署 IK 分词器


    前面章节我们讲到,建立倒排索引需要对用户输入的内容进行分词处理(比如用户输入“华为手机”,会分成 “华为”和“手机”),但是由于 es 默认的分词器是不支持中文分词的,因此这里需要我们去安装 IK 分词器.

    3.1、查看数据卷目录

    安装插件需要知道 es 的 plugins 的目录位置,而我们使用了数据卷挂载,因此只需要查看 es 的数据卷目录,通过以下命令即可查看 :

    docker volume inspect es-plugins

    3.2、上传分词器

    这里我们可以在网上找 ik 分词器的压缩包,下载下来解压,命名为 ik.

    然后上传到 es 容器的插件数据卷中.

    如果直接上传文件夹失败,那么还是压缩成 zip 文件,上传,然后通过 unzip 进行解压.

    3.3、重启容器

    使用以下命令重启容器

    docker restart es

    3.4、测试

    IK 分词器,包含两种模式:

    • ik_smart:最少切分,例如 “世界上” 这个内容,首先就是看这个整体是否是一个词,如果是就将他作为一个词条,然后这个词就拆分完成了;如果不是一个词,才继续拆分.
    • ik_max_word:最细切分,例如 “世界上” 这个内容,首先就看这个整体是否是一个词,如果是就将他作为一个词条,然后在看是否能继续切分,如果可以就继续切分,找到新词条.

    以下我们可以看一下使用 ik_smart 对 "java是世界上最好的语言进行分词".

    ik_max_word 分词输入:

    1. GET /_analyze
    2. {
    3. "analyzer": "ik_max_word",
    4. "text": "java是世界上最好的语言"
    5. }

    输出如下:

    1. {
    2. "tokens" : [
    3. {
    4. "token" : "java",
    5. "start_offset" : 0,
    6. "end_offset" : 4,
    7. "type" : "ENGLISH",
    8. "position" : 0
    9. },
    10. {
    11. "token" : "是",
    12. "start_offset" : 4,
    13. "end_offset" : 5,
    14. "type" : "CN_CHAR",
    15. "position" : 1
    16. },
    17. {
    18. "token" : "世界上",
    19. "start_offset" : 5,
    20. "end_offset" : 8,
    21. "type" : "CN_WORD",
    22. "position" : 2
    23. },
    24. {
    25. "token" : "世界",
    26. "start_offset" : 5,
    27. "end_offset" : 7,
    28. "type" : "CN_WORD",
    29. "position" : 3
    30. },
    31. {
    32. "token" : "上",
    33. "start_offset" : 7,
    34. "end_offset" : 8,
    35. "type" : "CN_CHAR",
    36. "position" : 4
    37. },
    38. {
    39. "token" : "最好",
    40. "start_offset" : 8,
    41. "end_offset" : 10,
    42. "type" : "CN_WORD",
    43. "position" : 5
    44. },
    45. {
    46. "token" : "的",
    47. "start_offset" : 10,
    48. "end_offset" : 11,
    49. "type" : "CN_CHAR",
    50. "position" : 6
    51. },
    52. {
    53. "token" : "语言",
    54. "start_offset" : 11,
    55. "end_offset" : 13,
    56. "type" : "CN_WORD",
    57. "position" : 7
    58. }
    59. ]
    60. }

    ik_smart 分词输入:

    1. GET /_analyze
    2. {
    3. "analyzer": "ik_smart",
    4. "text": "java是世界上最好的语言"
    5. }

    输出:

    1. {
    2. "tokens" : [
    3. {
    4. "token" : "java",
    5. "start_offset" : 0,
    6. "end_offset" : 4,
    7. "type" : "ENGLISH",
    8. "position" : 0
    9. },
    10. {
    11. "token" : "是",
    12. "start_offset" : 4,
    13. "end_offset" : 5,
    14. "type" : "CN_CHAR",
    15. "position" : 1
    16. },
    17. {
    18. "token" : "世界上",
    19. "start_offset" : 5,
    20. "end_offset" : 8,
    21. "type" : "CN_WORD",
    22. "position" : 2
    23. },
    24. {
    25. "token" : "最好",
    26. "start_offset" : 8,
    27. "end_offset" : 10,
    28. "type" : "CN_WORD",
    29. "position" : 3
    30. },
    31. {
    32. "token" : "的",
    33. "start_offset" : 10,
    34. "end_offset" : 11,
    35. "type" : "CN_CHAR",
    36. "position" : 4
    37. },
    38. {
    39. "token" : "语言",
    40. "start_offset" : 11,
    41. "end_offset" : 13,
    42. "type" : "CN_WORD",
    43. "position" : 5
    44. }
    45. ]
    46. }

    3.4、扩展词词典

    随着互联网的不断发展,也出现了很多新的词语,在原有的词汇列表中不存在,比如:“鸡你太美”,“奥里给”.......

    所以我们的词汇也需要不断更新,IK分词器也提供了扩展词汇的功能.

    a)在 es 的插件数据卷目录下,进入 ik 文件夹,接着进入 config 目录.

    找到如下文件

    b)通过 vim 打开 IKAnalyzer.vfg.xml 配置文件,添加以下内容:

    1. "1.0" encoding="UTF-8"?>
    2. properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    3. <properties>
    4. <comment>IK Analyzer 扩展配置comment>
    5. <entry key="ext_dict">ext.dicentry>
    6. properties>

    c)新建一个 ext.dic,添加需要的词汇.

    Ps:当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑

    d)重启 es

    docker restart es

    e)测试效果

    ik_max_word 分词输入:

    1. GET /_analyze
    2. {
    3. "analyzer": "ik_max_word",
    4. "text": "听过鸡你太美和奥里给吗?"
    5. }

    输出:

    1. {
    2. "tokens" : [
    3. {
    4. "token" : "听过",
    5. "start_offset" : 0,
    6. "end_offset" : 2,
    7. "type" : "CN_WORD",
    8. "position" : 0
    9. },
    10. {
    11. "token" : "鸡你太美",
    12. "start_offset" : 2,
    13. "end_offset" : 6,
    14. "type" : "CN_WORD",
    15. "position" : 1
    16. },
    17. {
    18. "token" : "太美",
    19. "start_offset" : 4,
    20. "end_offset" : 6,
    21. "type" : "CN_WORD",
    22. "position" : 2
    23. },
    24. {
    25. "token" : "和",
    26. "start_offset" : 6,
    27. "end_offset" : 7,
    28. "type" : "CN_CHAR",
    29. "position" : 3
    30. },
    31. {
    32. "token" : "奥里给",
    33. "start_offset" : 7,
    34. "end_offset" : 10,
    35. "type" : "CN_WORD",
    36. "position" : 4
    37. },
    38. {
    39. "token" : "吗",
    40. "start_offset" : 10,
    41. "end_offset" : 11,
    42. "type" : "CN_CHAR",
    43. "position" : 5
    44. }
    45. ]
    46. }

    3.5、停用词词典

    在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。

    IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。

    a)IKAnalyzer.cfg.xml配置文件内容添加

    1. "1.0" encoding="UTF-8"?>
    2. properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    3. <properties>
    4. <comment>IK Analyzer 扩展配置comment>
    5. <entry key="ext_dict">ext.dicentry>
    6. <entry key="ext_stopwords">stopword.dicentry>
    7. properties>

    b)在 stopword.dic 中添加停用词.

    可以看到这里,原本已经有一些停用的词(一些介词...没必要创建索引)

    这里我们添加 “小黑子”,如下

    c)重启 es

    docker restart es

    d)测试

    可以看出,并没有分出 小黑子 这个词条

     

  • 相关阅读:
    Kotlin(八)集合List Set Map
    《向量数据库指南》——向量数据库一些技术难点
    java集合,栈
    HTML+CSS静态网页设计:(房地产网站设计与实现6页)
    小张的秋招面经(持续更新版)
    在Windows下设置将EXE开机自启动
    【信号处理】CFO估计技术(Matlab代码实现)
    SpringCloud Alibaba-Nacos
    【Linux】Linux操作系统
    CSDN 编程竞赛第七期题解
  • 原文地址:https://blog.csdn.net/CYK_byte/article/details/133219266