码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ES全文检索支持拼音和繁简检索


    ES全文检索支持拼音和繁简检索

    • 1. 实现目标
    • 2. 引入pinyin插件
      • 2.1 编译 elasticsearch-analysis-pinyin 插件
      • 2.2 安装拼音插件
    • 3. 引入ik分词器插件
      • 3.1 已有作者编译后的包文件
      • 3.2 只有源代码的版本
      • 3.3 安装ik分词插件
    • 4. 建立es索引
    • 5.测试检索
    • 6. 繁简转换

    1. 实现目标

    ES检索时无论输入简体还是繁体都要能够被检索到,例如检索时输入“語法”或者“语法”,检索结果中无论是简体繁体都务必要被命中。

    并且也要正确的高亮返回

    image-20240429162129485

    2. 引入pinyin插件

    拼音分词器(pinyin analyzer)通常需要自行引入,因为它不是 Elasticsearch 的默认分词器。可以使用 Elasticsearch 的插件来引入 pinyin 分词器,以便在索引中使用它。

    2.1 编译 elasticsearch-analysis-pinyin 插件

    选择与自己版本一致的版本,插件地址:
    https://github.com/medcl/elasticsearch-analysis-pinyin/releases

    在这里插入图片描述
    elasticsearch-analysis-pinyin分词器目前没有下载即可使用的安装包,需要自己下载源码进行编译。可以在项目目录elasticsearch-analysis-pinyin\target\releases看到编译后的结果elasticsearch-analysis-pinyin-7.17.11.zip

    在这里插入图片描述

    2.2 安装拼音插件

    然后在es的安装目录下plugins目录下新建pinyin目录,并将解压后的文件复制到该目录下
    在这里插入图片描述
    重启es,启动日志中已经加载了拼音插件
    在这里插入图片描述

    3. 引入ik分词器插件

    GitHub下载地址:Releases · infinilabs/analysis-ik · GitHub

    3.1 已有作者编译后的包文件

    选择与所需es版本相同的ik分词器,下载已经打包后的.zip文件

    image-20240421170408043

    3.2 只有源代码的版本

    首先下载源码解压后使用idea打开,修改es版本与分词器版本相同

    image-20240421172009705

    使用 mvn clean install 打包时报错:

    [ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.5.1:compile (default-compile) on project elasticsearch-analysis-ik: Compilation failure
    [ERROR] /D:/PersonalProjects/analysis-ik-7.17.11/analysis-ik-7.17.11/src/main/java/org/elasticsearch/index/analysis/IkAnalyzerProvider.java:[13,9] 无法将类 org.elasticsearch.index.analysis.AbstractIndexAnalyzerProvider中的构造器 
    AbstractIndexAnalyzerProvider应用到给定类型;
    [ERROR]   需要: org.elasticsearch.index.IndexSettings,java.lang.String,org.elasticsearch.common.settings.Settings
    [ERROR]   找到: java.lang.String,org.elasticsearch.common.settings.Settings
    

    修改代码报错部分:增加indexSetting参数到super入参的第一个位置

    image-20240421172326529

    使用mvn clean install进行打包,注意我们所需的是/target/release目录下的.zip压缩包

    image-20240421172441311

    3.3 安装ik分词插件

    将下载或者编译后的.zip文件解压到es的安装目录下的plugins目录下,并重命名为ik

    image-20240421173223669

    然后启动es,查看日志可发现已经加载的ik分词器

    image-20240421173516905

    常规的最常用的使用方式就是,数据插入存储时用 ik_max_word模式分词,而检索时,用ik_smart模式分词,即:索引时最大化的将文章内容分词,搜索时更精确的搜索到想要的结果。

    建立映射示例如下:在数据被索引时我们设置"analyzer": “ik_max_word”,在检索时指定"search_analyzer": “ik_smart”

    4. 建立es索引

    setting.json

    {
       
      "aliases": {
       
      },
      "settings": {
       
        "index": {
       
          "refresh_interval": "3s",
          "number_of_shards": "3",
          "number_of_replicas": "1",
          "max_inner_result_window": "10000",
          "max_result_window": "20000",
          "analysis": {
       
            "filter": {
       
              "pinyin_full_filter": {
       
                "keep_joined_full_pinyin"
  • 相关阅读:
    Day2:面试必考题目
    操作系统知识点-处理机调度
    word文档转html(用于用户服务协议等)
    Spring_第3章_AOP+事务
    VSCODE远程链接服务器、服务器运行ipynb文件,本地查看
    maven 多核多线程执行
    【MM32F5270开发板试用】六、如何用 星辰内核 + 国产RTOS 通过I2S播放 “星辰大海”
    zookeeper搭建集群实操
    基于html+css的图展示97
    【考研数学】概率论与数理统计 —— 第三章 | 二维随机变量及其分布(1,二维连续型和离散型随机变量基本概念与性质)
  • 原文地址:https://blog.csdn.net/qq_29864051/article/details/138320852
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号