• ik分词器是什么,有那些配置? ik_smart和ik_max_word的两个分词算法有何区别?


    1、ik分词器是什么,有那些配置?

    1、ik分词器是什么?

    IK分词器是一种基于正向匹配的分词算法,它是中文自然语言处理中的一个基本环节。在搜索时,IK分词器会把用户的信息以及数据库或索引库中的数据进行分词,然后进行匹配操作。IK分词器提供了两个分词算法:ik_smart和ik_max_word。其中,ik_smart为最少切分,而ik_max_word为最细粒度划分。

    2、IK分词器的配置

    关于IK分词器的配置,首先需要在Elasticsearch中安装IK分词器插件,并按照安装文档进行安装。安装完成后,在Elasticsearch的配置文件中,可以将分词器配置为默认分词器或者特定字段的分词器。例如,在index的mappings中可以对特定字段设置分词器。

    当IK分词器配置并安装完成后,就可以在Elasticsearch中使用它来进行分词。这包括在创建索引时使用IK分词器对中文字段进行分词,以及在查询时使用IK分词器对搜索词进行分词后再进行搜索。

    2、ik_smart和ik_max_word的两个分词算法有何区别?

    IK分词器的两个分词算法,ik_smart和ik_max_word,主要存在以下区别:

    1、分词粒度:

    ik_smart被称为智能分词,它主要做最粗粒度的拆分,而ik_max_word则被称为最细粒度划分。例如,对于文本“中华人民共和国国歌”,ik_smart可能会将其拆分为“中华人民共和国”和“国歌”,而ik_max_word则会尽可能穷尽所有可能的组合,如“中华人民共和国”、“中华人民”、“中华”、“华人”、“人民共和国”、“人民”、“人”、“民”、“共和国”、“共和”、“和”、“国国”、“国歌”等。

    2、分词次数与字重复:

    ik_smart在分词时,每个字在句子里只会出现一次。而ik_max_word则允许句子的字反复出现,只要这些字在词库中出现过,就会被拆分出来。

    3、歧义识别:

    ik_smart添加了歧义识别功能,这使得它在处理一些具有歧义的词汇时,能够给出更准确的分词结果。

    总的来说,ik_smart和ik_max_word的主要区别在于其分词粒度和处理方式。在实际应用中,可以根据具体的分词需求来选择合适的算法。

  • 相关阅读:
    【Linux】Linux网络连接方式 + 虚拟机克隆、迁移与删除+虚拟机快照+Linux(CentOS)安装wmtools
    vue高频面试题
    Leetcode_729_我的日程安排表1_线段树/思维
    本地部署Jellyfin影音服务器并实现远程访问影音库
    白炽灯和节能灯哪个更护眼?分享几款护眼的LED灯
    CSP模拟51联测13 B.狗
    173. 二叉搜索树迭代器
    深信服实验 | AF做透明部署时,如何对上网数据进行基本的上网管控和防护?
    C#设置Textbox控件不可编辑
    杰理之lighting【篇】
  • 原文地址:https://blog.csdn.net/qq_39311377/article/details/137724426