• ik分词器是什么,有那些配置? ik_smart和ik_max_word的两个分词算法有何区别?


    1、ik分词器是什么,有那些配置?

    1、ik分词器是什么?

    IK分词器是一种基于正向匹配的分词算法,它是中文自然语言处理中的一个基本环节。在搜索时,IK分词器会把用户的信息以及数据库或索引库中的数据进行分词,然后进行匹配操作。IK分词器提供了两个分词算法:ik_smart和ik_max_word。其中,ik_smart为最少切分,而ik_max_word为最细粒度划分。

    2、IK分词器的配置

    关于IK分词器的配置,首先需要在Elasticsearch中安装IK分词器插件,并按照安装文档进行安装。安装完成后,在Elasticsearch的配置文件中,可以将分词器配置为默认分词器或者特定字段的分词器。例如,在index的mappings中可以对特定字段设置分词器。

    当IK分词器配置并安装完成后,就可以在Elasticsearch中使用它来进行分词。这包括在创建索引时使用IK分词器对中文字段进行分词,以及在查询时使用IK分词器对搜索词进行分词后再进行搜索。

    2、ik_smart和ik_max_word的两个分词算法有何区别?

    IK分词器的两个分词算法,ik_smart和ik_max_word,主要存在以下区别:

    1、分词粒度:

    ik_smart被称为智能分词,它主要做最粗粒度的拆分,而ik_max_word则被称为最细粒度划分。例如,对于文本“中华人民共和国国歌”,ik_smart可能会将其拆分为“中华人民共和国”和“国歌”,而ik_max_word则会尽可能穷尽所有可能的组合,如“中华人民共和国”、“中华人民”、“中华”、“华人”、“人民共和国”、“人民”、“人”、“民”、“共和国”、“共和”、“和”、“国国”、“国歌”等。

    2、分词次数与字重复:

    ik_smart在分词时,每个字在句子里只会出现一次。而ik_max_word则允许句子的字反复出现,只要这些字在词库中出现过,就会被拆分出来。

    3、歧义识别:

    ik_smart添加了歧义识别功能,这使得它在处理一些具有歧义的词汇时,能够给出更准确的分词结果。

    总的来说,ik_smart和ik_max_word的主要区别在于其分词粒度和处理方式。在实际应用中,可以根据具体的分词需求来选择合适的算法。

  • 相关阅读:
    ARM64汇编05 - MOV系列指令
    yamot:一款功能强大的基于Web的服务器安全监控工具
    工业数据采集方案:有何作用和特点?
    【K8S系列】Kubernetes的网络模型
    对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】
    RabbitMQ
    Agile Management
    只会Excel想做图表可视化,让数据动起来?可以,快来围观啦(附大量模板下载)
    Apollo 配置中心的部署与使用经验
    3_Vue面试题
  • 原文地址:https://blog.csdn.net/qq_39311377/article/details/137724426