• 说说Elasticsearch索引文档的过程


    分析&回答


    • 协调节点默认使用文档ID参与计算(也支持通过routing),以便为路由提供合适的分片。shard = hash(document_id) % (num_of_primary_shards)
    • 当分片所在的节点接收到来自协调节点的请求后,会将请求写入到Memory Buffer,然后定时(默认是每隔1秒)写入到Filesystem Cache,这个从Momery Buffer到Filesystem Cache的过程就叫做refresh;
    • 当然在某些情况下,存在Momery Buffer和Filesystem Cache的数据可能会丢失,ES是通过translog的机制来保证数据的可靠性的。其实现机制是接收到请求后,同时也会写入到translog中,当Filesystem cache中的数据写入到磁盘中时,才会清除掉,这个过程叫做flush;
    • 在flush过程中,内存中的缓冲将被清除,内容被写入一个新段,段的fsync将创建一个新的提交点,并将内容刷新到磁盘,旧的translog将被删除并开始一个新的translog。
    • flush触发的时机是定时触发(默认30分钟)或者translog变得太大(默认为512M)时;

    image.png

    反思&扩展


    关于Lucene的Segement:

    • Lucene索引是由多个段组成,段本身是一个功能齐全的倒排索引。
    • 段是不可变的,允许Lucene将新的文档增量地添加到索引中,而不用从头重建索引。
    • 对于每一个搜索请求而言,索引中的所有段都会被搜索,并且每个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多,搜索性能会越低。
    • 为了解决这个问题,Elasticsearch会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。

    为了大家更加方便的刷题,我们对文章进行了分类和整理,免费为大家提供刷题服务。程序员不欺骗程序员,赶紧扫码小程序刷起来!
    请添加图片描述

    为了一站式解决面者刷题问题,部分内容可能存在摘录情况,如有侵权辛苦您留言联系我们,我们会删除文章或添加引用文案,Thanks!

  • 相关阅读:
    【游戏开发】快来听听我与口袋方舟的故事吧
    Java当中的队列
    【python 获取时间】
    开源即时通讯IM框架 MobileIMSDK v6.4 发布
    线性回归实现
    自己写不出东西,灵感枯竭了?可以从这3方面出发
    群接龙拼团小程序开发
    杭电oj--数列有序
    GAMES101—Lec 05~06:光栅化
    net.sf.json.JSONObject 类的日常使用,非阿里巴巴的JSONObject,附上作者的jsonDemo
  • 原文地址:https://blog.csdn.net/jjclove/article/details/124923261