根据关键词进行召回的时候,需要遍历网页中所有的关键词。会造成大量的资源浪费。所以引入了倒排索引。
索引的应用领域很广,包括但不限于:doc、pdf、excel、html等。具体到搜索引擎对网页(html)的索引,正向索引是 网页与关键词一一对应的数据结构。
为简单起见,我们假设有网页1和网页2:
网页1中仅包含一句话:厦门SEO顾问潇湘驭文为您提供厦门SEO培训服务。
网页2中也仅包含一句话:SEO是一门艺术。
假设使用正向索引,根据关键词进行召回的时候,搜索引擎必须检索 遍历网页中的每一个关键词,假设一个网页中包含成千上百个关键词,可想而知,会造成大量的资源浪费。于是倒排索引应运而生。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。