Whoosh 是一个用纯 Python 编写的全文搜索库,设计初衷是为 Python 应用提供快速、灵活和高效的搜索功能。与其他搜索引擎不同,Whoosh 完全基于python实现,不依赖于外部服务或平台,因此非常适合嵌入到各种 Python 项目中。
Whoosh 兼容 Python 3.x,并且没有其他特定的系统要求。
可以通过 pip 安装 Whoosh:
pip install Whoosh
Schema 定义了索引的结构,包括字段名称和类型。以下是一个简单的 Schema 定义:
from whoosh.index import create_in
from whoosh.fields import Schema, TEXT, ID
schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
index_dir='index'
ix = create_in(index_dir, schema)
我的理解就是相当于数据库的建表操作
其中stored用于指明是否存储该项的具体值
True
可以再搜索结果中直接访问到这个字段False
的话就只能进行搜索,但是在结果中是无法直接访问具体内容的。原因是倒排索引本身只会建立词元到记录之间的映射关系,并不会保存记录本身。要显示保存记录才能在搜索结果中访问
添加文档到索引非常简单,只需使用 IndexWriter
对象:
from whoosh.index import open_dir
ix = open_dir(index_dir)
writer = ix.writer()
writer.add_document(title=u"My Document", path=u"/a", content=u"This is the content of my document.")
writer.commit()
打开索引,然后获取writer,使用writer对象的add_document
方法添加记录,最后使用commit
方法确认提交。
whoosh会自动的进行词法分析并据此建立词元到记录之间的索引关系。
更新文档与添加文档类似,可以先删除旧文档,再添加新文档:
# 删除文档
writer.delete_by_term('path', u'/a')
# 添加更新后的文档
writer.add_document(title=u"Updated Document", path=u"/a", content=u"Updated content.")
writer.commit()
使用 Searcher
对象进行搜索,实现了上下文管理器:
from whoosh.qparser import QueryParser
with ix.searcher() as searcher:
# 这一句分成两部分理解:
# 1、根据schema和查询字段生成一个查询解析器
# 2、使用查询解析器解析查询语句并生成查询对象
query = QueryParser("content", ix.schema).parse(u"document")
results = searcher.search(query)
for result in results:
print(result['title'])
这种方法只能在单个字段上查询,比如根据时间查询,根据作者查询等等
Whoosh 支持多种高级搜索功能,如布尔查询、通配符查询和范围查询:
from whoosh.qparser import MultifieldParser
query = MultifieldParser(["title", "content"], ix.schema).parse(u"title:document AND content:updated")
results = searcher.search(query)
ps:就不细说了,我做日志分析也用不到这么多
搜索结果包含多个匹配的文档,可以通过遍历 results
对象来处理每个结果:
for result in results:
print(result['title'], result['path'])
Whoosh 提供了多种分析器和过滤器,可以根据需要进行定制:
from whoosh.analysis import StemmingAnalyzer
analyzer = StemmingAnalyzer()
schema = Schema(title=TEXT(stored=True, analyzer=analyzer), content=TEXT(analyzer=analyzer))
就是在划分词元的时候用什么分词器来划分,划分会影响索引的效果
比如:
我
,基于分词器2构建的索引是检索不到的如果使用分词器2,搜索词“我”并没有被单独划分出来,而是与“爱”一起作为一个词元“我爱”。在这种情况下,如果用户搜索“我”,基于分词器2构建的索引将无法检索到包含“我爱中国”的文档,因为索引中没有单独的词元“我”。
我需要对服务器每天产生的大量日志文件进行分析,检索出持续时间过长的请求(一次请求会产生多条日志,并且分布在各处,由id标识)和sql查询,并且还要定位出所有的系统出错。
最小堆
(我们只需要查找耗时最长的n次请求,并且如果直接先计算全部请求的数据然后进行排序会消耗大量的内存)2024/8/6