• 使用 LangChain 和 Elasticsearch 对私人数据进行人工智能搜索


    关于本博文的所有代码可以在地址下载:GitHub - liu-xiao-guo/python-vector-private

    我将在本博文中其中深入研究人工智能和向量嵌入的深水区。 ChatGPT 令人大开眼界,但有一个主要问题。 这是一个封闭的托管系统。 在一个被大型网络公司改变的世界里生活了二十年之后,我们作为人们担心我们的私人信息甚至我们的知识仅仅因为我们使用互联网就成为他人的财产。 作为建立在竞争基础上的经济的参与者,我们对知识和数据集中在有反竞争行为历史的公司手中抱有强烈的不信任。

    因此,眼前的问题是:我能否获得本地大型语言模型,并在不使用云服务的情况下在我的笔记本电脑上运行生成式人工智能聊天? 本文将展示如何在本地部署大模型,并使用 Elasticsearch 进行向量搜索。

    我要建造什么?

    简而言之:我将构建一个人工智能聊天机器人,通过将 LLM 与向量存储相结合,它 “知道” 其预先训练的神经网络中没有的东西。

    我将从一个经常辅导的项目开始,最好将其描述为 “与我的书交谈”。 我没有发明这个,快速搜索发现其他一些通常使用付费 OpenAI API 的方法。 示例视频示例

    我将从我用来搜索的第一部分私人数据开始。一本从网上可以直接进行下载的一部书。 我将其转换为简单的 .txt 文件,并保存于项目中的 data/sample.txt 文件中。

    这将如何运作

    关键步骤

    • 文本被提取成小段落大小的块(chunks),足以容纳有关书的问题问题的所有答案。
    • 每个文本块都被传递给句子转换器,它生成一个密集向量,以向量嵌入的形式表示其语义含义
    • 这些块及其向量嵌入存储在 Elasticsearch 中
    • 当提出问题时,系统会为问题文本创建一个向量,然后查询 Elasticsearch 以查找语义上最接近问题的文本块; 想必有些文字会有答案。
    • 为 LLM 编写提示,将检索到的文本块作为额外的上下文知识 “填充”。
    • LLM 创建问题的答案

    有关为什么需要把文本分成不同大小的 chunks,原因如下:

    在本示例中,我将使用 sentence-transformers/all-mpnet-base-v2 模型。根据模型的描述,该模型的最大 token 长度为 384:

    也就是说,我们需要把书分成最多不超过 384 的 chunks。

    Langchain 让一切变得简单

    有一个很棒的 Python 库,名为 Langchain,它不仅包含实用程序库,使变压器和向量存储的使用变得简单,而且在某种程度上可以互换。 Langchain 拥有比我在这里使用的更高级的与 LLM 合作的模式,但这是一个很好的第一个测试。

    许多 Langchain 教程都需要使用付费 OpenAI 帐户。 OpenAI 很棒,并且目前可能在 LLM 质量竞赛中处于领先地位,但出于上述所有原因,我将使用免费的 HuggingFace 模型和 Elasticsearch。

    获取一些离线模型

    必须在 Huggingface 中创建一个帐户并获取 API 密钥。 之后,你可以使用 Huggingface_hub Python 或 Langchain 库以编程方式下拉模型。在运行代码的 terminal 中,你必须先打入如下的命令:

    export HUGGINGFACEHUB_API_TOKENs="YOUR TOKEN"

    我们在示例中使用如下的模型:

    安装

    如果你还没有安装好自己的 Elasticsearch 及 Kibana 的话,那么请参考如下的链接:

    在安装的时候,我们选择 Elastic Stack 9.x 的安装指南来进行安装。在默认的情况下,Elasticsearch 集群的访问具有 HTTPS 的安全访问。

    生成证书

    为了能使得 python 应用能够正常访问 Elasticsearch,我们使用如下的命令来生成 pem 证书:

    1. $ pwd
    2. /Users/liuxg/elastic/elasticsearch-8.10.0
    3. $ ./bin/elasticsearch-keystore list
    4. keystore.seed
    5. xpack.security.http.ssl.keystore.secure_password
    6. xpack.security.transport.ssl.keystore.secure_password
    7. xpack.security.transport.ssl.truststore.secure_password
    8. $ ./bin/elasticsearch-keystore show xpack.security.http.ssl.keystore.secure_password
    9. GcOUL8b2RxKooxJU-VymFg
    10. $ openssl pkcs12 -in ./config/certs/http.p12 -cacerts -out ./python_es_client.pem
    11. Enter Import Password:
    12. Enter PEM pass phrase:
    13. Verifying - Enter PEM pass phrase:
    14. Enter PEM pass phrase:
    15. Verifying - Enter PEM pass phrase:
    16. $ ls
    17. LICENSE.txt bin jdk.app modules
    18. NOTICE.txt config lib plugins
    19. README.asciidoc data logs python_es_client.pem

    我们把上面生成的 python_es_client.pem 文件拷贝到应用的根目录下。这样整个应用的目录架构如下:

    1. $ tree -L 3
    2. .
    3. ├── README.md
    4. ├── app-book.py
    5. ├── data
    6. │   └── sample.txt
    7. ├── lib_book_parse.py
    8. ├── lib_embeddings.py
    9. ├── lib_llm.py
    10. ├── lib_vectordb.py
    11. ├── python_es_client.pem
    12. ├── requirements.txt
    13. └── simple.cfg

    配置项目

    如上所示,我们有一个叫做 simple.cfg 的配置文件:

    simple.cfg

    1. ES_SERVER: "localhost"
    2. ES_PASSWORD: "vXDWYtL*my3vnKY9zCfL"
    3. ES_FINGERPRINT: "e2c1512f617f432ddf242075d3af5177b28f6497fecaaa0eea11429369bb7b00"

    我们需要根据自己的 Elasticsearch 服务器的地址来配置 ES_SERVER。我们也需要配置 elastic 超级用户的密码。这个密码可以在安装 Elasticsearch 时得到。当然你也可以使用其他用户的信息来进行练习。如果这样,你需要做相应的配置和代码改动。

    你还可以在 Kibana 的配置文件 confgi/kibana.yml 文件中获得 fingerprint 的配置:

    运行项目

    在运行项目之前,你需要做一下安装的动作:

    1. python3 -m venv env
    2. source env/bin/activate
    3. python3 -m pip install --upgrade pip
    4. pip install -r requirements.txt

    创建嵌入模型

    lib_embedding.py

    1. ## for embeddings
    2. from langchain.embeddings import HuggingFaceEmbeddings
    3. def setup_embeddings():
    4. # Huggingface embedding setup
    5. print(">> Prep. Huggingface embedding setup")
    6. model_name = "sentence-transformers/all-mpnet-base-v2"
    7. return HuggingFaceEmbeddings(model_name=model_name)

    创建向量存储

    lib_vectordb.py

    1. import os
    2. from config import Config
    3. ## for vector store
    4. from langchain.vectorstores import ElasticVectorSearch
    5. def setup_vectordb(hf,index_name):
    6. # Elasticsearch URL setup
    7. print(">> Prep. Elasticsearch config setup")
    8. with open('simple.cfg') as f:
    9. cfg = Config(f)
    10. endpoint = cfg['ES_SERVER']
    11. username = "elastic"
    12. password = cfg['ES_PASSWORD']
    13. ssl_verify = {
    14. "verify_certs": True,
    15. "basic_auth": (username, password),
    16. "ca_certs": "./python_es_client.pem",
    17. }
    18. url = f"https://{username}:{password}@{endpoint}:9200"
    19. return ElasticVectorSearch( embedding = hf,
    20. elasticsearch_url = url,
    21. index_name = index_name,
    22. ssl_verify = ssl_verify), url

    创建使用带有上下文和问题变量的提示模板的离线 LLM

    lib_llm.py

    1. ## for conversation LLM
    2. from langchain import PromptTemplate, HuggingFaceHub, LLMChain
    3. from langchain.llms import HuggingFacePipeline
    4. import torch
    5. from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSeq2SeqLM
    6. def make_the_llm():
    7. # Get Offline flan-t5-large ready to go, in CPU mode
    8. print(">> Prep. Get Offline flan-t5-large ready to go, in CPU mode")
    9. model_id = 'google/flan-t5-large'# go for a smaller model if you dont have the VRAM
    10. tokenizer = AutoTokenizer.from_pretrained(model_id)
    11. model = AutoModelForSeq2SeqLM.from_pretrained(model_id) #load_in_8bit=True, device_map='auto'
    12. pipe = pipeline(
    13. "text2text-generation",
    14. model=model,
    15. tokenizer=tokenizer,
    16. max_length=100
    17. )
    18. local_llm = HuggingFacePipeline(pipeline=pipe)
    19. # template_informed = """
    20. # I know the following: {context}
    21. # Question: {question}
    22. # Answer: """
    23. template_informed = """
    24. I know: {context}
    25. when asked: {question}
    26. my response is: """
    27. prompt_informed = PromptTemplate(template=template_informed, input_variables=["context", "question"])
    28. return LLMChain(prompt=prompt_informed, llm=local_llm)

    装载书籍

    以下是我的分块和向量存储代码。 它需要在 Elasticsearch 中准备好组成的 Elasticsearch url、huggingface 嵌入模型、向量数据库和目标索引名称

    lib_book_parse.py

    1. from langchain.text_splitter import RecursiveCharacterTextSplitter
    2. from langchain.document_loaders import TextLoader
    3. ## for vector store
    4. from langchain.vectorstores import ElasticVectorSearch
    5. from elasticsearch import Elasticsearch
    6. from config import Config
    7. with open('simple.cfg') as f:
    8. cfg = Config(f)
    9. fingerprint = cfg['ES_FINGERPRINT']
    10. endpoint = cfg['ES_SERVER']
    11. username = "elastic"
    12. password = cfg['ES_PASSWORD']
    13. ssl_verify = {
    14. "verify_certs": True,
    15. "basic_auth": (username, password),
    16. "ca_certs": "./python_es_client.pem",
    17. }
    18. url = f"https://{username}:{password}@{endpoint}:9200"
    19. def parse_book(filepath):
    20. loader = TextLoader(filepath)
    21. documents = loader.load()
    22. text_splitter = RecursiveCharacterTextSplitter(chunk_size=384, chunk_overlap=0)
    23. docs = text_splitter.split_documents(documents)
    24. return docs
    25. def loadBookBig(filepath, url, hf, db, index_name):
    26. es = Elasticsearch( [ url ],
    27. basic_auth = ("elastic", cfg['ES_PASSWORD']),
    28. ssl_assert_fingerprint = fingerprint,
    29. http_compress = True )
    30. ## Parse the book if necessary
    31. if not es.indices.exists(index=index_name):
    32. print(f'\tThe index: {index_name} does not exist')
    33. print(">> 1. Chunk up the Source document")
    34. docs = parse_book(filepath)
    35. # print(docs)
    36. print(">> 2. Index the chunks into Elasticsearch")
    37. elastic_vector_search= ElasticVectorSearch.from_documents( docs,
    38. embedding = hf,
    39. elasticsearch_url = url,
    40. index_name = index_name,
    41. ssl_verify = ssl_verify)
    42. else:
    43. print("\tLooks like the book is already loaded, let's move on")

    用问题循环将所有内容联系在一起

    解析这本书后,主控制循环是这样的

    1. # ## how to ask a question
    2. def ask_a_question(question):
    3. # print("The Question at hand: "+question)
    4. ## 3. get the relevant chunk from Elasticsearch for a question
    5. # print(">> 3. get the relevant chunk from Elasticsearch for a question")
    6. similar_docs = db.similarity_search(question)
    7. print(f'The most relevant passage: \n\t{similar_docs[0].page_content}')
    8. ## 4. Ask Local LLM context informed prompt
    9. # print(">> 4. Asking The Book ... and its response is: ")
    10. informed_context= similar_docs[0].page_content
    11. response = llm_chain_informed.run(context=informed_context,question=question)
    12. return response
    13. # # The conversational loop
    14. print(f'I am the book, "{bookName}", ask me any question: ')
    15. while True:
    16. command = input("User Question>> ")
    17. response = ask_a_question(command)
    18. print(f"\n\n I think the answer is : {response}\n")

    运行结果

    我们可以通过如下的命令来运行应用:

    python3 app-book.py 

    上面的问题是:

    when was it?Although it was not yet late, the sky was dark when I turned into Laundress Passage. 

    我们来尝试其他的问题:

    上面的问题是:

    what will I send to meet you from the half past four arrival at Harrogate Station?

    上面的问题是:

    what do I make all the same and put a cup next to him on the desk?

    上面的问题是:

    How long did I sit on the stairs after reading the letter? 

    Hooray! 我们完成了问答系统。它可以完美地回答我书里的内容。是不是觉得很神奇 :)

  • 相关阅读:
    element-plus 表格-自定义样式实现
    [蓝桥杯 2020 省 AB1] 走方格
    断崖式难度春招,需要注意这些点
    提高篇(二):高级绘图技巧:在Processing中创造精美图形
    Python实战——Selenium与iframe结合应用
    jmeter学习记录
    网络安全(黑客)——2024自学
    一款EF Core下高性能、轻量级针对分表分库读写分离的解决方案
    MPC入门
    uview 组件 u-form-item 点击事件
  • 原文地址:https://blog.csdn.net/UbuntuTouch/article/details/132979480