码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • M3E&ChatGLM向量化构建本地知识库


    M3E&ChatGLM向量化构建本地知识库

    • 整体步骤
    • 向量数据库
      • 向量数据库简介
      • 主流数据库
      • Milvus部署
    • 文本向量化
      • M3E介绍
      • 模型对比
      • M3E使用
      • 向量数据存储
    • 基于本地知识库的问答
      • 问句向量化
      • 向量搜索
      • 请求ChatGLM
      • 问答测试

    整体步骤

    • 向量化:首先,你需要将语言模型的数据转化为向量。这通常通过嵌入模型(embedding models)完成,比如word2vec,GloVe,或者BERT等,这些模型可以将文本数据转化为向量形式。
    • 存储:向量化后的数据可以存储在向量数据库中。向量数据库提供了一种高效的方式来存储和索引大量的向量数据。
    • 查询:存储在向量数据库中的向量可以通过向量空间中的搜索和比较操作来查询。例如,你可以通过查找与给定向量最相近的向量来找到与给定文本最相关的文本。

    向量数据库

    向量数据库简介

    向量数据库是一种特殊类型的数据库,它用于存储和处理向量数据。向量数据库的主要特点是能够高效地执行向量空间中的搜索和比较操作,比如最近邻搜索(nearest neighbor search)。向量数据库在许多领域都有应用,包括机器学习、人工智能、计算机视觉和自然语言处理等。

    主流数据库

    1. Faiss:Faiss是Facebook AI研究所开发的一种用于高效相似度搜索和聚类的库。它可以处理大量数据,并且支持在GPU上运行。
    2. Annoy (Approximate Nearest Neighbors Oh Yeah):Annoy是Spotify开发的一种用于大规模近似最近邻搜索的C++库。Annoy的优点是它支持动态添加向量,这对于需要不断更新数据的应用来说非常有用。
    3. Milvus:Milvus是一款开源的向量数据库,支持在线向量相似度搜索和向量聚类。它提供了丰富的API接口,可以方便地与其他系统进行集成。
    4. Pinecone:Pinecone是一款托管型向量搜索服务,提供全托管的向量搜索引擎,用于构建和部署大规模向量搜索应用。

    这里我们选择Milvus。

    Milvus部署

    Milvus是基于Docker部署的,你的Docker需要符合以下条件:

    • Docker 版本 > 19.03 部署docker
    • Docker Compose 版本 > 1.25.1 安装Compose

    1、下载保存docker-compose.standalone.yml并保存为docker-compose.yml:

    wget https://github.com/milvus-io/milvus/releases/download/v2.2.12/milvus-standalone-docker-compose.yml -O docker-compose.yml
    
    • 1

    2、启动单节点

    docker-compose up -d
    
    • 1

    3、通过命令确定单节点安装完成

    [root@slave2 docker]# sudo docker-compose psName                     Command                  State             Ports       
    --------------------------------------------------------------------------------------
    milvus-etcd         etcd -listen-peer-urls=htt ...   Up (healthy)   2379/tcp, 2380/tcp
    milvus-minio        /usr/bin/docker-entrypoint ...   Up (healthy)   9000/tcp          
    milvus-standalone   /tini -- milvus run standalone   Exit 132
    
    • 1
    • 2
    • 3
    • 4
    • 5

    4、关闭Milvus

    docker-compose down
    
    • 1

    5、启动Milvus

    
                    
  • 相关阅读:
    代码随想录算法训练营第56天|583. 两个字符串的删除操作,72. 编辑距离 (昨天的疑虑今天豁然开朗了)
    「Gitea篇」如何用Git平台账号登录建木CI
    【网络】网络层协议:IP(待更新)
    Android之startActivityForResult过时升级替换方法
    Leetcode 2926. Maximum Balanced Subsequence Sum
    剖析SGI STL空间配置器(核心设计:_S_chunk_alloc函数)
    第24篇 数据库(四)SQL查询模型QSqlQueryModel
    GBase 8c维护审计日志(二)
    常见协议UDP和TCP详解
    CSS-表格属性(1)
  • 原文地址:https://blog.csdn.net/weixin_44455388/article/details/132738672
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号