码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【chatglm3】(4):如何设计一个知识库问答系统,参考智谱AI的知识库系统,


    0,视频地址

    https://www.bilibili.com/video/BV16j411E7FX/?vd_source=4b290247452adda4e56d84b659b0c8a2

    【chatglm3】(4):如何设计一个知识库问答系统,参考智谱AI的知识库系统,学习设计理念,开源组件

    1,知识库项目地址

    https://open.bigmodel.cn/knowledge

    在这里插入图片描述
    知识配置:

    在这里插入图片描述

    演示效果:

    在这里插入图片描述

    2,系统原理参考

    项目地址是:
    https://github.com/chatchat-space/Langchain-Chatchat

    gitee搬运的项目:

    https://gitee.com/yang_hong_quan/Langchain-Chatchat

    在这里插入图片描述
    文档流程:

    在这里插入图片描述

    3,涉及系统开发

    智谱AI大模型接口:

    https://open.bigmodel.cn/dev/api#text_embedding

    https://open.bigmodel.cn/dev/api#http

    4,向量数据库

    名称开源社区星语言说明
    weaviate是5.3k starGo同时支持向量与对象的存储、支持向量检索与结构化过滤、具备主流模式成熟的使用案例。高速、灵活,不仅仅具备向量检索,还会支持推荐、总结等能力
    qdrant是6.3k starRust向量存储与检索、云原生、分布式、支持过滤、丰富的数据类型、WAL日志写入
    milvus是17.7k starGo极高的检索性能: 万亿矢量数据集的毫秒级搜索非结构化数据的极简管理丰富的API跨平台实时搜索和分析可靠:具有很高的容灾与故障转移能力高度可拓展与弹性支持混合检索统一的Lambda架构社区支持、行业认可。

    milvus 向量数据库可以研究下:

    https://milvus.io/

    可以使用docker 进行项目部署
    https://milvus.io/docs/install_standalone-docker.md

    5,开源模型 Embeddings

    Text2vec文本表征及相似度计算:包括text2vec-large-chinese(LERT,升级版)、base(CoSENT方法训练,MacBERT)两个模型。这个模型也使用了word2vec(基于腾讯的800万中文词训练)、SBERT(Sentence-BERT)、CoSENT(Cosine Sentence)三种表示方法训练
    https://modelscope.cn/models/thomas/text2vec-large-chinese/summary

    百度的 ernie-3.0-base-zh:https://github.com/PaddlePaddle/PaddleNLP
    SimCSE:https://github.com/princeton-nlp/SimCSE
    M3E:Moka Massive Mixed Embedding的缩写,由MokaAI训练,训练脚本使用 uniem,评测BenchMark使用MTEB-zh,通过千万级 (2200w+) 的中文句对数据集进行训练。

    https://www.modelscope.cn/models/xrunda/m3e-base/summary

    6,总结

    通过大语言模型快速搭建本地知识库系统。
    将本地数据知识结合业务场景应用。非常不错的事情。
    最重要的是转换格式,做 embedding ,然后存储到向量数据库中。

  • 相关阅读:
    智慧城市解决方案典型应用
    计算机毕业设计Java健身房管理系统(源码+系统+mysql数据库+lw文档)
    VH6501模板工程介绍(一)
    C++入门知识
    fastreport在delphi中的使用
    来看这份小微风控中的税票数据(含衍生等字段)
    后台日志打印配置
    linux磁盘共享
    土豆网鼠标经过显示遮罩---pink老师课程案例
    X86架构和X64架构有什么区别?
  • 原文地址:https://blog.csdn.net/freewebsys/article/details/134452005
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号