• llm with vector db


    KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering

    大型语言模型(LLM)在广泛的自然语言任务中表现出了非凡的性能。然而,随着这些模型的规模不断扩大,它们在计算成本方面面临着重大挑战。此外,LLM通常缺乏对特定领域的有效理解,这在航空和医疗保健等专业领域尤为重要。为了促进对特定领域的理解,我们提出了KITLM,这是一种通过相关信息注入将知识库集成到语言模型中的新方法。通过集成相关知识,不仅大大提高了语言模型的性能,而且在实现可比性能的同时,还大大降低了对模型大小的要求。我们提出的知识注入模型的性能超过了GPT-3.5-turbo和最先进的知识注入方法SKILL,在MetaQA上的精确匹配分数提高了1.5倍以上。KITLM在航空领域表现出与AeroQA类似的性能提升。与现有方法相比,KITLM的性能有了显著提高,这可归因于在降低噪声的同时注入了相关知识。此外,我们发布了两个精心策划的数据集,以加速专业领域的知识注入研究:a)AeroQA,一个新的基准数据集,专为航空领域的多跳问答而设计;b)aviation Corpus,一个由国家运输安全委员会报告中提取的非结构化文本构建的数据集。我们的研究有助于推进特定领域的语言理解领域,并展示了知识注入技术在提高语言模型在问答中的性能方面的潜力。

    DISC-Med-SFT
    https://github.com/WangRongsheng/CareGPT
    https://github.com/PKU-YuanGroup/ChatLaw

    针对特定垂直领域的问答数据集可以为特定行业或主题的语言模型训练提供深度和精确性。以下是一些不同垂直领域的问答数据集:

    医疗和生物医学:
        BioASQ: 面向生物医学领域的问答数据集,包含了一系列专业的医疗问题及其答案。
        MEDIQA: 专注于医疗信息检索和问答,包含来自真实医疗环境的问题和答案。
    
    法律:
        LegalQA: 法律领域的问答数据集,包含法律相关的问题和答案,适用于训练专业的法律咨询系统。
        COLIEE (Competition on Legal Information Extraction/Entailment): 提供法律案例和法规相关的问答对。
    
    金融经济:
        FiQA: 金融投资领域的问答数据集,包含了与投资相关的问题和答案。
        ECONOMICS QA: 集中在经济学领域的问答,涵盖经济政策、市场趋势等相关问题。
    
    技术和IT:
        StackExchange QA: 包含了StackExchange网络上各种技术和IT相关论坛(如Stack Overflow)的问题和答案。
        Microsoft AI Challenge: 一个技术领域的问答数据集,主要由来自Bing搜索引擎的用户查询构成。
    
    教育:
        SciQ: 针对科学教育的问答数据集,包含中学水平的科学问题和答案。
        RACE: 包含了中小学英语考试中的阅读理解部分,每篇阅读材料后面都跟着几个问题和多个选择答案。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    每个数据集都针对其特定的领域设计,可以帮助构建更加专业和准确的问答系统。在使用这些数据集时,请确保遵守相关的使用条款和隐私政策。

  • 相关阅读:
    自定义类似微信效果Preference
    AWS SAA-C03 #113
    Vue Router
    【云原生 | 57】Docker三剑客之Docker Swarm֯使用其他服务发现后端
    vuex 动态导入 modules 文件夹下的所有模块
    【c++刷题Day3】专题5数组标记&哈希T3
    深度学习中常见概念(收敛、优化器、学习率等)
    JVM垃圾收集算法
    「数据结构详解·七」并查集的初步
    【JS】限制输入内容带特殊符号
  • 原文地址:https://blog.csdn.net/qq_45034517/article/details/134486551