标题:合作中的大型语言模型和因果推理:全面调查
author:Xiaoyu Liu, Paiheng Xu, Junda Wu, Jiaxin Yuan, Yifan Yang, Yuhang Zhou, Fuxiao Liu, Tianrui Guan, Haoliang Wang, Tong Yu, Julian McAuley, Wei Ai, Furong Huang
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09606v1
摘要:
因果推理通过捕捉变量之间的因果关系,在提高自然语言处理(NLP)模型的预测准确性、公平性、稳健性和可解释性方面显示出潜力。生成式大型语言模型(LLM)的出现极大地影响了各种 NLP 领域,尤其是通过其先进的推理能力。本调查侧重于从因果关系的角度评估和改进 LLM,主要涉及以下几个方面:了解和改进 LLM 的推理能力、解决 LLM 的公平性和安全性问题、用解释对 LLM 进行补充以及处理多模态问题。同时,LLMs 强大的推理能力反过来又能帮助因果关系的发现和因果效应的估计,从而为因果推理领域做出贡献。本综述从这两个角度探讨了因果推理框架与 LLM 之间的相互作用,强调了它们在进一步开发更先进、更公平的人工智能系统方面的共同潜力。
标题:VisionGPT-3D:用于增强三维视觉理解的通用多模态代理
author:Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou
publish:12 pages, 7 figures, pending conference
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09530v1
摘要:
从文本到视觉组件的演变为人们的日常生活提供了便利,例如从文本生成图像、视频以及识别图像中的所需元素。前些日子,涉及多模态能力的计算机视觉模型主要集中在基于明确定义的对象的图像检测和分类上。大型语言模型(LLMs)引入了从自然语言到视觉对象的转换,呈现了文本上下文的视觉布局。OpenAI GPT-4 已成为大型语言模型的巅峰之作,而计算机视觉(CV)领域则拥有大量最先进的(SOTA)模型和算法,可将二维图像转换为三维图像。然而,算法与问题之间的不匹配可能导致不理想的结果。为了应对这一挑战,我们提出了一个统一的 VisionGPT-3D 框架来整合最先进的视觉模型,从而促进面向视觉的人工智能的发展。VisionGPT-3D 基于多模态基础模型的优势,提供了一个通用的多模态框架。它无缝集成了各种 SOTA 视觉模型,实现了 SOTA 视觉模型选择的自动化,确定了与二维深度图分析相对应的合适的三维网格创建算法,并根据文本提示等各种多模态输入生成最佳结果。 关键词VisionGPT-3D、三维视觉理解、多模态代理
标题:MT-PATCHER:为机器翻译从大型语言模型中提炼选择性和可扩展的知识
author:Jiahuan Li, Shanbo Cheng, Shujian Huang, Jiajun Chen
publish:Accepted to NAACL-2024
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09522v1
摘要:
大型语言模型(LLM)已在机器翻译(MT)领域展现出其强大的能力,但却存在计算成本高和延迟的问题。因此,将大型语言模型中的翻译知识转移到中型机器翻译模型中是一个很有前景的研究方向。然而,传统的知识提炼方法并没有考虑到学生和教师模型的能力,因此只能重复教授学生模型已学过的知识,而无法扩展到新的语境和知识。在本文中,我们提出了一个名为 MT-Patcher 的框架,它能有选择地、全面地、主动地将知识从 LLM 转移到现有的 MT 模型中。考虑到学生 MT 模型当前的翻译能力,我们只对其翻译错误进行识别和纠正,而不是从教师那里提炼整个翻译。利用 LLM 的强大语言能力,我们指导 LLM 教师综合各种语境,为学生预测更多潜在错误。翻译特定语言现象和一般 MT 基准的实验结果表明,在 10% 左右的例子上对学生 MT 模型进行微调,可以取得与传统知识提炼法相当的效果,而综合潜在错误和多样化语境则进一步提高了未见语境和单词的翻译性能。
标题:TaxoLLaMA:基于词网的多词法语义任务解决模型
author:Viktor Moskvoretskii, Ekaterina Neminova, Alina Lobanova, Alexander Panchenko, Irina Nikishina
publish:18 pages, 8 figures
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09207v1
摘要:
本文以 LLaMA-2-7b 模型为例,探讨了 LLM 从 WordNet 中捕捉词义知识的能力,并在多个词义任务中对其进行了测试。作为实验结果,我们推出了 TaxoLLaMA,这是一个万物一体的模型,由于采用了 4 位量化和 LoRA,因此重量很轻。它取得了 11 项 SotA 结果,在分类法丰富(Taxonomy Enrichment)、超词发现(Hypernym Discovery)、分类法构建(Taxonomy Construction)和词义关联(Lexical Entailment)等 16 项任务中取得了 4 项前 2 名的结果。此外,它还在词义纠错和分类法构建任务中表现出了极强的零误差性能,且无需微调。我们还探索了其隐藏的多语言和领域适应能力,只需少量调整或少量学习。所有数据集、代码和模型均可在 https://github.com/VityaVitalich/TaxoLLaMA 上在线获取。
标题:Dial-insight:利用高质量的特定领域数据微调大型语言模型,防止能力崩溃
author:Jianwei Sun, Chaoyang Mei, Linlin Wei, Kaiyu Zheng, Na Liu, Ming Cui, Tianyi Li
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09167v1
摘要:
大型语言模型(LLM)的功效在很大程度上取决于基础数据的质量,尤其是在专业领域。在针对特定领域应用对 LLM 进行微调时,一个常见的挑战是模型的泛化能力可能会下降。为了解决这些问题,我们提出了一种分两个阶段构建生产提示的方法,旨在生成高质量的数据。这种方法包括生成一系列不同的提示语,这些提示语涵盖了广泛的任务并表现出丰富的表达方式。此外,我们还引入了一个具有成本效益的多维质量评估框架,以确保生成的标签数据的完整性。利用由房地产行业的服务提供商和客户互动组成的数据集,我们证明了数据质量和模型性能之间的正相关性。值得注意的是,我们的研究结果表明,通过使用我们提出的方法生成的数据进行微调,可以提高通用 LLM 的特定领域能力,而不会影响其整体泛化能力,即使在微调时只使用特定领域的数据也是如此。
标题:探究传统中医药知识中对 ChatGPT 的理解
author:Li Yizhen, Huang Shaohan, Qi Jiaxing, Quan Lei, Han Dongran, Luan Zhongzhi
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09164v1
摘要:
中医是医学知识的一个重要而独特的分支,有着悠久的历史,以前没有人研究过大语言模型(LLM)在中医方面的表现。为了弥补这一空白,我们提出了一个名为 TCM-QA 的中医问题数据集,其中包括三种问题类型:单选、多选和真假,以检验 LLM 在中医领域的知识召回和综合推理能力。在我们的研究中,我们评估了 LLM 的两种设置,即零点击和少点击设置,同时讨论了中英文提示之间的差异。结果表明,ChatGPT 在真假题中表现最佳,精确度最高,达到 0.688,而在多选题中精确度最低,仅为 0.241。此外,我们还观察到,在我们的评估中,中文提示优于英文提示。此外,我们还评估了 ChatGPT 生成的解释的质量及其对中医知识理解的潜在贡献。本文就 LLM 在专业领域的适用性提出了宝贵的见解,并为未来利用这些强大的模型推动中医药发展的研究铺平了道路。
标题:揭示微调大语言模型的泛化能力
author:Haoran Yang, Yumeng Zhang, Jiaqi Xu, Hongyuan Lu, Pheng Ann Heng, Wai Lam
publish:NAACL 2024
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09162v1
摘要:
虽然大型语言模型(LLMs)已经证明了其卓越的多任务处理能力,但与未进行微调的模型相比,在下游特定领域数据集上对这些模型进行微调往往是必要的,这样才能在测试集上获得更出色的性能。然而,人们对微调对 LLMs 泛化能力的综合影响并不完全了解。本文将深入探讨未经修改的原始 LLM 与经过微调的 LLM 之间的差异。我们的主要研究重点是微调是否会影响 LLMs 固有的泛化能力。为了详细说明这一点,我们在各种数据集上对五种不同的语言任务进行了广泛的实验。我们的主要发现表明,对生成和分类任务进行微调的模型在泛化到不同领域和任务时表现出不同的行为。有趣的是,我们观察到,在生成任务的微调过程中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究,我们旨在为不断发展的 LLM 微调实践提供有价值的见解。
标题:用于自动医学笔记生成的持续预训练 LLM 方法
author:Dong Yuan, Eti Rastogi, Gautam Naik, Jai Chintagunta, Sree Prasanna Rajagopal, Fen Zhao, Sagar Goyal, Jeff Ward
date Time:2024-03-14
paper pdf:http://arxiv.org/pdf/2403.09057v1
摘要:
LLM 正在彻底改变 NLP 任务。然而,最强大的 LLM(如 GPT-4)对于大多数特定领域的场景来说成本太高。我们提出了首个基于 13B Llama2 的连续训练 LLM,该 LLM 专为医学对话而构建,并在自动划线中进行了测量。结果表明,在 PubMedQA 中,我们的模型以 76.6% 的准确率超越了 GPT-4,在将医学对话总结为 SOAP 笔记方面,我们的模型与 GPT-4 的表现不相上下。值得注意的是,我们的模型在捕捉更多正确的医学概念方面超过了 GPT-4,并在更高的正确性和完整性方面优于人类抄写员。
标题:持续预训练大型语言模型的简单可扩展策略
author:Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08763v1
摘要:
大型语言模型(LLM)通常需要对数十亿个词库进行预训练,一旦有了新的数据,又要重新开始训练。更有效的解决方案是持续预训练这些模型,这样比重新训练节省大量计算量。然而,新数据引起的分布转移通常会导致先前数据的性能下降或对新数据的适应性变差。在这项工作中,我们展示了学习率(LR)再升温、LR 再衰减和重放以前的数据等简单而可扩展的组合,足以在所有可用数据上与从头开始重新训练的性能相媲美,这是以最终损失和语言模型(LM)评估基准来衡量的。具体来说,我们展示了两个常用 LLM 预训练数据集(English
→
\rightarrow
→English)和一个更强的数据集(English
→
\rightarrow
→German)在 4.05 亿美元参数模型规模下的微弱但现实的分布转移,以及大型数据集规模(数千亿词条)。在更大规模的实验中,我们选择了较弱但切合实际的偏移,同时发现我们的持续学习策略与 10B 参数 LLM 的再训练基线相匹配。我们的结果表明,通过简单、可扩展的持续学习策略,可以成功更新 LLM,只需使用一小部分计算量就能与再训练基线相匹配。最后,受之前工作的启发,我们提出了余弦学习率计划的替代方案,有助于规避 LR 回温引起的遗忘,而且不受固定代币预算的限制。
标题:TeaMs-RL:通过强化学习教 LLM 自学更好的指令
author:Shangding Gu, Alois Knoll, Ming Jin
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08694v1
摘要:
大型语言模型(LLM)的开发经常面临挑战,这些挑战源于强化学习与人类反馈(RLHF)框架中对人类注释者的严重依赖,或与自我指导范式相关的频繁而昂贵的外部查询。在这项工作中,我们转向了强化学习(RL)–但有一个转折。与典型的 RLHF(在指令数据训练后完善 LLM)不同,我们使用 RL 直接生成基础指令数据集,仅此数据集就足以进行微调。我们的方法 TeaMs-RL 使用一套文本操作和规则,优先考虑训练数据集的多样化。它有助于生成高质量数据,而无需过度依赖外部高级模型,从而为单一微调步骤铺平了道路,并消除了对后续 RLHF 阶段的需求。我们的研究结果凸显了我们的方法的主要优势:减少了对人工参与的需求,减少了模型查询次数(仅为WizardLM总查询次数的5.73美元/%$),同时,与强大的基线相比,LLM在制作和理解复杂指令方面的能力得到了增强,模型隐私保护也得到了大幅改善。
标题:MedInsight:利用大型语言模型生成以患者为中心的医疗响应的多源语境增强框架
author:Subash Neupane, Shaswata Mitra, Sudip Mittal, Noorbakhsh Amiri Golilarz, Shahram Rahimi, Amin Amirlatifi
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08607v1
摘要:
大型语言模型(LLM)在生成类似人类的应答方面表现出了令人印象深刻的能力。然而,由于缺乏特定领域的知识,它们在医疗保健领域的适用性受到了限制,因为在医疗保健领域,上下文相关和全面的回复至关重要。为了应对这一挑战,并生成以患者为中心、与上下文相关且全面的回复,我们提出了 MedInsight:一种新颖的检索增强框架,它利用来自多个来源的相关背景信息来增强 LLM 输入(提示)。MedInsight 从病人的医疗记录或问诊记录中提取相关细节。然后,它根据患者的健康史和病情,整合了权威医学教科书和精心策划的网络资源中的信息。MedInsight 将病人的病历与相关医学知识相结合,构建了一个增强的上下文,从而生成了丰富的、针对特定病人的响应,这些响应是为诊断、治疗建议或病人教育等医疗保健应用量身定制的。在 MTSamples 数据集上进行的实验验证了 MedInsight 在生成符合语境的医疗回复方面的有效性。使用 Ragas 指标和 TruLens 对答案相似性和答案正确性进行的定量评估证明了该模型的有效性。此外,由主题专家 (SME) 参与的人工评估研究也证实了 MedInsight 的实用性,在生成的回答的相关性和正确性方面,评分者之间达成了中等程度的一致。
标题:丰富语义知识增强的大语言模型用于少量中文拼写检查
author:Ming Dong, Yujing Chen, Miao Zhang, Hao Sun, Tingting He
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08492v1
摘要:
中文拼写检查(CSC)是一项应用广泛的技术,在语音转文本(STT)和光学字符识别(OCR)中发挥着重要作用。现有的 CSC 方法大多依靠 BERT 架构实现出色的性能。然而,受限于基础模型的规模,基于 BERT 的方法在少拍场景下效果不佳,在实际应用中表现出一定的局限性。在本文中,我们探索使用一种名为 RS-LLM(Rich Semantic based LLMs)的上下文学习方法来引入大型语言模型(LLMs)作为基础模型。此外,我们还研究了在我们的框架中引入各种中文丰富语义信息的影响。我们发现,通过引入少量特定的富中文语义结构,LLMs 在少量 CSC 任务中取得了比基于 BERT 的模型更好的性能。此外,我们还在多个数据集上进行了实验,实验结果验证了我们提出的框架的优越性。
标题:从人类专家到机器:本体和知识图谱构建的 LLM 支持方法
author:Vamsi Krishna Kommineni, Birgitta König-Ries, Sheeba Samuel
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08345v1
摘要:
构建本体和知识图谱(KG)的传统过程主要依赖于人类领域专家来定义实体和关系类型、建立层次结构、保持与领域的相关性、填充 ABox(或用实例填充)以及确保数据质量(包括准确性和完整性)。另一方面,大语言模型(LLM)最近因其理解和生成类似人类自然语言的能力而大受欢迎,为这一过程的自动化提供了前景广阔的方法。这项工作探索了在开源 LLMs 的帮助下(半)自动构建 KG 的方法。我们的流程包括提出能力问题(CQs)、基于这些 CQs 开发本体(TBox)、使用开发的本体构建 KG,以及在人类专家极少参与甚至不参与的情况下评估 KG 的结果。我们利用学术出版物创建了一个关于深度学习方法的知识库,展示了我们半自动化管道的可行性。为了评估通过 “检索-增强-生成”(RAG)生成的答案以及使用 LLM 自动提取的 KG 概念,我们设计了一个法官 LLM,该 LLM 基于基本事实对生成的内容进行评级。我们的研究结果表明,使用 LLM 有可能减少构建 KG 所需的人力,不过我们还是建议采用人在回路中的方法来评估自动生成的 KG。
标题:CleanAgent:使用基于 LLM 的代理自动实现数据标准化
author:Danrui Qi, Jiannan Wang
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08291v1
摘要:
数据标准化是数据科学生命周期的关键部分。虽然 Pandas 等工具提供了强大的功能,但它们的复杂性和根据不同列类型定制代码所需的人工工作带来了巨大挑战。虽然像 ChatGPT 这样的大型语言模型(LLMs)已经显示出通过自然语言理解和代码生成实现这一过程自动化的前景,但它仍然需要专家级的编程知识和持续的互动来及时完善。为了解决这些挑战,我们的主要想法是提出一个 Python 库,该库具有声明式、统一的应用程序接口(API),用于规范列类型,通过简洁的 API 调用简化 LLM 的代码生成。我们首先提出了 Dataprep.Clean,它是作为 Dataprep 库的一个组件编写的,只需一行代码即可实现特定列类型的标准化,从而大大降低了复杂性。然后,我们介绍了集成 Dataprep.Clean 和基于 LLM 的代理的 CleanAgent 框架,以实现数据标准化过程的自动化。有了 CleanAgent,数据科学家只需提供一次他们的需求,就能实现免动手的自动标准化流程。
标题:以大型语言模型作为不流畅语生成器,提升不流畅语检测能力
author:Zhenrong Cheng, Jiayan Guo, Hao Sun, Yan Zhang
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08229v1
摘要:
目前的不流畅检测方法严重依赖于昂贵而稀缺的人工标注数据。为解决这一问题,一些方法采用启发式或统计特征来生成不流利句子,从而部分提高了检测性能。然而,这些句子往往偏离真实生活场景,制约了整体模型的增强。在本研究中,我们提出了一种用于不流利检测的轻量级数据增强方法,利用大语言模型(LLM)卓越的生成和语义理解能力生成不流利句子作为增强数据。我们利用 LLM 在特定提示的引导下生成多样化和更真实的句子,而无需对 LLM 进行微调。随后,我们采用不确定性感知数据过滤方法来提高生成句子的质量,并利用该方法训练小型检测模型以提高性能。使用增强数据进行的实验取得了最先进的结果。结果表明,使用少量由 LLM 生成的增强数据可以显著提高性能,从而进一步提高成本效益。
标题:大型语言模型是对比推理器
author:Liang Yao
date Time:2024-03-13
paper pdf:http://arxiv.org/pdf/2403.08211v1
摘要:
提示方法在提高预训练大型语言模型(LLM)的能力方面发挥着至关重要的作用。我们探讨了对比性提示(CP)如何显著提高大型语言模型执行复杂推理的能力。我们只需在 LLM 提供答案之前添加 "让我们给出一个正确答案和一个错误答案。在两个大型语言模型上进行的实验表明,零镜头对比提示提高了一系列算术、常识和符号推理任务的性能,而不需要任何手工制作的零镜头示例,例如,使用最先进的 GPT-4 模型,GSM8K 的准确率从 35.9% 提高到 88.8%,AQUA-RAT 的准确率从 41.3% 提高到 62.2%。我们的方法不仅在大多数算术和常识推理任务中超越了零次CoT和少次CoT,而且还能与现有的提示方法无缝集成,从而与最先进的方法相比取得更好或相当的结果。我们的代码见 https://github.com/yao8839836/cp
标题:CHAI:用于高效 LLM 推理的聚类头部注意力
author:Saurabh Agarwal, Bilge Acun, Basil Homer, Mostafa Elhoushi, Yejin Lee, Shivaram Venkataraman, Dimitris Papailiopoulos, Carole-Jean Wu
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.08058v1
摘要:
拥有数千亿个参数的大型语言模型(LLM)改变了机器学习领域。然而,在推理时为这些模型提供服务需要大量的计算和内存,单个请求可能需要多个 GPU 和数十 GB 的内存。多头注意(Multi-Head Attention)是 LLM 的关键组件之一,它占 LLM 内存和计算需求的 50% 以上。我们观察到,各头在关注哪些代币上存在大量冗余。基于这一观点,我们提出了集群头部关注(CHAI)。CHAI 在运行时将具有高度相关性的头部组合起来进行自我关注,从而减少内存和计算量。我们的实验表明,CHAI 能够将存储 K,V 缓存的内存需求降低 21.4%,将推理时间延迟降低 1.73 倍,而无需进行任何微调。在 3 个不同模型(即 OPT-66B、LLAMA-7B 和 LLAMA-33B)和 5 个不同评估数据集中,CHAI 的准确率偏差最大仅为 3.2%。
标题:LG-Traj:LLM 引导的行人轨迹预测
author:Pranav Singh Chib, Pravendra Singh
publish:Under Review
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.08032v1
摘要:
准确的行人轨迹预测对各种应用都至关重要,它需要深入了解动态环境中的行人运动模式。然而,现有的行人轨迹预测方法仍需进一步探索,才能充分利用这些运动模式。本文研究了使用大型语言模型(LLM)通过诱导运动线索来改进行人轨迹预测任务的可能性。我们介绍了 LG-Traj,这是一种结合大型语言模型生成行人过往/观察轨迹中运动线索的新方法。我们的方法还通过使用高斯混合物对训练数据的未来轨迹进行聚类,将行人未来轨迹中存在的运动线索纳入其中。这些运动线索以及行人坐标有助于更好地理解底层表示。此外,我们还利用奇异值分解来增强观察到的轨迹,并将其纳入模型学习过程,从而进一步增强表征学习。我们的方法采用了基于变压器的架构,包括一个运动编码器和一个社会解码器,前者用于对运动模式建模,后者用于捕捉行人之间的社会互动。我们在流行的行人轨迹预测基准(即 ETH-UCY 和 SDD)上展示了我们方法的有效性,并介绍了各种消融实验来验证我们的方法。
标题:Pix2Pix-OnTheFly:利用 LLM 进行指令引导的图像编辑
author:Rodrigo Santos, João Silva, António Branco
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.08004v1
摘要:
语言处理与图像处理的结合越来越受到人们的关注,因为这两个领域的研究都取得了令人瞩目的进展。在这些进展中,仅根据自然语言指令编辑图像的任务最具挑战性。虽然最近针对这一任务的方法都或多或少地采用了某种形式的前期准备、训练或微调,但本文探索的是一种新方法:我们提出了一种无需准备的方法,允许在指令指导下即时编辑图像。这种方法分为三个步骤,首先是图像标题和 DDIM 反转,然后是获得编辑方向嵌入,最后是图像编辑。在无需前期准备的情况下,我们的方法证明了其有效性和竞争力,在 MAGICBRUSH 数据集上进行评估时,我们的方法优于近期用于该任务的最先进模型。
标题:利用顺序指令微调大型语言模型
author:Hanxu Hu, Pinzhen Chen, Edoardo M. Ponti
publish:11pages, 3 figures
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07794v1
摘要:
大型语言模型(LLMs)在跟踪单个查询中的指令序列时很吃力,因为它们可能会忽略或误解其中的一部分。这影响了它们在解决需要多个中间步骤的复杂问题时的性能,例如多语言(先翻译后回答)和多模态(先字幕后回答)任务。我们使用 LLaMA-2 70B 和 Mixtral-8x7B 等大型开源 LLM 验证了这一点。针对目前数据中顺序指令稀缺的问题,我们提出了顺序指令调整,这是一种简单而有效的策略,可自动增强指令调整数据,使 LLM 具备执行多条顺序指令的能力。在探索了现有数据集(如 Alpaca)中的交错指令和各种中间任务后,我们发现,在涉及推理、多语言和多模态能力的下游任务中,经过顺序指令调整的模型始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了对抗性中间文本、未见任务、提示口头化、任务数量和提示长度对 SIT 的影响。我们希望这种方法能为复杂任务的教学调整开辟新的研究途径。
标题:通过视觉词进行多模态自动回归建模
author:Tianshuo Peng, Zuchao Li, Lefei Zhang, Hai Zhao, Ping Wang, Bo Du
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07720v1
摘要:
大型语言模型(LLM)得益于在海量未标注文本语料库中执行的自动回归建模方法,展现出强大的感知和推理能力。然而,在将自动回归建模扩展到多模态场景以建立大型多模态模型(LMM)时,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得用于分类的离散监督标签。本文首次成功实现了目标统一的多模态自动回归建模。具体来说,我们提出了视觉词的概念,将视觉特征映射为 LLM 词汇表中的概率分布,为视觉建模提供了监督信息。我们进一步探索了视觉特征在 LMM 语义空间中的分布,以及使用文本嵌入来表示视觉信息的可能性。在 5 个 VQA 任务和 4 个基准工具包上进行的实验结果和消融研究验证了我们提出的方法的强大性能。
标题:KnowCoder:将结构化知识编码为 LLM,用于通用信息提取
author:Zixuan Li, Yutao Zeng, Yuxin Zuo, Weicheng Ren, Wenxuan Liu, Miao Su, Yucan Guo, Yantao Liu, Xiang Li, Zhilei Hu, Long Bai, Wei Li, Yidan Liu, Pan Yang, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07969v2
摘要:
在本文中,我们提出了通过代码生成进行通用信息提取(UIE)的大语言模型(LLM)–KnowCoder。KnowCoder旨在开发一种大型语言模型(LLM)易于理解的统一模式表示法,以及一种有效的学习框架,以鼓励大型语言模型(LLM)遵循模式并准确提取结构化知识。为了实现这些目标,KnowCoder引入了一种代码式模式表示方法,将不同的模式统一转换为Python类,从而以一种对本地语言学习者友好的方式捕获复杂的模式信息,例如UIE中任务之间的约束。我们进一步构建了一个代码风格的模式库,涵盖了超过
30,000
\textbf{30,000}
30,000 的知识类型,据我们所知,这是 UIE 中最大的模式库。为了简化LLMs的学习过程,KnowCoder包含一个两阶段学习框架,通过代码预训练增强其模式理解能力,通过指令调整增强其模式跟踪能力。在对约1.5
B
的自动构建数据进行代码预训练后,
K
n
o
w
C
o
d
e
r
已经获得了显著的泛化能力,与
L
L
a
M
A
2
相比,
K
n
o
w
C
o
d
e
r
在少数几个镜头的设置下实现了
B的自动构建数据进行代码预训练后,KnowCoder已经获得了显著的泛化能力,与LLaMA2相比,KnowCoder在少数几个镜头的设置下实现了
B的自动构建数据进行代码预训练后,KnowCoder已经获得了显著的泛化能力,与LLaMA2相比,KnowCoder在少数几个镜头的设置下实现了\textbf{49.8%}$ F1的相对改进。经过指令调整后,KnowCoder在未见模式上进一步展现出强大的泛化能力,与sota基线相比,在零镜头设置和低资源设置下,分别实现了高达KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{12.5%}和KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{21.9%}的泛化。此外,基于我们统一的模式表示,各种人类标注的数据集可同时用于完善KnowCoder,在有监督的环境下,KnowCoder实现了高达KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{7.5%}的显著改进。
标题:利用对比奖励改进从人类反馈中的强化学习
author:Wei Shen, Xiaoying Zhang, Yuanshun Yao, Rui Zheng, Hongyi Guo, Yang Liu
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07708v2
摘要:
来自人类反馈的强化学习(RLHF)是根据人类偏好调整大型语言模型(LLM)的主流模式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标签错误)很脆弱、很敏感,从而使管道变得脆弱。在这项工作中,我们通过在奖励上引入惩罚项来提高奖励模型的有效性,该惩罚项被命名为textit{contrastive rewards}。我们的方法包括两个步骤:(1) 离线采样步骤,获取对提示的回应,作为计算基线;(2) 使用基线回应计算对比奖励,并将其用于近端策略优化 (PPO) 步骤。我们的研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,我们的实证结果表明,对比性奖励可以大幅提高 RLHF,而且我们的方法始终优于强基线。
标题:从小到大(S2L):通过总结小型模型的训练轨迹,为微调大型语言模型选择可扩展数据
author:Yu Yang, Siddhartha Mishra, Jeffrey N Chiang, Baharan Mirzasoleiman
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07384v1
摘要:
尽管大型语言模型(LLM)在预训练和指导微调阶段的数据选择非常有效,但由于微调数据的复杂性,提高专业领域监督微调(SFT)的数据效率仍面临巨大挑战。为了弥补这一差距,我们为 SFT 引入了一种有效且可扩展的数据选择方法–SmallToLarge(S2L),它利用小型模型的训练轨迹来指导大型模型的数据选择。我们通过大量实验证明,S2L 能显著提高 SFT 在数学问题求解中的数据效率,将训练数据减少到原始 MathInstruct 数据集(Yue 等人,2023 年)的 11%,以匹配完整数据集的性能,同时在 6 个域内和域外评估数据集上平均比最先进的数据选择算法高出 4.7%。值得注意的是,S2L 只为 SFT 选择了 50K 数据,就在最具挑战性的 MATH(Hendrycks 等人,2021 年)基准上实现了 32.7% 的准确率,将 Phi-2(Li 等人,2023 年 b)提高了 16.6%。在 MIMIC-III 数据集(Johnson 等人,2016 年)的临床文本总结中,S2L 仅使用了 50%的数据,就再次超越了在完整数据集上进行的训练。值得注意的是,S2L 可以使用比目标模型小 40 倍的参考模型进行数据选择,从而按比例降低了数据选择的成本。
标题:NavCoT:通过学习分离推理,提升基于 LLM 的视觉语言导航能力
author:Bingqian Lin, Yunshuang Nie, Ziming Wei, Jiaqi Chen, Shikui Ma, Jianhua Han, Hang Xu, Xiaojun Chang, Xiaodan Liang
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07376v1
摘要:
视觉语言导航(VLN)是嵌入式人工智能(Embodied AI)的一个重要研究课题,它要求嵌入式代理按照自然语言指令在复杂的三维环境中导航。最近的研究强调了大语言模型(LLM)在 VLN 中的巨大潜力,它可以提高导航推理的准确性和可解释性。然而,由于 VLN 任务与 LLM 训练语料库之间存在巨大的领域差距,LLM 通常以离线方式使用。本文介绍了一种名为 “思维导航链”(Navigational Chain-of-Thought,NavCoT)的新策略,我们通过参数高效的域内训练来实现自我导航决策,从而以经济高效的方式显著缩小域差距。具体来说,在每个时间步,LLM 都会通过以下方式预测导航思维链:1) 作为世界模型,根据指令想象下一个观测点;2) 选择与想象最吻合的候选观测点;3) 根据之前步骤的推理确定行动。通过为训练构建形式化标签,LLM 可以学习生成所需的合理思维链输出,从而改进行动决策。各种训练设置和流行的 VLN 基准(如房间到房间 (R2R)、房间到房间 (RxR)、房间到房间 (R4R))的实验结果表明,NavCoT 明显优于直接行动预测变体。通过简单有效的参数微调,我们的 NavCoT 在 R2R 数据集上的表现优于最近基于 GPT4 的方法,相对改进幅度约为 7%。我们相信,NavCoT 将有助于解锁更多任务自适应和可扩展的基于 LLM 的化身代理,这对开发真实世界的机器人应用很有帮助。代码见 https://github.com/expectorlin/NavCoT。
标题:用于链接预测的知识图谱大型语言模型 (KG-LLM)
author:Dong Shu, Tianle Chen, Mingyu Jin, Yiting Zhang, Mengnan Du, Yongfeng Zhang
publish:23 pages, 2 figures
date Time:2024-03-12
paper pdf:http://arxiv.org/pdf/2403.07311v2
摘要:
预测知识图谱(KG)中的多个链接是知识图谱分析领域的一项挑战,而由于自然语言处理(NLP)和知识图谱嵌入技术的进步,这项挑战越来越容易解决。本文介绍了一种新颖的方法–知识图谱大语言模型框架(KG-LLM),它利用关键的 NLP 范式,包括思维链(CoT)提示和上下文学习(ICL),来增强知识图谱中的多跳链接预测。通过将 KG 转换为 CoT 提示,我们的框架旨在识别和学习实体的潜在表征及其相互关系。为了展示 KG-LLM 框架的功效,我们在此框架内对三个领先的大型语言模型(LLM)进行了微调,并采用非 ICL 和 ICL 任务进行了综合评估。此外,我们还探索了该框架为 LLMs 提供处理以前从未见过的提示的 "0-shot "能力的潜力。我们的实验结果发现,整合 ICL 和 CoT 不仅能提高我们方法的性能,还能显著增强模型的泛化能力,从而确保在不熟悉的场景中做出更精确的预测。
标题:RA-ISF:通过迭代式自我反馈从检索增强中学习回答和理解
author:Yanming Liu, Xinyue Peng, Xuhong Zhang, Weihao Liu, Jianwei Yin, Jiannan Cao, Tianyu Du
publish:15 pages, 4 figures. Providing first version RA-ISF
date Time:2024-03-11
paper pdf:http://arxiv.org/pdf/2403.06840v1
摘要:
大型语言模型(LLM)在众多任务中表现出卓越的性能,但仍然严重依赖于其参数中存储的知识。此外,更新这些知识需要高昂的训练成本。检索增强生成(RAG)方法通过整合外部知识来解决这一问题。模型可以通过检索与查询相关的知识来回答以前无法回答的问题。这种方法在某些情况下可以提高特定任务的性能。但是,如果检索到不相关的文本,可能会影响模型的性能。在本文中,我们提出了 “检索增强迭代自我反馈”(RA-ISF)这一框架,它将任务迭代分解并在三个子模块中进行处理,以增强模型解决问题的能力。实验表明,我们的方法优于现有基准,在 GPT3.5、Llama2 等模型上表现良好,显著增强了事实推理能力,减少了幻觉。
标题:ALaRM:通过层次奖励建模对齐语言模型
author:Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei
publish:15 pages, 6 figures
date Time:2024-03-11
paper pdf:http://arxiv.org/pdf/2403.06754v1
摘要:
我们介绍了 ALaRM,它是第一个在人类反馈强化学习(RLHF)中模拟分层奖励的框架,旨在增强大型语言模型(LLM)与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励整合在一起,解决了当前对齐方法的局限性,这些方法往往难以应对人类监督信号的不一致性和稀缺性。这种整合能更精确、更一致地指导语言模型实现预期结果,尤其是在复杂、开放的文本生成任务中。通过采用一种基于一致性过滤和组合多种奖励的方法,该框架提供了一种可靠的机制来改善模型的一致性。我们在长式问题解答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较,验证了我们的方法,并展示了与现有基线相比的改进。我们的工作强调了分层奖励建模在改进 LLM 训练过程以改善人类偏好对齐方面的有效性。我们在 https://ALaRM-fdu.github.io 上发布了我们的代码。
标题:利用大型语言模型和主动学习进行不断发展的知识提炼
author:Chengyuan Liu, Yangyang Kang, Fubang Zhao, Kun Kuang, Zhuoren Jiang, Changlong Sun, Fei Wu
publish:Accepted by COLING 2024
date Time:2024-03-11
paper pdf:http://arxiv.org/pdf/2403.06414v1
摘要:
大型语言模型(LLM)已在各种 NLP 任务中展现出非凡的能力。然而,它们的计算成本过高。为了解决这个问题,以往的研究试图通过生成注释数据,将 LLM 的知识提炼为更小的模型。不过,这些研究主要集中在直接使用 LLMs 进行文本生成和标注,而没有充分挖掘其理解目标任务和获取有价值知识的潜力。在本文中,我们提出了 EvoKD: Evolving Knowledge Distillation,它利用主动学习的概念,交互式地增强了使用大型语言模型生成数据的过程,同时提高了小型领域模型(学生模型)的任务能力。与以往的工作不同,我们会主动分析学生模型的弱点,然后根据分析结果合成标注样本。此外,我们还就学生模型的表现向 LLM 提供迭代反馈,以不断构建多样化和具有挑战性的样本。对不同 NLP 任务(即文本分类和命名实体识别)的实验和分析表明了 EvoKD 的有效性。
标题:是什么让大型语言模型的量化变得困难?从扰动的角度进行实证研究
author:Zhuocheng Gong, Jiahao Liu, Jingang Wang, Xunliang Cai, Dongyan Zhao, Rui Yan
date Time:2024-03-11
paper pdf:http://arxiv.org/pdf/2403.06408v1
摘要:
量化技术已成为提高大型语言模型(LLM)内存和计算效率的一种有前途的技术。虽然性能与效率之间的权衡已众所周知,但量化与 LLM 性能之间的关系仍有许多问题需要了解。为了阐明这种关系,我们提出了量化的新视角,将其视为添加到 LLM 权重和激活中的扰动。我们称这种方法为 “扰动透镜”。利用这一视角,我们对各种人工扰动进行了实验,以探索它们对 LLM 性能的影响。我们的研究结果揭示了扰动特性与 LLM 性能之间的若干联系,深入揭示了均匀量化的失败案例,并提出了提高 LLM 量化鲁棒性的潜在解决方案。为了证明我们发现的重要性,我们根据我们的见解实施了一种简单的非均匀量化方法。我们的实验表明,这种方法在权重和激活度的 4 位权重量化和 8 位量化上都实现了最小的性能下降。这些结果验证了我们方法的正确性,并凸显了它在不牺牲性能的前提下提高 LLM 效率的潜力。