以ChatGPT为主的大语言模型出现已有半年时间,研究逐渐从针对模型本身的进化和功能,延展到如何更为有效地利用大模型,将它与其它工具结合,落地,以解决实际领域中的问题。
这里的增强主要指让大语言模型(LM)与外部扩展模块相结合,从而获得超越单纯的自然语言建模的能力。具体能力包含:推理、使用工具、行动。它不仅能解决更多类型的问题,在连接外部模块后,其处理自然语言处理能力也得到突破性进展。
本文介绍一篇增强语言模型综述,以及几篇最近发表的具体应用方法和框架的文章。
英文题目: Augmented Language Models: a Survey
中文题目: 增强语言模型综述
论文地址: http://arxiv.org/abs/2302.07842
解读:https://blog.csdn.net/xieyan0811/article/details/130910473?spm=1001.2014.3001.5501
(将近5000字,太长就不贴了)
一篇综述性文章,来Meta,发布时间为2023-02-15。
文章从方法论的角论进入阐释。内容分为六部分:介绍,推理,使用工具和行动,学习方法,讨论,结论,正文22页。
对于比较关注 LM 领域的读者,这篇文章中并没有提到让人意外的特殊方法。然而,文章对现有方法进行了全面细致的整理,提供了全景视角的概览,详细引用了相关文献和软件示例。是对知识很好的概览和梳理,可作为入门读物。
本篇来自加州大学&微软,发布时间为2023-04-19。
英文题目: Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
中文题目: Chameleon:使用大型语言模型进行即插即用的组合推理
论文地址: http://arxiv.org/abs/2304.09842
解读:

其中可使用的工具包含:

本篇来自加州大学&微软,发布时间为2023-05-15。
英文题目: Small Models are Valuable Plug-ins for Large Language Models
中文题目: 小型模型作为大型语言模型的插件
论文地址: http://arxiv.org/abs/2305.08848
解读

图-1(a)部分展示了ICL的工作过程(之前),它从训练集的上下文中采样,再结合测试集数据一起传给LLM,得到输出;
图-1(b)展示了SuperICL的工作过程,分为三步:
本篇来自香港大学&微软,发布时间为2023-05-18。
英文题目: Augmented Large Language Models with Parametric Knowledge Guiding
中文题目: 参数化知识指导的增强大语言模型
论文地址: http://arxiv.org/abs/2305.04757
解读:
