最近,大型语言模型(LLM)已成为一个激烈的话题,彻底改变了学术界和工业[11,97,129,149]。凭借从大型语料库进行预训练中获得的实质性事实知识和推理能力,LLMS表现出对文本信息的前所未有的理解,这些信息能够分析和生成类似于人类专家的文本[75,77,77,121,123,152] 。然而,由于大量参数,LLM的主要缺点是训练过程的极高计算开销[54,58,155]。世界的持续发展会加剧这一点,在这个世界上,更新预训练的LLMS以纠正过时的信息或合并新知识以保持其相关性的要求不断出现[76,81,116,120]。例如,如图1所示,一个过时的LLM无法准确描述莱昂内尔·梅西(Lionel Messi)的最新成就,这需要明确注入新知识才能产生正确的答案。

一个可行的直接策略以更新预训练的LLMS是通过简单的填充[21,31,126,141],直接优化预训练的LLMS的参数以从新数据中编码新知识[6,88,99,149 ]。例如,提出了各种基于instruction调查的方法,以监督的学习方式对新收集的语料库进行预训练的LLM [89,100,137,139]。尽管这种微调技术被广泛使用并能够向LLM注入新知识,但它们以下缺点而闻名:(1)即使提出了一些参数有效的策略,以提高效率[79,138,147],Fine Fine [79,138,147] - 调整LLM可能仍需要密集的计算资源[86,91,150]。 (2)填充模型可以过度拟合新数据,尤其是当用于微调的数据集规模较小时[25,87,90]。 (3)更重要的是,微调的LLMS改变了没有约束的预训练的权重,这可能会失去LLM中有价值的现有知识[29,59,84]。这些挑战限制了用新知识更新LLM的微调技术的实用性。
为了解决用于更新LLM的简单微调的缺点,更多的关注是基于知识的模型编辑(KME)。通常,KME旨在精确修改预训练的LLM的行为,以更新特定知识,而不会对其他与更新无关的其他预训练知识进行负面影响[104、135、145]。在KME中,通常将LLMS中特定知识的更新更新为编辑,例如纠正“谁是美国总统?”的答案。从“特朗普”到“拜登”。关于特定的编辑,KME策略通常通过将辅助网络(或一组参数)引入预训练的模型[47,72,151]或更新(部分)参数来存储新知识[47,72,151]来修改模型输出。 22、45、46、74]。通过这些策略,KME技术可以在记忆中存储新知识或将其定位在用于更新的模型参数中,从而精确地将知识注入模型中。此外,某些方法还引入了明确的损失以包含更新过程,以便编辑的模型在未修改的知识上保持一致的行为。有了这些优势,KME技术可以提供一种有效的方法,可以在不明确的模型重新训练的情况下不断地使用新颖知识更新LLM。
尽管KME与微调策略具有某些相似之处,但它在更新LLMS方面具有独特的优势,这值得进行更深入的调查。特别是,KME和模型微调都试图通过注入新知识来更新预训练的LLM。但是,除了这个共同的目标外,KME还专注于两个关键属性,这些属性无法通过微调轻松解决。 (1)局部性要求编辑的模型不会影响其他与不同语义的无关输入的输出。例如,当更新有关美国总统的编辑时,编辑的模型不应改变其对英国总理的了解。 KME方法的实用性在很大程度上取决于其维护输入无关的输出的能力,这是KME和微调之间的主要区别[105]。 (2)普遍性表示编辑的模型是否可以推广到有关编辑知识的更广泛的相关输入。具体而言,它表明该模型在共享语义相似性的输入上呈现一致行为的能力。例如,当对总统进行编辑时,总统配偶查询的答案也应相应地改变。实际上,对于KME方法,确保编辑模型可以很好地适应这些相关输入文本非常重要。总而言之,由于这两个独特的目标,KME仍然是一项具有挑战性的任务,需要具体的策略来达到令人满意的有效性。
这项调查与现有调查之间的差异。已经进行了几项调查,以检查(大)语言模型的各个方面[13,34,63,65,127,149]。然而,仍然缺乏彻底的调查,这些调查全面涵盖了现有文献和LLM编辑领域的持续进展。例如,最近的作品[89,139]讨论了将预训练的LLM中的新知识与更多数据样本融入新知识的微调策略。但是,KME的独特性,即局部性和普遍性,并未得到充分讨论,这将在本调查中进行彻底分析。另外两项调查[35,57]回顾了知识增强的语言模型。但是,他们的主要重点是利用外部知识来增强预训练的LLM的性能,而无需基于特定知识来解决编辑任务。据我们所知,与我们的调查最相关的论文是[145],它简要概述了KME,并简单地讨论了KME方法的优势及其挑战。然而,调查还缺乏对KME的更多细节,例如分类,数据集和应用程序的更多细节。最近的另一项工作[135]提出了一个KME的框架,该框架统一了几种代表性的方法。这项工作重点是实施KME技术,更少强调不同策略的技术细节。最近,一项工作[104]讨论了KME方法对编辑模型的忠诚的局限性,虽然相对较短,并且缺乏对所有现有方法的更全面的介绍。考虑到KME技术的快速发展,我们认为必须审查所有代表性KME方法的详细信息,总结共同点的同时讨论每种方法的独特性,并讨论KME领域中的开放挑战和前瞻性方向,这将促进该领域该领域的进一步发展。
这项调查的贡献:这项调查提供了与预训练的LLM相关的技术,挑战和机遇的全面,深入的分析。我们首先提供了KME任务的概述以及创新的配方。特别是,我们将一般的KME任务作为一个受约束的优化问题制定,同时结合了准确性,局部性和一般性的目标。然后,我们将现有的KME策略分为三个主要类别,即外部记忆,全局最佳和局部修改。更重要的是,我们证明,每个类别中的方法可以作为专门的约束优化问题进行表述,其中理论上根据一般公式对特征进行了汇总。此外,我们还提供了对每个类别方法的有效性和可行性的宝贵见解,这可以帮助从业者选择针对特定任务量身定制的最合适的KME方法。我们对KME方法的优势和劣势的分析也是KME研究界持续进步的催化剂。在具体的情况下,我们的主要贡献可以概括为三个倍,如下所示:
本文的其余部分安排如下。第2节介绍了LLM编辑的背景知识。第3节提供了KME任务的一般公式,可以适合各种应用程序方案。第4节提供了KME策略的评估指标的全面摘要,这对于对各种方法的公平比较至关重要。在深入研究特定方法之前,我们将现有方法的全面分类为第5.1节中的三个类别,在其中彻底讨论了它们的关系和差异。然后,我们详细介绍了三个类别的方法,其中总结了每个类别的优点和局限性。第6节介绍了普遍使用的公共数据集。第7节提供了可以从KME技术中受益的各种现实任务的详尽介绍。第8节讨论了现有技术尚未解决的KME的潜在挑战。本节还提供了一些潜在的方向,可以激发未来的研究。最后,我们在第9节中得出了这项调查。
编辑目标:在这项调查中,我们代表编码或需要注入预训练的LLM的知识作为知识Triple T =(S,R,O),其中S是主题(例如,美国总统),R是关系(例如,IS),O是对象(例如,拜登)。从知识三重的角度来看,llms的kme目的是修改模型的预训练权重中的原始知识t =(s,r,o)中的目标知识t ∗ =(s, r,o ∗),其中o ∗是与o不同的目标对象。通过这种方式,我们可以将编辑定义为元组e =(t,t ∗)=(s,r,o→O ∗),该编辑表示已过时的旧知识t更新到新知识t ∗中。


从上面的定义来看,我们可以总结有关KME目标的两个关键观点:(1)一般性,它要求可以在目标输出空间y ∗ e中获得正确的答案,如果给定输入空间中提示Xe,可以将目标知识三重t ∗∈E更新到预训练的模型中; (2)局部性,需要模型输出在无关输入(即X \ Xe)中的一致性,在编辑后可以最大程度地保留有价值的预训练的知识。在这里,我们注意到,局部性对于编辑LLM尤其重要,因为需要更新的知识通常只占据预先训练模型所包含的所有知识的一小部分。换句话说,关于大多数输入提示的编辑模型的输出应与编辑之前的输出保持一致。
准确度
局部性



通用性

保持性

可伸缩性



面对旧信息的快速贬值和新知识的出现,已经提出了各种KME方法来更新预训练的LLM,以保持其更新和相关性。 KME确保可以有效地将新知识纳入预训练的LLM中,而不会对与编辑无关的预培训知识产生负面影响。在此调查中,我们将现有的KME方法分为三个主要类,如下所示:
上述分类是根据(例如外部参数或内部权重)以及在编辑过程中将新信息引入LLM中的(例如,通过优化或直接合并)实现的。具体而言,每个类别的方法在SEC中引入的四个关键评估指标上都表现出不同的优势和劣势。 例如,在计算资源有限的情况下需要大量编辑的情况下,外部记忆占上风,因为内存的大小是可以控制的,以适应不同的要求。另一方面,当从业者更多地关注编辑知识的一般性时,全球优化是有利的,因为优化可以促进相关知识的学习[2]。

最近,已经建立了多个数据集,以促进KME方法的评估。在本节中,我们总结了表3中常用的数据集,以使未来的KME研究受益。具体来说,这些数据集可以分为两组:文本输出数据集(即生成任务)和分类输出数据集(即分类任务)。这些数据集是从各种来源获得的,包括知识图,Wikipedia页面,人群响应等,这些响应是由研究人员改编以适应KME设置的。


应用程序KME可以使多个下游应用程序受益,并能够精确有效地注入知识为预训练的LLM。在下文中,我们在现实的情况下介绍了KME技术的几个关键应用,在表4中提供了直观的示例。
尽管在开发KME策略方面取得了有效,有效地将新知识更新为LLM的成就,但KME研究仍处于新兴阶段。可以提出几个有希望的指示,以进一步发展这一领域。因此,我们确定了未来值得探索的五个鼓舞人心和重要的开放问题: