原文地址:Chain-of-Symbol Prompting (CoS) For Large Language Models
大型语言模型需要理解通过自然语言描述的虚拟空间环境,并在环境中规划并实现定义的目标。
2024 年 1 月 29 日
LLMs的空间挑战:传统的思维链提示一般对LLMs来说是有效的,但其在空间场景中的表现在很大程度上仍未得到探索。
LLMs和空间理解:这项研究调查了LLMs使用自然语言模拟虚拟空间环境的复杂空间理解和规划任务的性能。
当前LLMs的局限性:LLMs在处理文本提示中的空间关系方面表现出局限性,引发了自然语言是否是复杂空间环境最有效表示的问题。
CoS 简介:本研究提出了一种称为符号链提示 (CoS)的方法,该方法在链式中间思维步骤中用压缩符号表示空间关系。
CoS 易于使用,不需要额外的LLMs培训。
性能改进:在三个空间规划任务和现有空间 QA 基准中,CoS 优于自然语言的思想链 (CoT) 提示。
CoS 的性能提升高达 60.8% 的准确性(从 31.8% 到 92.6%),同时提示中使用的令牌数量也减少了。
将空间任务转换为符号表示可能会增加该过程的复杂性和计算开销。
此外,它还需要注释,与自然语言中的思维链或基于程序的思维方法相比,注释可能更具挑战性
在某种程度上,描述供LLMs导航的虚拟空间环境是LLMs符号推理的延伸。
将符号推理与空间关系相结合是一种强大的组合,其中符号描述与其空间表示相联系。
这种方法的有效性是显而易见的,但挑战在于如何在没有任何手动干预或提示脚本的情况下自动大规模创建良好的 CoS 提示。
事实证明,LLMs在推理过程中表现出令人印象深刻的顺序文本推理能力,在遇到用自然语言描述的推理问题时,其表现会显着提升。
这种现象在称为“思想链”(CoT) 的方法中得到了清楚的说明,该方法引发了一些人称为“X 链”的现象。
下图显示了思想链 (CoT) 和符号链 (CoS) 之间的比较,说明了LLMs如何通过改进的性能和令牌使用来处理复杂的空间规划任务。Source
建议的创建 CoS 演示的三步程序:
上图中的提示工程示例显示了 Brick World、基于 NLVR 的操作(自然语言视觉表示)和自然语言导航的建议任务。符号链突出显示。