• EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解释理论框架


    3855e5ebba92484d949afcfd8e810f71.png

    论文题目:In-Context Learning Creates Task Vectors

    论文链接:https://arxiv.org/abs/2310.15916

    01. 引言

    938688b4f9e744c59e743f126fd79f4a.png

    此外,作者也提到本文的方法与软提示(soft-prompt)[1]方法类似,soft-prompt也是通过调整大模型内部transformer的激活值来实现特定的新任务,但是本文的方法仅在ICL的前向传播过程中进行调整,而不是微调整个模型来实现

    02. 解释ICL的理论框架

    2.1 理论框架

    2.2 ICL的假设空间

    4346f82b5d0e4f798f1df131f8eaf408.png

    03. 实验验证

    为了验证本文的理论框架,作者设计了4个类别中(包含算法、翻译、语言和事实知识方面)的18项不同任务来进行实验验证,下表中展示了不同任务的任务描述和具体示例。对于测试时使用的LLMs,作者选择了多个开源LLMs,包含LLaMA 7B、13B和30B版本[2]、GPT-J 6B版本[3]以及Pythia 2.8B、6.9B和12B版本[4]。

    df55408ac0544d3cb73f8805fee1e7bb.png

    7f4f1069978b4971ad7d7bababb3bd29.png

    从上图的结果可以看出, 的最优值几乎都在相似的中间层中出现,而与模型的参数规模和层数差异无关

    3.2 ICL理论框架的性能对比

    c9a78b3eacf34954928a5ea40fc45156.png

    3.3 任务向量的鲁棒性

    41a000c56f8f4bb1aa3c0a70fe98b7f9.png

    上图展示了使用t-SNE算法对任务向量降维后的簇分布情况,每个簇都包含单个任务的任务向量,下图进一步显示了同一类别任务之间的接近程度,这表明任务向量在一定程度上可以掌握不同任务的语义

    0b7f6f951e83497290e50f4a13bbb0a1.png

    78d06bdf15384ae9b7922f5d1ccaa9ac.png

    fdc7ea86eddf47b88d5182fe6db8dc0e.png

    上表显示了LLaMA-13B模型在三个任务上的激活token,在多种情况下,可以直接观察到描述任务的token,需要注意的是,这些单词从未明确出现在上下文中。例如,在从法语翻译成英语的任务中,可以观察到诸如“English”和“translate”之类的token。这进一步支持了本文的观点,即 携带了有关任务的重要的语义信息。

    04. 总结

    本文提出了一种针对LLMs中In-Context Learning的理论探索框架,揭示了一种ICL学习机制的新视角。本文提出的框架具备了简单而优雅的特性,其假设ICL过程通过将输入的训练示例压缩为单个任务向量来发挥作用,并且引导Transformer层根据给定的查询生成目标输出。将原本LLMs复杂的前向传递过程分解为一种学习算法和规则机制的组合,并且通过了大量的实验支持了本文的观点。目前社区的研究方向主要集中在如何提高LLMs的推理性能,但更需要探索LLM内部机理的基础工作作为指导。

    参考

    [1] Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.

    [2] Hugo Touvron, Thibaut Lavril et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

    [3] Ben Wang and Aran Komatsuzaki. 2021. GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model.

    [4] Stella Biderman, Hailey Schoelkopf et al. 2023. Pythia: A suite for analyzing large language models across training and scaling. arXiv preprint arXiv:2304.01373.


      关于TechBeat人工智能社区

    TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

    我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

    期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

    更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

  • 相关阅读:
    LearnOpenGL 及 ShaderToy 的 CMake 构建框架
    QT进阶---------pro项目文件中的常用命令 (第三天)
    上周热点回顾(2.12-2.18)
    VR虚拟现实技术应用到猪抗原体检测的好处
    【打开已有和新建Qt项目】
    Python3编程基础-变量与计算器
    使用 SolidJS 和 TypeScript 构建任务跟踪器
    Rocket Typist pro for mac 「Macos文本快速输入工具」
    Vue中实现过渡动画
    .NET 6 跨服务器联表查询, MySql、Oracle、SqlServer等相互联表
  • 原文地址:https://blog.csdn.net/hanseywho/article/details/134432081