• 语言模型是超级马里奥: 从同源模型中吸收能力是免费午餐(阿里巴巴)


    一、写作动机:

    对于语言模型(LM)而言,有监督式微调(SFT)是一种被广泛采用的策略。SFT 在预训练模型的基础上,通过微调其参数来获得激发了特定能力的微调模型。显而易见,SFT 带来的效果体现在了模型在 SFT 前后的参数变化中,可以称之为 delta 参数。阿里团队的研究者们首先证实 SFT 后的 LMs(无论是基于编码器还是基于解码器的)倾向于学习到大量冗余的 delta 参数。

    二、主要贡献:

    研究者们借鉴 Dropout 的思路提出了 DARE(Drop And REscale)来显著降低 delta 参数的冗余性。在将 DARE 应用于拥有 700 亿参数的 LMs 后,可以在维持模型性能的前提下去除多达 99% 的 delta 参数。同时,LMs 拥有的参数越多,它就能容忍越大的。

    进一步地,研究者们通过 DARE 来合并多个同源的 LMs(即从同一个预训练模型微调而来的多个模型):首先使用 DARE 降低每个模型中的参数冗余性,而后利用现有模型合并方法来获得具有多样能力的单个模型。

    三、方法:

    3.1什么是delta参数:

    给定任务t,预训练 LM 的参数和 SFT LM 的参数,delta 参数被定义为 SFT 前后 LM 参数之差:

    3.2什么是模型合并:

    给定一组 K 个任务 {t1, t2, - - , tK } 和 K 个相应的 SFT 模型(参数为 θt1 SFT, θt2 SFT, - - , θtK SFT),模型合并的目的是将 K 个模型的参数融合为一个能同时处理 K 个任务的单一模型。

    3.3Dare方法消除delta参数冗余:

    DARE 由两个步骤组成:删除和重缩放。给定delta参数,DARE 首先根据丢弃率 p 对 δt 进行随机丢弃(将其值设为零),然后按系数 1/(1 - p) 对剩余的delta参数进行重新缩放,如下所示:

    最后, 研究者们将 \hat{\delta }^t\theta_{pre}相加来得到用于推理的参数,:

    3.4使用Dare进行模型合并:

    研究模型合并方法的一个难点在于:对原始的模型参数进行简单的加权平均等运算会产生参数冲突,导致合并得到的模型效果比合并前的模型差。研究者们认为 DARE 具备的大幅降低参数冗余性的能力能天然地克服这一问题,并将 DARE 作为一个通用的预处理技术来有效地合并多个 LMs。

    研究者们首先使用 DARE 来消除每个模型中的冗余 delta 参数以缓解多个模型之间的参数冲突,而后基于现有的模型合并方法整合降低了冗余性的 delta 参数。DARE 能应用于任何现有的模型合并方法,以 Task Arithmetic 方法来举例,DARE 的应用过程可以写为如下公式:

    四、实验:

    4.1SFT后delta参数的极度冗余:

    4.2使用Dare进行模型合并:

    4.3重新缩放操作的重要性:

    五、使用Dare的前提条件:

    当 SFT delta 参数的绝对值相对较小(例如小于 0.005)时,DARE 可以很好地工作。否则,DARE 可能会失败。

  • 相关阅读:
    Timer定时器 GNU linux
    负载均衡加权轮询算法
    访问一次网站的全过程
    Windows服务器高物理内存占用问题排察【伴随黑客攻击】
    Python中__init__.py的作用介绍
    Nlog&Prism&WPF
    常用组合逻辑verilog实现之8-3优先编码器
    HTML5期末大作业:美妆网页主题网站设计——清新的手工肥皂网站展示(4页)HTML+CSS+JavaScript
    FPGA面试题
    vue3 为什么快, 相对于vue2 做了那些优化
  • 原文地址:https://blog.csdn.net/weixin_45785795/article/details/136370559