• [论文笔记]BitFit


    引言

    今天带来一篇参数高效微调的论文笔记,论文题目为 基于Transformer掩码语言模型简单高效的参数微调。

    BitFit,一种稀疏的微调方法,仅修改模型的偏置项(或它们的子集)。对于小到中等规模数据,应用BitFit去微调预训练的BERT模型能达到(有时超过)微调整个模型。对于大规模数据,该方法能与其他稀疏微调方法竞争。

    证明了微调主要是暴露由语言建模训练引发的知识,而不是学习新的任务特定的语言知识。

    总体介绍

    作者提出了一个简单但高效的方法进去微调,有以下优点:

    1. 每个微调的任务仅修改少量参数;
    2. 每个任务修改同样的参数集;
    3. 被修改的参数在整个参数空间中既孤立又局部化的;
    4. 对于少到中等规模数据,修改这些参数能达到全量微调效果,有时甚至还会超越后者;

    作者证明了固定网络的大部分参数,仅修改偏置项的参数能达到惊人的效果。如果能允许一些性能上的损失,甚至只需要修改两处偏置项(query和MLP中间的偏置项),这些被改变的参数约占模型中偏置参数的一半,并且仅占所有模型参数的0.04%。

    背景知识

    理想的情况是希望有一种微调方法具备以下特点:

    1. 能够与完全微调的模型的结果相匹配;
    2. 仅改变模型的一小部分参数;
    3. 能够流式访问任务,而不需要同时访问所有数据集;
    4. 在高效硬件部署中,希望参数修改的参数集在不同任务之间保持一致;

    学习 vs. 暴露 实现上述要求的可行性取决于对大型预训练语

  • 相关阅读:
    Docker的安装配置与使用
    探店通源码。短视频矩阵源码,look here
    生成器版和查看器版有什么区别?
    智慧国土解决方案-最新全套文件
    面向嵌入式系统的轻量级框架分析
    c++并行与并发
    11月了,焦虑烦躁,然后是无悲无喜
    彻底理解Java并发:Java线程池
    DBSCAN点云聚类
    对Spring的后置处理器BeanPostProcessor的使用
  • 原文地址:https://blog.csdn.net/yjw123456/article/details/133513456