[论文笔记]BitFit

引言

今天带来一篇参数高效微调的论文笔记，论文题目为基于Transformer掩码语言模型简单高效的参数微调。

BitFit，一种稀疏的微调方法，仅修改模型的偏置项(或它们的子集)。对于小到中等规模数据，应用BitFit去微调预训练的BERT模型能达到(有时超过)微调整个模型。对于大规模数据，该方法能与其他稀疏微调方法竞争。

证明了微调主要是暴露由语言建模训练引发的知识，而不是学习新的任务特定的语言知识。

作者提出了一个简单但高效的方法进去微调，有以下优点：

作者证明了固定网络的大部分参数，仅修改偏置项的参数能达到惊人的效果。如果能允许一些性能上的损失，甚至只需要修改两处偏置项(query和MLP中间的偏置项)，这些被改变的参数约占模型中偏置参数的一半，并且仅占所有模型参数的0.04%。

理想的情况是希望有一种微调方法具备以下特点：

学习 vs. 暴露 实现上述要求的可行性取决于对大型预训练语

相关阅读:
Docker的安装配置与使用
探店通源码。短视频矩阵源码，look here
生成器版和查看器版有什么区别?
智慧国土解决方案-最新全套文件
面向嵌入式系统的轻量级框架分析
c++并行与并发
11月了，焦虑烦躁，然后是无悲无喜
彻底理解Java并发：Java线程池
DBSCAN点云聚类
对Spring的后置处理器BeanPostProcessor的使用

原文地址：https://blog.csdn.net/yjw123456/article/details/133513456