FPT(Pretrained Transformer) 2022AAAI

论文题目（Title）：Pretrained Transformer As Universal Computation Engines

研究问题（Question）：在文本上预训练了的transformers可以轻松拓展到其他模态。

研究动机（Motivation）：对预训练模型进行所有参数的微调是一个很笨的工作，作者就在想有没有方法只fine-tune一部分参数就可以达到fine-tune所有参数的效果。

主要贡献（Contribution）：作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。

研究思路（Idea）：设定了一个Frozen Pretrain Transformer（FPT）网络，冻结self-attention和Feed forward的参数，只对input embedding positional embedding output layer 和 layer norm 的参数进行微调，作者发现只fine-tune这些参数也可以达到和fine-tune所有参数一样的分类模型效果。之后，作者做了一系列消融实验，发现其中起到最最重要的部分其实是layer norm 的fine-tune。

研究方法（Method）：论文提出了FPT模型，研究在数值计算 视觉 和蛋白质折叠预测 三个分类任务上如何对预训练语言模型进行微调。

研究过程（Process）：

实验使用了多种模态的分类任务

Bit memory：给定5个长度1k的bit串，每位以0.5的概率mask，任务是预测被mask的bit

Bit XOR：给定两个长度为5的bit串，判断xor。

ListOps：给定一系列的操作，判断最后输出的数字

MNIST

CIFAR-10

CIFAR-10 LRA：CIFAR-10变成了灰度图且被flatten掉（去掉了位置信息）

Remote homology detection：预测蛋白质的折叠

实验结果（Result）：

Transformer较之LSTM，存在明显模型优势。
FPT模型收敛速度 faster >> Random Transformer。
FPT 关注到数据中语义有效的模式，仅限Bit XOR任务。
FPT 会欠拟合，可在增大模型容量来改进；Linformer反映Transformer会在低资源数据下过拟合。
较之从头训练的Transformer，FPT增大模型容量不会出现过拟合和模型不收敛。
移除FPT中的逐层均值和标准差，该Statistics Only模型介于FPT和 Random Transformer之间。
FPT仅用于线性分类(Table. 10两项任务)的特征提取，1) 收敛加速；2）性能下降，模型过拟合（缺少对特征的正则化操作）。
With finetuning layernorm.：层少时，使用Pretrained Layer时对Token Mixing有效，层多到6层就没区别了。 Without finetuning layernorm.：Random模型一直不行，而Pretrained会ok，但是需要足够多的层才能恢复原始性能。
微调FFN Layer可提升性能，CIFAR-10只微调最后一个注意力层最佳。
+ layernorm, + input, + positions 都有用，其中+ layernorm最好。
仿射层范数参数的内部调制有所帮助，类似加入更精细的位置信息。
基于自然语言的预训练可提高非语言下游任务的性能和计算效率，该结论同样成立。

总结（Conclusion）：根据具体的任务fine-tune什么参数还得具体的分析，并没有一个范式来说明fine-tune哪部分就可以得到非常好的效果。

相关阅读:
其他数据库小知识
chatgpt赋能python：Python文件操作-查找指定内容
Ubantu GoLand安装
如何正确选择ARM核心板的存储类型
Android12之DRM架构(一)
数据结构学习系列之链式队列
Flask-RQ
Redis数据结构和类型
Java#28(集合进阶1---单列集合)
RxJava(四)-过滤操作符

原文地址：https://blog.csdn.net/zhu1534120216/article/details/127107035