论文题目(Title):Pretrained Transformer As Universal Computation Engines
研究问题(Question):在文本上预训练了的transformers可以轻松拓展到其他模态。
研究动机(Motivation):对预训练模型进行所有参数的微调是一个很笨的工作,作者就在想有没有方法只fine-tune一部分参数就可以达到fine-tune所有参数的效果。
主要贡献(Contribution):作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。
研究思路(Idea):设定了一个Frozen Pretrain Transformer(FPT)网络,冻结self-attention和Feed forward的参数,只对input embedding positional embedding output layer 和 layer norm 的参数进行微调,作者发现只fine-tune这些参数也可以达到和fine-tune所有参数一样的分类模型效果。之后,作者做了一系列消融实验,发现其中起到最最重要的部分其实是layer norm 的fine-tune。
研究方法(Method):论文提出了FPT模型,研究在数值计算 视觉 和蛋白质折叠预测 三个分类任务上如何对预训练语言模型进行微调。
研究过程(Process):
实验使用了多种模态的分类任务
Bit memory:给定5个长度1k的bit串,每位以0.5的概率mask,任务是预测被mask的bit
Bit XOR:给定两个长度为5的bit串,判断xor。
ListOps:给定一系列的操作,判断最后输出的数字
MNIST
CIFAR-10
CIFAR-10 LRA:CIFAR-10变成了灰度图且被flatten掉(去掉了位置信息)
Remote homology detection:预测蛋白质的折叠
实验结果(Result):
总结(Conclusion):根据具体的任务fine-tune什么参数还得具体的分析,并没有一个范式来说明fine-tune哪部分就可以得到非常好的效果。