• FPT(Pretrained Transformer) 2022AAAI


    论文题目(Title):Pretrained  Transformer  As Universal Computation Engines

    研究问题(Question):在文本上预训练了的transformers可以轻松拓展到其他模态。

    研究动机(Motivation):对预训练模型进行所有参数的微调是一个很笨的工作,作者就在想有没有方法只fine-tune一部分参数就可以达到fine-tune所有参数的效果。

    主要贡献(Contribution):作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。

    研究思路(Idea):设定了一个Frozen Pretrain Transformer(FPT)网络,冻结self-attention和Feed forward的参数,只对input embedding positional embedding output layer 和 layer norm 的参数进行微调,作者发现只fine-tune这些参数也可以达到和fine-tune所有参数一样的分类模型效果。之后,作者做了一系列消融实验,发现其中起到最最重要的部分其实是layer norm 的fine-tune。

    研究方法(Method):论文提出了FPT模型,研究在数值计算 视觉 和蛋白质折叠预测 三个分类任务上如何对预训练语言模型进行微调。

    研究过程(Process):

    实验使用了多种模态的分类任务

    Bit memory:给定5个长度1k的bit串,每位以0.5的概率mask,任务是预测被mask的bit

    Bit XOR:给定两个长度为5的bit串,判断xor。

    ListOps:给定一系列的操作,判断最后输出的数字

    MNIST

    CIFAR-10

    CIFAR-10 LRA:CIFAR-10变成了灰度图且被flatten掉(去掉了位置信息)

    Remote homology detection:预测蛋白质的折叠

            实验结果(Result):

    • Transformer较之LSTM,存在明显模型优势。
    • FPT模型收敛速度 faster >> Random Transformer。
    • FPT 关注到数据中语义有效的模式,仅限Bit XOR任务。
    •  FPT 会欠拟合,可在增大模型容量来改进;Linformer反映Transformer会在低资源数据下过拟合。
    • 较之从头训练的Transformer,FPT增大模型容量不会出现过拟合和模型不收敛。
    • 移除FPT中的逐层均值和标准差,该Statistics Only模型介于FPT和 Random Transformer之间。
    • FPT仅用于线性分类(Table. 10两项任务)的特征提取,1) 收敛加速;2)性能下降,模型过拟合(缺少对特征的正则化操作)。
    • With finetuning layernorm.:层少时,使用Pretrained Layer时对Token Mixing有效,层多到6层就没区别了。 Without finetuning layernorm.:Random模型一直不行,而Pretrained会ok,但是需要足够多的层才能恢复原始性能。
    • 微调FFN Layer可提升性能,CIFAR-10只微调最后一个注意力层最佳。
    • + layernorm, + input, + positions 都有用,其中+ layernorm最好。
    • 仿射层范数参数的内部调制有所帮助,类似加入更精细的位置信息。
    • 基于自然语言的预训练可提高非语言下游任务的性能和计算效率,该结论同样成立。

    总结(Conclusion):根据具体的任务fine-tune什么参数还得具体的分析,并没有一个范式来说明fine-tune哪部分就可以得到非常好的效果。

  • 相关阅读:
    actionBar 导航栏学习
    MindSpore编译时报错
    Python is not set from command line or npm configuration 报错解决
    面向嵌入式系统的轻量级框架分析
    CROS错误 403 preflight 预检
    Matlab基础一、关于初始化数组,数据矩阵,三维数据,字符串数组
    深入理解面向对象(第二篇)
    Complete the MST 题解
    15.0、C语言——指针详解(1)
    Nginx多出口IP解决代理端口数量限制,CentOS安装Nginx并开启https2.0
  • 原文地址:https://blog.csdn.net/zhu1534120216/article/details/127107035