• X-Formers


    1. Memory Compressed Transformer(2018)

    这是让Transformer能更好地处理长序列的早期尝试之一,主要修改了两个部分:定位范围注意、内存压缩注意。

    其中,前者旨在将输入序列分为长度相似的模块,并在每个部分中运行自注意力机制,这样能保证每个部分的注意力成本不变,激活次数就能根据输入长度线性缩放。

    后者则是采用跨步卷积,减少注意力矩阵的大小、以及注意力的计算量,减少的量取决于跨步的步幅。

    2. Image Transformer(2018)

    这是个受卷积神经网络启发的Transformer变种,重点是局部注意范围,即将接受域限制为局部领域,主要有两种方案:一维局部注意和二维局部注意。

    不过,这种模型有一个限制条件,即要以失去全局接受域为代价,以降低存储和计算成本。

    3. Set Transformer(2019)

    这个模型是为解决一种特殊应用场景而生的:输入是一组特征,输出是这组特征的函数。

    它利用了稀疏高斯过程,将输入集大小的注意复杂度从二次降为线性。

    4. Sparse Transformer(2019)

    这个模型的关键思想,在于仅在一小部分稀疏的数据对上计算注意力,以将密集注意力矩阵简化为稀疏版本。

    不过这个模型对硬件有所要求,需要自定义GPU内核,且无法直接在TPU等其他硬件上使用。

    5. Axial Transformer(2019)

    这个模型主要沿输入张量的单轴施加多个注意力,每个注意力都沿特定轴混合信息,从而使沿其他轴的信息保持独立。

    由于任何单轴的长度通常都比元素总数小得多,因此这个模型可以显著地节省计算和内存。

    6. Longformer(2020)

    Sparse Transformer的变体,通过在注意力模式中留有空隙、增加感受野来实现更好的远程覆盖。

    在分类任务上,Longformer采用可以访问所有输入序列的全局token(例如CLS token)。

    7. Extended Transformer Construction(2020)

    同样是Sparse Transformer的变体,引入了一种新的全局本地注意力机制,在引入全局token方面与Longformer相似。

    但由于无法计算因果掩码,ETC不能用于自动回归解码。

    8. BigBird(2020)

    与Longformer一样,同样使用全局内存,但不同的是,它有独特的“内部变压器构造(ITC)”,即全局内存已扩展为在sequence中包含token,而不是简单的参数化内存。

    然而,与ETC一样,BigBird同样不能用于自动回归解码。

    9. Routing Transformer(2020)

    提出了一种基于聚类的注意力机制,以数据驱动的方式学习注意力稀疏。为了确保集群中的token数量相似,模型会初始化聚类,计算每个token相对于聚类质心的距离。

    10. Reformer(2020)

    一个基于局部敏感哈希(LSH)的注意力模型,引入了可逆的Transformer层,有助于进一步减少内存占用量。

    模型的关键思想,是附近的向量应获得相似的哈希值,而远距离的向量则不应获得相似的哈希值,因此被称为“局部敏感”。

    11. Sinkhorn Transformer(2020)

    这个模型属于分块模型,以分块的方式对输入键和值进行重新排序,并应用基于块的局部注意力机制来学习稀疏模式。

    12. Linformer(2020)

    这是基于低秩的自注意力机制的高效Transformer模型,主要在长度维度上进行低秩投影,在单次转换中按维度混合序列信息。

    13. Linear Transformer(2020)

    这个模型通过使用基于核的自注意力机制、和矩阵产品的关联特性,将自注意力的复杂性从二次降低为线性。

    目前,它已经被证明可以在基本保持预测性能的情况下,将推理速度提高多达三个数量级。

    14. Performer(2020)

    这个模型利用正交随机特征(ORF),采用近似的方法避免存储和计算注意力矩阵。

    15. Synthesizer models(2020)

    这个模型研究了调节在自注意力机制中的作用,它合成了一个自注意力模块,近似了这个注意权重。

    16. Transformer-XL(2020)

    这个模型使用递归机制链接相邻的部分。基于块的递归可被视为与其他讨论的技术正交的方法,因为它没有明确稀疏密集的自注意力矩阵。

    17. Compressive Transformers(2020)

    这个模型是Transformer-XL的扩展,但不同于Transformer-XL,后者在跨段移动时会丢弃过去的激活,而它的关键思想则是保持对过去段激活的细粒度记忆。

    https://baijiahao.baidu.com/s?id=1702254713561383082&wfr=spider&for=pc

  • 相关阅读:
    MySQL My.cnf参数梳理与延伸 (MYSQL 8 INNODB 类)
    vue 组件封装 综合案例2
    群接龙大团长有哪些,群接龙大团长如何对接?
    2024一定要看的文章系列!!!接口自动化测试框架思路和实战(5):【推荐】混合测试自动化框架(关键字+数据驱动)
    idea未知的解决方案
    线性代数视频笔记
    统计字符出现次数类Counter
    持续提升信息安全运维保障服务能力,天玑科技助力企业快速实现数字化转型
    MySQL索引失效
    精品,阿里P8爆款《SpringBoot+vue全栈开发实战项目》笔记太香了
  • 原文地址:https://blog.csdn.net/weixin_41560402/article/details/126820391