• GPT 的基础 - T(Transformer)


    我们知道GPT的含义是:
    Generative - 生成下一个词
    Pre-trained - 文本预训练
    Transformer - 基于Transformer架构

    我们看到Transformer模型是GPT的基础,这篇博客梳理了一下Transformer的知识点。


    • BERT: 用于语言理解。(Transformer的Encoder)
    • GPT: 用于语言生成。(Transformer的Decoder)

    GPT也是在BERT的基础上发展起来的,只是OpenAI和google、百度走了不同的路线。


    Transformer本质上提出了一种基于注意力机制的encoder-decoder框架或架构。这个架构中的主要组件,如多头注意力机制、位置编码、残差连接以及前馈神经网络都是通用的构建块。


    Transformer对比RNN或者LSTM有这些优点:

    1. 并行计算
    2. 长期依赖学习
    3. 训练更稳定
    4. 更少的参数
    5. 无需标定的输入输出

    Transformer主要缺点如下:

    1. Transformer无法很好地建模周期时间序列。
    2. Transformer可能不适合较短序列。
    3. 计算复杂度较高。
    4. 缺乏韵律和时域信息。

    Encoder的组成:

    • Inputs - 输入分词层(Tokenize)
    • Input Token Embedding 输入词向量嵌入化(WordEmbedding)
    • Transformer Block 中间Encoder层可以简单把这个盒子理解为一个Block ,整 Transformer Block中可以在分解为四层:
      • self-attention layer 自注意力计算层
      • normalization layer 归一化层
      • feed forward layer 前馈层
      • anothernormalization layer 另一个归一化层

    Decoder和Encoder唯一的区别就是多了一个Encode-Decode注意力层,然后最后一层接了个linear+softmax层,损失函数就是交叉熵损失。


    • Self-Attention 计算过程

    在这里插入图片描述
    第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和。

    • 多头-Attention的计算
      在这里插入图片描述

    把multi-headed输出的不同的z,组合成最终想要的输出的z,这就是multi-headed Attention要做的一个额外的步骤。


  • 相关阅读:
    文本归一化---学习笔记
    vue3+Element-plus el-select 下拉选择 多选增加全选封装组件
    芯和半导体“射频EDA/滤波器设计平台”闪耀IMS2022
    docker快速搭建kafka集群
    HBase-12-HBase容灾策略
    使用Pega进行一个简单的RPA程序开发
    ARM官方汇编与ARM GNU汇编中的伪操作
    python可视化----pyqtgraph
    DiskPressure(磁盘压力)
    2024抖音矩阵云混剪系统源码 短视频矩阵营销系统
  • 原文地址:https://blog.csdn.net/qq_30262201/article/details/136332872