GPT 的基础 - T（Transformer）

我们知道GPT的含义是：
Generative - 生成下一个词
Pre-trained - 文本预训练
Transformer - 基于Transformer架构

我们看到Transformer模型是GPT的基础，这篇博客梳理了一下Transformer的知识点。

GPT也是在BERT的基础上发展起来的，只是OpenAI和google、百度走了不同的路线。

Transformer本质上提出了一种基于注意力机制的encoder-decoder框架或架构。这个架构中的主要组件,如多头注意力机制、位置编码、残差连接以及前馈神经网络都是通用的构建块。

Transformer对比RNN或者LSTM有这些优点：

Transformer主要缺点如下:

Encoder的组成：

Inputs - 输入分词层（Tokenize）
Input Token Embedding 输入词向量嵌入化（WordEmbedding）
Transformer Block 中间Encoder层可以简单把这个盒子理解为一个Block ，整 Transformer Block中可以在分解为四层：
- self-attention layer 自注意力计算层
- normalization layer 归一化层
- feed forward layer 前馈层
- anothernormalization layer 另一个归一化层

Decoder和Encoder唯一的区别就是多了一个Encode-Decode注意力层，然后最后一层接了个linear+softmax层，损失函数就是交叉熵损失。

在这里插入图片描述
第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。

把multi-headed输出的不同的z，组合成最终想要的输出的z，这就是multi-headed Attention要做的一个额外的步骤。

相关阅读:
文本归一化---学习笔记
vue3+Element-plus el-select 下拉选择多选增加全选封装组件
芯和半导体“射频EDA/滤波器设计平台”闪耀IMS2022
docker快速搭建kafka集群
HBase-12-HBase容灾策略
使用Pega进行一个简单的RPA程序开发
ARM官方汇编与ARM GNU汇编中的伪操作
python可视化----pyqtgraph
DiskPressure(磁盘压力)
2024抖音矩阵云混剪系统源码短视频矩阵营销系统

原文地址：https://blog.csdn.net/qq_30262201/article/details/136332872