Transformer和Self-Attention

Transformer的本质上是一个Encoder-Decoder的结构，encoder读入输入数据，利用层层叠加的Self-Attention机制对每一个词得到新的考虑了上下文信息的表征。

Transformer模型的整体结构如下图所示：

Multi-head Attention其实就是多个Self-Attention结构的结合，每个head学习到在不同表示空间中的特征，如下图所示，两个head学习到的Attention侧重点可能略有不同，这样给了模型更大的容量。

对于self-attention来讲，Q(Query), K(Key), V(Value)三个矩阵均来自同一输入，

其中 $W^{Q}$ $W^{K}$ W

相关阅读:
污水处理工程公司怎么选
什么是葡萄酒结构，结构型葡萄酒好吗？
纯干货：准备输入文件 | VASP零基础保姆级指南
刷题神器！把LeetCode题目生成卡片；苏黎世联邦理工『数据科学数学基础』课程；深度学习实例锦囊(含代码) ；前沿论文 | ShowMeAI资讯日报
Postgresql源码（92）深入分析HOT更新
[MAUI 项目实战] 手势控制音乐播放器（一）：概述与架构
最大似然函数损失函数逻辑回归与线性回归的比较
pytorch加载的cifar10数据集，到底有没有经过归一化
看5G时代，“一键喊话”的大喇叭如何奏响基层治理最强音
AH8691-60V降压至3.3V电源芯片：ESOP8封装解决方案

原文地址：https://blog.csdn.net/sdw5723118/article/details/125528397