Transformer的本质上是一个Encoder-Decoder的结构,encoder读入输入数据,利用层层叠加的Self-Attention机制对每一个词得到新的考虑了上下文信息的表征。
Transformer模型的整体结构如下图所示:
Multi-head Attention其实就是多个Self-Attention结构的结合,每个head学习到在不同表示空间中的特征,如下图所示,两个head学习到的Attention侧重点可能略有不同,这样给了模型更大的容量。
对于self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,
其中 W