
由于这个模型的过程比较多,因此只选择了部分有代表性的来说明
首先常见的有batch normalization,就是对于特定特征 f e a fea fea,将其每一个样本 f e a i fea_i feai构成的集合,调整为均值为0,方差为1的序列。那我们为什么不这么选呢?首先我们会在没有数据的地方放置0,因此如果出现了一个特别长的序列,我们整个样本的值和可信度就会收到影响,因此我们选择layer normalization
layer normalization:对于一个单个样本 i i i,将其所有特征组成的集合调整为均值为0,方差为1的序列。

此处是用来计算QK的相似度的,除以
d
k
\sqrt{d_k}
dk是因为经过softmax之后有的会很接近0,防止训练的时候梯度消失。

首先我们知道,transformer这个模型如果不去看postional encode的话是没有时序信息的。在encode的时候没有问题,我们能够看到完整的输入。但是在decode的时候就有问题了,他只能看到之前位置的输出结果。所以在decode的时候,将对应位置直接设置成一个非常小的数字,比如 1 e − 10 1e^{-10} 1e−10,这样经过softmax之后概率就是0.

因为我们没有位置信息,所以我们要编码一个位置信息放进去。
觉得算相似度可以直接用余弦值来计算(一个猜测)
传统的RNN CNN
seq with attention