Self-Attention:对于每个词而言都是无位置关系,把每个词的顺序打乱,得到的注意力值依然不变
通过 t1 告诉你,x1 是在前面,x2 在 x1 的后面
位置编码
位置编码公式
京公网安备 11010502049817号