Transformer最大的有点是可以进行并行化计算。
采用矩阵乘法做并行化计算,分别得到Q,K,V矩阵用于后面的计算。
将计算得到的Q与每一个K进行match,得到
α
\alpha
α矩阵,然后将
α
\alpha
α矩阵按照行进行softmax操作。