https://www.bilibili.com/video/BV1JA411c7VT?p=11&spm_id_from=333.880.my_history.page.click&vd_source=14d17a501a1dad78c613f1ba7f8f947c
传统神经网络的输入是一个向量。
self attention








就是使用多组qkv,得到多组b,这些b拼接起来乘W得到最终的b.

实际上还需要把position encoding和a相加再操作。

主要是NLP,如bert。
如果是speech这种数据,长度太长,可以截断:

如果把image看做一排向量,也可以用transformer:

CNN 类似于,只对领域求α的self attentin。

可以看这篇论文

相当于self attention加上一些限制,就是CNN。所以在样本少的时候cnn更好,样本多时相反。

也有相似之处。
但self attention可以并行计算,而且离得很远的东西也可以很好的用到(RNN容易遗忘)。因此现在基本self attention可以代替RNN。

只需算有边的点的alpha,没边的直接置0
