目录
1 self-attention
2 Muti-head Self-attention
3 self-attention应用于图片
4 self-attention VS RNN
1 self-attention
总结:
图1-1为由输入I和Wq" role="presentation">Wq、Wk" role="presentation">Wk、Wv" role="presentation">Wv求Query、Key和Value过程的细化。
图1-2为由Q和K求Attention Matrix过程的细化。
图1-3为由V和Attention Matrix求输出O过程的细化。
图1-4为所有运算过程的总结。
运算较复杂,但是只有Wq" role="presentation">Wq、Wk" role="presentation">Wk、Wv" role="presentation">Wv是未知的,需要通过训练求得。
2 Muti-head Self-attention
3 self-attention应用于图片
总结:
图3-1中,可以看出一个5*10*3的彩色图像可以理解为5*10个向量的集合,因此self-attention能够应用到图像。
图3-2中,与CNN相比:self-attention是CNN的复杂版本,或者说CNN是简化版的self-attention。
4 self-attention VS RNN
总结:
RNN不能平行处理所有的输出,而self-attention可以平行处理所有的输出。
以上截图均来自台大李宏毅老师的课程,仅作为学习用途,如有侵权,请联系作者删除。