语句输入
图输入
每个向量都有一个标签(sequence labeling)
整个句子只有一个标签
or
输出不设限
让全连接考虑上下文特性
如何确定不等长句子的window size
self-attention可以接受一整个sequence的信息,输入几个vector结合context就可以输出几个label
注: b i ( 1 ≤ i ≤ 4 ) 是同时计算出来的, a i , j 为 q i 和 k j 的内积。
多个QKV,并将结果拼接起来
对于Self-attention来说,并没有序列中字符位置的信息。例如动词是不太可能出现在句首的,因此可以降低动词在句首的可能性,但是自注意力机制并没有该能力。因此需要加入 Positional Encoding 的技术来标注每个词汇在句子中的位置信息。
每一个位置都有一个特有的位置向量ei
token新的向量表示将位置向量与表示向量融合以获得新的表示
self-attention与CNN对比
An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
self-attention与RNN的对比
Transformers are RNNs:Fast Autoregressive Transformers with Linear Attention
self-attention for graph
只需要计算有边相连的点之间的attention
GCN
更全面的介绍:综述——Effcient Transformers:A Survey
自注意力机制的缺点就是计算量非常大,因此如何优化其计算量是未来研究的重点。