【论文笔记】Self-Attention with Relative Position Representations

Self-Attention with Relative Position Representations

Comments:	NAACL 2018
Subjects:	Computation and Language (cs.CL)
Cite as:	arXiv:1803.02155 [cs.CL]
 	(or arXiv:1803.02155v2 [cs.CL] for this version)
 
https://doi.org/10.48550/arXiv.1803.02155
1
2
3
4
5
6

1. Introduction

Transformer的核心结构Self-Attention机制由于其无法对输入token的相对位置或绝对位置信息进行建模，因此，目前主流的方案都是在输入token之外再额外加上一个Positional Encoding来引入位置信息。本文则是从Self-Attention机制内部出发，通过在计算过程中引入token之间的相对位置关系向量，打破了Self-Attention机制的Permutation-Invariant特性，从而更高效地完成了位置信息的编码，性能得到了提升。

2. Background

本文扩展自注意力以考虑输入元素之间的成对关系，从这个意义上讲，就是将输入建模为标记的(labeled)，有向的( directed)，完全连接的图( fully-connected graph)。在正式进入讲解之前，我们需要回顾一下self-attention。假设我们从多头注意力机制中的一个头输出后的序列是 $x=(x_1,...,x_n)$ ，其中 $x_i∈\mathbb{R}^{d_x}$ ，通过 attention 计算出一个新的序列 $z=(z_1,…,z_n)$ ，其中 $z_i∈\mathbb{R}^{d_z}$ 。线性变换的输入元素的加权和计算公式如下：
在这里插入图片描述
其中，权重系数 $a_{ij}$ 是通过 softmax 计算的：

使用兼容函数计算 $e_{ij}$ ，该函数比较两个输入元素（其中，使用Scaled dot product作为兼容函数计算是很高效的）：

$W^Q,W^K,W^V∈\mathbb{R}^{d_x×d_z}$ 是参数矩阵。

3. Proposed Architecture

3.1 Relation-aware Self-Attention

沿用上面的 $x$ 的表示，将输入元素之间的edge表示为 $a_{ij}^V,a_{ij}^K∈\mathbb{R}^{d_a}$ ，学习两个不同的 edge 表示的出发点是 $a_{ij}^V,a_{ij}^K$ 适用于如下两个等式，这些表示可以在关注头之间共享， $d_a=d_z$ 。

通过引入边的特征表示，原始的Self-Attention机制修改为以下计算方式：
在这里插入图片描述
即对于各个Value和Key来说，都会引入一个相互的位置关系表示，从而打破了Self-Attention的Permutation-Invariant。

3.2 Relative Position Representation

考虑到计算量、内存消耗以及远距离的精确位置信息效用足等因素，本文对最远的Relative Position Distance限制为 $k$ 。

Relative Position Representation 的目标是给出 $a_{i,j}^V,a_{i,j}^K$ 的计算方式。假设如果序列中两个元素的距离超过 $k$ ，则这两元素之间的位置信息就没有意义了。剪裁最大距离还使模型能够泛化训练期间看不到的序列长度，因此，考虑 $2 k + 1$ 个唯一的edge标签。
在这里插入图片描述
以下图为例，图中假设 $2 <= k <= n - 4$ ，

当 $i = 2 ， j = 1$ 时， $c l i p (- 1, k) = ma x (- k, min (k, - 1)) = - 1$ ， $a_{2,1}^K=w_{clip(-1,k)}^K=w_{-1}^K$ ，同理得 $a_{2,1}^V=w_{-1}^V$

当 $i = 4, j = n$ 时， $c l i p (n - 4, k) = ma x (- k, min (k, n - 4)) = k$ ， $a_{4,n}^K=w_{clip(n-4,k)}^K=w_{k}^K$ ，同理得 $a_{4,n}^V=w_{k}^V$
在这里插入图片描述
在这种设定下， $a_{i,j}^V,a_{i,j}^K$ 应该只与相对位置有关，而与 $x_{i,j},x_{i,j}$ 没有关系。作者直接将 $a_{i,j}^V,a_{i,j}^K$ 定义为可训练的向量，本质上是训练 $w^K=(w_{-k}^K,...,w_k^K)$ 和 $w^V=(w_{-k}^V,...,w_k^V)$ ， $w_i^K,w_i^V∈\mathbb{R}^{d_a}$ 。

3.3 Efficient Implementation

把等式（4）拆分开如下：
在这里插入图片描述
然后我们就可以通过矩阵并行计算批量进入的数据了。

4 Experiments

实验结果：
在这里插入图片描述

5 Conclusions

本文主要是从Self-Attention机制本身出发，在计算过程中引入了相对位置信息，从而打破了Self-Attention的Permutation-Invariant特性，提升了各个word之间关系构建能力。

相关阅读:
行业追踪，2023-10-27
Linux性能监控命令-Top
小白入门深度学习 | 3-2：激活函数activation
JAVA计算机毕业设计宠物寄养管理系统Mybatis+系统+数据库+调试部署
NumPy的广播机制
web自动化测试为什么运行错误
Head First Java 第二版
Leetcode739. 每日温度
基于神经网络的系统辨识,神经网络的种类和特点
Synchronized代码详解？

原文地址：https://blog.csdn.net/Luo_LA/article/details/134422034