更多、更及时内容欢迎留意微信公众号: 小窗幽记机器学习
FLAT(2020)
FLAT 出自 ACL 2020 FLAT: Chinese NER Using Flat-Lattice Transformer。
论文地址:https://arxiv.org/abs/2004.11795
论文代码:Flat Lattice
中文NER通常以字符为单位进行序列标注建模,即一般使用character-based模型。这主要是由于中文分词存在误差,会带来错误传导,所以一般character-based的中文NER模型通常要优于 基于word-based(经过分词)的序列标注建模方法。而在character-based模型中引入词汇信息可以显著提升中文NER效果已经得到多方验证。FLAT也是一种将词汇信息融入character-based模型的解决方案。此前通过 lattice 结构融入词汇信息的方式存在一些不足,比如Lattice LSTM存在以下缺点:
信息损失:
每个字符只取以它为结尾的词汇信息。如对于Figure 1中的示例,对于「药」,并无法获得inside的「人和药店」信息。而「人和药店」有助于区分示例中的地址实体重庆和组织实体重庆人。
由于RNN特性,采取BiLSTM时其前向和后向的词汇信息不能共享。
Lattice LSTM并没有利用前一时刻的记忆向量,即不保留对词汇信息的持续记忆。
计算性能低,不能batch并行化:究其原因主要是每个字符之间需要attend的word cell(看作节点)数目不一致;可以视为动态结构。不过,后续也有工作将Lattice LSTM进行batch化。
可迁移性差:只适配于LSTM,不具备向其他网络迁移的特性。
为此,FALT提出以下2个创新点:
FLAT刚出炉之际,在MSRA-NER任务中,FLAT+BERT登顶榜首;而单独的FLAT(1层TransFormer)也超越了预训练模型ERNIE。
由之前的分析可知,Lattice-LSTM采取的RNN结构难以捕捉长距离依赖,同时引入词汇信息是有损的,同时动态的Lattice结构也不支持GPU并行。
使用lattice引入词汇信息有2种:
为解决计算效率低下、引入词汇信息有损的这两个问题,FLAT基于Transformer结构进行了两大改进:
改进1:Flat-Lattice Transformer,无损引入词汇信息
改进2:相对位置编码,让Transformer适用NER任务
文章将Lattice结构平铺为一序列的span,这些span有3种类型:token、head和tail。一个token可以是字也可以词,如Figure 1©所示。head和tail分别表示token在原始句子中的起始和终止索引位置。对于字符token,head和tail值相同。通过这种方式可以记录token在lattice结构中的位置,且易于重建回原始的lattice结构,因此这种平铺的结构能够完全保留原始lattice结构信息。正因为如此,FLAT可以直接建模字符与所有匹配的词汇信息间的交互,例如,字符[药]可以匹配词汇[人和药店]和[药店]。

从Figure 1©可以看出FLAT使用了两个位置编码(head position encoding 和 tail position encoding), 那么是否可以采用绝对位置编码呢?同样来自邱锡鹏老师组的论文TENER: Adapting Transformer Encoder for Named Entity Recognition给出答案:原生Transformer中的绝对位置编码并不直接适用于NER任务。
TENER论文发现:对于NER任务来说,位置和方向信息十分重要。如下图所示,在「Inc.」前的单词更可能的实体类型是「ORG」,在「in」后的单词更可能为时间或地点。而对于方向性的感知有助于单词识别其邻居是否构成一个连续的实体Span。可见,对于**「距离」和「方向性」**的感知对于Transformer应用于NER任务至关重要。

但是,原生Transformer的绝对位置编码本身缺乏方向性。向量点积(inner dot)的交换性使得self-attention在方向性上有信息损失,因此文章使用相对位置编码。
为encoder不同span之间的交互,文章对span使用相对位置编码。2个span
x
i
x_i
xi和
x
j
x_j
xj之间3种关系:相交、包含、独立。这些关系取决于heads和tails值。文章中使用dense vector来对他们之间的关系进行建模。头部和尾部信息不仅可以表示两个token的关系,还能够表示一些更详细的信息,例如一个字符和一个单词之间的距离。
假定
h
e
a
d
[
i
]
head[i]
head[i]和
t
a
i
l
[
i
]
tail[i]
tail[i]表示spand
x
i
x_i
xi的头部和尾部位置,spand
x
i
x_i
xi和spand
x
j
x_j
xj之间有4种距离:
d
i
j
(
h
h
)
=
h
e
a
d
[
i
]
−
h
e
a
d
[
j
]
,
d
i
j
(
h
t
)
=
h
e
a
d
[
i
]
−
tail
[
j
]
d
i
j
(
t
h
)
=
tail
[
i
]
−
h
e
a
d
[
j
]
d
i
j
(
t
t
)
=
tail
[
i
]
−
tail
[
j
]
d(hh)ij=head[i]−head[j],d(ht)ij=head[i]−tail[j]d(th)ij=tail[i]−head[j]d(tt)ij=tail[i]−tail[j]
dij(hh)dij(ht)dij(th)dij(tt)=head[i]−head[j],=head[i]−tail[j]=tail[i]−head[j]=tail[i]−tail[j]
其中
d
i
j
(
h
h
)
d_{i j}^{(h h)}
dij(hh) 表示head
x
i
x_i
xi 和 tail
x
j
x_j
xj之间的距离,
d
i
j
(
h
t
)
,
d
i
j
(
t
h
)
,
d
i
j
(
t
t
)
d_{i j}^{(h t)}, d_{i j}^{(t h)}, d_{i j}^{(t t)}
dij(ht),dij(th),dij(tt)同理。 这两个spand最终的相对位置编码是上述4个距离的简单非线性变换:
R i j = ReLU ( W r ( p d i j ( h h ) ⊕ p d i j ( t h ) ⊕ p d i j ( h t ) ⊕ p d i j ( t t ) ) ) , R_{i j}=\operatorname{ReLU}\left(W_r\left(\mathbf{p}_{d_{i j}^{(h h)}} \oplus \mathbf{p}_{d_{i j}^{(t h)}} \oplus \mathbf{p}_{d_{i j}^{(h t)}} \oplus \mathbf{p}_{d_{i j}^{(t t)}}\right)\right), Rij=ReLU(Wr(pdij(hh)⊕pdij(th)⊕pdij(ht)⊕pdij(tt))),
其中 W r W_r Wr 是待学习的参数, ⊕ \oplus ⊕表示拼接操作, p d \mathbf{p}_d pd与原生的Transformer相同:
p
d
(
2
k
)
=
sin
(
d
/
1000
0
2
k
/
d
model
)
p
d
(
2
k
+
1
)
=
cos
(
d
/
1000
0
2
k
/
d
model
)
p(2k)d=sin(d/100002k/dmodel )p(2k+1)d=cos(d/100002k/dmodel )
pd(2k)=sin(d/100002k/dmodel )pd(2k+1)=cos(d/100002k/dmodel )
其中
d
d
d 表示
d
i
j
(
h
h
)
,
d
i
i
(
h
t
)
,
d
i
j
(
t
h
)
d_{i j}^{(h h)}, d_{i i}^{(h t)}, d_{i j}^{(t h)}
dij(hh),dii(ht),dij(th) 或
d
i
j
(
t
t
)
d_{i j}^{(t t)}
dij(tt),
k
k
k表示位置编码各个维度的索引。再使用XLNet中的的自注意力机制使用span相对位置编码:
A i , j ∗ = W q ⊤ E x i ⊤ E x j W k , E + W q ⊤ E x i ⊤ R i j W k , R + u ⊤ E x j W k , E + v ⊤ R i j W k , R , A∗i,j=W⊤qE⊤xiExjWk,E+W⊤qE⊤xiRijWk,R+u⊤ExjWk,E+v⊤RijWk,R, Ai,j∗=Wq⊤Exi⊤ExjWk,E+Wq⊤Exi⊤RijWk,R+u⊤ExjWk,E+v⊤RijWk,R,
其中 W q , W k , R , W k , E ∈ R d model × d head \mathbf{W}_q, \mathbf{W}_{k, R}, \mathbf{W}_{k, E} \in \mathbb{R}^{d_{\text {model }} \times d_{\text {head }}} Wq,Wk,R,Wk,E∈Rdmodel ×dhead , u , v ∈ R d head \mathbf{u}, \mathbf{v} \in \mathbb{R}^{d_{\text {head }}} u,v∈Rdhead 是待学习的参数。
