标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。
模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是
P
O
S
T
a
g
g
e
r
POS ~Tagger
POS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过
F
u
s
i
o
n
L
a
y
e
r
L
Fusion~Layer~L
Fusion Layer L和
S
o
f
t
m
a
x
L
a
y
e
r
S
Softmax ~Layer~S
Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。
(1) LM representations
一个长度为
n
n
n的文本
X
X
X经过预训练模型表征得到隐藏状态
H
H
H,这里预训练模型模型用
F
F
F表示
H
=
F
θ
(
X
)
∈
R
n
×
d
H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d}
H=Fθ(X)∈Rn×d
(2) Fusing POS tags
加载词性标注预训练模型
F
W
F_{W}
FW得到
X
X
X中的每一个token的词性标注结果
T
^
\hat{T}
T^
T
^
=
F
W
(
X
)
∈
R
n
\hat{T} = F_{W}(X)\in \boldsymbol{R}^{n}
T^=FW(X)∈Rn
其中
W
∈
R
b
×
e
W\in\boldsymbol{R}^{b\times e}
W∈Rb×e 是
S
o
f
t
m
a
x
L
a
y
e
r
W
Softmax ~Layer W
Softmax LayerW,
b
b
b是embedding size,
e
e
e是词性的tag数量。
S
o
f
t
m
a
x
L
a
y
e
r
W
Softmax~Layer~W
Softmax Layer W得到
P
O
S
T
a
g
g
e
r
POS Tagger
POSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用
T
^
\hat{T}
T^中的元素来查找
W
W
W 中的对应列,并形成 POS 嵌入
E
∈
R
n
×
b
E\in\boldsymbol{R}^{n\times b}
E∈Rn×b
(3) Self-attention Fusion Layer L
将
H
H
H和
E
E
E进行拼接得到
C
∈
R
n
×
(
b
+
d
)
C\in\boldsymbol{R}^{n\times(b+d)}
C∈Rn×(b+d),采用self-attention 多头encode layer
L
γ
L_{\gamma}
Lγ高效的表征
C
C
C,最后加一层
S
o
f
t
m
a
x
L
a
y
e
r
S
S
η
Softmax~Layer~S~S_{\eta}
Softmax Layer S Sη得到标点符号
tags
Y
^
\hat{Y}
Y^
Y
^
=
S
η
(
L
γ
(
C
)
)
\hat{Y} = S_{\eta}(L_{\gamma}(C))
Y^=Sη(Lγ(C))
其中
γ
\gamma
γ和
η
\eta
η表示相关的参数。
由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。
(1)数据标注格式
这里采用序列标注任务的格式进行标注
it O
can O
be O
a O
very O
complicated O
thing COMMA
the O
ocean PERIOD
and O
it O
can O
be O
a O
very O
complicated O
thing COMMA
what O
human O
health O
is PERIOD
and O
bringing O
......
(2)实验结果
如有错误,欢迎大家指证。