• 标点恢复--Incorporating External POS Tagger for Punctuation Restoration


    Incorporating External POS Tagger for Punctuation Restoration

    标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
    亮点
    (1)加入词性标注,并将词性标签融合到模型中
    (2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
    标点恢复任务可以看作一个序列标注任务。

    模型

    模型
    模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是 P O S   T a g g e r POS ~Tagger POS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过 F u s i o n   L a y e r   L Fusion~Layer~L Fusion Layer L S o f t m a x   L a y e r   S Softmax ~Layer~S Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。

    Fusing POS tags into LM representations

    (1) LM representations
    一个长度为 n n n的文本 X X X经过预训练模型表征得到隐藏状态 H H H,这里预训练模型模型用 F F F表示
    H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d} H=Fθ(X)Rn×d
    (2) Fusing POS tags
    加载词性标注预训练模型 F W F_{W} FW得到 X X X中的每一个token的词性标注结果 T ^ \hat{T} T^
    T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n} T^=FW(X)Rn
    其中 W ∈ R b × e W\in\boldsymbol{R}^{b\times e} WRb×e S o f t m a x   L a y e r W Softmax ~Layer W Softmax LayerW b b b是embedding size, e e e是词性的tag数量。 S o f t m a x   L a y e r   W Softmax~Layer~W Softmax Layer W得到 P O S T a g g e r POS Tagger POSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T ^ \hat{T} T^中的元素来查找 W W W 中的对应列,并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b} ERn×b
    (3) Self-attention Fusion Layer L
    H H H E E E进行拼接得到 C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)} CRn×(b+d),采用self-attention 多头encode layer L γ L_{\gamma} Lγ高效的表征 C C C,最后加一层 S o f t m a x   L a y e r   S   S η Softmax~Layer~S~S_{\eta} Softmax Layer S Sη得到标点符号
    tags Y ^ \hat{Y} Y^
    Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C)) Y^=Sη(Lγ(C))
    其中 γ \gamma γ η \eta η表示相关的参数。

    Sequence boundary sampling

    由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。

    实验结果

    (1)数据标注格式
    这里采用序列标注任务的格式进行标注

    it	O
    can	O
    be	O
    a	O
    very	O
    complicated	O
    thing	COMMA
    the	O
    ocean	PERIOD
    and	O
    it	O
    can	O
    be	O
    a	O
    very	O
    complicated	O
    thing	COMMA
    what	O
    human	O
    health	O
    is	PERIOD
    and	O
    bringing	O
    ......
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24

    (2)实验结果
    在这里插入图片描述
    如有错误,欢迎大家指证。

  • 相关阅读:
    vue-cli3项目本地启用https,并用mkcert生成证书
    Java 基础学习总结(200)—— GraalVM 为什么能被称为下一代虚拟机
    【计算机毕业设计】基于SpringBoot+Vue记帐理财系统的设计与实现
    服务名无效。 请键入 NET HELPMSG 2185 以获得更多的帮助。
    循序渐进介绍基于CommunityToolkit.Mvvm 和HandyControl的WPF应用端开发(7) -- 图标列表展示和选择处理
    算法通关18关 | 回溯模板如何解决复原IP问题
    新型PC模拟器外挂肆虐,游戏安全攻防再升级
    基于单片机的八路抢答器(数码管版)(独立按键、四位共阳极数码管、指示灯)
    multisim仿真 74LS148D芯片
    Airtest框架和Poco框架常见问题
  • 原文地址:https://blog.csdn.net/weixin_42223207/article/details/125569998