• Modularized Interaction Network for Named Entity Recognition


    多模块NER任务交互网络

    核心

    整个NER任务分为了多个子模块,每个子模块负责学习不同类型的信息,信息是关于NER任务的,比如,边界检测、类型检测。
    模块交互中,需要注意、学习和实现,是采用了gate机制的方法,不是简单的concat方式。

    模型架构

    前言

    对于 NER 任务,边界检测和类型预测可以相互配合,这两个子任务通过共享信息相互加强也很重要。
    一种新颖的模块化交互网络 (MIN) 模型,它同时利用段级信息(segment information )和词级依赖关系(word-level information),并结合交互机制来支持边界检测和类型预测之间的信息共享,以提高 NER 的性能任务。

    模型整体架构

    在这里插入图片描述
    (边界模块中,实体头指向实体尾;其余的非实体词指向了最后一个词)

    模型组成

    the NER Module (主干模型), Boundary Module(子模型), Type Module(子模型) and Interaction Mechanism(交互机制)

    主干模型

    • word represention:
      • concatenate word-level and character level embedding
    • BiLSTM Encoder
    • gate function做信息的融合
    • Hbdy为boundary 信息
    • Htype为实体类型信息
      HBdy and HType represent the distinct representations of hidden sequences from the Boundary Module and Type Module respectivel
      在这里插入图片描述
      HB, HT and HS represent the boundary, type and segment information respectively to be injected into the NER Module from the gate function.
      HB, HT and HS ——是需要inject到NER module的表示信息。
    • Hner的表示:HNER = W[H; HB; HT; HS] + b
    • CRF decoder——得到每个token的tag
    边界模块

    训练一个实体的start 指向end位置,其余的word指向一个无意义的标记词。
    具体过程
    应用了无方向LSTM作为decoder,得到每个step的表示。LSTM的输入是:current,previous and next的word表示。
    在这里插入图片描述

    之后,采用 * biaffine attention * 得到每个position的表示,在通过softmax函数得到每个segment是否start with word wj和end with wi.
    在这里插入图片描述

    最终的segment的表示获取: 计算过程中,使用了概率函数作为判断wi和wj是否为边界的计算公式:we use the probability p (wi|wj ) as the confidence of the segment that starts with word wj and ends with word wi
    在这里插入图片描述

    类型模块

    类型模块的信息表示采用BiLSTM得到相应的表示:
    在这里插入图片描述

    交互机制

    边界信息和类型信息两者之间可以彼此交互。
    注意力机制:biaffine attention mechanism

    注意力分值计算:
    在这里插入图片描述
    更新后的边界表示:
    在这里插入图片描述

    联合训练

    三个模块的损失函数:
    在这里插入图片描述
    模型的总损失是:三个loss之和。NER+Type+Boundy

    模型性能分析

    • 不同的实体长度下,模型的表现效果
    • 不同模块对于模型性能的影响。(Ablation study )

    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    【784. 字母大小写全排列】
    Servlet篇 —— 我的第一个Servlet程序
    人工智能飞速发展的今天,IT行业能做些什么?
    GATK最佳实践之数据预处理SnakeMake流程
    epoch, batch, iteration
    【JavaScript函数】
    第9周 基于MinIO与OSS实现分布式与云存储
    Java:更好的Java: JDK增强提案解释
    分布式医疗大数据存储方案研究综述
    Access — Cookie注入
  • 原文地址:https://blog.csdn.net/Hekena/article/details/126707019