从非结构化文本中提取实体及其关系是信息抽取的基本问题。有两个子任务:命名实体识别 (Sang and De Meulder,2003;Ratinov andRoth,2009) 和 关系抽取 (Zelenko et al.,2002;Bunescu and Mooney,2005)
发展: 管道方式到联合模型
本文: 提出了一种简单的方法,该方法可以学习建立在深度预训练语言模型之上的编码器。这两个模型——我们在整个论文中把它们称为实体模型和关系模型——是独立训练的,关系模型只依赖实体模型提供输入特征。我们的实体模型建立在跨级表示之上,而我们的关系模型建立在特定于一对跨的上下文表示之上。
结果: 尽管它很简单,但我们发现这种流水线方法非常有效:使用相同的预训练编码器,我们的模型在三个标准基准上优于所有以前的联合模型:ACE04、ACE05和SciERC,相对于F1绝对提高了1.7%-2.8%。
分析观察:
(1)实体和关系模型的上下文表示本质上捕获了不同的信息,因此共享它们的表示会影响性能;
(2)在关系模型的输入层融合实体信息(包括边界信息和类型信息)至关重要;
(3)利用交叉句信息在两个任务中都是有用的。因此,我们期望这个简单的模型将作为端到端关系提取的一个非常强的基线,并使我们重新思考实体和关系联合建模的价值。
问题:
每个实体需要运行关系模型
解决办法:
通过近似和批处理不同组的实体对在推理时间的计算。
总结:
将现有的联合模型分为两类:结构化预测和多任务学习:
结构化预测方法将这两个任务放到一个统一的框架中,尽管它可以用不同的方式表述。所有方法都需要处理全局优化问题,并在推理时使用波束搜索或强化学习进行联合解码。
多任务学习这类模型基本上建立了实体识别和关系提取两个独立的模型,并通过参数共享共同优化它们。这些方法仍然执行流水线解码:首先提取实体,然后将关系模型应用于预测的实体。
与本文最接近的研究是DYGIE和DYGIE ++ (Luan et al.,2019;Wadden et al.,2019),它们建立在最近基于跨的共参分辨率模型(Lee et al.,2017)和语义角色标注模型(He et al.,2018)上。他们方法的核心思想是学习两个任务之间共享的跨度表示,并通过动态图传播层更新跨度表示。最近的一个workLin等人(2020)通过合并基于跨子任务和跨实例约束的全局特性,进一步扩展了DYGIE++。本文的方法要简单得多,将在第3.2节详细说明差异,并解释为什么我们的模型性能更好。
选择合并跨句上下文来构建更好的上下文表示(章节3.2)。该问题可以分解为两个子任务:
命名实体识别 关系抽取
如上图所示,我们的方法由一个实体模型和一个关系模型组成。实体模型首先接受输入句子,并预测每个跨度的实体类型。然后,我们通过插入额外的标记来突出主题和对象及其类型,在关系模型中独立地处理每一对候选实体。我们将在下面详细介绍每个组件,最后总结我们的方法与DYGIE++之间的区别。
==实体模型:==我们的实体模型是一个标准的基于跨度的模型。我们首先使用预先训练过的语言模型(例如,BERT)来获得每个输入标记的上下文化表示。给定一个span∈S,其span表示定义为:
其中φ(si)∈rd表示跨宽特征习得的嵌入。然后将跨度表示送入前馈网络,以预测实体的概率分布。
==关系模型:==关系模型以一对跨度si,sj(一个主体和一个客体)作为输入,并预测一个关系类型。以前的方法(Luan et al.,2018,2019;Wadden et al.,2019)重复使用跨度表示he(si),he(sj)来预测si和sj之间的关系。我们假设,这些表示只捕获每个独立实体的上下文信息,而可能无法捕获一对跨度之间的依赖关系。我们还认为,在不同的跨度对之间共享上下文表征可能是次优的。
相反,我们的关系模型独立地处理每一对跨度,并在输入层插入类型化标记,以突出主题和对象及其类型。具体来说,给定一个输入句子X和一对主-宾跨度si,sj,其中,si,sj 类型分别是ei, ej。我们定义文本标记,,
X 表示插入文本标记的修改序列:
我们在X上应用第二个预先训练好的编码器,并用xt表示输出表示。我们将两个起始位置的输出表示连接起来,得到张成对表示:
最后,将表示hr(si, sj)输入前馈网络,预测关系类型的概率分布。
这种使用额外标记来突出主语和宾语的想法并不是全新的,因为它最近在关系分类中被研究过。然而,大多数关系分类任务(如TACRED (Zhang et al.,2017b))只关注输入句子中给定的一对主语和宾语,在需要对多个实体提及之间的关系进行分类的端到端设置中,其有效性尚未得到评估。