本文提出了一种新的标注方案,可以将联合抽取任务转化为标注问题。然后,基于这种标注方法,作者研究了不同的端到端模型来直接提升实体及其关系,而不需要单独识别实体和关系。
实体和关系的联合提取是从非结构化文本中同时检测实体提及并识别其语义关系,如下图所示:
传统的方法以流水线方式抽取这一任务,即先抽取实体,然后识别它们之间的关系。这种分离的框架是任务更容易处理,每个组件都可以更灵活。但它忽略了这两个子任务之间的相关性,每个子任务都是一个独立的模型。实体识别的结果可能会影响到关系分类的性能,并造成错误传播。
与流水线模型不同,联合学习框架使用单一模型提取实体和关系。可以有效地集成实体和关系的信息,并在这项任务中取得了较好的效果。在本文中,主要研究由两个实体以及这两个实体之间的一个关系组成的三元组的提取。因此,作者直接对三元组建模,而不是分别提取实体和关系。基于这种动机,作者提出了一种结合端到端模型的标签方案来解决这一问题。本文设计了一种新颖的标签,它包含了实体及其所持有的关系的信息。
本文还修改了解码方法,增加了偏置损耗,使其更适合这种特殊的标注方案。
本文的贡献:
如上图所示:CP是country-president的简称,cf是company-founder的简称。
每个单词都被分配一个标签,用于提取结果BIOES。关系类型信息是从预先定义的关系集R中获得的,entity在关系角色的信息由数字1和2表示。提取的结果由三元组表示:(Entity1,RelationType,Entity2)。因此,标签总数为 N t = 2 × 4 × ∣ R ∣ + 1 N_t=2\times 4\times |R| + 1 Nt=2×4×∣R∣+1。
上图的标注方法,输入句子包含两个三元组(United States, Country-President, Trump),(Apple Inc, Company-Founder, Steven Paul Jobs)。其中United,States,Trump,Apple,Inc,Steven,Paul和Jobs等词都与最终提取的结果有关。
特殊标签进行标注,例如United这个词是United States实体的第一个词,与Country-President关系有关,所以它的标签时B-CP-1,对应于United States的另一个相同关系类型Company=Founder。
一个单词序列可以表示为 W = { w 1 , . . . , w n } W=\{w_1,...,w_n\} W={w1,...,wn}
最终的softmax层根据标签预测向量 T t T_t Tt计算归一化实体标签概率:
目标函数定义为:
|D|是训练集的大小, L j L_j Lj是句子 x j x_j xj的长度, y t ( j ) y_t^{(j)} yt(j)是单词 x j x_j xj中词t的标注。 I ( O ) I(O) I(O)表示一个门控函数,以区分标注O与可指示结果的相关标注间的损失,定义如下:
与经典方法不同,该方法可以在不知道实体类型的情况下提取三元组。换句话说,没有使用实体类型的标签来训练模型,因此不需要在评估中考虑实体类型。当一个三元组的关系类型和两个对应实体的头部偏移量都正确时,该三元组被认为是正确的。