IEPILE:基于模式的指令生成解法,提高大模型在信息抽取任务上的性能
论文:https://arxiv.org/pdf/2402.14710.pdf
代码:https://github.com/zjunlp/IEPile
2024年02月发布了一个大规模(0.32B tokens)高质量双语(中文和英文)信息抽取(IE)指令微调数据集,名为IEPile
并基于IEPile,对 Baichuan2-13B-Chat 和 LLaMA2-13B-Chat 模型应用了 Lora 技术进行了微调得到 baichuan2-13b-iepile-lora、llama2-13b-iepile-lora。
假设我们有一个信息抽取任务,目标是从新闻文章中抽取有关企业并购事件的信息。
包括抽取如下模式(或字段)的信息:并购方(Acquirer)、被并购方(Acquiree)、交易金额(Transaction Amount)和交易日期(Transaction Date)。
存在的问题:
模式查询差异: 在训练阶段,可能所有模式都被查询,但在实际评估或应用中,只查询了部分模式,例如仅查询了并购方和被并购方,没有查询交易金额和日期。这可能会导致模型在真实场景下性能下降。
语义混淆: “并购方”和“被并购方”的字段可能在文本中以多种方式被提及,例如,一个企业可能被称为“公司”,“企业”,或者直接用其公司名。
此外,一家公司在不同的并购事件中可能既是并购方也是被并购方,这增加了语义上的混淆和抽取的难度。
针对模式查询差异:
解法: 引入动态模式查询调整机制,在训练阶段不仅使用包含所有模式的指令进行训练,还要模拟实际情况,使用只包含部分模式的指令进行额外的训练。
这样可以使模型适应于在不完全信息环境下进行准确的信息抽取。
应用举例: 在训练数据中,我们不仅提供完整的并购事件信息(包括并购方、被并购方、交易金额和交易日期),还要创建一些只包含部分信息(如仅并购方和被并购方)的训练实例。
这样,模型学会在缺少某些字段信息的情况下也能进行有效的信息抽取。
针对语义混淆:
解法: 构建一个术语同义词库,将企业可能的不同称呼统一映射到一个标准化的表示上。
此外,引入上下文理解能力的训练,让模型能够根据上下文区分相同术语在不同场景下的角色(如并购方还是被并购方)。
对于“公司”、“企业”或特定公司名的提及,都映射到同一实体上,并在模型训练时加入上下文辨识的能力,如通过前后文判断一个实体在特定新闻报道中是作为并购方还是被并购方。
这样,模型能够更好地理解和抽取并购事件中的各个角色,即使在术语使用上存在多样性。

上图是 IEPILE(一个信息抽取指令数据集)构建的概览,流程分为几个部分:
数据收集与清理: 图表左侧列出了用于构建IEPILE的多个数据集,这些数据集被分为三类:命名实体识别(NER)、关系抽取(RE)和实体抽取(EE)。
这些数据集从网络上收集,然后经过清理以准备用于进一步处理。
基于模式的指令生成(Hard Negative Schema Construction): 这一部分展示了如何构建“Hard Negative Schema Dictionary”。
这是一个包含特定模式和相关负面模式(或“硬负面”模式,可能会造成混淆的模式)的词典。
例如,模式 “location contains” 与其硬负面模式,如 “neighborhood of”, “administrative division of country” 等关联。
批量指令生成: 在右侧,展示了如何将正面和负面的模式结合起来,以生成一批指令。
这些指令被分成多个模式(Schema),每个模式都包含一组特定的标签。例如,“Schema 1” 可能包含 “neighborhood of”, “location contains”, “administrative division of country”, “country capital” 这些标签。
这个过程中考虑了一个名为 split_num 的变量,这个变量定义了在每批指令生成中会用到的模式数量。
这有助于确保训练数据中的模式与评估或应用阶段中可能出现的模式数量一致。
这张图是对一个复杂数据处理过程的视觉概述,说明了如何从现有数据集中提取和清洗数据,构建模式字典,并基于这些模式生成训练数据,以便在信息抽取任务中训练机器学习模型。
针对信息抽取(IE)任务的改进解法可以被称为“基于模式的指令生成解法”,主要包括两个关键特征:硬负模式构建(Hard Negative Schema Construction)和批量指令生成(Batched Instruction Generation)。
这个解法旨在提高大型语言模型在信息抽取任务中的性能,尤其是在面对模式数量不一致和模式间的语义混淆时。
硬负模式构建(特征1):
批量指令生成(特征2):
硬负模式构建的例子(特征1):
假设我们正在开发一个模型,其任务是从新闻文章中抽取与企业并购相关的事件。其中一个正面模式可能是“公司A收购公司B”。
批量指令生成的例子(特征2):
继续以上的并购信息抽取任务,假设我们有一组指令,每个指令要求抽取不同数量的模式信息。
通过这两个特征的结合使用,模型在面对实际数据时能够更准确地执行信息抽取任务,同时减少了训练和实际应用之间的性能差距。
完整步骤:
数据收集和清理:
构建硬负模式字典:
批量指令生成:
split_num将模式集合分批,每批包含固定数量的模式。模型训练:
模型评估与微调:

IEPILE 使用后:
