看上去似乎有些难,这篇文章做的工作不少,工作量感觉不小。
few shot 下的continual relation extraction
现有的解决catastrophic firgetting问题的方法,大致可以分为三种:
作者给出的共同点是这些任务都使用了丰富的有标记数据作为训练样本,但这与实际情形并不相符,不能快速迁移到新的场景下。
文章给出的是CFRL(continual few shot relation learning),给定义一序列的任务,T=[T1,T2,…Tn],然后,对于T1是假设有较多的训练数据,对于之后的任务都假设是在小样本场景下进行的。
在评估时,是在k个任务之前的所有的test dataset上做评估,不是只对当前任务k做评估。
为了应对遗忘问题,提出数据增强策略,但只对每个relation type选择最相关的一个sample。
- 编码
编码的关系和句子----LSTM、BERT
- 学习新数据
在每个任务中,在expand data上做微调,损失函数是L-ce=cross entropy loss。之后,提到为了让label 和input sentence的label接近,提出了两个新的损失函数。
margin-base loss和multi-margin loss:
所以,学习新任务的总损失函数:
L-new=L-ce+L-mm+L-pm,三个损失的权重,在文章附录中给出了说明。
- 选择sample存放在memory中
具体是先将每个label为r的句子计算一个平均表示向量,然后,选择距离这个向量最近的句子作为存放在记忆中的sample。
- 为了避免遗忘,提出了负例的构建方法
将positive sample的头实体或者尾实体进行替换,对应的损失函数L-constrastive=Lcon,如下,目的是让模型区别有效的关系还是无效的关系。
所以,总的loss-memory=L-ce+L-mm+L-pm+L-con
- 推理阶段
在推理阶段,选择具有高相似度的分值
- 小样本数据增强策略
1.实体匹配,对于维基中的数据,选择实体对相同的句子,之后计算句子相似度分值,给定一个阈 值,高于该阈值,则句子被选中。
2.相似度查询,选择最相似的前k个句子
3.相似性模型,构建正负例样本,正例,实体对相同,负例,单个实体相同,然后,损失函数如下:
目标是:实体对相同的句子的相似性大于单个实体相同的句子的相似性。
看他们的论文,baseline这一点,要不加上,
整个感觉有料,但感觉有点绕。
句法依赖关系不是显式给出的,而是让模型去学习。
在encoder部分,训练模型去学习句子的依赖关系,从而,使句子获得这种能力。具体来说,语法诱导编码器是通过在第一、第二和第三或 ders 中恢复掩蔽的依赖连接和类型来训练的,这与现有的通过预测上下文词来训练语言模型或词嵌入的研究有很大不同沿着依赖路径。
1order 表示一步就可以实现;
2order表示两步才可以实现;
3order表示三步才可以建立关系。
con masking 表示connect masking
type masking 表示type
所以,根据上图,可以观察到,不管几order ,建模形式都是三元组的形式,即(xi,xj,type)。
是先训练encoder具有依存句法解析的能力,然后,再用预训练好的模型,去做RE任务。