数据增强：Simple Questions Generate Named Entity Recognition Datasets

数据增强的方式一般是无标注数据集的情形的一种解决方式，今天的讲座报告中对这问题做了梳理。11.27学术报告文章，应该是韩旭的报告。

文章目录

问题背景
一、论文核心
二、文章内容
三、experiments
总结

问题背景

还是在于方法的创新，虽然是数据增强，但玩出了新花样呀。

标注数据集少，所以，在实体识别时，人们开始使用一些领域词典对齐生成伪标注数据集，但在一些情况下，字典也是不可得的，所以，如何解决呢？

一、论文核心

知识问答的形式，生成数据集，用于NER任务
（1）采用提示学习的范式，生成question
（2）采用phrase retrieval model 用于answer 这些问题
（3）在生成的数据上，测试model performance。

二、文章内容

(1) 查询表述：NER的需求首先被表述为简单的自然语言问题。

模板：Which [TYPE]?
针对数据集中每个type设计一种模板，用于retrieval corresponding的类型。

(2) 检索：我们使用一个开放领域的QA模型来检索相关的短语（即实体）以及要注释的句子。

检索语料是维基百科。
针对每个问题，选择到的top-k个phase来缓解噪声的影响。同时，dictionary形成。
句子中包含检索的phrase的句子被选择出来，每个句子的score由QA模型计算得到。

(3) 词典匹配：检索到的句子由规范化的短语来注释。生成train数据集。

(4) 自我训练：我们使用自我训练(self training)，纯粹在我们生成的数据集上训练NER模型。更多细节见第3节。

First, we initialize a teacher model with the generated D˜ train. The
teacher then annotates X˜ train, and a student model is trained on the
re-annotated corpus. For each iteration, the teacher model is updated
as the student model, and we use the student model as our final NER
model.

在这里插入图片描述

三、experiments

在rich-resource和few or zero shot条件下，测试模型的性能。
在fine-gain的实体类型上，测试模型的性能。
在消融实验中，研究了question template，一些normalization rules（规范化规则），self
training 的影响。

总结

未来可能的方向：更好的QA模型；多种类型的NER任务（每种类型下，包含的可能实体数量是否有影响，比如美国州和运动员，后者实体量显然大于前者）；

新的技术策略，解决旧的问题。
方法可不新颖，但是思路起码要OK。

相关阅读:
k8s 拉取镜像报错 no basic auth credentials
初步了解Panda3d粒子系统
基于SpringBoot的篮球论坛系统
Carina 全新版本 v0.11.0 上线！重磅升级不可错过
springboot--任务
git协同操作
如何通过CRM系统做好客户的分级分类
【嵌入式Linux内核驱动】内核模块三要素与验证测试
《微信小程序开发从入门到实战》学习二十一
学习java第一百零七天

原文地址：https://blog.csdn.net/Hekena/article/details/128069886