电子科技大学 2022.3.15博士论文
提出——基于句法关系的方向敏感型句子级关系抽取算法
- 利用依存句法树结构信息
- 构建双向依存路径结构(新的文本策略解决过度剪裁)
- 额外构建了平行的注意力机制
提出——基于文本片段间语篇关系的文档级关系抽取方法
- 利用文本片段之间蕴含的语篇关系构建文档图
- 利用文档图构建里实体对间的语义关联
- 利用语篇关系选择合适的、隐含的证据
- 利用实体感知注意力机制,推理实体对间的关系
提出——基于句法与语篇关系融合的文档级关系抽取方法
- 利用语篇关系与句法关系构造字符级的文档图,使用斯坦纳树算法抽取最小生成树形成关键字符路径,获得与实体对嘴相关的语义依赖
- 在文字和图形两个层面构建了双层注意力权重值来增强关键字符的语义特征表达
- 训练过程中后置部署提高模型性能
不需要手工构造特征向量空间,核函数包括树、图、序列等
CNN: 并行效能较好,能在关系抽取中高效地抽取到多个局部的语言结构特性
RNN:它能够综合考虑数据的前后关联关系,因此对于长文本、时序类信息具有较好的处理能力
GNN: 括通过依存句法树、共指关系图等方式来实现抽取
LSTM\GRU等
改进假设一的方法:
总之,弱监督学习能够在语料成本高的问题发挥作用
可以脱离标记数据
缺乏明确的语义信息难以归一化
更关注跨领域的应用
首先,通过启发式规则构造数据集,训练一个贝叶斯分类器
其次,利用单向抽取器产生的所有实体对与关系组合成三元组,选择高置信度元组
最后,为每个三元组分配一个概率,以高频词作为最终结果
词嵌入:是将文字转化为低维稠密向量,以避免数据稀疏、无意义、高纬度等问题。常用的方法有Word2vec等。
位置嵌入:为关系抽取模型提供了一种统一的感知字符位置的方法。
是实体关系抽取的最小粒度
文档级关系抽取过程需要更多考虑因素
1.解决实体间相互指代的问题 2.解决长距离语义依赖 3.增强提及的语义表达问题
设计了一种基于依存句法数结构的方向性敏感型关系抽取模型,该模型构建了具有方向差异性的双向依存路径结构,利用LSTM提取其中的高阶信息,并利用注意力机制捕获差异特点
最短依存路径结构
,并设计基于实体和依存树树根的三点裁剪方法
保留文本中重要信息双向依存路径中
的信息特征路径中的信息特征
标注实体间语义的方向性字符特征
,增强实体方向性语义表示。从文档中蕴含的语篇关系入手,将其作为外部知识引入到模型中,利用这类知识建模文档中各片段的支撑关系,并通过这种关系标记隐含的数据并推理实体间关系
划分成文本片段
,并通过外部知识标记片段间的语篇逻辑关系
形成异构的语篇文档图
实体结点
和文本片段结点
的特征信息实体对间路径上的
文本片段集合作为证据集合,并利用基于实体的感知注意力机制在证据集合中去标记
重要文本片段,形成推理过程并汇聚成为高阶证据特征通过引入句法关系与语篇关系构建了字符层面的文档图,并将句子层面的降噪模式引入到文档图。
句子粒度
和整体粒度
分开解析为依存句法树集合
和单个依存语篇树
依存语篇树规则
连接成依存句法树森林
,形成字符级层面
的文档图斯坦纳树算法
以文档中的实体为终端结点构造最小生成树,实现了文档图层面的文本降噪
,构建了多个实体共指间的最短语义依赖
实体特征,
并结合双层注意力机制
和反向部署方法
改进模型性能