构建知识图谱过程中,知识信息来源于文档和网页信息,从文档中提取信息的会存在偏差,原因如下:
因此得到的知识图谱不完整,需要对知识图谱进行补全
通过已获取的知识对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。
利用的知识:
补全分为两个层次:
往往构建过程只提到了实体和关系的抽取,然后就可以生成实体和关系组成的RDF(资源描述框架Resource Description Framework)了。
但仅获取三元组是不够的,三元组中的实体除了具有属性和关系外,还可以映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多。
如一个人的身份可以是人、学生、女儿,这几种身份概念之间是有层次的,也就是所说的概念的层次模型
——主要解决实体的类型信息缺失问题
一旦一个实体被判断为人这个类型,在已经构建好的知识模式中,实体除了人的类型外仍然需要向下层概念搜索,以发现更多类别描述信息
本体论和模式:实体可以归结为一种本体,具有一种模式来包持独特性,这组模式可以用规则来描述,因此对于本体而言也可以用规则来描述
奥巴马是实体,本体可以归为人,人的模式就是可以使用语言和工具,可以改造其他食物,这些模式可以用规则来描述
**描述逻辑:**一种常见的知识表示方式,建立在概念和关系之上
可以将人的实体实例收集起来,从中提取出模式并以规则的形式记录下来,这样只要遇到新的实体实例,只需要将其带入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。
随着发展机器学习开始介入,不是单纯地利用实例产生的规则等内部线索来进行判断,同时利用外部的特征和线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测
对未知类型实体e1而言,如果能找到一个与其类似的已知类型实体e2,那么就可以据此推知实体e1的类型应该与e2类型一致或者相似
此类方法主要分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理
将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结果等其他特征的支持,此是嵌入式方法可以发挥其自身优势
理解为,对于一个实例三元组(SPO主谓宾),其中可能缺失的情况为
此时就需要预测缺失的实体或者关系是什么
actually,很多缺失的知识是可以通过已经获得的知识来推知的,这个过程被称为链接预测
attention:有时知识不是缺失的,而是新出现的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此是需要将其作为新知识补充到知识库中,故这种情形不是传统意义的补全。
包括有
基于随机游走的概率补全方法
基于表示学习的补全方法
知识图谱嵌入流程:1)结构嵌入表示法
2)张量神经网络法
3)矩阵分解法
4)翻译法
跨知识库补全方法
基于信息检索技术的知识库补全方法
知识库中的常识知识补全
(1)解决长尾实体及关系的稀疏性
知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。
(2)实体的一对多、多对一和多对多问题
对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。
(3)三元组的动态增加和变化导致KG的动态变化加剧
新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。
(4)KG中关系预测路径长度会不断增长。
关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。
是预测三元组(h, r, t) 中缺失实体h, t 或r ,对缺失部分用知识图谱中的实体作为候选项进行排名, 而不是单纯给出一个最优的预测结果
返回所有正确答案的预测排名的倒数的均值。对于每一个query,若第一个正确答案排在第n位,则MR就是n
正确答案预测排名不超过n的比率
对每个关系r给出的少样本参考 实体对集合{(h,t)},能有效推断出真实的实体对子集合{(h,t)}’
整体目标是让真实的尾实体true排名高于其他虚假尾实体,由此进行筛选
对预训练得到的实体嵌入。即用邻居部分来表示自己的信息
目标:用注意力网络得到头实体h的特征向量
嵌入
关系嵌入方法包括:RESCAL, TransE, DistMul, ComplEx
对少样本实体对建模,增强对关系的表达能力
目标:学习得到参考集Rr的表示
参考集Rr(Reference relation)嵌入:获取关系r的特征向量
聚合
匹配
与传统神经网络相比优点:
基本框架为
embedding model + scoring function
首先对每个fact(h,r,t),通过encoding model为实体和关系学习到特征表示,再根据设计的scoring function为其计算得分
encoding model可以是线性模型,也可以是神经网络模型
scoring function主要是为了评估fact的合理性,这个函数应该满足:真实的fact的score要比不真实的fact的score更高
scoring function可以分为
TranE使用的是基于距离的,认为头部的特征表示假设关系的特征表示应该就能得到尾部的特征表示
DisMult使用基于相似度的
在图结构上利用路径信息,来寻找fact中的缺失信息
引入了强化学习,通过将实体对之间的路径查找表述为顺序决策过程,将深度强化学习引入多跳推理
逻辑规则学习,规则由head和body以head←body形式定义。头部是原子,身体是一组原子
给定关系sonOf, hasChild和sex以及实体X和Y,则有规则:
(Y,sonOf,X)←(X,hasChild,Y)^(Y,sex,Male)
知识图谱大规模且复杂,故查询工作困难,解决办法就是把KG中的实体和关系嵌入到空间中,查询的嵌入向量即包含与其结果相关的信息
创新性地将知识图谱嵌入空间改变为双曲曲面空间, 提出了HypE模型
实现了更符合现实世界查询的复杂方式: 对多个简单Query的交集、 并集, 进行联合查询的嵌入表示
Query对应的Answer空间规模可以动态调整: 复杂Query的Answer^间规格参数变大, 包含更多信息
1、 对于KG的推理任务, 双曲面嵌入在学习层次关系方面优于基线
2、 提出HypE变体:HypE-Avg-1t, HypE-Avg-1t,2t,3t, HypE-Avg, HypE-DS, HypE-TC, 评估Jg标涨点
3、 双曲曲面表示在异常检测任务中, 能捕获相关数据特征
4、 双曲面嵌入可以利用实体的辅助语义信息
5、 对HypE模型可视化, 辅助人为理解HypE对应的的潜在表征空间
1、将参数生成应用到链接预测任务,关系视为上下文,生成操作头实体的函数参数
2、 该方法仅用于改进无交互操作的模型,例如ConvE
3、 ConvR侧重将关系嵌入直接作为卷积核,而CoPER - ConvE将关系嵌入作为参数生成的上下文,生成投影所需的参数
4、 沿用CoPER参数生成思路去改进ConvR, 有可能缓解ConvR中的关系嵌入没有深层次化的问题
相比PAPER1,2,参数生成器更像优化环节