知识图谱是关于某个主题的知识的结构化表示所组成的关系网络,它由节点和(连接不同节点的)边构成,本质上是一种语义网络。知识图谱中的每个节点代表该主题内一个实体或概念,边代表相连实体或概念间的语义关系。
例如对简历解析任务来说:一份原始的 pdf 或 word 格式简历文件就是数据,因为它是直接采集(收集)到的客观事实、尚未经任务人工处理;通过文本提取技术,得到的简历内容的逐行文本文档即是信息,它已经经过了结构化处理;再通过NER技术,从简历文本文档中提取到姓名、工作经历等实体信息后,这些关于目标实体的信息即可以理解成一种知识了。
知识表示(knowledge representation)是用易于被计算机处理的方式来描述人脑知识的方法1。它可分为符号表示和向量表示(Embeding)两类,符号表示可解释性好、开发建设简单,但不易刻画隐式知识,且进行知识推理困难;向量表示鲁棒性好、易于刻画隐式知识且易于进行知识推理,但它也丢失了符号表示的可解释性,且需要基于符号表示的知识图谱二次开发得到,实现复杂、开发成本更高。更多详细信息请阅读作者文章:知识图谱:知识表示。
语义网络是当前 Web(万维网)技术的扩展。在语义网络中,信息被赋予定义明确的含义,能更好地使计算机和人合作工作。
本体(ontology),实体(entity),关系(relation),属性(property)
一般来讲,人脑中的知识往往是声音、图像、感官信号和语言描述等非结构化信息,这难以被计算机所理解,因此需要通过某种方法将其编辑成可供计算机理解的结构化数据。 ↩︎