
语义网络是由Quillian于上世纪60年代提出的知识表达模式,其用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间的关系。

语义网络的优点:
1. 容易理解和展示。
2. 相关概念容易聚类。
语义网络的缺点:
1. 节点和边的值没有标准,完全是由用户自己定义。
2. 多源数据融合比较困难,因为没有标准。
3. 无法区分概念节点和对象节点。
4. 无法对节点和边的标签(label,我理解是schema层,后面会介绍)进行定义。
简而言之,语义网络可以比较容易地让我们理解语义和语义关系。其表达形式简单直白,符合自然。然而,由于缺少标准,其比较难应用于实践。
RDF(Resource Description Framework)即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。RDF的提出解决了语义网络的缺点1和缺点2,在节点和边的取值上做了约束,制定了统一标准,为多源数据的融合提供了便利。在知识图谱中,RDF把三元组作为基本的数据类型,形式化地表示三元关系(Subject, predicate, object)。

另外,RDF对is-a关系进行了定义,即rdf:type。因此,不管在哪个语义网络中,表达is-a关系,我们都用rdf:type,在语法上形成了统一。比如猫、熊与哺乳动物的关系就可以形式化的表达为:
- 猫 rdf:type 哺乳动物
- 熊 rdf:type 哺乳动物
但还有个问题,如何区分概念和对象?即定义Class和Object。(我理解的是:怎么区分A是B的一个实例object,还是B的一个所属类Class?即A和B之间的多种关系怎么区别
如果不能区分,会对我们产生什么影响?举个例子,假如我们有两个语义网络A和B。在A中,熊是哺乳动物的一个实例。在B中,熊是哺乳动物的一个子类。前者是is-a关系,后者是subClassOf关系。这种情况常有发生,我们建模的角度不同,那么同一个事物的表示也可能不同。如果我们不能用一种方法来区别两者,不仅会给我们带来理解上的困难,在进行融合的时候也会造成数据冲突。我们不能说A既是B的一个实例,又是B的一个子类。W3C制定的另外两个标准RDFS/OWL解决了这个问题,如下图。

在语义网技术栈中,RDFS和OWL是RDF更上一层的技术,主要是为了解决语义网络的缺点3和缺点4。RDFS在RDF的基础上定义了一些固定的关键词如:Class,subClassOf,type, Property, subPropertyOf, Domain, Range以及多了Schema层。

OWL(Web Ontology Language 网络本体语言), 该本体是由哲学概念引入到人工智能领域的。OWL在RDF的基础上扩充了Schema层,使它支持推理等操作。
这里只需要知道,通过RDFS或者OWL中的预定义词汇,我们可以形式化地声明一个类:
- 哺乳动物 rdf:type rdfs:Class
- 或者
- 哺乳动物 rdf:type owl:Class
通过RDFS也可以声明一个子类:
- 熊 rdf:type rdfs:Class
- 熊 rdfs:subClassOf 哺乳动物
或者声明一个实例
熊 rdf:type 哺乳动物
我们也可以把rdf:type用a代替,即
熊 a 哺乳动物
RDF、RDFS/OWL属于语义网技术栈,它们的提出,使得语义网克服了语义网络的缺点。
1989年,Tim Berners-Lee 提出构建一个全球化的以“链接”为中心的信息系统。任何人都可以通过添加链接把自己的文档链入其中。之后演化发展成为今天的World Wide Web。
1994年,Tim Berners-Lee 又提出 Web 不应该仅仅只是网页之间的互相链接。实际上,网页中描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含语义,即这些实体或概念之间的关系;然而,机器却无法有效地从网页中识别出其中蕴含的语义。
语义网和链接数据是万维网之父Tim Berners Lee分别在1998年和2006提出的。相对于语义网络,语义网和链接数据倾向于描述万维网中资源、数据之间的关系。知识图谱的早期理念来自Semantic Web(语义网),其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。
语义网是一个更官方的名称,也是该领域学者使用得最多的一个术语,同时,也用于指代其相关的技术标准。在万维网诞生之初,网络上的内容只是人类可读,而计算机无法理解和处理。比如,我们浏览一个网页,我们能够轻松理解网页上面的内容,而计算机只知道这是一个网页。网页里面有图片、有链接,但是计算机并不知道图片是关于什么的,也不清楚链接指向的页面和当前页面有何关系。语义网正是为了使得网络上的数据变得机器可读而提出的一个通用框架。
2006年Tim突出强调语义网的本质是要建立开放数据之间的链接,即链接数据(LInked Data)。链接数据起初是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接。从某种角度说,知识图谱是对链接数据这个概念的进一步包装。如下图所示,读者肯定在很多地方看过,这其实就是开放链接数据项目(Linked Open Data Project)进展的可视化,也通常用来展示当前开放知识图谱的规模,涉及的领域以及知识图谱间的链接关系。
本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
知识图谱是由本体(Ontology)作为Schema层,和RDF数据模型兼容的结构化数据集。
本体本身是个哲学名词,在1998年对本体进行了比较完善的定义:本体是共享概念模型的明确的形式化规范说明。这个定义体现了本体的四层含义:概念模型、明确、形式化、共享。
(1)概念模型:通过抽象出客观世界中一些现象的相关概念而得到的模型。
(2)明确:所使用地概念及使用这些概念的约束都有明确的定义。
(3)形式化:本体可通过各种形式化语言对其进行描述,最终是计算机可读、可操作的。
(4)共享:本体中体现的是公认的知识,反映的是相关领域中公认的概念集。本体的目标是通过确定该领域内共同认可的词汇,达到对该领域知识的共同理解。
Perez等人利用分类法来组织本体,并归纳出以下5个基本的建模元语:
(1)类或概念:从语义上将,它表示的是对象的集合,其定义一般采用框架结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。
(2)关系:在领域中概念之间的相互作用,形式上定义为n维笛卡尔积的子集。在语义上关系对应于对象元组的集合。
(3)函数:一类特殊的关系,该关系的前n-1个元素可以唯一决定第n个元素。
(4)公理:代表永真断言,如概念乙属于概念甲的范畴。
(5)实例:代表元素,从语义上讲实例表示的就是对象。

罗纳尔多是一个人,里约热内卢是一个地点,我们用RDF来表示就是:
- www.kg.com/person/1 rdf:type kg:Person.
- www.kg.com/place/10086 rdf:type kg:Place.
关系我们也称为属性(Property),根据是实体和实体之间的关系还是实体和数据值之间的关系分为对象属性(Object Property)和数据属性(Data Property)。在图中,罗纳尔多和里约热内卢的关系(本例中是对象属性)与罗纳尔多和全名的关系(本例中是数据属性)用RDF就可以表示为:
- www.kg.com/person/1 kg:hasBirthPlace www.kg.com/place/10086
- www.kg.com/person/1 kg:fullName "Ronaldo Luís Nazário de Lima"^^xsd:string
这里kg:Person,kg:Place,kg:hasBirthPlace,kg:fullName是我们在Ontology中定义好的类和关系。
构建知识图谱的目的就是让及其形成认知能力,使其能够理解这个世界。在使用知识图谱服务进行搜索时,人们可以直接获得与数据关联的答案,而不是可能包含答案的网页。

链接数据和知识图谱最大的区别在于:
1. 正如上面Open Linked Data Project所展示的,每一个圆圈代表一个独立存在和维护的知识图谱;链接数据更强调不同RDF数据集(知识图谱)的相互链接。
2. 知识图谱不一定要链接到外部的知识图谱(和企业内部数据通常也不会公开一个道理),更强调有一个本体层来定义实体的类型和实体之间的关系。另外,知识图谱数据质量要求比较高且容易访问,能够提供面向终端用户的信息服务(查询、问答等等)。