• 读书笔记--知识图谱基础概念与关键环节解析


            知识图谱相当于一张网,是一种大型知识库,一种揭示实体之间关系的语义网络,是事物及其关系的形式化描述,分为通用知识图谱和领域(行业)知识图谱,如DBpedia,OpenKG,Wikidata. 知识图谱为多源、异构、海量、动态数据的表达、组织、管理和利用等提供了一种更为有效的方式,知识图谱促进了理解和处理,使得智能化水平更高,更接近人类认知思维。

           大家研究知识图谱,其实主要是关注知识图谱和智能化之间的关系,特别是知识图谱与认知智能的关系。
    知识图谱与认知智能的关系:认知的高度决定你创造价值的高度,包括你对世界的认知和世界对你的认知。认知的基础是知识,需要我们从数据中挖掘形成知识,进而提升认知,实现人工智能的认知能力提升,提升业务人员的决策效率。
    智能类型主要分为计算智能、感知智能和认知智能,详见图1-1,认知智能具有对信息的获取处理、存储、转化和应用能力。认知智能是产业实现突破的核心手段,协同的基础是认知意图、数据、知识之间的逻辑关系和业务意义,用于辅助分析决策,人工智能的新一代趋势要求利用知识、数据、算法和算力,将符号学知识驱动的AI和数据驱动的AI结合起来,形成强大的认知决策智能,提升人、物和企业的信息博弈能力。

    图1-1

    通过学习知识图谱构建及应用案例,了解到知识图谱的构建是一项长期发展和优化的过程工程,需要不断的研究探索和应用实践。知识图谱的落地研究有符号学派、统计学派和图网络学派。目前学术界研究较多的图神经网络(GNN)综合了符号和图拓扑结构信息。
    知识图谱的发展历程,详见图1-2。

    图1-2

    知识图谱主要涉及到知识抽取、表示、融合、建模、推理等关键环节的解决与突破,知识图谱的构建过程详见图1-3。

    图1-3

    一、知识抽取

    知识抽取是从结构化、半结构化、非结构化数据中提取实体、关系及属性等知识要素,同时基于语句和语境抽取实体间关系及实体所描述的事件,以便于后续的知识融合。
    知识抽取也叫做信息抽取,主要任务有实体抽取、实体链接(包括链接、实体消岐和共指消解)、关系抽取、属性抽取和事件抽取,主要方法有众包法、爬虫法、机器学习法和专家法。
    结构化数据的信息抽取见下图

    半结构化数据的信息抽取主要通过编写数据清洗、标注和解析评估来实现,主要通过XPath对表格、列表和网页进行解析实现信息抽取。
    非结构化数据的信息抽取主要通过隐马尔可夫模型(HMM)、条件随机场(CRF)、长短时记忆(LSTM)等实现实体抽取。关系抽取主要有基于触发词、基于依存句法分析的模板抽取方法,基于监督学习方法和基于弱监督学习方法的抽取。

    二、知识表示

    知识表示是如何用合适的方式来表示各种知识要素,相当于将知识符号化的过程,以便计算机能够理解,主要有基于符号,基于向量的知识表示。
    基于符号表示法主要有早期的一阶谓词逻辑表示、产生式规则表示、语义网络表示、框架表示法,语义网表示法有RDF、RDFS、OWL方法。
    基于向量的表示法主要有TransE、TransH、TransR、TransD、TransSparse,组合模型,三元组的神经网络模型等

    三、知识融合

    知识融合是通过冲突检测、真值发现等技术进行消除冲突,进行关联与合并的过程,主要有概念层的本体对齐和数据层的实体对齐。本体对齐明确一个统一的知识体系。通过融合形成高质量的知识图谱。知识融合任务的执行流程详见下图。

    本地对齐方法有基于字符串比较、基于路径结构和基于实例方法。
    实体对齐方法有属性相似度(文本字符串、聚合相似度和向量相似度)和实体相似度(聚合、聚类和嵌入式知识表示)

    四、知识建模

    知识建模是建立知识图谱的数据模式,是构建知识图谱规范的过程,相当于通过知识建模,使得知识更加组织有序、层次分类和简洁关联。
    知识建模:Top-Down和Down-Top,前者是从泛化到专精化,后者是从专精化--抽象--泛化。知识建模主要包括两个任务或步骤,本体建模和知识表示建模,本体建模建立概念层的层次结构,达到人类可理解的程度,知识表示建模建立知识图谱数据层的模型,得到图谱数据模型,使得计算机可理解这些数据之间的关系。
    知识建模方法有手工建模方法、半自动建模和数据驱动的本体自动建模。
    手工建模方法:包括明确本体及任务、模型复用、列出本体涉及领域中的元素、明确分类体系、定义类的属性和关系、定义属性的约束条件和创建实例等七个步骤,详见下图。

    半自动建模:详见下图所示

    本体自动建模:数据驱动的本体自动建模包括实体并列关系计算、实体上下位关系抽取、本体生成等,详见下图所示。

    五、知识推理

    察己则可以知人,察今则可以知古,通过丰富扩展知识库,更好的支持智能检索 、推荐和知识问答等,丰富挖掘隐含的知识,知识推理其实是知识图谱建设的终极目标,通过推理可以弥补数据不足的情况,完成实体预测、关系预测、属性预测和路径预测等。将知识库中的关系和属性等信息补全,也是知识库工程化的重要工作。主要有基于逻辑规则、基于知识表示学习和基于图的推理和混合推理。
    逻辑规则主要有一阶谓词逻辑、描述逻辑、概率图逻辑和路径规则逻辑。
    知识表示学习推理主要有基于张量分解模型、基于转移的表示逻辑

    六、知识存储

    知识也是一种数据,也需要存储,知识存储方法主要有基于RDFS、基于NoSQL和基于分布式存储。
    基于RDFS:三列表存储、水平表、属性表、全索引表。
    基于NoSQL:列式存储、文档存储和图存储
    基于分布式:RDFPeers、YARS2、4Store
    利用Apache Jena存储数据,可参考SPARQL查询和JENA存储
    利用TDB和Fuseki存储和管理三元组,可以通过SPARQL进行查询,进入目录运行fuseki-server.bat
    利用Neo4j存储数据:实现了从json抽取数据到neo4j,从mysql 抽取数据到neo4j。

    七、知识计算

    知识计算也叫做知识应用,相当于通过知识统计、图挖掘、知识推理等方法与传统应用的结合,提供知识补全、知识纠错,来提高知识完备性扩大知识覆盖面,通过简洁的自然语言形式自动地回答用户提出的问题,实现知识图谱的各类应用。

    八、知识图谱平台

    知识图谱如果想得到规范化建设并得到有效应用,就需要建立知识图谱平台,有些也叫做知识服务平台,逐步解决构建周期长、难度大,复用低等难题,实现知识图谱的一站式平台服务、集成的基础能力和行业场景的解决方案。目前开源的有AiMind知识图谱平台。
    知识图谱标准体系结构图详见下图。

    知识图谱管理平台实现将多个数据和知识的所有方、开发方和应用方的需求与认知对齐,形成从认知、建设到服务的一体化、平台化服务产品,平台架构详见下图。

    九、知识图谱的应用场景
    1.智能搜索

    传统的搜索:关键词--网页的匹配关系,没有真正理解用户查询内容本质,即语义理解。
    基于图谱的搜索:通过用户提交的问句,首先要对其进行语义理解,不局限于字面本身,准确把握用户真实意图,然后通过对实体、关系和用户的理解,分析交互行为,进行知识检索获取准确答案,图谱更深入、广泛和完备,并且有完整的知识体系,是一种长尾搜索。

    2.推荐系统

    图谱引入事物的语义信息,提升推荐的相关性、多样性和可解释性。

    3.知识问答

    引入了文本语义深层次的分析处理,实现深层次的逻辑推理,结合问句语义解析、语义表示技术,并结合知识推理和深度学习算法,使得问答更加智能、更为准确可靠。避免偏差。

    4.推理决策

    利用知识融合与推理技术,发现潜在规律和关联,利用图谱强大的关系连接能力,将信息整合为一体,从一点穿透到信息潜在的关联部分,比如多跳问题等。比如反欺诈、风险评估等应用。

  • 相关阅读:
    【Spring底层原理】BeanFactory的实现
    数据结构与算法之堆: Leetcode 23. 合并 K 个升序链表 (Typescript版)
    硬件设计——串联直流稳压电源
    操作系统题目收录(一)
    自动驾驶---Perception之Occupancy
    [激光器原理与应用-13]: 2022年中国激光行业产业链全景梳理
    2022杭电多校联赛第七场 题解
    读<算法图解><笔记摘录>
    uniapp开发实现 app热更新
    Knife4j使用教程(一) -- 在不同版本SpringBoot,选用不同的Knife4j相关的jar包
  • 原文地址:https://blog.csdn.net/hhue2007/article/details/133420933