知识图谱,作为一种先进的数据模型和信息表示策略,极大地提升了信息检索与分析的能力。该模型利用图结构,将不同领域、层次和类别的信息有机整合,令复杂的数据关系变得清晰易懂。 在诸如人工智能、搜索引擎优化以及数据分析等多个重要领域中,知识图谱早已证明了其巨大的价值和潜力。通过对大量数据进行高效查询和推理,知识图谱不仅能提供更个性化、更准确的信息服务,也有助于提高企业和个人的决策效率。
随着大数据技术和数字经济的快速演进,知识图谱处理的数据量和复杂度也随之递增。这使得传统的三元组(subject-predicate-object)存储方案在性能和可扩展性上逐渐显得不足。因此,大多数工业应用现已转向更为高效的、基于属性图的图数据库解决方案。与三元组方法相比,这些原生图数据库针对图结构进行了优化,实现了免索引邻接(index-free adjacency),从而即便在大规模数据操作和复杂查询的环境下也能维持出色的性能。成熟的商业图数据库还进一步提供了数据安全、事务支持、水平扩展、实时容灾以及运维监控等关键功能,确保了数据的高可靠性和安全性,同时也增强了系统的可扩展性和可维护性,从而对知识图谱的商业化落地提供了强有力的支持。
在践行多个知识图谱应用项目的过程中,我们深刻感受到,长期维护和有效运用知识图谱涉及多方面的复杂挑战。这些挑战大致可以分为两个主要领域:一是静态的数据与动态的业务需求之间的张力,二是高易用性与强表达力的平衡。
选择图模式(Schema):弱类型与强类型的权衡
选择弱类型/弱Schema约束的图数据库可以赋予业务人员极大的灵活性,在数据查询和分析上能够快速上手。然而,随着数据量的逐渐膨胀和业务需求的复杂化,这种架构缺乏明确的规范和结构、容易带来数据不一致问题和数据质量问题,将导致后续的数据维护和性能优化面临巨大困境。因此,在生产环境中,我们会推荐使用强类型/强Schema约束,以确保长期的可维护性和查询性能。
复用基础图谱:一图多用的挑战
以企业股权穿透图谱为例,初步构建的图谱通常包含企业投资企业、个人投资企业等数据,可供业务人员探索实际控制关系、集团关系等企业关系的查询和推理。在引入交易数据后,业务人员可以从更多维度探索图谱,譬如挖掘企业间的关联交易关系。但此时如何高效地复用先前的基础图谱就会成为一个问题。若通过调用的方式复用原图谱,新业务对原图谱的修改将影响原业务的稳定;若将两个图谱融合形成完整的企业交易图谱,则如何保证两个图谱的企业数据更新的一致性又是新的挑战。
数据一致性:逻辑依赖导致的连锁反应
当底层数据发生变化,上层业务推理衍生出的关系或特征也必然要重新计算。仍以企业股权穿透图谱为例,企业实控人是由股权关系和规则计算推理出来的,若传导链路中的企业股权数据发生变化,那么整个连通图范围内的企业实控人都将重新计算。在大量数据更新时,进行这样全图的级联计算是相当耗费系统资源的。因此,如何确保数据一致性,同时减少系统压力,是我们需要持续解决的难题。
子图处理:标准化与实体对齐
子图处理是业务实践中一个普遍存在的问题。比如,在反欺诈、反洗钱等业务中,业务人员需要对一定范围内的子图进行详细分析,而子图的定义方式和在子图内进行筛选、剪枝等操作的方式并无统一标准。同样,涉及多个图的子图在融合时往往会产生歧义,导致数据无法有效对齐。
持续膨胀的Schema与数据
随着业务进展,新的业务形态与关系不断涌现、业务决策逻辑与依据不断调整迭代,这也意味着我们需要频繁地更新图谱Schema和数据。长时间下来,原始和衍生数据的混合使得数据维护与溯源变得复杂。
综合来看,原始数据本质上是较为单一和稳定的,然而业务需求却是不断变化和拓展的。这就需要我们能够在实际应用中灵活地构建和调整图模式,以满足多维度、全局视角的业务分析需求。
查询语言的学习门槛与推理能力
虽然Cypher/GQL等图查询语言相对直观,但要求业务人员具有将复杂推理逻辑转换为具体图查询的能力,这对非技术人员来说并不容易。
业务逻辑开发人员需要兼具查询性能优化的能力
通常情况下,查询语言的不同写法会导致生成不同的执行计划,从而影响查询性能。在一些对性能要求较高的场景中,开发人员需要通过自定义函数或过程的方式实现高效的查询。在开发过程中,需要深入了解业务逻辑、图Schema、推理过程,才能对查询进行优化,这无疑增加了项目落地的复杂性和时间成本。
初始图模式(Schema)的定义至关重要,否则后续修改的代价很高
图模式的选择会极大的影响产品性能和易用性,因此对数据分析师也有较高的要求。图模式是在知识图谱应用开发的早期就需要确定的,它会影响后续所有查询的写法以及性能。
对“事件”这样随时间演化的数据缺少标准处理机制
现有的属性图系统缺乏对“事件”这一动态数据类型的标准处理机制。一般情况下,我们会通过在点边上增加时间戳类型的属性来表示事件,但对事件在时间维度下怎样进行演化和关联缺乏标准的分析处理机制。这往往导致事件传导推理结论的可解释性不够直观,且不同系统的实现方式千差万别,缺乏统一管理的接口。在数据分析时如果涉及到数据过期、需要对数据进行时间切片等情况时,会进一步加大事件处理的复杂度。
总体而言,我们都希望产品具备高度的易用性和强大的表达能力,但这两者往往难以兼得。实现这一平衡,便是知识图谱应用落地过程中需要持续攻克的难题。
面对知识图谱应用落地的复杂挑战,一种先进的解决方案应运而生——那就是新一代工业级知识语义表示框架SPG(Semantic-enhanced Programmable Graph,语义增强可编程知识图谱)。SPG不仅为“知识”提供了一种形式化和可编程的框架,让人可以直观的解读、让机器能够高效的处理,而且在知识层级间实现了兼容与递进。更令人振奋的是,该框架具备对非完备数据状态下的图谱构建和持续演化的强大支持。SPG框架更是顺畅地融合了大数据与AI技术,使得对海量数据的知识化转换成为可能,从而极大地提升了数据的应用价值。通过SPG框架,我们可以更加高效地构建和管理图谱数据,同时可以更好地支持业务需求与场景应用。
SPG系统由五大精心设计的模块组成,每个模块都充当着不可或缺的角色。
这五大模块共同构成了一个高度分层、模块化且解耦合良好的系统,使得团队成员可以更加专注于自己擅长的领域。SPG的设计考虑到了不同专业背景的团队成员,实现了业务与技术之间的高效协作。业务人员只需使用具有语义推理能力的SPG语法,便可轻松完成图谱推理。与此同时,编程开发人员无需深入了解复杂的业务逻辑,只需专注于图查询和图计算的性能优化。通过实现对应的接口,他们便可以高效地应对各种实际应用场景。
总体而言,SPG不仅是一种技术框架,更是一种业务与技术和谐共生的全新范式。通过这一框架,我们不仅能更高效地构建和管理复杂的图谱数据,还能更全面地满足多样化的业务需求和应用场景。
作为SPG工作组的核心参与者,创邻科技承担了引领SPG-Engine模块设计和规范制定的重任。SPG-Engine层不仅是SPG理论到实际应用的关键转换点,更是连接SPG与第三方属性图系统(简称为LPG,Labeled Property Graph)的桥梁。这一层主要由三大子模块组成:SPG2LPG Translator、SPG2LPG Builder和SPG2LPG Executor。其详细的模块架构如下图所示:
SPG2LPG Translator: 负责SPG与属性图之间Schema的转换。考虑到SPG Schema涉及到丰富的语义表达,譬如概念类型、标准属性和事件对象,以及subClassOf这样的语义关系,这些在属性图Schema中都没有显式的表达,从而需要进行精细的映射和转换。
SPG2LPG Builder: 负责知识的格式转化。由于业务层的知识数据是按照SPG Schema进行组织的,因此在导入到属性图系统之前需要将这些数据转换为属性图兼容的格式,以实现知识的写入和更新。
SPG2LPG Executor: 负责查询和计算的核心模块,它主要执行来自SPG-Controller的、基于RDG(Resilient Distributed Graph,弹性分布式图,借鉴了弹性分布式数据集RDD的定义)算子构成的执行计划,以实现复杂的推理和计算过程。
SPG引擎的底层能力,包括图存储、图查询和图计算等,通常由第三方属性图系统提供。第三方属性系统是可以支持单机或分布式部署的独立服务进程,具备独立的集群安装、部署、运维、监控、管理方式,及Web用户界面。该图系统通过一组适配接口和SPG Controller所在进程进行交互。
为适应不同的第三方属性图系统能力,SPG-Engine存在两种实现策略:一是使用具备HTAP(混合事务/分析处理)能力的单一底层系统,二是使用分别具备TP(事务处理)和AP(分析处理)能力的组合系统。不论采用哪种实现方式,第三方属性图系统都需要满足SPG对其提出的不同等级的技术与功能要求,并按照SPG-Engine Core所描述的接口规范完成适配。
综上所述,SPG引擎层是一个多功能、高效且灵活的模块,不仅负责SPG系统和属性图系统之间的衔接转换,还具备与多种第三方属性图系统的高度互操作性,为复杂的知识图谱应用提供了坚实的基础。
按照SPG的技术规划,未来将首批适配蚂蚁TuGraph图数据库和创邻Galaxybase图数据库,以加速SPG技术从理论到实践的成熟转化。TuGraph和Galaxybase的卓越性能使其能够完美实现SPG-Engine的高级要求,这将显著提升SPG系统在实时推理方面的计算效率。
未来我们也将大力推动SPG技术在多行业领域的应用和实践,包括但不限于金融、能源、政务及互联网。我们相信,通过解决这些行业特有的复杂问题和挑战,Galaxybase和SPG技术将能够为企业和终端用户带来更为出色的使用体验和更高的价值回报。
此外,我们正积极推动建设一套统一的SPG能力评测体系,通过标准化的功能和性能指标来驱动SPG技术的不断创新和完善。这不仅有助于提升SPG技术自身的成熟度,还将促进整个知识图谱行业水平的提升。
创邻科技Galaxybase也将站在SPG技术发展的最前沿,从引擎优化到产业落地,全方位推进图技术的进步与普及,赋能企业加速释放数据资产价值。
创邻科技自主研发的图数据库Galaxybase,是分布式原生图数据库的杰出代表之一。 该产品采用了先进的分布式架构,对图数据的存储和处理进行了深度优化,实现了卓越的横向扩展性,完全满足了知识图谱对高效图数据存储和处理的要求。值得一提的是,Galaxybase的存储和计算内核完全由创邻科技自主研发,不依赖第三方开源方案,因此完全符合国产信创标准,适配各种国产CPU和操作系统。得益于其原生图存储和图处理的优势,Galaxybase已在金融、能源、政府、高等教育、互联网等多个行业中成功支持了知识图谱应用的实际部署。多家大型商业银行已经选择使用Galaxybase作为其企业级知识图谱应用平台的基础技术,成功实现了知识图谱建模、分析、挖掘、服务的全流程集成,构建了企业图谱、信贷风险图谱等多个领域知识图谱,应用于精准营销、风险防控、反洗钱、合规审计等业务领域。