近日,国际权威调研机构Gartner® 发布了聚焦图领域的调研报告——《图数据库管理系统市场指南》(Market Guide for Graph Database Management Systems)。在全球范围内,共选出32家代表厂商,其中,同心尚科技依托自主研发的嬴图实时图数据库进阶入选。
Gartner® 认为,“图数据库正在通过提供数据加载、数据转换一致性、安全性和运维,以及提供向上和向外的扩展集群的能力,以增强对图数据库模型的支持”,并重点将嬴图的HTAP(处理在线实时分析,Hybrid Transaction Analytical Processing) 架构作为未来数据库发展方向的案例以示说明(见下图)。
我们知道,任何企业级商务系统,都必须具备高可用性、可扩展性以及快速的故障恢复能力,那么分布式高可用的HTAP集群是实现的方法之一。
HTAP是一种创造性地在一个水平分布式集群内融合了OLTP(在线事务处理,On-Line Transaction Processing)+OLAP(在线分析处理,on-Line Analytic Processing)的数据处理能力,颠覆性地解决了以前鱼(在线事务)和熊掌(在线分析)不能兼得的技术难题,也就是说,所有以前离线或需要T+1之类的批处理的分析类工作,现在均实现了在线、实时(或近实时)完成的能力。
在工业界应用中,一套高性能、高易用、超直观、超简洁的语言的能量决不可小觑,它会对提升生产效率、提高用户体验度,赋能创造创新都有质的提升与改变。这也从数据库的全球国际标准只有SQL(结构化查询语言)与GQL(图查询语言)两大标准即可看出,前者自1983年至今已经历经40年,而后者将会在2023年推出首个国际版标准。
嬴图GQL是与Ultipa 高并发实时图数据库匹配的查询语言。
嬴图GQL具备以下特点:
· 易学、易用、易理解;
· Demi-Schema(多模兼容);
· 大幅降低业务复杂度;
· 同时面向业务人员与开发人员;
· 官方原生图语言。
基于嬴图GQL在构建上的递归、完备、简洁、易懂、灵活、高效等特点,早在2019年即引起作为推动GQL国际标准官方语言权威部门——IEEE(国际电子技术与信息科学工程师协会)以及LDBC等组织的高度重视,共同为GQL国际标准规范的制订和完善进行了多次深度的经验交流。
各组织认为,在嬴图GQL的设计过程中,不仅体现出了一门语言的先进性和优美感,还具备简洁性以及其他先进特点:
· 易学易懂(Easy to Learn,Easy to Understand);
· 高性能(Lightning Fast):这与嬴图底层的数据库引擎有必然相关性;
· 系统的底层复杂性并没有暴露到语言接口层面(System Complexity Shielded-Off)。
上述特点就GQL国际标准规范的制定有条分缕析的文字梳理,此处不一一展开。
当然,高效的语言是成就图技术市场增长的一个火爆点,以嬴图GQL为代表,其嬴图低代码图增强AI+BI平台,已成功赋能客户建模新范式,超强的落地性,为人人成为数据科学家提供了强大的技术支撑——“降低了不具备图专业知识的组织的进入门槛” Gartner®。
研报中,Gartner®将图数据库类型依据底层存储进行了简单划分:原生图数据库(Native DBMSs)和多模图数据库(Multi-model DBMSs )两大类型。原生图数据库“更适用于涉及实时计算、多跳查询和机器学习(ML)等资源密集型处理场景。”——Gartner®。
我们看到,最近20年以来,全球IT市场上已涌现出多家数据库服务商,从传统的非常学术化的RDF(资源定义框架)模式图到新锐的LPG(标签属性图)或属性图,还有那些在传统的SQL数据库之上或NoSQL数据库上搭建的各种多模(非原生图)数据库解决方案。但值得一提的是,新的业务场景和市场对于数据关联分析、深度关联价值的抽取有着刚性的需求——这些刚需则需要基于实时图数据库的技术、产品和方案来满足。
亦如Gartner®在研报中的披露:“原生图数据库和多模图数据库都可以满足企业生产环境中稳定性、可用性和安全性的要求。但是原生图数据库在处理超大规模图(通常是数十亿个节点)的查询时能提供更优质的性能。”
不过,图数据库之间的性能对比也存在着巨大的差异性。大多数图解决方案,在进行类似于表连接的操作时或许可以获得比传统的关系型数据库高出指数级(例如5—1000倍)的性能提升,但它们在面对深度的搜索、关联、计算或高并发、实时决策场景时,仍然会遇到巨大的挑战。所以图数据库技术在近10年的发展中也历经变革:第一代是以非原生图的JanusGraph为代表,第二代是以Neo4j为代表的最早的原生图数据库,Tigergraph是第三代原生并行图,发展到如今以高密度并发原生图技术为代表的第四代图数据库——Ultipa Graph,也是目前全球唯一的第四代图数据库。
Gartner®在报告中,针对图数据库选型表示:是“在不断增涨的查询速度需求与日益复杂的数据模型之间平衡取舍”,以评估现有图数据库厂家的能力。Ultipa在技术上的创新突破已通过严苛的金融级商用场景(高并发、低延迟)中的市场检验:
· 高密度并发图计算,集群更小:通过高密度的实时图计算,能充分对底层硬件,用更少的计算资源,更低的碳排放,获取到更高的算力并发。同时全球首款支持X86 CPU/ARM架构的高密度并发算力的释放;
· 线性可扩展图计算能力:面向图的整体性而设计的线性可扩展的系统架构;
· 超深度图遍历能力:在图上实现深度搜索的能力;
· 动态图剪枝:在图上计算的时候,例如深图遍历不但不会导致性能下降,甚至可以实现性能的提升;
· HTAP架构:融合了OLTP+OLAP的数据(业务)处理能力。
· CAP集群实现:保证集群的可用性、分区与数据一致性(最终一致性)。
这些新技术的运用为企业所带来的直接收益就是:
· TCO的有效降低 :70% TCO的降低;
· 实施交付速度的大幅提升:交付周期缩短达80%;
· 极致的用户体验:整个系统的易用性、可用性、稳定性;
· 技术原生、自主可控。
同时,在对时效性、安全性、海量数据处理能力等要求的场景应用中,嬴图数据库还具备稳定性、易用性、可集成性、功能性等全面性能优势。
在研报中,Gartner® 认为,基于图的应用、普及和成熟度的不断提高,其开宗明义就作出以下趋势性预测(如下图所示):
· 到2025年,包括图数据库管理系统(DBMS)在内的图技术市场将增长到32亿美元,复合年增长率为28.1%。
· 到2025年,图技术将用于80% 的数据和分析创新,高于2021的10%,从而促进整个企业的快速决策。
· 大型传统数据库管理系统和平台供应商以及初创公司都在瞄准这些机会,因为兴趣和势头正在明显扩大。
同时,清晰罗列出了几大受众画像:
· 程序开发员:正在将更多地面向客户或内部的项目转向图技术,利用图数据库作为存储和执行后端。
· 数据架构师:正在为内容管理、个性化和语义数据兼容性设计基于知识图谱的解决方案
· 数据科学家:对数据点、边之间的连接和关系进行高阶探索,以获得更好的洞察力。
· 业务所有者和领域专家:正在寻求针对图技术最适合的用例专用工具,如用于决策智能、专家系统、360°客户视图、反欺诈监测以及智能调查等。
通过研报所示,随着市场对图数据库的兴趣和使用的稳定增加,让来自于传统关系型数据库的厂商倍感竞争、压力和挑战,但这阻挡不了图数据库成为未来市场领导者的速度。
正如高性能计算与存储系统专家、大数据专家、数据库专家、嬴图CEO兼CTO孙宇熙在新著《图数据库原理、架构与应用》中所述:“人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式,而图思维方式的本质就是能 100% 实现映射和还原世界,并能在提供深层计算能力的同时,打破系统间、数据间存在的藩篱,并对多源、多维的数据进行深度下钻、关联、归因分析——这实际上就是一种图计算与分析的方式。所以,我们可以预见到未来图数据库与(实时)图计算技术的发展,不仅会占有一席之地,尤其是随着数据规模的不断扩大、数据复杂性的不断提高,图会成为未来数据库技术发展的主流方向之一。”