导语:本文参考网络相关文章,主要总结了XA, 2PC, 3PC, 本地事务状态表, 可靠消息队列, 最大努力通知, TCC, SAGA等分布式事务的特点和适用场景,为大家选择分布式事务提供一些参考。
分布式事务是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上,相对的,传统事务也称之为单机事务。在单机事务时代,我们通常可以使用数据库的事务操作来解决数据的一致性问题;那么在微服务越来越流行的当下,我们应该如何保证不同服务器上数据的一致性?本文先从CAP理论和BASE理论说起,之后从一致性强弱的角度梳理当前主流的强一致性方案、最终一致性方案和弱一致性方案,最后总结一下各个方案的特点和适用场景,希望对你有所帮助。
CAP理论可以说是分布式系统的基石,它说的是一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项,而不能同时满足。
2000年7月,加州大学伯克利分校的Eric Brewer教授在98年提出CAP猜想,99年发表(Harvest, Yield and Scalable Tolerant Systems),2000年在ACM PODC主题演讲(CAP keynote)。2年后,麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。之后,CAP理论正式成为分布式计算领域的公认定理。
CAP是Consistency、Availability、Partition tolerance三个词的缩写:
CAP定理在分布式领域至关重要,在构建大型分布式系统的时候我们必须根据自己业务的独特性在三者之间进行权衡。
由于网络的各种不确定因素,在构建分布式应用的时候我们往往不得不考虑分区容忍性,这个时候我们通常只能在一致性和可用性之间进行选择。
根据CAP定理,如果要完整的实现事务的ACID特性,只能放弃可用性选择一致性,即CP模型。然而如今大多数的互联网应用中,可用性也同样至关重要。于是eBay架构师根据CAP定理进行妥协提出一种ACID替代性方案,即BASE,从而来达到可用性和一致性之间的某种微妙的平衡,选择AP模型的同时最大限度的满足一致性。
由 eBay 架构师 Dan Pritchett 于 2008 年在《BASE: An Acid Alternative》论文中首次提出
BASE是下面三部分的英文缩写简称:
“基本可用”是相对CAP的“完全可用”而言的,即在部分节点出现故障的时候不要求整个系统完全可用,允许系统出现部分功能和性能上的损失:比如增加响应时间,引导用户到一个降级提示页面等等。
“软状态”则是相对CAP定理强一致性的“硬状态”而言,CAP定理的一致性要求数据变化要立即反映到所有的节点副本上去,是一种强一致性。“软状态”不要求数据变化立即反映到所有的服务器节点上,允许存在一个中间状态进行过渡,比如允许放大延时等。
“最终一致性”则是相对强一致性而言,它不要求系统数据始终保持一致的状态,只要求系统经过一段时间后最终会达到一致状态即可。
Base 理论是对 CAP 中一致性和可用性权衡的结果,其来源于对大型互联网分布式实践的总结,是基于 CAP 定理逐步演化而来的。其核心思想是:强一致性(Strong consistency)无法得到保障时,我们可以根据业务自身的特点,采用适当的方式来达到最终一致性(Eventual consistency)
强一致性的方案便是前面提到的舍A保C的CP模型,即通过牺牲可用性来保证一致性,这种方案适用于对一致性要求很高的场景,比如金融交易等。
二阶段提交(Two-phaseCommit)是指,在计算机网络以及数据库领域内,为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法(Algorithm)。通常,二阶段提交也被称为是一种协议(Protocol))。
第一个一致性问题实例应该是Lamport的“Time, Clocks and the Ordering of Events in a Distributed System” (1978),大概在这篇论文发表的同一时间,JimGray在“Notes on Database Operating Systems” (1979)中描述了两阶段提交(2PC)。
当一个事务跨越多个节点时,为了保持事务的ACID特性,需要引入一个作为协调者的组件来统一掌控所有节点(称作参与者)的操作结果并最终指示这些节点是否要把操作结果进行真正的提交(比如将更新后的数据写入磁盘等等)。
因此,二阶段提交的算法思路可以概括为: 参与者将操作成败通知协调者,再由协调者根据所有参与者的反馈情报决定各参与者是否要提交操作还是中止操作。
所谓的两个阶段是指:
第一阶段:voting phase 投票阶段
事务协调者给每个参与者发送Prepare消息,每个参与者要么直接返回失败(如权限验证失败),要么在本地执行事务,写本地的redo和undo日志,但不提交,到达一种“万事俱备,只欠东风”的状态。
第二阶段:commit phase 提交阶段
如果协调者收到了参与者的失败消息或者超时,直接给每个参与者发送回滚(Rollback)消息;否则,发送提交(Commit)消息;参与者根据协调者的指令执行提交或者回滚操作,释放所有事务处理过程中使用的锁资源。(注意:必须在最后阶段释放锁资源)
二阶段提交的操作时序图如下:
以上这两个过程被称为“两段式提交”(2 Phase Commit,2PC)协议,而它能够成功保证一致性还需要一些其他前提条件。
两段式提交的原理很简单,也不难实现,但有几个非常明显的缺点:
1. 单点故障问题
协调者在两段提交中具有举足轻重的作用,协调者等待参与者回复时可以有超时机制,允许参与者宕机,但参与者等待协调者指令时无法做超时处理。一旦协调者宕机,所有参与者都会受到影响。如果协调者一直没有恢复,没有正常发送 Commit 或者 Rollback 的指令,那所有参与者都必须一直等待。
2. 同步阻塞问题
执行过程中,所有参与节点都是事务阻塞型的。当参与者占有公共资源时,其他第三方节点访问公共资源不得不处于阻塞状态。也就是说从投票阶段到提交阶段完成这段时间,资源是被锁住的。
3. 数据一致性问题
前面已经提到,两段式提交的成立是有前提条件的,当网络稳定性和宕机恢复能力的假设不成立时,两阶段提交可能会出现一致性问题。
对于宕机恢复能力这一点无需多说。1985 年 Fischer、Lynch、Paterson 用定理(被称为FLP 不可能原理,在分布式中与 CAP 定理齐名)证明了如果宕机最后不能恢复,那就不存在任何一种分布式协议可以正确地达成一致性结果。
对于网络稳定性来说,尽管提交阶段时间很短,但仍是明确存在的危险期。如果协调者在发出准备指令后,根据各个参与者发回的信息确定事务状态是可以提交的,协调者就会先持久化事务状态,并提交自己的事务。如果这时候网络忽然断开了,无法再通过网络向所有参与者发出 Commit 指令的话,就会导致部分数据(协调者的)已提交,但部分数据(参与者的)既未提交也没办法回滚,导致数据不一致。
为了解决两段式提交的单点故障问题、同步阻塞问题和数据一致性问题,“三段式提交”(3 Phase Commit,3PC)协议出现了。
Dale Skeen在“NonBlocking Commit Protocols” (1981)中指出,对于一个分布式系统,需要3阶段的提交算法来避免2PC中的阻塞问题
与两阶段提交不同的是,三阶段提交有两个改动点。
三个阶段分别为:
第一阶段:CanCommit阶段
3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求,参与者如果可以提交就返回Yes响应,否则返回No响应。
第二阶段:PreCommit阶段
本阶段协调者会根据第一阶段的询盘结果采取相应操作,询盘结果主要有两种:
第三阶段:doCommit阶段
该阶段进行真正的事务提交,也可以分为以下两种情况。
三段式提交的操作时序如下图所示:
可以看出,3PC可以解决单点故障问题,并减少阻塞,因为一旦参与者无法及时收到来自协调者的信息之后,他会默认执行commit,而不会一直持有事务资源并处于阻塞状态。
但是3PC对于数据一致性问题并未有任何改进,比如在进入PreCommit阶段后,如果协调者发送的是abort指令,而此时由于网络问题,有部分参与者在等待超时后仍未收到Abort指令的话,那这些参与者就会执行commit,这样就产生了不同参与者之间数据不一致的问题。
由于3PC非常难实现,目前市面上主流的分布式事务解决方案都是2PC协议。
2PC 的传统方案是在数据库层面实现的,如 Oracle、MySQL 都支持 2PC 协议,为了统一标准减少行业内不必要的对接成本,需要制定标准化的处理模型及接口标准,国际开放标准组织Open Group 在1994年定义了分布式事务处理模型 DTP(Distributed Transaction Processing Reference Model) 。
DTP 规范中主要包含了 AP、RM、TM 三个部分,如下图所示:
它定义了三大组件:
其中XA约定了TM和RM之间双向通讯的接口规范,并实现了二阶段提交协议,从而在多个数据库资源下保证 ACID 四个特性。所以,DTP模型可以理解为:应用程序访问、使用RM的资源,并通过TM的事务接口(TX interface)定义需要执行的事务操作,然后TM和RM会基于 XA 规范,执行二阶段提交协议进行事务的提交/回滚:
目前大多数实现XA的都是一些关系型数据库(包括PostgreSQL,MySQL,DB2,SQL Server和Oracle)和消息中间件(包括ActiveMQ,HornetQ,MSMQ和IBM MQ),所以提起XA往往指基于资源层的底层分布式事务解决方案。
MySQL 从5.0.3开始支持XA分布式事务(只有InnoDB引擎才支持XA事务),业务开发人员在编写代码时,不应该直接操作这些XA事务操作的接口。因为在DTP模型中,RM上的事务分支的开启、结束、准备、提交、回滚等操作,都应该是由事务管理器TM来统一管理。
XA是资源层面的分布式事务,强一致性,在两阶段提交的整个过程中,一直会持有资源的锁。基于两阶段提交的分布式事务在提交事务时需要在多个节点之间进行协调,最大限度延后了提交事务的时间点,客观上延长了事务的执行时间,这会导致事务在访问共享资源时发生冲突和死锁的概率增高。因此,XA并发性能不理想(使用 XA 协议的 MySQL 集群,操作延时是单机的 10 倍),无法满足高并发场景,在互联网中使用较少。
上面所述的强一致性方案在性能上都不理想,在CAP定理中属于CP范畴;在互联网应用中,为了提升性能和可用性,基于BASE理论使用最终一致性来替代强一致性,也就是通过牺牲部分一致性来换取性能和可用性的提升。
本地事务状态表方案的大概处理流程是:
如下图所示:
其中本地事务表的设计由业务方自己来定,可以是如上图中所示拆分为多个子事务来管理,简单点也可以只有一条记录,然后通过状态的流转来控制程序调用不同的外部系统。
可靠消息队列方案是指当事务发起方执行完成本地事务后并发出一条消息,事务参与方(消息消费者)一定能够接收到消息并处理事务成功,此方案强调的是只要消息发给事务参与方,则最终事务要达到一致。
此方案是利用消息中间件完成,如下图:
事务发起方(消息生产方)将消息发给消息中间件,事务参与方从消息中间件接收消息,事务发起方和消息中间件之间,事务参与方(消息消费方)和消息中间件之间都是通过网络通信,由于网络通信的不确定性会导致分布式事务问题。
因此可靠消息最终一致性方案要解决以下几个问题:
目前主要的解决方案有2种,一种是本地消息表方案,一种是事务消息方案。
本地消息表
如果是使用 Kafka(< 0.11.0) 这类不支持事务消息的消息中间件,参与事务的系统需要在给消息中间件发送消息之前,把消息的信息和状态存储到本地的消息表中,如下图所示:
资料领取直通车:大厂面试题锦集+视频教程https://docs.qq.com/doc/DTlhVekRrZUdDUEpy
Linux服务器学习网站:C/C++Linux服务器开发/后台架构师https://ke.qq.com/course/417774?flowToken=1028592
主要流程如下:
事务消息方案
如果是基于RocketMQ或Kafka(>=0.11.0)这类的支持事务操作的消息中间件,上述的方案则可以简化,此时上面的的定时任务的工作将交给消息中间件来提供流程比较简单不再赘述,需要说明的是,消息中间件如果收到Comfirm消息,则会将消息转为对消费者可见,并开始投递;如果收到Rollback消息,则会删除之前的事务消息;如果未收到确认消息,则会通过事务回查机制定时检查本地事务的状态,决定是否可以提交投递。
最大努力通知方案( Best-effort delivery)是最简单的一种柔性事务,适用于一些最终一致性时间敏感度低的业务,且被动方处理结果不影响主动方的处理结果。典型的使用场景:如银行通知、商户通知等。最大努力通知型的实现方案,一般符合以下特点:
比如充值的一个例子:
与可靠消息队列方案区别:
可靠消息一致性,发起通知方需要保证将消息发出去,并且将消息发到接收通知方,消息的可靠性关键由发起通知方来保证。最大努力通知,发起通知方尽最大的努力将业务处理结果通知为接收通知方,但是可能消息接收不到,此时需要接 收通知方主动调用发起通知方的接口查询业务处理结果,通知的可靠性关键在接收通知方。
可靠消息一致性关注的是交易过程的事务一致,以异步的方式完成交易。最大努力通知关注的是交易后的通知事务,即将交易结果可靠的通知出去。
可靠消息一致性要解决消息从发出到接收的一致性,即消息发出并且被接收到。最大努力通知无法保证消息从发出到接收的一致性,只提供消息接收的可靠性机制。可靠机制是,最大努力的将消息通知给接收方,当消息无法被接收方接收时,由接收方主动查询消息(业务处理结果)。
前面介绍的可靠消息队列方案能保证最终的结果是相对可靠的,过程也足够简单,但是可靠消息队列的整个实现过程完全没有任何隔离性可言。虽然在有些业务中,有没有隔离性不是很重要,比如说搜索系统。
但在有些业务中,一旦缺乏了隔离性,就会带来许多麻烦,比如下面一个简化版的订销存交易流程:
用户在电商网站下订单后通知库存服务扣减粗存,最后通过积分服务给用户增加积分。整个交易操作应该具有原子性,这些交易步骤要么一起成功,要么一起失败,必须是一个整体性的事务。
假设用户下完订单通知库存服务扣减库存失败时,比如原本是10件商品卖了1件剩余9件,但由于库存DB操作失败,导致库存还是10件,这时就出现了数据不一致的情况,此时如果有其它用户也进行了购买操作,则可能出现超卖的问题。
如果采用2PC的解决方案,在整个交易成功完成或者失败回滚之前,其它用户的操作将会处于阻塞等待的状态,这会大大的降低系统的性能和用户体验。
如果业务需要隔离,通常就应该重点考虑 TCC(Try-Confirm-Cancel)方案,TCC天生适用于需要强隔离性的分布式事务中,它是由数据库专家帕特 · 赫兰德(Pat Helland)在 2007 年撰写的论文《Life beyond Distributed Transactions: An Apostate’s Opinion》中提出的。
在具体实现上,TCC 的操作其实有点儿麻烦和复杂,它是一种业务侵入性较强的事务方案,要求业务处理过程必须拆分为“预留业务资源”和“确认 / 释放消费资源”两个子过程。另外,你看名字也能看出来,TCC 的实现过程分为了三个阶段:
TCC是基于BASE理论的类2PC方案,根据业务的特性对2PC的流程进行了优化,与2PC的区别在一些步骤的细节上,如下图:
可以看出,不同于2PC第一阶段的Prepare,TCC在Try阶段主要是对资源的预留操作这类的轻量级操作,比如冻结部分库存数量,它不需要像2PC在第二阶段完成之后才释放整个资源,也就是它不需要等待整个事务完成后才进行提交,这时其它用户的购买操作可以继续正常进行,因此它的阻塞范围小时间短暂,性能上比2PC方案要有很大的提升。
另外,TCC是位于用户代码层面,而不是在基础设施层面,这为它的实现带来了较高的灵活性,可以根据需要设计资源锁定的粒度。TCC 在业务执行时只操作预留资源,几乎不会涉及锁和资源的争用,具有很高的性能潜力。
但是 TCC要求所有的事务参与方都必须要提供三个操作接口:Try/Confirm/Cancel,带来了更高的开发成本和业务侵入性,意味着有更高的开发成本和更换事务实现方案的替换成本,特别是对一些难以改动的老旧系统来说甚至是不可行的。
SAGA 事务模式的历史十分悠久,比分布式事务的概念提出还要更早。SAGA 的意思是“长篇故事、长篇记叙、一长串事件”,它起源于 1987 年普林斯顿大学的赫克托 · 加西亚 · 莫利纳(Hector Garcia Molina)和肯尼斯 · 麦克米伦(Kenneth Salem)在 ACM 发表的一篇论文《SAGAS》。
文中提出了一种如何提升“长时间事务”(Long Lived Transaction)运作效率的方法,大致思路是把一个大事务分解为可以交错运行的一系列子事务的集合。原本提出 SAGA 的目的,是为了避免大事务长时间锁定数据库的资源,后来才逐渐发展成将一个分布式环境中的大事务,分解为一系列本地事务的设计模式。
Saga 事务基本协议如下:
如果 T1 到 Tn 均成功提交,那么事务就可以顺利完成。否则,就要采取恢复策略,恢复策略分为向前恢复和向后恢复两种。
向前恢复(Forward Recovery)
如果 Ti 事务提交失败,则一直对 Ti 进行重试,直至成功为止(最大努力交付)。这种恢复方式不需要补偿,适用于事务最终都要成功的场景,比如在别人的银行账号中扣了款,就一定要给别人发货。正向恢复的执行模式为:T1,T2,…,Ti(失败),Ti(重试)…,Ti+1,…,Tn,该情况下不需要Ci。
向后恢复(Backward Recovery)
如果 Ti 事务提交失败,则一直执行 Ci 对 Ti 进行补偿,直至成功为止(最大努力交付)。这里要求 Ci 必须(在持续重试后)执行成功。向后恢复的执行模式为:T1,T2,…,Ti(失败),Ci(补偿),…,C2,C1。
Saga 事务常见的有两种不同的实现方式。
命令协调模式
这种模式由中央协调器(Orchestrator,简称 OSO)集中处理事件的决策和业务逻辑排序,以命令/回复的方式与每项服务进行通信,全权负责告诉每个参与者该做什么以及什么时候该做什么。
以电商订单的例子为例:
中央协调器必须事先知道执行整个订单事务所需的流程(例如通过读取配置)。如果有任何失败,它还负责通过向每个参与者发送命令来撤销之前的操作来协调分布式的回滚。
基于中央协调器协调一切时,回滚要容易得多,因为协调器默认是执行正向流程,回滚时只要执行反向流程即可。
事件编排模式
这种模式没有中央协调器(没有单点风险),由每个服务产生并观察其他服务的事件,并决定是否应采取行动。
在事件编排方法中,第一个服务执行一个事务,然后发布一个事件。该事件被一个或多个服务进行监听,这些服务再执行本地事务并发布(或不发布)新的事件。
当最后一个服务执行本地事务并且不发布任何事件时,意味着分布式事务结束,或者它发布的事件没有被任何 Saga 参与者听到都意味着事务结束。
电商订单的例子为例:
事件/编排是实现 Saga 模式的自然方式,它很简单,容易理解,不需要太多的代码来构建。如果事务涉及 2 至 4 个步骤,则可能是非常合适的。
SAGA的适用场景主要是以下几种:
SAGA优势主要体现在:
但是Saga 模式由于一阶段已经提交本地数据库事务,且没有进行“预留”动作,所以不能保证隔离性。
前面最终一致性方案基本能满足大多数的场景,但在一些场景下,我们对系统的性能和可用性有更高的要求。比如海量请求的高并发秒杀场景中,如何保证服务的高可用是个很大的挑战,除了要对秒杀的非核心功能进行降级、增加响应时间外,根据CAP定理,还需要对对一致性的再进行妥协,从最终一致性弱化到弱一致性。
弱一致性是指数据更新后,容忍后续只能访问到部分或者全部访问不到(也不承诺多久可以访问到),并且不会对业务产生重大影响。下面介绍的几个方案都是根据自身业务特点做的妥协,不是严格意义上完备的技术方案,而是一种解决思路,是适合业务自身特点、满足性能要求、满足成本要求或技术架构要求下的一种解决思路,仅供参考。
这是一个根据业务特性进行妥协的一种方案,根据实际的业务场景对立面的数据重要性进行划分,放弃传统的全局数据一致,允许部分不重要的数据出现不一致,但不会对业务产生重大影响。
比如在电商网站购物场景中,其中两个主要的步骤是创建订单和扣库存,这分别由两个服务进行处理:订单服务和库存服务。
但是我们可以依据实际的电商购物场景进行取舍:允许少卖,但不能超卖。于是我们可以先扣库存,库存扣减成功后才创建订单并关联库存,若扣库存失败则不创建订单。有以下几种情况:
扣库存 | 创建订单 | 返回结果 | 可能结果 | |
1 | √ | √ | √ | 正常 |
2 | √ | × | × | 多扣库存,少卖 |
3 | × | × | × | 下单失败 |
对于第2种情况,会出现多扣库存的情况,这时可以基于状态进行补偿,就不会出现超卖的问题了:根据库存流水记录查找那些一段时间内未关联订单的库存记录进行撤销操作。这个和我们在12306上的买车票,如果30分钟内未支付的话车票会被释放,是一个道理。
这是一种事后处理机制,即使补偿失败,也不会有严重后果,对业务来说也是可接受的,大不了手工重新上架。
对于那些业务流程复杂,涉及外部服务比较多,并且需要维护的状态也很复杂的场景,就很难根据状态进行自动补偿,这时可以进一步简化操作:不做自动的状态补偿。
还是拿上面那个订单和库存的例子进行说明,比如先扣库存,然后创建订单,如果订单创建失败则重试,重试还是失败则回滚,回滚失败则触发告警,然后由脚本对业务数据自动进行对账,并对异常数据进行修复。
对账的关键是找出数据的特征,有些好找,有些难,但是它的基本要求是数据记录是“完备”的,然后研发人员根据经验,对不同特征的数据执行不同的修复,对于常见的问题可能会有一些修复脚本来辅助处理。
事后对账一般会根据业务特点设计自动对账脚本,实现对业务数据的自动检查,发现业务中可能存在的问题(比如异常、假账)等,然后触发执行对应的动作,至少是要有告警,通知研发同学介入,如果做的更好一点的话,可以对特定类型的异常数据自动进行修复,减少人工成本。
强一致性方案主要用于对数据一致性要求比较高的场景,比如金融银行等,且大多是在数据库层面实现,然后业务方直接使用;
在常规的互联网应用中,对性能和可用性要求更高,可以采用基于BASE理论的最终一致性方案;
弱一致性方案需要容忍数据的部分不一致,主要用于一些极端的场景中,比如高并发秒杀场景。
各个方案的特点总结如下:
总之,分布式事务没有能一揽子包治百病的解决方案,只有因地制宜地选用适合自己的,才是唯一有效的做法。
以下是在网上看到的一些技术大佬的经验之谈,共勉之:
目前我所了解的分布式事务解决方案的开源框架主要是Seata和Dtm,但都未实际使用过,所以没有发言权,在此只是列出来各自框架的主要特点,仅供参考。
Seata(Simple Extensible Autonomous Transaction Architecture,一站式分布式事务解决方案)是 2019 年 1 月份蚂蚁金服和阿里巴巴共同开源的分布式事务解决方案(https://github.com/seata/seata)。目前start数有21k。
如下图所示,Seata 中有三大模块,分别是 TM、RM 和 TC。 其中 TM 和 RM 是作为 Seata 的客户端与业务系统集成在一起,TC 作为 Seata 的服务端独立部署。
在 Seata 中,分布式事务的执行流程:
Seata 会有 4 种分布式事务解决方案,分别是 AT 模式、TCC 模式、Saga 模式和 XA 模式。
DTM是一款golang开发的分布式事务管理器,目前star数4.6k,它解决了跨数据库、跨服务、跨语言栈更新数据的一致性问题。他优雅的解决了幂等、空补偿、悬挂等分布式事务难题,提供了简单易用、高性能、易水平扩展的解决方案。
亮点如下:
与其他框架对比(非Java语言类的,暂未看到除dtm之外的成熟框架,因此这里将DTM和Java中最成熟的Seata对比):