(1).容错的三个阶段
错误检测–评估损坏程度–错误恢复以消除错误并重新启动
(2).前向错误恢复:
当前正在执行的进程从某一点继续,并对损坏和丢失的数据进行补偿
(3).后向错误恢复:
当前进程被回滚到某个无错误的点,并重新执行进程的损坏部分,从而继续相同的请求服务
前向:
a.优势:开销比较低
b.劣势:无法为特定系统的恢复设计提供通用机制,并且需要损伤评估和预测
后向:
a.优势:独立于损害评估,即能够从任意损害中恢复
b.劣势:
定义:定期维护\保存精确的系统状态或“快照”
(1).易失性状态:
(2).持久状态:
与当前程序执行相关的用户文件(是否在进程状态中包含持久状态取决于应用程序,例如,持久状态通常是长期运行应用程序的重要部分)
(3).将检查点数据存储在稳定的存储器中
(4).确定要记录和重播的事件:
(5).Checkpoint的确定
(6).提供重新启动计算的程序
(7).提供处理持久性错误的方法
(1).流程通过交换信息来协作完成任务:
(2).一个进程的回滚可能需要其他进程也回滚到较早的状态
(3).所有合作进程都需要建立恢复点
1.对于站点(计算机、进程) S i S_i Si,其在给定时间的本地状态 L S i LS_i LSi由分布式应用程序的本地上下文定义:
s
e
n
d
(
m
i
j
)
send(m_{ij})
send(mij) - 对应“将消息
m
i
j
m_{ij}
mij从
S
i
S_i
Si 传送到
S
j
S_j
Sj”这一事件
r
e
c
(
m
i
j
)
rec(m_{ij})
rec(mij) - 对应 "
S
j
S_j
Sj收到从
S
i
S_i
Si传送的消息
m
i
j
m_{ij}
mij"这一事件
t
i
m
e
(
x
)
time(x)
time(x) - 记录状态x的时间
2.transit和inconsistent消息:
(1)当
t
i
m
e
(
s
e
n
d
(
m
i
j
)
)
<
t
i
m
e
(
L
S
i
)
time(send(m_{ij})) < time(LS_i)
time(send(mij))<time(LSi)时,
s
e
n
d
(
m
i
j
)
∈
L
S
i
send(m_{ij}) \in LS_i
send(mij)∈LSi
(2)当
t
i
m
e
(
r
e
c
(
m
i
j
)
)
<
t
i
m
e
(
L
S
j
)
time(rec(m_{ij})) < time(LS_j)
time(rec(mij))<time(LSj)时,
r
e
c
(
m
i
j
)
∈
L
S
j
rec(m_{ij}) \in LS_j
rec(mij)∈LSj
即在LS状态之前发生的send和rec,都属于状态LS,不是一个点,而是从开始到LS这一段时间
(3)为站点 S i S_i Si和 S j S_j Sj定义了两组消息:
t
r
a
n
s
i
t
(
L
S
i
,
L
S
j
)
=
{
m
i
j
∣
s
e
n
d
(
m
i
j
)
∈
L
S
i
∧
r
e
c
(
m
i
j
)
∉
L
S
j
}
transit(LS_i, LS_j) = \lbrace m_{ij} | send(m_{ij}) \in LS_i \wedge rec(m_{ij}) \notin LS_j \rbrace
transit(LSi,LSj)={mij∣send(mij)∈LSi∧rec(mij)∈/LSj}
i n c o n s i s t e n t ( L S i , L S j ) = { m i j ∣ s e n d ( m i j ) ∉ L S i ∧ r e c ( m i j ) ∈ L S j } inconsistent(LS_i, LS_j) = \lbrace m_{ij} | send(m_{ij}) \notin LS_i \wedge rec(m_{ij}) \in LS_j \rbrace inconsistent(LSi,LSj)={mij∣send(mij)∈/LSi∧rec(mij)∈LSj}
(1)系统的全局状态(GS)是其站点的局部状态的集合,即 G S = { L S 1 , L S 2 , … , L S n } GS=\lbrace LS_1,LS_2,…,LS_n \rbrace GS={LS1,LS2,…,LSn},其中n是系统中站点的数量
(2)三种全局状态:
一致全局状态(Consistent global state): ∀ i , ∀ j : 1 ≤ i , j ≤ n : : i n c o n s i s t e n t ( L S i , L S j ) = Φ \forall i,\forall j: 1 \leq i,j \leq n :: inconsistent(LS_i, LS_j) = \Phi ∀i,∀j:1≤i,j≤n::inconsistent(LSi,LSj)=Φ
无传输全局状态(Transitless globle state): ∀ i , ∀ j : 1 ≤ i , j ≤ n : : t r a n s i t ( L S i , L S j ) = Φ \forall i,\forall j: 1 \leq i,j \leq n :: transit(LS_i, LS_j) = \Phi ∀i,∀j:1≤i,j≤n::transit(LSi,LSj)=Φ
强一致全局状态(Strongly consistent global state):一致且无传输的全局状态
…待更新