马尔可夫链蒙特卡罗法
蒙特卡罗法是通过基于概率模型的抽样进行数值近似计算的方法
蒙特卡罗法可以用于概率分布的抽样、概率分布数学期望的估计、定积分的近似计算
随机抽样是蒙特卡罗法的一种应用,有直接抽样法、接受拒绝抽样法等
接受拒绝法的基本想法是,找一个容易抽样的建议分布
其密度函数的数倍大于等于想要抽样的概率分布的密度函数按照建议分布随机抽样得到样本
再按要抽样的概率分布与建议分布的倍数的比例随机决定接受或拒绝该样本,循环执行以上过程
马尔可夫链蒙特卡罗法数学期望估计是蒙特卡罗法的另一种应用
按照概率分布 p ( x ) p(x) p(x)抽取随机变量 x x x的 n n n个独立样本,根据大数定律可知,当样本容量增大时,函数的样本均值以概率 1 1 1收敛于函数的数学期望
f ^ n → E p ( x ) [ f ( x ) ] , n → ∞ \hat { f } _ { n } \rightarrow E _ { p ( x ) } [ {f ( x )} ] , \quad n \rightarrow \infty f^n→Ep(x)[f(x)],n→∞
计算样本均值 f ^ n \hat { f } _ { n } f^n,作为数学期望 E p ( x ) [ f ( x ) ] E_ { p ( x ) } [ {f ( x )}] Ep(x)[f(x)] 的估计值
马尔可夫链是具有马尔可夫性的随机过程
P ( X t ∣ X 0 X 1 ⋯ X t − 1 ) = P ( X t ∣ X t − 1 ) , t = 1 , 2 , ⋯ P ( X _ { t } | X _ { 0 } X _ { 1 } \cdots X _ { t - 1 } ) = P ( X _ { t } | X _ { t - 1 } ) , \quad t = 1,2 , \cdots P(Xt∣X0X1⋯Xt−1)=P(Xt∣Xt−1),t=1,2,⋯
考虑时间齐次马尔可夫链有离散状态马尔可夫链和连续状态马尔可夫链
分别由概率转移矩阵 P P P和概率转移核 p ( x , y ) p(x,y) p(x,y)定义
满足 π = P π \pi = P \pi π=Pπ或 π ( y ) = ∫ p ( x , y ) π ( x ) d x \pi ( y ) = \int p ( x , y ) \pi ( x ) d x π(y)=∫p(x,y)π(x)dx的状态分布称为马尔可夫链的平稳分布
马尔可夫链有不可约性、非周期性、正常返等性质一个马尔可夫链若是不可约、非周期、正常返的
则该马尔可夫链满足遍历定理当时间趋于无穷时,马尔可夫链的状态分布趋近于平稳分布,函数的样本平均依概率收敛于该函数的数学期望
lim t → ∞ P ( X t = i ∣ X 0 = j ) = π i , i = 1 , 2 , ⋯ ; j = 1 , 2 \operatorname { lim } _ { t \rightarrow \infty } P ( X _ { t } = i | X _ { 0 } = j ) = \pi _ { i } , \quad i = 1,2 , \cdots ; \quad j = 1,2 limt→∞P(Xt=i∣X0=j)=πi,i=1,2,⋯;j=1,2
f ^ t → E π [ f ( X ) ] , t → ∞ \hat { f } _ { t } \rightarrow E _ { \pi } [ {f ( X )} ] , \quad t \rightarrow \infty f^t→Eπ[f(X)],t→∞
可逆马尔可夫链是满足遍历定理的充分条件
马尔可夫链蒙特卡罗法是以马尔可夫链为概率模型的蒙特卡罗积分方法,其基本想法如下
在随机变量 x x x的状态空间 χ \chi χ上构造一个满足遍历定理条件的马尔可夫链,其平稳分布为目标分布 p ( x ) p(x) p(x);
由状态空间的某一点 X 0 X_0 X0出发,用所构造的马尔可夫链进行随机游走,产生样本序列 X 1 , X 2 , ⋯ , X t , ⋯ X _ { 1 } , X _ { 2 } , \cdots , X _ { t } , \cdots X1,X2,⋯,Xt,⋯;
应用马尔可夫链遍历定理,确定正整数
m
m
m和
n
(
m
<
n
)
n(m
E ^ f = 1 n − m ∑ i = m + 1 n f ( x i ) \hat { E } f = \frac { 1 } { n - m } \sum _ { i = m + 1 } ^ { n } {f ( x _ { i } )} E^f=n−m1i=m+1∑nf(xi)
Metropolis-Hastings算法是最基本的马尔可夫链蒙特卡罗法假设目标是对概率分布 p ( x ) p ( x ) p(x)进行抽样,构造建议分布 q ( x , x ′ ) q ( x , x ^ { \prime } ) q(x,x′),定义接受分布 α ( x , x ′ ) \alpha ( x , x ^ { \prime } ) α(x,x′)进行随机游走,假设当前处于状态 x x x,按照建议分布 q ( x , x ′ ) q ( x , x ^ { \prime } ) q(x,x′)机抽样,按照概率 α ( x , x ′ ) \alpha ( x , x ^ { \prime } ) α(x,x′)接受抽样,转移到状态 x ′ x ^ { \prime } x′,按照概率 1 − α ( x , x ′ ) 1- \alpha ( x , x ^ { \prime } ) 1−α(x,x′)拒绝抽样,停留在状态 x x x,持续以上操作,得到一系列样本这样的随机游走是根据转移核为 p ( x , x ′ ) = q ( x , x ′ ) α ( x , x ′ ) p ( x , x ^ { \prime } ) = q ( x , x ^ { \prime } ) \alpha ( x , x ^ { \prime } ) p(x,x′)=q(x,x′)α(x,x′)的可逆马尔可夫链(满足遍历定理条件)进行的,其平稳分布就是要抽样的目标分布 p ( x ) p ( x ) p(x)
吉布斯抽样(Gibbs sampling)用于多元联合分布的抽样和估计吉布斯抽样是单分量 Metropolis-Hastings-算法的特殊情况这时建议分布为满条件概率分布 q ( x , x ′ ) = p ( x j ′ ∣ x − j ) q ( x , x ^ { \prime } ) = p ( x _ { j } ^ { \prime } | x _ { - j } ) q(x,x′)=p(xj′∣x−j)
吉布斯抽样的基本做法是,从联合分布定义满条件概率分布,依次从满条件概率分布进行抽样
得到联合分布的随机样本假设多元联合概率分布为 p ( x ) = p ( x 1 , x 2 , ⋯ , x k ) p ( x ) = p ( x _ { 1 } , x _ { 2 } , \cdots , x _ { k } ) p(x)=p(x1,x2,⋯,xk)
吉布斯抽样从一个初始样本 x ( 0 ) = ( x 1 ( 0 ) , x 2 ( 0 ) , ⋯ , x k ( 0 ) ) T x ^ { ( 0 ) } = ( x _ { 1 } ^ { ( 0 ) } , x _ { 2 } ^ { ( 0 ) } , \cdots , x _ { k } ^ { ( 0 ) } ) ^ { T } x(0)=(x1(0),x2(0),⋯,xk(0))T出发,不断进行迭代
每一次迭代得到联合分布的一个样本 x ( i ) = ( x 1 ( i ) , x 2 ( i ) , ⋯ , x k ( i ) ) T x ^ { ( i ) } = ( x _ { 1 } ^ { ( i ) } , x _ { 2 } ^ { ( i ) } , \cdots , x _ { k } ^ { ( i ) } ) ^ { T } x(i)=(x1(i),x2(i),⋯,xk(i))T
在第 i i i次迭代中,依次对第 j j j个变量按照满条件概率分布随机抽样 p ( x j ∣ x 1 ( i ) , ⋯ , x j − 1 ( i ) , x j + 1 ( i − 1 ) , ⋯ , x k ( i − 1 ) ) , j = 1 , 2 , ⋯ , k p ( x _ { j } | x _ { 1 } ^ { ( i ) } , \cdots , x _ { j - 1 } ^ { ( i ) },x _ { j + 1 } ^ { ( i - 1 ) } , \cdots , x _ { k } ^ { ( i - 1 ) } ) , j = 1,2 , \cdots , k p(xj∣x1(i),⋯,xj−1(i),xj+1(i−1),⋯,xk(i−1)),j=1,2,⋯,k
得到 x j ( i ) x _ { j } ^ { ( i ) } xj(i)最终得到样本序列 { x ( 0 ) , x ( 1 ) , ⋯ , x ( n ) } \{ x ^ { ( 0 ) } , x ^ { ( 1 ) } , \cdots , x ^ { ( n ) } \} {x(0),x(1),⋯,x(n)}
蒙特卡洛法(Monte Carlo method)
蒙特卡洛法也称为统计模拟方法 (statistical simulation method) , 是通过从概率模型的随机抽样进行近似数值计
算的方法 马尔可夫链陟特卡罗法 (Markov Chain Monte Carlo, MCMC), 则是以马尔可夫链 (Markov chain)为概率模型的蒙特卡洛法
马尔可夫链蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布, 首先基于该马尔可夫链进行随机游走
产生样本的序列
之后使用该平稳分布的样本进行近似数值计算
Metropolis-Hastings算法是最基本的马尔可夫链蒙特卡罗法,Metropolis等人在 1953年提出原始的算法,Hastings在1970年对之加以推广
形成了现在的形式吉布斯抽样(Gibbs sampling)是更简单、使用更广泛的马尔可夫链蒙特卡罗法,1984 年由S. Geman和D. Geman提出
马尔可夫链蒙特卡罗法被应用于概率分布的估计、定积分的近似计算、最优化问题的近似求解等问题
特别是被应用于统计学习中概率模型的学习
与推理,是重要的统计学习计算方法
一般的蒙特卡罗法有直接抽样法、接受-拒绝抽样法、 重要性抽样法等
接受-拒绝抽样法、重要性抽样法适合于概率密度函数复杂 (如密度函数含有多个变量,各变量相互不独立,密度函数形式复杂)
不能直接抽样的情况
数学期望估计
一舣的蒙特卡罗法, 如直接抽样法、接受·拒绝抽样法、重要性抽样法, 也可以用于数学期望估计 (estimation Of mathematical expectation)
假设有随机变量 x x x, 取值 x ∈ X x\in X x∈X, 其概率密度函数为 p ( x ) p(x) p(x), f ( x ) f(x) f(x) 为定义在 X X X 上的函数, 目标是求函数 f ( x ) f(x) f(x) 关于密度函数 p ( x ) p(x) p(x) 的数学期望 E p ( x ) [ f ( x ) ] E_{p(x)}[f(x)] Ep(x)[f(x)]
针对这个问题,蒙特卡罗法按照概率分布 p ( x ) p(x) p(x) 独立地抽取 n n n 个样本 x 1 , x 2 , . . . , x n x_{1}, x_{2},...,x_{n} x1,x2,...,xn,比如用以上的抽样方法,之后计算函
数 f ( x ) f(x) f(x)的样本均值 f ^ n \hat f_{n} f^n
f ^ n = 1 n ∑ i = 1 n f ( x i ) \hat f_{n} = \frac{1} {n}\sum_{i=1}^{n}f(x_{i}) f^n=n1∑i=1nf(xi)
作为数学期望 E p ( x ) [ f ( x ) ] E_{p(x)}[f(x)] Ep(x)[f(x)]近似值
根据大数定律可知, 当样本容量增大时, 样本均值以概率1收敛于数学期望:
f ^ n → E p ( x ) [ f ( x ) ] , n → ∞ \hat f_{n} \rightarrow E_{p(x)}[f(x)], n \rightarrow \infty f^n→Ep(x)[f(x)],n→∞
这样就得到了数学期望的近似计算方法:
E p ( x ) [ f ( x ) ] ≈ 1 n ∑ i = 1 n f ( x i ) E_{p(x)}[f(x)] \approx \frac{1} {n}\sum_{i=1}^{n}f(x_{i}) Ep(x)[f(x)]≈n1∑i=1nf(xi)
马尔可夫链
考虑一个随机变量的序列 X = X 0 , X 1 , . . . , X ( t ) , . . . X = {X_{0}, X_{1},..., X(t),...} X=X0,X1,...,X(t),... 这里 X t X_{t} Xt,表示时刻 t t t 的随机变量, t = 0 , 1 , 2... t = 0, 1, 2... t=0,1,2....
每个随机变量 X t ( t = 0 , 1 , 2 , . . . ) X_{t}(t=0,1,2,...) Xt(t=0,1,2,...) 的取值集合相同, 称为状态空间, 表示为 S S S. 随机变量可以是离散的, 也可以是连续的
以上随机变量的序列构成随机过程(stochastic process)
假设在时刻 0 0 0 的随机变量 X 0 X_{0} X0 遵循概率分布 P ( X 0 ) = π P(X_{0}) = \pi P(X0)=π,称为初始状态分布在某个时刻 t > = 1 t>=1 t>=1 的随机变量 X t X_{t} Xt与前
一个时刻的随机变量 X t − 1 X_{t-1} Xt−1 之间有条件分布 P ( X t ∣ X t − 1 ) P(X_{t}|X_{t-1}) P(Xt∣Xt−1) 如果 X t X_{t} Xt 只依赖于 X t − 1 X_{t-1} Xt−1, 而不依赖于过去的随机变量
X 0 , X 1 , . . . , X t − 2 {X_{0},X_{1},...,X_{t-2}} X0,X1,...,Xt−2 这一性质称为马尔可夫性,即
P ( X t ∣ X 0 , X 1 , . . . , X t − 1 ) = P ( X t ∣ X t − 1 ) , t = 1 , 2 , . . . P(X_{t}|X_{0},X_{1},...,X_{t-1}) = P(X_{t}|X_{t-1}), t=1,2,... P(Xt∣X0,X1,...,Xt−1)=P(Xt∣Xt−1),t=1,2,...
具有马尔可夫性的随机序列 X = X 0 , X 1 , . . . , X ( t ) , . . . X = {X_{0}, X_{1},..., X(t),...} X=X0,X1,...,X(t),...称为马尔可夫链, 或马尔可夫过程(Markov process) 条件概率分布
P ( X t ∣ X t − 1 ) P(X_{t}|X_{t-1}) P(Xt∣Xt−1) 称为马尔可夫链的转移概率分布 转移概率分布决定了马尔可夫裢的特性\n
平稳分布
设有马尔可夫链 X = X 0 , X 1 , . . . , X ( t ) , . . . X = {X_{0}, X_{1},..., X(t),...} X=X0,X1,...,X(t),...,其状态空间为 S S S,转移概率矩阵为 P = ( p i j ) P=(p_{ij}) P=(pij), 如果存在状态空间 S S S 上的一个分布
π
=
[
π
1
π
2
⋮
]
\pi =
使得
π = P π \pi = P\pi π=Pπ
则称丌为马尔可夫裢 X = X 0 , X 1 , . . . , X ( t ) , . . . X = {X_{0}, X_{1},..., X(t),...} X=X0,X1,...,X(t),...的平稳分布
直观上,如果马尔可夫链的平稳分布存在,那么以该平稳分布作为初始分布
面向未来进行随机状态转移,之后任何一个时刻的状态分布都是该平稳分布
引理
给定一个马尔可夫链 X = X 0 , X 1 , . . . , X ( t ) , . . . X = {X_{0}, X_{1},..., X(t),...} X=X0,X1,...,X(t),..., 状态空间为 S S S, 移概率矩阵为 P = ( p i j ) P=(p_{ij}) P=(pij), 则分布 π = ( π 1 , π 2 , . . . ) T \pi=(\pi_{1}, \pi_{2},...)^{T} π=(π1,π2,...)T 为 X X X 的平稳分布的充要条件是 π = ( π 1 , π 2 , . . . ) T \pi=(\pi_{1}, \pi_{2},...)^{T} π=(π1,π2,...)T是下列方程组的解
x i = ∑ j p i j x j , i = 1 , 2 , . . . x_{i} = \sum_{j}p_{ij}x_{j}, i=1,2,... xi=∑jpijxj,i=1,2,...
x i > = 0 , i = 1 , 2 , . . . x_{i} >= 0, i = 1,2,... xi>=0,i=1,2,...
∑ i x i = 1 \sum_{i}x_{i} = 1 ∑ixi=1 \n
吉布斯采样
输入: 目标概率分布的密度函数 p ( x ) p(x) p(x), 函数 f ( x ) f(x) f(x);
输出: p ( x ) p(x) p(x)的随机样本 x m + 1 , x m + 2 , . . . , x n x_{m+1}, x_{m+2}, ..., x_{n} xm+1,xm+2,...,xn,函数样本均值 f m n f_{mn} fmn;
参数: 收敛步数 m m m, 迭代步数 n n n.
初始化给出初始样本 $x^{0} = ( ( (x^{0}{1}, x^{0}{2},…, x{0}_{k}$)${T}$.
对
i
i
i循环执行
设第
i
−
1
i-1
i−1次迭代结束前的样本为$x^{i-1} =
(
(
(x^{i-1}{1}, x^{i-1}{2},…, x{i-1}_{k}$)${T}
,
则
第
,则第
,则第i$次迭代进行如下几步操作:
(1)由满条件分布 p ( x 1 ∣ x 2 i − 1 , . . . , x k i − 1 ) p(x_{1}|x^{i-1}_{2},...,x^{i-1}_{k}) p(x1∣x2i−1,...,xki−1) 抽取 x 1 i x^{i}_{1} x1i
…
(j)由满条件分布 p ( x j ∣ x 1 i , . . . , x j − 1 i , x j + 1 i − 1 , . . . , x k i − 1 ) p(x_{j}|x^{i}_{1},...,x^{i}_{j-1}, x^{i-1}_{j+1},..., x^{i-1}_{k}) p(xj∣x1i,...,xj−1i,xj+1i−1,...,xki−1) 抽取 x j i x^{i}_{j} xji
(k)由满条件分布 p ( x k ∣ x 1 i , . . . , x k i ) p(x_{k}|x^{i}_{1},...,x^{i}_{k}) p(xk∣x1i,...,xki) 抽取 x k i x^{i}_{k} xki
得到第 i i i 次迭代值 x ( i ) = ( x 1 ( i ) , x 2 ( i ) , . . . , x k ( i ) ) T x^{(i)} = (x^{(i)}_{1}, x^{(i)}_{2},..., x^{(i)}_{k})^{T} x(i)=(x1(i),x2(i),...,xk(i))T.
{ x ( m + 1 ) , x ( m + 2 ) , . . . , x ( n ) x^{(m+1)}, x^{(m+2)},..., x^{(n)} x(m+1),x(m+2),...,x(n)}
f m n = 1 n − m ∑ i = m + 1 n f ( x ( i ) ) f_{mn} = \frac{1}{n-m}\sum_{i=m+1}^{n}f(x^{(i)}) fmn=n−m1∑i=m+1nf(x(i))