拉格朗日乘子法和极大似然估计有什么关系?
拉格朗日乘子用于带约束的优化问题,极大似然估计用于最大化后验概率求参数问题。
极大似然和EM有什么关系?
极大似然估计适合求解不含隐变量的参数问题,而EM算法是用于求解含有隐变量的参数问题。
求 z = f ( x , y ) z=f(x,y) z=f(x,y)在约束条件 φ ( x , y ) = 0 \varphi(x,y)=0 φ(x,y)=0与 h ( x , y ) = 0 h(x,y)=0 h(x,y)=0下的极值:
1、拉格朗日函数:
F
(
x
,
y
,
λ
,
μ
)
=
f
(
x
,
y
)
+
λ
φ
(
x
,
y
)
+
μ
h
(
x
,
y
)
F(x,y,\lambda,\mu)=f(x,y)+\lambda \varphi(x,y)+\mu h(x,y)
F(x,y,λ,μ)=f(x,y)+λφ(x,y)+μh(x,y)
2、求偏导等于0的方程组:
{
F
x
′
=
0
F
y
′
=
0
F
φ
′
=
0
F
μ
′
=
0
\left\{ F′x=0F′y=0F′φ=0F′μ=0 \right.
⎩
⎨
⎧Fx′=0Fy′=0Fφ′=0Fμ′=0
在给定概率模型和一组相互独立的观测样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn的基础上,求解使得似然函数 L ( θ ) L(\theta) L(θ):
1、写出似然函数:
连续型:
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
∣
θ
)
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}{f(x_i|\theta)}
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏nf(xi∣θ)
离散型:
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}{p(x_i|\theta)}
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏np(xi∣θ)
2、取对数:
连续型:
l
n
[
L
(
θ
)
]
=
l
n
[
∏
i
=
1
n
f
(
x
i
∣
θ
)
]
=
∑
i
=
1
n
l
n
[
f
(
x
i
∣
θ
)
]
ln[L(\theta)]=ln[\prod_{i=1}^{n}{f(x_i|\theta)}]=\sum_{i=1}^{n}{ln[f(x_i|\theta)]}
ln[L(θ)]=ln[i=1∏nf(xi∣θ)]=i=1∑nln[f(xi∣θ)]
离散型:
l
n
[
L
(
θ
)
]
=
l
n
[
∏
i
=
1
n
p
(
x
i
∣
θ
)
]
=
∑
i
=
1
n
l
n
[
p
(
x
i
∣
θ
)
]
ln[L(\theta)]=ln[\prod_{i=1}^{n}{p(x_i|\theta)}]=\sum_{i=1}^{n}{ln[p(x_i|\theta)]}
ln[L(θ)]=ln[i=1∏np(xi∣θ)]=i=1∑nln[p(xi∣θ)]
3、求
θ
=
[
θ
1
,
θ
2
,
⋯
,
θ
m
]
\theta=[\theta_1,\theta_2,\cdots,\theta_m]
θ=[θ1,θ2,⋯,θm]的偏导数:
{
∂
l
n
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
∂
θ
1
=
0
∂
l
n
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
∂
θ
2
=
0
⋯
∂
l
n
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
∂
θ
m
=
0
\left\{ ∂ln(θ1,θ2,⋯,θm)∂θ1=0∂ln(θ1,θ2,⋯,θm)∂θ2=0⋯∂ln(θ1,θ2,⋯,θm)∂θm=0 \right.
⎩
⎨
⎧∂θ1∂ln(θ1,θ2,⋯,θm)=0∂θ2∂ln(θ1,θ2,⋯,θm)=0⋯∂θm∂ln(θ1,θ2,⋯,θm)=0
隐变量指的是在事件发生时不知道的变量,例如抛硬币,两枚硬币的质量是不均匀的,不知道到每次取出的是哪一枚。
使用EM算法能解决隐变量问题。EM算法由求期望和求最值两步推导得来:
X
X
X:观测数据;
Z
Z
Z:隐变量;
θ
\theta
θ:待估计参数;
θ
(
t
+
1
)
=
a
r
g
m
a
x
θ
∫
Z
p
(
Z
∣
X
,
θ
(
t
)
)
l
o
g
[
p
(
X
,
Z
∣
θ
(
t
)
)
]
d
Z
\theta^{(t+1)}=\mathop{argmax}\limits_{\theta} \int_Z{p(Z|X,\theta^{(t)})log[p(X,Z|\theta^{(t)})]}dZ
θ(t+1)=θargmax∫Zp(Z∣X,θ(t))log[p(X,Z∣θ(t))]dZ
若是离散变量:
θ
(
t
+
1
)
=
a
r
g
m
a
x
θ
∑
Z
{
∏
i
=
1
N
p
(
z
i
∣
x
i
,
θ
(
t
)
)
l
o
g
[
∏
i
=
1
N
p
(
x
i
,
z
i
∣
θ
(
t
)
)
]
}
\theta^{(t+1)}=\mathop{argmax}\limits_{\theta} \sum_{Z}\{ \prod_{i=1}^{N}{p(z_i|x_i,\theta^{(t)})log[\prod_{i=1}^{N}p(x_i,z_i|\theta^{(t)})]}\}
θ(t+1)=θargmaxZ∑{i=1∏Np(zi∣xi,θ(t))log[i=1∏Np(xi,zi∣θ(t))]}