上一节介绍了隐马尔可夫模型(Hidden Markov Model,HMM)向最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)的演化过程。本节将针对MEMM模型的缺陷,并介绍 条件随机场(Condition Random Field,CRF)。
最大熵马尔可夫模型的 观测状态 O \mathcal O O 可分为全局影响(Global)和局部影响(Local)两种:
和隐马尔可夫模型相比,最大熵马尔可夫模型的优点体现在两个方面:
MEMM的缺陷是:造成标注偏置问题(Label Bias Problem)的出现。
如果使用一句话描述该问题:在状态转移的过程中,条件概率分布的熵值越低,那么状态转移过程越忽视观测变量。
本来是通过观测变量的差异性 来描述隐变量的条件概率结果;但如果熵值过低,导致观测变量的差异性几乎没有对条件概率结果产生影响,最终使状态转移结果与给定观测结果不匹配。
假设存在如下词语数据集:
D
=
{
′
r
o
b
′
,
′
r
o
b
′
,
′
r
o
b
′
,
′
r
i
b
′
}
\mathcal D = \{'rob','rob','rob','rib'\}
D={′rob′,′rob′,′rob′,′rib′}
这个MEMM概率图结构并不严谨,详细见下面红字。
由于四个单词的‘首字母’均相同,均为
r
r
r。因此,无论是哪个样本,第一次观测的结果均是同一结果。
四个样本在第二次观测中,
o
o
o占了三个,
i
i
i占了一个,根据概率的频率定义,其状态转移的条件概率取决于当前时刻观测变量出现的频率。
真正的开始是从
i
2
i_2
i2,而
i
3
,
i
4
i_3,i_4
i3,i4并不是两个独立的隐变量,而是同一个隐变量在不同概率下的转移结果。这里为了表述方便,将其分成两个部分。但在公式表达中需要将其合并。
恒成立。因为
o
4
o_4
o4选择不了
i
i
i。不同于正常情况,此时
i
0
i_0
i0存在两条路径,虽然观测结果全部是
r
r
r,但从路径的角度观察,存在
3
4
\frac{3}{4}
43概率是样本
r
o
b
rob
rob中的
r
r
r,而仅有
1
4
\frac{1}{4}
41概率是样本
r
i
b
rib
rib中的
r
r
r。在路径被确定的条件下,
i
1
i_1
i1的概率分布(出度)只有一种选择。
相比于上一步骤的影响差了很多,因为无论哪条路径,其最后的观测结果都是
b
b
b从熵的角度观察观测变量存在差异性的部分:
标注偏置现象使得观测变量存在差异的部分熵更小,在最大熵思想一节中熵值小意味着概率分布相差较大,距离“等可能”的效果越远,此时状态转移过程概率分布可能已经内定给概率结果大的隐状态,而当前时刻的观测值作用很小,甚至没有作用。
下一节将介绍条件随机场。