条件随机场CRF（持续更新ing...）

本文是作者学习CRF后的笔记。

条件随机场CRF是适宜于顺序预测任务的判别模型，可用于命名实体识别、词性标注等。

文章目录

1. linear-chain CRF
2. CRF目标函数
本文撰写过程中使用到的其他参考资料

1. linear-chain CRF

在序列预测任务中，用邻近（上下文）样本来辅助学习当前样本。

以Part-of-Speech Tagging任务为例：
任务示例：输入Bob drank coffee at Starbucks，标记为Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)

本节限制特征仅取决于当前和前一个标签，而非句中任一标签：

特征函数feature function $f_i$ （需要一堆）：

输入：
- 句子 $s$
- 词语在句中的位置 $i$
- 当前词的标签 $l_i$
- 前一个词的标签 $l_{i-1}$
输出：实数（如0/1）

给每个feature function $f_j$ 分配一个权重 $\lambda_j$
给出一个句子 $s$ ，对labeling的打分方式是对所有单词的所有feature function求和：
$\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})$
将所有labeling的打分转换为概率（通过exponentiating and normalizing，即softmax）：
$\frac{exp[score(l|s)]}{\sum_{l’} exp[score(l’|s)]} = \frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

Example Feature Functions：
在这里插入图片描述

CRF概率长得像逻辑回归→CRF就是逻辑回归的序列版：whereas logistic regression is a log-linear model for classification, CRFs are a log-linear model for sequential labels.

CRF和HMM：
在这里插入图片描述

算出CRF模型后，应用在新的句子上：
原始方法——算出所有 $p (l ∣ s)$ 的值：太慢了
(polynomial-time) dynamic programming algorithm（由于linear-chain CRFs满足 optimal substructure 特性）（类似HMM的维特比算法）

2. CRF目标函数

在第一节中我们得到了：
$\frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

在这里插入图片描述

将 $\sum_{i = 1}^nf_j(s, i, l’_i, l’_{i-1})]$ 记为 $f_j(x,y)$ （s，l）

CRF模型的定义式：
$P(y|x)=\frac{1}{Z(x)}\exp\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$
（其中 $Z(x)=\sum_y\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$ ，可以看作所有可能的隐状态序列的score值之和）

我们的最终目标是找到能使得score值最大（ $P (y ∣ x)$ 最大）的隐状态序列。在定义好feature functions后，我们需要学习 $\lambda$

用梯度学习优化feature function的权重：

有一组句子-POS标签，随机初始化CRF权重
梯度下降
1. 对每个feature function $f_i$ ，计算样本的 $\log p$ 关于 $\lambda_i$ 的梯度： $\frac{\partial}{\partial w_j} \log p(l | s) = \sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})$
2. 上式第一项是 $f_i$ 在真实标签下的贡献，第二项是在当前模型下的。（我们希望模型学到的VS模型当前状态）（其实我有点没看懂这啥意思）
3. $\lambda_i = \lambda_i + \alpha [\sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})]$ （ $\alpha$ 是学习率）

本文撰写过程中使用到的其他参考资料

相关阅读:
rabbitMQ:绑定Exchange发送和接收消息（topic）
火焰图：链路追踪分析的可视化利器
【python游戏制作】僵尸来袭 ~ 快来一起创造植物叭~
浅谈电力电容器技术的发展及选型
seq2seq与引入注意力机制的seq2seq
PS快捷键
数据结构之栈和队列
【深入浅出 Yarn 架构与实现】5-1 Yarn 资源调度器基本框架
PHP中的会话管理是如何工作的？
排序算法-冒泡排序

原文地址：https://blog.csdn.net/PolarisRisingWar/article/details/127870718