NER(命名体识别)之 FLAT模型

近两年的顶会paper，适用于NER场景，bert模型的性能提升

一、背景

二、Lattice-LSTM简要介绍

三、FLAT模型介绍

FLAT（FLAT: Chinese NER Using Flat-Lattice Transformer）是ACL2020的一篇论文，来自于复旦大学邱锡鹏老师团队，FLAT的基本思想来源于Lattice-LSTM

二、Lattice-LSTM简要介绍

Lattice-LSTM 是中文NER 引入外部知识的开篇之作，具体的操作如下：

首先是通过词典进行匹配，找出query中的词汇，“重庆人和药店”，匹配的词汇，重庆、药店、人和药店

词汇信息融合到LSTM的模型中如下：

Lattice是一个有向无环图(DAG)，Lattice LSTM则将序列中的词汇信息(word-level)融入到了字信息(char-level)中，Lattice LSTM会将“重庆”的word embedding融入到对应序列中的“庆”的word embedding中，会将“人和药店”的 word embedding和药店的 word embedding 融入到店的 embedding中，即词语的信息会融入到该词语对应的最后一个字的序列信息中。

Lattice LSTM引入了一个word cell结构，对于当前字符，融合以该字符结束的所有word信息

对于每一个字符，L attice LSTM 采取注意力机制融合个数可变word cell单元。

若当前字符没有词汇引入时，则采取原生的LSTM进行计算。当有词汇信息时，Lattice LSTM并没有利用前一时刻的记忆向量 ，即不保留对词汇信息的持续记忆。

核心就是采用了两个LSTM模型结构对char-level的字信息和word-level的词信息分别进行编码，然后将词语信息融入到每个词语中最后一个字的编码信息中

注意一点：

（1） .当前字符没有其他word单词embed输入，则直接使用原始的LSTM的机制进行信息传

（2）.当前字符有 word级别的单词信息输入，使用论文中使用的计算公式，且没有使用上一个时刻的记忆向量，即不保留对词汇的持续记忆

总结：

1. lattice-lstm首次使用外部词汇信息，但是存在一定的局限性，迁移复制较难，只是使用于LSTM模型

2.计算性能低下，不能batch并行化。主要是每个字符之间的增加word cell（看作节点）数目不一致，中间的word cell的个数不确定，没办法做到batch化

3.信息丢失，每个字符只能获取以它为结尾的词汇信息，对于其之前的词汇信息也没有持续记忆