下载预训练的字符嵌入和词嵌入并将它们放在数据文件夹中。
获取汉字结构组件(部首)。文中使用的部首来自新华在线词典。由于版权原因,这些数据无法发布。有一种方法可以用汉语拆字字典代替,但是不一致的字符分解方法不能保证可重复性。
修改Utils/paths.py
添加预训练嵌入和数据集
运行以下命令
python Utils/preprocess.py python main.py --dataset weibo
python Utils/preprocess.py python main.py --dataset resume
python Utils/preprocess.py python main.py --dataset ontonotes
python Utils/preprocess.py --clip_msra python main.py --dataset msra
报错gbk编码问题
报错
https://github.com/LeeSureman/Flat-Lattice-Transformer/issues/17
https://github.com/shenhuaze/weibo-ner-conll
报错
https://github.com/LeeSureman/Flat-Lattice-Transformer/issues/42
报错
删除了[3]
报错
添加了一行