Stanford Corenlp的使用
Stanford coreNLP是斯坦福大学开发的一套关于自然语言处理的工具(toolbox),使用简单功能强大,有:命名实体识别、词性标注、 词语词干化、语句语法树的构造还有指代关系等功能,使用起来比较方便。
PART1:安装Stanford NLP
1) 安装Stanford nlp自然语言处理包:pip install stanfordcorenlp
2) 下载Stanford CoreNLP文件:http://stanfordnlp.github.io/CoreNLP/download.html
3) 下载中文模型jar包:http://nlp.stanford.edu/software/stanford-chinese-corenlp-208-02-27-models.jar
4) 把解压后的Stanford CoreNLP文件夹(个人习惯,这里我重命名为stanford_nlp)和下载的Stanford-chinese-corenlp-2018-02-27-models.jar放在同一目录下(注意:一定要在同一目录下,否则执行会报错)
可能出现的问题:
1、由于Stanford NLP是java编写的,所以电脑中一定要有java的开发环境,如果没有的话,导入Stanford NLP的时候会抛出找不到指定文件的异常,如下所示:
会抛出找不到文件异常
2、用stanfordCoreNLP进行中文命名实体识别时,出现一直运行不报错,或者报错json编码错误的解决方案:
可能的原因有两种: 第一种,是java版本没安装对,将版本调整为:JDK 1.8及以上版本,且是64为的(32位的运行不了)。 第二种,是"stanfordcorenlp"包配置不完整。
用stanfordcorenlp生成解析树时报错json.decoder.JSONDecodeError:Expecting value:line 1 column 1 (char 0):出现这个问题是版本不匹配,需要下载老版本的stanfordCoreNLP