众所周知,nltk需要download一些文件才能用,但由于网络不通畅,经常下载不下来。官方链接在这里:点击官方链接
我已经帮大家下载好了必备的几个文件,资源在这里,不必担心网络问题,仅需0积分,可以直接下载:
https://download.csdn.net/download/weixin_43997331/87148814
import nltk
print(nltk.data.path)
然后选择一个路径,作为之后文件存放的位置。
创建tokenizers文件夹,把下载好的punkt文件夹放进去。
创建taggers文件夹,把averaged_perceptron_tagger文件夹放进去。
创建corpora文件夹,把words文件夹放进去。
创建chunkers文件夹,把maxent_ne_chunker文件夹放进去。
全部放好之后就开始测试吧
import nltk
s = 'i have five apples and apple 5th'
s_token = nltk.word_tokenize(s)
s_tagged = nltk.pos_tag(s_token)
s_ner = nltk.chunk.ne_chunk(s_tagged)
print(s_ner)
结果为
(S i/NNS have/VBP five/CD apples/NNS and/CC apple/NN 5th/CD)