相对于英文文本,中文文本挖掘面临的首要问题就是分词,因为中文的词之间没有空格。在Python中可以使用jieba库来进行中文分词。
本文介绍手动安装jieba库到anaconda3和python 3.11的方法。
下载网址: jieba · PyPI
下载后得到文件: jieba-0.42.1.tar.gz
解压缩到当前文件夹:
E:\softwares\Python\jieba-0.42.1
将“jieba”目录复制到“D:\Programs\Anaconda3\Lib\site-packages”中:
命令执行验证:
python
import jieba
jieba.lcut("中国是一个伟大的国家")
执行结果如下图所示:
将“jieba”目录复制到“D:\Programs\Python\Python311\Lib\site-packages”中:
命令执行验证:
python
import jieba
jieba.lcut("中国是一个伟大的国家")
执行结果如下图所示:
注意:上面的是以我个人的电脑上的anaconda和python为例进行说明,不同电脑的安装目录可能不同。
相关参考资料: