目录
jieba为中文分词第三方库。
jieba库是通过中文词库的方式来识别分词的。汉字间概率大的可以组成词组,形成分词的结果。除了分词,用户还可以添加自定义的词组等。
pip install jieba
(1)精确模式
将文本精确的切分开,不存在冗余单词。
代码如下:
- import jieba
-
- result = jieba.lcut("中华人民共和国是伟大的国家")
-
- print(result)
结果如下:
['中华人民共和国', '是', '伟大', '的', '国家']
(2)全模式
将文本中所有可能的词语都扫描出来,有冗余单词。
代码如下:
- import jieba
-
- result = jieba.lcut("中华人民共和国是伟大的国家" , cut_all=True)
-
- print(result)
结果如下:
['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '伟大', '的', '国家']
(3)搜索引擎模式
在精确模式的基础上,对长词进行切分处理。
代码如下:
- import jieba
-
- result = jieba.lcut_for_search("中华人民共和国是伟大的国家")
-
- print(result)
结果如下:
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的', '国家']
jieba.add_word(s) #向分词词典中增加新词s。