主要特性
jieba提供paddle模式下的词性标注功能,主要特性如下:
- jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
- 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
- 除了jieba默认分词模式,提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式,通过enable_paddle()安装paddlepaddle-tiny,并且import相关代码;
Python示例
import jieba
import jieba.posseg as pseg
words = pseg.cut("【收藏】使用jieba 进行基于 TextRank 算法的关键词抽取")