文本词云可视化的流程主要有:文本获取、词组生成,停用词定义、词云出图。这篇文章将依次介绍
文本获取可以通过网页爬虫、自定义文本等方式获得,将文本存放于一个txt文件内方便程序读取文本
对于中文文本,主要使用python 中的jieba库进行中文文本分词,jieba库的介绍可见Python jieba中文分词库介绍。
获取到词组之后,经常会有一些我们不需要的词语会出现在词组里面,这里我们可以定义停用词来把它们去除
词云出图最普遍使用的是WordCloud 库,wordcloud.WordCloud这个函数就实现了丰富的词云可视化功能。
色带颜色设置可以参考
【收藏】如何优雅的在 Python matplotlib 中可视化矩阵,以及cmap色带设置
本示例代码加入了词云可视化中的以下功能