在前一章节介绍知识单元完整频次统计中已经对关键词ID和DE字段进行词频统计。在回顾知识点的基础上,进一步进行可视化操作。可以新建一个ipynb文件,在导入功能库和文件后,利用multi_element_count()
进行多元素字段的词频统计。
可将上述的频数统计结果,借用词云图可视化结果输出。首先需要将多元素字段频数统计的结果进行处理,形成绘制词云图的DataFrame数据格式,即第一列为标签字段中多元素的分类名称,第二列就为各类名称出现的频数统计。然后在将两列的数据合并,组成分类名称和频数一一对应的列表,即words
变量(词云图的核心就是在于words
变量的构造),如果有需求可以对图形的标题进行注解,比如这里将NAME
赋值为ID
,就是表明当前展示的词云图结果来自于ID
字段。
ID
字段的多元素词频统计结果词云可视化输出如下。元素的频数统计值越大,在词云图中的文字越大。通过滑动鼠标,放置在元素上,会自动显示对应的频数。