针对平台中部分商品的用户评论数据,分别使用文本关键词提取方法以及主题模型,提取其中的用户关注点。
(1)关键词提取:对于所有数据,进行文本关键词提取,挖掘该品类整体
上用户所关注的焦点。(2)主题模型:面对浩如烟海的文档,把相似的文章聚合起来,并且提取
描述聚合后主题的重要关键词,通过主题模型,挖掘在该品类中用户关注的几个
主要话题及对应的话题内容。
软件:Pycharm2020(Python 3.9)、MySQL Workbench
文件:data_get.py、taobaocookie.py、create_database.sql
扩展包:selenium、pymysql …
模拟浏览器版本:Chrome/92.0.4515.131
软件:Pycharm2020(Python 3.9)
文件:word_break.py、get_vector.py、train_word2vec.py、get_keyword.py
扩展包:selenium、pymysql …
模拟浏览器版本:Chrome/92.0.4515.131
## word_break.py:去除停用词
#
## get_vector.py:jieba分词、去重等数据处理
#
## train_word2vec.py:训练Word2Vec模型,得到词向量
#
## get_keyword.py:进行Kmeans聚类,按照组内距离之和,得到Top3的关键词
#
去除停用词结果:
jieba分词、去重等数据处理结果:
model = Word2Vec(LineSentence(inp), window=5, vector_size=100, min_count=5, sg=1, hs=1, workers=25)
Kmeans聚类中心 :
['国潮', '不厚', '柔软', '很正', '包装', '没想到', '长度', '阳光', '适中']
统计结果:
排除掉英文数字及语气词汇,可以看出关键词主要排序为:
阳光 > 国潮 > 长度 > 不厚 > 很正 > 包装 > 柔软 > 适中
从评价关键词可以看出,消费者对服装商品主要的评价集中在衣服的款式、质量上,这与常理相符合。
软件:Pycharm2020(Python 3.9)
文件:lda.py
扩展包:gensim.models.ldamodel
数据使用第三部分中处理后的数据
模型参数设置:
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
# 将单个主题作为格式化字符串
# 返回:主题的字符串表示,如'-0.340 *“类别”+ 0.298 *“$ M $”+ 0.183 *“代数”+ ...“。
# topicno:主题ID,这里是10
# topn: 将使用的主题中的单词数
print(lda.print_topic(10, topn=5))
模型输出结果:
0.128*"好看" + 0.064*"衣服" + 0.045*"喜欢" + 0.032*"超级" + 0.028*"质量"
与上面第三节的关键词结果不同,主题模型呈现的结果显得更加“浓缩”,能直接指出了评价的主题为“衣服”、“质量”。