1. 特征少,价值密度不足(数据来源)
爬虫获取评论信息,数据清洗,进行主题挖掘,采用的主要主题模型算法有(潜在语义分析模型LSA、概率潜在语义分析模型PLSA、潜在狄利克雷分配模型LDA【三层贝叶斯结构】)
2. 如何数据获取
1.本文采用Python和XPath技术自定义网络爬虫抓取“贵州旅游景区”相关的评论数据,经过去重和无效评论过滤后,共采集2010年至2020年33666条评论,随着以大众点评、携程网、蚂蜂窝、途牛网等旅游推荐网站的出现。
3. 数据挖掘与预测
(1. 特征提取技术2.Attention机制3.LDA模型)
1.情感分析得出对此不同的意见,继续发扬积极情感的特征词
未完后补。
参考文献:
[1]杨秀璋,宋卓远,赵凯,陈镱尹,杨鑫,杨云帆,赵小明,周既松,罗子江.基于LDA模型和情感分析的贵州景点舆情分析研究[J].现代计算机,2021,27(25):36-43.