基于评论内容的主题分类模型
摘要:旅游服务不断地在向互联网产业靠拢,基于互联网的旅游行业层出不穷,人们出行也是靠网络平台进行预订,每个人都有保障自己权益的权利,评论数据就是如此,如果,体验感很差,那么可以进行公开评论,其他人就会借助你的评论参考是否选择该旅游产品。本文基于LDA主题模型和词袋模型以及贝叶斯模型和逻辑回归对文本进行分类,也就是主题归类。
- import numpy as np
-
- import pandas as pd
-
- from math import sqrt
-
- import matplotlib.pyplot as plt
-
- from wordcloud import WordCloud
-
- import warnings
-
- from sklearn.feature_extraction.text import CountVectorizer # 词频计数
-
- from sklearn.feature_extraction.text import Tfidf_whwVectorizer # tf-idf_whw 模块
-
- from sklearn.preprocessing import LabelEncoder
-
- import jieba
-
- from gensim import corpora, models, similarities
-
- import gensim
-
- i