python主题建模可视化LDA和T-SNE交互式可视化

我尝试使用Latent Dirichlet分配LDA来提取一些主题。

最近我们被客户要求撰写关于主题建模的研究报告，包括一些图形和统计输出。本教程以自然语言处理流程为特色，从原始数据开始，准备，建模，可视化论文。

我们将涉及以下几点

使用LDA进行主题建模
使用pyLDAvis可视化主题模型
使用t-SNE可视化LDA结果

预处理和矢量化文档

In [3]:


from nltk.stem.wordnet import WordNetLemmatizer
from nltk.tokenize import RegexpTokenizer
 
def docs_preprocessor(docs):
    tokenizer = RegexpTokenizer(r'\w+')
    for idx in range(len(docs)):
        docs[idx] = docs[idx].lower()  # Convert to lowercase.
        docs[idx] = tokenizer.tokenize(docs[idx])  # Split into words.
 
    # 删除数字，但不要删除包含数字的单词。
 
    docs = [[token for token in doc if not token.isdigit()] for doc in docs]
    
    # 删除仅一个字符的单词。
 
    docs = [[token for token in doc if len(token) > 3] for doc in docs]
    
    # 使文档中的所有单词规则化
 
    lemmatizer = WordNetLemmatizer()
    docs = [[lemmatizer.lemmatize(token) for token in doc] for doc in docs]
  
    return docs

In [4]:

docs = docs_preprocessor(docs)

计算双字母组/三元组：

主题非常相似，可以区分它们是短语而不是单个单词。

In [5]:


from gensim.models import Phrases
# 向文档中添加双字母组和三字母组（仅出现10次或以上的文档）。
bigram = Phrases(docs, min_count=10)
trigram = Phrases(bigram[docs])
 
for idx in range(len(docs)):
    for token in bigram[docs[idx]]:
        if '_' in token:
            # Token is a bigram, add to document.
            docs[idx].append(token)
    for token in trigram[docs[idx]]:
        if '_' in token:
            # token是一个二元组，添加到文档中。
            docs[idx]

相关阅读:
什么是超融合？与传统架构有什么区别？.
Hive 分桶表
面试系列 - 正则表达式详解
计算机毕业设计ssm高校学报管理系统lt10k系统+程序+源码+lw+远程部署
v-bind指令：设置元素的属性
偏向锁、轻量级锁、重量级锁的理解和适用场景
论文 | REACT: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS
【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试
echarts 柱状图加背景加渐变
elasticsearch基本操作

原文地址：https://blog.csdn.net/tecdat/article/details/128140009

python主题建模可视化LDA和T-SNE交互式可视化

相关视频：文本挖掘：主题模型（LDA）及R语言实现分析游记数据

预处理和矢量化文档

计算双字母组/三元组：