• python主题建模可视化LDA和T-SNE交互式可视化


    我尝试使用Latent Dirichlet分配LDA来提取一些主题。

    最近我们被客户要求撰写关于主题建模的研究报告,包括一些图形和统计输出。 本教程以自然语言处理流程为特色,从原始数据开始,准备,建模,可视化论文。

    我们将涉及以下几点

    使用LDA进行主题建模
    使用pyLDAvis可视化主题模型
    使用t-SNE可视化LDA结果


    相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

    文本挖掘:主题模型(LDA)及R语言实现分析游记数据

    时长12:59


    In [1]:

    from scipy import sparse as sp
    
    Populating the interactive namespace from numpy and matplotlib
    

    In [2]:

    docs = array(p_df['PaperText'])
    

     预处理和矢量化文档

    In [3]:

    1. from nltk.stem.wordnet import WordNetLemmatizer
    2. from nltk.tokenize import RegexpTokenizer
    3. def docs_preprocessor(docs):
    4. tokenizer = RegexpTokenizer(r'\w+')
    5. for idx in range(len(docs)):
    6. docs[idx] = docs[idx].lower() # Convert to lowercase.
    7. docs[idx] = tokenizer.tokenize(docs[idx]) # Split into words.
    8. # 删除数字,但不要删除包含数字的单词。
    9. docs = [[token for token in doc if not token.isdigit()] for doc in docs]
    10. # 删除仅一个字符的单词。
    11. docs = [[token for token in doc if len(token) > 3] for doc in docs]
    12. # 使文档中的所有单词规则化
    13. lemmatizer = WordNetLemmatizer()
    14. docs = [[lemmatizer.lemmatize(token) for token in doc] for doc in docs]
    15. return docs

    In [4]:

    docs = docs_preprocessor(docs)
    

     计算双字母组/三元组:

    主题非常相似,可以区分它们是短语而不是单个单词。

    In [5]:

    1. from gensim.models import Phrases
    2. # 向文档中添加双字母组和三字母组(仅出现10次或以上的文档)。
    3. bigram = Phrases(docs, min_count=10)
    4. trigram = Phrases(bigram[docs])
    5. for idx in range(len(docs)):
    6. for token in bigram[docs[idx]]:
    7. if '_' in token:
    8. # Token is a bigram, add to document.
    9. docs[idx].append(token)
    10. for token in trigram[docs[idx]]:
    11. if '_' in token:
    12. # token是一个二元组,添加到文档中。
    13. docs[idx]
  • 相关阅读:
    什么是超融合?与传统架构有什么区别?.
    Hive 分桶表
    面试系列 - 正则表达式详解
    计算机毕业设计ssm高校学报管理系统lt10k系统+程序+源码+lw+远程部署
    v-bind指令:设置元素的属性
    偏向锁、轻量级锁、重量级锁的理解和适用场景
    论文 | REACT: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS
    【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试
    echarts 柱状图加背景加渐变
    elasticsearch基本操作
  • 原文地址:https://blog.csdn.net/tecdat/article/details/128140009