在本次项目中,我们通过分析文本和共同作者社交网络来研究社会科学、计算机和信息学方面的出版物。
我遇到的一个问题是:如何衡量主题之间的关系(相关性)?我想创建一个连接类似主题的网络可视化,并帮助用户更轻松地浏览大量主题。
我们的第一步是加载LDA输出的主题矩阵。LDA有两个输出:词主题矩阵和文档主题矩阵。
作为加载文件的替代方法,您可以使用topicmodels包lda函数的输出来创建单词主题和文档主题矩阵。
- # 加载到作者主题矩阵中,第一列是单词
- author.topic <- read.csv("topics.csv", stringsAsFactors = F)
- # 加载到单词-主题矩阵中,第一列是单词
-
-
- # 重命名主题
- colnames(author.topic) <- c("author_name",name$topic_name)
与标准LDA不同,我运行了“以作者为中心”的LDA,其中所有作者的摘要被合并并被视为每个作者的一个文档。这是因为我的最终目标是使用主题建模作为信息检索过程来确定研究人员的专业知识。