数据集中的Usenet公告板包括新汽车,体育和密码学等主题。最近我们被客户要求撰写关于主题建模的研究报告,包括一些图形和统计输出。我们对20个Usenet公告板的20,000条消息进行分析。
文本挖掘:主题模型(LDA)及R语言实现分析游记数据
时长12:59
我们首先阅读20news-bydate
文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一个文件。
raw_text
- ## # A tibble: 511,655 x 3
- ## newsgroup id text
- ## <chr> <chr> <chr>
- ## 1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk>