微博由于其“短平快”的信息生产能力和快速传播能力,已经广泛流行于高校学生的日常生活中。但微博上的负面舆情信息给社会、学校和个人带来巨大的危害。由于微博的多而快特点,无法依赖人工对相关信息进行收集、筛选和发掘热点话题。因此研究并开发校园微博热点话题发现系统,对高校舆情工作有重要的意义。
本文从微博独有的短文本特征及国内外相关微博研究出发,通过对校园微博进行分类处理后使用K-means聚类算法对校园微博短文本聚类,并改进热度计算公式,通过话题热度提取校园微博热点话题,实现对校园微博热点话题的监控。本文通过几个模块设计并实现了校园微博热点话题发现系统,包括微博数据爬取模块、微博数据预处理模块、微博热点话题分析模块、微博热点话题展示模块等模块。最后以广州中医药大学的生活类微博—广中医I栋为研究对象,对校园微博各模块功能及相关技术进行介绍,并对相关模块进行测试验证,分析校园微博热点话题特点,总结系统的优点和不足,提出下一步改进的设想。
关键词:校园微博K-means热点话题
ABSTRACT
ABSTRACT
Becauseofits"shortandfast"informationproductioncapabilityandrapiddisseminationcapability,MicroBloghasbecomewidelypopularinthedailylifeofcollegestudentsHowever,thenegativepublicsentimentinformationonmicrobloghasbroughtgreatharmtosociety,schoolsandindividualsDuetothemultipleandfastcharacteristicsofmicroblog,itisimpossibletorelyonmanualcollectionofrelevantinformationtoscreenandexplorehottopicsTherefore,researchinganddevelopinghotspotdiscoverysystemoncampusmicroblogsisofgreatsignificancetothepublicopinionworkincollegesanduniversities
ThisarticlestartswiththeuniqueshorttextfeatureofmicroblogandrelatedmicroblogstudiesathomeandabroadAfterclassifyingcampusmicroblogs,weuseK-meansclusteringalgorithmtoclustershorttextsoncampusmicroblogsandimproveheatcalculationformulasThroughthehottopicofcampusmicrobloghottopicextraction,toachievethemonitoringofcampusmicroblogginghottopicsThispaperdesignsandimplementsacampusmicrobloghottopicdiscoverysystemthroughseveralmodules,includingmicroblogdatacrawlingmodule,microblogdatapreprocessingmodule,microbloghottopicanalysismodule,andmicrobloghottopicdisplaymoduleTheUniversityofMedicine'sLifeMicroblog–GuangzhongyiIdongisthesubjectofthestudyItintroducesthefunctionsandrelatedtechnologiesofthecampusmicroblogmodules,testsandverifiestherelevantmodules,analyzesthecharacteristicsofthecampusmicroblogginghottopics,andsummarizestheadvantagesanddisadvantagesofthesystemPutforwardtheideaoffurtherimprovement
Keyword:CampusMicro-BlogK-meansHottopicdetection
目录
摘要I
ABSTRACTIII
第1章绪论1
11国内外研究现状与意义1
12本文创新点2
13论文写作思路2
第2章相关技术介绍5
21网络爬虫技术5
22中文分词技术5
23特征选择及权重计算6
231特征选择6
232特征权重计算7
24文本表示8
241布尔模型8
242概率模型9
243向量空间模型9
25文本聚类算法9
251距离算法10
252K-means聚类算法10
253二分K-means聚类算法11
第3章校园微博热点话题发现系统设计与实现13
31系统设计目标及要求13
311系统设计目标13
312系统设计要求14
32系统详细架构设计14
33系统功能模块设计与实现15
331微博数据获取模块15
332微博文本预处理模块18
332校园微博热点话题发现模块21
第4章系统功能测试25
41系统运行环境和参数25
42实验数据及处理25
43系统可视化界面27
431数据获取界面27
432热点话题排行榜27
433热点话题热度直方图28
434敏感词展示28
总结与展望31
参考文献33
致谢35
附录37