• 基于Python爬虫和K-means算法的校园微博热点话题发现系统


    微博由于其“短平快”的信息生产能力和快速传播能力,已经广泛流行于高校学生的日常生活中。但微博上的负面舆情信息给社会、学校和个人带来巨大的危害。由于微博的多而快特点,无法依赖人工对相关信息进行收集、筛选和发掘热点话题。因此研究并开发校园微博热点话题发现系统,对高校舆情工作有重要的意义。
    本文从微博独有的短文本特征及国内外相关微博研究出发,通过对校园微博进行分类处理后使用K-means聚类算法对校园微博短文本聚类,并改进热度计算公式,通过话题热度提取校园微博热点话题,实现对校园微博热点话题的监控。本文通过几个模块设计并实现了校园微博热点话题发现系统,包括微博数据爬取模块、微博数据预处理模块、微博热点话题分析模块、微博热点话题展示模块等模块。最后以广州中医药大学的生活类微博—广中医I栋为研究对象,对校园微博各模块功能及相关技术进行介绍,并对相关模块进行测试验证,分析校园微博热点话题特点,总结系统的优点和不足,提出下一步改进的设想。
    关键词:校园微博K-means热点话题


    ABSTRACT
    ABSTRACT
    Becauseofits"shortandfast"informationproductioncapabilityandrapiddisseminationcapability,MicroBloghasbecomewidelypopularinthedailylifeofcollegestudentsHowever,thenegativepublicsentimentinformationonmicrobloghasbroughtgreatharmtosociety,schoolsandindividualsDuetothemultipleandfastcharacteristicsofmicroblog,itisimpossibletorelyonmanualcollectionofrelevantinformationtoscreenandexplorehottopicsTherefore,researchinganddevelopinghotspotdiscoverysystemoncampusmicroblogsisofgreatsignificancetothepublicopinionworkincollegesanduniversities
    ThisarticlestartswiththeuniqueshorttextfeatureofmicroblogandrelatedmicroblogstudiesathomeandabroadAfterclassifyingcampusmicroblogs,weuseK-meansclusteringalgorithmtoclustershorttextsoncampusmicroblogsandimproveheatcalculationformulasThroughthehottopicofcampusmicrobloghottopicextraction,toachievethemonitoringofcampusmicroblogginghottopicsThispaperdesignsandimplementsacampusmicrobloghottopicdiscoverysystemthroughseveralmodules,includingmicroblogdatacrawlingmodule,microblogdatapreprocessingmodule,microbloghottopicanalysismodule,andmicrobloghottopicdisplaymoduleTheUniversityofMedicine'sLifeMicroblog–GuangzhongyiIdongisthesubjectofthestudyItintroducesthefunctionsandrelatedtechnologiesofthecampusmicroblogmodules,testsandverifiestherelevantmodules,analyzesthecharacteristicsofthecampusmicroblogginghottopics,andsummarizestheadvantagesanddisadvantagesofthesystemPutforwardtheideaoffurtherimprovement
    Keyword:CampusMicro-BlogK-meansHottopicdetection

     

     


    目录
    摘要I
    ABSTRACTIII
    第1章绪论1
    11国内外研究现状与意义1
    12本文创新点2
    13论文写作思路2
    第2章相关技术介绍5
    21网络爬虫技术5
    22中文分词技术5
    23特征选择及权重计算6
    231特征选择6
    232特征权重计算7
    24文本表示8
    241布尔模型8
    242概率模型9
    243向量空间模型9
    25文本聚类算法9
    251距离算法10
    252K-means聚类算法10
    253二分K-means聚类算法11
    第3章校园微博热点话题发现系统设计与实现13
    31系统设计目标及要求13
    311系统设计目标13
    312系统设计要求14
    32系统详细架构设计14
    33系统功能模块设计与实现15
    331微博数据获取模块15
    332微博文本预处理模块18
    332校园微博热点话题发现模块21

     

     

     

    第4章系统功能测试25
    41系统运行环境和参数25
    42实验数据及处理25
    43系统可视化界面27
    431数据获取界面27
    432热点话题排行榜27
    433热点话题热度直方图28
    434敏感词展示28
    总结与展望31
    参考文献33
    致谢35
    附录37

  • 相关阅读:
    吃透底层:从路由到前缀树
    Android 14 Beta 1
    GOM登录器配置免费版生成图文教程
    数据结构——带头双向循环链表
    购物车——js小项目实例
    递归 - java实现
    2023年中国光子嫩肤行业市场规模及市场格局分析[图]
    在Anaconda中安装xgboost(简单高效)
    Java 注解总结
    常用web服务器性能相关概念
  • 原文地址:https://blog.csdn.net/QQ188083800/article/details/125465281