码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据获取 情感分析 词云图展示


    目录

    • 1. 数据获取部分
      • 实验环境
      • 数据获取目标
      • 抓包
        • PC端和移动端分析
        • 抓取到的目标链接
      • 分析评论信息存储位置
      • 爬虫结果
    • 2. 情感分析部分
      • 数据准备
      • 主要代码
      • 效果
    • 3. 词云图部分
      • 主要代码
      • 效果

    1. 数据获取部分

    实验环境

    Requests、json、io、sys、re、time、csv

    数据获取目标

    在这里插入图片描述

    抓包

    PC端和移动端分析

    PC端抓包后,发现参数过多。
    从移动端某博抓取url,发现加密参数较少方便入手
    爬像新浪某博这样的大网站,不用想就知道不登录肯定是爬不了多少数据的(事实就是不登录的话只能爬第一页的评论数据)。
    所以我们先抓取到cookie进行保存:
    在这里插入图片描述

    抓取到的目标链接

    这里只提取了我想要爬取的四个目标url:

    https://m.weibo.cn/1653196740/4595525837399095
    https://m.weibo.cn/2027363802/4319350444018706
    https://m.weibo.cn/2602644737/4638484377896654
    https://m.weibo.cn/2337348632/4638209580207301
    

    界面如下:
    在这里插入图片描述

    分析评论信息存储位置

    首先自动加载评论数据时抓取ajax请求,发现response有unicode编码的数据,截图如下:
    在这里插入图片描述

    通过preview视图中发现,这些编码正式我们想要的评论数据,截图如下:
    在这里插入图片描述
    3. 那么如果获取自动加载的下一页的评论信息呢?抓取下一页的评论数据url分析
    第一页的url为:
    在这里插入图片描述

    第二页的url为:
    在这里插入图片描述

    结果,请求中多了一个max_id和max_id_type

    继续分析两者request和response发现:
    第一页返回的json信息中包含的max_id和max_id_type正是下一页所需要的url参数。
    在这里插入图片描述
    接下来就可以开始我们的爬虫了。

    爬虫结果

    爬取结果如下,只爬了1W条左右:
    在这里插入图片描述

    2. 情感分析部分

    数据准备

    1. BosonNLP_sentiment_score.txt 词语评分表
    2. degree.csv 程度副词表
    3. not.csv 否定词表
    4. stopword.txt 停用词表
      篇幅限制,读者可以自行百度这些表的含义
      在这里插入图片描述

    主要代码

    在这里插入图片描述
    利用pandas,jieba来计算每条评论信息的分数,主要代码如上

    效果

    代码会生成两个文档:
    在这里插入图片描述
    一个是pos积极评论文档,一个是neg消极评论文档
    neg文档如下:
    (可以通过评论ID,找到原评论)
    有部分误差,后期还可以通过调整评分阈值进行优化
    在这里插入图片描述

    pos文档如下:
    在这里插入图片描述
    这个基本是没什么误差的

    3. 词云图部分

    主要代码

    在这里插入图片描述

    效果

    在这里插入图片描述

  • 相关阅读:
    171.Hadoop(七):Yarn的架构,工作机制,调度器,常用命令
    捷码赋能案例:湖南天辰产研实力迅速提升!实战玩转智慧楼宇/工地等项目
    可拆分背包问题(贪心算法)
    洛谷月赛 P5588 小猪佩奇爬树
    学习(踩坑)日记:paramiko,yield,pywin32,ctypes,airflow,clickhouse_driver
    【Leetcode】664. Strange Printer(配数学证明)
    利用pytorch自定义CNN网络(一):torchvision工具箱
    网络爬虫requests库使用指南
    Vue移动端 / PC端适配解决方案:postcss-px-to-viewport
    上午卷-6.网络与多媒体基础知识-软件设计师
  • 原文地址:https://blog.csdn.net/lijiamingccc/article/details/126963413
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号