• 二十行Python代码,带你了解扣扣发生大规模账号泄露前因后果


    嗨害大家好鸭,我是小熊猫🖤

    六月,秋秋发生大规模盗号事件,众说纷纭,

    也有说因为某习通买卖个人信息导致的,

    有说是因为点了图片中的网站导致中毒被盗的,

    还有说企鹅数据库被攻击导致账号被盗的,

    反正公说公有理婆说婆有理。

    请添加图片描述
    但是吧,人呐,一般都喜欢凑热闹,

    于是乎,我直接用Python把围脖爬了一遍,

    看他们争论的不亦乐乎,我开心极了~

    有什么python相关报错解答自己不会的、或者源码资料/模块安装/女装大佬精通技巧 都可以来这里:(https://jq.qq.com/?_wv=1027&k=2Q3YTfym)或者文末私号问我

    请添加图片描述

    准备工作

    使用的是Python3.8 和 pycharm 编辑器,

    为什么我用的是3.8 而不是最新版呢?

    很多刚开始学Python的兄弟喜欢下载新版本,

    在原有的认知里面就是觉得最新的自然就是最好的,

    但是,对于软件而言,越新的版本,问题越多,不稳定,

    还需要不断地修改不断地完善。

    打个简单的比方,以LOL为例,

    每次版本刚更新,总是会爆出一些小bug,

    然后收集一段时间后,再通过小版本或者直接在线就更新了。

    所以说软件并不是版本越新越好,

    这里我推荐的是Python3.8,目前最稳定的版本。

    pycharm的话,

    pycharm2020以前的版本是没有中文版插件的,

    只能通过在网上找的插件安装,

    后面的版本都可以直接在pycharm上安装插件。

    有什么python相关报错解答自己不会的、或者源码资料/模块安装/女装大佬精通技巧 都可以来这里:(https://jq.qq.com/?_wv=1027&k=2Q3YTfym)或者文末私号问我

    代码展示

    import pprint
    import re
    import requests
    import csv
    import pandas as pd
    python学习交流群:660193417###
    
    # f = open('微博评论.csv', mode='a', encoding='utf-8', newline='')
    # csv_writer = csv.DictWriter(f, fieldnames=[
    #     '用户',
    #     '地区',
    #     '评论',
    #     '日期',
    # ])
    # csv_writer.writeheader()
    
    
    url = 'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    
    lis = []
    for index in response.json()['data']['data']:
        content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
        dit = {
            '用户': index['user']['screen_name'],
            '地区': index['source'].replace('来自', ''),
            '评论': content,
            '日期': index['created_at']
        }
        lis.append(dit)
        # csv_writer.writerow(dit)
        print(dit)
    
    pd_data = pd.DataFrame(lis)
    pd_data.to_excel('微博评论.xlsx')
    python学习交流群:660193417###
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39

    效果

    部分数据

    请添加图片描述
    大家还可以自己试试做做词云图,爬取多页等等刚操作!

    快去试试吧~

    我是小熊猫, 咱下篇文章再见(✿◡‿◡)

    在这里插入图片描述

  • 相关阅读:
    Word控件Spire.Doc 【文档操作】教程(七):在 C#、VB.NET 中从 URL 下载 Word 文档
    【面试题】事件绑定和冒泡
    【POJ No. 3579】 差的中位数 Median
    IDEA运行 支付宝案例
    linux-磁盘应用
    提升性能的利器:深入解析SectionReader
    Hadoop中SecondaryNameNode工作机制
    JVM 垃圾回收
    腾讯Behaviac Designer 和Unity连调行为树
    河南双创蓝皮书发布:科技创新持续发力,​中创助推中部地区发展!
  • 原文地址:https://blog.csdn.net/m0_67575344/article/details/125770412