• 用Python获取文章的内容,绝对不是表面这么简单啦


    嗨嗨,大家好

    今天来试试批量获取一下 gong zhong hao文章,emmm…怎么说,也不全是文章,其实是一篇纯图片文,至于为什么不是文字,妹妹不比文字香?

    请添加图片描述

    准备工作

    在这里插入图片描述
    我们需要用到 Fiddler Everywhere 这个软件,Crack是本次要使用到的文件,以及要安装微信PC版客户端

    我专门录了一个安装 及使用的教程,需要的朋友点击文字自取

    本次使用的是Python3.8 以及 pycharm2021,这是目前比较稳定的版本。

    模块方面需要安装一个requests 模块,它是第三方模块,需要手动安装,win+R 打开运行框输入cmd 按回车打开命令提示符窗口,输入pip install requests 按回车即可安装。

    效果展示

    太过份的我就不展示了,影响不好,我们是技术爱好者,不是那啥爱好者~
    文章发出来后,看不了不能怪我

    请添加图片描述

    主要代码

    python学习交流Q群:770699889 ###
    headers = {
        'Host': 'mp.weixin.qq.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36 NetType/WIFI MicroMessenger/7.0.20.1781(0x6700143B) WindowsWechat(0x63060012)',
        'Cookie': 'wxuin=2408215323; lang=zh_CN; pass_ticket=TsrY5cXMvTN01ghVFxFxT9k4jdPONJBt8mdl0ta20qxjUHNsnkkWLjib4gXCXSQM; devicetype=android-29; version=2800153f; wap_sid2=CJvmqfwIEooBeV9IQVVCUVAzdVBlWEo5NTlySFpON1Ffek5zTE9qRi1jdWZjVFMyOFYyM0FyVE9RSTRNZ3VuUXFTcU94Q3lKY1VyQlJ2RkEtTWFyRWFLeHhJUTRrWmp0N0VDZ05zOFV4d0kzZ1p5cXBIbTVBbEZGRWJteEt4Q0oxSjY4ZHFhODlaZnMyY1NBQUF+MOXS6ZIGOA1AlU4=',
    }
    # ::text
    for page in range(0, 3):
        url = f'https://mp.链接屏蔽了.com/mp/profile_ext?action=getmsg&__biz=MzU0MzU4OTY2NQ==&f=json&offset={page * 10}&count=10&is_ok=1&scene=&uin=777&key=777&pass_ticket=&wxtoken=&appmsg_token=1161_7%252BO7mVaQbImKSRrYWqKBnNggweX4WNZaqjadeg~~&x5=0&f=json'
        json_data = requests.get(url=url, headers=headers).json()
        general_msg_list = json_data['general_msg_list']
        general_msg_list = json.loads(general_msg_list)['list']
        # print(general_msg_list)
        title_list = []
        content_url_list = []
        for general_msg in general_msg_list:
            title = general_msg['app_msg_ext_info']['title']
            content_url = general_msg['app_msg_ext_info']['content_url']
            multi_app_msg_item_list = general_msg['app_msg_ext_info']['multi_app_msg_item_list']
            title_list.append(title)
            content_url_list.append(content_url)
            for multi_app_msg_item in multi_app_msg_item_list:
                title_list.append(multi_app_msg_item['title'])
                content_url_list.append(multi_app_msg_item['content_url'])
        # print(title_list)
        # print(content_url_list)
        zip_data = zip(title_list, content_url_list)
        for detail_title, detail_url in zip_data:
            if not os.path.exists('img/' + detail_title):
                os.mkdir('img/' + detail_title)
            # 1. 发送请求
            response = requests.get(url=detail_url, headers=headers)
            # 2. 获取数据
            html_data = response.text
            # 3. 解析数据
            # 正则匹配数据 第一个参数 需要匹配的规则
            # 第一个参数 在哪个字符串里面匹配
            img_list = re.findall('data-src="(https://mmbiz\.qpic\.cn/.*?)"', html_data)
            print(detail_title)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39

    视频教程

    Python实战

    好啦,今天的分享到这里就结束了 ~

    如果需要更多视频学习的可以在b站搜索 :Python小圆 / ka-爆浆麻薯团子

    对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦
    觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

    请添加图片描述

  • 相关阅读:
    (一)Multisim安装与入门
    报错:AttributeError: module ‘tensorflow‘ has no attribute ‘flags‘
    Vue项目实战之人力资源平台系统(十)图片上传和打印员工信息
    Swoole v6 能否让 PHP 再次伟大?
    爬取某网站计算机类图书
    一球从100米高度自由落下,每次落地后反跳回原高度的一半;再落下,求它在第n次落地时,共经过多少米?第n次反弹多高?
    知识直播的“顶流”,正在被复制
    【GitLab私有仓库】在Linux上用Gitlab搭建自己的私有库并配置cpolar内网穿透
    电商项目-day03
    使用helm快速安装 grafana&prometheus
  • 原文地址:https://blog.csdn.net/aliYz/article/details/127433238