码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 盘点3种Python网络爬虫过程中的中文乱码的处理方法


    网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助

    一、思路

    其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对局部具体中文乱码的部分进行编码处理。

    二、分析

    1、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:

    ÃÀÅ® µçÄÔ×À ¼üÅÌ »ú·¿ ¿É°® С½ã½ã4k±ÚÖ½
    
    • 1

    虽然看上去控制台输出正常,没有报错, 但是输出的中文内容,却不是普通人能看得懂的。

    2、当出现网页编码为gbk,获取到的内容在控制台打印类似

    �װŮ�� ��Ů ˮ СϪ Ψ��
    
    • 1
     这种情况下的话,就可以通过使用本文给出的三种方法进行解决,屡试不爽!
    
    • 1

    三、具体实现

    1)方法一:将requests.get().text改为requests.get().content
    我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的,如下图所示。
    在这里插入图片描述
    此时可以考虑将请求变为.content,得到的内容就是正常的了。
    在这里插入图片描述
    2)方法二:手动指定网页编码
    #手动设定响应数据的编码格式

    response.encoding = response.apparent_encoding
    
    • 1

    如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
    在这里插入图片描述 这个方法稍微复杂一些,但是比较好理解,对于初学者来说,还是比较好接受的。
    如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
    在这里插入图片描述
    上面介绍的两种方法都是针对网页进行整体编码,效果显著,接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。

    3)方法三:使用通用的编码方法

    img_name.encode('iso-8859-1').decode('gbk')
    
    • 1

    在这里插入图片描述

  • 相关阅读:
    Leetcode-1653. 使字符串平衡的最少删除次数
    通信原理 | 滤波器:滤波器的概念、理想滤波器和实际滤波器
    在SSL中进行交叉熵学习的步骤
    Java学习笔记 --- HashSet
    打脸现场:“曾以为对开发者最好的应用商店,无故下架了我的高评分应用”
    一文讲明 Spring 的使用 【全网超详细教程】
    化工行业供应商协同管理系统:助力企业打造良好营商环境,提升运营效率
    ROC曲线
    使用STM32控制TMC5160驱动步进电机
    用函数的方法通过冒泡法实现对一个数组(乱序)到有序排序(由大到小排序)
  • 原文地址:https://blog.csdn.net/weixin_43335288/article/details/134476124
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号