• Python requests有问题


    1问题1

    今天使用脚本爬取某网站的接口,发现使用nodejs、postman和chrome可以正确获取数据,使用Python requests却返回405,没办法,只能使用nodejs和popen,通过nodejs的https模块获取接口数据以后,使用popen返回给python进程.

    2问题2

    没有过多久就发现那个网站的接口有反爬机制,短时间频繁调用直接会把ip给封了,无论是Python requests、nodejs的https模块、chrome浏览器、postman全都不行,再调用就是403的错误页面,通过切换多个wifi和手机热点证实了这一点。于是找到了一家提供隧道代理IP的云计算平台,购买了隧道代理IP服务,在这个平台上下载了python语言的示例代码,更换了我的账号和密钥,以及隧道地址和端口以后,发现不行,示例代码里就是用的Python requests。起初我还以为是我用的不对,结果按照平台上测试代理可用性的方法,使用Proxifier访问没问题,就是Python requests有问题,于是联系了平台人工客服,结果人工客服告诉我使用chrome浏览器和curl命令测试是可以正常访问的。于是我在本地试了一下curl,确实可以,但是不知道为什么Python requests不行,连人工客服都不知道。没有办法了,只能使用popen了。

    3问题3

    Python requests却返回405的原因

    使用nodejs https,发送的请求的头部是:

    1. GET /qjwzwb/stuchooseexam/showPositionInfo.htm?zwdm=3B72E1E17B84508D7FFAFE00295262636CE478D1E3703C19&examid=5083fd4b2a75e4d1 HTTP/1.1
    2. Host: aaa.bbb.cn
    3. Connection: close

    响应头部:

    1. {
    2. date: 'Wed, 08 Nov 2023 03:27:30 GMT',
    3. 'content-type': 'text/html;charset=UTF-8',
    4. 'content-length': '7833',
    5. connection: 'close',
    6. 'set-cookie': [
    7. 'JSESSIONID=31468102EC0D977F69F330CB4FCAE2C9; Path=/qjwzwb; HttpOnly',
    8. 'SERVERID=c6cf1a7149f02bca0f6c4700b9f1a7ec|1699414050|1699414050;Path=/'
    9. ],
    10. 'content-language': 'en-US',
    11. vary: 'accept-encoding'
    12. }

    使用Python requests发送的请求的头部是:

    1. {
    2. 'User-Agent': 'python-requests/2.23.0',
    3. 'Accept-Encoding': 'gzip, deflate',
    4. 'Accept': '*/*',
    5. 'Connection': 'keep-alive'
    6. }

    响应头部是:

    1. {
    2. 'Date': 'Wed, 08 Nov 2023 02:29:44 GMT',
    3. 'Content-Type': 'text/html',
    4. 'Content-Length': '64367',
    5. 'Connection': 'keep-alive',
    6. 'ETag': '"61966732-fb3c"'
    7. }

    将Python requests的头部设置为:

    1. headers = {
    2. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    3. }

    响应的状态码就是200了

    4问题4

    Python requests使用代理还是405的原因

    经过验证,将Python requests的头部设置为:

    1. headers = {
    2. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    3. }

    响应的状态码就是200了

  • 相关阅读:
    关于TCP协议面试中常见的一千个问题
    Vue+element-ui实现表格数据渲染+分页
    【Game Of AutoTest】5、游戏自动化测试的价值
    PySparkSql定义udf 返回类型为字典类型的
    lxcfs 源码安装(RHEL)
    IDEA06:Java和Python的进程间通信和心跳包机制
    openGL库的简单配置
    [附源码]java毕业设计广州中小学学校信息管理系统
    LLM之幻觉(一):大语言模型幻觉解决方案综述
    剪切板中,经常用到的gpt编程提问
  • 原文地址:https://blog.csdn.net/little_kid_pea/article/details/134277420