码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python爬虫之Requests库


    Requests库可以获取网页源码

    requests-网络爬虫-CSDNPython入门技能树

    Get方法

    1. import requests
    2. html=requests.get("http://www.baidu.com") #获取到Response对象
    3. html_bytes=html.content #获取到bytes型网页的源代码
    4. html_str=html_bytes.decode()#获取到字符串型网页的源代码
    5. print(html_str)
    1. import requests
    2. html_str=requests.get("http://www.baidu.com").content.decode()
    3. print(html_str)

    如果不是utf-8编码格式,就需要解码

    html_str=requests.get("http://www.baidu.com").content.decode('GBK')

    get方法有很多参数

    • url:请求地址;
    • params:要发送的查询字符串,可以为字典,列表,元组,字节;
    • data:body 对象中要传递的参数,可以为字段,列表,元组,字节或者文件对象;
    • json:JSON 序列化对象;
    • headers:请求头,字典格式;
    • cookies:传递 cookie,字段或 CookieJar 类型;
    • files:最复杂的一个参数,一般出现在 POST 请求中,格式举例 "name":文件对象 或者 {'name':文件对象},还可以在一个请求中发送多个文件,不过一般爬虫场景不会用到;
    • auth:指定身份验证机制;
    • timeout:服务器等待响应时间,在源码中检索到可以为元组类型,这个之前没有使用过,即 (connect timeout, read timeout);
    • allow_redirects:是否允许重定向;
    • proxies:代理;
    • verify:SSL 验证;
    • stream:流式请求,主要对接流式 API;
    • cert:证书。

     

    响应对象

    get方法返回的是一个响应对象,它有一些属性

    • ok:只要状态码 status_code 小于 400,都会返回 True;
    • is_redirect:重定向属性;
    • content:响应内容,字节类型;
    • text:响应内容,Unicode 类型;
    • status_code:响应状态码;
    • url:响应的最终 URL 位置;
    • encoding:当访问 r.text 时的编码;
    • json():将响应结果序列化为 JSON;

     

    POST方法

    1. import requests
    2. def get_response(url, data, headers=None):
    3. result=requests.post(url=url,data=data,headers=headers).text
    4. return result
    5. if __name__ == '__main__':
    6. headers = {
    7. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"
    8. }
    9. data = {
    10. "key1": "value1",
    11. "key2": "value2"
    12. }
    13. url = "http://httpbin.org/post"
    14. html = get_response(url, data, headers)
    15. print(html)

     

     

  • 相关阅读:
    运维排查 | Systemd 之服务停止后状态为 failed
    优惠券秒杀的优化
    LayoutLMv3 : 基于统一文本和带Masking图像的文档AI预训练【论文翻译】
    这个字段我明明传了呀,为什么收不到 - Spring 中首字母小写,第二个字母大写造成的参数问题
    SpringBoot3 Actuator使用如何以及自定义端点
    Rockchip RK3399 - USB触摸屏接口驱动
    进阶JAVA篇-深入了解枚举与抽象枚举
    Postgresql实验系列(3)最简脏读插件
    计算机毕业设计(附源码)python游泳馆管理平台
    【lesson10】进程状态
  • 原文地址:https://blog.csdn.net/seanyang_/article/details/126911940
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号