• Python requests爬虫


    Python的requests库是一个强大且易于使用的HTTP库,用于发送HTTP请求和处理响应。它是Python中最受欢迎的网络爬虫框架之一,被广泛用于从网页中提取数据、爬取网站和进行API调用。

    使用requests库,你可以轻松地发送各种HTTP请求,包括GET、POST、PUT、DELETE等。你可以创建一个HTTP请求对象,设置请求头、请求体和其他参数,然后发送请求并获取响应。requests库提供了许多方便的方法来处理响应,包括获取响应内容、解析JSON、解析HTML等。

    如果本地 Python 环境没有安装 requests,可以在命令提示符窗口输入命令

    pip install requests

    安装 requests 模块

    我们可以随便打开一个网页,F12->“Ctrl+R”刷新,双击名称中的项

    可以看到User-Agent和Cookie

    以下是一些常用的requests库功能和用法:

    1. 发送GET请求:

      response = requests.get(url)
      

    2. 发送POST请求:

      response = requests.post(url, data=payload)
      

    3. 设置请求头:

      1. headers = {'User-Agent': 'Mozilla/5.0'}
      2. response = requests.get(url, headers=headers)

    4. 传递URL参数:

      1. params = {'key1': 'value1', 'key2': 'value2'}
      2. response = requests.get(url, params=params)

    5. 发送文件:

      1. files = {'file': open('file.txt', 'rb')}
      2. response = requests.post(url, files=files)

    6. 获取响应内容:

      print(response.text)
      

    7. 解析JSON响应:

      json_data = response.json()
      

    8. 解析HTML响应:

      1. from bs4 import BeautifulSoup
      2. soup = BeautifulSoup(response.text, 'html.parser')

    9. 处理异常:

      1. try:
      2. response = requests.get(url)
      3. response.raise_for_status()
      4. except requests.HTTPError as e:
      5. print('HTTPError:', e)
      6. except requests.ConnectionError as e:
      7. print('ConnectionError:', e)
      8. except requests.Timeout as e:
      9. print('Timeout:', e)
      10. except requests.RequestException as e:
      11. print('RequestException:', e)

    以上只是requests库的一小部分功能,它还提供了许多其他高级功能和选项,例如会话管理、认证、代理设置等,可以帮助你轻松地进行网络爬虫和API调用。

    完整的请求函数例程:

    1. import requests
    2. def get_html(url):
    3. '''
    4. 两个参数
    5. :param url:统一资源定位符,请求网址
    6. :param headers:请求头
    7. :return html 网页的源码
    8. :return sess 创建的会话
    9. '''
    10. # 请求头
    11. headers={'User-Agent': '复制了放这里'}
    12. # 创建Session, 并使用Session的get请求网页
    13. sess = requests.Session()
    14. response = sess.get(url=url,headers = headers)
    15. # 获取网页信息文本
    16. html = response.text
    17. return html, sess

  • 相关阅读:
    java面试题整理《微服务篇》四
    【安全】网络安全态势感知
    C++ 智能指针
    java调用Excel中的GAMMADIST函数返回伽玛分布
    预约陪诊系统开发,跨省就医也能省时省力
    21天经典算法之直接选择排序
    云计算基础知识
    JWT简单介绍
    【面试普通人VS高手系列】Dubbo的服务请求失败怎么处理?
    C++构造函数和析构函数
  • 原文地址:https://blog.csdn.net/m0_64089565/article/details/140322153