• 通过requests库使用HTTP编写的爬虫程序


    使用Python的requests库可以方便地编写HTTP爬虫程序。以下是一个使用requests库的示例:

    在这里插入图片描述

    import requests
    
    # 发送HTTP GET请求
    response = requests.get("http://example.com")
    
    # 检查响应状态码
    if response.status_code == 200:
        # 获取响应内容
        html = response.text
        
        # 处理响应内容
        # ...
    else:
        print("请求失败,状态码:", response.status_code)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    在这个示例中,我们首先使用requests库的get方法发送了一个HTTP GET请求,请求的URL是"http://example.com"。然后,我们通过response对象可以获取响应的状态码(status_code)和内容(text)。

    如果响应的状态码是200,表示请求成功,我们可以通过response.text获取响应的HTML内容,然后对内容进行处理。如果状态码不是200,表示请求失败,我们可以根据实际情况进行相应的处理。

    除了发送GET请求,requests库还提供了其他常用的HTTP方法,如POST、PUT、DELETE等,可以根据具体需求选择适合的方法。

    以下是使用requests库编写的另一个爬虫程序,该程序用于爬取duokan的内容。在代码中,我们使用了爬虫IP服务器。

    import requests # 导入requests库
    
    # 创建一个使用爬虫IP的session
    proxy = {'http': 'http://www.duoip.cn:8000'}
    s = requests.Session()
    s.proxies = proxy
    
    # 发送GET请求到www.duokan.com
    r = s.get('https://www.duokan.com/')
    
    # 打印请求的结果
    print(r.text)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    程序解释:

    1、导入requests库,该库用于发送HTTP请求。

    2、创建一个使用爬虫IP的session。这里的proxy是一个字典,其中http为爬虫IP服务器的地址和端口。

    3、使用session发送一个GET请求到duokan。

    4、打印请求的结果,即duokan的内容。

    此外,requests库还提供了许多其他功能,如设置请求头、处理Cookies、处理重定向、处理代理等。可以查阅requests库的官方文档以了解更多详细信息。

    总之,使用requests库可以轻松地发送HTTP请求,并获取响应的内容。通过合理地使用requests库的各种功能,可以编写出功能强大的爬虫程序。

  • 相关阅读:
    智能优化算法:法医调查优化算法 - 附代码
    国际商务谈判 简答题
    如何抓取网站的内容而不被阻止?
    大数据笔记--ELK(第一篇)
    【译】在 Visual Studio 2022 中安全地在 HTTP 请求中使用机密
    idea控制台乱码、读取cookie乱码
    PMP明天就考试了!
    squidpy 安装 pip install SpatialDE -i https://pypi.tuna.tsinghua.edu.cn/simple spatial
    低代码没有技术含量?来扒扒你所不了解的低代码
    ISO三体系认证有哪些意义和好处?
  • 原文地址:https://blog.csdn.net/weixin_44617651/article/details/134072294