通过requests库使用HTTP编写的爬虫程序

使用Python的requests库可以方便地编写HTTP爬虫程序。以下是一个使用requests库的示例：

在这里插入图片描述

import requests

# 发送HTTP GET请求
response = requests.get("http://example.com")

# 检查响应状态码
if response.status_code == 200:
    # 获取响应内容
    html = response.text
    
    # 处理响应内容
    # ...
else:
    print("请求失败，状态码：", response.status_code)
1
2
3
4
5
6
7
8
9
10
11
12
13
14

在这个示例中，我们首先使用requests库的get方法发送了一个HTTP GET请求，请求的URL是"http://example.com"。然后，我们通过response对象可以获取响应的状态码（status_code）和内容（text）。

如果响应的状态码是200，表示请求成功，我们可以通过response.text获取响应的HTML内容，然后对内容进行处理。如果状态码不是200，表示请求失败，我们可以根据实际情况进行相应的处理。

除了发送GET请求，requests库还提供了其他常用的HTTP方法，如POST、PUT、DELETE等，可以根据具体需求选择适合的方法。

以下是使用requests库编写的另一个爬虫程序，该程序用于爬取duokan的内容。在代码中，我们使用了爬虫IP服务器。

import requests # 导入requests库

# 创建一个使用爬虫IP的session
proxy = {'http': 'http://www.duoip.cn:8000'}
s = requests.Session()
s.proxies = proxy

# 发送GET请求到www.duokan.com
r = s.get('https://www.duokan.com/')

# 打印请求的结果
print(r.text)
1
2
3
4
5
6
7
8
9
10
11
12

程序解释：

1、导入requests库，该库用于发送HTTP请求。

2、创建一个使用爬虫IP的session。这里的proxy是一个字典，其中http为爬虫IP服务器的地址和端口。

3、使用session发送一个GET请求到duokan。

4、打印请求的结果，即duokan的内容。

此外，requests库还提供了许多其他功能，如设置请求头、处理Cookies、处理重定向、处理代理等。可以查阅requests库的官方文档以了解更多详细信息。

总之，使用requests库可以轻松地发送HTTP请求，并获取响应的内容。通过合理地使用requests库的各种功能，可以编写出功能强大的爬虫程序。

相关阅读:
智能优化算法：法医调查优化算法 - 附代码
国际商务谈判简答题
如何抓取网站的内容而不被阻止？
大数据笔记--ELK（第一篇）
【译】在 Visual Studio 2022 中安全地在 HTTP 请求中使用机密
idea控制台乱码、读取cookie乱码
PMP明天就考试了！
squidpy 安装 pip install SpatialDE -i https://pypi.tuna.tsinghua.edu.cn/simple spatial
低代码没有技术含量？来扒扒你所不了解的低代码
ISO三体系认证有哪些意义和好处？

原文地址：https://blog.csdn.net/weixin_44617651/article/details/134072294