【爬虫】python爬虫爬取网站页面（基础讲解）

【爬虫】python爬虫爬取网站页面（基础讲解）
👉博__主👈：米码收割机
👉技__能👈：C++/Python语言
👉公众号👈：测试开发自动化【获取源码+商业合作】
👉荣__誉👈：阿里云博客专家博主、51CTO技术博主
👉专__注👈：专注主流机器人、人工智能等相关领域的开发、测试技术。
爬虫（框架）爬取网站页面
目录

爬虫（框架）爬取网站页面
爬虫（框架）爬取网站页面
1. 导入必要的库
2. 获取网页内容
3. 使用BeautifulSoup解析HTML
4. 数据提取
5. 异常处理
6. 避免被封禁
完整代码示例：

注意事项
爬虫（框架）爬取网站页面

 1. 导入必要的库
```
import requests
from bs4 import BeautifulSoup
1
2
```
- requests库用于发送HTTP请求以获取网页内容。
- BeautifulSoup库用于解析HTML内容并提取我们需要的信息。
2. 获取网页内容

我们首先要使用requests库获取页面的HTML内容。
```
url = 'https://example.com/articles'
response = requests.get(url)
html_content = response.content
1
2
3
```
3. 使用BeautifulSoup解析HTML

将获取到的HTML内容传递给BeautifulSoup，这样我们就可以用它来解析页面了。
```
soup = BeautifulSoup(html_content, 'html.parser')
1
```
4. 数据提取

这完全取决于你想从页面中提取哪些信息。假设我们要提取所有文章标题和链接：
```
articles = soup.find_all('div', class_='article')  # 假设每篇文章都包含在一个class为'article'的div标签内

for article in articles:
    title = article.find('h2').text
    link = article.find('a')['href']
    print(title, link)
1
2
3
4
5
6
```
5. 异常处理

在爬取网站时可能会遇到各种问题，如网络问题、页面不存在等。我们需要添加一些异常处理来确保爬虫的稳定性。
```
try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()  # 如果响应状态不是200，则引发异常
except requests.RequestException as e:
    print(f"Error fetching the url: {url}. Reason: {e}")
1
2
3
4
5
```
6. 避免被封禁

当连续并频繁请求某个网站时，可能会被封禁。你可以使用以下策略避免这种情况：
1. 设置User-Agent：伪装成真正的浏览器。
2. 设置延迟：在连续的请求之间设置延迟，例如使用time.sleep(5)延迟5秒。
3. 使用代理：使用不同的IP地址来发送请求。
完整代码示例：
```
import requests
from bs4 import BeautifulSoup
import time

url = 'https://example.com/articles'  # 换成你的网站

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
    soup = BeautifulSoup(response.content, 'html.parser')

    articles = soup.find_all('div', class_='article')

    for article in articles:
        title = article.find('h2').text
        link = article.find('a')['href']
        print(title, link)
        time.sleep(5)  # 每抓取一个页面后，暂停5秒

except requests.RequestException as e:
    print(f"Error fetching the url: {url}. Reason: {e}")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
```
注意事项

注意：在运行爬虫之前，你应该：
1. 检查目标网站的robots.txt文件，了解哪些页面允许爬取。
2. 不要频繁地请求网站，这可能会被视为DDoS攻击。
3. 确保你有权爬取和使用目标数据。
4. 考虑网站的负载，不要对网站造成不必要的压力。
5. 有时候，使用API是获取数据的更好方法，许多网站提供API来获取数据，而不是直接爬取。
相关阅读:
bp神经网络解决什么问题,bp神经网络的改进方法
 AI绘画：StableDiffusion实操教程-斗破苍穹-云韵-婚服（附高清图下载）
最短路径问题
 Servlet---上传文件
 深度学习乳腺癌分类计算机竞赛
 jenkins springCloud项目优雅下线
 Linux系统之安装uptime-kuma服务器监控面板
 基于JAVA图书馆座位预约系统计算机毕业设计源码+数据库+lw文档+系统+部署
 屏蔽bing搜索框的今日热点
 【入门级小游戏】C语言数组函数：解析三（N）子棋
原文地址：https://blog.csdn.net/weixin_44244190/article/details/133809079

爬虫（框架）爬取网站页面

目录

爬虫（框架）爬取网站页面

1. 导入必要的库

2. 获取网页内容

3. 使用BeautifulSoup解析HTML

4. 数据提取

5. 异常处理

6. 避免被封禁

完整代码示例：

注意事项