网络爬虫是一个可以自动抓取互联网内容的程序。Python有很多库可以用来实现网络爬虫,其中最常用的是requests
(用于发送HTTP请求)和BeautifulSoup
(用于解析HTML)。
以下是一个简单的Python网络爬虫示例,该爬虫会抓取指定网页的所有标题(
标签)并打印出来:
- import requests
- from bs4 import BeautifulSoup
-
- def get_titles(url):
- # 发送HTTP请求
- response = requests.get(url)
-
- # 检查请求是否成功
- if response.status_code != 200:
- print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
- return []
-
- # 解析HTML内容
- soup = BeautifulSoup(response.text, 'html.parser')
-
- # 查找所有的
标签 - titles = soup.find_all('title')
-
- # 提取并返回标题文本
- return [title.text for title in titles]
-
- # 使用示例
- url = 'https://www.exam.....pl....e.com' # 替换为你想要爬取的网页URL
- titles = get_titles(url)
- for title in titles:
- print(title)