python爬虫之正则表达式解析实战

文章目录

- 1. 图片爬取流程分析
- 2. 实现代码—爬取家常菜图片

1. 图片爬取流程分析

先获取网址，URL：https://www.xiachufang.com/category/40076/
定位想要爬取的内容
使用正则表达式爬取
导入模块
指定URL
UA伪装（模拟浏览器）
发起请求，获取当前页面的数据内容，并使用通用爬虫爬取整个页面
编译正则表达式（提取想要的内容）
解析请求内容
指定图片存储路径
持久化存储

2. 实现代码—爬取家常菜图片

# 导入模块
import ssl
import os
import re
import requests
if __name__ == '__main__':
    # 创建一个文件夹，保存所有的图片
    if not os.path.exists('./caipu/'):
        os.mkdir('./caipu/')
    # 指定URL
    url = 'https://www.xiachufang.com/category/40076/'
    # 模拟浏览器
    headers = {
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
    }
    # 使用通用爬虫对URL对应的一整个页面进行爬取，并获取响应数据
    page_text = requests.get(url=url, headers=headers).text

    # 编译正则表达式
    # re.compile()方法将正则表达式编译成一个对象，可以通过调用它的方法来对文本进行匹配操作。
    data_src_list = re.compile('data-src="(.*?)" width=')
    # 解析图片链接
    # findall()：查找字符串中所有满足正则表达式的字符串，以列表的形式返回。
    data_src_url = data_src_list.findall(page_text)
    # print(data_src_url)

    for src in data_src_url:
        # 请求到图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content
        # 生成图片名称
        # 由于http://xxxx.jsp后面带有问号，所以将其进行切片
        img_name = src.split('/')[-10].split('?')[0]
        # print(img_name)
        # 指定图片存储的路径
        imgPath = './caipu/'+img_name
        # 持久化存储
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name, "下载成功！！！")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

相关阅读:
Docker下安装RabbitMQ及使用
5、MySQL——修改表结构、DQL（查询操作）、条件查询
Mysql数据库
展览模型一般怎么打灯vray---模大狮模型网
Folium 笔记：使用PopUp突出subzone的空间分布
[山东科技大学OJ]1897 Problem E: 编写函数：递归的字符串回文 (Append Code)
SpringBoot 整合【MybatisPlus、Shiro】实现权限认证信息
JS请求参数加密破解
【Conda】常用命令
腾讯云数据库SaaS致力于构建数据库分布式云，为更多更广的用户提供服务

原文地址：https://blog.csdn.net/jiangxiuying06/article/details/134035354