python爬虫学习第二十八天-------了解scrapy（二十八天）

python爬虫学习第二十八天-------了解scrapy（二十八天）
🎈🎈作者主页：喔的嘛呀🎈🎈
🎈🎈所属专栏：python爬虫学习🎈🎈
✨✨谢谢大家捧场，祝屏幕前的小伙伴们每天都有好运相伴左右，一定要天天开心哦！✨✨

hello，兄弟姐妹们！我是喔的嘛呀。今天我们首先来了解scrapy。为后面的学习打下基础。

一、scrapy是什么？

Scrapy 是一个用于爬取网站数据并提取结构化信息的强大 Python 框架。它可以帮助开发人员快速、高效地构建网络爬虫，从而自动化地从网页中提取所需数据。Scrapy 提供了一套完整的工具和组件，包括用于定义爬取规则的 Spider、用于提取数据的选择器（Selectors）、用于处理数据的管道（Pipeline）等，使得爬虫开发变得简单且高效。Scrapy 还支持异步处理和并发请求，可以处理复杂的爬取任务，并提供了命令行工具和调试工具，方便开发人员进行调试和监控。Scrapy 在数据挖掘、信息收集、监测和自动化测试等领域都有广泛的应用。

二、工作原理和重要功能

工作原理：
1. 引擎（Engine）：是 Scrapy 的核心，负责调度整个爬取流程的执行。
2. 调度器（Scheduler）：接收引擎发来的请求，并根据一定的策略进行调度，以确保合理高效地使用网络和系统资源。
3. 下载器（Downloader）：负责下载网页并将响应传递给 Spider。
4. Spider：定义了如何抓取某个网站的规则，包括如何开始抓取以及如何跟踪链接等。
5. Item Pipeline：负责处理爬取到的数据，可以进行数据清洗、验证、存储等操作。
6. Downloader Middleware：介于引擎和下载器之间的一层组件，可以修改请求和响应，例如添加代理、设置 User-Agent 等。
7. Spider Middleware：介于引擎和 Spider 之间的一层组件，用于处理 Spider 的输入和输出。
主要功能：
1. Spider：定义了如何爬取某个（些）网站的规则，包括起始URL、如何跟踪链接、如何解析页面等。
2. Selector：用于从页面中提取数据的工具，支持 XPath 和 CSS 选择器。
3. Item：表示从网页中提取的数据，类似于字典或数据库表的行。
4. Pipeline：负责处理爬取到的数据，可以进行数据清洗、去重、验证、存储等操作。
5. Downloader Middleware：用于在下载器处理请求和响应的过程中进行额外的操作，比如修改请求头、处理代理等。
6. Spider Middleware：对 Spider 的输出（Item 和 Request）进行处理的组件，可以对请求和响应进行预处理或后处理。
7. Scrapy Shell：交互式 shell 环境，用于测试和调试 XPath 或 CSS 选择器表达式。
8. 命令行工具：用于运行爬虫、检查爬取结果等，例如 scrapy crawl spider_name。
三、工作流程

Scrapy 的工作流程可以简要地描述为以下几个步骤：
1. 启动爬虫：
  - 使用命令行工具或代码启动 Scrapy 爬虫。
2. 引擎调度请求：
  - 引擎接收到启动爬虫的命令后，会根据 Spider 的配置和规则生成初始请求，并将请求交给调度器。
3. 调度器管理请求队列：
  - 调度器会根据一定的策略管理请求队列，确保请求按照合理的顺序被发送给下载器。
4. 下载器下载网页：
  - 下载器接收到调度器发送的请求后，会下载对应的网页内容，并将下载到的响应返回给引擎。
5. 引擎将响应发送给 Spider：
  - 引擎接收到下载器返回的响应后，会将响应发送给对应的 Spider 进行处理。
6. Spider 解析响应：
  - Spider 接收到响应后，会根据预先定义的规则，解析网页内容，提取需要的数据，并生成新的 Item 对象。
7. Item 被发送到 Item Pipeline：
  - Spider 将解析得到的 Item 对象发送到 Item Pipeline 进行处理，包括数据清洗、验证、存储等操作。
8. 数据存储：
  - Item Pipeline 将处理后的数据存储到指定的数据存储介质（如数据库、文件等）中。
9. Spider 继续爬取：
  - Spider 可能会继续根据规则跟踪链接，生成新的请求，并重复上述流程，直到没有新的请求或达到停止条件。
10. 爬虫关闭：
  - 当爬取结束时，Spider 可能会发送信号给引擎，引擎收到信号后关闭爬虫。
这就是 Scrapy 的基本工作流程。通过这个流程，Scrapy 能够高效地从网页中提取数据，并进行处理和存储，实现了一个完整的网络爬虫功能。

介绍完了scrapy相信你对它已经有了一定的了解。不要着急，后面我会详细解析scrapy的知识点。那今天的学习就到这里了，我们明天再见啦。要天天开心！
相关阅读:
【校招VIP】前端项目开发之正则表达
 让AI拥有人类的价值观，和让AI拥有人类智能同样重要
 C++服务端消息处理流程
 Flask框架——Flask-Mail邮件
 数据结构（5）树形结构——二叉搜索树（JAVA代码实现）
mysql5.7 源码安装
 web缓存—Squid代理服务
 将多个EXCEL 合并一个EXCEL多个sheet
代码随想录62——额外题目【数组】：189轮转数组、724寻找数组的中心下标、922按奇偶排序数组II
20231026_java基础_设计模式
原文地址：https://blog.csdn.net/2201_75809246/article/details/138141977

工作原理：

主要功能：