基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】

基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】
scrapyd部署爬虫

Scrapyd 是一个基于 Scrapy 的开源项目，它提供了一个简单的方式来部署、运行和监控 Scrapy 爬虫。它是一个用于集成 Scrapy 爬虫到分布式架构中的工具，允许您在分布式环境中运行爬虫，并提供了一组 Web API，用于管理和监控爬虫的部署和运行。
Scrapyd 的主要功能和特点包括：
1. 部署爬虫： Scrapyd 允许用户将 Scrapy 爬虫部署到远程服务器，而不必手动在每台服务器上安装和配置爬虫。
2. 运行爬虫：您可以使用 Scrapyd 启动、停止和监控远程服务器上的爬虫。
3. Web API： Scrapyd 提供了一组 Web API，使您能够通过 HTTP 请求进行爬虫管理和监控，包括部署新版本、运行爬虫、检查运行状态等。
Scrapyd 对于需要在分布式环境中运行 Scrapy 爬虫的项目非常有用，因为它简化了部署和管理的流程，同时提供了对爬虫状态的监控和控制。

安装与启动部署节点
1. 安装 Scrapyd：
  首先，您需要确保已经安装了 Python 和 pip。然后使用 pip 安装 Scrapyd：
```
pip install scrapyd
1
```
1. 启动 Scrapyd 服务器：
  要在服务器上启动 Scrapyd，只需运行以下命令：
```
scrapyd
1
```
1. 修改默认配置，使scrapyd公开访问【后面部署多台机器需要添加此配置】
  在当前运行目录添加文件scrapyd.conf 文件，写入以下内容
```
bind_address = 0.0.0.0
http_port = 6800
1
2
```
重新启动，并注意防火墙设置，即可在公开网络内访问到。

Gerapy管理scrapyd节点，部署爬虫

Gerapy 是一个分布式爬虫管理框架，用于帮助开发人员创建、调度和监控爬虫。
1. 安装 Gerapy：你可以使用 pip 安装 Gerapy。
```
pip install gerapy
1
```
2. 初始化工作目录
```
gerapy init
1
```
3. 初始化数据库
```
gerapy migrate
1
```
4. 生成管理账号【账号与密码都为admin】
```
gerapy initadmin
1
```
5. 启动gerapy服务
```
gerapy runserver
1
```
6. 登录本地8000端口，访问gerapy服务
7. 点击主机管理右边的创建主机，填写正在运行的scrapyd主机，点击认证与创建，即可链接scrapyd任务节点
相关阅读:
【SpringCloud原理】Ribbon核心组件以及运行原理万字源码剖析
 Java开发之高并发必备篇（二）——线程为什么会不安全？
程序设计部分动态规划习题
 【云原生之k8s】k8s之持久化存储PV、PVC
java毕业设计大众点评管理系统Mybatis+系统+数据库+调试部署
 【owt】p2p client mfc 工程梳理
 QMake中的预变量和库链接方式
 TreeMap排序探寻
 csv文件用excel打开乱码
 labelme做标注
原文地址：https://blog.csdn.net/Jesse_Kyrie/article/details/133882639

scrapyd部署爬虫

安装与启动部署节点

Gerapy管理scrapyd节点，部署爬虫