Scrapyd 是一个基于 Scrapy 的开源项目,它提供了一个简单的方式来部署、运行和监控 Scrapy 爬虫。它是一个用于集成 Scrapy 爬虫到分布式架构中的工具,允许您在分布式环境中运行爬虫,并提供了一组 Web API,用于管理和监控爬虫的部署和运行。
Scrapyd 的主要功能和特点包括:
Scrapyd 对于需要在分布式环境中运行 Scrapy 爬虫的项目非常有用,因为它简化了部署和管理的流程,同时提供了对爬虫状态的监控和控制。
pip install scrapyd
scrapyd
bind_address = 0.0.0.0
http_port = 6800
重新启动,并注意防火墙设置,即可在公开网络内访问到。
Gerapy 是一个分布式爬虫管理框架,用于帮助开发人员创建、调度和监控爬虫。
安装 Gerapy: 你可以使用 pip 安装 Gerapy。
pip install gerapy
初始化工作目录
gerapy init
初始化数据库
gerapy migrate
生成管理账号【账号与密码都为admin】
gerapy initadmin
启动gerapy服务
gerapy runserver
登录本地8000端口,访问gerapy服务
点击主机管理右边的创建主机,填写正在运行的scrapyd主机,点击认证与创建,即可链接scrapyd任务节点