如何提高爬虫效率

提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。
多进程。使用CPU的多个核，使用几个核就能提高几倍。
多线程。将任务分成多个，并发（交替）的执行。
分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。
打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。
其他。比如，使用网速好的网络等等。
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。
限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。
ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用time.sleep()来对爬虫的速度进行限制

如何吸引爬虫的抓取四个方面：第一，页面的更新度，如果页面内容经常更新，爬虫就会更加频繁地访问你的页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。
第二，网站和页面权重，质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。
第三，首页点击距离，一般来说网站上权重最高的是首页，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。
第四，导入链接，无论是外部链接还是同一个网站的内部链接，要被抓取，就必须有导入链接进入页面，否则根本没有机会知道页面的存在。

相关阅读:
APIAuto——敏捷开发最强大易用的 HTTP 接口工具（二）
Unity3d框架搭建使用类对象池技术优化 C#语言 GC
jsp+ssm二手车交易管理系统毕业设计-附源码151159
JeeSite快速开发平台 JNPF快速开发平台3.3版本框架源码部署文档入门说明
高可用技术
实验二: 密码恢复
Numpy：打开通往高效数值计算的大门
金仓数据库KingbaseES客户端应用参考手册--5. dropdb
mysql连接不上可能的原因：防火墙放行mysql的3306端口全库复制：data目录替换即可 mysql查看版本
Activiti审批流

原文地址：https://blog.csdn.net/D0126_/article/details/128181283