• 如何提高爬虫效率


    提高爬虫效率的方法
    协程。采用协程,让多个爬虫一起工作,可以大幅度提高效率。
    多进程。使用CPU的多个核,使用几个核就能提高几倍。
    多线程。将任务分成多个,并发(交替)的执行。
    分布式爬虫。让多个设备去跑同一个项目,效率也能大幅提升。
    打包技术。可以将python文件打包成可执行的exe文件,让其在后台执行即可。
    其他。比如,使用网速好的网络等等。
    限制请求头,即request header。解决方法:我们可以填写user-agent声明自己的身份,有时还要去填写origin和referer声明请求的来源。
    限制登录,即不登录就不能访问。解决方法:我们可以使用cookies和session的知识去模拟登录。

    复杂的交互,比如设置“验证码”来阻拦登录。这就比较难做,解决方法1:我们用Selenium去手动输入验证码;方法2:我们用一些图像处理的库自动识别验证码(tesserocr/pytesserart/pillow)。
    ip限制。如果这个IP地址,爬取网站频次太高,那么服务器就会暂时封掉来自这个IP地址的请求。 解决方法:使用time.sleep()来对爬虫的速度进行限制

    如何吸引爬虫的抓取四个方面:第一,页面的更新度,如果页面内容经常更新,爬虫就会更加频繁地访问你的页面,页面上出现的新链接,也自然会被蜘蛛更快地跟踪,抓取新页面。
    第二,网站和页面权重,质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。
    第三,首页点击距离,一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。
    第四,导入链接,无论是外部链接还是同一个网站的内部链接,要被抓取,就必须有导入链接进入页面,否则根本没有机会知道页面的存在。

  • 相关阅读:
    Linux 权限管理
    Sympy-nonlinsolve-只保留实数解问题
    vue3.x项目图书兄弟项目上遇到的问题及解决办法的记录
    数据结构与算法是什么?
    为什么阿里Java开发手册不推荐使用Timestamp
    电脑入门:CPU显示100%该如何处理
    解决防火墙导致虚拟机不能ping通宿主机的问题
    CPDA|对招聘HR来说,会数据分析有多香?
    【数据结构】测试7 图
    二叉搜索树(Binary Search Tree,BST)
  • 原文地址:https://blog.csdn.net/D0126_/article/details/128181283