码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 如何提高爬虫效率


    提高爬虫效率的方法
    协程。采用协程,让多个爬虫一起工作,可以大幅度提高效率。
    多进程。使用CPU的多个核,使用几个核就能提高几倍。
    多线程。将任务分成多个,并发(交替)的执行。
    分布式爬虫。让多个设备去跑同一个项目,效率也能大幅提升。
    打包技术。可以将python文件打包成可执行的exe文件,让其在后台执行即可。
    其他。比如,使用网速好的网络等等。
    限制请求头,即request header。解决方法:我们可以填写user-agent声明自己的身份,有时还要去填写origin和referer声明请求的来源。
    限制登录,即不登录就不能访问。解决方法:我们可以使用cookies和session的知识去模拟登录。

    复杂的交互,比如设置“验证码”来阻拦登录。这就比较难做,解决方法1:我们用Selenium去手动输入验证码;方法2:我们用一些图像处理的库自动识别验证码(tesserocr/pytesserart/pillow)。
    ip限制。如果这个IP地址,爬取网站频次太高,那么服务器就会暂时封掉来自这个IP地址的请求。 解决方法:使用time.sleep()来对爬虫的速度进行限制

    如何吸引爬虫的抓取四个方面:第一,页面的更新度,如果页面内容经常更新,爬虫就会更加频繁地访问你的页面,页面上出现的新链接,也自然会被蜘蛛更快地跟踪,抓取新页面。
    第二,网站和页面权重,质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。
    第三,首页点击距离,一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。
    第四,导入链接,无论是外部链接还是同一个网站的内部链接,要被抓取,就必须有导入链接进入页面,否则根本没有机会知道页面的存在。

  • 相关阅读:
    APIAuto——敏捷开发最强大易用的 HTTP 接口工具 (二)
    Unity3d框架搭建 使用 类对象池技术 优化 C#语言 GC
    jsp+ssm二手车交易管理系统 毕业设计-附源码151159
    JeeSite快速开发平台 JNPF快速开发平台3.3版本 框架源码部署文档入门说明
    高可用技术
    实验二: 密码恢复
    Numpy:打开通往高效数值计算的大门
    金仓数据库KingbaseES客户端应用参考手册--5. dropdb
    mysql连接不上可能的原因:防火墙放行mysql的3306端口 全库复制:data目录替换即可 mysql查看版本
    Activiti审批流
  • 原文地址:https://blog.csdn.net/D0126_/article/details/128181283
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号