码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • python爬虫中怎么写反爬虫


    1、通过UA判断:UA是UserAgent,是要求浏览器的身份标志。
    UA是UserAgent,是要求浏览器的身份标志。反爬虫机制通过判断访问要求的头部没有UA来识别爬虫,这种判断方法水平很低,通常不作为唯一的判断标准。反爬虫非常简单,可以随机数UA。
    2、通过Cookie判定:Cookie是指会员帐户密码登录验证
    Cookie是指会员帐户密码登录验证,通过区分该帐户在短时间内爬行的频率来判断。这种方法的反爬虫也很困难,需要多账户爬行。
    3、通过访问频率判定
    爬虫类经常在短时间内多次访问目标网站,反爬虫类机制可以通过单个IP访问的频率来判断是否是爬虫类。这样的反爬方式难以反制,只能通过更换IP来解决。
    4、通过验证码判定
    验证码是反爬虫性价比高的实施方案。反爬虫通常需要访问OCR验证码识别平台,或者使用TesseractOCR识别,或者使用神经网络训练识别验证码。
    5、动态性页面加载
    使用动态加载的网站通常是为了方便用户点击和查看,爬虫无法与页面互动,这大大增加了爬虫的难度。
    一般情况下,用户对网站进行信息爬取时,都要受到“爬虫”的约束,使用户在获取信息时受到一定的阻碍
    ​1、通过Headers反爬虫:
    从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。
    ​初级阶段
    1、判定User-Agent 是否正常
    2、cookie陷阱【每次请求需要携带cookie,cookie不对证明不是一个人】
    3、ip限制访问【一个ip在单位时间内只能访问多少次】
    4、如果登录的话就用户名密码呗【单位时间内访问多少次,和ip一起使用】
    5、ip访问频率快一点感觉像爬虫的给他重定向到验证码页面,图片的像12306那种恶心人的,如果这个ip没办法做或者直接断掉了,记录他断掉次数,高于多少,封ip
    6、页面标签陷阱,本该没办法直观看到的或者没办法直观点击的标签,被触发很明显不是个好人或者活人封他

  • 相关阅读:
    OSPF不规则区域
    六千字呕心沥血深度总结,为您揭秘ClickHouse为什么查询这么快!
    【第21天】SQL进阶-查询优化- performance_schema系列三:事件记录(SQL 小虚竹)
    【大数据】【Spark】Spark概述
    华为云云服务器云耀L实例评测 | 从零开始:华为云云服务器L实例使用教程
    Vue.js核心技术解析与uni-app跨平台实战开发学习笔记 第5章 Vue.js组件 5.5 Vue获取DOM元素的方法(ref)
    安卓手机APP开发__媒体开发部分__使用媒体会话对播放进行控制和加广告
    算法-贪心算法-简单-买卖股票的最佳时机
    在Linux系统中搜索当前路径及其子目录下所有PDF文件中是否包含特定字符串
    负数取余问题
  • 原文地址:https://blog.csdn.net/D0126_/article/details/128109608
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号