• python爬虫中怎么写反爬虫


    1、通过UA判断:UA是UserAgent,是要求浏览器的身份标志。
    UA是UserAgent,是要求浏览器的身份标志。反爬虫机制通过判断访问要求的头部没有UA来识别爬虫,这种判断方法水平很低,通常不作为唯一的判断标准。反爬虫非常简单,可以随机数UA。
    2、通过Cookie判定:Cookie是指会员帐户密码登录验证
    Cookie是指会员帐户密码登录验证,通过区分该帐户在短时间内爬行的频率来判断。这种方法的反爬虫也很困难,需要多账户爬行。
    3、通过访问频率判定
    爬虫类经常在短时间内多次访问目标网站,反爬虫类机制可以通过单个IP访问的频率来判断是否是爬虫类。这样的反爬方式难以反制,只能通过更换IP来解决。
    4、通过验证码判定
    验证码是反爬虫性价比高的实施方案。反爬虫通常需要访问OCR验证码识别平台,或者使用TesseractOCR识别,或者使用神经网络训练识别验证码。
    5、动态性页面加载
    使用动态加载的网站通常是为了方便用户点击和查看,爬虫无法与页面互动,这大大增加了爬虫的难度。
    一般情况下,用户对网站进行信息爬取时,都要受到“爬虫”的约束,使用户在获取信息时受到一定的阻碍
    ​1、通过Headers反爬虫:
    从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。
    ​初级阶段
    1、判定User-Agent 是否正常
    2、cookie陷阱【每次请求需要携带cookie,cookie不对证明不是一个人】
    3、ip限制访问【一个ip在单位时间内只能访问多少次】
    4、如果登录的话就用户名密码呗【单位时间内访问多少次,和ip一起使用】
    5、ip访问频率快一点感觉像爬虫的给他重定向到验证码页面,图片的像12306那种恶心人的,如果这个ip没办法做或者直接断掉了,记录他断掉次数,高于多少,封ip
    6、页面标签陷阱,本该没办法直观看到的或者没办法直观点击的标签,被触发很明显不是个好人或者活人封他

  • 相关阅读:
    MySQL 8.0.35 企业版比社区版性能高出 25%?
    Visual studio2019 配置使用pthread
    Jmeter 如何做性能测试生成聚合HTML报告?
    数据结构:顺序表
    rsync+inotify实时同步+双向同步
    【JavaEE重点知识归纳】第10节:Object类和String类
    CCF CSP 201312-3 最大的矩形 题解
    LeetCode(15)分发糖果【数组/字符串】【困难】
    GB28181,sdk,设备集成和平台测试
    Mysql索引
  • 原文地址:https://blog.csdn.net/D0126_/article/details/128109608