码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 爬虫数据是如何收集和整理的?


    有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的,今天就更大家来揭秘爬虫数据是如何收集整理的。

    通过查询 IP 地址来获得 rDNS 方式

    我们可以通过爬虫的 IP 地址来反向查询 rDNS,例如:我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为:baiduspider-116-179-32-160.crawl.baidu.com

    从上面大致可以判断应该是百度搜索引擎蜘蛛。由于 Hostname 可以伪造,所以我们只有反向查找,仍然不准确。我们还需要正向查找,我们通过 ping 命令查找 baiduspider-116-179-32-160.crawl.baidu.com 能否被解析为:116.179.32.160,通过下图可以看出 baiduspider-116-179-32-160.crawl.baidu.com 被解析为 116.179.32.160 的 IP 地址,说明是百度搜索引擎爬虫确信无疑。

    通过 ASN 相关信息查找

    并不是所有爬虫都遵守上面的规定,大部分爬虫反向查找没有任何结果,我们需要查询 IP 地址的 ASN 信息来判断爬虫信息是不是正确。

    例如:这个 IP 是 74.119.118.20,我们通过查询 IP 信息可以看到这个 IP 地址是美国加利福尼亚桑尼维尔的 IP 地址。

    通过 ASN 信息我们可以看出来他是 Criteo Corp. 公司的 IP。

    上面的截图是通过日志记录查看到 critieo crawler 的记录信息,黄色部分是它的 User-agent ,后面是它的 IP,这条记录也没有什么问题(这个 IP 的确是 CriteoBot 的 IP 地址)。

    通过爬虫的官方文档公布的 IP 地址段

    有一些爬虫会公布 IP 地址段,我们会将官方公布的爬虫 IP 地址段直接保存到数据库,这是一种既简单又快捷的方法。

    通过公开日志

    我们经常可以在互联网上查看到公开日志,例如下图就是我找到的公开日志记录:

    我们可以对日志记录进行解析,根据 User-agent 来判断那些是爬虫,那些是访客,极大的丰富了我们的爬虫记录数据库。

    总结

    通过以上四个方式详细说明了爬虫识别网站是如何收集和整理爬虫数据的,同时如何确保爬虫数据的准确可靠,当然在实际操作过程中不仅仅是以上四种方法,不过都使用的比较少,所以在此处也不做介绍。

  • 相关阅读:
    Dropdown 下拉菜单实现标签页的相关操作
    分治算法——快排 | 归并思想
    dropout 机制存在,对于同一句子的两次输出是不同的
    快速记忆23种设计模式
    虚拟化+docker基本概念以及安装部署
    Cocos2dx 安装运行
    智能城市环境中的医疗物联网:基于量子同态加密的医疗成像架构(Idea)
    1 Go的前世今生
    rpm包管理工具(常用命令)
    封装, 继承, 多态详解
  • 原文地址:https://blog.csdn.net/oHuangBing/article/details/126016712
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号