• XCTF1-web Robots


    场景一:Training-WWW-Robots

    进入场景,提示关于robots.txt文件
    在这里插入图片描述在这里插入图片描述
    访问robots.txt文件,目录下存在 /fl0g.php 文件,进一步访问得到flag
    在这里插入图片描述

    场景二:robots

    在这里插入图片描述
    根据题目,提示关于robots.txt协议
    访问成功,但是个空白页面,查看源码
    在这里插入图片描述
    提示flag不在这儿,结合题目访问robots.txt文件
    在这里插入图片描述
    得到一个flag有关的php文件路径,访问得到flag
    在这里插入图片描述

    robots协议

    Robots(Robots Exclusion Standard )协议,也叫机器人协议。
    	作用:告知爬虫网页上哪些内容可以爬取,哪些不行。
    	形式:在网站根目录下放置robots.txt文件。
    
    • 1
    • 2
    • 3

    robots协议:
    robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。
    但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。
    因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
    如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
    robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

    格式:
    (1)User.agent:用于描述搜索引擎爬虫的名字。在robots.txt文件中,如果有多条User-agent记录,说明有多个搜索引擎爬虫会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎爬虫均有效,在Robots.txt文件中,“User-agent:*这样的记录只能有一条。
    (2)Disallow:用于描述不希望被访问到的一个URL。这个URL可以是一条完整的路径,也可以是部分路径,任何以Disallow开头的URL均不会被Robot访问到。

    【参考链接:https://blog.csdn.net/nmk__123/article/details/124896445】

  • 相关阅读:
    【web-攻击用户】(9.5)同源策略:与浏览器扩展、HTML5、通过代理服务应用程序跨域
    C语言结构体实战---处理学生信息
    Redis集群高频问答,连夜肝出来了
    CentOS(4)——关于Linux软件下载时:amd64、x86、x86_64、arm64 的说明
    开放之光——湖北电大搜题助力学习之旅
    网站定时发文章软件
    搭建最新tensorflow 与pytorch环境
    跟羽夏学 Ghidra ——数据
    数据结构与算法-插入&希尔&归并
    2022/8/4 考试总结
  • 原文地址:https://blog.csdn.net/orchid_sea/article/details/127869794