• HTTP初识,fiddler的使用,URL各部分介绍,QueryString


     

    目录

     

    一、什么是HTTP

    二、抓包工具

    三、请求的首行 URL

    四、URL的各部分详细介绍


    一、什么是HTTP

    现在网页上,我们常见的是https,但是在二十年前是以http为主,这个协议也叫超文本传输协议,文本->字符串,“超文本”->图片/视频

    HTTP响应:比如搜狗版的HTML,这个响应的内容,往往是一个html内容

    一个网站分为前端+后端(太多了,说不过来)

    前端:html(描述网页的结构),css(描述网页的样式),js(网页的行为,与用户的交互)vue esc就不说了

    网页上HTML,css,js都是在浏览器执行的,都是访问服务器的时候,从服务器下载到浏览器上,然后才能显示运行。其他的程序都是要先安装,才能够使用,网页是随时用随时下载。网页优势:服务器随时更新,用户就可以用上新版本

    劣势:性能比较有限,很难去有一些复杂操作。

    二、抓包工具

    抓包工具是一种代理:但是代理不仅仅是抓包工具,还有很多体现形式。

    代理客户端的叫正向代理

    代理服务器的叫反向代理

    抓包的工具有很多:wireshark(功能很丰富,但是却很复杂)

                                     fiddler抓包工具(足以应对大部分场景,而且简单方便,但是功能比上面少点,但是够用)

    1.直接搜索后安装

    有验证码,为啥有复杂的验证码,互联网上80%带宽是被爬虫消耗的。

    2.使用

    左侧,当前机器上有哪些http数据报交互(不仅能抓浏览器,而且能抓到所有程序)

    电脑程序在后台和服务器悄悄的交互(有的为了实现某种功能,有的偷拿你隐私)

    右上角是请求的详情

    右下角是响应的内容

    刚好装完fidder之后,默认只能抓到http的数据,抓到了https,抓不到https(网络上httsp是主流)所以需要稍微设置一下,让fiddler可以抓到https。

    1.点击tools->options->https勾上提示框(意思勾选有风险,一路yes)https是加密的,要显示,先解密,要信任保证书。

    开了fidder,客户端服务器http,https的请求和响应都会在fidder过一遍(但有一些东西会影响fidder正确运行)

    1.https要勾选正确

    2.有的代理程序可能和fiddler冲突,确保使用fiddler的时候关闭其他代理。

    3.有的浏览器插件,也可能和fiddler冲突

    这个是抓去搜狗主页交互过程,上面这些标签页,站在不同视角来解析请求和响应,HTTP是文本协议,IP,TCP ,UDP二进制协议

    HTTP加密后是二进制,但是我们勾选完毕就恢复成文本了。在这里我们点击row打开响应,当前http响应,经常会进行压缩(节省带宽)

    http响应的内容通常是HTML,CSS,JS

    这么看不太直观,干脆这么看

    1. GET http://www.sougou.com/HTTP 11.1. //1.首行
    2. ······
    3. Accept:text/html,application/xhtml //2.请求头
    4. //3.空行
    5. body //4.正文

    响应报文

    1. HTTP/1.1 200 ok. //1.首行
    2. Connection //2.响应头
    3. //3.空行
    4. body //4正文

    三、请求的首行 URL

    GET https://www.sogou.com/HTTP/1.1

    GET:方法

    https://www.sogou.com:URL(请求,就是客户端给服务器发起的一个数据,这里要明确指出要访问的服务器是啥,要访问的服务器资源是什么,我们在JDBC中讲过:URL是唯一资源定位符,用来描述网络上的资源的)

    HTTP/1.1 :版本号

    RFC标准文档,TCP,UDP,IP,HTTP等网络协议,RFC标准文档有更精准的细节内容

    http://user:pass@www.example.jp:80/dir/index.html?uid=1#ch1 (URL的完整细节)

    1. 简单来说
    2. 协议名://IP地址:端口号/路径?querystring ->(querystring是键值对的数据,k=uid这个东西,value则是uid等于的那个东西

    http:协议名字(协议方案名)

    user:pass@ :大部分现在这个地方是不用的,所以也不用多介绍

    www.example.jp:可以是IP地址,也可以是域名,也可是外网IP(本身唯一),也可以是内网(访问局域网中的设备)还可以是环回IP(访问自己)

    80:服务器端口号

    dir/index.html?:访问服务器上哪个资源

    uid=1:查询字符串(访问资源,带上啥样的参数)

    ch1:片段标识符 (不常见,主要文档类文件)

    这个东西就如同卖烤冷面

    http://bhu:18/烤冷面?葱花=正常&香菜=苦苦放&醋=必须多放

    ->针对访问资源进行的补充说明,查询字符串,是键值对的格式,键值对之间用&分隔,键和值之间,用&分隔,键与值之间,使用=分隔,查询字符串以?开始。

    实践上,URL来说,上述的几个部分,都是可以省略的~不是说哪个部分必须得保存,IP地址/域省略,此时相当于是访问当前服务器的地址。

    访问B站主页,必须带有bilibili主页的html这个html又回触发一些其他的http请求,这些后续触发的http请求,就可以省略ip,省略IP就相当于用bilibili一样的IP。

    四、URL的各部分详细介绍

    端口号其实也可以省略(常见),省略时,浏览器会自动加上端口(这个端口号表示的是访问目标服务器的是哪个端口)

    http:端口号80

    https:端口号443

    知名端口号:1-1024,都被一些常用的服务器(知名的老东西服务器瓜分了),因此一个网页部署于服务器的时候,往往遵守上述规则,把http绑定到8080,https绑定到443,浏览器访问你的服务器,就不必去多余指定窗口。

    其实带层次的路径也能够省略

    https://sogou.com/

    如果省略相当于访问的是/

    /称为根目录(目录是一个树形结构,根目录,就相当于树根一样,服务器提供的资源,也是类似于目录结构一样的,树形结构来组织的,有树,那么就会有树根,/就是树根->通常根节点就会对立服务器的对应主页(约定的规则)

    查询字符串也可以没有(有和没有是看我们后端程序员们决定的)

    query string中带有一些特殊符号,这些特殊符号,可能在url本身就有一定含义,就导致浏览器/服务器解析失败!(在c++中+就属于特殊符号,+是%2B,假如加号不去切换,就可能导致浏览器/服务器解析失败

    /,?,&,=,#同理,都要转换,url的encode的本质转义字符(和我们的/n还不一样这种有自己的规则)

    如:c++你好

    把转换的内容的二进制的每字节,都用十六进制表示出来,然后每字节前面加一个%

    你:十六进制是:E4BDA0

    好:十六进制是:E5A5BD

    最后会C%2B%2B%E4%BD%A0%E5%A5%BD

    经过URL的encode之后,此时querystring就不会出现特殊含义的符号,浏览器和服务器才可以正常识别~

  • 相关阅读:
    前端中blob文件流和base64的区别
    端到端自动驾驶:终局还是误区?
    JavaScript高级
    redisson有几种分布式算法
    SpringCloud & Alibaba 总结
    idea快捷键
    如何在 Linux Ubuntu 上管理用户和权限
    vue实现类目筛选功能
    【校招VIP】java语言考点之异常
    工程项目管理软件哪个好用?
  • 原文地址:https://blog.csdn.net/weixin_72953218/article/details/133324451