• 计算机网络第2章-HTTP和Web协议(2)


    Web和HTTP

    一个新型应用即万维网(World Wide Web)Web。

    HTTP概况

    Web的应用层协议是超文本传输协议(HTTP),它是Web的核心

    HTTP由两个程序实现:一个用户程序和一个服务器程序。

    Web页面(Web Page)(也叫文档)是由对象组成的。

    一个对象只是一个文件,诸如一个HTML文件、一个JPG图形等等。

    并且它们可以通过一个URL地址寻址。

    多数Web页面含有一个HTML基本文件以及几个引用对象。

    每个URL地址由两部分组成:存放对象的服务器主机名和对象的路径名。

    例如,URL地址:http://www.someSchool.edu/someDepartment/picture.gif,其中的www.someSchool.edu就是主机名,/somDepartment/picture.gif就是路径名。

    因为Web浏览器实现了HTTP的客户端,Web服务器实现了HTTP的服务器端,用于存储Web对象。

    HTTP定义了Web客户向Web服务器请求Web页面的方式,以及服务器向客户发送Web页面的方式。

    HTTP使用TCP作为它的支撑运输协议(而不是在UDP上运行)。

    客户端的套接字接口是客户进程与TCP连接之间的门,在服务器端的套接字接口则是服务器进程与TCP连接之间的门。

    客户向它的套接字接口发送HTTP请求报文并从套接字接口接受HTTP响应报文。

    服务器也同理。

    因此HTTP协议不用担心数据丢失,也不关注TCP从网络的数据丢失和乱序故障中恢复的细节,那是TCP的工作。

    HTTP也是一个无状态协议,因为HTTP服务器并不保存关于客户的任何信息,因此某个客户短短几秒内两次请求同一个对象,服务器不会因为刚刚为客户端提供了一次对象就不做出反应了,而是重新发送对象。

    非持续连接和持续连接

    持续连接所有的请求/响应对是经过一个相同的、单独的TCP连接发送。

    非持续连接每个请求/响应对分别有一个不同于其它的、单独的TCP连接发送,并且在完成一次请求/响应后,会关闭该TCP连接。

    HTTP默认方式下使用持续连接,但是也可以配置成为非持续连接。

    采用非持续链接的HTTP

    1.HTTP客户进程在端口号80发起一个到服务器www.someSchool.edu的TCP连接。

    该端口号是HTTP的默认端口。

    2.HTTP客户经它的套接字向该服务器发送一个HTTP请求报文。(报文中包含了路径名/someDepartment/home.index)

    3.HTTP服务器进程经它的套接字接受请求报文,并从存储器(RAM或磁盘)中检索出对象(home.index),随后在一个HTTP响应报文中封装对象,并通过其套接字向客户端发送响应报文。

    4.HTTP服务器进程通知TCP断开该TCP连接,但是实际到客户端接收到响应报文后,该TCP连接才会关闭。

    5.HTTP客户接受响应报文,TCP连接关闭。

    6.对每个引用的JPEG图形对象重复前四个步骤。

    往返时间的定义(RTT):

    该时间是指一个短分组从客户端到服务器端再到客户端的时间。

    RTT包括:分组传播时延、分组在中间路由器和交换机上的排队时延、处理时延。

    采用持续连接的HTTP

    在持续连接下,服务器在发送响应报文后保持TCP连接的打开。

    在后续相同的客户与服务器之间,后续的请求和响应报文可以继续在该TCP连接中进行。

    如果一条连接经过一定时间间隔仍未被使用,HTTP服务器会被关闭该TCP连接。

    HTTP报文格式

    HTTP报文有两种:

    请求报文响应报文

    HTTP请求报文

    HTTP请求报文的第一行叫请求行,其后继的所有行都被称为首部行。

    请求行有三个字段:方法字段、URL字段、HTTP协议版本字段。

    方法字段可以取不同的值,包括GET、POST、HEAD、PUT、DELETE

    绝大部分的HTTP请求报文使用GET方法。

    意思是请求一个对象。

    下面是一个请求报文的通用格式:

    此处的实体体(entity body)在POST方法时会用到该实体,在GET中用不到。

    当用户提交表单时,HTTP客户常常使用POST方法

    当然,用户提交表单的时候也可以不用POST方法,转用GET方法,此时的表单字段中所请求的URL中包括了输入的数据。

    例如:一个表单使用GET方法,它有两个字段:“monkeys”和“bananas”这样,该URL结构为:

    www.somsites.com/animalsearch? monkey&bananas

    HEAD方法类似于GET方法,使用HEAD方法,服务器仅仅返回一个HTTP报文进行响应,并不返回请求对象,因此常常被程序开发者用来测试跟踪。

    PUT方法常常与Web发行工具联合使用,它允许用户上传对象到指定的Web服务器上的指定目录。

    DELETE方法允许用户删除Web服务器指定对象。

    HTTP响应报文

    下面是一个典型的HTTP响应报文。

    它包含了三个部分:

    初始状态行、首部行、实体体。

    实体体在响应报文中是主要组成部分,即它包含了所请求的对象本身。

    Connetction : clost代表发送报文后将关闭TCP连接。

    下面是一个HTTP响应报文的通用格式。

    下面是常见的状态码和短语。

    用户与服务器的交互:cookie

    cookie用来让web服务器识别到用户身份。

    cookie技术有四个组件:

    1.在HTTP响应报文中的一个cookie首部行。

    2.在HTTP请求报文中的一个cookie首部行。

    3.在用户端系统中保留一个cookie文件,由浏览器管理。

    4.位于Web站点的一个后端数据库中。

    下图是一个cookie工作过程。

    Web缓存

    Web缓存器也叫代理服务器。

    Web缓存器有自己的磁盘存储空间。

    在请求对象经过Web缓存器一般是以下情况:

    1.浏览器创建一个到Web缓存器的TCP连接,并且向该Web缓存器发送一个HTTP请求。

    2.Web缓存器进行检查,如果有浏览器所请求的对象,那么直接返回,否则Web缓存器建立一个到Web服务器的TCP连接,并且向Web服务器发送一个HTTP请求。

    3.Web服务器接收到HTTP请求,向Web缓存器发送响应报文,并且关闭TCP连接。

    4.Web缓存器接收到响应报文,并把其中的对象保存到本地磁盘中,随后将对象发送给浏览器,并且关闭TCP连接。

    值得注意的是,Web缓存器既是客户又是服务器。

    下面我们通过一个例子来加深对于Web缓存器设立的必要性,以及好处

    我们假设对象的平均长度为1Mb,浏览器每秒发送15个请求,在因特哇那个接入链路一侧的路由器转发HTTP请求报文开始,到它接收响应报文我们硬性规定为2s。

    此时局域网上的流量强度为:

    接入链路上的流量强度为:

    流量强度接近1,链路上的时延就会变得非常大并且无穷大的增长。

    为此有两个解决方法:

    1.更换更快的接入链路,但是成本非常昂贵。

    2.使用Web缓存器,我们下面讨论使用Web缓存器。

    假设缓存器满足请求的比率为0.4。

    则40%的请求会立即被缓存器返回,只剩下60%的请求会经过15Mbps接入链路。

    流量强度为:

    1 × 0.6 = 0.6

    则平均时延为:

    约等于1.2秒。

    可以看到使用缓存器的时延大大降低,并且成本相较于换链路非常低!

    条件GET方法

    存放在缓存器中的对象副本可能是陈旧,为此HTTP有一种机制,允许缓存器证实它的对象是最新的。

    这种机制就是条件GET方法。

    下面是一个简单的请求报文:

    这是一个返回的响应报文:

    此时条件方法报文:

    If-modified-since用来确定在Web缓存器修改对象的最后时间是否与Web服务器修改对象的最后时间是否一致,如果一致则Web缓存器直接返回对象。否则,Web缓存器先从Web服务器接收最新的对象,再返回给Web浏览器。

    因特网中的电子邮件

    因特网电子邮件系统主要有三个组成部分:

    用户代理、邮件服务器、简单邮件传输协议(SMTP)

    SMTP协议

    SMTP是电子邮件在应用层的协议,它依靠于TCP进行传输。

    因此可以说:

    SMTP一般不使用中间邮件服务器发送邮件,即使这两个邮件服务器位于地球的两端也是这样。

    TCP连接可以是跨越很大的地理位置,并且建立TCP连接。

    特别,如果Bob的邮件服务器没有开机,该报文会保留在Alice的邮件服务器上等待并进行新的尝试,这意味着邮件并不在中间的某个邮件服务器存留。

    与HTTP的对比

    HTTP主要是一个拉协议(pull protocol)

    即主要是从服务器拉取信息

    SMTP主要是一个推协议(push protocol)

    即主要是向服务器推送信息

    邮件访问协议

    SMTP并不能使Bob从邮件服务器中拉取信息,因为SMTP是一个推协议。

    因此人们发明了邮件访问协议,目前比较流行的访问协议:

    1.第三版的邮局协议(POP3)

    2.因特网的邮件访问协议(IMAP)

    3.HTTP

    POP3

    POP3是一个极为简单的邮件访问协议,功能相当有限。

    主要有三个阶段进行工作:

    特许、事务处理以及更新

    IMAP

    基于Web的电子邮件

    在这种服务中,用户代理就是普通的浏览器,用户和他远程邮箱之间的通信则通过HTTP进行。

    当发件人(Alice)要发送一封电子邮件报文时,该电子邮件报文从Alice的浏览器发送到她的邮件服务器,使用的是HTTP而不是SMTP。

    然后Alice的邮件服务器在与其他的邮件服务器之间发送和接收时,仍然使用的是SMTP。

  • 相关阅读:
    MindSpore端侧手机应用实战:AI垃圾分类应用
    TiKV 源码分析之 PointGet
    spring学习笔记-IOC,AOP,事务管理
    Vue-02-MVVM模式
    【暴力更换OPPO启动器为其它三方(Nova Launcher in my Case Scenario)】
    Redis
    科学计算三维可视化笔记(第七周 运算)
    嵌入式学习笔记(54)S5PV210的ADC控制器
    小程序入门及案例展示
    如何在微信小程序中集成认证服务—邮箱地址篇
  • 原文地址:https://blog.csdn.net/zheshiyangyang/article/details/133789549