• WebServer 解析HTTP 请求报文


    一、TCP 状态转换

    浏览器访问网址,TCP传输全过程

    二、TCP协议的通信过程 

    三、TCP 通信流程 

    1. // TCP 通信的流程
    2. // 服务器端 (被动接受连接的角色)
    3. 1. 创建一个用于监听的套接字
    4. - 监听:监听有客户端的连接
    5. - 套接字:这个套接字其实就是一个文件描述符
    6. 2. 将这个监听文件描述符和本地的IP和端口绑定(IP和端口就是服务器的地址信息)
    7. - 客户端连接服务器的时候使用的就是这个IP和端口
    8. 3. 设置监听,监听的fd开始工作
    9. 4. 阻塞等待,当有客户端发起连接,解除阻塞,接受客户端的连接,会得到一个和客户端通信的套接字
    10. (fd)
    11. 5. 通信
    12. - 接收数据
    13. - 发送数据
    14. 6. 通信结束,断开连接
    1. // 客户端
    2. 1. 创建一个用于通信的套接字(fd)
    3. 2. 连接服务器,需要指定连接的服务器的 IP 和 端口
    4. 3. 连接成功了,客户端可以直接和服务器通信
    5. - 接收数据
    6. - 发送数据
    7. 4. 通信结束,断开连接


    套接字通信的客户端和服务端的实现_呵呵哒( ̄▽ ̄)"的博客-CSDN博客https://blog.csdn.net/weixin_41987016/article/details/132046488?spm=1001.2014.3001.5501

    四 、解析HTTP请求报文

    4.1 读取数据到缓冲区 bool http_conn::read()
    1. // 循环读取客户数据,直到无数据可读或者对方关闭连接
    2. bool http_conn::read() {
    3. // printf("一次性读完数据\n");
    4. if( m_read_idx >= READ_BUFFER_SIZE ) {
    5. return false;
    6. }
    7. int bytes_read = 0;//读取到的字节
    8. while(true) {//开始保存数据
    9. // 数组起始位置(0) + 已经读的数据位置(100) = 下次开始写的位置(101)
    10. // 从m_read_buf + m_read_idx索引出开始保存数据,大小是READ_BUFFER_SIZE - m_read_idx
    11. bytes_read = recv(m_sockfd, m_read_buf + m_read_idx,
    12. READ_BUFFER_SIZE - m_read_idx, 0 );
    13. if (bytes_read == -1) {
    14. if( errno == EAGAIN || errno == EWOULDBLOCK ) {
    15. // 没有数据
    16. break;
    17. }
    18. return false;
    19. } else if (bytes_read == 0) { // 对方关闭连接
    20. return false;
    21. }
    22. m_read_idx += bytes_read;//读到数据,更新索引
    23. }
    24. // printf("读到了数据: %s\n",m_read_buf);
    25. return true;
    26. }

    4.2 有限状态机

    逻辑单元内部的一种高效编程方法:有限状态机(finite state machine)。有的应用层协议头部包含数据包类型字段,每种类型可以映射为逻辑单元的一种执行状态,服务器可以根据它来编写相应的处理逻辑。如下是一种状态独立的有限状态机:

    1. STATE_MACHINE( Package _pack )
    2. {
    3. PackageType _type = _pack.GetType();
    4. switch( _type )
    5. {
    6. case type_A:
    7. process_package_A( _pack );
    8. break;
    9. case type_B:
    10. process_package_B( _pack );
    11. break;
    12. }
    13. }

    这是一个简单的有限状态机,只不过该状态机的每个状态都是相互独立的,即状态之间没有相互转移。状态之间的转移是需要状态机内部驱动,如下代码:

    1. STATE_MACHINE()
    2. {
    3. State cur_State = type_A;
    4. while( cur_State != type_C )
    5. {
    6. Package _pack = getNewPackage();
    7. switch( cur_State )
    8. {
    9. case type_A:
    10. process_package_state_A( _pack );
    11. cur_State = type_B;
    12. break;
    13. case type_B:
    14. process_package_state_B( _pack );
    15. cur_State = type_C;
    16. break;
    17. }
    18. }
    19. }

    该状态机包含三种状态:type_A、type_B 和 type_C,其中 type_A 是状态机的开始状态,type_C 是状态机的结束状态。状态机的当前状态记录在 cur_State 变量中。在一趟循环过程中,状态机先通过 getNewPackage 方法获得一个新的数据包,然后根据 cur_State 变量的值判断如何处理该数据包。数据包处理完之后,状态机通过给 cur_State 变量传递目标状态值来实现状态转移。那么当状态机进入下一趟循环时,它将执行新的状态对应的逻辑。

    4.3 HTTP 请求格式

    1. >>http get请求报文的格式
    2. 请求行\r\n
    3. 请求头\r\n
    4. 空行(\r\n)
    5. 提示: 每项信息之间都需要一个\r\n,是由http协议规定
    6. ************************************************
    7. ************************************************
    8. >>http post请求报文的格式
    9. 请求行\r\n
    10. 请求头\r\n
    11. 空行(\r\n)
    12. 请求体
    13. 提示: 请求体就是浏览器发送给服务器的数据

    在HTTP报文中,每一行的数据有\r\n作为结束字符,空行则是仅仅是字符\r\n。因此,可以通过查找\r\n将报文拆解成单独的行进行解析,项目中便是利用了这一点。 

    推荐文章: 

    http请求报文与响应报文_构造http请求报文,发送到天气预报的服务器,并获取http响应报文,将报文进行解析获_JSon liu的博客-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/weixin_45912307/article/details/109454522

    Http请求报文格式和响应报文格式-腾讯云开发者社区-腾讯云 (tencent.com)icon-default.png?t=N7T8https://cloud.tencent.com/developer/article/1953222我的往期文章:Web服务器简介及HTTP协议_呵呵哒( ̄▽ ̄)"的博客-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/weixin_41987016/article/details/132610837?spm=1001.2014.3001.5501

    4.4 状态转换图
    状态转换图
    状态转换图
    4.5 主状态机状态和从状态机状态

    (1) 从状态机状态

    >>从状态机逻辑

    负责读取buffer中的数据,将每行数据末尾的\r\n置为\0\0,并更新从状态机在buffer中读取的位置m_checked_idx,从此来驱动主状态机解析

    从状态机从m_read_buf中逐字节读取,判断当前字节是否为\r

    • 接下来的字符是\n,将\r\n修改成\0\0,将m_checked_idx指向下一行的开头,则返回LINE_OK
    • 然后达到了buffer末尾,表示buffer还需要继续接收,返回LINE_OPEN
    • 否则,表示语法错误,返回LINE_BAD

    当前字节不是\r,判断是否是\n

    • 【注意】什么时候会是②这种情况?
    一般是上次读取到\r就到了buffer末尾,没有接收完整,再次接收时会出现这种情况。
    • 【判断】如果前一个字符是\r,则将\r\n修改成\0\0,将m_checked_idx指向下一行的开头,则返回LINE_OK

    当前字节既不是\r,也不是\n

    • 表示接受不完整,需要继续接收,返回LINE_OPEN
    1. /*
    2. 从状态机,用于分析出一行内容
    3. 返回值为行的读取状态,由LINE_OK,LINE_BAD,LINE_OPEN
    4. m_read_idx:指向缓冲区m_read_buf的数据末尾的下一个字节
    5. m_checked_idx:指向从状态机当前正在分析的字节
    6. */
    7. // 解析一行,判断依据\r\n
    8. http_conn::LINE_STATUS http_conn::parse_line() {
    9. char temp;
    10. for ( ; m_checked_idx < m_read_idx; ++m_checked_idx ) {
    11. // temp 为将要分析的字节
    12. temp = m_read_buf[ m_checked_idx ];
    13. // 如果当前是\r字符,则有可能会读取到完整行
    14. if ( temp == '\r' ) {
    15. // 下一个字符达到了buffer结尾,则接收不完整,需要继续接收
    16. if ( ( m_checked_idx + 1 ) == m_read_idx ) {
    17. return LINE_OPEN;
    18. }
    19. // 下一个字符是\n,将\r\n改为\0\0
    20. else if ( m_read_buf[ m_checked_idx + 1 ] == '\n' ) {
    21. m_read_buf[ m_checked_idx++ ] = '\0';
    22. m_read_buf[ m_checked_idx++ ] = '\0';
    23. return LINE_OK;
    24. }
    25. // 如果都不符合,则返回语法错误
    26. return LINE_BAD;
    27. }
    28. // 如果当前字符是\n,也有可能读取到完整行
    29. // 一般是上次读取到\r就到 buffer 末尾了,没有接收完整,再次接收时会出现这种情况
    30. else if( temp == '\n' ) {
    31. // 前一个字符是\r,则接收完整
    32. if( ( m_checked_idx > 1) && ( m_read_buf[ m_checked_idx - 1 ] == '\r' ) ) {
    33. m_read_buf[ m_checked_idx-1 ] = '\0';
    34. m_read_buf[ m_checked_idx++ ] = '\0';
    35. return LINE_OK;
    36. }
    37. return LINE_BAD;
    38. }
    39. }
    40. // 并没有找到\r\n,需要继续接收
    41. return LINE_OPEN;
    42. }
    1. 例如:
    2. >>http get请求报文的格式
    3. 请求行\r\n
    4. 请求头\r\n
    5. 空行(\r\n)
    6. 提示: 每项信息之间都需要一个\r\n,是由http协议规定
    7. >>http get请求报文的格式
    8. 请求行\0\0
    9. 请求头\0\0
    10. 空行(\0\0)

    (2)主从状态机,http_conn::process_read()

    >>解析报文整体流程

    process_read 通过 while 循环,将主状态机进行封装,对报文的每一行进行循环处理

    http_conn::process_read() 是一个HTTP请求处理函数,用于解析HTTP请求报文

    ① 解析一行数据,得到不同状态(包括请求行、请求头、请求体

    • LINE_OK
    • LINE_BAD
    • LINE_OPEN

    根据不同的状态,解析请求行、请求头或请求体,并进行相应的处理

    • CHECK_STATE_REQUESTLINE ---- parse_request_line()
    • CHECK_STATE_HEADER ---- parse_headers()
    • CHECK_STATE_CONTENT ---- parse_content()

     ③ 对于GET请求,根据具体的请求信息进行预处理,分析目标文件属性,并将其映射到内存地址m_file_address

    • do_request()

    返回处理结果,包括成功、失败或请求不完整等状态码​​​​​​​

    >>主从状态机模式

    主从状态机模式:http_conn::process_read()用以应对不同的状态处理。

    • 一个状态机作为主要的控制器,而其他状态机则被设计为从状态机
    • 主状态机将它们之间的通信和事件处理进行协调
    • 主状态机是在系统启动时创建的
    • 从状态机可以在系统运行时动态创建、注册或注销

    主状态机 process_read() 中进行循环,直到解析完整个 HTTP 请求数据

    当且仅当解析到请求体时,才需要进一步判断是否已经解析完整个 HTTP 请求数据

    表示若当前正在解析请求体,并且从状态机已经成功解析了一行请求数据,则需要继续解析下一行请求数据 

    (m_check_state == CHECK_STATE_CONTENT) && (line_status == LINE_OK)

    或者从状态机还未成功解析出一行完整的请求数据,就需要不断循环调用从状态机、解析请求数据

     ((line_status = parse_line()) == LINE_OK))

     (line_status = parse_line()) 表示调用从状态机 parse_line() ,并将返回值赋给变量 line_status

    • 解析成功,line_status = LINE_OK
    • 否则,line_statusLINE_OPEN、LINE_BAD

    直到解析完成整个 HTTP 请求数据

    1. // 主状态机,解析请求
    2. http_conn::HTTP_CODE http_conn::process_read() {
    3. // 定义初始状态
    4. LINE_STATUS line_status = LINE_OK;
    5. HTTP_CODE ret = NO_REQUEST;
    6. char* text = 0;
    7. // 解析一行数据,得到不同状态
    8. // OK表示正常
    9. // 主状态机 && 从状态机 || 解析到一行完整数据(或者请求体)
    10. // 这里主状态机指的是process_read()函数,从状态机指的是parse_line()
    11. while (((m_check_state == CHECK_STATE_CONTENT) && (line_status == LINE_OK))
    12. || ((line_status = parse_line()) == LINE_OK)) {
    13. // 获取一行数据
    14. text = get_line();
    15. m_start_line = m_checked_idx;
    16. printf( "got 1 http line: %s\n", text );
    17. switch ( m_check_state ) {
    18. case CHECK_STATE_REQUESTLINE: {
    19. // 解析请求行,也就是 GET 中的 GET
    20. /*
    21. 通过请求行的解析我们可以判断该HTTP请求的类型(GET/POST),
    22. 而请求行中最重要的部分就是URL部分
    23. 将这部分保存下来用于后面的生成HTTP响应
    24. */
    25. ret = parse_request_line( text );
    26. if ( ret == BAD_REQUEST ) {
    27. return BAD_REQUEST;
    28. }
    29. break;// 正常解析就break
    30. }
    31. case CHECK_STATE_HEADER: {
    32. ret = parse_headers( text );//解析请求头,GET 和 POST 中空行以上,请求行以下的部分
    33. if ( ret == BAD_REQUEST ) {
    34. return BAD_REQUEST;
    35. } else if ( ret == GET_REQUEST ) {//遇到换行符就默认你解析完请求头,不管后面还有没有内容
    36. return do_request();//解析具体的请求信息
    37. }
    38. break;
    39. }
    40. case CHECK_STATE_CONTENT: {
    41. /*
    42. 解析请求数据,对于GET来说这部分是空的,
    43. 因为这部分内容已经以明文的方式包含在了请求行中的URL部分了;
    44. 只有POST的这部分是有数据的
    45. */
    46. ret = parse_content( text );
    47. if ( ret == GET_REQUEST ) {
    48. /*
    49. do_request() 需要做:
    50. 需要首先对 GET请求 和不同的 POST请求
    51. (登录、注册、请求图片、视频等等)做不同的预处理,
    52. 然后分析目标文件的属性,若目标文件存在、对所有用户可读且不是目录时,
    53. 则使用mmap将其映射到内存地址m_file_address处,并告诉调用者获取文件成功
    54. */
    55. return do_request();
    56. }
    57. line_status = LINE_OPEN;
    58. break;
    59. }
    60. default: {
    61. return INTERNAL_ERROR;
    62. }
    63. }
    64. }
    65. return NO_REQUEST;//主状态机请求不完整
    66. }

    注意在http_conn.h 编写 get_line()函数

    1. // m_start_line是已经解析的字符
    2. // get_line用于将指针向后偏移,指向未处理的字符
    3. /*
    4. m_start_line是行在bufffer中的起始位置,将该位置后面的数据赋给text
    5. 此时从状态机已提前将一行的末尾字符\r\n变为\0\0,所以text可以直接取出完整的行进行解析
    6. */
    7. char* get_line() {
    8. return m_read_buf + m_start_line;
    9. }

      (3)主状态机状态 

    >>主状态机逻辑 

    主状态机初始状态是CHECK_STATE_REQUESTLINE,通过调用从状态机来驱动主状态机,在主状态机进行解析前,从状态机已经将每一行的末尾\r\n符号改为\0\0,以便于主状态机直接取出对应字符串进行处理。

    CHECK_STATE_REQUESTLINE

    1. 主状态机的初始状态,调用parse_request_line函数解析请求行
    2. 解析函数从m_read_buf中解析HTTP请求行,获得请求方法,目标URLHTTP版本号
    3. 解析完成后主状态机的状态变为CHECK_STATE_HEADER
    1. // 解析HTTP请求行,获得请求方法,目标URL,以及HTTP版本号
    2. http_conn::HTTP_CODE http_conn::parse_request_line(char* text) {
    3. // 在HTTP报文中,请求行用来说明请求类型,要访问的资源以及所使用的HTTP版本,
    4. // 其中各个部分之间通过\t或空格分隔
    5. // 请求行中最先含有空格和\t任一字符的位置并返回
    6. // GET /index.html HTTP/1.1
    7. m_url = strpbrk(text, " \t"); // 判断第二个参数中的字符哪个在text中最先出现
    8. // 如果没有空格或\t,则报文格式有误
    9. if (! m_url) {
    10. return BAD_REQUEST;
    11. }
    12. // 将该位置改为\0,用于将前面数据取出
    13. // GET\0/index.html HTTP/1.1
    14. *m_url++ = '\0'; // 置位空字符,字符串结束符
    15. // 取出数据,并通过与GET和POST比较,以确定请求方式
    16. char* method = text;
    17. if ( strcasecmp(method, "GET") == 0 ) { // 忽略大小写比较
    18. m_method = GET;
    19. } else {
    20. return BAD_REQUEST;
    21. }
    22. // /index.html HTTP/1.1
    23. // 检索字符串 str1 中第一个不在字符串 str2 中出现的字符下标。
    24. m_version = strpbrk( m_url, " \t" );
    25. if (!m_version) {
    26. return BAD_REQUEST;
    27. }
    28. *m_version++ = '\0';
    29. // 仅支持HTTP/1.1
    30. if (strcasecmp( m_version, "HTTP/1.1") != 0 ) {
    31. return BAD_REQUEST;
    32. }
    33. /**
    34. * http://192.168.110.129:10000/index.html
    35. * 对请求资源前7个字符进行判断
    36. * 这里主要是有些报文的请求资源中会带有http://,这里需要对这种情况进行单独处理
    37. */
    38. if (strncasecmp(m_url, "http://", 7) == 0 ) {
    39. m_url += 7;
    40. // 在参数 str 所指向的字符串中搜索第一次出现字符 c(一个无符号字符)的位置。
    41. m_url = strchr( m_url, '/' );
    42. }
    43. // 同样增加https情况
    44. if (strncasecmp(m_url, "https://", 8) == 0 ) {
    45. m_url += 8;
    46. m_url = strchr( m_url, '/' );
    47. }
    48. // 一般的不会带有上述两种符号,直接是单独的/或/后面带访问资源
    49. if ( !m_url || m_url[0] != '/' ) {
    50. return BAD_REQUEST;
    51. }
    52. // 请求行处理完毕,将主状态机转移处理请求头
    53. m_check_state = CHECK_STATE_HEADER; // 检查状态变成检查头
    54. return NO_REQUEST;
    55. }

    解析完请求行后,主状态机继续分析请求头。在报文中,请求头和空行的处理使用的同一个函数,这里通过判断当前的text首位是不是\0字符

    • 若是,则表示当前处理的是空行
    • 若不是,则表示当前处理的是请求头 

    CHECK_STATE_HEADER

    1. 调用parse_headers函数解析请求头部信息
    2. 判断是空行还是请求头。若是空行,进而判断Content-length是否为0,如果不是0,表明是POST请求,则状态转移到CHECK_STATE_CONTENT;否则说明是GET,则报文解析结束
    3. 若解析的是请求头部字段,则主要分析Connection字段,Content-length字段等
    4. Connection字段判断是keep-alive 还是 close,决定是长连接还是短连接;如果是长连接,则将linger标志设置为true
    5. Content-length字段,这里用于读取post请求的消息体长度
    1. // 解析HTTP请求的一个头部信息
    2. http_conn::HTTP_CODE http_conn::parse_headers(char* text) {
    3. // 遇到空行,表示头部字段解析完毕
    4. if( text[0] == '\0' ) {
    5. // 判断是GET 还是 POST 请求
    6. /*
    7. 如果HTTP请求有消息体,则还需要读取m_content_length字节的消息体,
    8. 状态机转移到CHECK_STATE_CONTENT状态
    9. */
    10. if ( m_content_length != 0 ) {
    11. // POST需要跳转到消息体处理状态
    12. m_check_state = CHECK_STATE_CONTENT;
    13. return NO_REQUEST;
    14. }
    15. // 否则说明我们已经得到了一个完整的HTTP请求
    16. return GET_REQUEST;
    17. }
    18. // 解析请求头部连接字段
    19. else if ( strncasecmp( text, "Connection:", 11 ) == 0 ) {
    20. // 处理Connection 头部字段 Connection: keep-alive
    21. text += 11;
    22. // 跳过空格和\t字符
    23. text += strspn( text, " \t" );
    24. if ( strcasecmp( text, "keep-alive" ) == 0 ) {
    25. // 如果是长连接,则将linger标志设置为true
    26. m_linger = true;
    27. }
    28. }
    29. // 解析请求头部内容长度字段
    30. else if ( strncasecmp( text, "Content-Length:", 15 ) == 0 ) {
    31. // 处理Content-Length头部字段
    32. text += 15;
    33. text += strspn( text, " \t" );
    34. m_content_length = atol(text);
    35. }
    36. // 解析请求头部HOST字段
    37. else if ( strncasecmp( text, "Host:", 5 ) == 0 ) {
    38. // 处理Host头部字段
    39. text += 5;
    40. text += strspn( text, " \t" );
    41. m_host = text;
    42. } else {
    43. printf( "oop! unknow header %s\n", text );
    44. }
    45. return NO_REQUEST;
    46. }

    GETPOST请求报文的区别之一是有无消息体部分。GET请求没有消息体,当解析完空行之后,便完成了报文的解析。仅用从状态机的状态(line_status = parse_line()) == LINE_OK语句即可。

    POST请求报文中,消息体的末尾没有任何字符

    1. >>http post请求报文的格式
    2. 请求行\r\n
    3. 请求头\r\n
    4. 空行(\r\n)
    5. 请求体

    所以无法使用从状态机的状态,转而使用主状态机的状态作为循环入口条件

    ((m_check_state == CHECK_STATE_CONTENT) && (line_status == LINE_OK))

    解析完消息体之后,报文的完整解析也就完成了,此时主状态机的状态还是CHECK_STATE_CONTENT。意味着符合循环入口条件,还会再次进入循环。为此,需要在完成请求体解析后,将line_status变量更改为LINE_OPEN,便可跳出循环,完成报文解析任务

    1. while (((m_check_state == CHECK_STATE_CONTENT) && (line_status == LINE_OK))
    2. || ((line_status = parse_line()) == LINE_OK)) {
    3. // 获取一行数据
    4. text = get_line();
    5. m_start_line = m_checked_idx;
    6. printf( "got 1 http line: %s\n", text );
    7. switch ( m_check_state ) {
    8. ......
    9. case CHECK_STATE_CONTENT: {
    10. ret = parse_content( text );
    11. if ( ret == GET_REQUEST ) {
    12. return do_request();
    13. }
    14. // 在完成请求体解析后,将line_status变量更改为LINE_OPEN,跳出循环,完成报文解析任务
    15. line_status = LINE_OPEN;
    16. break;
    17. }
    18. ......
    19. }
    20. }

    CHECK_STATE_HEADER

    • 仅用于解析POST请求,调用parse_content函数解析请求体
    • 用于保存post请求消息体,为后面的登录和注册做准备
    1. // 我们没有真正解析HTTP请求的消息体,只是判断它是否被完整的读入了
    2. http_conn::HTTP_CODE http_conn::parse_content( char* text ) {
    3. // 判断buffer中是否读取了消息体
    4. if ( m_read_idx >= ( m_content_length + m_checked_idx ) )
    5. {
    6. text[ m_content_length ] = '\0';
    7. return GET_REQUEST;
    8. }
    9. return NO_REQUEST;
    10. }

    参考和推荐文章:

    最新版Web服务器项目详解 - 05 http连接处理(中) (qq.com)icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzAxNzU2MzcwMw==&mid=2649274278&idx=7&sn=d1ab62872c3ddac765d2d80bbebfb0dd&chksm=83ffbefeb48837e808caad089f23c340e1348efb94bef88be355f4d9aedb0f9784e1f9e072b1&scene=178&cur_album_id=1339230165934882817#rd【从0开始编写webserver·基础篇#02】服务器的核心---I/O处理单元和任务类 - dayceng - 博客园 (cnblogs.com)icon-default.png?t=N7T8https://www.cnblogs.com/DAYceng/p/17418584.html#%E5%A4%84%E7%90%86%E6%96%B0%E5%AE%A2%E6%88%B7%E7%AB%AF%E7%9A%84%E8%BF%9E%E6%8E%A5%E8%AF%B7%E6%B1%82

  • 相关阅读:
    【数据结构】数组和广义表
    Avalonia for VSCode
    Go学习-基本语法(一)
    k8s修改集群IP--重置集群
    TM 学习记录--论文阅读1
    Git基础命令
    货币银行学重点内容复习
    BERT模型的详细介绍
    Python解读市场趋势:LSTM 和 GRU 在预测 Google 股价方面的探索
    T-SNE最简单的示例,自制非抄袭
  • 原文地址:https://blog.csdn.net/weixin_41987016/article/details/132695415