TCP粘包是指发送方将多个数据包发送到接收方的缓冲区,应用程序读取到接收方缓冲区中多个首尾相连粘在一起的数据包。
举例
比如发送方分别发了123456789和abcdef这两个数据,本来应该分别读的,但是读取时,可能第一次只读了123456,下一次读了789abcdef,这就造成粘包。
主要从发送方和接收方两方面来分析
发送方:由于TCP协议默认使用Nagle算法(通过合并数据,从而减少发送数量来提升TCP/IP传输效率),这个算法会收集多个数据包分组,将多个数据量小数据包合并成一个大的数据块,这样会导致接收方难以分辨原来数据包,故Nagle算法可能会导致发送方出现粘包问题。
接收方:由于TCP 连接的每一方都有固定大小的缓冲空间,TCP连接的接收方接收到的数据包就会放在其缓冲区中,等待应用程序(应用层)来读取。但有时会出现接收数据的速率大于应用程序读取的速率,这就会导致多个首尾相连的数据包被应用程序视为一个包读取,就出现粘包问题。
注:这里需要知道一个概念,就是TCP协议是将HTTP请求分成一段段的数据包分组,并按一定顺序一段段发送到接收方,接收方也是一段段接收,然后再重组成原来HTTP请求,如果读取的是多个粘在一起的包,那么就无法重组成之前的请求,进而无法完成请求,所以就要排查解决请求在网络通信的问题。
主要也可从发送方和接收方两方面来分析
发送方:因为主要是Nagle算法合并导致,故可通过不使用Nagle算法来解决,发送方用TCP_NODELAY选项来关闭。
接收方:这里接收方解决指的是应用层方面,即格式化数据包和附带数据包长度发送,格式化数据包是指为数据包加上开始符和结束符,那么应用程序读取时就能区分出每个数据包的开始和结束。附带数据包长度发送是指在数据包头部定义出数据包的长度,那么程序在读取时,会按照长度读取对应字节数据,保证读取的是单个包,且数据完整,这样就能保证数据包是单个且完整。
UDP不存在粘包问题,因为UDP连接的接收方每次只接收一条独立的数据包,而TCP协议可以将多个数据包一起发送并接收(前提是接收方缓冲区剩余大小要能接收这多个数据),即接收方不保证一次只接收一条信息,所以TCP才存在粘包问题。