目录
NAT技术我们在之前的IP协议博客中已经讲过了。
NAT技术可以在数据从内网向公网传输时,将源IP替换为当前节点的WAN口IP,从而保证数据可在公网的主机中间传递。
如果局域网中有多台客户端主机都访问同一个服务器,甚至每台主机上有多个进程在访问这个服务器。所有的请求数据包都可以通过NAT路由器发送给服务器,服务器也都会处理这些收到的请求,并通过运营商路由器公网IP发回数据。
但是运营商服务器接收的所有数据的IP报头中,目的IP必定是当前路由器的WAN口IP,源IP肯定是服务器的公网IP。
那运营商路由器怎么知道各个数据该发给哪个家用路由器呢?
由于局域网中一个IP地址可以标识一台唯一的主机,而且一台主机上的每个端口号又能标识一个唯一的进程。
所以说,IP和端口号的组合就能指定某个局域网内某个主机上的某个进程。
每一份经网络传输的数据中都会存在源IP、目的IP、源端口和目的端口。
所以,我们拿出这四个数据构建一个四元组(这个四元组是我们构建的,实际每个数据都在报头中)。
在一个局域网内,一个四元组可以明确地标识一份数据由哪个主机的哪一个进程发送,最终由哪一个主机的哪一个进程接收,也就是说,四元组标识了数据传递的方向。
我们前面也说过,IP和端口号的组合就能指定某个局域网内某个主机上的某个进程。大多数情况下,服务器和主机都不在一个局域网内。而数据又会经过路由器不断转发到它的上一层或下一层网络的路由器。
在每个局域网中,节点间都能使用一个四元组将数据转发到同局域网的另一个节点上,不同局域网中的四元组又是不一样的。
所以,我们是否可以在节点路由器将数据传输到另一个局域网的的时候,替换当前网络下使用的四元组,使其可以标明数据在另一个局域网内的发送方向。这样不就能做到数据在网络间从一个进程到另一个进程的发送了吗?
NAPT的工作便是如此,它会建立一个互为键值的四元组转换表,在数据进入不同的网段时,对应的四元组就会被替换进报文的数据内,以达到在另一个局域网内数据也能在不同主机进程间传递。
这样说,还是有些不清晰。我们以数据从运营商路由器向公网和局域网内的收发为例,观察数据的传输过程。
首先,数据从家用路由器传递到运营商路由器。
假设家用路由器发送给运营商路由器一个数据,它的源IP和源端口为10.0.0.10:1025,目的IP和目的端口为163.221.120.9:80。这个四元组能够标识家用路由器和运营商路由器所在的局域网内数据传输的始末位置,所以这个数据被接收到了。
接着,数据从运营商路由器传递到服务器。
服务器将它收到的数据的源IP和源端口10.0.0.10:1025,目的IP和目的端口163.221.120.9:80构建一个四元组,储存为在映射表中。
此时,运营商服务器知道该数据要发给公网服务器,所以它也构建一个四元组。源IP和源端口为202.244.174.37:1025,目的IP和目的端口为163.221.120.9:80。它用这个四元组内的数据替换原来报头里的四个数据。这样,这个四元组能够标识家用路由器和运营商路由器所在的公网内数据传输的始末位置,所以这个数据也能被服务器接收到。
然后,服务器构建一个新的报文传回给运营商路由器。
服务器构建新报文,内部的四元组数据中,源IP和源端口为163.221.120.9:80,目的IP和目的端口为202.244.174.37:1025。这个四元组标识了公网中数据的传递始末位置,数据可以被运营商服务器接收。
最后,运营商服务器将数据发到家用路由器。
运营商服务器接收到服务器发来的数据。路由器在映射表中查找,发现这个数据的四元组信息能找到对应元素。
此时,运营商路由器就将公网中的四元组替换为局域网中的四元组,再次进行发送。此时,在局域网中,四元组的唯一性被保证,家用服务器也能接收到数据。
路由器通常情况下都带有NAT功能,否则无法完成内网和公网的IP地址转换问题,四元组的映射关系转换表也是由路由器自动维护的。
假设使用TCP协议,当连接建立时,路由器中就会生成这对通信双方的映射表项,断开连接后也会删除这个表项。
由于NAPT技术依赖映射转换表与上下层网络通信,所以它有下面的不足:
虽然NAT与NAPT技术确实由一定的问题,但其优势远大于不足。
代理模式分为正向代理和反向代理,二者有一定的区别。
举个例子,假如你在太原上大学,想买天津的十八街麻花。由于你每天还有课,不方便去天津买,而你正好有一个老同学在天津上大学。
那你就可以让他帮你去买,然后再给寄你。这个过程中,你同学扮演的就是正向代理的角色。过了一段时间,很多人都知道了这些好麻花是你的同学代购的,所以很多人也都去找你的同学买。而你的同学觉得来一单就去一次鼓楼的十八街总店太麻烦了,所以他就买了很多麻花囤起来。只要有订单来了,直接将家里的货发出去就好了。此时你同学扮演的就是反向代理的角色。
上面的例子虽然比较形象,但是放到网络上可能就不太好理解。我们在网络上再观察一下:
对正向代理而言:
假设你用学校的校园网去看电影《战狼2》,你的客户端向腾讯视频服务器发起请求。首先,你的请求会被学校的代理服务器先拦截下来,然后代理服务器会替你向腾讯视频服务器发起请求。
腾讯视频服务器收到代理服务器的请求后,将对应的电影资源响应给代理服务器。
代理服务器会做两件事,先将这个电影的响应缓存到代理服务器中,再将收到的响应转发给你的客户端。
你觉得挺好看,所以给你同学也推荐了这个电影。
你的同学也会用腾讯视频看这个电影,当他的客户端发起请求后,同样会被代理服务器拦截。
然后学校的代理服务器发现本地已经缓存了这部电影,所以学校的代理服务器就直接将电影的资源返回给客户端了。代理服务器也不会再向腾讯视频的服务器发起请求了。
由于你同学只经过了一次请求和响应,所以你的同学拿到电影资源的速度比比快得多,因为学校的代理服务器离你们更近。
对反向代理而言:
对于我们常用的APP,比如QQ、微信、淘宝、京东之类的。在同一时刻会有很多人同时访问它们的服务器,所以一台机器肯定是不够用的,为我们服务的是一个拥有大量机器的服务器机群。
比如说,当多个请求发送给淘宝服务器时,请求并不由机群中的某台服务器直接接收,而是由淘宝的反向代理服务器先接收。
然后,反向代理服务器会利用均衡策略,将他接收到的大量请求分发到机群内不同的服务器,保证请求压力平均分摊给每一台服务器。
这样的现象称为负载均衡。比如,Nginx就是一种用于实现负载均衡,支持大量线程并发访问的服务器。
这也解释了我们之前讲IP协议时,我们只会向一个公网内的主机发送数据的原因。而且对于用户而言,具体哪台服务器为你提供服务并不重要,只要用户能访问淘宝就可以了。
你可以简单理解为数据离用户近,代理服务器可以自己处理一部分请求,就是正向代理;数据离用户远,代理服务器只负责数据转发,而不负责请求处理,就是反向代理。
在网上,我们总能看到各种各样的游戏加速器,它们的原理就是正向代理。
各个游戏加速器厂商在各个地区都会有自己的代理服务器,使用这个加速器打游戏得客户端都会先向这个代理服务器发送请求,然后代理服务器再将请求转发给游戏服务器。
请求的人多了,代理服务器收到的请求也就多了,同样代理服务器上也增加了许多这个游戏相关的缓存。所以,以后只要有人用加速器玩游戏,代理服务器就可以直接将自己缓存的数据发送给你。这样就完成了加速过程。
最开始重要的事情说三遍:翻墙属于违法行为,翻墙属于违法行为,翻墙属于违法行为!!!
《中华人民共和国计算机信息网络国际联网管理暂行规定》规定“计算机信息网络直接进行国际联网,必须使用邮电部国家公用电信网提供的国际出入口信道。任何单位和个人不得自行建立或者使用其他信道进行国际联网。”如违反上述规定,公安机关会责令停止联网,给予警告,可以并处15000元以下的罚款;有违法所得的,没收违法所得。
我们只在技术层面讨论该问题。
所谓科学上网,也称为翻墙,是指绕过相应的IP封锁、内容过滤、域名劫持、流量限制等,实现对网络内容的访问。
比如说,我们要想在国内访问谷歌、facebook、推特(现在改名叫X了)这些网站,我们是登不上去的。
由于国内的移动、联通、电信三大运营商设计了我们的网络,所以所有的数据都会先经过运营商然后再转发给我们访问的服务器。
由于我们申请这些网站在国内法律规定中是不允许访问的,所以运营商就会将你的请求拦截下来,你也就不能访问这些网站。
这一套拦截特定域名请求的处理逻辑就叫做防火墙。
如果你使用了VPN软件(梯子),就能支持你的主机访问这些网站。
梯子的原理就是反向代理。
在我国有一些地区是能访问外网的,比如说香港地区的机器就可以访问国际互联网。如果,有人在可访问外网的地区设立了一个服务器,这台服务器可以访问国际网络。再有人设计一个软件,允许你访问该服务器。此时就能支持用户访问国际互联网。
那数据是怎么传到外网的服务器上的?
首先,用户建立好VPN链接,向运营商发送了一份被加密的数据,比如说是一个访问外网的http请求。
运营商只拿到了一串密文,它也没有解密的密钥,根本不知道这是什么东西,所以将该数据放行。数据最终路由到这个可以访问外网的服务器,此时服务器将密文解密,并再次发送数据到外网的服务器。
外网服务器给代理服务器发来一个应答,代理服务器再次加密响应,再把响应转发给国内运营商,运营商依旧看不懂密文,再次放行。
此时,主机收到了应答,也就完成了对外网的访问。
最后,再次声明,遵守国家法律,翻墙违法!!!