iptables是一个Linux内核中的防火墙工具,可以被用来执行各种网络相关的任务,如过滤、NAT和端口转发等,可以监控、过滤和重定向网络流量。
iptables可以用于以下应用场景:
主机规划:
一开始,host1和host2都是通过网关gateway进行对外通讯。
原始网络模式如下:
在host2上可以访问百度:
$ ping www.baidu.com -c 3
PING www.wshifen.com (104.193.88.77) 56(84) bytes of data.
64 bytes from 104.193.88.77: icmp_seq=1 ttl=49 time=179 ms
64 bytes from 104.193.88.77: icmp_seq=2 ttl=49 time=173 ms
64 bytes from 104.193.88.77: icmp_seq=3 ttl=49 time=173 ms
--- www.wshifen.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 3036ms
rtt min/avg/max/mdev = 173.674/175.795/179.824/2.870 ms
SNAT是source network address translation的缩写即源地址目标转换。
比如,多个PC机使用路由器共享上网,每个PC机都配置了内网IP。PC机访问外部网络的时候,路由器将数据包的报头中的源地址替换成路由器的ip。当外部网络的服务器比如网站web服务器接到访问请求的时候,他的日志记录下来的是路由器的ip地址,而不是pc机的内网ip。
这是因为,这个服务器收到的数据包的报头里边的“源地址”,已经被替换了。所以叫做SNAT,基于源地址的地址转换。
现将host1作为host2的网关,在host1上进行SNAT转换,实现host2可以访问外网。
修改host2的默认网关为host1:
$ sudo ip route delete default
$ sudo ip route add default via 172.28.3.208 dev eth0
$ sudo ip route delete 172.28.0.1
$ sudo ip route delete 172.28.0.0/20
$ route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
0.0.0.0 172.28.3.208 0.0.0.0 UG 0 0 0 eth0
此时在host2尝试访问百度,发现已经无法访问外部网络:
$ ping www.baidu.com -c 3
ping: www.baidu.com: Temporary failure in name resolution
在host1开启转发能力,Linux的IP Forwarding功能并不是默认开启的,可以采用下面的方法开启:
// 没有持久化,临时修改
$ sudo -i
# echo 1 >/proc/sys/net/ipv4/ip_forward
上面的方式只是临时开启转发能力,重启之后配置就会被重置,如果想永久修改可以在/etc/sysctl.conf
下增加如下内容:
net.ipv4.ip_forward=1
然后使用sysctl -p
重新加载配置文件:
$ sysctl -p /etc/sysctl.conf
在host1上配置如下规则:
$ iptables -t nat -A POSTROUTING -s 172.28.15.169 -j SNAT --to-source 172.28.3.208
此时再去host2上访问百度,发现已经可以访问外部网络了:
$ ping www.baidu.com -c 3
PING www.wshifen.com (104.193.88.77) 56(84) bytes of data.
64 bytes from 104.193.88.77: icmp_seq=1 ttl=48 time=174 ms
64 bytes from 104.193.88.77: icmp_seq=2 ttl=48 time=174 ms
64 bytes from 104.193.88.77: icmp_seq=3 ttl=48 time=174 ms
--- www.wshifen.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2583ms
rtt min/avg/max/mdev = 174.052/174.397/174.846/0.585 ms
MASQUERADE是SNAT的一个特例。
SNAT是指在数据包从网卡发送出去的时候,把数据包中的源地址部分替换为指定的IP,这样,接收方就认为数据包的来源是被替换的那个IP的主机。
MASQUERADE是用发送数据的网卡上的IP来替换源IP,因此,对于那些IP不固定的场合,比如拨号网络或者通过dhcp分配IP的情况下,就得用MASQUERADE。
但使用SNAT的时候,出口ip的地址范围可以是一个,也可以是多个,例如如下命令表示把所有10.8.0.0网段的数据包SNAT成192.168.5.3的ip然后发出去
iptables -t nat -A POSTROUTING -s 10.8.0.0/24 -o eth0 -j SNAT –to-source 192.168.5.3
如下命令表示把所有10.8.0.0网段的数据包SNAT成192.168.5.3/192.168.5.4/192.168.5.5等几个ip然后发出去
iptables -t nat -A POSTROUTING -s 10.8.0.0/255.255.255.0 -o eth0 -j SNAT –to-source 192.168.5.3-192.168.5.5
这就是SNAT的使用方法,即可以NAT成一个地址,也可以NAT成多个地址,但是,对于SNAT,不管是几个地址,必须明确的指定要SNAT的ip。
假如当前系统用的是ADSL动态拨号方式,那么每次拨号,出口ip192.168.5.3都会改变,而且改变的幅度很大,不一定是192.168.5.3到192.168.5.5范围内的地址,这个时候如果按照现在的方式来配置iptables就会出现问题了。
因为每次拨号后,服务器地址都会变化,而iptables规则内的ip是不会随着自动变化的,每次地址变化后都必须手工修改一次iptables,把规则里边的固定ip改成新的ip,这样是非常不好用的。
MASQUERADE就是针对这种场景而设计的,他的作用是,从服务器的网卡上,自动获取当前ip地址来做NAT。
比如下边的命令:
iptables -t nat -A POSTROUTING -s 10.8.0.0/255.255.255.0 -o eth0 -j MASQUERADE
如此配置的话,不用指定SNAT的目标ip了,不管现在eth0的出口获得了怎样的动态ip,MASQUERADE会自动读取eth0现在的ip地址然后做SNAT出去,这样就实现了很好的动态SNAT地址转换。
注:对于MASQUERADE,只是计算机的负荷稍微多一点。因为对每个匹配的包,MASQUERADE都要查找可用的IP地址,而不象SNAT用的IP地址是配置好的。当然,这也有好处,就是我们可以使用通过PPP、PPPOE、SLIP等拨号得到的地址,这些地址可是由ISP的DHCP随机分配的。
假设现在host2上了运行了一个端口在8080的web服务,但是没有外网ip,无法在外部直接访问host2的web服务,但是host1上有外网ip,可以通过DNAT将访问host1的8080端口的请求转发到host2的8080端口。
在host2上运行一个web服务:
$ sudo docker run -d --rm -p 8080:80 --name web httpd
9c9a499ce0e566e1a5897d81a21d6d97d8925ef25066f901e9d41de22bd2f0c5
$ curl localhost:8080
<html><body><h1>It works!</h1></body></html>
在host1上配置DNAT:
$ sudo iptables -t nat -A PREROUTING -p tcp --dport 8080 -j DNAT --to-destination 172.28.15.169
此时再去其他机器上访问host1的8080端口,发现流量已经转发到host1的8080端口了:
$ curl 172.28.3.208:8080
<html><body><h1>It works!</h1></body></html>
SNAT是指在数据包从网卡发送出去的时候,把数据包中的源地址部分替换为指定的IP,这样,接收方就认为数据包的来源是被替换的那个IP的主机。
DNAT,就是指数据包从网卡发送出去的时候,修改数据包中的目的IP,表现为如果你想访问A,可是因为网关做了DNAT,把所有访问A的数据包的目的IP全部修改为B,那么,你实际上访问的是B。
因为,路由是按照目的地址来选择的,因此,DNAT是在PREROUTING链上来进行的,而SNAT是在数据包发送出去的时候才进行,因此是在POSTROUTING链上进行的。
为了方便调试,我们可以在raw的PREROUTING链上增加trace规则:
sudo iptables -t raw -I PREROUTING -p tcp --dport 8080 -j TRACE
sudo iptables -t raw -I PREROUTING -p tcp --sport 8080 -j TRACE
// 先清空下日志
$ dmesg -C
// 下面是curl 172.28.3.208:8080的部分日志
$ dmesg
[13428.991593] TRACE: raw:PREROUTING:policy:3 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
[13428.991675] TRACE: mangle:PREROUTING:policy:1 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
[13428.991697] TRACE: mangle:INPUT:policy:1 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
。。。。。。
直接查看系统日志文件/var/log/messages
时会提示说没有这个文件或目录。
原因是Ubuntu默认不开启系统日志,配置文件/etc/rsyslog.d/50-default.conf
中系统日志那段的代码默认是被注释掉的:
#*.=info;*.=notice;*.=warn;\
# auth,authpriv.none;\
# cron,daemon.none;\
# mail,news.none -/var/log/messages
我们只要将这4行前面的注释#
去除即可。
然后需要重启rsyslog
服务:
$ sudo service rsyslog restart
最后就可以查看/var/log/messages
文件中的日志了。
疑问:当host2给host1返回时,目标ip为host1,我们也没有配置什么NAT规则,把目标ip改成客户端的ip,那么,服务器为啥不是把报文交给host1的进程处理,而是原路forward转发呢?
这个其实还是因为NAT依赖了netfilter的会话跟踪功能,简单来说,netfilter是有状态的,以tcp举例,tcp连接的建立是因为客户端ip:客户端端口和服务端ip:服务端端口,这个四元组是有来有回的,就是我给你发了消息,你也回我了,此时,netfilter就认为这是一个会话。
所以,在host2给host1返回时,host1拿着四元组去查,查到有会话,因此,就按照之前的路径原路回来。
另外,nat这个table里的链,只在检测到之前不存在会话时,才会进,后续就不会再进了;也就是只有首次报文的时候进nat的链。
像上面这个案例,只要执行如下命令,关闭会话跟踪,就执行不成功了:
sudo iptables -t raw -I PREROUTING -p tcp --dport 8080 -j NOTRACK
可以安装conntrack
工具来查看会话。
sudo apt-get install conntrack
使用conntrack -L
命令来查看会话
$ conntrack -L
tcp 6 431997 ESTABLISHED src=172.28.0.1 dst=172.28.3.208 sport=65499 dport=8080 src=172.28.15.169 dst=172.28.0.1 sport=8080 dport=65499 [ASSURED] mark=0 use=1
tcp 6 300 ESTABLISHED src=172.28.0.1 dst=172.28.3.208 sport=54422 dport=22 src=172.28.3.208 dst=172.28.0.1 sport=22 dport=54422 [ASSURED] mark=0 use=1
conntrack v1.4.4 (conntrack-tools): 2 flow entries have been shown.