目录
下午快下班的时候,接到公司某个办公区域的网络故障反馈,刚好我在该区域做一个项目,马上去了他们的IT办公室。
故障现象是这样的:网络时好时断,内外网表现一致,涉及区域跨多个楼层、多个网段,其共同特点是经过同一个核心交换机、同一台上网行为、同一台防火墙、同一个光电转换设备。
我到达区域现场后,先做了ping测试,目的是检测丢包和延迟的指标,经过几分钟的随机检测,发现丢包率大概15%,延迟小于10ms,大多数都在1ms以下。
最开始怀疑是网络中有异常大流量引起网络拥塞或者异常流量引起核心设备跑满CPU,所以先进行了抓包测试,除了丢包引起的TCP重传,并没有发现异常流量。
然后又登陆了核心交换机、区域防火墙等网络设备,发现CPU使用率很低,都在30%以下。
以上两点,排除了网络中异常流量引起的高丢包率。
做完抓包和设备常规检查后,我与区域IT人员沟通,得知使用的品牌防火墙有过黑历史,影响过区域整体网络,上一次是通过重启防火墙解决,此时刚好是下班时间,影响较小,所以在请示领导之后,做出了重启防火墙的决定。
在重启的时候,我就思考一个问题,如果重启能解决固然是好,如果重启不能解决,下一步该怎么测试。
经过10分钟的等待后,重启防火墙并未解决问题,为了进一步确定问题所在,我只好离开了座位,拿着笔记本和console线去了机房。
这里强调一下为什么是用了“只好”这个词呢?因为自从我升职之后,很少到一线现场去处理问题了,排障业务有些生疏,不愿意再拿着笔记本到处测试了,但这次没办法,故障发生在下班时间,我的兄弟们都下班了。
我到了机房之后,先在防火墙外的交换机(防火墙没有光口,交换机用来做光电转换设备,姑且叫他光电转换交换机)进行设置网段测试,结果没有丢包。
光电转换交换机后面就是防火墙和区域核心交换机,区域核心交换机也检查了CPU和日志,想着大概率还是区域防火墙的原因,虽然重启没有解决。
我站在机房的网络机柜前面,托着下巴思索着区域防火墙到底是哪里出了问题,是今天谁调整了策略吗。
我感慨业务生疏真可怕,不知从何下手,凡事都有两面性,我又想是不是因为很久没到这个区域来了,所以有些网络架构的调整是我不知道的呢?
我决定重新梳理一下网络连线,惊奇的发现在区域防火墙上接区域核心交换机的是橙色跳线,在区域核心交换机上接区域防火墙的是黑色跳线,赶紧看橙色和黑色中间是什么设备,原来是新上线的上网行为管理系统,突然一下子就明朗了。
就是上网行为的问题!
方法论:层层递进缩小范围
先决条件:有一张网络拓扑图和不要懒惰
具体操作:到机房对着网络拓扑图,拿着笔记本按照层级逐台在网络设备上测试,如果没有掉包,说明不是该设备出问题,再往它的下级设备测试,直到有一台设备出现掉包,那大概率就是它了。