• 排查问题的方法论(适用于任何多方合作中产生的问题排查)


    这个方法论,算是我的处事哲学。
    这里分享给大家。
    能否理解,看个人悟性!

    事情如下:
    合作方,一共涉及到4方团队。
    A组:代码开发团队。
    B组:我方的运维人员。
    C组:甲方网络安全组团队。
    D组:对端系统负责人。

    主要问题:
    我们这边从服务器,请求D组的url接口,总是timeout。

    经历:
    在我方运维人员配合A组团队排查了一个多月,无果的情况下,我接手了此事。
    从以往情况看
    我想到两点:
    1、A组代码问题。
    2、服务器网络问题。

    于是,我针对这两点,进行写命令,运维执行,进行排查。
    最终,发现不是代码问题。
    但是,telnet IP port 也能通。
    那也就确定,不是网络问题。

    这就超出了我的以往认知。
    于是,请教了我们的项目总监。说中间还有个WAF(Web Application Firewall)

    于是,我从这个突破点,和客户描述了一番排查过程。找来了WAF负责人。
    又排查了2天,无果。

    但是,这个过程,我们的运维人员,总是自以为是的说,不是这里的问题,不是哪里的问题,肯定是那里的问题。
    他坚定的在群里吼:不可能是我们WAF问题。
    9成把握是D组对端系统的问题。
    在这里插入图片描述
    我的判断:
    在这里插入图片描述

    但是,运维打脸了,第三天WAF团队排查后,说是自己的问题,正在解决。

    这里告诉我们一个道理:
    在没有查明情况前
    不要排除任何人的责任,更不要咬定是谁的责任。这样大家才能一起来排查
    你一旦排除谁的责任,那那波人肯定不去主动排查问题
    你一旦咬定谁的责任,很可能打脸,而且,参与排查的人会变少。
    这里两种做法都没有好结果。

    所以,在情况没清楚前, 把水搅的越浑越好,这样,在其中的人,都会在私下自己检查
    主动找出问题和被别人找出问题,那给人的感觉可是天壤之别。

  • 相关阅读:
    QLExpress学习使用总结
    怎么高效学习Java进阶技能 需要掌握哪些知识
    Pinia的api
    疑惑与解答
    [spark] RDD 编程指南(翻译)
    竞赛 题目:基于python的验证码识别 - 机器视觉 验证码识别
    基于FPGA的OV7670摄像头实时检测
    操作系统漏洞验证及加固-MS08_067漏洞利用与安全加固
    Qt http
    数据防泄密软件排行榜
  • 原文地址:https://blog.csdn.net/Brave_heart4pzj/article/details/125515479