• 老杨说运维 | 直播回顾(三):让运维实现有深度的可观测


    上一期中讲,建设统一运维监控的过程中,首要第一步是做好数据治理,只有循序渐进的踏实耕耘,再来播种施肥,才能让智能运维在最后开美丽的花、结香甜的果。

    回顾上期,请点击下方链接:

    https://eoitek.blog.csdn.net/article/details/125500289

    知其然,亦知其所以然

    让运维实现有深度的可观测

    打好了基石(数据治理),下面就是逐步去实现智能运维中的深度可观测。

    那什么是有深度的可观测?

    老杨理解的是把他拆为两个方面,即观和测

    1、监控为观

    观其实在传统监控中间有非常多的实践,也有很多工具,但仅仅是监控是不够的。它没有跨域的异常挖掘的能力、全面根因定位的能力等。老杨认为真正的观应该能做到以下三点:

    • 从源端来看,首先要能找问题:从指标、日志、拓补、链路(trace)去充分挖掘异常,而不是单纯的从某一类指标中发现问题;
    • 其次是找问题:能够充分且智能的结合经验,利用动态阈值、红线规则、日志聚类等从异常中找到真正的问题所在。
    • 到了末端,对于这些问题要准确的过滤掉无关内容,减问题去除噪音,能够在周期内去重,能够把相似问题合并等等。

     

    2、分析为测

    当上面的过程全部联动起来后,才能做到。在这里能够对事件级别分清缓急,把它们的重定级然后准确的分派通知;再次可以理清之间的关联,完成梳理问题时序、影响范围的界定、交易维度的排错等;最后就能直指根因,实现根因告警、根因指标输出、具体错误提示等,这之间将要用到一个个点状的场景和多个算法的结合来实现。

     

     

    以我们一个农商行客户为例,这里从业务场景出发,下钻到交易链路下的某些单个系统,全方位地挖掘可能影响交易链路的风险点,并且可以把这些业务风险的原因进行留存,以作为一种知识库的积累和沉淀。

    那么以后对于一些已经处理过的故障,就可以形成事前处理的应急处置预案,也就是全面可观测性所带来的一部分优势和结果。

    老杨的总结

    人类的整部科技史都是起伏交替向上发展的

    每当一个新的概念、新的趋势出现的时候,人们总会报以最高的期望,但实际上要走的路要长的很。

     

    如上图所示,左侧的期望值(黑线)在最初往往都是高于技术本身的价值,AIOps如同其他AI类创新一样,会被大家觉得决策智能的时代很快将会来临,但这个时间期里急于求成的结果也仅仅是在一些点状场景中提升了效率。

    经过一段时间的积累、熟悉、沉淀,期望值会从峰值下降,但这并不意味着期望变少,而是市场逐渐归于理性,开始真正落地实践,找寻合适的发展方向。

    右侧代表的市场渗透率(红线),随着市场的逐渐冷静,落地实践的企业越来越多,技术也慢慢在实践中走向成熟,这样运维的数字化和智能化才会慢慢走向繁荣。

    我们相信,智能运维的趋势、热度仍在不断攀升,虽然还未能到达理想中的决策智能时代,但通过不断的落地实践会让这一天更早的到来。

  • 相关阅读:
    一招教会你配置Jenkins钉钉消息通知
    学会这些Jmeter插件,才能设计出复杂性能测试场景
    volatile与JMM
    Linux ____02、Linux开关机、目录介绍、文件目录相关命令(常用命令)
    Hadoop学习---9、Yarn
    基于SSM校内二手书籍交易系统的设计与实现
    vue源码之视图响应式更新
    javascript算法之从会用到理解 - 数组反转
    web练习
    设计ExtensibleHashTable类的随机测试程序,测试其中方法的正确性。
  • 原文地址:https://blog.csdn.net/qq_37641528/article/details/126031812