嘉宾 | 周宇 整理 | 吴林锋
出品 | CSDN云原生
2022年4月12日,在CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”上,阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇分享了神龙计算平台的智能运维体系建设实践。
要点简述
-
云计算基础设施规模决定了其运维复杂度,当前没有现成的体系和产品可以借鉴或复用,需要探索出自己的道路。
-
系统级异常自动修复,如Python解释器异常、系统磁盘满、采集脚本残留等;本地无法修复异常上报诊断运维闭环,如磁盘只读、硬件损坏等。
-
在杂乱的异常事件中,通过优先级和知识图谱构建,找到异常根因。之前主要靠专家规则找到