1 、前言
企业在数字化转型过程中运维遇到很多痛点如发现问题难、根因定位难、故障预测难、运维数据治理难、容量预测难以及各种运营大屏需求等,建设运维数据中台可以有效的解决这些痛点,本文将探讨运维数据中台的探索与实践。
企业在数字化转型过程中, IT 架构越来越复杂(如主机、存储、网络、数据库、中间件、虚拟化、容器、众多的业务系统),要如何统一监控运维?海量的 IT 、业务数据该如何体现其价值?如何智能化运维、提升运维效率?
传统运维依赖人工操作,有时也被戏称为 “ 人肉运维 ” 。在传统运维人员减少的同时,我们管理的机器数量却翻倍了,这是我们面临的一个比较大的问题。网络拓扑日益复杂。微服务出现之后,网络拓扑关系更加复杂了,资源频繁的弹性伸缩,导致 CMDB 和其他应用信息无法做到实时管理。
运维专家资源匮乏。运维行业要求硬件、系统、网络、脚本语言、开发能力、应用运维等多领域的知识储备,一名优秀的运维专家需要长期运维工作经验的积累。另外,目前运维从业者减少也导致了运维专家尤其是有丰富经验的运维专家资源匮乏的现状。运维平台日趋复杂。很多公司发展到一定的规模之后,因为前期的发展规划不足,可能每个部门都有自己的运维或者监控平台,平台繁多就容易形成数据孤岛,这样就造成了研发人员在使用的时候非常不便。