随着业务支撑要求的变化,和技术架构的升级,运维管理建设模式跟之前也有了很大区别,场景上更注重主动工作、防范风险,而体系上更注重赋能组织、平台化、一体化。
因而,我们基于过去几年的大量客户实践,分享一些场景的工程落地,包括可观测、大规模发布、灾备应急、服务敏捷化等,并进一步分享如何把这些能力赋能给客户,把运维能力的产品化和组织赋能关联起来。
* 注:以下内容整理自:嘉为科技运维产品及解决方案负责人 张敏 于嘉为蓝鲸2022研运一体创新峰会的精彩分享——《从场景工程,到运维赋能》。
熵是一个热力学概念,表示体系的混乱程度。熵增表示系统越来越混乱,熵减则表示系统归于有序。在没有外力作用的情况下,一切事物都是从有序向无序发展,最终形成熵死。而要使混乱往有序发展,就需要做熵减,通过不断做功,增加有效能量。
运维是一个复杂的体系,主要体现在两个方面。
一方面是管理体系带来的复杂性。不同的组织架构、工作流程、工具平台和技术路线、文化氛围等,都可能导致运维的低效和不完善,例如人员能力高低、流程复杂度不一、工具建设的烟囱化竖井化等。
另一方面则是技术对象变化带来的复杂性。例如云原生、微服务、国产化信创适配等,技术对象的更新迭代、规模发展及横纵的复杂性,都让运维这一保障性工作变得复杂。
如果没有有效的管理规划和技术规划,运维体系必然会走向混乱。我们需要不断有效做功,进行熵减,让运维体系归于有序。
怎么做熵减呢?
我们可以从经典运维原理(PPTR)出发,制定符合企业个性的管理体系,统一组织保障、流程管控、标准规范,然后选择匹配的工具平台和技术架构,设计满足企业需求的运维场景,最后逐步进行PDCA循环演进。
听起来很简单,但是在这个演进的过程中会遇到一个很大的问题,就是我们知道了如何做运维管理,也建设了很多工具系统,但是仍旧不知道现在运维的薄弱点。
问题出在从管理体系落地到工具系统的过程中间,我们要找准连接点。这个连接点即场景。
企业运维的场景非常多,可以大到做业务连续保障管理,也可以小到一个告警的丰富。如果没有对场景进行有效梳理,将会导致后续系统建设越发混乱。
基于过去几年的实践,我们总结出了一套分级分域的场景模型,能很好的解决这个问题