只有今天周密的“运”筹帷幄,才有将来持续的“维”护稳定。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。
运维的本质是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。在 ICT 行业里,运维人常常调侃“运维是对应用的承诺,不离不弃一辈子”。他们就像是数据中心和公司里IT资源的管家、保安、救火员。
阿里云智能资深技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起了阿里云大客户请求延时抖动保障的过往,指出云存储服务请求的延时抖动厉害的时候,应用整体性能会产生过山车式的变化。
而云上的请求延时包含网络延时和存储延时,云服务的网络非常复杂,包含BGP(Border Gateway Protocol)和静态的公网以及数据中心内的网络。找出影响延时的拥塞点和合理调度,对避免造成拥堵至关重要。
存储服务还要处理好介质访问的延迟问题,机械/固态盘也是个复杂的系统,压力越大延迟越高。特别是在分布式存储系统中,还会带来病毒式的传染效应。对象存储OSS为了降低延时的抖动,从快速监控、准确告警、根因分析、优化调度入手,将延时抖动控制在合理的方差范围内,保证了良好的客户体验。
华中科技大学研究员、博士生导师吴非笑言,由于自己来自高校,并未亲身感受到运维人的压力,但能理解堪比永动机的7*24待命之不易。当前云存储的可靠性要求是11个9,固态硬盘和传统机械硬盘是云存储中最基础的数据存储单元,维护起来并不简单。前者的存储介质由闪存构成,从原理上讲,闪存就像一道门,每开一次就有一次磨损,在使用过程中不可避免会出现老化,逐渐吱呀作响,故障也接踵而至;后者像机械机器一样不停摆动,但终有停转之时。在由成千上万的固态盘或硬盘所构成的存储系统里,要保证如此高的可靠性,运维人的压力可见一斑。
“欲善新基建,必先利运维”。在企业数字化进程中,运维则是浓墨重彩的一笔。
字节跳动数据库存储技术负责人张雷表示,从传统的手动运维,到DevOps的自动化运维,再到AIOps的智能化运维,运维技术在近十几年实现了跨越式发展。字节云数据库云存储整个运维体系的发展历程,也大致分为三个阶段。
第一个阶段在2016年以前,整体的数据库和存储的体量都不是特别大,团队运维还处于“刀工石斧”的状态,也就是基本上靠人工就能搞定。
第二个阶段是2017到2021年,业务的规模飞速发展,云存储的系统也达到了EB量级,数据库的规模都是几千甚至上万套库,人工运维天花板已显现,因此运维团队转而构建一些自动化的运维平台,依托这些平台去搞定运营问题。
第三个阶段是自2021年年中,依托AI等技术的第三代运维体系开始构建。将运维人员的知识和运维经验与大数据、机器学习技术相结合,融入到运维系统中代替人力,从而解决更大规模上的运营效率问题。
在这三个阶段中,整个业务体系的发展,呈现出两方面的能力跃迁:一方面是运维的文化、组织、能力的提升,通俗的理解就是大家摸黑前行,从做个体运维到成体系、成建制地构建了专职的运维的SRE的团队去运维;另一方面,整个运维体系和服务化的一些技术体系也都在前进,比如从最早期的管理几十台服务器到现在管理几十万台服务器,就是技术体系不断演进去支持的。总而言之,运维的文化和组织、以及运维的技术体系,这两条路是齐头并进的。
随着业务走上云端,运维也逐步“云化”。资源监控、终端管控、安全支持等运维服务转化为云端应用,企业可以根据需求实现订阅。
张雷表示通常会关注服务的黄金指标,尤其是跟稳定性相关的一些黄金指标,因为对于大型在线服务而言,稳定性可能是第一位的。此外,他更关注长期的所依赖服务的一些技术演进路径,以便未雨绸缪,保证在技术或者产品形态上发生巨变时,运维/运营体系不会掉队。
罗庆超指出阿里云对象存储OSS作为服务的提供商,要做到服务承诺的SLA(服务级别协议)和 SLO(服务级别目标)这两个关键指标。细而言之,OSS官网承诺了可用性的SLA为业界领先的99.995%,那作为服务商就一定会按指标准来度量请求的成功率,想尽千方百计来保证该指标。SLO则是更详细的服务项承诺,例如保障客户的请求整体的带宽要能够达到稳定的Tbps级量级,同时一些典型的请求时延能够保证在100ms这个量级,不能有太大的波动。
近期阿里云还会发布一个可观测服务CloudLens,会为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供了用量分析、性能监控、安全分析、数据保护、异常检测、访问情况分析等功能,从而在成本、性能、安全、数据保护、稳定性、访问分析6大维度支撑客户的管理能力。
吴非认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统里可能有几十或者上万台服务器的分布式存储。在技术上首先需要考虑怎样保证成千上万台服务器能够可靠运行。从运维的角度看,就是要不出故障或者少出故障,或者快速检测出故障,达到快速修复、快速恢复、快速检测等指标。
近年来AI发展得如火如荼,高校科研人员也在做用AI提前预测系统故障的相关研究,希望在系统故障发生前完成数据迁移,从而有效减轻运维的压力。
运维为业务系统提供的保障,既离不开阿里云这样的服务提供商的布局,又离不开字节这样的产品使用方的努力。而高校及科研院所作为基础理论技术与前沿技术研究的主体,在较多关键前沿技术方面拥有深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展需要重视的一个板块。
吴非表示,用“共同成长体”去定义这样的合作关系较为妥帖,这个链条包含了创新链、产业链以及用户链。正是因为有这样的联盟将用户方、研发方链接在一起,促进彼此的发展。用通俗的说法就是产、学、研、用为一体,各方共同成长、促进技术的发展与落地。
比如高校研究云存储的可靠性问题时,提出一种新算法,在推进算法落地应用过程中,可能需要跟字节跳动、阿里云等企业合作,在实际系统上部署算法,推动产业发展。
吴非还提到,在产学研界跨界创新也成为高校专家学者自身职业发展规划中的重要一环。不少专家学者在产业界致力于推动技术落地之后再次选择回归学术界,这个叫做“学术休假”。她相信,未来学术界和产业界之间会进一步深入融合。
张雷认为,产学研一体化是技术从诞生到广泛应用的重要背后推手。最近几年,云存储系统的一些技术已然固化,他首先希望学术界、研究界能够在基础设施领域里带来更多突破:无论是存储的介质、还是整个云存储体系结构的突破,亦或是一些体系、运维思路、方法上的突破,都可以为行业带来新生机。其次,产业界也要精益求精,大胆尝试新技术、新方法、新思想,并将其融入到合适的场景中。因为产业界的大型企业如字节跳动,整个技术体量、服务器、数量存储量规模都比较大,其实有一个非常好的技术杠杆效应。即使看起来一个非常小的一个技术优化,但放到体量大的场景下就能产生非常大的价值。所以,产学研各方的互相支撑是十分必要的。
罗庆超指出,阿里云作为服务供应商,共同成长核心有两点:一是为共同的运维能力提供底座的服务,二是吸收客户和业界、学界提供的一些输入以及先进思想,从而帮助底座成长。
针对两位嘉宾提到的产学研结合,罗庆超表示,在共同成长的演进上有两个阶段可能会非常重要。第一个阶段中,CCIA这样组织提供了一个共同成长的土壤和生态,把这个CCIA运作好,可以为运维、技术的共同成长打下坚实的基础。第二阶段,共同成长体一定要结出成果,比如通过CCIA这个组织,搭建交流桥梁,孵化出一些在业界颇具影响力的标准白皮书或者技术上的创新点子。
结语:随着高校功能从人才培育、科学研究延伸到社会服务,企业、协会与高校合作将进一步深化,这无疑有利于形成良性发展的循环圈,推动存储科技成果加速市场化,而在这个过程中,不管是用户还是厂商都将受益匪浅。
本文为阿里云原创内容,未经允许不得转载。