工业和信息化部日前出台《新型数据中心发展三年行动计划》,统筹推进新型数据中心发展,构建以新型数据中心为核心的智能算力生态体系,发挥对数字经济的赋能和驱动作用。新型数据中心是以5G、工业互联网、云计算、人工智能等应用需求为牵引,汇聚多元数据资源、运用绿色低碳技术、具备安全可靠能力、提供高效算力服务、赋能千行百业应用的新型基础设施,具有高技术、高算力、高能效、高安全特征。
在当前AI、大数据蓬勃发展的时代,新的业务需求也在推动着数据中心的发展。一般来说,中小型数据中心都有数以万计的IT设备,大型数据中心的IT设备数量甚至超过10万台。面对巨量设备,IT人如何才能实现运维效率的提升。本文从科技手段视角探索数据中心规模化IT设备硬件运维模式。
一、带外管理结合AI机器人实现巡检自动化:
数据中心IT设备通常有服务器、存储、带库、网络等类型,涉及品牌、型号繁杂且数量众多,各厂商建设的五花八门的监控平台无法实现集中统一管理。
IPMI智能平台管理接口是IT设备管理的一项协议标准接口,也是目前业内绝大部分设备遵循的管理标准。以IPMI协议作为依托,结合SNMP等管理协议,建设一套集中化的设备管理平台,通过监测与管理IT设备上的管理口,直接获取硬件相关信息,实现对各类型IT设备的统一管理及自动化巡检。
图一 集中管理平台
而对于无法通过该项标准接口管理的设备(如加密设备等),则通过AI机器人的方式进行巡检管理。
巡检机器人在AI自学习、机器视觉算法的配合下,对每个机柜的指示灯、设备温度、运行噪声等状态进行识别与积累学习。每次巡检时通过摄像头观察机柜状态的变化,一旦捕捉到设备有任何异常,则立即通过短信、语音等方式告警,并能引导工程师到达故障发生位置,减少排查时间。
图二 机房巡检机器人
以上两项举措,可以大幅降低数据中心海量设备巡检对于人力的需求。
二、打通最后“一公里”实现报修自动化:
全天候的自动巡检可以及时发现设备故障,发现故障后如何尽快定位并报修也是一道难题。传统的报修模式是设备发生故障后,运维人员通过带外采集设备日志进行报修并提供给厂商,由厂商工程师进行分析定位及维修。由于未与厂商维修流程贯通,此种模式受人工报修、采集设备日志等环节影响,效率并不高。 因此进一步提升效率,打通数据中心内流程与厂商报修流程的系统接口,是关键一步。
建立自动报修系统,依据设备告警分级策略自动报修,打通与厂商技术支撑系统接口,自动采集设备日志并推送厂商,节省中间人工环节,跟踪处理全流程进展直至闭环,实现设备从发现告警到报修处理完成的全流程自动化。
图三 打通最后一公里
三、5G+AR打造硬件的可视化运维:
利用5G的大带宽和低延迟特点,通过AR技术及设备实时展示机柜内相关设备硬件信息、CPU使用率、内存使用率、硬盘状态、机体温度等,帮助运维人员及时了解设备状态和历史数据,并在故障发生时给出处理方案,提高运维人员工作效率及准确性。遇到技术难题时,可以基于AR设备实现与后台系统的信息交互获得故障现场视觉,完成现场与后台数据比对,并在实际设备虚拟影像中圈点精确标注出需要更换的配件位置,还可以引入技术专家,实时视觉指导完成处理故障。
图三AR可视化机房设备管理
四、机房设备资产数字化管理模式
为保证业务连续和稳定,金融业内普遍采用异地多数据中心的灾备架构方式,必然推动IT设备种类、数量呈现规模化增长。海量的设备导致资产管理难度越来越大,而这些设备资产如采用传统人工录入方式,会存在成本高、效率低、易差错等问题;设备变更时还需要主动修改相关信息,时间长也会产生资产信息不准确等问题。引进机柜内U位资产管理模块——以RFID、NFC技术等为依托,完成资产发现、资产记录及计算各类数据,实现U位资产实时定位、自动盘点的功能,实时掌握机房内U位使用情况,真正地做到U位资产和资源管理数字化。
图四 资产管理模块
未来展望:5G、大数据、人工智能、图像识别等新技术的蓬勃兴起,推动着数据中心管理技术的发展,势必会给数据中心的数字化运维带来质的突变。如何利用新技术促进运维转型,是值得每个运维人思考的问题。