• 数据中心为什么需要一套基础设施可视化管理系统


    2022年作为数字经济元年,在“新基建”背景的推波助澜之下,“智慧+”项目如火如荼,数据中心已然成为交通、能源一样的重要经济基础设施。

    但数据中心区别于其他行业有一定的特殊性,需要运维人员7*24小时支持,这就意味着需要运维人员高效作业,以便数据中心得到平稳发展。很多企业选择借助软件管理工具提升工作效率,如动环、网管、ITSM等,除此之外,我认为数据中心更迫切需要的是一套网络基础设施可视化系统。

    那么网络基础设施可视化系统,能为运维工作带来哪些价值呢?

    01 减少人为故障

    概括来说运维工程师核心工作目标就是稳定运营,做到稳定运营最重要就是杜绝故障并减少故障影响,需要做到两个极致,一是最大限度预防故障发生;二是故障发生后尽快修复,降低故障影响。这就不得不深究一下数据中心运维故障的主要原因了,知道原因才能真正做到防患于未然。

    根据2022年CDCC"中国金融行业数据中心运维管理发展论坛"数据统计,“人员误操作”为数据中心基础设施运维故障的主要原因。我认为造成“人员误操作”有以下几个因素:

    1. 人员频繁进出数据中心

    2. 运维工程师岗位流动性大

    3. 部分人员技术能力未能满足岗位需求

    当以上问题预见网络基础设施可视化系统,将迎刃而解。数据上图,以可视化的形式精准体现出设备位置、连接关系、中间经过哪些配线架,对应设备的配置信息、IP地址、厂商维保信息等,坐在电脑前面即可清晰的知道各个数据中心内部情况,减少人员频繁进出。并且内嵌了流程工单逻辑,辅助企业单位建立起运维管理制度,从而实现,非必要不乱入,没审批不乱动,大大避讳人员误操作带来的故障。

    也因为有了以上可视化的数据,建立起了规划、合理的运维体系,新来的运维工程师也可实现快速接手,减少人员流动为数据中心带来的损失。

    不仅如此,如耐威迪的nVisual网络基础设施可视化管理系统,还将设备手册内容内嵌至设备之中,将业务与设备一一关联对应,减少因运维人员素质参差不齐带来的设备接错线缆、随意插拔跳线等问题,进而规避因线缆选择错误带来的丢包、影响传输速率等问题,亦可规避因误操作而带来的重点业务中断概率。就算出现问题,可实现“更早发现、更早告警”。

     

    02 提升安全可靠性

    其实“减少人为故障”就是提升了安全可靠性的一种手段,但是真正的网络基础设施可视化管理系统,功能远不止步于此。还是nVisual系统,可通过操作行为审计、实时监测提高基础设施安全可靠性,并且结合可视化追踪功能提高链路保障能力,并且还有自动编码等功能,这样即可规避各个部门编号规则不一致,导致其他部门或者新接手运维工程师看不懂,又或是一根线缆对应多标签等问题。

    标准的运维体系,规范的流程记录,势必会大大提升数据中心的安全可靠性。

    03 经济价值--节本创效

    3.1节本

    节省建设成本

    清晰的管理记录资产情况,可以使网络基础设施资源得到最大的利用,比起传统表格的记录方式,至少可以减少约20%的资产闲置.

    节省采购成本

    同理,记录清晰端接情况,节省设备端口及跳线等,从而清除设备上下架情况,节省设备等采购成本.

    节省时间成本

    目前的网络基础设施管理模式全部依靠人力,一旦发生故障或需要调取资料、新上架任务等,都需要人力接入,耗时耗力,还易产生人为错误,系统介入后,算法代替人工,提升规划、排障、查询等时间成本。

    节省故障导致的业务成本

    随着时间的迁移,网络基础设施等资源端接情况都会变化,如果没有准确的记录,一旦发生故障,排障时间大大增加,所承载业务中断,损失不可估量。

    节省人力成本

    因为有了清晰的基础数据,日常在维护之中就不需要大量的人力来支撑需求了,可以处理更有意义的工作。

    节省维护成本

    传统都是依靠表格记录,记录包括链路连接情况、IP地址、标签等等,管理工具的介入大大减少这些日常维护的成本,所有纸质资料都可以进行系统的管理,避免重复工作、无迹可寻,亦节省了制作报表等时间,重点链路还可重点保障.

    3.2创效

    我认为数据中心管理者首先要知道自己有什么资源,资源分散位置、端接情况等信息,才能实现数据中心精细化管理,网络基础设施管理平台可以清晰的统计出来实时资产数据。摸清家底,将再利用闲置资源回收,为业务提供服务、为企业再次创造价值。

    04 投资回报率分析

    口说无凭,案例数据来说话,以北京XX院项目为例。

    4.1案例背景

    2020年11月项目开始实施,采购1000节点。共计26台机柜,其中服务器60余台,交换机30余台,安全设备20余台,配线架260余个。

    主要问题:

          大多为老旧设备,线缆冗杂;

          历史悠久设备纸质文件众多;

          没有哑资源管理工具;

          需要大量人力,成本高昂。

    4.2使用前后分析

    原状:

    根据林科院项目统计,资深运维工程师15%-20%的时间都用于查找资料文献、排查僵尸线路等低效工作。设备年宕机时间约4%左右。

    现状:

    • 因为可以合理的规划机房空间(如机柜位置、U位等)节省了一定的空间资源,随着业务扩增,林科院项目现已增加30%机柜数量。

    • 据年末财务核算能耗成本、采购新设备成本、人力平均成本均有所下降。

    • 借助nVisual基础设施管理工具,运维工程师工作效率大大提升,虽业务扩增,但并无新增运维工程师。

    • 工程师反馈,部分资产统计都可以借助系统自动生成了,节省40%制作报表时间。

    4.3数据分析

    公式:投资回报率ROI=(2年节省费用÷2年投入费用)*100%

    IT预算50万元/年 低效工作时间成本5% nVisual至少提升2%以上(1万元/年估算)

    年宕机时间4%宕机损失MTTR 2万元/小时 nVisual降低20%宕机(价值按照20万元估算)

    原模式扩建机房应新增运维岗位至少3人(5000元/月工资,预计18万元)

    直观采购成本(减少服务器等设备采购)经财务核算,降低20%(按照5万元估算)

    2年共计节省费用:(1+20+18+5)*2=88万元

    ROI=88÷16*100%

    投资回报率:550%

    05 总结

     

     

    行业权威公众号、专家都已关注到最基础的网络基础设施,在百度搜索之中,网络基础设施可视化词条已多至三千五百多万条,各大领头行业标杆也以早将网络基础设施可视化系统建立,以上充分证明数据中心行业已然注意到网络基础设施管理的重要性,是呀这样真正能让运维工程师用起来,真正能实现数据中心细化管理的、建设起标准、规范运维体系的系统,谁不心动呢?


     

  • 相关阅读:
    JWT登录验证前后端设计与实现笔记
    【web前端特效源码】使用HTML5+CSS3制作一个会动的loading加载动画效果~~适合初学者~超简单~ |前端开发|IT软件
    vulnhub靶机darkhole
    C++异常
    冠军方案!2023第二届广州·琶洲算法大赛
    Nginx-03- Nginx+Keepalived高可用集群和基本原理
    USB到UART桥接控制器——GP232RNL
    UBUNTU新版本,一键安装NETCDF,安装netcdf-c netcdf-v
    神经网络的原理和应用,神经网络理论及应用
    一文带你梳理Python的中级知识
  • 原文地址:https://blog.csdn.net/NWVDI/article/details/125606171