前言:
《荀子》有云:“水能载舟,亦能覆舟。”在公司日常运营过程中,数据指标就像是水,孕育着生命,承载着万物。科学的数据指标能指引公司在正确的道路上不断前进,或者使平淡无常的业务焕发新生,而不合理的数据指标可能使业务无所适从。
指标是用于衡量事物发展程度的单位或方法,它在IT行业还有一个常用的名字,即度量。比如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。一般而言,我们可以通过一些关键指标来衡量公司业务运营情况的好坏。这也是我们为什么重视指标的原因。
从智能运维建设的角度来说,指标作为重要数据来源之一,是衡量数据健康度的一个重要因素。但因其存在“数量多、来源杂”等特点,很多企业与机构在分析时可能会陷入一种思想误区——“存在即合理,每一条数据都有其存在的道理,只要我们对其进行分析,自然能得到我们想要的价值。”这种想法通常会导致他们在面对海量数据时的束手无策,或是投入精力过多而收效甚微的结果。
如今,各大行业数字化转型正在如火如荼地进行,面对海量而繁杂的信息,企业想要高效运转,就亟需构建指标集中监控管理平台,来整合分散的数据。在此基础上结合成熟的大数据处理能力,使之形成标准化数据供给逐层深入的分析场景来消费使用,为智能运维的后续建设打下坚固的数据底座。
夏洛克指标解析中心是新一代智能化的运维指标分析平台,能够对运维指标和相关交易链路进行监控分析,通过标准化接入、智能检测、告警生成、多角度分析和复盘形成管理闭环。分析场景覆盖了故障处理的事前、事中和事后,具体包括“告警瞭望台”、“调用链路分析”、“异常分析”及“趋势预测”等功能。
随着银行业务的快速发展,系统体量已达成百上千,被管理对象高达几万至几十万,指标的数量已是一个天文数字,而单个指标的异常经常发生,如果每一个指标都要进行管理、检测,依照传统的调参方式会力所不及。
我们希望帮助客户实现指标异常检测算法的自动化,减轻人力成本、提升运维效率,所以在夏洛克指标解析中心里提供了用算法自动调优算法的能力。简而言之,这种能力通过算法对指标的历史数据特征进行学习,当异常出现时为系统自动选择合适的检测算法来对参数进行优化。
如上面第一张图所示,某指标检测默认选择偏向于周期性检测的算法A,但检测出来的指标不具备周期性,大量指标偏离基带,因此会引发大量的误告。
在第二张图中,我们可以看到经过夏洛克指标解析中心的算法自动调参优化,指出实际上应该选择算法B来进行检测,同时再对参数和召回率做一个大致的预测,这样生成的算法基带就会更具合理性,减少误告。
另外,在对单个指标异常进行检测的时候,我们认为对于该异常的重要级判断首先需要进行关联,即规则关联以及与其他相关指标关联判断。当然,在此之前要对指标做一定的治理,了解该指标的类别属性,如业务指标、基础架构指标、数据库指标等等,进而才能为后续的收敛、分析、建模等提供精准有效的数据支持。
擎创科技,成立于2016年,智能运维产品提供商,四度被Gartner提名为AIOps领域重点服务商。公司专注于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。公司自主研发的擎创夏洛克AIOps智慧运营平台,为企业IT运维提供了全局的智能可观测能力。整合告警、监控指标、日志、追踪等多维数据,实现精准告警、故障关联、日志聚类、交易多维分析、根因定位等场景功能,助力企业数字化业务高效、稳定和顺畅运行。
目前客户已覆盖金融、制造、能源交通等行业的标杆企业,包括银联、交行、人行清算中心、多家头部城市商业银行、省级农信社/农商行、上证所、中国邮政、宝马、中石化金山石化等。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。目前客户已覆盖金融、制造、能源交通等行业的标杆企业,包括银联、交行、人行清算中心、多家头部城市商业银行、省级农信社/农商行、上证所、中国邮政、宝马、中石化金山石化等。
公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
更多运维思路和案例我们将持续更新,敬请期待~
关注我们,更新不迷路~