伴随着物联网(IoT)的快速发展,软硬件交互场景越来越普及,在自用和商用的空间场域中,我们智慧园区、未来酒店的智能化场景也得到了极大的丰富,打造出多款智能有科技感的产品,如人脸门禁、云前台、入住自助机、无线AP、云打印等等。空间域中围绕“人”、“设备”、“空间”打造的“智能化场景”有着特殊的物理空间上的分散和连接,硬件终端的异地分散部署、终端与云端(或边缘端)的连接通信,服务端-云端-硬件终端的远程指令控制等。物理空间上的分散和连接,增加了监控运维的难度,时常出现用户的各种问题反馈:
基于阿里巴巴最佳实践打造的智慧园区和未来酒店产品,已逐步走向商业化输出,问题也从内部用户反馈扩大到外部客户反馈,如果问题总是通过客户反馈才能被动感知到,必然会导致客户对我们的产品逐渐失去信心。如何才能变被动为主动,使得运维、开发和测试同学具备感知线上问题、诊断定位根因、快速应急止血的能力,是一件很必要的事情。
基于IoT打造的交互场景,从部署架构看,除了长链路的特性外,还有大规模分散部署的硬件终端,以及跑在终端上的软件系统。通常来说,智能终端软硬件交互系统是交付和长期运维的重难点,一方面存在硬件的不同厂商、不同型号、物理性损耗、ROM升级、摩尔定律等引发的五花八门的偶现问题,另一方面存在软件升级、依赖不可用等引发的重大问题。
我们从日常具体问题中抽象提炼出2大核心问题:
全链路日志和质量度量视图,是解决问题的关键所在。但要在智能终端软硬件交互系统中建设全链路日志和通用质量度量视图有一定的挑战,具体挑战如下:
基于IoT的智能终端交互系统,设备终端一般由交付同学来运维和升级,终端软件由客户端开发同学运维和升级,服务端由后端开发运维和升级。系统问题可能发生在硬件终端上、可能发生在终端应用软件上、也可能发生在服务端依赖上。多职能角色的协同,长链路的调用,导致问题“发现-定位-止血”的耗时远高于纯软件系统。
结合日常问题的分析经验,我们期待的问题发现定位方式是:首先能够实现终端问题的快速准确感知,其次基于业务场景指标呈现质量概览,并通过不同维度的质量分析模型进行下钻,最终通过全链路的调用日志明细确定根因。这样从业务场景出发,发现异常问题,串联全链路,任何职能角色都可以方便易懂的感知,关注和分析系统质量情况。同时我们的解决方案要满足以下要求才能真正的解决用户的难度和痛点。
<