• 37 | 什么是SLI、SLO、SLA


    1 SLI

    Service Level Indicator 服务水平指示器,服务水平,简称SLI。对于业务来说是最重要的指标。比如,对于网站来说,一个常见的SLI是请求得到正常响应的百分比。

    只要遵从两个原则就可以:

    • 选择能够标识一个主体是否稳定的指标,如果不是这个主体本身的指标,或者不能标识主体稳定性的,就要排除在外。
    • 优先选择与用户体验强相关或用户可以明显感知的指标。

    通常情况下,可以直接使用谷歌的VALET指标方法。

    • V:Volume,容量,服务承诺的最大容量
    • A:Availability,可用性,服务是否正常
    • L:Latency,延迟,服务的响应时间
    • E:Error,错误率,请求错误率是多少
    • T:Ticket,人工介入,是否需要人工介入

    2 SLO

    Service Level Object 服务水平目标,是围绕SLI构建的目标。通常是一个百分比,并与一个时间范围挂钩。比如,月度、季度、年度等。通常用一连串9来度量。如果脱离了时间的度量,SLO的意义就不大了。

    90%(1个9的正常运行时间):这意味着10%的停机时间,也就是说在过去的30天里停机了3天。
    99%(2个9的正常运行时间):意味着在过去30天中有1%,或者说7.2小时的停机时间。
    99.9%(3个9的正常运行时间):意味着0.1%,或者说43.2分钟的停机时间。
    99.95%(3.5个9的正常运行时间):意味着0.05%,或者说21.6分钟的停机时间。
    99.99%(4个9的正常运行时间):意味着0.01%,或者说4.32分钟的停机时间。
    99.999%(5个9的正常运行时间):意味着0.001%,或者说26秒的停机时间。

    Availability = Successful request Total request
    
    • 1

    那么什么样的指标才是 SLI 指标呢?下面我们就以最常见的 SLI 指标成功率,延迟率来看2个范例:

    请求成功的 TCP 数量/总 TCP 请求数,即 TCP 请求成功率。
    请求成功的延迟小于 200 ms 的请求数/总请求数,即 TCP 延迟小于 200ms 的的比例。
    下面我们就来看他们对应的常见 SLO 的范例:

    每月 TCP 请求成功率(SLI)大于 99.99%
    每月 99.99% 的 TCP 请求延迟(SLI)小于 200ms
    这就是我们其实在实际 SLI,SLO 设定中最常见的 2 个指标及其范例

    3 SLA

    Service Level Agreement 服务水平协议,是企业围绕SLO发布的协议。它要求在不满足SLO时向客户补偿的协议。

    Availability = Uptime (Uptime + Downtime)
    
    • 1
  • 相关阅读:
    Android NDK开发基础
    LeetCode 面试题 10.11. 峰与谷
    33.高等数学
    408 | 【2017年】计算机统考真题 自用回顾知识点整理
    PyQT5 QMessageBox对话框设置
    万物皆可集成系列:低代码如何不成为数据孤岛
    简单几步教您实现为工业树莓派共享网络
    vue基于promise可以用于浏览器和node.js的网络请求库【axios封装-收藏版】
    Spring【SpringAOP(通知类型、切点表达式 、多切面配置 、注解配置AOP、原生Spring实现AOP)】(六)-全面详解(学习总结---从入门到深化)
    【高项】- 范围管理论文
  • 原文地址:https://blog.csdn.net/u013916029/article/details/128148737