• 阿里云11.12重大故障原因曝光


    这次双十一期间阿里故障受到很多人关注,双11晚上淘宝崩了上热搜,11.12号下午17:44,淘宝又崩了,闲鱼崩了,阿里云盘崩,钉钉崩了。。。,后端传来是阿里云全线产品故障导致,对于阿里真是多事之秋,依赖阿里云但是没上热搜的产品也估计要被好好review是否还有必要。

    图片

    首先得澄清下,这里面至少是2次故障,淘宝的故障是发生在双十一当天晚上并上了热搜的,阿里云故障是双十一结束后,11.12号下午17:44分发生的,这也是为啥第二次热搜里面是淘宝又崩了。有人把这两个故障混在一起,就无法解读了。

    阿里云这次故障影响到了所有的产品和全球可用区,详见 https://status.aliyun.com/

    图片

    图片

    据客户的一份「官方故障报告」曝光,这次故障细节和原因如下:

    故障问题概况:

    2023 年 11月 12 日 17:39 ,阿里云控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。

    工程师修订白名单版本后,分批重启 AK 服务,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

    故障影响范围:

    OTS、SLS、OSS、MNS 等产品的部分服务受到影响, RDS、ECS、网络等运行不受影响。云产品控制台、管控 API 等功能受到影响。

    故障影响时间:

    2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。

    故障处理过程:

    17:39:阿里云云产品控制台访问及管控 API 调用出现异常。

    17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

    18:01:工程师定位到根因。

    18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

    18:35:杭州等 Region 开始恢复正常。

    19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

    故障原因:

    访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

    这次核心是在AK服务读取白名单异常,但是异常处理代码没有经过测试,导致出现了严重的数据逻辑错误。工程师一般代码对主流程处理比较关注,经常忽视异常代码的测试,导致在异常情况下完全失控,这个需要重视。

    很多平台重点在关注赚钱的产品,而基础服务往往是不受重视的地方,这个需要老大有全局清醒的把控。

    吐槽一下,阿里云控制台的站内信很多是营销信息,竟然没有这次的故障信息,这个也是需要改进的地方。

    图片

    本文转载自:云数据库技术公众号(原文链接:阿里云11.12重大故障原因曝光

  • 相关阅读:
    网络的笔记
    python ToastNotifier TypeError got Nonetype
    JavaScript学习笔记01
    【C++】string类模拟实现上篇(附完整源码)
    【大型电商项目开发】线程池-异步(CompletableFuture)-48
    一种基于最大似然的语音信号混响时间(reverberation time)估计方法的MATLAB实现
    几款免费的时序数据库对比
    安卓安装包反编译后重新打包
    Canny边缘检测数学原理及Python代码实现
    【CSS】常用知识点
  • 原文地址:https://blog.csdn.net/NineData/article/details/134440373