• 服务器RAS


    RAS 技术要点

    RAS 技术主要是通过MCA机制,AER 机制实现的。

    MCA 机制可以上报并尽可能地修复系统总线,ECC, 奇偶校验,缓存和TLB 等等错误,识别故障

    源并将故障信息记录在mc bank中,通过mac 机制,cpu内部的可纠正错误和不可纠正错误

    均可上报并记录,并纠正硬件可纠正错误。对于不可纠正错误,通过会进行热重启。mca

    的作用域包括处理器的所有模块,core, uncore, 和iio 

    AER IIO Advanced Error Reporting 机制

    AER 机制负责侦测,记录并发送各种IIO 模块的了模块的错误信号,作用域包括iio 模块下的

    所有了模块, 如pcie 接口, dmi, iio 的核心逻辑和intel vt -d等。

    ras 处理流程

    当检测到可纠正错误CE 时,对错误位置进行标记,并通过对应模块的RAS 技术快速修复错误,用户不会感知到这类错误的发生。

     当出现不可收正错误uce时,会尝试对故障进行隔离。比如通过隔离内存坏块、总线降频等手段,维持系统的运行。若发生了更为严重的故障,系统直接宕,这里需要通过带外管理软件HDM恢复或重启系统。

     对于硬件永久性故障,需要更换新的硬件或者启用备用设备进行修复。通过对部分硬件的热插拔功能。可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。

    CPU 故障处理

    当出现内核级错误,处理手段主要涉及到core disable for fault resilient boot 功能和core corrupt data containment enabled for dcu/ifu 功能。

     core disable for frb

    随着处理器内核数量的逐代增加,单个故障点从整个处理器转移到处理器内部的较小模块,比如单个core 或llc 的一部分。当出现了故障,除了可以禁用整个cpu 之外,现在可以做的禁用特定的核。

    core 的禁用需要保留至少一个core 是活动的。才能完成系统引导过程。

    PCIe 故障处理

    PCIe的故障处理主要介绍两个功能,Pcie link retraining and recovery 功能和pci expres corrupt data containment 功能。

    c

  • 相关阅读:
    分布式理论
    java类的练习--下面给出一个根据雇员类型利用多态性完成
    如何构建更简洁的前端架构?
    Spring源码:SpringBean 的注册-XML源码解析
    SOLIDWORKS 2024新功能之Visualize篇
    java遇到的一些集合相关知识
    新一代分布式实时流处理引擎Flink入门实战操作篇
    2023爱分析·中国大模型市场商业化进展研究报告|爱分析报告
    前端组件封装:构建模块化、可维护和可重用的前端应用
    maya blendshape
  • 原文地址:https://blog.csdn.net/robinsongsog/article/details/127032621