RAS 技术要点
RAS 技术主要是通过MCA机制,AER 机制实现的。
MCA 机制可以上报并尽可能地修复系统总线,ECC, 奇偶校验,缓存和TLB 等等错误,识别故障
源并将故障信息记录在mc bank中,通过mac 机制,cpu内部的可纠正错误和不可纠正错误
均可上报并记录,并纠正硬件可纠正错误。对于不可纠正错误,通过会进行热重启。mca
的作用域包括处理器的所有模块,core, uncore, 和iio
AER IIO Advanced Error Reporting 机制
AER 机制负责侦测,记录并发送各种IIO 模块的了模块的错误信号,作用域包括iio 模块下的
所有了模块, 如pcie 接口, dmi, iio 的核心逻辑和intel vt -d等。
ras 处理流程
当检测到可纠正错误CE 时,对错误位置进行标记,并通过对应模块的RAS 技术快速修复错误,用户不会感知到这类错误的发生。
当出现不可收正错误uce时,会尝试对故障进行隔离。比如通过隔离内存坏块、总线降频等手段,维持系统的运行。若发生了更为严重的故障,系统直接宕,这里需要通过带外管理软件HDM恢复或重启系统。
对于硬件永久性故障,需要更换新的硬件或者启用备用设备进行修复。通过对部分硬件的热插拔功能。可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。
CPU 故障处理
当出现内核级错误,处理手段主要涉及到core disable for fault resilient boot 功能和core corrupt data containment enabled for dcu/ifu 功能。
core disable for frb
随着处理器内核数量的逐代增加,单个故障点从整个处理器转移到处理器内部的较小模块,比如单个core 或llc 的一部分。当出现了故障,除了可以禁用整个cpu 之外,现在可以做的禁用特定的核。
core 的禁用需要保留至少一个core 是活动的。才能完成系统引导过程。
PCIe 故障处理
PCIe的故障处理主要介绍两个功能,Pcie link retraining and recovery 功能和pci expres corrupt data containment 功能。
c