系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。
更换磁盘后,告警自动恢复。
告警ID | 告警级别 | 可自动清除 |
---|---|---|
12033 | 严重 | 是 |
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称。 |
RoleName | 产生告警的角色名称。 |
HostName | 产生告警的主机名。 |
DiskName | 产生告警的磁盘名。 |
磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,例如DBService主备同步等,严重时可能会导致服务不可用。
磁盘老化或者磁盘坏道。
检查磁盘状态。
硬件要求说明,可参考产品文档中《产品描述》的“部署方案 > 硬件及运行环境要求”章节。
其中/dev/sd[x]为步骤 2中获取到的上报告警的磁盘名称。
例如执行:
lsscsi | grep "/dev/sda"
如果命令执行结果第三列显示ATA、SATA或者SAS,说明磁盘没有建立RAID;显示其他信息,则该磁盘可能建立了RAID。
例如执行:
smartctl -i /dev/sda
如果命令执行结果中包含“SMART support is: Enabled”,表示磁盘支持smart;执行结果中包含“Device does not support SMART”或者其他,表示磁盘不支持smart。
例如执行:
smartctl -H --all /dev/sda
查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。
例如执行:
smartctl -l error -H /dev/sda
查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。
如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。
例如执行:
smartctl -t long /dev/sda
例如依次执行:
smartctl -d sat+megaraid,0 -H --all /dev/sda
smartctl -d sat+megaraid,1 -H --all /dev/sda
smartctl -d sat+megaraid,2 -H --all /dev/sda
...
依次尝试不同磁盘类型和槽位信息的命令组合,如果执行结果中显示“SMART support is: Enabled”,表示磁盘支持smart,记录命令执行成功时磁盘类型和槽位信息组合参数;如果尝试完以上所有的命令组合,执行结果都未显示“SMART support is: Enabled”,表示磁盘不支持smart。
例如执行:
smartctl -d sat+megaraid,2 -H --all /dev/sda
查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。
例如执行:
smartctl -d sat+megaraid,2 -l error -H /dev/sda
查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。
如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。
例如执行:
smartctl -d sat+megaraid,2 -t long /dev/sda
例如LSI一般是MegaCli工具。
如果当前磁盘出现三次以上该告警,建议用户更换磁盘。
更换磁盘。
收集故障信息。