【365比分网】华为S2600双盘故障RAID5离线处理记录

一、情况描述

365bet足球比分近期接到用户报修存储告警且业务应用受到影响，检查发现华为S2600（版本号V100R005C02）一个RAID组中两块盘于半小时内先后发生故障，RAID5离线。现场情况如下：

17:48 位置4.1的硬盘故障，RAID5降级；

18:17 位置4.3的硬盘故障（存储时间慢一个小时）,编号为6的RAID5离线。

二、处理过程

据用户描述，该RAID组为虚拟化项目使用。工程师发现，该RAID组之前遵循的是一个RAID组中的LUN对应一个数据存储的规则，受影响的是其中一个2TB的数据存储。数据存储中存放有5台虚拟机，均为前端应用，目前无法正常运行，重新部署应用要花费较长时间。为防止数据丢失，工程师对存储告警内容及事件日志进行分析后，计划先拉起后故障的位置为4.3的坏盘，将RAID5恢复到降级状态，尝试拷出数据。

1、Revive 4.3坏盘

因为4.1和4.3先后发生故障，4.3后发生故障，所以先revive 4.3：

Ssh 登录S2600控制器，进入CLI模式；

Debug进入调试模式；

Mml进入mml模式；

Revive disk 4.3；

Revive raidlun 6；

经过以上操作，ID为6的RAID组状态变为degraed,LUN状态为可用，但spare盘并未开始顶替4.1。登录Vcenter发现，此时虚拟机系统已经挂死，但仍可对其进行操作。强制关闭虚拟机操作系统后，对涉及的5台虚拟机逐台进行迁移，其中两台迁移成功且恢复正常使用，另外3台在迁移时发生了报错；

客户反映报错的3台虚拟机中有1台业务已下线，可暂时不作处理，另外两台的AD主服务器重要性较高。但在迁移报错的同时，存储上出现介质错误的紧急告警。

2、Revive 4.1坏盘

此时用户着手重新部署尚未恢复的两台虚拟机应用，工程师计划将另外1块坏盘也拉起来，Revive 4.1坏盘；

进入debug ，mml模式，revive disk 4.1，随后系统开始自动spare盘顶替4.3。热备盘顶替完成后，尝试迁移两台故障虚拟机操作再次失败，虽然RAID组状态已恢复正常，但介质错误的告警仍然存在。进入debug模式，使用“disktool –f A | grep Current_Pending_Sector”检查并未发现有磁盘坏道存在。

3、清理受影响LUN的BST标记

RAID组状态恢复正常，但介质错误的告警，应该是对应LUN的介质错误导致数据不可用，故着手解决LUN介质错误问题；

进入debug，MML模式，使用bst showbst可以发现如下图中0.10、 0.11（即为顶替后的热备盘位置）上有几个位置一样的逻辑记录，同时，RAID组中4.4的硬盘有一个不能清除的物理记录；

使用bst delbst 磁盘ID lba len 逐条清理lba标记，清理完0.10上的逻辑错误后，0.11上同样位置的逻辑错误同时消失。清理完成后，存储上介质错误的紧急告警已经消除，仅剩两条坏盘的重要告警。再次克隆虚拟机也成功完成，受损RAID组数据全部得到恢复；

为保证设备稳定运行，首先卸载对应的数据存储（虚拟机已迁走），然后删除该RAID组的映射、删除LUN和RAID组，最后更换该RAID组中的硬盘、重建RAID组并进行重新映射。

三、经验总结

1、华为OceanStor S2600为第一代OceanStor存储（目前华为已经停止支持该型号存储），设备短时间内多块盘故障的情况是较少见的，但一旦发生会对业务造成很大影响，为尽可能减少损失，应做好日常监测和应急预案；

2、日常维护时应定期收集存储上的硬盘的smart数据，使用相关软件对硬盘健康情况进行监测，并对状况不良的硬盘提前进行预更换；

3、华为目前的存储都支持RAID6类型，且新上线的存储，一般都规划为RAID6类型，而且可靠性提高很多；

4、此次事件处理中可见RAID组和虚拟化数据存储逐一对应的规划卓有成效，没有扩大受影响的数据量；同理如果是文件系统或者数据库，也可以遵循这一原则；

5、如果遇到此类故障，一定要分析故障发生的先后顺序、对业务的影响程度，掌握故障设备的业务使用情况。

如欲了解更多，请登录365bet足球比分官方网站:gxmd.ccgsm.com

运维管理

硬件维保

软件维护

DC迁移

实施服务