最新宏杉科技IDDC与CRAID技术

格式：doc
大小：793.00 KB
文档页数：14

下载文档原格式

/ 14

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

宏杉科技I D D C与

C R A I D技术

MacroSAN IDDC与CRAID技术

杭州宏杉科技有限公司

1. 典型案例

某用户配置了16块1TB磁盘做RAID5，承载其在线关键业务。运行3年后，磁盘开始陆续损坏，发现其重建过程漫长。在其业务未中断的情况下，完成一次重建所需时间长达5天，这种情况还不是最糟的。更糟的是，在某次重建过程中，重建进程完成到60%时，重建过程被异常中止，RAID组fail，整个数据卷损坏，数据丢失。经检查发现，在重建过程中，该 RAID组中的另一块磁盘发生了读错误，导致磁盘failed，被RAID组踢出。

通过这个案例我们可以看出几个问题：

1、磁盘属于消耗品，发生老化后，会产生潜在故障盘或假象故障盘；

2、故障盘或假象故障盘都将导致RAID组重建；

3、大容量磁盘RAID重建时间过长，重建过程风险巨大；

4、潜在故障盘将导致RAID重建失败；

什么是假象故障磁盘

简单的说，假象故障磁盘就是在使用中发生错误告警，但返厂后经检查发现该磁盘没有任何物理损坏，检测为正常的磁盘。

为什么会有假象故障磁盘

通常是与设备运行环境有关的，比如磁盘受到外力导致的振动达到一定程度，就会造成磁盘工作失灵，这种失灵往往在消除振动后可以恢复。

●磁头在盘面的水平方面振动，会导致磁头与磁道偏离，磁头与目标磁道位置偏离过大，超

过了伺服机构能响应的允许值，此时磁头根本无法定位，造成工作失灵；

●磁头在与盘面垂直方向的振动，导致磁盘盘面与磁头距离的变化，磁头和盘片的间隙过

大，造成磁头感应到的信号电压不足，磁盘无法读／写；

什么是潜在故障磁盘

简单的说，潜在故障磁盘就是已经存在损坏扇区，但在设备运行状态中却显示为正常的磁盘。为什么会有潜在故障磁盘

由于磁盘本身属于易耗品，存储设备长期在线运行后，根据业务类型及机房环境不同，磁盘会出现不同程度的老化。这些老化磁盘中可能会存在不同程度的损坏扇区，而损坏扇区在没有IO读写触发的条件下，通常不会被存储设备感知。这种未被感知，但又存在一定损坏扇区的磁盘，就是潜在故障磁盘。一般情况下，潜在故障磁盘在非RAID环境中可能会导致磁盘中的部份文件埙坏或丢失。若存在于配置了RAID组的存储环境中，其危险性将及有可能会乘以N倍的数量放大。

故障磁盘的危害

●冗余RAID组重建频繁：存储设备长期在网运行后，由于机械设备老化，磁盘假象故障发

生的机率增加，并且会有越来越多的潜在故障磁盘转化为故障磁盘，这些磁盘的陆续损坏导致了频繁的RAID组重建。传统存储设备的RAID组重建过程中，会大量消耗读写性

能，尤其对于大容量磁盘，重建时间过长。因而往往会影响到用户业务的正常访问，且易出现冗余RAID组重建失败，发生数据丢失的事故。

●冗余RAID组重建失败：根据冗余RAID组原理，特别是采用积偶效验算法的RAID组，如

RAID5、RAID6，在进行RAID组重建时，需要读取该RAID组中其它成员成盘上的所有

数据，来计算被替换故障磁盘的数据。对于长期在网运行，磁盘老化较严重的设备，往往会隐藏着一定的潜在故障磁盘，一旦这些磁盘在重建过程中转化为故障磁盘，该RAID组会立刻失效，重建失败，导致该RAID组所有数据丢失。

2. 问题与挑战

随着云时代的到来，数据量越来越多，磁盘容量越来越大，发生磁盘损坏的比率也越来越大，如何解决磁盘故障对存储带来的危害成为重要课题目。

问题：

1、磁盘属于消耗品，一般3年左右，发生机械老化；

2、发生老化后，会产生潜在故障盘或假象故障盘；

3、故障盘或假象故障盘都将导致RAID组重建；

4、大容量磁盘RAID重建时间过长，重建过程风险巨大；

5、潜在故障盘易导致RAID重建失败；

挑战：

1、变被动重建为主动检测；

2、提高RAID容错度；

3、降低磁盘误判；

4、提高错误修复效率；

5、减少数据丢失风险；

3. 磁盘维护新方式－IDDC主动式磁盘诊断中心

基于多年存储维护经验的深刻理解，MacroSAN开发了一套可以在不增加任何附加投资的条件下，最大化提高磁盘及RAID组安全性的，智能存储磁盘维护检测修复工具。

IDDC：Initiative Disk Diagnosis Center，主动式磁盘诊断中心

该诊断中心包含了4个模块（磁盘检测、快速修复、坏块复位、磁盘诊断），它可以通过预先设置的策略定期对磁盘进行错误检测，用于发现磁盘中是否存在错误码。再根据错误码叛断磁盘错误类型，并进行相应的坏块修复、磁盘迁移或磁盘修复等操作，以提早处理磁盘潜在故障隐患，降低RAID组重建损坏机率，提高设备稳定性。

●磁盘检测：

➢对所有磁盘进行周期性全盘检测，提前发现故障；

➢支持磁盘检测速率动态调整，不影响应用性能；

➢发现问题的磁盘交由诊断中心统一处理；

●快速复位：结合CRAID的局部重建机制，可快速修复磁盘逻辑错误，降低全盘

重建机率。

●坏块修复：经过检测的磁盘发现存在坏块（扇区）后，会触发磁盘自身的remap

机制，将坏块的指针重定向到好的保留扇区中。然后调用RAID组的校验功

能，重建该数据块，确保数据一致性。

●磁盘诊断：所有告警磁盘、故障磁盘会在诊断中心进行复诊并尝试修复，减少

磁盘故障误判。修复后的磁盘自动转为全局热备磁盘。

3.1. 磁盘检测

对所有磁盘进行周期性全盘检测，提前发现错误并交由磁盘诊断中心统一处理。该功能可以通过以下几个模块实现：

3.2. 快速复位

磁盘子系统的核心功能之一就是磁盘错误处理，在收到磁盘返回的磁盘错误之后，根据不同的错误，可以采取不同的错误处理方案，包括：

➢重试，即针对磁盘可恢复的临时性故障（磁盘的假故障，比如震动引起的

读/写错误），磁盘子系统对命令进行重试；

➢对磁盘下电再上电，即从硬件上复位磁盘，尝试修复磁盘错误，结合上面

提到的RAID基于Cell的局部重建机制，复位磁盘过程中新写入的数据可

快速完成重建，恢复RAID的数据冗余性；

➢磁盘错误透传，由RAID进行处理。

最新宏杉科技IDDC与CRAID技术

相关主题

文档推荐

最新文档