最新宏杉科技IDDC与CRAID技术

  • 格式:doc
  • 大小:793.00 KB
  • 文档页数:14

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

宏杉科技I D D C与

C R A I D技术

MacroSAN IDDC与CRAID技术

杭州宏杉科技有限公司

1. 典型案例

某用户配置了16块1TB磁盘做RAID5,承载其在线关键业务。运行3年后,磁盘开始陆续损坏,发现其重建过程漫长。在其业务未中断的情况下,完成一次重建所需时间长达5天,这种情况还不是最糟的。更糟的是,在某次重建过程中,重建进程完成到60%时,重建过程被异常中止,RAID组fail,整个数据卷损坏,数据丢失。经检查发现,在重建过程中,该 RAID组中的另一块磁盘发生了读错误,导致磁盘failed,被RAID组踢出。

通过这个案例我们可以看出几个问题:

1、磁盘属于消耗品,发生老化后,会产生潜在故障盘或假象故障盘;

2、故障盘或假象故障盘都将导致RAID组重建;

3、大容量磁盘RAID重建时间过长,重建过程风险巨大;

4、潜在故障盘将导致RAID重建失败;

什么是假象故障磁盘

简单的说,假象故障磁盘就是在使用中发生错误告警,但返厂后经检查发现该磁盘没有任何物理损坏,检测为正常的磁盘。

为什么会有假象故障磁盘

通常是与设备运行环境有关的,比如磁盘受到外力导致的振动达到一定程度,就会造成磁盘工作失灵,这种失灵往往在消除振动后可以恢复。

●磁头在盘面的水平方面振动,会导致磁头与磁道偏离,磁头与目标磁道位置偏离过大,超

过了伺服机构能响应的允许值,此时磁头根本无法定位,造成工作失灵;

●磁头在与盘面垂直方向的振动,导致磁盘盘面与磁头距离的变化,磁头和盘片的间隙过

大,造成磁头感应到的信号电压不足,磁盘无法读/写;

什么是潜在故障磁盘

简单的说,潜在故障磁盘就是已经存在损坏扇区,但在设备运行状态中却显示为正常的磁盘。为什么会有潜在故障磁盘

由于磁盘本身属于易耗品,存储设备长期在线运行后,根据业务类型及机房环境不同,磁盘会出现不同程度的老化。这些老化磁盘中可能会存在不同程度的损坏扇区,而损坏扇区在没有IO读写触发的条件下,通常不会被存储设备感知。这种未被感知,但又存在一定损坏扇区的磁盘,就是潜在故障磁盘。一般情况下,潜在故障磁盘在非RAID环境中可能会导致磁盘中的部份文件埙坏或丢失。若存在于配置了RAID组的存储环境中,其危险性将及有可能会乘以N倍的数量放大。

故障磁盘的危害

●冗余RAID组重建频繁:存储设备长期在网运行后,由于机械设备老化,磁盘假象故障发

生的机率增加,并且会有越来越多的潜在故障磁盘转化为故障磁盘,这些磁盘的陆续损坏导致了频繁的RAID组重建。传统存储设备的RAID组重建过程中,会大量消耗读写性

能,尤其对于大容量磁盘,重建时间过长。因而往往会影响到用户业务的正常访问,且易出现冗余RAID组重建失败,发生数据丢失的事故。

●冗余RAID组重建失败:根据冗余RAID组原理,特别是采用积偶效验算法的RAID组,如

RAID5、RAID6,在进行RAID组重建时,需要读取该RAID组中其它成员成盘上的所有

数据,来计算被替换故障磁盘的数据。对于长期在网运行,磁盘老化较严重的设备,往往会隐藏着一定的潜在故障磁盘,一旦这些磁盘在重建过程中转化为故障磁盘,该RAID组会立刻失效,重建失败,导致该RAID组所有数据丢失。

2. 问题与挑战

随着云时代的到来,数据量越来越多,磁盘容量越来越大,发生磁盘损坏的比率也越来越大,如何解决磁盘故障对存储带来的危害成为重要课题目。

问题:

1、磁盘属于消耗品,一般3年左右,发生机械老化;

2、发生老化后,会产生潜在故障盘或假象故障盘;

3、故障盘或假象故障盘都将导致RAID组重建;

4、大容量磁盘RAID重建时间过长,重建过程风险巨大;

5、潜在故障盘易导致RAID重建失败;

挑战:

1、变被动重建为主动检测;

2、提高RAID容错度;

3、降低磁盘误判;

4、提高错误修复效率;

5、减少数据丢失风险;

3. 磁盘维护新方式-IDDC主动式磁盘诊断中心

基于多年存储维护经验的深刻理解,MacroSAN开发了一套可以在不增加任何附加投资的条件下,最大化提高磁盘及RAID组安全性的,智能存储磁盘维护检测修复工具。

IDDC:Initiative Disk Diagnosis Center,主动式磁盘诊断中心

该诊断中心包含了4个模块(磁盘检测、快速修复、坏块复位、磁盘诊断),它可以通过预先设置的策略定期对磁盘进行错误检测,用于发现磁盘中是否存在错误码。再根据错误码叛断磁盘错误类型,并进行相应的坏块修复、磁盘迁移或磁盘修复等操作,以提早处理磁盘潜在故障隐患,降低RAID组重建损坏机率,提高设备稳定性。

●磁盘检测:

➢对所有磁盘进行周期性全盘检测,提前发现故障;

➢支持磁盘检测速率动态调整,不影响应用性能;

➢发现问题的磁盘交由诊断中心统一处理;

●快速复位:结合CRAID的局部重建机制,可快速修复磁盘逻辑错误,降低全盘

重建机率。

●坏块修复:经过检测的磁盘发现存在坏块(扇区)后,会触发磁盘自身的remap

机制,将坏块的指针重定向到好的保留扇区中。然后调用RAID组的校验功

能,重建该数据块,确保数据一致性。

●磁盘诊断:所有告警磁盘、故障磁盘会在诊断中心进行复诊并尝试修复,减少

磁盘故障误判。修复后的磁盘自动转为全局热备磁盘。

3.1. 磁盘检测

对所有磁盘进行周期性全盘检测,提前发现错误并交由磁盘诊断中心统一处理。该功能可以通过以下几个模块实现:

3.2. 快速复位

磁盘子系统的核心功能之一就是磁盘错误处理,在收到磁盘返回的磁盘错误之后,根据不同的错误,可以采取不同的错误处理方案,包括:

➢重试,即针对磁盘可恢复的临时性故障(磁盘的假故障,比如震动引起的

读/写错误),磁盘子系统对命令进行重试;

➢对磁盘下电再上电,即从硬件上复位磁盘,尝试修复磁盘错误,结合上面

提到的RAID基于Cell的局部重建机制,复位磁盘过程中新写入的数据可

快速完成重建,恢复RAID的数据冗余性;

➢磁盘错误透传,由RAID进行处理。