存储故障磁盘超强纠错技术简介_第1页
存储故障磁盘超强纠错技术简介_第2页
存储故障磁盘超强纠错技术简介_第3页
存储故障磁盘超强纠错技术简介_第4页
存储故障磁盘超强纠错技术简介_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3页,共SECTIONPAGES9页概述背景近年来硬盘容量急剧增大,单块硬盘从过去几百G到现在主流的3TB、4TB,再到更高的6TB硬盘,传统的RAID机制碰到了极大的挑战。大容量硬盘再带来高性价比的同时,也使得硬盘数据的安全问题愈加明显,在这其中最突出的就是硬盘故障率过高。经过大量实践考验的10年存储经验积累,我司将硬盘故障导致的故障时间减少80%,市场上磁盘故障率由3%降低到了0.4%,远低于业界水平。这种质的飞跃,得益于我司的故障磁盘超强纠错技术,能够提供多种有效机制对磁盘和阵列进行容错处理,提高RAID可靠性:磁盘微代码处理磁盘错误修复/阵列巡检磁盘SMART检测及预拷贝磁盘两级坏道替换机制允许多块磁盘同时发生介质错误阵列超级块冗余设计容错技术2.1磁盘微代码处理硬盘在读写过程中可能返回错误代码,所有的错误代码都以scsisensecode向RAID层返回,各种不同的错误代码均有其特定的含义,覆盖磁盘坏、磁盘介质错误、链路问题、磁盘abnormal或是磁盘重分配扇区满等等。RAID层将针对不同的错误代码,智能地采取不同的处理策略。2.2磁盘错误修复/阵列巡检该技术主要适用于冗余RAID类型阵列。磁盘读错误修复:当读RAID中磁盘数据的时候,其中一块磁盘出现读介质错误,并且读错误的条带为冗余条带。根据RAID的算法特点,可以读出同一条带其他磁盘的数据,进行运算,得到该磁盘正确的数据。将运算获得数据重新写到磁盘上,写成功之后,也意味着修复了该磁盘。阵列巡检:系统周期性对冗余RAID进行数据一致性检测,对存在数据错误的硬盘坏道进行自动修复。该机制的修复条件和修复措施基本同磁盘错误修复。两者不同之处在于:磁盘错误修复是被动检测到磁盘有读错误上报及时进行处理,而阵列巡检则是主动监测阵列坏道状况,预先进行处理。阵列巡检过程需要定义巡检周期。巡检描周期是对所有需要扫描的RAID进行一次坏道巡检的时间间隔。巡检周期设置过短会增加硬盘负荷,影响硬盘性能;周期设置过长则无法及时发现坏道,失去巡检意义。2.3磁盘SMART检测及预拷贝硬盘预拷贝技术是通过硬盘预测技术获取第一手硬盘状态信息。S.M.A.R.T的全称为“Self-Monitoring,AnalysisandReportingTechnology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。经过智能的预拷贝算法对这些运行状态进行判断,以获悉硬盘可能即将失效的概率,提前将风险较大的硬盘数据拷贝到热备盘上。2.4磁盘两级坏道替换机制该机制也称为磁盘重映射,分为两级:第一级是磁盘本身坏道映射,也可以称为磁盘的故障自修复,是磁盘固有的特性;第二级是独有的坏道替换管理,是在RAID层增加的一种替换机制。RAID层的坏道替换,需要先在磁盘中划分一个保留区,然后在对阵列中的磁盘进行写IO时,如果发生不可修复的介质错误,即磁盘本身修复失败时,则可以根据重映射算法,将IO写到这个坏块重新映射的自保留区域,下次读取这个IO的时候,就直接从这块保留的区域读出。2.5允许多块磁盘同时发生介质错误多磁盘错误容忍机制允许RAID中多块磁盘非同一条带同时发生介质错误。对于冗余阵列,如果多块磁盘发生不可修复的介质读错误,则可以由“错误写修复”机制自动进行恢复;如果多块磁盘发生不可修复的、且坏道替换失败的介质写错误,只要不在同一条带,则RAID仍然是可用的,后续可以通过拷贝重建机制依次加入热备来替换掉所有故障磁盘。如以下图中所示RAID5阵列,虽然每块磁盘上都有一个或多个介质错误,但只要保证同一条带没有两个及以上错误,那么所有条带都是可用的,即该阵列也就是可用的。2.6阵列超级块冗余设计RAID超级块:是RAID阵列在每块磁盘上预留的一块特殊空间,用来存储阵列的配置信息,不能用于业务数据存储,在设备关机或重启或是阵列迁移之后,RAID都可以根据这块信息,都可以重新组建阵列,并恢复到之前的运行状态。超级块中的某些信息相当重要,一旦丢失就会导致阵列无法运行,所以需要对超级块进行冗余设计。RAID阵列中每块磁盘的超级块都有主区和备区,更新超级块的时候,主区和备区同时更新,默认是以主区超级块信息组成阵列,当主区故障,无法读出数据的时候,或者读出的数据跟其他磁盘不一致,则读备区超级块信息来组成阵列,然后修复其它不一致的超级块数据。技术优势综上所述,我司的超强RAID纠错容错技术,从多角度预防和降低磁盘故障,以避免因磁盘问题所导致的RAID失效,主要优势有以下方面:1)磁盘微代码的智能处理可以迅速恢复磁盘状态,提高磁盘的容错能力;有效的剔除坏盘,保证磁盘链路的稳定性;为RAID的安全运行提供可靠的物理环境。2)磁盘错误修复/阵列巡检主动监测与被动检测双管齐下,对错误进行智能修复,提高阵列数据的可靠性;阵列巡检可以在界面上人为定制,易于管理和维护。3)磁盘SMART检测及预拷贝缩短和避免硬盘失效后的漫长重构时间;降低了在重构过程中硬盘再次失效的概率;有效地提高了存储的安全性,保证系统的业务连续。4)磁盘两级坏道替换机制两级替换,对坏块重新映射,将硬盘损坏区域粒度降低为块级(甚至为扇区级),降低磁盘的故障失效率,延长磁盘使用寿命。5)多磁盘错误容忍机制相比于“传统RAID5两块磁盘发生错误,阵列就Failed不可用”来说,该机制将阵列不可用粒度降低为条带级别,大大减小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论