版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-7-512022-7-52第三章计算机系统的可靠性3.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性3.2 3.2 容错系统的概念容错系统的概念3.3 3.3 硬件冗余硬件冗余3.4 3.4 软件冗余软件冗余3.5 3.5 磁盘阵列的编码容错方案磁盘阵列的编码容错方案2022-7-533.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n可靠性:系统在规定的条件下,完成规定的功可靠性:系统在规定的条件下,完成规定的功能的能力。能的能力。n可靠性用可用度来度量。可靠性用可用度来度量。n可用度:系统在可用度:系统在t t时刻处于正常状态的概率。时刻处于正常状态的
2、概率。n可用度计算:可用度计算: A(t)=A(t)=平均无故障时间平均无故障时间/ / ( (平均无故障时间平均无故障时间+ +平均修复时间平均修复时间) )n平均无故障时间:平均无故障时间:MTBFMTBFn平均修复时间:平均修复时间: MTRFMTRF2022-7-543.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性可用性的定量表现:可用性的定量表现:n可靠性的测度方法:抗毁性,生存性,可靠性的测度方法:抗毁性,生存性,有效性。有效性。n可靠性表现为硬件可靠性,软件可靠性,可靠性表现为硬件可靠性,软件可靠性,人员可靠性,环境可靠性等。人员可靠性,环境可靠性等。n可维护性:
3、平均修复时间:可维护性:平均修复时间:MTRFMTRFn维修保障:后勤支援能力维修保障:后勤支援能力2022-7-553.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n浴盆曲线浴盆曲线2022-7-563.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n电子元器件的质量等级;电子元器件的质量等级;n电子元器件的选用:电子元器件的选用:n对元器件性能的掌握;对元器件性能的掌握;n降额使用;降额使用;n热设计;热设计;n抗辐射设计;抗辐射设计;n防静电损伤;防静电损伤;n防操作过程中的损伤;防操作过程中的损伤;n储存与保管问题。储存与保管问题。2022-7-573.1
4、 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性热设计技术热设计技术n热交换途径,热环境影响因素热交换途径,热环境影响因素(电能、机械能电能、机械能转换为热量转换为热量);n冷却方法:自然冷却、强迫风冷、冷板式冷却;冷却方法:自然冷却、强迫风冷、冷板式冷却;n“软件冷却软件冷却”n风道风道n水冷,液氮冷却水冷,液氮冷却n热管,导热热管,导热2022-7-583.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n1963年发明并制造出热管,是高效传热元件。年发明并制造出热管,是高效传热元件。80年代前,热管用于卫星等高端系统。年代前,热管用于卫星等高端系统。n导管内填充了液
5、态导热介质。热管两端产生温导管内填充了液态导热介质。热管两端产生温差的时候,蒸发端的液体就会迅速气化,将热差的时候,蒸发端的液体就会迅速气化,将热量带向冷凝端,速度非常快。液体在冷凝端凝量带向冷凝端,速度非常快。液体在冷凝端凝结液化以后,通过毛细作用,流回蒸发端。结液化以后,通过毛细作用,流回蒸发端。n水水-气之间的相变反应,使热管的热传导效率气之间的相变反应,使热管的热传导效率比普通的纯铜高许多倍。比普通的纯铜高许多倍。n 热管传热效果好,噪音低,使用寿命长。热管传热效果好,噪音低,使用寿命长。2022-7-593.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5
6、103.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5113.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5123.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5132022-7-5142022-7-5152022-7-5162022-7-5172022-7-5182022-7-5192022-7-5202022-7-5212022-7-5222022-7-5232022-7-5243.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性元器件布局元器件布局n发热元件分散安装发热元件分散安装n使热
7、敏感元件处于低温区使热敏感元件处于低温区n采用短通路,减少传导热阻采用短通路,减少传导热阻n较少接触面热阻较少接触面热阻n印刷板热设计印刷板热设计n机箱热设计机箱热设计2022-7-5253.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性热分析手段热分析手段n热传导、热对流、热辐射热传导、热对流、热辐射n美美 BETAsoft软件,可实现器件级、电路板级、软件,可实现器件级、电路板级、系统级电子产品热分析和热设计。系统级电子产品热分析和热设计。2022-7-5263.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5272022-7-5282022-7-
8、5293.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性故障、失效和错误的概念故障、失效和错误的概念 n失效是指硬件物理特性异变。失效是指硬件物理特性异变。n故障是指硬件或软件的错误状态,是失效在逻故障是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。范围和发生时间来描述。 n错误是指程序或数据结构中的故障表现形式,错误是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。是故障和失效所造成的后果。 2022-7-5303.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性故
9、障的分类故障的分类 n故障可分为逻辑故障和非逻辑故障两种。故障可分为逻辑故障和非逻辑故障两种。n按时间划分,故障可分为以下三种:按时间划分,故障可分为以下三种: 1.1.永久故障是指永远持续下去直至修复为止的故永久故障是指永远持续下去直至修复为止的故障。硬件的永久性故障意味着不可逆的物理变障。硬件的永久性故障意味着不可逆的物理变异。软件的永久性故障也是一个不可自动恢复异。软件的永久性故障也是一个不可自动恢复的错误状态。的错误状态。 2.2.间歇性故障是短暂的、断续,它具有偶然性、间歇性故障是短暂的、断续,它具有偶然性、不定期的重复性。如一个处于临界状态的电路不定期的重复性。如一个处于临界状态的
10、电路输出时好时坏,虚焊点也会引起这样的故障。输出时好时坏,虚焊点也会引起这样的故障。2022-7-5313.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性3.3.偶然性故障的出现是暂时的,且可能是非重复偶然性故障的出现是暂时的,且可能是非重复性的。常因环境的变化、电源干扰、元器件性性的。常因环境的变化、电源干扰、元器件性能的波动、软件的随机变化、电磁干扰等因素能的波动、软件的随机变化、电磁干扰等因素而引起。而引起。n统计表明,间歇性故障和偶然性故障占整个故统计表明,间歇性故障和偶然性故障占整个故障的很大比例,成为系统出错的主要根源。早障的很大比例,成为系统出错的主要根源。早期美国
11、空军的一项研究报告指出,这类故障占期美国空军的一项研究报告指出,这类故障占所有故障的所有故障的80%80%。IBMIBM公司的一项报告指出:这公司的一项报告指出:这类故障占所有现场失效的类故障占所有现场失效的90%90%。2022-7-5323.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n错误的根源:错误是失效和故障所引起的后果,错误的根源:错误是失效和故障所引起的后果,其根源可以归纳为下图。其根源可以归纳为下图。2022-7-5333.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n容错技术能达到对故障的容错技术能达到对故障的“容忍容忍”,但并非是,但并非是“
12、无视无视” ” 故障的存在。故障的存在。n它首先能自动地适时地检测并诊断出系统的故它首先能自动地适时地检测并诊断出系统的故障,然后采取对故障的控制或处理的策略。障,然后采取对故障的控制或处理的策略。 n根据错误的不同情况,一个容错系统可能分根据错误的不同情况,一个容错系统可能分1010个阶段个阶段: : (1)(1)故障限制故障限制(2)(2)故障检测故障检测 (3)(3)故障屏蔽故障屏蔽 (4)(4)重试重试 (5)(5)诊断诊断 (6)(6)重组重组 (7)(7)恢复恢复 (8)(8)重启动重启动 (9)(9)修修复复 (10)(10)重构重构2022-7-5343.1 3.1 什么是计算
13、机系统的可靠性什么是计算机系统的可靠性n按照系统的这些失效响应方式,容错技术按照系统的这些失效响应方式,容错技术可分成三种:故障检测、静态冗余、动态可分成三种:故障检测、静态冗余、动态冗余。冗余。n静态冗余能容忍故障,但不给出故障警告。静态冗余能容忍故障,但不给出故障警告。 n动态冗余用于纠错码存储器或具有固定配动态冗余用于纠错码存储器或具有固定配置置( (即线路器件之间的逻辑连接保持不变即线路器件之间的逻辑连接保持不变) )的多数表决冗余计算机之类的系统中。的多数表决冗余计算机之类的系统中。 2022-7-5353.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性2022-7-5
14、363.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性n提高系统可靠性的方法:提高系统可靠性的方法:n避错:提高软硬件质量,抵御故障。避错:提高软硬件质量,抵御故障。n容错:故障发生时系统仍能继续运行,容错:故障发生时系统仍能继续运行,提供服务与资源。提供服务与资源。n美国容错计算机有限公司美国容错计算机有限公司:Stratus:Stratusn天腾公司天腾公司TandenTanden Computers Computers,19741974年年成立。成立。2022-7-5373.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性Stratus容错服务器采用容错设计容错
15、服务器采用容错设计n2004年年3月月29日美国容错技术有限公司与微软日美国容错技术有限公司与微软在北京宣布,在北京宣布,Stratus生产的基于生产的基于Windows Server2000操作系统的容错服务器操作系统的容错服务器Ft Server。 nFt Server是基于是基于Intel IA架构,使用可互相替架构,使用可互相替换的冗余硬件。各个冗余部件工作在时钟同步换的冗余硬件。各个冗余部件工作在时钟同步锁定模式下,以单一的操作系统映像,同时执锁定模式下,以单一的操作系统映像,同时执行相同的应用和交易。行相同的应用和交易。2022-7-5383.1 3.1 什么是计算机系统的可靠性什
16、么是计算机系统的可靠性HP NonStop HP nNonStop是是HP工业标准服务器系列产品中的工业标准服务器系列产品中的高端产品,是一个开放的专用平台。高端产品,是一个开放的专用平台。nNonStop服务器的专用性表现在它的核心容服务器的专用性表现在它的核心容错结构,可进行全面的故障检测和隔离,并保错结构,可进行全面的故障检测和隔离,并保护数据的完整性,整个系统无任何单点故障,护数据的完整性,整个系统无任何单点故障,其可用性达到其可用性达到99.999%,足以让最关键和复,足以让最关键和复杂的应用得到满足。杂的应用得到满足。2022-7-5393.1 3.1 什么是计算机系统的可靠性什么
17、是计算机系统的可靠性n NonStop服务器的处理性能通过松散耦服务器的处理性能通过松散耦合的非共享体系结构得以线性方式进行合的非共享体系结构得以线性方式进行扩展,支持扩展,支持2到到4080个处理器,并对用个处理器,并对用户透明。户透明。nNonStop服务器正全面转向安腾平台。服务器正全面转向安腾平台。 2022-7-5402022-7-5413.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性容错技术的发展与应用展望容错技术的发展与应用展望1.1.容错技术的应用是网络时代的客观需求容错技术的应用是网络时代的客观需求 2.2.软件容错技术将有较大进展软件容错技术将有较大进展 3
18、.3.硬件容错、操作系统容错相结合的容错硬件容错、操作系统容错相结合的容错设计方法将备受重视设计方法将备受重视4.VLSI4.VLSI的容错设计技术将发挥巨大作用的容错设计技术将发挥巨大作用5.5.系统容错设计的应用目标明确系统容错设计的应用目标明确 2022-7-5423.1 3.1 什么是计算机系统的可靠性什么是计算机系统的可靠性容错技术的发展与应用展望容错技术的发展与应用展望6.6.容错技术应用向容错技术应用向PCPC发展发展 7.7.容错技术向智能化发展容错技术向智能化发展 8.8.容错技术应用和应用服务技术相结合容错技术应用和应用服务技术相结合 9.9.容错技术将走向开放化、标准化容
19、错技术将走向开放化、标准化 2022-7-5433.2 3.2 容错系统的概念容错系统的概念n容错:系统资源冗余。容错:系统资源冗余。n硬件容错硬件容错n软件容错软件容错n时间容错:校验、纠错时间容错:校验、纠错n信息容错信息容错2022-7-5443.2 3.2 容错系统的概念容错系统的概念n元器件级容错元器件级容错n部件级容错部件级容错n分系统级容错分系统级容错n系统级容错系统级容错n容错:平衡可靠性与资源消耗的关系。容错:平衡可靠性与资源消耗的关系。2022-7-5453.2 3.2 容错系统的概念容错系统的概念容错系统工作过程容错系统工作过程n自动侦测自动侦测n自动切换自动切换n自动恢
20、复自动恢复2022-7-5463.3 3.3 硬件冗余硬件冗余1.1.增加线路、设备、部件,形成备份增加线路、设备、部件,形成备份2022-7-5473.3 3.3 硬件冗余硬件冗余2.2.数据备份数据备份n数据备份的目的数据备份的目的n为了有效地利用和保护数据,存储备份为了有效地利用和保护数据,存储备份是必不可少的措施。是必不可少的措施。n存储备份的主要目的有两个:存储备份的主要目的有两个: (1)(1)数据共享;数据共享; (2)(2)用于系统灾难恢复。用于系统灾难恢复。2022-7-5483.3 3.3 硬件冗余硬件冗余n信息存储系统的可靠性和可用性、数据备信息存储系统的可靠性和可用性、
21、数据备份和灾难恢复能力往往是企业用户首先要份和灾难恢复能力往往是企业用户首先要考虑的问题。考虑的问题。n为防止灾难事件对数据的毁坏,关键数据为防止灾难事件对数据的毁坏,关键数据还要考虑还要考虑异地备份和容灾异地备份和容灾问题。问题。n数据的灾难恢复是保证系统安全可靠的基数据的灾难恢复是保证系统安全可靠的基础。础。2022-7-5493.3 3.3 硬件冗硬件冗余余n存储管理和维护自动化存储管理和维护自动化n由于存储系统越来越复杂,管理维护人员由于存储系统越来越复杂,管理维护人员的出差错的可能性也越来越大,稍不注意的出差错的可能性也越来越大,稍不注意就会丢失数据。就会丢失数据。n现代存储系统要求
22、具有智能化的自动管理现代存储系统要求具有智能化的自动管理和维护功能。和维护功能。2022-7-5503.3 3.3 硬件冗余硬件冗余n备份策略备份策略: :n备份策略是所要采用的备份方式备份策略是所要采用的备份方式, ,要根据要根据自己的实际情况来制定。自己的实际情况来制定。n基本的备份策略有三种。基本的备份策略有三种。2022-7-5513.3 3.3 硬件冗余硬件冗余n1.1.完全备份策略完全备份策略n每次都对自己的系统进行完全备份。每次都对自己的系统进行完全备份。 123452022-7-5523.3 3.3 硬件冗余硬件冗余n2.2.增量备份策略增量备份策略n每次仅对增加或变更的数据进
23、行备份。每次仅对增加或变更的数据进行备份。435212022-7-5533.3 3.3 硬件冗余硬件冗余n3.3.差分备份策略差分备份策略入入123452022-7-5543.3 3.3 硬件冗余硬件冗余n按备份介质存放位分为本地备份和异地按备份介质存放位分为本地备份和异地备份;备份;n按备份后数据是否可改变分为活备份与按备份后数据是否可改变分为活备份与死备份;死备份;n按选择的备份软件的功能可分为动态备按选择的备份软件的功能可分为动态备份和静态备份。份和静态备份。2022-7-5553.3 3.3 硬件冗余硬件冗余3.3.双机容错系统双机容错系统4.4.双机热备份双机热备份5.5.三机表决系
24、统三机表决系统6.6.集群系统集群系统2022-7-5563.3 3.3 硬件冗余硬件冗余集群集群(Cluster)(Cluster)n集群技术可如下定义:一组相互独立的集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。统为客户工作站提供高可靠性的服务。n大多数模式下,集群中所有的计算机拥大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。运行的服务可被所有
25、的网络客户所使用。2022-7-5573.3 3.3 硬件冗余硬件冗余集群集群(Cluster)(Cluster)n集群必须可以协调管理各分离的组件的集群必须可以协调管理各分离的组件的错误和失败,并可透明地向集群中加入错误和失败,并可透明地向集群中加入组件。组件。n一个集群包含多台一个集群包含多台( (至少二台至少二台) )拥有共享拥有共享数据存储空间的服务器。任何一台服务数据存储空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在器运行一个应用时,应用数据被存储在共享的数据空间内。共享的数据空间内。2022-7-5583.3 3.3 硬件冗余硬件冗余集群集群(Cluster)(Clu
26、ster)n每台服务器的操作系统和应用程序文件存储在每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。集群内各节点服务其各自的本地储存空间上。集群内各节点服务器通过一内部局域网相互通讯。当一台节点服器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。动或被另一台服务器接管。n当以上的任一故障发生时,客户都将能很快连当以上的任一故障发
27、生时,客户都将能很快连接到新的应用服务上。接到新的应用服务上。2022-7-5593.3 3.3 硬件冗硬件冗余余集群集群(Cluster)(Cluster)n集群技术的出发点是提供高可靠性、可集群技术的出发点是提供高可靠性、可扩充性和抗灾难性。集群包含多台拥有扩充性和抗灾难性。集群包含多台拥有共享数据存储空间的服务器,各服务器共享数据存储空间的服务器,各服务器通过内部局域相互通信。通过内部局域相互通信。n当某一服务器故障时,它所运行的应用当某一服务器故障时,它所运行的应用程序将由其它服务器自动接管。程序将由其它服务器自动接管。2022-7-5603.3 3.3 硬件冗余硬件冗余n集群集群(C
28、luster)(Cluster)n群集群集n网格网格(grid) (grid) 2022-7-5613.3 3.3 硬件冗余硬件冗余n服务器群集:群集由通过输入输出系统互联的服务器群集:群集由通过输入输出系统互联的若干服务器构成。这些服务器连接到存储介质若干服务器构成。这些服务器连接到存储介质中,由分布资源管理软件中,由分布资源管理软件DRMDRM进行管理。进行管理。n群集组成部分处在不断的改进之中:刀片式服群集组成部分处在不断的改进之中:刀片式服务器,快速务器,快速InfiniBandInfiniBand I/O I/O技术和更为复杂的技术和更为复杂的DRMDRM软件,这些部分组合在一起构成
29、群集。软件,这些部分组合在一起构成群集。n群集是由一组独立的计算机组成,这些计算机群集是由一组独立的计算机组成,这些计算机一起工作以运行一系列共同的应用程序,为客一起工作以运行一系列共同的应用程序,为客户和应用提供单一的系统映射。户和应用提供单一的系统映射。2022-7-5623.3 3.3 硬件冗余硬件冗余n群集内的计算机物理上通过电缆连接,群集内的计算机物理上通过电缆连接,程序上则通过群集软件连接。程序上则通过群集软件连接。n群集允许计算机使用群集允许计算机使用故障应急故障应急与负载均与负载均衡功能。衡功能。2022-7-5633.3 3.3 硬件冗余硬件冗余Windows2000Wind
30、ows2000群集技术:群集技术:n高度的可用性,可伸缩性,易管理性;高度的可用性,可伸缩性,易管理性;n在在Windows2000 Advanced ServerWindows2000 Advanced Server和和Windows 2000 Data Center ServerWindows 2000 Data Center Server操作操作系统支持群集技术。系统支持群集技术。2022-7-5643.3 3.3 硬件冗余硬件冗余Windows2000Windows2000群集技术:群集技术:n群集服务群集服务: :这种服务起初是针对为数据库、消息这种服务起初是针对为数据库、消息系统和
31、文件系统和文件/ /打印服务等应用提供故障应急支持打印服务等应用提供故障应急支持的要求而开发的。支持双节点故障应急群集和的要求而开发的。支持双节点故障应急群集和四节点群集。四节点群集。n网络负载均衡网络负载均衡(NLB):(NLB):该项服务可在该项服务可在3232个节点的个节点的群集内平衡引入的群集内平衡引入的IPIP通信量。通信量。n网络负载均衡技术还将充当一个理想的负载均网络负载均衡技术还将充当一个理想的负载均衡结构体系,在分布式的衡结构体系,在分布式的WebWeb区环境下与区环境下与MSMS即将即将发布的应用中心发布的应用中心(AppCenter(AppCenter) )服务器共同使用
32、。服务器共同使用。2022-7-5653.3 3.3 硬件冗余硬件冗余双机容错系统的结构双机容错系统的结构n(1)(1)双机并联结构双机并联结构n双机并联系统除了两套硬件及软件系统双机并联系统除了两套硬件及软件系统外,还需要配置专用切换软件和管理软外,还需要配置专用切换软件和管理软件。件。n为了确保系统正常运行,必须不断地进为了确保系统正常运行,必须不断地进行两种检查:联机相互健康检查及检查行两种检查:联机相互健康检查及检查点检查。点检查。2022-7-5663.3 3.3 硬件冗余硬件冗余n双机并联系统结构图双机并联系统结构图2022-7-5673.3 3.3 硬件冗余硬件冗余n(2)(2)
33、部件级容错系统部件级容错系统n这种部件级容错计算机系统只要单机配这种部件级容错计算机系统只要单机配置,没有切换软件,用户开发管理非常置,没有切换软件,用户开发管理非常方便,并且容错对用户透明,从而使系方便,并且容错对用户透明,从而使系统的应用开发费用大大降低。统的应用开发费用大大降低。2022-7-5683.3 3.3 硬件冗余硬件冗余n故障检测故障检测n为了检测错误,每块电路板上都有两组相同逻为了检测错误,每块电路板上都有两组相同逻辑,板内设计有比较自检测逻辑。辑,板内设计有比较自检测逻辑。n在发生故障时,为了实现容错,每种电路板和在发生故障时,为了实现容错,每种电路板和外围设备都是双重冗余
34、的。外围设备都是双重冗余的。n故障处理故障处理n当一块电路板或相连接的外围设备故障时,它当一块电路板或相连接的外围设备故障时,它自己立即退出服务,并向操作系统发出一个中自己立即退出服务,并向操作系统发出一个中断信号,操作系统的维护软件判明这次出错是断信号,操作系统的维护软件判明这次出错是瞬时性的还是持久性的。瞬时性的还是持久性的。2022-7-5693.3 3.3 硬件冗余硬件冗余n部件级容错系统部件级容错系统2022-7-5703.4 3.4 软件冗余软件冗余n向前恢复向前恢复n向后恢复向后恢复1.1.恢复块方法恢复块方法n19751975,动态屏蔽技术,动态屏蔽技术恢复块方法,是恢复块方法
35、,是一种向后恢复策略。一种向后恢复策略。2022-7-5712022-7-5723.4 3.4 软件冗余软件冗余2.N-2.N-版本程序设计版本程序设计n19771977,N-N-版本程序设计,是一种静态屏版本程序设计,是一种静态屏蔽技术蔽技术, ,采用向前恢复策略。采用向前恢复策略。2022-7-5732022-7-5743.4 3.4 软件冗余软件冗余3.3.防卫式程序设计防卫式程序设计n程序中包含错误检查代码和错误恢复代码;程序中包含错误检查代码和错误恢复代码;n发生错误时,程序能撤销错误状态,恢复到发生错误时,程序能撤销错误状态,恢复到一个已知的正常状态。一个已知的正常状态。2022-
36、7-5753.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案nRAID(Redundant Array of Inexpensive RAID(Redundant Array of Inexpensive DriveDrive。nRAIDRAID的优点在于可用性、容量、性能。的优点在于可用性、容量、性能。n19881988年加利福尼亚大学伯克莱分校的年加利福尼亚大学伯克莱分校的PattersonPatterson教授等人提出了廉价磁盘冗余教授等人提出了廉价磁盘冗余阵列阵列RAIDRAID的概念。的概念。2022-7-5763.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵
37、列存储器的编码容错方案nRAIDRAID技术主要优点有:技术主要优点有:n把多个磁盘组织在一起作为一个逻辑把多个磁盘组织在一起作为一个逻辑卷,提供磁盘跨越功能。卷,提供磁盘跨越功能。n通过把数据分成多个数据块,并行写通过把数据分成多个数据块,并行写/ /读多个磁盘以提高访问磁盘的速度。读多个磁盘以提高访问磁盘的速度。n通过镜像或校验操作提供容错能力。通过镜像或校验操作提供容错能力。2022-7-5773.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案n常用的常用的RAIDRAID级别有以下几种:级别有以下几种:nRAID0RAID0,RAID1RAID1,RAID0+1R
38、AID0+1,RAID3RAID3,RAID5RAID5等。等。n为提高可靠性和性能,常使用为提高可靠性和性能,常使用RAID5RAID5和和RAIDRAID(0+10+1)。)。2022-7-5782022-7-5792022-7-5802022-7-5812022-7-5822022-7-5832022-7-584支持4个Serial ATA串行硬盘以及RAIDRAID 0, 0, RAIDRAID 1, 1, RAIDRAID 0+1 0+1。2022-7-5852022-7-586 RAID0RAID02022-7-587RAID1RAID1 2022-7-588RAID0+1RAID
39、0+1 2022-7-5893.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案nRAID 3RAID 3在安全方面以奇偶校验做错误校正及检在安全方面以奇偶校验做错误校正及检测,只需要一个额外的校检磁盘测,只需要一个额外的校检磁盘。n奇偶校验值的计算是以各个磁盘的相对应位作奇偶校验值的计算是以各个磁盘的相对应位作XORXOR的逻辑运算,然后将结果写入奇偶校验磁的逻辑运算,然后将结果写入奇偶校验磁盘,任何数据的修改都要做奇偶校验计算。盘,任何数据的修改都要做奇偶校验计算。n如某一磁盘故障,换上新的磁盘后,整个磁盘如某一磁盘故障,换上新的磁盘后,整个磁盘阵列需重新计算一次,将故
40、障磁盘的数据恢复阵列需重新计算一次,将故障磁盘的数据恢复并写入新磁盘中,如奇偶校验磁盘故障,则重并写入新磁盘中,如奇偶校验磁盘故障,则重新计算奇偶新计算奇偶 校验值,以达容错的要求。校验值,以达容错的要求。2022-7-590RAID 3RAID 3 2022-7-5913.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案nRAID 5RAID 5也是一种具容错能力的也是一种具容错能力的RAID RAID 操作方式,操作方式,但与但与RAID 3RAID 3不一样的是不一样的是RAID 5RAID 5的容错方式不应的容错方式不应用专用容错硬盘,容错信息是平均的分布到所用专用
41、容错硬盘,容错信息是平均的分布到所有硬盘上。有硬盘上。n当阵列中有一个硬盘失效,磁盘阵列可以从其当阵列中有一个硬盘失效,磁盘阵列可以从其他的几个硬盘的对应数据中算出已掉失的数据。他的几个硬盘的对应数据中算出已掉失的数据。n由于我们需要保证失去的信息可以从另外的几由于我们需要保证失去的信息可以从另外的几个硬盘中算出来,我们就需要在一定容量的基个硬盘中算出来,我们就需要在一定容量的基础上多用一个硬盘以保证其他的成员硬盘可以础上多用一个硬盘以保证其他的成员硬盘可以无误地重组失去的数据。无误地重组失去的数据。2022-7-5923.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案n
42、其总容量为其总容量为(N-1)x(N-1)x最低容量硬盘的容量。最低容量硬盘的容量。从容量效率来讲,从容量效率来讲,RAID 5RAID 5同样地消耗了同样地消耗了一个硬盘的容量,当有一个硬盘失效时,一个硬盘的容量,当有一个硬盘失效时,失效硬盘的数据可以从其他硬盘的容错失效硬盘的数据可以从其他硬盘的容错信息中重建出来,但如果有两个硬盘同信息中重建出来,但如果有两个硬盘同时失效的话,所有数据将尽失。时失效的话,所有数据将尽失。2022-7-593RAID 5RAID 5 2022-7-5943.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案nRAID 7RAID 7级是新一
43、代级是新一代RAIDRAID标准。标准。nRAID 7RAID 7是存储计算机是存储计算机。nRAID 7RAID 7自身带有智能化实时操作系统和自身带有智能化实时操作系统和用于存储管理的软件工具,可完全独立用于存储管理的软件工具,可完全独立于主机运行,不占用主机于主机运行,不占用主机CPUCPU资源。资源。nRAID 7RAID 7具有更高的性能和卓越的存储管具有更高的性能和卓越的存储管理能力,集多种理能力,集多种RAIDRAID优点于一身,优点于一身,RAID RAID 7 7系统整体性能极佳。系统整体性能极佳。2022-7-5953.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器
44、的编码容错方案nRAID 7RAID 7存储计算机操作系统是一套实时存储计算机操作系统是一套实时事件驱动操作系统。主要用来进行系统事件驱动操作系统。主要用来进行系统初始化和安排初始化和安排RAID 7RAID 7磁盘阵列的所有数磁盘阵列的所有数据传输,并把它们转换到相应的物理存据传输,并把它们转换到相应的物理存储驱动器上。储驱动器上。n存储计算机操作系统可使主机存储计算机操作系统可使主机I/OI/O传输性传输性能达到最佳。能达到最佳。n如果一个磁盘出现故障,可自动执行恢如果一个磁盘出现故障,可自动执行恢复操作,并可管理备份磁盘的重建过程。复操作,并可管理备份磁盘的重建过程。2022-7-596
45、3.5 3.5 磁盘阵列存储器的编码容错方案磁盘阵列存储器的编码容错方案nRAID 7RAID 7采用了非同步访问方式,极大地采用了非同步访问方式,极大地减轻了写数据的瓶颈,提高了减轻了写数据的瓶颈,提高了I/OI/O速度。速度。n非同步访问:即非同步访问:即RAID 7RAID 7的每个的每个I/OI/O接口都接口都有一条专用的高速通道,作为数据或控有一条专用的高速通道,作为数据或控制信息的流通路径,可独立地控制自身制信息的流通路径,可独立地控制自身系统中每个磁盘的数据存取。系统中每个磁盘的数据存取。2022-7-597RAIDRAID 2022-7-598RAIDRAID 名称实质特点RA
46、ID 0数据分块将数据分布在多个盘上,无冗余信息(严格地说,它不属于RAID系列)。RAID 1镜像盘系统可靠性高,但效率低。RAID 2位交叉海明编译阵列原理上比较优越,但冗余信息的开销太大,未被广泛应用。RAID 3单盘容错并行传输阵列数据以位的形式存于各盘,冗余的奇偶校验信息存在一台专用盘上。RAID 4专用奇偶校验独立存取的阵列数据以块(块大小可变)交叉的方式存于各盘,冗余的校验信息存于一台专用盘上。RAID 5旋转奇偶校验独立存取的阵列数据以块交叉的方式于各盘,但无专用的校验盘,而是把冗余的奇偶校验信息均匀地分布在所有磁盘上。RAID 6二维奇偶校验独立存取的阵列数据以块的交叉方式存
47、于各盘,冗余的检、纠错信息均匀分布于所有磁盘上。每次写入数据都要访问一个数据盘和两个校验盘,可容许双盘出错。RAID 7采用Cache和异步技术的RAID 6使响应速度和传输速率有较大的提高。2022-7-599JBODnJBOD(Justa Bunch Of Disks,磁盘簇,磁盘簇)nJBOD通常又称为通常又称为Span。nSpan是在逻辑上把几个物理磁盘一个接一个串联到一是在逻辑上把几个物理磁盘一个接一个串联到一起,从而提供一个大的逻辑磁盘。起,从而提供一个大的逻辑磁盘。Span上的数据简单上的数据简单地从第一个磁盘开始存储,当第一个磁盘的存储空间地从第一个磁盘开始存储,当第一个磁盘的
48、存储空间用完后,再依次从后面的磁盘开始存储数据。用完后,再依次从后面的磁盘开始存储数据。nSpan不提供数据安全保障。它只是简单地提供一种利不提供数据安全保障。它只是简单地提供一种利用磁盘空间的方法,用磁盘空间的方法,Span的存储容量等于组成的存储容量等于组成Span的所有磁盘的容量的总和。的所有磁盘的容量的总和。2022-7-5100JBOD优缺点明显优缺点明显 nJBOD与与RAID阵列相比较的优势在于它的低成本,可阵列相比较的优势在于它的低成本,可以将多个磁盘合并到共享电源和风扇的盒子里。以将多个磁盘合并到共享电源和风扇的盒子里。nJBOD最主要的问题是在单独的磁盘出现故障时缺少最主要
49、的问题是在单独的磁盘出现故障时缺少恢复能力。恢复能力。 nJBOD中的磁盘阵列有着严格的制冷系统和电源设施,中的磁盘阵列有着严格的制冷系统和电源设施,理论上,理论上,JBOD解决方案应该在管理状态通过向预警解决方案应该在管理状态通过向预警软件发送标准信息来告知管理人员目前数据的问题。软件发送标准信息来告知管理人员目前数据的问题。n其中的一个解决办法是软件其中的一个解决办法是软件RAID。从主机端来看,采。从主机端来看,采用软件用软件RAID和和JBOD的结合与硬件的结合与硬件RAID在逻辑上没在逻辑上没有任何区别。有任何区别。 n对于共享存储,改进对于共享存储,改进JBOD的另一个方法是使用存
50、储的另一个方法是使用存储虚拟化设备,它们位于主机系统和虚拟化设备,它们位于主机系统和JBOD目标之间。目标之间。2022-7-5101Matrix RAIDn915/925芯片组中,芯片组中,Intel提出提出Matrix RAID技术。技术。nICH6南桥芯片除了支持传统的南桥芯片除了支持传统的RAID 0和和RAID 1外,还支持外,还支持Matrix RAID。nMatrix RAID技术将技术将RAID 0+1技术带技术带入低端应用。入低端应用。nMatrix RAID技术在技术在2块硬盘上实现块硬盘上实现RAID 01的功能。的功能。2022-7-5102Matrix RAID202
51、2-7-5103Matrix RAIDn图中红色区域是物理硬盘,蓝色区域是系统中图中红色区域是物理硬盘,蓝色区域是系统中形成的磁盘阵列。形成的磁盘阵列。n这种方法将两块硬盘的前一部分组成阵列以提这种方法将两块硬盘的前一部分组成阵列以提高速度,而在后面部分使用镜像模式提供对重高速度,而在后面部分使用镜像模式提供对重要数据的保护。要数据的保护。n两块两块80GB的硬盘可获得的硬盘可获得80GB的的RAID 0和和40GB的的RIAD 1,总容量是原先的,总容量是原先的3/4。n这是一个折中方案,用户可将读取频繁的数据这是一个折中方案,用户可将读取频繁的数据放在放在RAID 0上,将重要数据放在上,
52、将重要数据放在RAID 1上。上。2022-7-5104Matrix RAIDn如仅利用两个如仅利用两个SATA通道来创建通道来创建Matrix RAID模式,可利用余下的两个模式,可利用余下的两个SATA通道来实现自通道来实现自动重建和热备盘两个功能。动重建和热备盘两个功能。n自动重建是针对自动重建是针对RAID 0的,当系统通过的,当系统通过S.M.A.R.T等功能侦测到其中一块硬盘发生故等功能侦测到其中一块硬盘发生故障,有损坏可能的时候,会在屏幕上显示报警障,有损坏可能的时候,会在屏幕上显示报警信息,提醒用户插入一块完好的硬盘,将故障信息,提醒用户插入一块完好的硬盘,将故障硬盘上的数据导
53、入该硬盘后替换掉。硬盘上的数据导入该硬盘后替换掉。2022-7-5105Matrix RAIDn热备盘则用于热备盘则用于RAID 1,即系统中平时就留有,即系统中平时就留有一块完好的空硬盘,当组成一块完好的空硬盘,当组成RAID 1的的2块硬盘块硬盘中有中有1块损坏时,自动地接替它的工作。块损坏时,自动地接替它的工作。n由于由于Matrix RAID在工作环境下只需要两个物在工作环境下只需要两个物理硬盘,因此用户可以配备第三个理硬盘,因此用户可以配备第三个SATA硬盘硬盘来作为来作为“热备用热备用”硬盘。如果出现硬盘崩溃,硬盘。如果出现硬盘崩溃,可使用可使用Matrix RAID的第三个的第三
54、个“热备用热备用”硬盘硬盘对对RAID 1分区进行数据恢复和系统重建。分区进行数据恢复和系统重建。2022-7-5106Matrix RAIDn由于由于ICH6-R南桥可以支持南桥可以支持4个个SATA/ 150接接口,因此可以利用四块硬盘来组建双口,因此可以利用四块硬盘来组建双Matrix RAID运行模式,而这两个运行模式,而这两个Matrix RAID阵列阵列之间是相互独立的。之间是相互独立的。nMatrix RAID是是Intel的独门技术,需硬件层的独门技术,需硬件层和软件层同时支持。目前和软件层同时支持。目前Intel Application Acclerator软件和软件和Win
55、dows操作系统均对软操作系统均对软件层提供了支持。件层提供了支持。2022-7-5107实现磁盘容错功能的关键技术实现磁盘容错功能的关键技术1 1、自动检验技术、自动检验技术 n系统必须要有能力来及时发现这些引起错误和系统必须要有能力来及时发现这些引起错误和损坏的原因,提供完整的自动检验技术的支持。损坏的原因,提供完整的自动检验技术的支持。n自校验装置不仅能及时检查出系统模块的差错,自校验装置不仅能及时检查出系统模块的差错,还能够检测出自身的差错。还能够检测出自身的差错。n自动检验技术可以大大提高系统对差错的反应自动检验技术可以大大提高系统对差错的反应能力,使差错的潜伏期缩短,能有效地放置错
56、能力,使差错的潜伏期缩短,能有效地放置错误的进一步蔓延。误的进一步蔓延。2022-7-5108实现磁盘容错功能的关键技术实现磁盘容错功能的关键技术2 2、热定位技术、热定位技术 n热定位技术对写入磁盘的数据进行一些检查比热定位技术对写入磁盘的数据进行一些检查比较工作,从而确定刚刚读入的数据是否正确或较工作,从而确定刚刚读入的数据是否正确或者是否有其他方面的问题。者是否有其他方面的问题。n进行检修比较工作时,该技术可以自动从硬盘进行检修比较工作时,该技术可以自动从硬盘中把刚写入的数据读出来与内存中的原始数据中把刚写入的数据读出来与内存中的原始数据进行比较。进行比较。n如出现错误,则利用在硬盘内开
57、设的一个被称如出现错误,则利用在硬盘内开设的一个被称为为“热定位重定区热定位重定区”的区,将硬盘坏区记录下的区,将硬盘坏区记录下来,并将已确定的在坏区中的数据用原始数据来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上。写入热定位重定区上。2022-7-5109实现磁盘容错功能的关键技术实现磁盘容错功能的关键技术3 3、全自动备份技术、全自动备份技术 4 4、故障的在线修复技术、故障的在线修复技术 5 5、文件分配表和目录表技术、文件分配表和目录表技术 6 6、事务跟踪技术、事务跟踪技术7 7、自动重启技术、自动重启技术 2022-7-5110磁带存储技术磁带存储技术n1.1.数据记录
58、方式数据记录方式n(1)(1)线性记录方式线性记录方式n磁带机利用宽阔的磁带记录面获得更大面积的存磁带机利用宽阔的磁带记录面获得更大面积的存储空间,通过增加记录磁轨数量的方式提升数据储空间,通过增加记录磁轨数量的方式提升数据传输率。传输率。n线性记录磁带机机械构造简单、精度高,磁带介线性记录磁带机机械构造简单、精度高,磁带介质的磨损被降低到最低,可以更好地保护磁带中质的磨损被降低到最低,可以更好地保护磁带中的数据。的数据。 2022-7-5111磁带存储技术磁带存储技术n1.1.数据记录方式数据记录方式n(2)(2)线性记录方式线性记录方式2022-7-51122022-7-51132022-
59、7-51142022-7-5115HP SureStore DLT 80磁带机磁带机磁带存储技术磁带存储技术2022-7-5116昆腾SDLT220磁带机磁带存储技术磁带存储技术2022-7-5117盒式磁带盒式磁带 2022-7-5118单键恢复单键恢复 2022-7-5119HP LTO Ultrium230磁带机磁带存储技术磁带存储技术2022-7-5120索尼AIT磁带机磁带存储技术磁带存储技术2022-7-5121磁带存储技术磁带存储技术n6.6.单键灾难恢复单键灾难恢复nHPHP单键灾难恢复最简捷的灾难恢复方案单键灾难恢复最简捷的灾难恢复方案n使用这种磁带机和最新的备份磁带,就可以
60、在使用这种磁带机和最新的备份磁带,就可以在发生了硬盘故障、数据崩溃、病毒破坏及硬件发生了硬盘故障、数据崩溃、病毒破坏及硬件以旧换新后快速地进行数据恢复。以旧换新后快速地进行数据恢复。 n很好的灾难恢复解决方案,使用极其简便。很好的灾难恢复解决方案,使用极其简便。 2022-7-5122STK L700磁带库磁带存储技术磁带存储技术2022-7-5123ADIC Scalar 10K磁带库磁带存储技术磁带存储技术2022-7-5124SAN & NASSAN & NASnDASDAS直连方式存储直连方式存储nSANSAN存储局域网络存储局域网络nNASNAS网络附加存储网络附加存储2022-7-5125SAN & NASSAN & N
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 综合探究 坚持历史唯物主义 反对历史虚无主义 说课稿-2023-2024学年高中政治统编版必修四哲学与文化
- 全国川教版信息技术八年级上册第一单元第1节《认识数字故事》说课稿设计
- Module 1 Unit 2 Its at the station(说课稿)-2023-2024学年外研版(三起)英语四年级上册
- 8《安全记心上》《平安出行》说课稿-2024-2025学年道德与法治三年级上册统编版
- 第十二课 端正人生态度2024-2025学年新教材七年级上册道德与法治新说课稿(统编版2024)
- 塑料人造革的生态修复技术考核试卷
- 2025年度木雕工艺品制作木工劳务合作合同范本3篇
- 2025年度安置房租赁转售合同模板2篇
- 代理商业务模式创新与实践考核试卷
- 公证员信息安全法律事务考核试卷
- 酒店人防管理制度
- 古诗词诵读 《锦瑟》公开课一等奖创新教学设计统编版选择性必修中册
- GB/T 24478-2023电梯曳引机
- 食堂经营方案(技术标)
- 代收实收资本三方协议范本
- 人教版八年级英语下册全册课件【完整版】
- 乒乓球比赛表格
- 商务接待表格
- 肠梗阻导管治疗
- word小报模板:优美企业报刊报纸排版设计
- 汉语教学 《成功之路+进步篇+2》第17课课件
评论
0/150
提交评论