版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机容错技术魏贇计算机容错技术魏贇1第一章概述容错和可靠性容错技术的发展概况容错技术的主要内容容错技术应用第一章概述容错和可靠性2一、容错和可靠性故障、失效和错误的概念可靠性的概念容错的概念可靠性和容错的关系一、容错和可靠性故障、失效和错误的概念3(一)故障、失效和错误的概念失效(failure)是指硬件物理特性异变,或软件不能完成规定功能的能力。故障(fault)是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。错误(error)是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。容错设计的软件可以有某些规定数目的故障但不导致失效,但对无容错的软件而言,故障即失效。(一)故障、失效和错误的概念失效(failure)是指硬件物4故障的分类若按逻辑性来分逻辑故障:造成逻辑值发生变化的故障非逻辑故障:造成象时钟(clock)或电源出错等错误的故障按时间划分:永久性故障:调用诊断程序进行故障定位,然后采取纠错措施间隔性故障:可以通过更换硬件或软件等途径来达到修复的目的偶然性故障:只能靠改善环境条件等努力来减少这类故障故障的分类若按逻辑性来分5错误的根源错误的根源6(二)可靠性概念实现系统可靠性的方法系统可靠性的指标(二)可靠性概念71、概念可靠性的含义广义:一切旨在避免、减少、处理、度量软件/硬件故障(错误、缺陷、失效)的分析、设计、测试等方法、技术和实践活动。狭义:指软件/硬件无效运行的定量度量。可靠度:在规定的运行环境中和规定的时间内软件无失效运行的机会。1、概念可靠性的含义82、实现系统的可靠性排错容错2、实现系统的可靠性排错9排错避免故障,通过对组成系统的部件进行严格的筛选、对系统进行严格的测试、对系统进行屏蔽以减少外界的干扰等方法来提高系统的可靠性。排错避免故障,通过对组成系统的部件进行严10容错即使采用了排错技术,一个计算机系统还是迟早会发生故障的。因此在设计计算机系统时应考虑一旦发生故障能自动检测出故障并使系统自动恢复正常运行。这样设计出来的计算机系统在发生故障后仍能正确运行。容错技术是从系统结构方面来提高计算机系统的可靠性容错技术与排错技术并不是相互对立的,它们可以相互补充,构成高可信的计算机系统容错即使采用了排错技术,一个计算机系统还是迟早会发生故障的。113、系统可靠性的指标可靠性可维性可用性3、系统可靠性的指标可靠性12可靠性计算机机的可靠性指:计算机在规定的条件和规定的时间内完成规定的功能的概率规定的条件:环境条件,使用条件,维修条件,操作技术失效:产品在规定的条件下和规定的时间内丧失了规定的功能。失效率:指计算机在某一瞬间元件失效数与元件总数的比率。可靠性计算机机的可靠性指:计算机在规定的条件和规定的时间内完13可维性可维性(Serviceability)是指在规定的时间内,按照规定的程序和方法进行维修时,保持或恢复到能完成规定的功能的能力通常指从判定故障到排除故障所需要的时间,包括故障诊断、故障定位、系统校正和恢复等时间。可保持性(Maintainability)是指系统在给定的时间内可隔离故障或修复的概率。它表征了系统可以正常运行的效率。可维性可维性(Serviceability)是指在规定的时间14可用性可用性(Availability)称有效率或利用率,是可维修部件在某时间具有维持规定功能的能力,即计算机系统的利用效率,也是系统在执行任务的任意时刻能正常工作的概率。可用性可用性(Availability)称有效率或利用15(三)容错技术概念容错(Fault-tolerance):容忍故障,考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。当出现某些指定的硬件故障或软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的差错。(三)容错技术概念容错(Fault-tolerance):容16容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。设计与分析容错计算机系统的各种技术称为容错技术容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确17实现容错计算的四个方面(1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。(2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。实现容错计算的四个方面(1)不希望事件的检测。不希望事件是指18(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的系统状态。(4)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采19容错系统的一般阶段故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有用的工作;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和二模冗余校验。故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏蔽的一个例子。重试:在许多场合,对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。诊断如果故障检测技术没有提供有关故障位置和/或性质的信息,那么就需要一个诊断。容错系统的一般阶段故障限制:当故障出现时,希望限制其影响范围20重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便替代失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,系统能力不降低。恢复:检测和重组(若必要的话)之后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文件、校验点和应用记录方法。重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏时,才能进行“热”重启(从故障检测点恢复所有操作的)。“温”重启指仅有某些过程可以毫无损失的重新启动,“冷”重启相当于系统需要完全重新加载。修复:把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的或者脱机进行的。重构:对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统21二、容错技术的发展概况第一代计算机(1946-1957)第二代计算机(1957-1964)第三代计算机(1964-1970)第四代计算机(1970-)现在二、容错技术的发展概况第一代计算机(1946-1957)22第一代计算机(1946-1957)元件:电子管、继电器及延迟线存储器问题:元件的失效率相当高,并易受瞬时故障的影响措施:特别设置的硬件故障检测和人工恢复第一代计算机(1946-1957)元件:电子管、继电器及延迟231956,SAPO,捷克,三个CPU同时工作,对运算结果进行表决,存储器采用奇偶校验,具有单条指令重复执行的功能SAGE,,用于防空系统,采用双机比较以检测故障,并配合以恢复技术1956,SAPO,捷克,三个CPU同时工作,对运算结果进行24第二代计算机(1957-1964)元件:晶体管及磁芯存储器问题:失效率比第一代计算机元件大为降低措施:避错技术占统治地位,对故障一般采用诊断程序进行脱机检测第二代计算机(1957-1964)元件:晶体管及磁芯存储器25第三代计算机(1964-1970)元件:集成电路问题:元件的失效率继续降低,但计算机应用范围扩大,对计算机系统的可信性要求更高措施:容错技术重新提出,并得到了较快的发展,并出现了许多容错计算机第三代计算机(1964-1970)元件:集成电路26实例1964土星V号运载火箭导航计算机研制成功,该机采用三模冗余及奇偶校验来实现容错1969,喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。1965,贝尔实验室研制成功1号ESS处理机,是用于交换的计算机系统,采用了双机比较技术,是专用的硬件及软件进行故障的检测、定位及识别。实例1964土星V号运载火箭导航计算机研制成功,该机采用27第四代计算机(1970-)元件:大规模和超大规模集成电路问题:硬件可靠性大大提高而价格却大幅度降低,使采用各种容错技术在经济上更易接受。需求:容错技术应用范围扩展于事务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术第四代计算机(1970-)元件:大规模和超大规模集成电路28实例1975,贝尔实现室的3A号ESS处理1975,TANDEM16容错事务处理系统1976,AMDAHL470V/6容错通用计算机1978,容错空间计算机FTSC1979,IBM推出容错的4300通用计算机系列1980,容错多处理机FTMP及软件实现的容错计算机SIFT研制成功实例1975,贝尔实现室的3A号ESS处理2980年代以来出现了商用容错计算机市场分布式容错计算机系统的出现容错的VLSI技术人工智能在容错技术上的应用—计算机故障诊断专家系统80年代以来出现了商用容错计算机市场30容错计算方面的理论工作1952,冯·诺依曼作了一系列关于用重复逻辑模块改善系统可靠性的报告1956,他发表论文《概率逻辑及用不可靠元件设计可靠的结构》1971年以来,IEEE计算机学会容错技术委员会每年召开一次国际容错计算学术会议1987年中国计算机学会成为了容错计算专业委员会容错计算方面的理论工作1952,冯·诺依曼作了一系列关于用重31三、容错技术的主要内容故障检测与诊断技术故障屏蔽技术动态冗余技术软件容错技术信息保护技术三、容错技术的主要内容故障检测与诊断技术321、故障检测和诊断技术容错技术的主要组成部分,又是微电子技术的支撑技术故障检测(FaultDetection):判断系统是否存在故障的过程故障定位(FaultLocation):判断系统在哪里发生故障的过程故障测试(FaultTesting):又称故障诊断(FaultDiagnosis),故障检测和故障定位,主要包括:测试集生成技术,功能测试技术,系统诊断技术1、故障检测和诊断技术容错技术的主要组成部分,又是微电子技术33故障检测的作用是确认系统是否发生了故障,指示故障的状态,即查找故障源和故障性质。一般来说,故障检测只能找到错误点(错误单元),不能准确找到故障点。故障诊断的作用是给出故障定位。基于检错纠错码的编码技术。在数据的传输、存储、处理过程中,根据信息位和校验位之间的相关性进行检查,判定信息是否出错、错在哪里,并进行纠正。常用的检错码编码技术有奇偶校验码、循环码、海明码等。其他故障检测与诊断技术故障检测的作用是确认系统是否发生了故障,指示故障的状态,即查342、故障屏蔽技术故障屏蔽技术是防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。特点:不改变系统的结构,即系统部件之间的逻辑关系相互固定,又称静态冗余技术2、故障屏蔽技术故障屏蔽技术是防止系统中的故障在该系统的信息35故障屏蔽技术元件级故障屏蔽技术逻辑级故障屏蔽技术主要用于设计一些高可靠性的容错专用集成电路芯片和不宜放在功能模块一级上进行容错设计的关键硬核模块级故障屏蔽技术系统级故障屏蔽技术由两个以上的相同系统合成一个系统,冗余系统间通过相互校验来保持正常运行。故障屏蔽技术元件级故障屏蔽技术363、冗余技术硬件冗余:在常规设计的硬件之外附加备份硬件,包括静态冗余、动态冗余时间冗余:重复地执行指令或一段程序而附加额外的时间信息冗余:增加信息的多余度,使其具有检错和纠错能力软件冗余:用于测试、检错的外加程序3、冗余技术硬件冗余:在常规设计的硬件之外附加备份硬件,包括374、软件容错技术软件容错是指在出现有限数目的软件故障的情况下,系统仍可提供连续正确执行的内在能力。其目的是屏蔽软件故障,恢复因出故障而影响的运行进程。软件容错技术主要包括N版本程序设计和恢复块技术4、软件容错技术软件容错是指在出现有限数目的软件故障的情况下385、信息保护技术信息保护技术,是指为了防止信息被不正当地存取或破坏而采取的措施。基本的信息保护技术分为以下四种:编码化与密码化、资格检查、内存保护、外存保护。5、信息保护技术信息保护技术,是指为了防止信息被不正当地存取39四、容错技术的发展和应用容错技术的应用是网络时代电子商务的客观需求软件容错技术将有较大进展硬件容错、操作系统容错相结合的容错设计方法将备受重视VLSI的容错设计技术将发挥巨大作用系统容错设计的应用目标明确四、容错技术的发展和应用容错技术的应用是网络时代电子商务的客40容错技术应用向PC发展容错技术向智能化发展容错技术应用和应用服务技术相结合容错技术将走向开放化、标准化容错技术应用向PC发展41第二章故障自检测与自诊断技术2.1联机检测和脱机检测2.2逻辑网络的故障安全与自校验特性2.3自校验网络的基本结构第二章故障自检测与自诊断技术2.1联机检测和脱机检测422.1联机检测和脱机检测联机检测与诊断:在系统运行期间实现自我检测与诊断的过程,也叫自检测与自诊断,是提高系统可靠性的重要环节。脱机检测与诊断:在系统非运行期间进行检测与诊断,是提高系统可用度、可维性的重要环节。2.1联机检测和脱机检测联机检测与诊断:在系统运行期间实现43联机检测与诊断的方法在系统中投入一定的冗余资源(指超过系统额定功能所需的资源),使系统在运行中不仅能输出功能所要求的信息,而且能输出一些额外的信息。实质是可靠性编码技术在系统设计中的应用,是一种以硬件冗余为主的检测与诊断技术联机检测与诊断的方法在系统中投入一定的冗余资源(指超过系统额44一个自检测的系统,其所有可能的输出值的集合为U(输出空间),由S和U-S两部分组成S:系统的输出码,系统无故障时的输出U-S:系统出现故障时候的输出,若能指示系统是否发生故障,则称之为检错码;若能指示系统中哪个部件发生的故障,则称之为诊错码一个自检测的系统,其所有可能的输出值的集合为U(输出空间),45脱机检测与诊断的方法应用软件诊断程序,先优化生成并输入一组测试向量给系统,然后观测并分析系统的测试响应,以确定系统是否发生故障或哪个部件发生的故障。脱机检测与诊断的方法应用软件诊断程序,先优化生成并输入一组测462.2逻辑网络的故障安全与自校验特性1、故障安全特性2、自校验特性2.2逻辑网络的故障安全与自校验特性1、故障安全特性471、故障安全特性一个数字逻辑网络,对给定故障集F,如果在任何有效输入码激励下,都不会因为故障而输出错误的有效输出码,则称它对故障集F是故障安全(Fault-Secure,FSE)的。若该网络在任意输入码激励下,对给定故障集F都不会输出错误的有效输出码,则称它对故障集F是强故障安全的。1、故障安全特性一个数字逻辑网络,对给定故障集F,如果在任何48输入是正确的,则输出为正确的有效码或无效码,而不会输出错误的有效码这样的系统不会因为故障存在而造成错误的有效输出,称之为故障安全的系统输入是正确的,则输出为正确的有效码或无效码,而不会输出错误的49若输出是无效码,则该系统必有故障存在若输出的是有效码,则不能断定该系统是否有故障,但可断定它的输出是正确的系统可能存在不可测故障若输出是无效码,则该系统必有故障存在502、自校验特性如果一个数字逻辑网络对于给定故障集F内的每一个故障,至少存在一个有效的输入码能使它的输出产生一个无效输出码字,则称该网络对于故障集F是可自校验(Self-Testing,ST)的。凡可自校验的系统,可从观测输出码字是否为有效码字来判别其是否有故障,而且一定有一个校验码就包含在有效的输出码字集合中。2、自校验特性如果一个数字逻辑网络对于给定故障集F内的每一个51故障安全特性和自校验特性所有故障的集合:可自校验的故障集Ft,安全故障集Fs;所有输入向量的集合:正常输入集N,故障安全输入集I;所有输出向量的集合:输出码空间Sλ表示沿未引起错误的故障或表示系统无故障,Z(Xi,λ)表示系统无故障时的输出Z(Xi,fi)表示在Xi输入时,系统对故障fi的输出故障安全特性和自校验特性所有故障的集合:可自校验的故障集Ft52所有故障FtFsf1f2f3所有输入向量NX1IX2X3所有输出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,λ)Z(X2,λ)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,λ)自校验性故障安全性所有故障FtFsf1f2f3所有输入向量NX1IX2X3所有53结论自校验系统的性质由系统结构和运行环境所决定。给定的N(由环境决定),Ft由N能检测到的所有故障组成。相反,I不是由环境决定的(N的子集),而是由Fs决定。Fs是人为选择的一个非空故障集。结论自校验系统的性质由系统结构和运行环境所决定。54根据I包含输入的多少(N中的全部、部分或零),可将自检验系统分为:完全自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,并且对于N和故障集Fs是故障安全的,则称该系统为完全自校验系统(TSC:TotallySelf-Checking)。部分自校验系统:如果一个系统对于正常输入集N和故障集Ft是自校验的,并且对于N的一个非空真子集I和故障集Fs是故障安全的,则称该系统为部分自校验系统(PSC,PartiallySelf-Checking)。仅自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,但对于N的任何非空子集和故障集Fs都不具有故障安全性,则称该系统为仅自校验系统。根据I包含输入的多少(N中的全部、部分或零),可将自检验系统552.3自校验网络的基本结构自校验网络:无需施加特定的测试输入码来判定是否存在故障,而是在正常工作的过程中,由一个称为校验器的电路通过监视自校验功能模块的输出状态而自动指示有无错误。2.3自校验网络的基本结构自校验网络:无需施加特定的测试输入56自校验功能模块输入XЄN检测器/校正器检错/纠错编码输出Z(X,λ)ЄSZ(X,f)ЄS错误指示自校验输入检测器检错/纠错编码输出Z(X,λ)ЄS错误指示57检测器:当出现无效码时,指示错误状态,可构成自检测网络。校正器:当出现无效码时,指示出错位置,并予以纠正,可构成自诊断网络或故障屏蔽网络。检测器:当出现无效码时,指示错误状态,可构成自检测网络。58第三章故障屏蔽技术概述元件级故障屏蔽技术逻辑级故障屏蔽技术模块级故障屏蔽技术系统级故障屏蔽技术第三章故障屏蔽技术概述591、概述故障屏蔽技术(FaultMaskingTechnology)防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。1、概述故障屏蔽技术(FaultMaskingTechn602、元件级故障屏蔽技术二倍冗余四倍冗余桥接冗余2、元件级故障屏蔽技术二倍冗余61(1)二倍冗余IO单个元件IO并联结构I串联结构OCCCCC(1)二倍冗余IO单个元件IO并联结构I串联结构OCCCCC62设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于单个元件:p=1-q0–qs对于并联结构:p=1-q02-2qs+qs2发生开路故障的概率为:q02发生短路故障的概率为:1-(1-qs)2对于串联结构:p=1-2q0+q02-qs2发生开路故障的概率为:1-(1-q0)2发生短路故障的概率为:qs2设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,63(1)四倍冗余IO并串联结构I串并联结构OCCCCCCCC(1)四倍冗余IO并串联结构I串并联结构OCCCCCCCC64设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于并串联结构:p=1-2q02+q04-4qs2+4qs3-qs4发生开路故障的概率为:1-(1-q0
2)2发生短路故障的概率为:[1-(1-qs)2]
2对于串并联结构:p=1-4q02+4q03-q04-2qs2+qs4发生开路故障的概率为:[1-(1-q0)2]
2发生短路故障的概率为:1-(1-qs2)2设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,65晶体三极管四倍冗余结构在下列故障之一时,仍能正常工作:任一晶体管开路或短路不是同一支路的两个三极管短路(对串并联)或是不是同一回路的两个三极管开路(对并串联),或者每一支路都有一个三极管短路(对串并联)或每一回路都有一个三极管开路(对并串联)晶体三极管四倍冗余结构在下列故障之一时,仍能正常工作:任一晶66四倍冗余结构的优点可以用在元件级构成独立自足冗余,即不必增添逻辑线路来检测故障与恢复信息能满足实时与连续可用条件四倍冗余结构的优点可以用在元件级67四倍冗余结构的缺点功耗大对元件适应条件要求较高昂贵结构不能变,无灵活性四倍冗余结构的缺点功耗大683、逻辑级故障屏蔽技术主要用于VLSI的设计中主要用于设计一些高可靠性的容错专用集成电路芯片和不宜放在功能模块一级上进行容错设计的关键硬核多采用四倍冗余方案3、逻辑级故障屏蔽技术主要用于VLSI的设计中69子部件1子部件k子部件k+1子部件n1P1P1P1PK个功能输出N-K个校验输出输入1m子部件1子部件k子部件k+1子部件n1P1P1P1PK个功能704、模块极故障屏蔽技术是以N倍冗余码为基础,通为构成N模冗余(NMR,N-ModularRedundancy)系统来实现故障屏蔽4、模块极故障屏蔽技术是以N倍冗余码为基础,通为构成N模冗余71模块1模块2模块n系统输出差错指示输入校正器模块1模块2模块n系统输出差错指示输入校正器725、系统级故障屏蔽技术采用多个计算机系统来实现系统的功能。也可称为多处理机或多计算机系统常用的结构有:均分负载系统结构主备用系统结构双机协同系统结构紧耦合多处理机系统结构分布式系统结构网络结构5、系统级故障屏蔽技术采用多个计算机系统来实现系统的功能。也73第四章冗余容错技术硬件冗余软件冗余数据冗余动态冗余技术第四章冗余容错技术硬件冗余74冗余容错技术在系统结构上通过增加冗余资源的方法来掩盖故障造成的影响,使得即使出错或发生故障,系统的功能仍不受影响,仍能够正常执行预定任务的技术。分为硬件冗余、软件冗余与数据冗余从系统功能上讲,三者都是增加“多余的设备”(硬件、软件或数据)为代价的冗余容错技术在系统结构上通过增加冗余资源的方法来掩盖故障造成75(一)硬件冗余静态冗余动态冗余主要方法(一)硬件冗余静态冗余761、静态冗余利用逻辑重叠技术有效地掩蔽硬件故障,又称掩蔽冗余。典型代表是N取r系统(三取二的冗余)原理:采用并联结构,从输入端输入相同的信息,并执行同样的程序,完成同样的任务,得到的结果送入表决器,以多数的结果作为最后的输出。1、静态冗余利用逻辑重叠技术有效地掩蔽硬件故障,又称掩蔽冗余77三取二系统模型三取二系统模型78优点:系统可不进行故障检测、定位和系统的恢复工作,省掉了大量的软件工作,简单易行缺点:增加了硬件设备,提高了系统的费用优点:系统可不进行故障检测、定位和系统的恢复工作,省掉了大量792、动态冗余技术采用辅助系统作为主系统的热备份,正常状态下主系统工作,并对主系统进行故障检测和定位,一旦诊断出故障发生的位置,系统能进行自动修复。2、动态冗余技术采用辅助系统作为主系统的热备份,正常803、硬件冗余的方法可采用多级硬件冗余方法,通过多种设备的冗余,提高系统的可靠性。并联冗余,备份冗余和表决系统冷备份,热备份3、硬件冗余的方法可采用多级硬件冗余方法,通过多种设备的冗余81优缺点优点:不可间断系统采用了计算机局域网络或分布式计算机系统,各子系统无需或少许增加硬件设备,就可以起到互为冗余的作用。即不增加系统的体积、重量、功能和成功,设备充分共享,提高了利用率,弱化了故障缺点:虽然不增加硬件设备却增加了大量软件工作,系统研制的难度、周期和费用增加了;用户的应用程序在系统中运行,经常被诊断程序中断,遇到故障时自动定位和恢复过程较慢;不适合实时性很强的系统优缺点优点:不可间断系统采用了计算机局域网络或分布式计算机系82(二)软件冗余指针对软件本身的故障,采用何种方法去防止由于软件的错误而导致的系统失效。分为动态冗余和静态冗余(二)软件冗余指针对软件本身的故障,采用何种方法去防止由于软831、动态冗余程序回卷(ProgramRollback)多道程序表决法模块恢复法1、动态冗余程序回卷(ProgramRollback)84程序回卷法在执行的程序中设置若干测试点,在每个测试点上检查输出结果。当测试程序检测出错误时,就认为正在执行的程序是一个错误的系统中运行的,这段程序要被重新执行,即程序的卷回。程序回卷法在执行的程序中设置若干测试点,在每个测试点上检查输85优点:不增加硬件设备,软件也不复杂缺点:系统的反映时间和精度要受损失,对偶发性错误有效,对固定的故障无能为力优点:不增加硬件设备,软件也不复杂86多道程序表决法对同一个问题按不同的算法编多个程序,对执行的结果进行表决。串行执行:费时,过多地占用主存空间,不符合实时性和实用性的要求并行执行:需要硬件支持多道程序表决法对同一个问题按不同的算法编多个程序,对执行的结87模块恢复法程序按照模块执行,每执行完一块,接着执行一个测试程序,对刚执行的程序进行测试,通过后再执行下一个模块,通不过则重新执行无法适应实时系统的要求模块恢复法程序按照模块执行,每执行完一块,接着执行一个测试程882、静态冗余又称软件存储冗余,是把关键的系统程序和应用程序在系统中多点存储在主存或高速辅助存储器中。在正常状态下,只执行一处或几处的程序,其它做备份,一旦程序遭破坏,则快速调入备用程序,使系统仍能正常工作。系统程序和应用程序可采取分布式存储,或集中式存储方式,或两者结合2、静态冗余又称软件存储冗余,是把关键的系统程序和应用程序在89硬件容错与软件容错的比较软件的拷贝不能作为软件的备份,这与硬件容错显然不同。软件的替换是暂时性的,被替换的软件部件仍可以重新使用,硬件部件则需重新修复才可使用。软件容错在实现技术上比硬件容错要复杂得多硬件容错与软件容错的比较软件的拷贝不能作为软件的备份,这与硬90(三)数据冗余主要应用于数据库系统中。若某种故障使数据库中当前状态不正确或可疑,就必须把数据库恢复到某一正确的状态根据数据库存储的位置和方式,分为集中式的数据冗余和分布式的数据冗余(三)数据冗余主要应用于数据库系统中。91(四)动态冗余技术概述重组可重组的动态N模冗余技术恢复多处理机系统的动态冗余结构与容错处理模拟部件的冗余容错动态冗余设计的综合考虑(四)动态冗余技术概述921、概述关键技术:故障检测与诊断选择系统冗余结构,实现静态冗余设计重组:故障处理技术恢复1、概述关键技术:93定义:综合运用以上几种技术来达到更强容错能力的一种综合性容错技术动态:体现在作为系统正常资源的冗余模块数随着检测到的故障数多少而变化基本步骤:故障检测故障处理(重组)系统恢复定义:综合运用以上几种技术来达到更强容错能力的一种综合性容错94动态冗余技术与静态冗余技术相比的优点有更大的隔离灾难性故障的能力直到所有的后备单元都耗尽了,系统才失效利用程序卷回等手段可消除由瞬时故障引起的错误易于调节后备单元的数量与类型可利用后备单元的不加电元件的潜在低失效率特点避免了静态冗余的电路图相关、故障相依问题可用标准诊断程序检查后备单元可增加系统平均寿命动态冗余技术与静态冗余技术相比的优点有更大的隔离灾难性故障的952、重组重组的概念后缓备份重组缓慢降低重组2、重组重组的概念96(1)重组的概念重组的主要功能是防止失效影响到系统的正常工作。当检测出系统有故障并实现了故障定位后,系统便通过更换或切除故障模块的方法来重新组合,达到排除或隔离故障的目的。重组的基础是结构的冗余和基于冗余结构的故障检测与诊断。实际中,往往在检出故障后通过中断来触发重组。(1)重组的概念重组的主要功能是防止失效影响到系统的正常工作97重组可有两种不同类型后援备份重组缓慢降级重组重组可有两种不同类型后援备份重组98(2)后援备份重组后援备份:系统配置一组平时不工作的模块作为工作模块组中失效模块的备份。在故障发生后,通过故障检测触发后备模块取代失效模块两种备份方式“冷”备份:平时备份模块不通电“热”备份:平时备份模块通电,处于工作状态(2)后援备份重组后援备份:系统配置一组平时不工作的模块作为99(3)缓慢降级重组缓慢降级是指当系统的工作模块出现故障模块后,进行无替换的切换,每检出一个切除一个,从而使系统的功能和性能逐步降级两种设计指导思想1、按要求的性能设计系统资源,当出现失效模块后系统降级继续运行,直至失效累积到系统无法正常工作。主要用于一般用途的计算机2、系统最初设计成以超额资源、超级性能运行,当系统出现失效时,仍能维持一个基本要求的性能等级。主要用于许多关键应用应用的实时控制处理器中(3)缓慢降级重组缓慢降级是指当系统的工作模块出现故障模块后1003、可重组的动态N模冗余技术待命储备式N模冗余可重组二模冗余3、可重组的动态N模冗余技术待命储备式N模冗余101(1)待命储备式N模冗余单模替换结构成对替换结构(1)待命储备式N模冗余单模替换结构102单模替换结构N个相同的模块中,只有一个为主用模块处理于运行状态,用以产生系统输出,其余模块都作为备份片于待命状态。自检测系统,也可用软件周期性或定期性地进行故障检测单模替换结构N个相同的模块中,只有一个为主用模块处理于运行状103成对替换结构N个模块中总有两个组成主用模块对,它们并行工作并进行比较;一旦比较结果不致便启动重组,将该对模块切除,而换上另外两个备用模块作为主模块对。成对替换结构N个模块中总有两个组成主用模块对,它104(2)可重组二模冗余在静态二模冗余的基础上增加故障检测和模块切换装置而构成的有两种常见的冗余模式:主备用冗余模式和二模协同冗余模式(2)可重组二模冗余在静态二模冗余的基础上增加故障检测和模块105主备用冗余模式实质上是待命储备式N模冗余系统的一个特例两个相同的模块通过一定的接口电路(包括检测和切换装置)连接起来,一个主用,一个备用。主备用冗余模式实质上是待命储备式N模冗余系统的一个特例106二模协同冗余模式二模协同:指两个模块同时执行相同的指令,处理相同的数据,完成相同的任务。如果二模均正常,则任取其中一个的输出作为系统输出;如果一个失效,则它的输出封锁,而将正常的输出作为系统输出。二模协同冗余模式二模协同:指两个模块同时执行相同的指令,处理107故障定位方法自诊断方法:联机模块运行自诊断程序每个模块设置自校验器利用监视定时器判别故障模块,触发重组利用外部仲裁控制配置:强迫二模块运行同一“已知结果的测试程序”故障定位方法自诊断方法:联机模块运行自诊断程序108模块同步的方法微周期级同步总线周期级同步任务级同步模块同步的方法微周期级同步1094、恢复恢复的概念恢复技术的方法向前错误恢复、向后错误恢复(3)常用恢复算法(4)计算机系统基本部分的恢复技术(5)文件恢复技术(6)通信系统的恢复技术4、恢复恢复的概念110(1)恢复恢复是系统利用重组处理了永久故障等不可恢复硬件故障后,实现动态冗余和容错的必不可少的环节。其作用是消除错误造成的影响,使系统自动恢复到正常工作状态重新运行下去。(1)恢复恢复是系统利用重组处理了永久故障等不111(2)恢复技术的方法向前错误恢复向后错误恢复(2)恢复技术的方法向前错误恢复112向前错误恢复概念:根据系统的故障特征,校正出错的系统状态,使系统进程正确运行下去。这种恢复技术不需要保存系统出错前的状态和信息,不需要卷回重运行。优点:系统开销小,无需保存恢复点信息的时间和空间;可避免多米诺效应。多米诺效应:伴随“卷回”操作而产生的一种连锁倒退、直至退回到任务起点的反应现象。在多进程计算机系统中极易产生多米诺现象。向前错误恢复概念:根据系统的故障特征,校正出错的系统状态,使113向前错误恢复缺点:(1)恢复算法复杂,必须基于对故障特征和错误性质的深刻而全面的认识。(2)不能采取措施来消除错误或掩盖故障。向前错误恢复缺点:114向后错误恢复向后错误恢复技术是把出错的系统进程从当前错误状态卷回到以前的某一正确状态,然后从这一状态开始继续系统的运行。这种恢复方式是以事先建立恢复点为基础的向后错误恢复向后错误恢复技术是把出错的系统进程从115向后错误恢复协议(1)保证为每个任务或进程的程序模块设置一组恢复点,并将系统正常运行到各恢复点时的状态和必要信息予以保存,以便程序一旦返回到该点时可以纠正故障影响。(2)避免因多模块间通信而产生的多米诺效应,关键在于选择恢复点。(3)尽量保持各模块原有的并行性。向后错误恢复协议(1)保证为每个任务或进程的程序模块设置一116向后错误恢复协议(4)使各模块保持独立性,并使恢复过程对设计者具有透明性。(5)避免因恢复造成多模块的死锁。(6)使恢复操作尽量少增加系统开销。(7)具有完整性和一致性向后错误恢复协议(4)使各模块保持独立性,并使恢复过程对设117向后恢复的三种实现方法静态规划法无规划法动态规划法向后恢复的三种实现方法静态规划法118优点:实现简单、恢复可靠缺点:系统的时间、空间开销大,易引起多米诺效应优点:实现简单、恢复可靠119(3)常用恢复算法程序卷回记日志恢复块原子操作预设陷阱纠错编码多数表决(3)常用恢复算法程序卷回120程序卷回向后错误恢复方法适用于瞬时错误和永久错误检测系统在运行过程中一经发现错误,便进行程序卷回,返回到起始点或离出错点最近的预设恢复点重试。微指令重试替换数据重试程序卷回向后错误恢复方法121注意问题恢复点的数目和位置选择问题各恢复点需要保存的状态和信息量的确定问题恢复点的功能设置问题程序卷回级别的选择问题注意问题恢复点的数目和位置选择问题122程序在恢复点的功能同步功能存档功能存档内容的更新功能报告功能程序在恢复点的功能同步功能123记日志向后错误恢复方法在进程开始时,保存初始数据的副本作为后备数据,并在进程执行中,记下影响这些数据的全部业务。记日志向后错误恢复方法124恢复块向后恢复方法,以错误检测、向后冗余和多份软件模块为基础由恢复点、替换算法和验收测试三部分组成恢复点:保存在恢复块内会发生变化的全局变量替换算法:一个或多个不同版本、但功能相同的备用程序模块验收测试:一组逻辑表达式模块,设置在每个替换算法的出口,用于检测计算结果的正确性、合理性恢复块向后恢复方法,以错误检测、向后冗余和多份软件模块为基础125验收测试的设计问题满足要求测试:算法执行后完成必定满足要求合理性测试审计测试运行时间测试验收测试的设计问题满足要求测试:算法执行后完成必定满足要求126原子操作特性:一个原子操作可以只属于一个进程,也可以由多个进程共享原子操作是可嵌套的一种错误检测的方法,还是一种确定一个故障的可能结果的界限的方法可用于向前和向后错误恢复原子操作特性:127预设陷阱向前错误恢复方法根据系统可能出现的异常情况,设计一组处理程序,建立一个异常处理程序库,当系统因故障而出现某种预料中的异常情况时,便从库中调用相应的异常处理程序进行处理,实现错误恢复预设陷阱向前错误恢复方法128纠错编码通过在信息位的基础上增加校验位,可以准确地检测出传输、存储的信息中出现的差错和差错的位置,并能以正确的值校正差错值,使信息恢复到原来正确状态。可用于故障诊断、屏蔽,差错恢复纠错编码通过在信息位的基础上增加校验位,可以准确地检测出传输129多数表决向前错误恢复,可以屏蔽错误,并诊断出错位置在多处理机系统中,多个处理机独立运行同一任务,并同步完成相同的功能,按“择多原则”得出正确的结果值多数表决向前错误恢复,可以屏蔽错误,并诊断出错位置130(4)计算机系统基本部分的恢复技术中央处理机的故障排除与恢复存储器故障排除与恢复外设的故障排除与恢复(4)计算机系统基本部分的恢复技术中央处理机的故障排除与恢131中央处理机的故障排除与恢复常见故障:内部硬件故障:由模块或装置内的各种硬件校验和接口校验验出程序错误:可作为程序执行时的软件异常状态和例外状态由硬件检验机构检出中央处理机的故障排除与恢复常见故障:132中央处理机的故障排除与恢复流程图CPU1硬件故障硬件重试成功保存现场运行信息多处理机?CPU1永久故障停机,并保存现场运行信息中断CPUi(i=1)OS的功能恢复例行程序应用软件恢复例行程序有关处理任务异常终结继续工作能恢复?CPU执行OSNNYNYYN中央处理机的故障排除与恢复流程图CPU1硬件故障硬件重试成功133软件故障排除与恢复硬件检测机构一旦检出程序异常,立即发出程序错误中断(如非法操作码中断、指令使用错误中断等)报告给操作系统对于操作系统中发生的程序错误,通常采用“预设陷阱”恢复算法,针对不同的程序错误中断,启动不同的“异常处理”程序。对于用户处理程序中发生的程序错误恢复块技术预设陷阱恢复方法软件故障排除与恢复硬件检测机构一旦检出程序异常,立即发出程序134存储器故障排除与恢复检测:奇偶校验电路、静态测试、动态测试等软件检测手法、海明码一旦检测出有错,检测机构向CPU发出中断,启动运行存储器排除故障与恢复的中断处理程序处理方法:先了解发生误操作的存储器地址或芯片等故障信息,然后重新从外部存储器调入出错的程序,从断点处开始重试,看能否恢复;若重试不成功,进行硬件重组和重组后的恢复重新调入执行的程序,可重入(Reenterable)且可再生(Refreshable)的程序存储器故障排除与恢复检测:奇偶校验电路、静态测试、动态测试等135外设的故障排除与恢复外设:与CPU控制输入/输出设备工作相关的硬件组成部分:并行或串行I/O通道、设备驱动器、I/O设备和数据存取路径外设故障对策外设故障的处理步骤外设的故障排除与恢复外设:与CPU控制输入/输出设备工作相关136外设故障对策存取路径多重化设备的物理多重化:将信息同时写入若干相同的设备设备的逻辑多重化:为同一功能安排两个以上的实体设备复制件,而且设置几种不同的设备外设故障对策存取路径多重化137外设故障的处理步骤用硬件或软件重试硬件重试:由I/O通道、设备驱动器对指令自动重试软件重试:先在发生I/O操作错的同一存取路径上进行;若失败,再改用另一路径重试故障的区分诊断故障设备的重组定时监视外设故障的处理步骤用硬件或软件重试138处理外设故障的一般步骤用硬件/软件重试成功?故障的区分诊断故障设备重组定时监视超时?YNYN继续运行处理外设故障的一般步骤用硬件/软件重试成功?故障的区分诊断故139外设故障的区分诊断通道1驱动器1通道2驱动器2TDDP11P12P2212外存外设故障的区分诊断通道1驱动器1通道2驱动器2TDDP11P140故障设备的重组将故障设备和故障单元在逻辑上与系统切断,禁止存取,通知操作员切除维修故障设备修复后,在实际投入系统应用前以诊断工作方式读写检验其是否正常和可靠,称为故障修复后的验收诊断故障设备的重组将故障设备和故障单元在逻辑上与系统切断,禁止存141(5)文件恢复技术文件:计算机系统中具有逻辑关系的信息/数据的集合文件恢复的故障前处理文件恢复的故障后处理(5)文件恢复技术文件:计算机系统中具有逻辑关系的信息/数142文件的恢复阶段故障前处理:在系统运行过程中、故障发生前,将文件恢复所必需的信息记录下来故障后处理:系统因故障发生而中断运行时,利用故障前记录的信息使刚刚发生故障的文件及系统的其他状态得到恢复,使系统重新运行文件的恢复阶段故障前处理:在系统运行过程中、故障发生前,将文143故障前处理二重化方式虚拟空间方式恢复点方式报文记录方式全转储方式ID转储/状态转储方式故障前处理二重化方式144二重化方式将重要信息二重化二重化方式将重要信息二重化145虚拟空间方式更新文件时,将文件复制到别的文件空间后再更新虚拟空间:用于更新别的文件空间虚拟空间方式更新文件时,将文件复制到别的文件空间后再更新146恢复点方式联机系统使用分类周期转储:按一定时间周期,定期转储系统恢复所需的基本信息增量转储:在文件每次更新前保存下文件的内容、识别号、处理时间等信息恢复点方式联机系统使用147报文记录方式常用于小型报文交换系统在形成输入、输出报文记录时都附加上一定的识别号码,然后系统恢复时通过检验识别号码来确定具体的恢复策略报文记录方式常用于小型报文交换系统148全转储方式每过一定时间,将系统运行所必需的重要文件和需要长期保存的信息全部从硬盘上转储到磁带、光盘等后援存储器上去。全转储方式每过一定时间,将系统运行所必需的重要文件和需要长期149ID转储/状态转储方式转储系统的运行状态记录,将记录结合恢复点方式和报文记录方式获得的有关文件识别号码、事务处理识别号码、文件内容等信息,恢复系统正常运行状态ID转储/状态转储方式转储系统的运行状态记录,将记录结合恢复150文件操作的四种状态状态S0:接收完终端送来的报文时状态S1:在恢复点转储完文件更新信息,但尚未更新文件时状态S2:用户文件更新完成时状态S3:向终端发送输出报文时文件操作的四种状态状态S0:接收完终端送来的报文时151故障后处理应急恢复文件恢复系统恢复的优先次序故障后处理应急恢复152应急恢复利用ID转储/状态转储信息和恢复点信息等,尽快使对用户的服务重新开始的恢复针对两种故障状态:终端处于完全不能访问系统中心的状态终端送来的报文已输入到系统中心,报文正在处理中或已处理完正等待输出时发生故障的状态应急恢复利用ID转储/状态转储信息和恢复点信息等,尽快使对用153文件恢复读出的文件发生故障时,利用前一天的全转储信息和当天的恢复点信息来恢复文件文件恢复读出的文件发生故障时,利用前一天的全154(6)通信系统的恢复技术终端控制程序的恢复处理报文控制程序的恢复处理(6)通信系统的恢复技术终端控制程序的恢复处理155通信系统:由各机所属的通信控制器和机间的通信线路网组成通信控制器:故障检测:通过特设的回折试验线路和多重化通信的模拟输入/输出功能进行检测故障定位:终端控制程序的故障区分例行程序通信线路网:交换线路网和专用线路网通信系统:由各机所属的通信控制器和机间的通信线路网组成156通信系统的信息处理终端控制程序:以终端、通信线路网的控制为中心,使数据正确而有效地传送报文控制程序:以一份报文为单位确保数据处理的正确性业务控制程序:对接收的报文信息按应用要求进行综合通信系统的信息处理终端控制程序:以终端、通信线路网的控制为中157终端控制程序的恢复处理检测报文错误或传送控制错误重试终端代理接收试验呼叫终端控制程序的恢复处理检测报文错误或传送控制错误158报文控制程序的恢复处理用来校验报文格式和输入/输出流水号等错误,并负责出错情况下的恢复处理工作报文格式错:将该份报文作废并通知发送端重发输入流水号和输出流水号错重号:在接收端删除重复报文漏号:通知发送端重发通信系统错误恢复后,对中断交换的报文处理重发脱发:系统恢复工作总从下一份报文开始发送报文控制程序的恢复处理用来校验报文格式和输入/输出流水号等错1595、多机处理系统的动态冗余结构常用的多处理机冗余结构(1)均分负载系统结构(2)主备用系统结构(3)紧耦合系统结构(4)分布式系统结构(5)网络结构5、多机处理系统的动态冗余结构常用的多处理机冗余结构160均分负载系统结构均分负载:把系统的负载基本均衡地分配给多个互相独立的处理机来承担均分负载系统结构均分负载:把系统的负载基本均衡地分配161紧耦合系统结构特点:有两个或两个以上的处理机有各处理机共享的主存储器有各处理机共享的I/O子系统有统一的多机并发操作系统进行控制紧耦合系统结构特点:162分布式系统结构松耦合多处理机系统相互通信的多个自治计算机节点的集合,各计算机即相互独立,又是一个整体的组成部分,相互协作完成一个共同的任务分布式系统结构松耦合多处理机系统163结构特点所有资源均可冗余良好的可扩性使得系统的冗余程度可随应用要求和环境的变化而作动态调整系统中资源在物理上是分散的,避免了由于局部故障而导致整个系统崩溃的现象高速可靠的通信子网络和资源的分散控制消除了单处理机和紧耦合多处理机系统中存在的竞争、数据流瓶颈和控制上的关键点结构特点所有资源均可冗余164几种常见的分布式系统结构双环结构C1,t环路结构(n:节点数,t:节点跳跃间隔)多总线结构容错环总线结构n几种常见的分布式系统结构双环结构n165多总线结构每个节点并不连接到所有的总线上,而是按一定规律连接在部分总线上特点:总线数增多时,节点的端口数不必随之增加每条总线的负载不会随着节点的增加而明显增大多总线结构每个节点并不连接到所有的总线上,而是按一定规律连接166(5)网络结构网络冗余性的表现:终端设备与线路的多重冗余存取路径的多重冗余引入集配器装置网络结构的基本形式:集中式网络分布式网络(5)网络结构网络冗余性的表现:167第五章软件可靠性技术软件可靠性概述软件容错技术信息保护技术第五章软件可靠性技术软件可靠性概述1685.1软件可靠性概述软件可靠性和硬件可靠性的联系和区别软件可靠性技术的内涵软件可靠性定义软件可靠性指标5.1软件可靠性概述软件可靠性和硬件可靠性的联系和区别169软件可靠性和硬件可靠性的联系软件可靠性和硬件可靠性的区别软、硬件故障机理软件故障的特性软件可靠性和硬件可靠性的联系1701、软件可靠性和硬件可靠性的联系指系统(或产品、模块)在一定的条件下和一定时间内能完成预定功能的性质两者都是复杂性的函数都可利用可靠性增长来提高它们的可靠性1、软件可靠性和硬件可靠性的联系指系统(或产品、模块)在一定1712、软件可靠性和硬件可靠性的区别概念内涵指标选择设计分析手段提高可靠性的方法途径2、软件可靠性和硬件可靠性的区别概念内涵1723、软、硬件故障机理硬件故障来源于元部件的失效,“后生”的故障软件故障来源于人的失误和水平、能力的局限性,“先天”的故障3、软、硬件故障机理硬件故障来源于元部件的失效,“后生”的故1734、软件故障的特性固有性环境敏感性运行环境:硬件平台、硬件配置、支撑软件输入环境:应用对象,用户要求,输入数据等故障影响的传染性:任一软件故障,只要未被除,始终存在于该软件中,一旦引起错误,是可以传染给其他软件的。4、软件故障的特性固有性174可靠性设计:为了获得高可靠性的软件避错排错设计容错设计信息保护可靠性分析:通过建立一定的可靠性模型,为软件可靠性设计和软件维护提供必要的依据可靠性设计:为了获得高可靠性的软件175软件可靠性技术设计技术分析技术避错排错技术容错技术信息保护技术可靠性模型管理技术设计方法学验证技术多版本技术恢复块技术替换技术混合技术基本信息保护技术网络信息保护技术时间技术计数技术播种技术数据技术软件可靠性技术设计技术分析技术避错排错技术容错技术信息保护技176计算机软件:与计算机系统的操作有关的程序、规程、规则以及与之有关的文件和数据软件质量软件可靠性计算机软件:与计算机系统的操作有关的程序、规程、规则以及与之177RAID4的特点和RAID3也挺象,不过在失败恢复时,它的难度可要比RAID3大得多了,控制器的设计难度也要大许多,而且访问数据的效率不怎么好。自校验系统的性质由系统结构和运行环境所决定。3自校验网络的基本结构效率(时间性、资源性)缺点:虽然不增加硬件设备却增加了大量软件工作,系统研制的难度、周期和费用增加了;可利用后备单元的不加电元件的潜在低失效率特点统进行屏蔽以减少外界的干扰等方法来提容错软件设计的先进技术1969,喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。机器的内部总线,也包括像SCSI的外部总线更换新盘后原有数据会需要很长时间同步镜像,外界对数据的访问不会受到影响,只是这时整个系统的性能有所下降。软件质量指软件产品满足规定需求或隐含能力所有的特征和特征之和软件质量指标功能性(实用性、准确性、互操作性、一致性和安全性)可靠性(成熟性、容错性、可恢复性)易使用性(易学性、易理解性、易操作性)效率(时间性、资源性)维护性(可分析性、易修改性、稳定性和易测试性)可移植性(适应性、可安装性、规范性和可换性)RAID4的特点和RAID3也挺象,不过在失败恢复时,它的难178软件可靠性在规定的条件下和规定的时间内,软件成功地完成功能的能力或不引起系统故障的能力,称为软件可靠性特点:与软件开发方法有关与验证方法有关与使用的程序设计语言、软件的运行环境条件、操作人员的素质有关软件可靠性在规定的条件下和规定的时间内,软件成功地完成功能的179软件可靠性指标应根据实际系统的可靠性指标分析确定,并遵循以下原则:与系统可靠性表示方法相协调用户概念以使用过程中易观测的参数来表示针对具体的任务,对不同的功能应用不同的指标和要求软件可靠性指标应根据实际系统的可靠性1801、沿袭硬件可靠性的软件可靠性指标软件可靠度:软件系统在特定的环境下,在规定的时间内不发生故障地运行的概率(Rs(t)))故障率:软件工作到某时刻t尚未失效,在时间t后单位时间内发生故障的概率(λs(t))平均故障间隔时间:是软件在交付用户使用的操作期间,软件各次故障的间隔时间的期望值(MTBF)平均故障前时间:是软件经测试过程中,软件各次故障之间的间隔时间的期望值(MTTF)平均修复时间:软件系统在特定的环境下,在规定的时间内,在规定的维修级别上,维修时间的平均值(MTTR)1、沿袭硬件可靠性的软件可靠性指标软件可靠度:软件系统在特定1812、表征软件特殊性的软件可靠性指标平均不工作时间:软件系统平均不工作时的时间平均操作错误时间:软件操作错误的平均间隔时间软件系统不工作时间均值:因软件故障,系统不工作时间的平均值可用性:软件在规定的开始时刻t0运行正常的条件下,在规定的未来时间t正常运行的概率初始错误个数和剩余错误个数使用方误用率:使用方在使用软件的总次数中,误用次数所占的百分率2、表征软件特殊性的软件可靠性指标平均不工作时间:软件系统平1825.2软件容错技术容错软件的基本概述及原理容错软件设计的基本技术容错软件设计的先进技术5.2软件容错技术容错软件的基本概述及原理183容错软件的定义实现软件容错的基本原理实现容错软件的有关技术容错软件的定义1841、容错软件的定义规定功能的软件,如果在一定程序上对自身故障的作用具有屏蔽能力,那么,称此软件为具有容错功能的软件,即容错软件规定功能的软件,如果在一定程度上能从故障状态自动恢复到正常状态,则称为容错软件规定功能的软件,在因缺陷而出故障时,仍然能在一定程度上完成预期的功能,则称为容错软件规定功能的软件,如果能在一定程序上具有容错能力,则称为容错软件1、容错软件的定义规定功能的软件,如果在一定程序上对自身故障185特点容错的对象是一个规定功能的软件,这些功能是由需求规范定义的容错的能力总是有一定限度的当软件由于自身存在缺陷而在运行中出故障时,若其为容错软件,应能屏蔽这一故障,对其进行处理以避免失效(通过故障检测算法、故障恢复算法、软件冗余备份来实现)特点容错的对象是一个规定功能的软件,这些功能是由需求规范定义186排错并不能解决所有问题缺陷与因其而引起的故障间的关系十分复杂,依据对故障的观测来确定缺陷难度是很大的设计中的残存缺陷大多已经和软件总体以及各阶段中形成的文档、资料等建立了密切的联系,难以一举排除在研制时间上,不允许作旷日持久的检验和修改排错并不能解决所有问题缺陷与因其而引起的故障间的关系十分复杂1872、实现软件容错的基本原理将若干个根据同一规范编写的不同程序(或程序块),在不同空间同时运行或在同一空间依次运行,然后在每一个预定的检测点上或最终通过表决或接收测试进行裁决。在判明其正确或一致后接收这个结果,否则便加以拒绝,并作出报警。2、实现软件容错的基本原理将若干个根据同一规范编写的不同程序188容错基本结构
结果报警正确执行可诊断的故障不可诊断的故障版本裁决器容错基本结构结果报警正确执行可诊断的故障不可诊断的故障189容错系统的结果裁决器判断正确,软件正确无误地实现了需求规范所载的功能裁决器判断正确,发现故障,发出的报警,能制止系统失效导致严重的后果裁决器判断错误或软件存在不可诊断的故障,使系统最终失效容错系统的结果裁决器判断正确,软件正确无误地实现了需求规范所190容错软件的两种结构方案多(N)版本程序设计(N-VersionProgramming,NVP)结构恢复块(RecoveryBlock,RB)技术容错软件的两种结构方案多(N)版本程序设计(N-Versio1913、实现容错软件的有关技术版本冗余故障检测技术故障恢复技术破坏估计故障隔离技术继续服务3、实现容错软件的有关技术版本冗余192(1)故障检测技术软件断言(SoftwareAssertions)软件的自测试(1)故障检测技术软件断言(SoftwareAsserti193软件断言(SoftwareAssertions)软件在宿主系统中运行时,能对其进程或功能的正确与否作出判断的条件称为软件断言。断言提供三个结论:正确,不正确,不能判别软件断言(SoftwareAssertions)软件在宿主194软件的自测试正面校验(PositiveCheck)原则:测试软件将输入转化为输出的功能是否正确反面校验(NegativeCheck)原则:将软件输出逆转化为输入,检查是否正确软件的自测试正面校验(PositiveCheck)原则:测195(2)故障恢复技术向前恢复向后恢复(2)故障恢复技术向前恢复196故障恢复技术故障检测状态恢复方案状态恢复重构重试继续服务向前向后故障恢复技术故障检测状态恢复方案状态恢复重构重试继续服务向前197(3)破坏估计、故障隔离和继续服务破坏估计判定故障被检测出来之前已经引起的破坏发生故障后,在处理的延滞或恢复实施过程中,无效信息在系统中传播的可能性故障可能导致的其他未被检测到的后续故障故障隔离继续服务(3)破坏估计、故障隔离和继续服务破坏估计198故障隔离主动地采取措施,防止故障的破坏性蔓延的技术称为故障隔离权限最小化原则:对过程的数据加以严格的定义和限制,令过程不能提供任何超过事先规定限度的功能,也无权接受来自限定数据库之外的数据故障隔离主动地采取措施,防止故障的破坏性蔓延的技术称为故障隔199继续服务确保向前恢复后的输出序列中所失去的部分不致于影响软件的基本功能确保向后恢复后输出序列中重复多余的部分和差错状态不致影响输出的正确执行继续服务确保向前恢复后的输出序列中所失去的部分不致于影响软件200N版本程序设计(NVP)恢复块(RecoveryBlock)技术N版本程序设计(NVP)2011、N版本程序设计(NVP)NVP的思想来自硬件NMR(N-ModularRedundant)结构,是一种静态冗余技术NVP要求由N个实现相同功能的不同程序同时(或几乎同时)在松耦合计算机上运行,然后比较运行结果,在出现不一致的情况下,利用多数表决决定一个最优先的结果1、N版本程序设计(NVP)NVP的思想来自硬件NMR(N202NVP的基本结构版本1版本2版本N表决器结果告警多数少数NVP的基本结构版本1版本2版本N表结果告警多数少数203优缺点优点:结构简单,不设计检测程序来确定运行结果的正确与否缺点:处理时间是单版本的N倍设计所花的力量是单版本的N倍表决程序设计较困难当该程序需要与外部事件同步时,或在并行处理中在交互过程时,难于处理优缺点优点:结构简单,不设计检测程序来确定运行结果的正确与否2042、恢复块(RecoveryBlock)技术思想来源于硬件的待机(Standby)冗余的动态结构恢复块的基本结构接收测试设计替换块的设计2、恢复块(RecoveryBlock)技术思想来源于硬件205恢复块的基本结构版本1接收测试版本2接收测试版本1接收测试结果告警接收接收恢复块的基本结构版本1接收测试版本2接收测试版本1接收测试结206接收测试设计逆向检查:接收测试利用模块中的结果,计算本应采用的输入值,并与真实输入值比较以决定结果是否可接受编码校验:利用纠、检错码的原理建立接收测试合理性测试:根据可能的变化范围,以便检查变量是否越出范围或状态变化违反允许的序列结构校验:比如利用数据结构链表的链接特性来进行校验帐目校验:在事务处理中,帐目校验是用帐目平衡来作接收测试最方便的基准运行时间校验:接收测试设计逆向检查:接收测试利用模块中的结果,计算本应采用207(3)替换块的设计相同加权,独立设计优先的、全功能设计功能降级设计(3)替换块的设计相同加权,独立设计208一致性恢复块接收表决N自检程序设计一致性恢复块2091、一致性恢复块(CRB)按顺序结合NVP和RB的混合系统称为一致性恢复块(CRB)。如果NVP失效,系统将恢复到RB。只有当NVP和RB都失效时系统才发生故障。1、一致性恢复块(CRB)按顺序结合NVP和RB的混合系统称2102、接收表决(AcceptanceVoting)与CRB混合方向反向,多个模块并行执行,模块输出先经过接收测试,接收测试接受输出后,结果再经表决器表决。表决器是动态的,因为接收测试的输出结果数目每次各不相同只有两个或多个输出正确时,表决器才产生一个决定2、接收表决(AcceptanceVoting)与CRB混2113、N自检程序设计N个模块成对执行(N取偶数)采用比较模块输出或其他方法来判断系统正确与否比较模块输出:如果每一对的输出之间不相同,则放弃输出3、N自检程序设计N个模块成对执行(N取偶数)212各冗余软件由相互独立的不同人员进行开发各冗余软件以不同的形式说明各冗余软件的设计评审的参与人员不重复各冗余软件的最终规范及最终设计、最终编程由不重复的审核人员对照软件需求、软件规范、软件设计进行审核各冗余软件由相互独立的不同人员进行开发213如果开发采用了CAD工具,则各冗余软件应采用不同的CAD工具各冗余软件析测试程序的规范、测试方式、测试程序,尽可能由不重复的互相独立的人员组开发各冗余软件应在算法上相异各冗余软件应在逻辑结构上相异如有可能,各冗余软件最好由不同开发单位设计,开发单位之间是相互独立的各冗余软件用不同的程序设计语言设计各冗余软件用不同的编译程序或汇编程序翻译成目标码如果开发采用了CAD工具,则各冗余软件应采用不同的CAD工具2145.3信息保护技术概述基本信息保护技术先进的计算机网络信息保护技术网络备份系统5.3信息保护技术概述215信息保护技术:为防止信息被不正当地存取或破坏而采取的措施信息保护技术:216编码化与密码化资格检查内存保护外存保护编码化与密码化2171、编码化与密码化编码化:在信息上附加冗余信息,防止硬件故障、程序错误以及人为差错等原因引起的信息破坏密码化:防止信息泄漏(明文、密文、密钥)1、编码化与密码化编码化:在信息上附加冗余信息,防止硬件故障2182、资格检查设置“允许存取的口令”设置“程序权限等级”设置“用户权限等级”2、资格检查设置“允许存取的口令”2193、内存保护区域寄存器方式保护键方式环状保护方式虚拟存储方式残存信息的清除3、内存保护区域寄存器方式220“冷”备份:平时备份模块不通电虚拟空间:用于更新别的文件空间更新文件时,将文件复制到别的文件空间后再更新(1)保
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗机构文化建设方案
- 智能乡村工程承包合同
- 中心站员工福利计划
- 城市广场休闲区廊架施工合同
- 专利许可合同评审管理办法
- 化工行业高压电工聘用协议
- 冷藏租赁协议:冷冻食品生产专用
- 交流酒会酒店场地租赁协议
- 物流仓库操作工聘用协议
- 信息技术异常处理办法
- 期中检测卷(1-4单元)(试题)-2024-2025学年二年级上册数学人教版
- 2024-2030年中国高岭土市场运行态势分析与发展现状调研报告
- 期中(1-3单元)通关练习(试题)-2024-2025学年人教PEP版(2024)英语三年级上册
- 高中数学大单元教学设计研究
- 人教版七年级英语上册教学课件Unit 3 My School
- 国家开放大学专科《应用写作(汉语)》一平台在线形考(形考任务一至七)试题及答案
- 2024-2030年中国节庆饰品市场发展趋势及营销策略分析报告
- 新视野大学英语(第四版)读写教程3(思政智慧版)课件 B3U5 Chinas space dream Section C
- 幼儿园社会《认识警察》课件
- 期中 (试题) -2024-2025学年人教精通版英语六年级上册
- 期中模拟试题2024-2025学年牛津译林版英语七年级上册
评论
0/150
提交评论