




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、容错技术与诊断技术,课程性质:计算机专业选修课 前修课程:组成原理、操作系统 南京航空航天大学信息学院 钱忠民 qzm_,03:41:54,2,第一章 容错系统概述 第二章 可靠性的基本知识 第三章 可靠性的分析方法 第四章 冗余技术 第五章 马尔可夫模型分析法 第六章 软件容错技术 第七章 容错系统设计和典型的容错系统介绍 第八章 故障诊断技术,第一章 容错系统概述,第一节 可靠性是计算机系统的重要性能 指标 一般讲到计算机性能指标时往往只考虑: CPU功能: 速度(如:主频) 指令系统(包括CPU寄存器) 寻址能力(寻址空间) 存储系统: Cache、主存容量、组织方法、管理机构 外设配置
2、和采用的总线等,但是,随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域,对这些系统来说,可靠性是极其重要的性能指标。 例如: 1:工业、交通、航空: 飞行控制计算机,一旦故障,有可能造成机毁人亡的严重后果 要求在10-20小时飞行任务期间内失效的可能性低于10-9 工业控制: 如:核电站、化工厂的过程控制。 如控制失灵会造成重大事故。,交通: 如:铁路运输中的信号系统 通讯: 如程控交换机等 2。商业、金融 对信息的安全可靠有极高要求 3。长寿命、高可靠 应用 航天:人造卫星的通讯控 制如:美国的STAR系统(Self Test and Repair)保证在十年中可靠运行的时间95
3、%,只允许短暂的停顿(比如几分钟),这些领域对计算机的可靠性提出在正常条 件下难以达到的要求。 比如,市售的成品计算机的可靠性指标:MTBF(平均故障间隔时间)为300-10000小时。在10小时内可靠度仅0.997-0.999(故障可能为310-3110-3)。在运行10000小时时候,可靠运行的概率仅0.368左右,第二节 容错技术与非容错技术,提高可靠性的方法有两种: 1。非容错方法(避错技术) 避错方法是保证可靠性的主要和基本的方 法。它采用预防为主的手段。,硬件措施: 严格地进行元件筛选、老化处理 采用成熟技术,防止设计错误 严格遵守加工工艺如:制板、装配、调试 在保证功能、性能要求
4、前提下采用最简单的设计方案 降负荷运行。比如:降低主频、降低通讯线的数据传输率 改善运行环境:空调、防震、防尘、防潮,软件措施: 模块化、结构化程序设计 完善的、规范的文档资料 严格的调试,避错方法是保证系统可靠性的基础,也是必不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为: 1)元件质量受当时工艺水平限制, 在一个时期只能达到一定水平。 比如50年代计算机采用电子管为主要元件,其平均寿命为800小时。采用特殊工艺可达1500-2000小时,此时价格已高出常规价格几十倍。 当时计算机采用18000只电子管,平均每小时有9-12个管子损坏。,2)设备的可靠性随复杂性增加而降低。
5、 复杂的设备使用的器件种类和数量都多,不可避免有较高的故障率。而随着计算机应用范围的不断扩大,系统复杂性日益增加。可靠性问题也日趋严重。 要获得高可靠的系统,还必须在系统结构上想办法,使系统具有抵抗故障的能力,因而产生了容错设计的方法,2. 容错方法 : 正如采用预防为主的方针后仍需要医院一样,象计算机系统这样复杂的系统不可避免有故障发生。 对有高可靠性要求的应用系统来说,必须有在故障发生时仍保证系统正常工作的手段,这就是容错的手段。,容错能达到常规方法所不能达到的高可靠性 例如:美国70年代研制的FTMP系统和SIFT系统能保证在10小时飞行任务期间,可靠度高于0。99999999,即108
6、架次飞行(每次10小时)飞行计算机失效的可能不到1次,采用容错技术,并不否定避错技术。 相反,容错技术必须和避错技术相结合,才能使系统达到理想的可靠性。,容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。 设计与分析容错计算机系统的各种技术称为容错技术 容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统,实现容错计算的四个方面,(1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。 (2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他
7、地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。,(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的系统状态。 (4)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。,容错系统的一般阶段,故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。 故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验
8、都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有用的工作;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和二模冗余校验。 故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏蔽的一个例子。 重试:在许多场合,对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。 诊断:如果故障检测技术没有提供有关故障位置和/或性质的信息,那么就需要一个诊断。,重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便
9、替代失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,系统能力不降低。 恢复:检测和重组(若必要的话)之后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文件、校验点和应用记录方法。 重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏时,才能进行“热”重启(从故障检测点恢复所有操作的)。“温”重启指仅有某些过程可以毫无损失的重新启动,“冷”重启相当于系统需要完全重新加载。 修复:把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的
10、或者脱机进行的。 重构:对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。,二、容错技术的发展概况,第一代计算机(1946-1957) 第二代计算机(1957-1964) 第三代计算机(1964-1970) 第四代计算机(1970-) 现在,第一代计算机(1946-1957),元件:电子管、继电器及延迟线存储器 问题:元件的失效率相当高,并易受瞬时故障的影响 措施:特别设置的硬件故障检测和人工恢复,1956,SAPO,捷克,三个CPU同时工作,对运算结果进行表决,存储器采用奇偶校验,具有单条指令重复执行的功能 SAGE,美国,用于防空系统,采用
11、双机比较以检测故障,并配合以恢复技术,第二代计算机(1957-1964),元件:晶体管及磁芯存储器 问题:失效率比第一代计算机元件大为降低 措施:避错技术占统治地位,对故障一般采用诊断程序进行脱机检测,第三代计算机(1964-1970),元件:集成电路 问题:元件的失效率继续降低,但计算机应用范围扩大,对计算机系统的可信性要求更高 措施:容错技术重新提出,并得到了较快的发展,并出现了许多 容错计算机,实例,1964美国土星V号运载火箭导航计算机研制成功,该机采用三模冗余及奇偶校验来实现容错 1969,美国喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及
12、双机比较检测故障。 1965,贝尔实验室研制成功1号ESS处理机,是用于电话交换的计算机系统,采用了双机比较技术,是专用的硬件及软件进行故障的检测、定位及识别。,第四代计算机(1970-),元件:大规模和超大规模集成电路 问题:硬件可靠性大大提高而价格却大幅度降低,使采用各种容错技术在经济上更易接受。 需求:容错技术应用范围扩展于银行事务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术,实例,1975,美国贝尔实现室的3A号ESS处理 1975,美国TANDEM 16容错事务处理系统 1976,美国AMDAHL 470V/6容错通用计算机 1978,容错空间计算机FTSC 197
13、9,IBM推出容错的4300通用计算机系列 1980,容错多处理机FTMP及软件实现的容错计算机SIFT研制成功,80年代以来,出现了商用容错计算机市场 分布式容错计算机系统的出现 容错的VLSI技术 人工智能在容错技术上的应用计算机故障诊断专家系统,错误的根源,第二章 可靠性的基本知识,第一节 可靠性的定义和特性 1。广义的定义: 系统(或设备、元件)在规定的条件和规 定的时间内完成预定功能的能力,规定的条件: 运行条件:工作负荷、环境(温度、 湿度、振动、灰尘) 维护手段:现场维护、脱机维护等 运行时间: 短时间运行(几秒、几分钟) 中等时间运行(几小时,几天) 长时间(连续运行数月、数年
14、),2。严格的定义: 必须量化 将上面定义中能力改成概率 必须明确 将可靠性改为可靠度函数,1。可靠度函数和失效分布函数 可靠度函数: 产品在时刻t能完成规定功能的概率称可靠度函数,用R(t)表示 不可靠度函数: 产品在时刻t不能完成规定功能的概率称不可靠度函数,用F(t)表示 根据定义有: F(t)=1-R(t),二、可靠性的基本函数,设T为产品在规定条件下的寿命 则:R(t)=P(Tt) F(t)=P(Tt) 工程计算: 以频率代概率,在t=0时刻有N件产品, 在t时刻有Nt件继续工作 则R(t)Nt/N F(t)(N-Nt)/N,3。失效率函数(t) 在ti时刻正常工作的产品,在ti后单
15、位时间失效的概率 (t)与f(t)的区别: (t)表示ti时刻正常工作条件下失效的条件概率 失效率的单位:Fit(菲特)10-9 (t)=-R(t)/R(t),2。失效密度函数f(t)。 产品在单位时间内失效的概率 f(t)=dF(t)/dt,产品的失效规律:浴盆曲线 电子产品的失效率一般下图所示:,早期失效区,正常工作区,(偶然失效),耗损区,t1,t2,1。早期失效段 对应t较小的时间段(tt1),产品刚刚 装配完毕,由于可能有不合格的元件、装 配缺陷(如虚焊)所以失效率较高,有的 文献上称这段为新生儿失效段,2。偶然失效段(正常使用段) 经过严格测试筛选后出厂的产品偶然才会 失效,反映为
16、这一段曲线呈现在较低的值 上平稳延伸的形态。 这一段曲线对应的时间段为寿命期,实际应用时,应该保证计算机系统工作在这个时间段。,3。耗损失效段 过了寿命期,曲线开始急剧上升因为元件 开始到达使用受命,相继失效,好象人到 老年,各种疾病都来了一样。 高可靠计算机系统应该避免工作在这个时 间段,上面讲到:产品必须工作在偶然失效段 在这一段(t)可看成为常数 由R(t)/R(t)=- 解得:R(t)=e-t 该公式在可靠性分析中十分重要,是计算 系统可靠性的基础,当t很小时e-t1-t 故此时R(t) 1-t 用此式计算往往很简便 例:某产品的失效率=10-5/小时,求 该产品投入运行后100小时、
17、1000小时、 10000小时、100000小时的可靠度。,解:R(100)=e-t =e-0.001=0.9990005 用近似公式算: R(100)1-t=1-0.001=0.999 相对误差0.00005% 完全可以忽略 R(1000)=e-0.01=0.9900498 用近似公式算: R(1000)1-t=1-0.01=0.99 相对误差0.005% 也完全可以忽略,R(10000)=e-0.1=0.90483 用近似公式算: R(10000)1-t=1-0.1=0.9 相对误差5.37% 勉强可用 R(100000)=e-1=0.3679 用近似公式算: R(100000)1-t=1
18、-1=0 结果完全不可用,1。平均寿命 平均无故障时间MTTF (Mean Time to Failure) 含义:寿命的平均值,指产品从开始投入使用到(首次)失效的平均时间。 该指标适用于不可维修产品,三、产品的寿命指标,平均故障间隔时间MTBF (Mean Time Between Failure) 含义:可维修产品两次维修之间隔时间的平均值。 该指标适用于可维修产品,MTTF和MTBF两者定义不同,但计算方法一样,都是发生故障时间的平均值,在应用中往往不加区别 具体计算公式:(推导略) MTTF=0R(t)dt,无论R(t)表达式如何,此式均可用 但是,一般情况下,有R(t)= e-t
19、代入:MTTF=0e-tdt=1/ 这个结果在分析中也是极常用的,例:某计算机出厂时给出的寿命指标为:MTBF=10000(小时) 求:1)该产品的失效率 2)该产品在投入运行100小时、 1000小时、10000小时后的可靠度,解: 1) =1/MTBF=10-4 2): R(100) 1-t=1-10-4100=0.99 R(1000) 0.9 R(10000)=e-t=e-10.3679 实际上,大多数系统不可能工作到MTBF这 个时间,只有37%不到的系统在此时还能可 靠工作,2。可靠寿命 可靠度等于给定值r的时刻称可靠寿命, 用tr表示 例:某计算机出厂时给出的寿命指标为: MTBF
20、=10000(小时) 求该产品可靠度为0.999的可靠寿命t0.999 解:1-t0.999=0.999 t0.999=0.001/=10(小时),可见: 尽管厂家给出的寿命指标为10000小时,但是运行10小时后可靠度就只有0.999了,所以一般厂家是无法满足高可靠要求的 3。中位寿命 可靠度等于0.5的时刻称中位寿命 4。使用寿命 在规定的使用条件下,具有可接受的失效率的时间段,若选用的产品失效率高于给定值,显然是 不行的。 选用的产品失效率等于或略低于给定值是合理的,此时使用寿命为浴盆曲线的平底部分。 选用的产品失效率低于给定值很多是不必要的,会使成本大大增加。,1。可维修度(Maintainability) M(t)=P(t) :修复的时间 t:规定的修复时间,四、可维修性,显然: M值与规定的修复时间有关 一般当t增加(允许的修复时间长),M也会增 加(在t内修复的可能性增加) M值与系统的复杂性及维修条件有关(不同系统有不同的M表达式) 有时也用记号G(t)表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版数学六年级下册总复习综合练习(数与代数)1-7
- 广东省揭阳市华侨高级中学2025届高三冲刺高考最后1卷物理试题含解析
- 昆明卫生职业学院《交通运输商务管理》2023-2024学年第二学期期末试卷
- 贵州城市职业学院《汽车保险与理赔》2023-2024学年第二学期期末试卷
- 应收账款流程管理图解
- 上海建桥学院《声乐》2023-2024学年第一学期期末试卷
- 西安科技大学《兽医微生物学》2023-2024学年第二学期期末试卷
- 海南比勒费尔德应用科学大学《西方文艺美学专题》2023-2024学年第二学期期末试卷
- 湖北省荆门市京山市2025年数学五年级第二学期期末复习检测模拟试题含答案
- 股骨干骨折中医护理查房
- 2024年宁波职业技术学院单招职业适应性测试题库及答案解析
- 中华民族共同体概论课件专家版7第七讲 华夷一体与中华民族空前繁盛(隋唐五代时期)
- 安全生产目标考核表
- 2024水资源论证区域评估技术指南
- 土石方工程施工组织设计范文样本
- 第3课古代西亚非洲文化教学设计-高中历史选择性必修三
- 文体中心项目策划方案
- 中药饮片处方审核培训课件
- PVC检测报告(外发)
- 幼儿园大班音乐《建筑之歌》
- 智能化弱电工程深化设计工作流程
评论
0/150
提交评论