三模冗余DSP系统的容错能力测试方法研究_第1页
三模冗余DSP系统的容错能力测试方法研究_第2页
三模冗余DSP系统的容错能力测试方法研究_第3页
三模冗余DSP系统的容错能力测试方法研究_第4页
三模冗余DSP系统的容错能力测试方法研究_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本 科 生 毕 业 论 文三模冗余dsp系统的容错能力测试方法研究姓名与学号 指导教师 年级与专业 信息与通信工程 所在系 信息与电子工程学系 一、题目: 三模冗余dsp系统的容错能力测试方法研究 二、指导教师对文献综述和开题报告的具体内容要求:1、任务要求。a.了解、熟悉综合电子系统体系结构,以及系统所采用的多模式处理器协同工作方案。b.调研现有各种多模式处理器协同工作方案,以及各方案下处理器及系统工作的容错方法。c.分析各容错方法的利弊与现实工程的需求,并据此有针对性地选择二至三种适用的方法。d.按工程化方法设计容错方法的软、固件,在开发板或综合电子系统板上实现,并调试通过。e.提交模块的

2、设计文件、源代码、及仿真、测试的方案与结果。f.完成文献翻译、文献综述、开题报告与毕业论文。 起讫日期 2011 年 11 月14 日 至 2012 年 5 月20 日2、进度安排。工作阶段实施起止时间实施天数文献调研与理论研究11月14日12月4日20开题报告撰写12月5日12月14日10方案设计 12月15日12月31日17详细设计、实现与仿真1月1日1月20日20详细设计、实现与仿真(续)2月21日3月20日28模块与系统调试3月21日4月10日21模块与系统测试4月11日4月30日20总结与论文撰写5月1日5月20日 20指导教师(签名) 年 月 日目 录文献综述4一、背景介绍4二、国

3、内外研究现状52.1研究方向及进展72.2存在问题12三、研究展望12开题报告14一、问题提出的背景141.背景介绍142.本研究的意义和目的15二、论文的主要内容和技术路线151.主要研究内容152.技术路线163.可行性分析18三、研究计划进度安排及预期目标181.进度安排18预期目标18文献翻译和原稿20文献综述指导老师:金仲和 信息与电子工程学系 信息与通信工程0805班 王婵 3080103639一、背景介绍1.1 容错控制技术的概念产生和发展容错技术的思想是伴随着第一台计算机的设计出现的1, 随着计算机技术的发展, 四十年来已形成一门融计算机科学、可靠性理论、bit技术2等多种学科

4、的边缘学科, 在可信性理论及可信性系统设计方面都取得了大量成果。特别是早期的容错技术现在已成为通用技术运用于计算机中, 如复执、编码技术等2, 为提高控制过程的安全性起到了不可忽视的作用。容错带来的便利使其成为计算机世界一直热衷不衰的追求目标。容错作为提高计算系统可靠性的重要方法,在运算中允许故障发生,但这些故障的影响借助冗余技术而自动抵消,因此即使存在故障仍能维持正确的计算。计算系统容错能力是指“在一些特定故障存在的情况下,该系统具备继续正确执行其程序和输入/输出功能的内在能力(无外界帮助)” 2。这里的特定故障指的是系统硬件逻辑电平偏离正确值或者软件设计中的错误。传统的容错方法主要是利用依

5、靠外加资源的方法(资源冗余)来换取可靠性的。主要的容错方法有硬件冗余、时间冗余、信息冗余和软件冗余2。1.2 三模冗余的概念产生和发展静态冗余又叫屏蔽冗余,靠附加的元器件来屏蔽掉故障元器件的作用。三模冗余(tmr,triple module redundancy)是最常见的硬件冗余方法。tmr的概念最初是由冯 诺曼提出的2,其基本思想如图1所示:1 tmr模型2带m标记的框为完全相同的模块,表决器v接受3个源的输出,并将多数表决结果作为它的输出。tmr的主要优点是:(1)能立即实现故障屏蔽,且无论永久性故障还是瞬时性故障,均能得到屏蔽。(2)在屏蔽之前无需进行单独的故障检出。(3)可直接由无冗

6、余系统构成tmr系统。三模冗余又发展出带备件的三模冗余、三模-双机系统等其他冗余方式。二、国内外研究现状在计算机容错技术领域,国外的研究工作开展较早。可以说在第一代计算机(1946年1957年)期间,人们就已将容错技术应用到计算机中。由于当时构成计算机的元件主要是电子管、继电器及延迟线存储器3。这些元件的失效率相当高,并且易受瞬时故障的影响,故系统的平均无故障时间极短,为此需采用故障检测与恢复技术以提高系统的使用时间。例如,ibm650,univac,whirlwind i等计算机采用了奇偶校验以检查数据传送的结果是否正确4。还有,1949年设计的edvac计算机采用了双份运算部件,每次运行后

7、两个部件的结果进行比较,用以检测故障34。这个时期已出现了早期的容错系统。1952年冯诺依曼(john 1on neumann)在加利福尼亚技术学院作了关于容错技术研究的五个报告,他所提出的精辟的论断成了以后容错技术研究的基础3。1956年他发表了题为概率逻辑及用不可靠的元件设计可靠的结构的论文,文中提出了多数表决的概念,并分析了这种结构对系统产生错误结果的概率可能产生的影响。这预示着容错计算方面的理论工作的开始。到了70年代,随着计算机的更新换代,容错技术进入蓬勃发展的时期。该时期容错技术的应用和研究范围迅速从宇航领域扩大到交通管制、工厂自动化、电话开关、战略防卫的控制和数据处理等领域。主要

8、成果有电话开关系统ess系列处理机、软件实现容错的sift计算机、容错多处理机ftmp等等3。到80年代,随着超大规模集成电路vlsi和计算机的迅速发展和广泛应用,容错技术的研究也随着计算机的普及而深入到整个工业界,许多公司生产的容错系统已商品化并进入市场。在国际上人们非常关注容错技术的发展,1971年,ieee计算机学会成立了容错计算技术委员会并且每年召开一次国际容错计算学术会议(ftcs)a在该组织发展了30年之际,2000年ieee国际容错计算会议与国际信息处理联合会(ifip)的104工作组主持的关键应用可信计算工作会议合并,从此改名为ieee可信系统与网络国际会议(icdsn)。ic

9、dsn2000于纽约召开,它标志着本领域的研究,无论从内容、方法和组织方面都有重大调整,也充分说明了国际上对容错计算技术与可信计算技术的重视程度。我国研究容错系统起步较晚。从学术角度来讲,在80年代我国派遣了一批学者出国,他们在美国和日本从事容错方面的研究,回国后纷纷成为这一领域的学术带头人。二十多年来,他们的优异工作得到了该领域的广泛关注,现在我国在容错研究领域的某些方面已经居于国际前沿。1987年1月我国计算机学会也成立了自己的容错计算专业委员会,召开了多次全国性的容错计算学术会议。这充分说明了我国对容错计算技术的重视程度。在应用方面,我国容错系统的应用领域非常广泛,ibm、stratus

10、、天腾、dec等公司的容错产品大量传入我国3,在银行、证券、航天及核技术领域得到了普遍的应用。在产品研发上,虽然我国目前还没有形成通用的计算机容错产品,但各行各业在各自的领域中自行开发研制了一些高可用系统,如用于铁路运输中的铁路微机联锁系统。更令人高兴的是,我国的曙光机和我们自行开发研制的交换机系统中提供了容错性能。并且在软件测试方面也引起了人们的重视,铁道、航空和航天等部门纷纷成立了自己的软件测试中心,由此可见人们已经充分意识到了容错的重要性。2.1研究方向及进展容错技术的高速发展很大程度上源自于航空航天的需要,特别是为满足长周期且无人照管计算机的运行要求。三模冗余技术作为主要的硬件冗余容错

11、技术拟应用于下一皮卫星星载计算机上。2.1.1容错技术理论研究开展情况容错控制作为一门新兴的交叉学科,其科学意义就是要尽量保证动态系统在发生故障时仍然可以稳定运行。并具有可以接受的性能指标。因此,容错控制作为提高复杂动态系统的可靠性开辟了一条新的途径。由于任何系统都不可避免地会发生故障,因此,容错控制可以看成是保证系统安全运行的最后一道屏障。避错和容错两种技术可以提高计算机系统和数字系统的可靠性。性能、价格和可靠性是评价一个系统的地三大要素。避错:采用正确的设计和质量控制方法尽量避免把故障引进系统,但要绝对做到这一点实际上是不可能的。1容错:当出现某些指定的硬件故障或软件错误时,系统仍能执行规

12、定的程序或算法,或者程序不会因系统中的故障而终止或被修改,而且执行结果也不包含系统中故障所引起的错。1容错的基本思想是在系统体系结构上精心设计,利用外加资源的冗余技术来达到掩蔽故障的影响,从而自动地恢复系统或达到安全停机的目的,容错是皮卫星设计中主要倚重的方法,但要达到高可靠性目标必须综合应用避错和容错两种方法。对于计算机控制系统,如果没有任何附件信息、措施或技术手段,要实现对故障的检测、诊断和处理是困难的。冗余(redundancy)为故障检测、诊断和处理提供了可能性,它是计算机控制系统实现容错设计和具备容错能力的技术基础。2.1.1.1容错计算中故障的分类系统可按照物力的、逻辑的、信息的(

13、统称内部的)、用户的(或称外部的)这样一个递增顺序构造一个层次结构模型来描述一个信息处理系统。系统的正常功能可由一个不希望事件ue(unexpectant event)(失效,故障,错误,失败)而被破坏。发生在物力域的ue成为失效;从逻辑域到外部域我们依次把它们的不希望事件叫做故障,差错或错误,以及失败,其因果关系为失效故障错误失败。讨论逻辑域中ue(故障)的分类3:(1)按时间间隔分为“永久故障”和“瞬时故障”;(2)按值分为“确定值故障”和“非确定值故障”;(3)按范围分为“局部故障”和“非确定性故障”。2不希望事件ue及其原因2.1.1.2冗余的分类容错是依靠外加资源的方法(又称资源的冗

14、余)来换取可靠性的。容错系统可以采用一种或多种冗余方式,只有合理使用这些冗余方法才能达到提高可靠性的目标。按照系统的失效响应阶段,可以把各种容错技术分成三种:故障检测、静态冗余、动态冗余。4故障检测不提供对故障的容忍,而是当发生故障时给出一个警告。故障检测广泛应用于微型机和小型机之类的许多小系统中,其中一些已体现了简单的联机检测机理。严格来说,故障检测不是容错,因为尽管检测了故障,但不能容忍这些故障(对瞬时故障的静态重试除外)。静态冗余能容忍故障,但不给出故障警告。动态冗余用于纠错码存储器或具有固定配置(即线路器件之间的逻辑连接保持不变)的多数表决冗余计算机之类的系统中。根据容错系统所采用的冗

15、余方式的不同,可将容错技术分为:硬件冗余容错,信息冗余容错,时间冗余容错及软件冗余容错四种形式。4(1)直接冗余与硬件冗余直接冗余,狭义地又称为物理冗余或硬件冗余,是指出于系统可靠性或安全性目的,在系统关键环节并联若干个同型号的备件,形成所谓三模或多模结构的一种直接为诊断故障和排除故障服务的简单模式;广义地,直接冗余既可以使部件冗余也可以是功能冗余。物质部件生产和使用过程中总是不可避免地会出现各种类型制造缺陷、磨损、老化、失效等问题。因此,部件冗余方法是行之有效的阻止随机故障发生及降低设计错误带来风险的方法。(2)软件冗余与解析冗余控制系统软件冗余是指控制程序可变的冗余,通常包括n版本冗余和同

16、功能不同设计软件模块冗余等多种形式,在计算机控制过程中主要采用基于故障在线检测与专家系统诊断的方式实现自组织调整。解析冗余是指系统输入信息和输出信息之间瞬态关系的集合。对于连续时间系统,描述这种关系常用的模型是微分方程、偏微分方程、随机微分方程模型或连续时间状态空间模型;对于离散时间系统,描述这种关系常用的模型则是差分方程时间序列分析领域的ar模型、arma模型、arxma模型、离散时间状态空间模型和多层神经网络模型等。(3)数据冗余和信息冗余数据冗余是指通过不同源信息的加工转换比对等处理过程,既可以通过算法容错设计规避测量设备故障,还可以检测被控对象的状态、诊断系统故障。信息冗余通常是利用在

17、数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错。常用的有奇偶校验码、循环冗余码crc、hamming码等可靠性编码方法。(4)时间冗余与通信链路冗余时间冗余的基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执与程序复算。其中,指令复执是将指令执行的结果送到目的地址中,如果这是由错误恢复请求信号,则重新执行该指令;程序复算常用程序卷回技术。通信链路冗余是多个数据处理单元与多条通信链路构成局部的多分支结构或网状结构,不同的处理单元完成相同的处理功能,信号经过不同a/d、d/a转换及传送路径。设计实现一个高可靠的数据采集、存储与处理的综合系统,必须根据

18、系统特性、可靠性指标、成本等诸多因素选择适当的冗余方式,将这些冗余方式综合应用。总之,冗余要消耗资源,因此在满足所需可靠性的前提下,应尽量减少资源的消耗,在可靠性与资源消耗间权衡。2.1.2三模冗余技术理论研究开展情况2.1.2.1三模冗余的模型计算三模冗余模型如图1-1所示。nmr系统的可靠度计算式为rnmr=i=0nni1-rmirm(n-i)2对于tmr情况,n=3,而n=1。假定表决电路不会发生故障,则tmr方案的可靠度可由单模块的可靠度rm算出。只要有两个模块能正常工作,此冗余系统便能正常工作。若假设3个模块发生故障的事件是相互独立的,则tmr方案的可靠度计算式为rnmr=全部3个模

19、块均正常工作的可靠度+任意2个模块正常工作的可靠度 =rm3+3rm2(1-rm) =3rm2-2rm3实际上,tmr的可靠度通常优于上式的计算值,原因是即使在两个模块发生故障的情况下,该系统仍可能工作正常,例如可抵消的模块故障。另外,当rm=0.5时,tmr系统的可靠度得不到任何改善。此例说明这样一个道理,即当单个模块的可靠度很低时,用它们实现冗余不可能提高整个系统的可靠度。若假设tmr系统中的每个模块都经过充分老化,则可认为rm是时间的指数函数,其失效率常数为,即rm=e-t。将此rm值代入上式可得:rtmr=3e-2t-2e-3ttmr系统的平均无故障时间mtbf0rtmrdt=56此值

20、比单个模块的mtbf还小一些。由此可见,虽然mtbf常常用来衡量系统可靠度的高低,但此参数并不能提供容错系统改善可靠度的详细情况,其原因在于mtbf对可靠度函数的计算是在0t区间进行的。但用冗余来改善一个系统的可靠度时,感兴趣的区间只有0tt,这里t为要求最高可靠度的一段规定的任务时间,而在tt以后的那段时间,系统是否可靠并不重要。在tmr的可靠度表达式中,未曾考虑表决器的可靠度5。若令表决器的可靠度为e-1t,则rtmr=e-1t(3e-2t-2e-3t)由此可见,无论各模块是否有故障,只要表决器发生故障,系统便失效。若1,则系统的可靠度低于任何t值下的无冗余系统的可靠度。2.1.2.2三模

21、冗余模型的一些扩展stateful tmr(状态三模冗余)7状态三模冗余通过增加状态评估单元提升三模冗余的可靠性。状态评估单元用来检测各模块的状态,包括正常和失效状态。3状态三模冗余模型7三模混合冗余模型3系统由3个能完成相同功能的计算机模块,一个进行多数表决及完成比较功能的多数表决比较恢复器(mvr),一个用于产生单一输出结果的磁通和,一个进行失效比较与模式控制的失效安全比较器及模式控制系统(fsc-mcc)以及用于显示系统工作模式及工作状态的监视器构成。4三模混合冗余模型32.2存在问题三模冗余的弊端在于如果系统只具有屏蔽能力,当故障的积累是系统的屏蔽能力耗尽时,整个系统就失败了。动态冗余

22、是一种结合了故障检测、诊断、重组和恢复等多种容错手段的综合性容错技术,若与静态冗余配合使用,可以使系统的容错能力大大提高810。所谓“动态”是指作为系统正常资源的冗余模块随着检测到的故障而变化。系统以标准模块配置进行工作,一旦检测出故障,紧接着进行重组与恢复从而消除故障的影响。但硬件的冗余必然造成较大的资源浪费,因此对三模冗余容错能力的测试将给予全面评价三模可行性的可能性6,在此基础上,我们才能平衡系统可靠度与资源合理利用。三、研究展望本毕业设计题目,其主要应用于下一代皮卫星容错技术。由于皮卫星采用工业级器件,其寿命要求则更大程度上倚赖于合理的软硬件容错。容错控制为提高复杂动态系统可靠性开辟了

23、一条新的途径。6容错控制作为一门新兴的交叉学科,其科学意义就是尽量保证动态系统在发生故障时仍然可以稳定运行,并具有可以接受的性能指标,是保证系统安全运行的最后一道防线。目前,这门学科研究热点和难点主要集中在:鲁棒容错控制,快速fdi方法的研究,鲁棒故障检测与鲁棒控制的集成设计问题,控制律的在线重组与重构方法,主动容错控制中的鲁棒性分析与综合方法,非线性系统的容错控制,时滞动态系统的容错控制,高维、时变多变量系统的完整性控制1。参考文献1 周东华, 叶银忠, 王凤哲编. 现代故障诊断与容错控制. 清华大学出版社, 20002 美p. k 拉拉著.容错与故障可测性系统设计. 孟永炎等译. 中国铁道

24、出版社, 19893 王丽华. 计算机容错系统的体系结构与安全性研究:学位论文 . 西南交通大学, 20024 胡谋. 计算机容错技术. 中国铁道出版社, 19955 伊小素,邓燕,潘雄等. 表决器对分层三模冗余系统可靠性影响分析. 中国惯性技术学报, 2011, 19(7):4944986 张钰,郁发新,郑阳明等.皮卫星星务管理系统容错设计. 宇航学报,2007,28(6):175317577 matsumoto k, uehara m, mori, h.stateful tmr for transient faults. world automation congress (wac), 2

25、010,168 stepanek j,coe e,sims r. fault-tolerant routing for satellite command and control. aerospace conference, 2004. proceedings. 2004 ieee9 zahid s,ayyaz n, suparco. an economical on-board computer for low-earth-orbit satellites. students conference, iscon 02. proceedings. ieee10 isermann r and b

26、alle p, trends in the application of model based fault detection and diagnosis of technical process, control eng. practice, 1997, 5(5):709719开题报告一、问题提出的背景1.背景介绍容错技术的高速发展很大程度上源自于航空航天的需要,特别是为满足长周期且无人照管计算机的运行要求。1三模冗余技术作为主要的硬件冗余容错技术拟应用于下一皮卫星星载计算机上。皮卫星是指重量为公斤级的超微小卫星,它一般以微电子、微机电系统(mems)、多芯片封装组装等微小型化技术为基础,

27、具有自主控制程度高、重量轻、研制周期短、机动性强、造价和发射成本低等特点。皮卫星是现代航天技术中的重要研究领域,它能以更低的成本完成卫星搭载试验等空间科学实验,已成为国际上的研究热点。2随着小型化技术的飞速发展和应用,传统的卫星研制出现了革命性的飞跃,电子、微机械等高新技术的利用使相同功能的卫星重量和体积大幅度减小,同时还出现了单一功能的微纳卫星甚至皮卫星。这使得航天与空间科学应用领域出现了新的生机。现代的微小卫星,以高新技术的发展为基础,而微电子技术、计算机、微型光学和机械、轻型复合材料及精密机械加工等技术的发展则是小卫星技术与应用发展的重要前提56。与传统大卫星相比,现代小卫星有以下优势2

28、:研制周期短、风险小且所需成本低;小卫星组成星座可产生全新应用领域,满足通信、遥感、科学技术试验及军事的要求;发射方式灵活,可一箭多星发射。所以其最大的特点是集成化、模块化。其基本目标是选用高新技术,增加容量和性能,减小体积和重量,使成本和风险降为最低,促进卫星功能密度的不断提高。皮卫星是以星务管理系统为核心,结合了星上测控系统和姿态与轨道控制系统的功能,以星上数据网为纽带连接各类星上电子设备,为皮卫星上其它平台和有效载荷提供信息管理、数据调制解调收发、姿态轨道大量计算服务的数据处理和传输系统。星载计算机是皮卫星重要分系统,是卫星的总体级系统和信息中枢,对皮卫星的正常运行起到重要的支柱作用,因

29、此研制一种适合于皮卫星应用的新一代星载计算机将具有重要而现实的意义。卫星星务管理系统设计的目标是:在考虑卫星运行环境和寿命及可靠性要求的基础上,选择适当的控制系统构型,以性能功耗比最高的可靠性手段满足飞行任务对卫星星务管理系统的要求2。2.本研究的意义和目的在卫星复杂的工作环境下,发射段的冲击振动和在轨段高低温、辐射、单粒子事件等都会导致星务计算机出错概率增大和可靠性降低。虽然目前小卫星发展很快,但由于质量、体积、功耗等方面的限制使得皮卫星星载计算机的设计很难依靠高等级器件,因高可靠器件的性能通常比前沿发展的滞后,这样就难免成为皮卫星星载计算机发展的重要瓶颈。根据皮卫星星务管理功能特点,务必采

30、取一定的容错手段以达到卫星生存能力提升的最佳结果。星载计算机是皮卫星整星的核心,它关系着整星运行的成功与失败,因此星载计算机必须有足够高的可靠性2。硬件冗余是容错设计的基础。容错计算机系统是可靠性、性能和成本折中的产物3。目前基于功耗和策略切换的复杂程度等因素考虑我们星载计算机采用了三模冗余的系统构架。三模冗余作为重要的硬件容错手段,其容错能力的测试和研究是对星载计算机系统可靠性进行提高和进一步优化的前提。本研究的目的在提高目前皮卫星星载计算机容错能力。星载计算机的高可靠性来在于合理的容错设计,而其最终来源于对容错能力的掌握程度。本研究即从理论出发,在仿真的基础上,通过实验形成对三模冗余dsp

31、容错方案的确认。这对于从性能、成本和可靠性三者折中形成下一代皮卫星星载计算机硬件软件设计有重大意义。二、论文的主要内容和技术路线1.主要研究内容根据毕业设计任务书要求,论文主要研究内容如下:l 了解、熟悉综合电子系统体系结构,以及系统所采用的多模式处理协同工作方案。主要进行的是关于三模冗余相关内容的调研。熟悉并进一步理解容错概念,详细研读三模冗余系统的模型方案,对后续工作加强认识并掌握基本能力。l 调研现有各种多模式处理器协同工作方案,以及各方案下处理器及系统工作的容错方法。广泛调研多模式处理器当前在各领域应用的方案,对三模冗余相关的方向进行提炼。针对调研结果,关注多模式处理器同步工作方案,对

32、包括硬件冗余、时间冗余、信息冗余和软件冗余在内的各种容错方法进行选取,应用于实现下一代皮卫星利用高性能、低功耗的工业级器件完成系统的高可靠度要求。l 分析各容错方案的利弊与现实工程的需求,并据此有针对性的选择二至三种适用的方法。三模冗余dsp系统将用于下一代皮卫星星载计算机中,权衡性能与功耗,工业级器件与空间应用环境,对前面工作所挑选出的若干多模式处理器工作方案及容错方法进行详细的分析,使其满足皮卫星最关键的可靠性需求,提高其可靠性及抗单粒子效应。此二至三种方法将至少在理论上能够很好地达到最终要求。l 按工程化方法设计容错方法的软、固件,在开发板或综合电子系统板上实现,并调试通过。综合电子系统

33、板目前已实现,在此基础上,调试适合三模冗余dsp的工作方案,通过实验,完成其验证过程。2.技术路线参考综合电子系统三模冗余时钟同步工作模式试验大纲,初步设计三模冗余dsp容错能力测试方法实验。三模冗余dsp系统出现错误的来源有多种77,目前考虑其外部环境导致错误的来源有时钟偏差和芯片供电电压偏差,其内部环境包括运行程序的不同导致的三模dsp不同步,另外还有芯片自身的故障问题。考虑到上述问题对系统可靠度的影响,初步设计以下实验目标过程。2.1三模冗余dsp协同工作方案一:时钟同步4时钟同步是一种以时钟级为基础的紧密同步,要求模块在时钟周期内严格同步,冗余部件也都在时钟级进行比较表决,但需要专门的

34、硬件支持,并且总线上的瞬时故障极易产生共模差错并且无法检测。常用的时钟同步方法有三种:独立的精确时钟、公共的外部时钟、互相反馈的时钟。l 三片dsp同源时钟驱动,供电电压均在5v的条件下,分别执行单进程、双进程、多进程程序。测试小时量级的同步工作。通过试验,明确同步建立与维持的条件,及导致失步的因素。通过分析,解决失步问题。l 三片dsp在非同步时钟,供电电压5v的条件下,执行相同程序时,检测芯片对时钟非同步敏感程度。l 三片dsp在同源时钟驱动,供电电压非5v条件下,执行相同程序时,检测芯片对供电电压偏差敏感程度。l 三片dsp在同源时钟驱动,供电电压均在5v的条件下,对其中某一dsp进行故

35、障注入8,观察三取二表决结果。2.2三模冗余dsp协同工作方案二:任务级同步任务级同步是一种以一个独立运行的、具有一定逻辑任务的一次运作作为同步的基础。系统在任务中设立一个或多个比较、表决点,对其中间结果和最后输出进行一致性判断,并在此过程中协调各模块间的工作步调。因为各模块无时钟同步,任务执行松散,因而对共模差错具有很高的抑制能力。任务级同步的特点:一个任务的冗余计算可以安排在稍有不同的时间上由不同的模块执行,避免了相关故障的发生;允许异步中断打扰,提高对外部命令的实时响应能力,增强了系统的实时性与灵活性。三模冗余dsp任务级协同工作方案设计,分为停止并修复(stop&repair)、空闲(

36、idle)、起始和重启(start&restart)、运行(run)四个状态,如图:图 1 软件流程图2比较上述两个协同工作方案,选择合适的方案应用于实际。3.可行性分析目前,实验室已基本完成综合电子系统板的开发,因此对于三模冗余dsp容错能力测试方法研究来说,硬件条件已完整具备。根据实验室早先进行的试验可知,完成仿真所需要的seed xds560 plus仿真器、pc机、稳压电源、示波器等也已经配置。软件方面,所需要的dsp开发工具为code composer studio。在软固件都完备的情况下,只要有合理的方案设计与dsp开发测试能力即可完成毕业设计题目所要求的内容。目前,初步方案设计已

37、完成。三、 研究计划进度安排及预期目标1.进度安排表 1进度安排表工作阶段实施起止时间实施天数文献调研3月1日3月10日10方案设计2月11日3月20日10详细设计3月21日3月25日5方案实现与仿真3月26日4月10日16模块与系统测试4月11日4月30日20总结与论文撰写5月1日5月20日20预期目标l 熟悉综合电子系统体系结构,调研得到适合星载计算机多模式处理器协同工作方案和容错方案。l 试验与验证三片ti dsp 6747在同源时钟驱动下并执行多进程程序时同步工作的特性与影响因素。l 试验三模冗余dsp多种容错方案,仿真,进行对比。l 形成对三模冗余dsp容错方案的选择。l 完成模块的

38、设计文件,源代码,仿真测试结果分析。l 完成毕业论文。参考文献1 美p. k 拉拉著. 容错与故障可测性系统设计. 孟永炎等译. 北京:中国铁道出版社, 19892 张钰. 皮卫星星载计算机及其可靠性研究:学位论文. 杭州:浙江大学信息与电子工程学系微小卫星研究中心, 20113 周东华, 叶银忠, 王凤哲编. 现代故障诊断与容错控制. 北京:清华大学出版社, 20004 杨牧. 综合电子系统三模冗余时钟同步工作模式试验大纲. 杭州:浙江大学微小卫星研究中心, 20115 higbee terry a. darpasat: smart space systemj. proc spie, 199

39、3, (1): 1940-1945.6 张钰,郁发新,郑阳明等.皮卫星星务管理系统容错设计.宇航学报,2007,28(6):175317577 袁由光. 实时系统中的可靠性技术. 北京:清华大学出版社, 广西科学计数出版社. 1995: 6-10, 106-1288 彭俊杰, 袁成军. 软件实现的星载系统故障注入技术研究j. 哈尔滨:哈尔滨工业大学学报, 2004, 36(7):934-936文献翻译和原稿用于瞬时故障的状态三模冗余摘要:模块冗余是一种用于建设可靠系统的常见方法。三模冗余(tmr)作为提升可靠性的模块冗余方法经常使用。但是,当三个模块中的其中两个失效后,三模冗余系统便不能从中选

40、出正确的结果。因此,我们提出了一种新的表决机制叫做状态三模冗余。通过仿真,我们评估了三模冗余方式和状态三模冗余方式,后者在两模失效的情况下取得了更高的可靠性。关键词:tmr(三模冗余) 状态三模冗余 可靠性 表决 表决器 瞬时故障1. 引言近年来,系统构建得越来越复杂,其扮演的角色也趋于广泛。如果这样一个系统发生了故障,风险一定非常巨大。为了避免这样的风险出现,系统的稳定性必须得到提升。冗余是构建稳定系统的一种常见方法。三模冗余的应用尤其频繁。但是,在其中两个模块发生故障的情况下,整个三模冗余系统会失效。所以考虑到各模块的状态,我们提出了状态三模冗余,用于提升三模冗余的可靠性33,4。本文中,

41、我们讨论了状态三模冗余在瞬时故障下的可靠性。本文是这样组织的。第二部分描述若干相关工作,第三部分描述我们提出的状态三模冗余,第四部分评估这个系统在瞬时故障下的可靠性,最后是总结。2. 相关工作这里,我们详细描述冗余技术。冗余技术可按以下分类:被动冗余、主动冗余和混合冗余1,2。被动冗余方式旨在隐藏错误,用于提高容错能力。一种典型的被动冗余方式是n模冗余(nmr)。在n模冗余系统中,需要使用n个相同模块并行运行。用表决得到最终结果以便屏蔽错误。主动冗余方式旨在检测错误,分离错误然后修复系统。因此也可以提高系统的容错能力。当这两种方法都应用于一个系统时,即可称为混合冗余方式。在混合冗余方式中,屏蔽

42、错误减少了错误的出现,然后系统通过检测、分离错误和替换备用模块来修复。接下来,我们详细描述一种被动冗余方式三模冗余(tmr)。tmr作为一种错误屏蔽方式广为人知。在tmr系统中,使用了三个模块并行连接。输出由这些模块的结果经表决得出。在那样的情况下,即使其中一个模块出现错误,也就是说如果另外两个模块仍然运行,表决结果将屏蔽这个错误。tmr的结构如图.1所示。然而,tmr不能屏蔽超过一个错误。图. 1tmr结构最后,描述适应性多数表决器(amv, adaptive majority voter)。amv是一种用于物理模块的容错系统5。在amv中,每个模块都有其状态的历史记录。这个记录取决于基础门

43、限。3. 状态三模冗余这里,我们描述状态三模冗余。状态三模冗余通过增加状态评估单元提升三模冗余的可靠性。状态评估单元用来检测各模块的状态,包括正常和失效状态。状态三模冗余结构如图.2所示。 图. 2状态三模冗余结构图中所示,选择器通过使用表决结果和先前状态判断决定输出。状态评估单元拥有每个模块的状态。as、bs和cs分别是a、b和c的状态评估寄存器。as, bs 和cs分别是a、b和c的先前状态。每个寄存器保存正常状态或者失效状态。现在我们来解释如何决定状态评估和输出。把mas 和 mao作为多数的表决状态和结果,mis 和 mio作为少数的表决状态和结果,nof作为模块失效数。则最终输出由以

44、下决定:l 如果所有输出相同,则以多数结果为最终输出。l 如果所有模块正常(nof),则以多数结果为最终输出。l 如果mis正常并且至少一个模块失效(nof),则以少数结果为最终输出。l 如果mis失效并且至少一个模块失效(nof),则以多数结果为最终输出。算法归结为图。图. 3输出决定接下来,我们解释怎么评估失效状态。状态评估按如下操作:l 在没有错误的情况下,状态由表决决定。l 存在一个错误:如果所有输出一致,状态设定至正常。如果mis不包含失效状态,mis设定为失效,mas设定为正常。如果mis包含失效状态,mis设定为正常,mas设定为失效。l 如果存在两个错误:如果所有输出一致,状态

45、设定不变。如果mis包含失效状态,mis设定为失效,mas设定为正常。如果mis不包含失效状态,mis设定为正常, mas设定为失效。 图. 4状态决定4. 仿真在此,我们描述仿真方法和它的结果。4.1 仿真方法本文中,我们采用仿真评估状态三模冗余的可靠性。在此我们描述这个仿真方法的实现过程。首先,我们给出失效率p(0p1)和恢复率q(0q1)的定义。失效率p被定义为一个正常模块在单位时间内失效的可能性。恢复率为一个失效模块在单位时间内被修复而成为正常模块的可能性。两者都可用于构建各种失效的模型。例如,永久性故障可以被表示成q=0。间歇性故障可以被表示成q=1。瞬时故障可以标示为0p1。本文中

46、,我们关注瞬时故障。图5为瞬时故障的状态转换图。我们评估了三个方法,sm(单模),tmr(三模冗余)和状态tmr(状态三模冗余)在我们的仿真中。sm即没有冗余模块的情况,也就是说只有一个模块存在。另外,我们在最多1000个单位时间中完成仿真。 图. 5瞬时故障的状态转换图4.2 仿真结果仿真结果如图6-8,取p常数0.01,q在0.001到0.1之间呈log规律变化。图显示了取q=0.001的仿真结果,在qp的情况下,系统在实际应用中稳定,tmr和状态tmr都比sm优。而状态tmr比tmr更加可靠,虽然区别比较小。图. 8 p=0.01,q=0.1在p=0.01的情况下,状态tmr和tmr的区

47、别表现得更加清楚。在较低修复率的情况下,状态tmr明显优于tmr;在较高修复率的情况下,状态tmr与tmr并无明显差别。5讨论表. 1tmr对比状态tmr表.1总结了tmr和状态tmr与单模系统的比较趋势。tmr在故障率低的情况下可靠性明显高于单模系统。当故障率高时,tmr只有在修复率也高时才更加可靠。另一方面,不论修复率和故障率如何,状态tmr可靠性维持较高水平。表. 2失败率对比恢复率表.2总结了p和q的关系对结果的影响。当故障率高于修复率时,tmr的可靠性降低,有时甚至低于单模系统。然而状态tmr在最严峻的情况下能保持可靠性。当p和q几乎相等时,tmr和状态tmr都优于单模系统,而状态t

48、mr可靠性更佳。当p小于q时,tmr和状态tmr都明显优于单模,两者差别不大。通过比较状态tmr和tmr,状态tmr明显比tmr更加可靠,然而,当修复率高于故障率时,两者之间的差别甚微。我们可以通过选择不同的方式找到最合适的结果用于降低花费。tmr的可靠性在短时间内高于sm。而最终其可靠性反而不如sm。这并不表示tmr毫无用处,事实上,tmr常常用于屏蔽最初的错误。但是,最终可靠性区别于暂时可靠性。总之,状态tmr并不适合于获得最终可靠性。现在我们展示sm和tmr的简单可靠性分析。分别取rsm(t) 和rtmr(t)作为sm和tmr的可靠性值。rsm(t)=prsm(t-1)+q(1-rsm(

49、t-1) (1)rtmr(t)= 3rsm(t)2 -2rsm(t)3 (2)tmr的可靠性计算需要用到sm的可靠性。如果rsm(t)小于0.5,rtmr(t)小于rsm(t)。因此,tmr的可靠性有时低于sm。状态tmr同样有时低于sm。最终我们讨论关于状态tmr的问题。状态tmr并不总优于tmr。如果两个状态交换即时出现,状态tmr不能检测。例如,取当前状态为(n,n,f),下一个状态为(n,f,n)。在这种情况下,tmr能检测到当前应答但是状态tmr采用不正确应答。如果修复率非常高,这样的情况会常常发生。6. 结论本文中,我们评估了用于瞬时故障的状态tmr。在大多数情况下,状态tmr是非

50、常可靠并且常常是最佳可靠的。然而,当修复率相对低于故障率时,状态tmr的可靠性降低并且最终低于单模。然而,在这样的情况下,tmr较状态tmr更低。总而言之,状态tmr优于tmr当且仅当修复率较低。作为将来的工作,我们应用状态tmr于raid。它能提升大容量存储的可靠性例如云存储。参考文献1 d. k. pradhan, “fault-tolerant computer system design,” prentice hall, new jersey, 19962 m. abd-el-barr, “design analysis of reliable and fault-tolerant c

51、omputer system,” imperial college press, london, 20073 k. matsumoto, m. uehara, and h. mori, “proposal of stateful reliability counter in small-world cellular neural networks,” in proc. of 3rd international conference on complex, intelligent, and software intensive systems, 2009, pp.154-1614 k. mats

52、umoto, m. uehara, and h. mori, “evaluation of stateful reliability counter in small-world cellular neural networks,” in proc. of 2009 international conference on network-based information systems, 2009, pp.417-4235 g. latif-shabgahi, and s. bennet, “adaptive majority voter: a novel voting algorithm

53、for real-time fault-tolerant control systems,” 25th euromicro conference volume 2, 1999, pp. 2113-2120stateful tmr for transient faults katsuyoshi matsumoto, minoru uehara and hideki mori 2100, kujirai, kawagoe, saitama, 350-8585, japan abstractmodule redundancy is often used as a method of construc

54、tion a reliable system. tmr is used as the method of improving reliability by module redundancy. however, tmr does not decide correct result when two of three modules fail. therefore, we proposed a new architecture of voting termed as stateful tmr. it uses the result of tmr and state of the history,

55、 to select the most reliable module. by the simulation, we evaluate reliability of module with tmr and stateful tmr in case of tmr obtained higher reliability than tmr for both failures. key words: tmr, stateful tmr, reliability, voting, voter, transient faults 1. introduction the recent systems are going to be very complex. and the roles of the systems are extended widely. if such a system is failed, the risk is very large. in order to avoid such a risk, the reliability of the system must be increased. redundancy is wel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论