(计算机系统结构专业论文)交替互补的自恢复控制器研究.pdf_第1页
(计算机系统结构专业论文)交替互补的自恢复控制器研究.pdf_第2页
(计算机系统结构专业论文)交替互补的自恢复控制器研究.pdf_第3页
(计算机系统结构专业论文)交替互补的自恢复控制器研究.pdf_第4页
(计算机系统结构专业论文)交替互补的自恢复控制器研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

交替互补的自恢复控制器研究摘要目前c m o s 数字集成电路技术的特征尺寸已经进入纳米量级,随着工作电压的持续降低、集成度和工作频率的不断提高,c m o s 数字集成电路的软错误率在快速的攀升。带电粒子的撞击导致控制器出现软错误。控制器是处理器的核心部分,因此,控制器容软错误的能力关系到微处理器芯片甚至整个系统的健壮性。电路中的逻辑是出现软错误的主要原因。保护逻辑不像保护存储器那么简单,面积、速度和功耗方面的代价可能很大。因而,为了使容软错误芯片对i c 的商业应用可接受,降低容错方面的代价势在必行。软错误主要分为单事件翻转( s e u ) 和单事件瞬态( s e t ) 两类。本文主要对容s e u 的控制器的设计进行了研究,所做的工作如下:( 1 ) 对软错误相关知识进行了学习,对现有容软错误技术进行了比较和分析。例如软错误相关的概念、常见容软错误电路加固技术、软错误防护技术的发展趋势;又因为时序逻辑经常使用有限状态机( f s m ) 建模,对有限状态机进行了介绍;此外,由于实验过程中涉及到电路综合,本文还介绍了电路综合和时序电路综合工具s i s 。( 2 ) 提出了一种基于双模冗余( d m r ) 的容错方案s d m r 。当其中一个冗余模块发生软错误时,通过将两个冗余模块的输出作为c 单元的两个输入,利用c 单元阻塞瞬态故障引发的软错误。然后利用另一个冗余模块中的正确状态进行恢复并重新执行,从而有效的对单事件翻转进行防护,避免了将错误结果输出。该方案在发生错误时无需定位错误冗余模块,并能够实现自恢复。实验结果表明,本方案可以防护电路中9 9 3 2 的软错误,同时,与传统d m r 方案相比,本方案面积开销低,对电路性能的影响小。( 3 ) 提出了一种交替互补的双状态机自恢复方案f d s e r ,该方案将原始状态机拆分为两个子状态机,两个子状态机交替工作。在其中一个子状态机发生错误时,利用另一个子状态机中的正确状态进行回卷恢复。实验结果表明,该方案可以防护电路中9 9 6 4 的软错误,同时,电路延迟大幅降低,显著提高了电路的性能。此外,因两个子状态机轮流工作,降低了功耗开销。因此,该方案为一种高性能、低功耗的容错方案。关键词:软错误双模冗余有限状态机自恢复交替互补r e s e a r c ho nc o m p l e m e n t a r y - - a l t e r n a t i n gs e l f - r e c o v e r i n gc o n t r o l l e r sa b s t r a c ta st h ef e a t u r es i z eo fi n t e g r a t e dc i r c u i t s ( i c s ) d e c r e a s e st on m ,t h ew o r k i n gv o l t a g ei sd r o p p i n gc o n s t a n t l y ,t h ei n t e g r a t e dd e n s i t ya n dt h ew o r k i n gf r e q u e n c yi si n c r e a s i n gd r a m a t i c a l l y c o n s e q u e n t l y , t h es o f te r r o rr a t e ( s e r ) b e c o m e sh i g h e ra n dh i g h e r i o n i z i n gp a r t i c l e si n d u c es e u si nc o n t r o l l e r s a so n eo ft h ec r i t i c a la p p l i c a t i o n so ft h ei c s ,c o n t r o l l e r sp l a ys i g n i f i c a n tr o l e si nm i c r op r o c e s s o r s ,w h o s ec a p a c i t yo fs o f te r r o rt o l e r a n c ed i r e c t l yd e t e r m i n e st h er o b u s t n e s so fm i c r op r o c e s s o r s ,e v e nt h ew h o l es y s t e m l o g i cb e c o m e st h el a r g e s tc o n t r i b u t o rt os e r p r o t e c t i n gl o g i ci sn o ta ss i m p l ea sp r o t e c t i n gm e m o r i e s t h ec o s ti na r e a ,s p e e d ,a n dp o w e rc a nb es i g n i f i c a n t r e d u c t i o no ft h i sc o s ti st h e r e f o r em a n d a t o r yi no r d e rt om a k ei ta c c e p t a b l eo fi c sd e s t i n e dt oc o m m e r c i a la p p l i c a t i o n s t h e r ea r et w ot y p e so fs o f te r r o r s ,s e u ( s i n g l ee v e n tu p s e t ) a n ds e t ( s i n g l ee v e n tt r a n s i e n t ) t h er e s e a r c ho fs e ut o l e r a n tc o n t r o l l e r sd e s i g ni sd e v e l o p e di nt h ed i s s e r t a t i o n ,t h em a i nw o r ko fw h i c hi ss h o w e da sf o l l o w s ( 1 ) as e l f - r e c o v e r i n gm e t h o db a s e do nd u a lm o d u l a rr e d u n d a n c yi sp r o p o s e di nt h i sd i s s e r t a t i o n t h et w or e d u n d a n c i e sw o r ki nap a r a l l e lw a y w h e na ne r r o ro c c u r si no n eo ft h et w or e d u n d a n c i e s ,ah a r d w a r er o l l b a c ko p e r a t i o nw i l lb ea u t o m a t i c a l l yp e r f o r m e du s i n gt h ec o r r e c ts t a t ei nt h eo t h e rr e d u n d a n c ym o d u l e a n dw ea d dc e l e m e n ta f t e rt h eo u t p u to ft h et w or e d u n d a n c i e s ,t h u si tc a np r e v e n tt h ee r r o rf r o mb e i n go u t p u t e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h i sm e t h o dc a np r o v i d e9 9 3 2 p r o t e c t i o nf r o ms e u a n d ,c o m p a r e dt op u b l i s h e ds e l f - r e c o v e r i n gm e t h o d sb a s e do nd u a lm o d u l a rr e d u n d a n c y , t h ea r e ao v e r h e a do ft h ep r o p o s e dm e t h o di sl o w , w h i l et h ei n c r e a s eo fd e l a yi sn e g l i g i b l e ( 2 ) af a s tf a u l t - t o l e r a n tm e t h o di sp r o p o s e di nt h i sd i s s e r t a t i o n ,b yw h i c ht h eo r i g i n a lf s mi sd e c o m p o s e di n t ot w os u b - f s m s t h et w os u b - f s m sw o r kb yt u r n s w h e na ne r r o ro c c u r si no n eo ft h et w os u b - f s m s ,ah a r d w a r er o l l b a c ko p e r a t i o nw i l lb ea u t o m a t i c a l l yp e r f o r m e du s i n gt h ec o r r e c ts t a t ei na n o t h e rs u b - f s m e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h i sm e t h o dc a np r o v i d e9 9 32 p r o t e c t i o nf r o ms e u ,w h i l ea c h i e v i n g13 16 d e l a yr e d u c t i o no nt h ea v e r a g e k e y w o r d s :s o f te r r o r ;d u a lm o d u l a rr e d u n d a n c y ;f i n i t es t a t em a c h i n e ;s e l f - r e c o v e r i n g ;a l t e r n a t i n g c o m p l e m e n t a r yi i i插图清单图2 1 基本d l a t c h 单元l0图2 2d 1 a t c h 的波形图1 0图2 3t m r 1 a t c h 的门级结构图1 0图2 4d i c e 单元结构图1 l图2 5 阻塞反馈晶体管的低功耗加固单元结构图1 2图2 6 有限状态机的结构图1 5图2 7 软件编译和硬件综合的类比:1 6图2 8 综合的步骤18图2 9 电路s h i f t r e g 的状态转移图1 9图2 10 使用s i s 进行电路综合的流程2 0图2 11s i s 中读入电路、状态编码和输出电路信息的操作过程2 0图3 1 三模冗余容错结构图2 1图3 2t m r 表决器结构示意图2 l图3 3c 单元的电路结构和真值表2 3图3 4s d m r 自恢复方案的电路结构图2 4图3 5s d m r 自恢复时序图2 5图4 1e x t e n s i o n 电路自恢复结构2 8图4 。2 回卷恢复时序图2 8图4 3 原始状态转移图2 9图4 4 拆分后的状态转移图3 0图4 5 交替互补的双状态机自恢复结构二2 3 2图4 6f d - s e r 自恢复方案的回卷恢复时序图3 3图4 7 原始电路、本方案与e x t e n s i o n 结构的平均延迟对比3 5图4 8 原始电路、本方案与e x t e n s i o n 结构的平均面积对比3 6v i i表格清单表3 1s d m r 方案性能开销的定性分析2 5表3 2s d m r 自恢复方案的面积开销2 6表3 3s d m r 自恢复方案的软错误防护率2 7表4 1 拆分前后状态数和状态转移数的对比一3 5表4 2f d s e r 自恢复方案的软错误防护率一3 6独创性声明本人声明所晕交的学位论文是本人在导师指导下进行的研究:l 作及取得的研究成果。据我所知,除了文中特别加以标:基利致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得金a 巴上些厶堂或其他教育机构的学位或证书而使用过的材料。与我一同i :作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学何论文作者签字:膨秀差签字日期:o - q o 年4 月遐日学位论文版权使用授权书本学位论文作者完全了解金胆王些太堂有关保留、使用学位论文的规定,有权保留并向国家有关部l 、j 或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金月巴王些厶堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密厉适用本授权书)学侍论文者签名:恃,鸯灸签字日期:o 丘j 口年删必日学侮论文作者毕业后去向:。i :作单位:通讯地址:一名:拼固签字日期:纠c 年年月返日电话:邮编:致谢转眼间,美好的三年研究生生涯即将结束,在此衷心感谢我的导师梁华国教授在我攻读硕士学位期间给予的严格要求、悉心关怀和精心指导。正是在梁老师的悉心指导下,我进入了数字电路容错这一具有挑战性的领域。我在读研期间取得的每一点进步,都凝聚着导师的汗水和辛勤的指导。导师敏锐的洞察力、富有启发性的建议和严格的要求不仅使我在研究生期间受益匪浅,而且会对我今后的工作和生活产生深远的影响。特别是导师勤奋的工作态度和对业务精益求精的精神为我们学生树立了榜样,给我留下了终生难忘的印象,并时刻激励着我不断进取。此外,还要深深感谢导师平日对我生活和工作上的关心、帮助和鼓励,在此要向导师表示最诚挚的敬意和由衷的感谢!感谢黄正峰老师在学术上的耐心指导,您对工作的认真负责、对学术研究的严谨踏实、积极进取的精神和始终如一的激情将是我学习的榜样、终生的楷模。感谢本研究室欧阳一鸣副教授、易茂祥副教授、陈田、王伟等老师,他们为我的学习、科研和生活提供了许多支持与帮助。感谢张敏生、吴珍妮、程旺燕、罗强、毛蔚、曹源等硕士同学和王俊、李松坤、徐三子、顾婉玉等师弟师妹,与他们共同学习的日子总是充满了欢乐,与他们的深入讨论与密切合作,开阔了我的思路,丰富了我的知识,对我的工作是莫大的帮助。感谢我的父母,多年来他们一直竭尽全力给予我最多的爱和最大程度的帮助;感谢我的爱人陈涛先生在学习上与我共同进步、生活与我同甘共苦、工作上与我相互促进;感谢我的女儿,天真可爱、聪明活泼的陈海若小朋友,给我的生活带来了无穷的乐趣,也给了我无穷的动力,使我一直努力向前,永不懈怠。感谢所有曾经关心和爱护我的亲人和朋友。最后,感谢在百忙中来参加我们论文答辩的各位专家老师。i v2 0 1 0 年3 月第一章绪论1 1 概述1 1 1 控制器容错技术的研究背景近年来,在航空航天领域、核控制领域以及金融等诸多领域,对起到关键控制及处理作用的计算机的可靠性要求日趋严格。特别是在航天航空应用领域,由于发射后零部件更新困难,所用系统也越来越复杂,如何保证航天航空飞行器中的计算机系统的可靠性成为一个严峻的挑战。作为计算机系统的核心,微处理器的容错能力问题因此得到越来越多的重视。控制器是处理器的核心部分,控制器的容错能力关系到微处理器芯片甚至整个系统的健壮性。因此,对容错控制器的研究很有意义。提高系统可靠性的基本方法有两大类:故障预防( f a u l tp r e v e n t i o n ) 和故障容错( f a u l tt o l e r a n c e ) 。故障预防的目标是防止故障产生,例如,从电路的制作工艺上提高计算机元器件的可靠性n 1 ,对元器件进行严格的筛选,并对设计方案进行认真审核,但由于种种原因,要完全防止故障的产生是不可能的,这些措施只能尽量降低故障产生的可能性。在故障的产生无法避免的情况下,就需要使用各种故障容错技术来保证系统的可靠性。故障容错的定义为:如果一个系统在出现一定的运行性故障( o p e r a t i o n a lf a u l t s ) 时,能够依靠系统内部的能力保持系统连续而正确地执行程序和完成输入输出功能,则这个系统叫做故障容错系统心1 。故障容错简称容错。本章介绍了当今广泛应用的传统容错技术以及一些新兴的容错方法。下面首先描述与容错技术相关的三个基本术语,故障、错误和失效的定义及区别。1 1 2 容错技术的相关定义在容错技术领域,通常用三个常用术语来描述复杂系统中可能发生的问题:故障( f a u l t ) 、错误( e r r o r ) 和失效( f a i l u r e ) t 3 1 。故障分为两类:硬件故障和软件故障。硬件故障是由于系统元器件本身产生缺陷而导致器件工作异常。比如导线的短路和开路、晶体管不能正常导通或者截止,这些故障都属于硬件故障。软件故障则是出现在软件中的b u g ,它引起程序对一组给定的输入都得不到正确的输出。错误是故障的体现。硬件故障,如导线的开路会导致无法通过这条导线传输信号,即产生了硬件错误。而软件故障常常导致程序对某些输入可以得到正确的输出,而对另外一些输入却产生错误的结果。失效是指系统未能正确的提供预先制定的服务。错误是失效的原因,而失效是错误的结果。失效的原因一般有如下四种:需求和设计说明中的错误和模糊不清,系统部件老化失效或者自身存在缺陷,外界恶劣环境的影响以及人为的不正确操作。故障、错误和失效构成了一个因果链,即故障引起错误,错误又引起失效。故障会引起错误,但不是故障一出现就立即引起错误,从故障发生到由于该故障而产生错误的时间间隔称为故障潜伏期;同样,错误的产生会导致失效,从错误发生至该错误引起的失效之间的时间间隔称为错误潜伏期。此外,故障预防的主导思想是防止故障导致错误的发生,着眼于从故障到失效的第一个阶段,而故障容错则着重防止错误转化为失效,以维持系统继续按既定功能运行的能力。错误恢复是故障容错的表现形式,它是指系统试图从错误造成的影响中恢复。错误恢复有两种形式,向前的错误恢复和向后的错误恢复。在向前的错误恢复中,不需要重新计算,错误产生的效果被屏蔽。在向后的错误恢复技术中,系统的状态被恢复到错误发生前的某个点,重新开始处理以得到正确的结果【4 】。本文中的自恢复方案为一种向后恢复技术。1 1 3 课题研究现状国外对微处理器可靠性及其相关领域的研究起步较早,并且已有了许多成熟的研究成果和技术产品。美国在l9 6 2 年成立了国际核辐射及空间辐射效应组织,致力于研究核辐射及空间辐射对于各种电子器件的影响。自上世纪7 0 年代以来,单粒子效应对于电子器件特别是微处理器的影响成为该组织年会的热门议题。自2 0 0 0 年以来,该组织更是将微处理器的可靠性技术作为年会的重要议题。美国航天总局、费米实验室、欧洲空间局、法国t i m a 实验室等都是这一领域比较著名的研究机构。它们对单粒子效应、电磁干扰造成的集成电路故障等方面进行了大量的实验与研究,推动了可靠性微处理器的研究和发展。在这些研究机构的协助和推动之下,很多处理器厂商如i n t e l 、i b m 、m o t o r o l a 及s u n 都发布了自己的抗辐射处理器芯片,并投入市场,这些产品都对特殊环境及军事应用提供了不同程度的容错能力。国内单粒子效应研究始于上世纪8 0 年代中期,可以说是一直在跟踪国外单粒子效应研究动态1 5 j 。在我国卫星上出现单粒子效应故障之后,单粒子效应研究得到了高度的重视。目前,国内有多家研究机构,根据客观需求和现实条件,从不同的侧面开展了对单粒子效应的研究。在单粒子效应机理研究方面,国内主要对s r a m 的单粒子翻转效应进行了解析分析和模拟计算,分析了影响单粒子翻转的因素和参数;研究了c m o s 器件的单粒子效应,进行了计算机模拟分析;还对c p u 的单粒子效应进行了初步研究。尽管经过二十多年的研究,我国单粒子效应的研究取得了很大的成绩,得到了许多有参考价值的结果,对正确认识单粒子效应规律和采取适当的加固措2施有重要的指导意义。但是到目前为止对存储器及c p u 中的单粒子效应的研究还停留在实验室阶段。尽管有一系列对于计算机系统可靠性设计技术的研究,但是基本上都是通过多机的冷、热备份来提高可靠性的。微处理器的可靠性设计技术还没有得到有效的研究,与国外先进研究成果还存在很大的差距1 6 j 。国内方面,国防科技大学设计了容软错误的微控制器f t 5 l ,f t 5 l 基于异步电路的时空三模冗余微结构,可以有效对软错误进行防护。与未经加固的版本相比,f t 5 1 的额外面积开销为8 0 6 ,额外性能开销为1 9 到1 3 3 附。中科院计算所自主设计的自修复芯片即将投片,并尝试以“龙芯”系列c p u 为载体,在微结构级向分支指令后插入冗余指令j 。湖南大学提出多线程回卷恢复架构,开发了回卷恢复试验床w i n d a r 9 1 ,主要是在软件级进行回卷恢复研究。哈尔滨工业大学提出了基于硬件实现的线程级处理器容错方案:基于微线程的粗粒度超标量容错结构l lo j 以及容错单芯片多处理器的设计思想【l 。合肥工业大学提出一种容软错误的b i s t 结构f t - c b i l b o ,该结构对并发内建逻辑块观察器进行改进,通过对多输入特征寄存器进行功能复用,构建双模冗余的容错微结构,另外,该结构在触发器输出端插入c 单元,在阻塞软错误的同时能有效地降低开销i l 引。1 2 本文的研究内容及创新之处1 2 1 本文的研究内容本文的研究内容是利用可靠电路设计技术来降低电路对s e u 的易感性,并尽量降低容错代价。例如,使用电路冗余技术,其中常见的有三模冗余和双模冗余等。作为微处理器的核心部件,控制器的可靠性对整个微处理器的可靠性有重要影响。控制器的可靠性设计,最直接的方法就是加固各种存储单元。这种方法最为直接和可靠,但是会带来很大的面积开销和性能损失,并且实现的成本和工艺要求都太高。因此,在体系结构一级进行加固是一种高效的方法。本文研究的主要内容就是要在高可靠性控制器的s e r 分析和现有控制器设计技术的基础上,在达到提高控制器可靠性的同时尽量减低面积开销和性能损失,简化硬件设计,并结合性能评价和可靠性评价,不断提高控制器的可靠性。具体研究内容有以下两方面:( 1 ) 传统双模冗余缺点是无法进行差错定位,不能纠错,不能自恢复。为此本文提出了基于双模冗余的控制器自恢复结构s d m r 。当其中一个冗余模块发生错误时,通过将两个冗余模块的输出输入c 单元,利用c 单元的阻塞作用阻塞瞬态故障引发的软错误。同时利用另一个冗余模块中备份的正确状态进行恢复并重新执行,从而有效的对单事件翻转进行防护,避免了将错误结果输出。该方案在发生软错误时无需定位错误冗余模块,并能够实现自恢复。( 2 ) 通过状态机拆分,构建自恢复控制器。控制器可以建模为有限状态机( f s m ) 。和传统的卷回恢复机理不同,本研究通过有限状态机拆分,让子状态机间相互备份,无需额外设立备份寄存器,在节省硬件开销的同时,缩短了恢复时间。1 2 2 本文的创新之处( 1 ) 本文的创新点一针对传统双模冗余缺点一一无法进行差错定位及不能纠错,提出了一种基于双模冗余的自恢复方案。当其中一个冗余模块发生错误时,通过将两个冗余模块的输出输入c 单元,利用c 单元的阻塞作用阻塞瞬态故障引发的软错误。然后利用另一个冗余模块中的正确状态进行恢复并重新执行,从而有效的对单事件翻转进行防护,避免了将错误结果输出。该方案可以防护电路中9 9 3 2 的软错误在发生错误时无需定位错误冗余模块,并能够实现自恢复。实验结果表明,与同类d m r 方案相比,本方案面积开销低,对电路性能的影响小。( 2 ) 本文的创新点二提出了一种交替互补的双状态机自恢复结构,编程实现拆分有限状态机的算法,并使用电路综合工具s i s 对拆分前后的电路进行综合。该结构将原始状态机拆分为两个子状态机,两个子状态机交替工作。在其中一个子状态机发生错误时,利用另一个子状态机中的正确状态进行回卷恢复。实验结果表明,本方案可以防护电路中9 9 6 4 的软错误,与e x t e n s i o n 自恢复方案相比,面积开销略有增加而延迟大幅降低,显著提高了容错结构的性能。同时,因两个子状态机轮流工作,降低了功耗开销。因此,该方案为一种高性能、低功耗的容错方案。1 3 本文的组织结构本文共分五章,首先介绍了容错控制器和软错误相关的研究背景,然后介绍了基于双模冗余的自恢复方案,以及通过拆分状态机实现自恢复方案。具体组织结构如下:第一章为绪论,主要介绍了本文的研究背景、控制器容错技术以及国内外的研究现状。最后对本文的研究内容及创新点进行了概述。第二章介绍了软错误防护技术相关的知识,其中包括软错误相关的概念、软错误加固技术防护的对象、容软错误电路加固的三个级别、软错误防护技术的发展趋势及几种经典的单元加固方案:由于控制器经常使用有限状态机来建模,还对有限状态机、状态机的综合和拆分进行了简单的介绍:最后介绍了电路综合相关的概念及研究中使用的时序电路综合工具s i s 。第三章首先分析了三模冗余技术和双模冗余技术的结构及原理,然后针对传统双模冗余技术的不足,提出了一种基于双模冗余的交替互补的回卷自恢复结构s d m r 。与其他d m r 方案相比,该方案面积开销低,对电路性能的影响小,4在自恢复后继续正常工作。第四章讨论了一种电路级容软错误方案一一基于状态机拆分的容软错误自恢复方案f d s e r ,详细分析了这种方案的电路结构、工作原理,井且对该方案进行了实验验证、容软错误效果分析和性能分析。第五章对本文的全部工作进行总结,归纳了本文的主要成果,并对将来进一步的工作进行了展望。第二章软错误防护技术概述2 1 软错误相关概念随着集成电路技术的发展,深亚微米时代已经来临,这在提高速度,减少电路面积和降低功耗的同时,电路受到环境中辐射( 高能中子和a 粒子等) 干扰的概率也在不断提高,从而使电路对软错误( s o f te r r o r ) 越来越敏感【b 】【1 4 l 。软错误主要分为单事件翻转( s e u ,s i n g l ee v e n tu p s e t ) 和单事件瞬态( s e t ,s i n g l ee v e n tt r a n s i e n t ) 两类。s e u 指时序逻辑电路由于粒子撞击而发生的状态翻转,s e t 则指组合逻辑受粒子轰击时产生毛刺。例如宇宙中单个高能粒子射入半导体器件灵敏区,使器件逻辑状态状态翻转:原来存储的”0 ”变为”1 ”,或者”1 ”变为”0 ”,从而导致系统功能紊乱,严重时会发生灾难性事故。与我们熟知的永久性故障( p e r m a n e n tf a u l t s ) 不同,瞬态故障产生的错误是瞬时的,可以在短时间消失。很多文章将瞬态故障和软错误等同使用。i n t e l 的研究数据表明,在软错误的诱因中,s e u 占到的比重达8 9 ,而s e t 占到的比重为1 1 【1 5 】。因此,目前软错误防护主要针对时序单元。研究表明,集成电路的软错误率和加工工艺、使用环境、芯片工作频率、海拔高度都有紧密的相关性。在一些电磁、辐射环境比较恶劣的情况下,大规模集成电路( i c ) 常常会受到干扰,最容易发生s e u 的是像r a m 这种利用双稳态进行存储的器件,其次是c p u ,再其次是其它的接口电路。随着芯片集成度的增加,发生s e u 错误的可能性也在增大。在特定的应用中,s e u 已经成为一个不能忽视的问题。典型的s e u 易发环境是空间电子应用领域,由于太空中高能粒子的轰击,s e u 已经成为星载计算机中最常见的错误【l6 1 。软错误是一种自然现象。一个软错误就是一次失败的运算,由阿尔法粒子或宇宙射线引起。这一错误是随机的,它不会损坏或烧毁芯片。s e m i c o 研究公司分析员b o bm e r r i t t 指出这一现象是由两个原子碰撞引起的脉冲能量沿一个确定的路径衰减直到消失。m e r r i t t 说:“如果那个路径碰巧发生在半导体取单元中存储数据的时空点,这个能量将导致电路在错误的方向读或写。”在个人电脑或手机中出现一个软错误,用户通常都察觉不到。然而如果这样的误操作出现在网络设备中,就会同资金转帐一样,发送信息包到错误的地址。向0 1 3 微米工艺技术过渡使得集成电路的软错误率更高。m e r r i t t 指出:“随着光刻技术越来越小,引入了软错误。当空间变得越来越小,工艺中断和数据混淆也越来越容易发生。 其它发展趋势也使得软错误率增大。例如,低电压技术将减少电容容量并增加存储单元对于阿尔法粒子和宇宙射线的敏感性;更快的时钟频率会给粒子更多机会中断读或写命令:更高的密度也使得设计可能没6有包括足够的错误校正或奇偶校验位。i b m 公司微电子会员和技术主管r u s sl a n g e 指出软错误率也取决于海拔高度。i b m 公司发现在海平面上1 0 ,0 0 0 英尺测试的g r a m 软错误率值比在海平面上测得的高1 4 倍,主要原因是受到更高的宇宙射线照射。l a n g e 表示,尽管阿尔法粒子粒子能够通过改进封装进行控制,但即使在芯片上封装一层塑料,宇宙射线仍不可能完全封闭。他说:“这是个无法改变的事实。”在问到为什么不能用d r a m 取代g r a m 时,l a n g e 说,d r a m 由于是基于沟道技术的,因此很大程度上不受软错误的影响,但这意味着对存取速率的折衷。而在一些应用中,采用g r a m 并构建错误校正代码可能是个更好的选择。因为s r a m 软错误不是每天发生的事情。m o s y s 公司副总裁和知识产权主管m a r ke r i c j o n e s 指出典型的软错误为l ,0 0 0f i t ,这表示一个器件每隔1 4 4 年失效一次。e r i c j o n e s 说道:“不幸的是,在0 1 3 微米工艺技术中我们发现一些存储技术的错误率高达每兆位1 0 ,0 0 0 或1 0 0 ,0 0 0f i t 。这使得一个单独的器件中错误出现频率降到几个月或几个星期一次。”1 1 7 12 2 容软错误电路加固技术2 2 1 软错误加固技术防护的对象按照防护对象的不同,软错误防护技术可以分为两类:( 1 ) 存储器的软错误防护技术。主要是采用信息冗余技术,但是对不同存储器通常采用形式各异的检错码纠错码加以防护。以日本v u j i t s u 公司的p r i m e p o w e r 6 5 0u n i x 服务器为例【1 8 】,使用9 0 n ms p a r c 6 4v 处理器,s p a r c 6 4v 中有4 m b 的2 级高速缓存,使用s e c d e d ( 纠单错、检双错) 码。s p a r c 6 4v 中有3 个l 级高速缓存,大小均是1 2 8 k b 。l级数据高速缓存使用s e c d e d 码。l 级指令高速缓存使用奇偶校验码。如果发现错误,会从2 级高速缓存找到对应的正确备份。1 级分支历史高速缓存( l e v e llb r a n c hh i s t o r yc a c h e ) 使用奇偶校验码,如果发现错误,会当作不命中( c a c h em i s s ) 来处理。1 级数据高速缓存和1 级指令高速缓存中的标志位( t a g ) 使用奇偶校验码,如果发现错误,会从2 级高速缓存找到对应的正确备份。页表缓存( t l b ) 使用奇偶校验码,如果发现错误,会当作不命中( c a c h em i s s ) 来处理。以i b m 公司的p o w e r 6 处理器为例【l 川。1 级高速缓存使用奇偶校验码保护。2 级高速缓存、3 级高速缓存、内存、内部信号( i n t e r n a ls i g n a l s ) 和所有的接口引脚( i n t e r f a c ep i n ) 均使用纠错码( e c c ,e r r o rc o r r e c t i n gc o d e ) 保护。如果l 级高速缓存检查出奇偶错误,会直接从内存中调入对应的正确数据备份。7( 2 ) 时序逻辑和组合逻辑的软错误防护技术。时序逻辑的软错误防护技术主要是针对s e u 进行防护,组合逻辑的软错误防护技术主要是针对s e t 进行防护。s e u 防护技术主要是设计加固的静态存储单元( h a r d e n e ds t a t i cs t o r a g ec e l l ) ,包括触发器、锁存器、s r a m t 2 m 2 7 1 。较有代表性的是文献【2 0 中提出的d i c e ( d u a li n t e r l o c k e ds t o r a g ec e l l ) 单元,d i c e 单元在内部构建节点冗余的微结构,确保任意单个节点发生瞬态故障时,可以由相邻节点来自行恢复到正确的逻辑值,整个d i c e 单元的逻辑值仍然保持不变。s e t 防护技术较为复杂,开销比s e u 防护技术要大。需要在面积、速度、功耗和可靠性等设计参数之间作出有效折中。典型的是双模冗余和三模冗余技术。双模冗余可以有效侦测软错误( s o f te r r o rd e t e c t i n g ) ,三模冗余可以有效屏蔽软错误( s o f te r r o rm a s k i n g ) 。文献【2 8 提出了r a z o r 方法,通过在主触发器( m a i nf l i p f l o p ) 和影子锁存器( s h a d o wl a t c h ) 之间构建异构的双模冗余结构,通过比较器来侦测软错误( s o f te r r o rd e t e c t i n g ) ,并通过微结构级回卷( m i c r o r o l l b a c k ) 技术将指令流水从软错误中快速恢复【4 引。2 2 2 软错误防护的级别按照软错误防护层次的差异,在目前的研究工作中将s e u 容错技术分为以下三个级别:器件级、系统级和电路级。( 1 ) 器件级( d e v i c el e v e l )器件级的软错误防护技术采用抗辐照技术,即在集成电路生产过程中采用有别于c m o s 的特殊制造工艺,有效针对高能粒子辐射进行防护。例如,采用额外的掺杂层等工艺来降低粒子轰击的影响、降低出现s e u 的可能性。i b m 公司发明的绝缘体上硅( s o i ,s i l i c o n o i l i n s u l a t o r ) 工艺,通过在绝缘体上形成半导体薄膜,具有了体硅所无法比拟的优点:可以实现集成电路中元器件的介质隔离,彻底消除了体硅c m o s 电路中的寄生闩锁效应;采用s o i 工艺制成的集成电路还具有寄生电容小、集成密度高、速度快、工艺简单、短沟道效应小及特别适用于低电压( 低功耗) 电路等优势,可以有效针对软错误进行防护【2 们2 1 。( 2 ) 系统级( s y s t e ml e v e l )系统级的软错误防护技术如错误检测及更正码。i b m 提出的c h i p k i l l 技术是一种高级的e c c 编码,通过内存交织和位分散的方式能够容忍多位故障。b e r k e l e y s t a n f o r d 大学联合研发的r o e ( r e c o v e r yo r i e n t e dc o m p u t i n g ) 技术1 3 引。p a t t e r s o n 教授撰写的r o c 研究报告中明确提出,运算峰值将不是未来高性能计算机面临的主要问题,相反,如何将硬件故障、软件故障,包括人为失误考虑在内,切实提高计算机系统的可用性( a v a i l a b i l i t y ) 是一个严峻的挑战。为此,r o e 项目在系统级研究了一系列通过硬件和软件的进行故障监测、故障屏蔽、故障注入和故障恢复的技术方法。8i b m 公司b l u eg e n e 超级计算机的自愈合( s e l f - h e a l i n g ) 技术1 3 引。i b m 公司研制的蓝色基因( b l u eg e n e ) l 在2 0 0 4 年1 1 月至2 0 0 7 年1 1 月期间一直是世界t o p 5 0 0 排名第一。它采用低功耗双核处理器( 1 3 w ) ,集成了五大网络接口及存储控制器接口,速度达到7 0 7 2 0 t f l o p s ,系统使用了3 2 7 6 8 个处理器,功耗为2 9 m w 。该机器采用高性能低功耗,嵌入式处理器为m p p ( m a s s i v e l yp a r a l l e lp r o c e s s i n g ) 架构。改进型号b l u eg e n e p 中有7 3 7 2 8 个计算节点。b l u eg e n e 系列采用了容错的p o w e r p c 微处理器,并且在系统级通过容错的虫孔路由( w o r m h o l er o u t i n g ) 算法完成故障节点的隔离与替换1 3 5 1 。( 3 ) 电路级( c i r e u i tl e v e l )利用可靠电路设计技术来降低电路对s e u 的易感性。例如,电路冗余。电路级防护技术采用全定制的设计方法,设计防护s e u s e t 的标准单元,替代未经加固的普通标准单元,可以无缝嵌入当今流行的商用设计流程。例如d i c e单元、c 单元。电路级s e u 防护技术分为软错误屏蔽( s o f te r r o rm a s k i n g ) 技术和软错误阻塞( s o f te r r o rb l o c k i n g ) 技术。软错误屏蔽技术中较为流行的是使用三模冗余技术【播4 0 1 ,但是三模冗余的面积开销、性能损失较大。文献 4 1 4 2 通过精细调整标准单元中晶体管的尺寸来进行软错误屏蔽,该方法对于不同的工艺尺寸需要二次设计,与工艺节点的相关性强,不具有通用性。文献【4 3 】另辟蹊径,提出了s e m 1 a t c h e s ( s o f te r r o rm a s k i n gl a t c h e s ) 单元,采用施密特触发器( s c h m i t tt r i g g e rc i r c u i t ) 和传输管( p a s st r a n s i s t o r ) 对组合逻辑上发生的软错误进行屏蔽。软错误阻塞技术。该方法需要人为产生两路输入到c w s p ( c o d ew o r ds t a t ep r e s e r v i n ge l e m e n t ) 单元m 】,利用c w s p 单元独特的逻辑特性,在任何一路输入上产生软错误时,可以确保输出端保持不变。该特性非常适合于目前基于流水的体系结构,可以有效杜绝将软错误传播到下一级流水级。文献 4 5 】、【4 6 】都是在时序单元内部构建双模冗余的微结构,产生两路输入到c w s p 单元,达到阻塞软错误的作用。文献 4 6 1 在两路输入上插入延迟单元,可以有效过滤s e t干扰脉冲。文献【4 7 对该方法作了详尽的定性分析和定量分析,确保将延迟损失( d e l a yp e n a l t y ) 控制在l 以内 4 s 】。2 2 3 几种经典的单元加固方案单元加固的基本思想是引入冗余存储节点,在一个节点翻转时可以通过反馈从其他节点恢复该节点的电压。该思想的关键在于既要引入反馈机制又要避免敏感节点的翻转传播到整个单元。此外在加固单元设计时还需要考虑以下指标:使用的晶体管数目要尽可能少;静态功耗尽可能小;翻转恢复时间尽可能短:9读写速度尽可能快。以d 1 a t c h 为例,基本d 1 a t c h 单元如图2 1 所示,其波形图见图2 2 。错图2 1 基本d 1 a t c h 单元m d c kh 一d - 卜卜一d 一厂- l 二几:广_ 1 oi :r图2 2d 1 a t c h 的波形图d 1 a t c h 的几种经典的单元加固方案如下:1 ) t m r - l a t c h如图2 3 所示,一个t m r 1 a t c h 包括3 个独立的l a t c h 和一个表决电路。由于t m r 1 a t c h 使用了大量冗余单元,它的面积开销和功耗开销都相当大。由于同一时刻s e u 只影响l a t c h 中的一个,因此,t m r 1 a t c h 可以防护s e u 引起的软错误。这种技术特别对软错误的防护相当可靠,即使是高能量的s e u 也能够防护【45 1 。t m r 1 a t c h 的缺点是面积和功耗代价相当高,性能也有所降低。图2 3t m r 1 a t c h 的门级结构图2 ) d i c e这种单元的晶体管图如图2 4 。对一个标准存储单元,d i c e ( d u a l1 0i n t e r l o c k e ds t o r a g ec e l l ,双向互锁存储单元) 使用2 倍数量的晶体管。d i c e中使用的所有加固规则获得对瞬态现象影响单个结点的免疫而不需要增加一些晶体管的尺寸或者一些结点的电容。因此,它可以毫不费力的缩放并且能应用到使用最小晶体管尺寸的任何工艺中。这使得d i c e 单元可以在任何纳米工艺结点中适合于保护存储单元免于s e u 。d i c e 单元有2 个状态,0 态和1 态。在两种状态的任一种下,以及任何一个结点被瞬时脉冲干扰时,我们都可以发现在余下的3 个结点中的2 个能够使x l ,x 2 ,x 3 ,x 4 ,x l ,循环持续进行,它们具有值0 和l 。我们称这些结点为保持结点,称另外2 个结点为受影响结点。例如,在0 态( x 1 = 0 ,x 2 = l ,x 3 = 0 ,x 4 = 1 ) ,如果结点在x 2 处被粒子轰击,保持结点是x 4 ,x l 。同一个状态,如果被轰击的结点是x 3 ,保持结点还是x 4 ,x l ,但是如果被轰击的结点是x 1 或x 4 时,则保持结点是x 2 ,x 3 。在状态

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论