版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章分布式系统中容错技术1一台计算机由各种各样的硬件和软件组成,这些部件时不时地会出现故障或错误,导致死机或运行失败。
这些故障或错误往往是随机出现的,计算机用户无法预料这些情况的出现,有时甚至察觉不到错误的出现。如果一个计算机系统能够对非预期的软件/硬件故障有适当的对策和应变措施,则我们说这个系统具备一定的容错(Faulttolerance)
能力。分布式系统的特殊之处在于故障的局部化,即系统的某个(些)
局部成份出现故障,这种故障可能会影响到系统的局部功能,而对系统的其它部分毫无影响。本章讨论内容包括容错处理的基本概念、要求和模型,如何实现可靠的通信,以及当发现故障时如何排除并恢复运行。27.1分布式系统中的故障模型
7.1.1基本概念
属性:
可用性
可靠性
安全性可维护性
保密性完整性
后果:
失效
错误
故障策略:
防止故障
故障容错
故障恢复
故障预报什么是“可信赖的系统”?如何区分各种故障?如何处理故障?3可用性:可用性反映的是系统随时可被用户使用的特性。可靠性:一个系统可以无故障持续运行的程度。与可用性相反,可靠性以时间周期为基准,而不是以某个时刻为基准。也就是说,一个高度可靠的系统在相当长的时间周期里可以无间断地为用户提供服务安全性:安全性指的是在系统出现暂时错误的情况下,不出现灾难性后果的能力。可维护性:可维护性指的是系统一旦出现故障,系统易于修复的能力。保密性:保密性要求系统资源不被非法用户访问。可信赖系统的性质4当系统不能提供所承诺的服务时就认为系统失效一个系统在正常工作时会在若干种运行状态之间变迁,一旦出现异常,则该系统进入错误(Error)
状态。一个系统的错误状态可能是导致系统失效的原因造成错误的原因称为故障。归于导致故障错误失效故障的种类繁多,软件和硬件都有可能产生故障,而且在某些场合下,与系统无关的外部环境也可能引发故障。通常分为:暂时性的(transient)、间歇性的(intermittent)和永久性的(permanent)57.1.2基本的故障模型
拜占庭故障故障类故障子类故障语义崩溃故障
服务器崩溃(停机)
,但停机前工作正常失忆型崩溃服务器只能从初始状态启动,遗忘了崩溃前的状态中顿型崩溃服务器可以从崩溃前的状态启动停机型崩溃服务器完全停机失职故障(遗漏故障)
服务器对输入的请求没有响应接收型失职服务器无法接收信件发送型失职服务器无法发送信件应答故障
服务器对服务请求做出错误反应返回值故障返回值出现错误状态变迁故障服务器偏离正确的运行轨迹时序故障
服务器反应迟缓,超出规定的时间间隔随意故障
服务器在任意时间产生的随意错误故障分类
(与语义有关)6要建立可靠系统就必须控制故障。对用户来讲最重要的是容错,即系统发生故障时也能提供服务(对其他进程隐藏故障的发生)。容错是建立在冗余的基础上的,冗余类型有四种:哺乳动物的两只眼睛、两个耳朵、两个肾,747飞机的四个引擎只用了三个,多个体育裁判硬件冗余使用多个硬件软件冗余使用多个软件信息冗余
海明(Hamming)
校验检查和奇偶位时间冗余
超时重发技术:如原子操作和原子事务处理重复计算物理冗余77.1.3故障的基本处理方法(进程容错机制):(1)主动复制。所有的复制模块协同进行,并且它们的状态紧密同步。用到了错误屏蔽的概念——隐藏出现的故障或防止故障造成错误。把相同进程的集合组织到一个平等组中。在分布式系统中使用主动复制相对比较昂贵。编组故障屏蔽(2)被动复制。以等级方式组织进程组,其中只有一个模块(主进程)处于动态,其他模块的交互状态由这一模块的检查点定期更新。如果主进程崩溃,后备进程执行选举算法选择一个新的主进程。动态方法层次故障屏蔽(3)半主动复制。是主动复制和被动复制的混合方法。此种方法所需的恢复开销相对较低。失效的检测可分为外部检测和内部检测两类:外部检测是指将检测节点失效的职责赋予被检测节点的外部附件。内部检测将节点的失效检测机制置于该节点内部,通常检测部件被假定为一个可以完全信赖的“硬核”。
8Passive(Primary-Backup)Replication
RequestCommunication:
therequestisissuedtotheprimaryRMandcarriesauniquerequestid.Coordination:
Primarytakesrequestsatomically,inorder,checksid(resendsresponseifnotnewid.)Execution:
Primaryexecutes&storestheresponseAgreement:Ifupdate,primarysendsupdatedstate/result,req-idandresponsetoallbackupRMs.Response:
primarysendstothefrontendClientFrontEndRMRMRMClientFrontEndRMprimaryBackupBackupBackup….9FaultToleranceinPassiveReplicationThesystemimplementslinearizability,sincetheprimarysequencesoperationsinorder.Iftheprimaryfails,abackupbecomesprimarybyleaderelection,andthereplicamanagersthatsurviveagreeonwhichoperationshadbeenperformedatthepointwhenthenewprimarytakesover.Theaboverequirementismetifthereplicamanagers(primaryandbackups)areorganizedasagroupandiftheprimaryusesview-synchronousgroupcommunicationtosendupdatestobackups.Thesystemremainslinearizableaftertheprimarycrashes10ActiveReplication
RequestCommunication:
Therequestcontainsauniqueidentifierandismulticasttoallbyareliabletotallyorderedmulticast.Coordination:
Groupcomm.ensuresthatrequestsaredeliveredtoeachRMinthesameorder(butmaybeatdifferenttimes!).Execution:
Eachreplicaexecutestherequest.(Correctreplicasreturnsameresultsincetheyarerunningthesameprogram,i.e.,theyarereplicatedprotocolsorreplicatedstatemachines)Agreement:Noagreementphaseisneeded,becauseofmulticastdeliverysemanticsofrequestsResponse:
EachreplicasendsresponsedirectlytoFE,FEusestheseasbeforeClientFrontEndRMRMClientFrontEndRM….11FaultToleranceinActiveReplicationRMsworkasreplicatedstatemachines,playingequivalentroles.Thatis,eachrespondstoagivenseriesofrequestsinthesameway.ThisisachievedbyrunningthesameprogramcodeatallRMs.IfanyRMcrashes,stateismaintainedbyothercorrectRMs.ThissystemimplementssequentialconsistencyThetotalorderensuresthatallcorrectreplicamanagersprocessthesamesetofrequestsinthesameorder.Eachfrontend’srequestsareservedinFIFOorder(becausethefrontendawaitsaresponsebeforemakingthenextrequest).So,requestsareFIFO-totalordered.Butifclientsaremulti-threadedandcommunicatewithoneanotherwhilewaitingforresponsesfromtheservice,wemayneedtoincorporatecausal-totalordering127.2容错系统的基本构件7.2.1坚固存储器(稳定存储器,Lampson提出)
坚固存储器是对一个可以经受系统失效的特定存储器的逻辑抽象,也就是说,坚固存储器里的内容不会被一个失效所毁坏。坚固存储器的实现技术:磁盘镜像:坚固存储器可以用一对普通磁盘来实现。坚固存储器中的每一个块由两个独立的磁盘块组成,分别位于不同的驱动器上,使得它们同时由于硬件故障受到损坏的机会最小。RAID:另一种实现坚固存储器的方法是使用廉价磁盘冗余阵列(RAID)。RAID是通过运用位交错技术将数据分布到多个磁盘中,从而提供高I/O性能。可以用一个或几个磁盘来检测或屏蔽错误,RAID与传统磁盘相比有显著的优点,并可承受多个失效。13RecoveryStableStorageStableStorageCrashafterdrive1isupdatedBadspot147.2.2故障—停止处理器当一个处理器失效,最可能的是它不进行任何不正确的操作,并且简单地停止运行,这样的处理器被称为故障—停止处理器,一个故障—停止处理器由多个处理器组成。失效的效果:当出现一个故障时,故障—停止处理器会有以下效果:(a)处理器停止运行;(b)易失性存储器的内容丢失,而坚固存储器不受影响;(c)任何其他处理器均可以检测到故障—停止处理器的失效状态。故障—停止处理器的实现:现有一个可靠的坚固存储器、一个可靠的存储处理器(控制存储媒介的处理器)以及k+1个处理器,将它们转变成故障—停止处理器的方法如下:k+1个处理器中的每一个都运行同样的程序并通过存储处理器访问同一个坚固存储器。如果任何一个请求是不同的,或者任何一个请求没有在指定的期间到达,则意味着检测到一个失效事件,因而应该丢弃所有请求。因为系统表现为一个故障—停止处理器,这一方法产生一个k—故障—停止处理器,除非系统中k+1个或更多的部件失效。157.2.3原子操作一个原子操作就是由硬件独立执行的一系列动作。也就是说,每一个动作或者被完全彻底地执行,或者所有的动作根本没有执行,系统的状态保持不变。原子操作中的每一个动作都是孤立的,当执行这一动作时,在进程中感觉不到外界活动的存在,也意识不到外界状态的变化。与此相似,任何外界的进程均感觉不到一个孤立的原子操作的内在状态的变化。这就是所谓的原子操作的“全有或全无”的性质,即一个原子操作要么全部完成,要么在执行过程中出现错误的时候相当于根本没有执行。原子操作失效时,可以通过简单地重做来恢复。16如果由于某个故障,系统进入错误状态,容错处理的目的是采取适当的手段,把系统恢复(Recovery)到无错误状态。大致上我们可以把系统恢复技术归纳为两类:前向恢复(ForwardRecovery)和逆向恢复(BackwardRecovery)。前向恢复技术,采用一种乐观的态度,当系统发现错误后,我们试图把系统带入一个新状态,从新状态开始继续运行。关键在于必须预先知道会发生什么错误。逆向恢复技术,向后式恢复(回退恢复),采用保守的态度,事先不知道会发生什么故障,在系统正常运行时记录一些状态历史。一旦当失效导致系统处于不一致的状态时,可恢复到从前没有发生故障的状态,重新执行。是一种通用方法。开销较大。不能提供完全的故障透明性。需要设置检查点。恢复技术
7.3节点故障的处理177.3.1向前式恢复:例外处理技术过程:一个进程或任务的初始拷贝由不同的处理器来运行。这些版本的结果在检查点进行表决或比较,如果表决结果是成功的,则可以获得一个储存在坚固存储器中的正确结果。在此结果的基础上,再执行下一项任务的拷贝。如果表决结果是失败的,对以前的任务进行一次回退执行。也就是说,在后备处理器上再运行以前的任务,目的是获得正确的结果。尽管在所有版本都失效(所有结果都不正确)或者表决也不能获得正确结果的情况下,回退运行是不可避免的,但由于利用了现存的正确结果而不必从头重新开始,还是节省了回退时间。前向恢复技术的关键是要事先掌握可能出现的故障,并且为每一种故障定义了相应的恢复操作,于是才能在故障出现时把系统切换到一个新的状态。前向恢复技术的要求过于苛刻,我们无法预先估计到所有可能发生的故障。18向前式恢复方案的实例:其中Ii,Ii+1和Ii+2是检查点间隔。两个进程X和Y均运行一个进程的同一个版本。在每一个检查点之前,需要对它们的结果进行比较并确认是否正确。S是一个后备处理器,对两个间隔Ii和Ii+1进行验证。有以下四种可能的情况:(1)没有并发重试。如果X和Y都在间隔Ii正确运行,那么X和Y在间隔Ii所得的结果是相同的,S不进行并发重试。Pradhan、Vaidya提出19(2)有非回退的并发重试。在Ii中出现了错误,但在两个合法的检查点间隔Ii+1和Ii+2中间没有错误。如果我们用(Xi,Yi,Si)代表在间隔Ii之中X、Y和S的状态,并且用0代表错误,1代表正确,d代表没有关系(或者错误或者正常)。(Xi,Yi,Si)就有两种情况:(1,0,1)和(0,1,1),无论哪种情况,系统都可以判断哪个进程是正确的,所以不用回退。(3)在一次并发重试的间隔后进行回退。对应于在Ii中有两个进程(X、Y和S中的两个)有错误的情况。若用(Xi,Yi,Si)代表在间隔Ii之中X、Y和S的状态,可得到三种情况:(1,0,0),(0,1,0),(0,0,d)。这三种情况是在一次并发重试的间隔后进行回退。系统回退到Ii的开始处。20(4)在并发重试的两次间隔之后回退。该情况下在检查点间隔Ii+1处出现了一个额外的错误,如果我们用(Xi,Yi,Si,Xi+1,Yi+1,Si+1)代表在间隔Ii和Ii+1中X、Y和S的状态,这种情况对应于以下描述的四种情形:(1,0,1,d,d,0),(1,0,1,0,d,d),(0,1,1,d,d,0),(0,1,1,d,0,d)。可以确定间隔Ii中哪个进程是正确的,但是不能确定间隔Ii+1中哪个进程是正确的。系统回退到间隔Ii+1的起始处。217.3.2向后式恢复:检查点技术检查点:在向后式恢复中进程被恢复到一个先前的正确的状态。进程执行中的一些点被称为“检查点”(checkpoint),在以后发生错误的情况下,进程可以被恢复到这些点。在检查点的实现过程中,需要考虑两个主要问题:检查点的存储和检查点的更新。局部快照合法恢复线非法恢复线22有两种方法来保存检查点:(1)每个检查点被组播到每一个备份模块;(2)每个检查点被存储在其本地坚固存储器中。当进程正确地从一个旧的检查点运行到一个新的检查点时,旧的检查点就要被新的检查点替换。当进程执行到两个检查点之间时发生错误,那么进程应该卷回到旧的检查点处重新执行。检查点的原子更新:当使用新的检查点替换旧的检查点的过程中,系统也会发生失效。这可以通过检查点的原子更新过程来解决,也就是说,在检查点的更新中,要么旧的检查点被新的检查点替换,要么旧的检查点被完整地保留。检查点原子更新的实现:假设库A和库B现在保存的检查点是C1,现在要用检查点C2取代库A和库B的内容。在取代前,假设Ta1=Ta2=Tb1=Tb2=1,检查点的更新过程如下:(1)为了更新库A,先置Ta1=2;(2)将库A的内容用检查点C2取代;(3)库A更新完毕,置Ta2=2;(4)为了更新库B,先置Tb1=2;(5)将库B的内容用检查点C2取代;(6)库B更新完毕,置Tb2=2;23识别在检查点更新过程中发生的失效:基于影像页面技术的恢复方案:在基于影像页面技术的方案中,当进程需要修改一个页面时,系统复制该页并保留在坚固存储器中。系统中每个页面都有两个拷贝,当进程在执行的过程中,只有其中的一个拷贝被进程修改,另一个拷贝就作为影像页面。如果进程失效,则丢弃被修改的拷贝,系统根据影像页面进行恢复。如果进程成功运行,则每一份影像页面被相应的修改后的页面替换。247.4分布式检查点算法7.4.1一致性检查点全局状态:一种全局状态的定义是一系列局部状态的集合,代表系统曾经历过的某个状态。这里的局部状态就是一个进程的检查点,每个局部进程有一个局部状态。可利用分布式快照算法保证系统的全局一致性。即系统中每一个进程周期地“快照”自身的状态,并把状态数据存放在局部坚固存储器中。当某个进程或系统发生故障需要恢复以前的状态时,就利用这些局部快照构造出一个全局一致的状态,令整个系统根据这个全局状态恢复运行。25恢复线和切割线:一个分布式快照对应一个全局一致的状态,该全局状态是离故障点最近的系统快照。这个分布式快照可以作为一个恢复线(recoveryline)用于恢复。恢复线在每一进程的快照上必须选择一致的切入点。即,一个恢复线对应于最近的一个一致性切割线262)局部检查点可能组成如下两种不一致的全局状态:丢失报文。进程Pi的检查点状态显示它给进程Pj发送了报文m,但是进程Pj并没有关于该报文的纪录。孤儿报文。进程Pj的检查点状态显示它收到了一个来自进程Pi的报文m,但是进程Pi的状态显示它没有向进程Pj发送过报文m。不一致全局状态实例:27一个强一致(stronglyconsistent)的检查点集合是由一系列的没有孤儿报文和没有丢失报文局部检查点组成。一个一致的检查点集合是由一系列没有孤儿报文的局部检查点组成。显然一个强一致的检查点集合包括一系列局部检查点,在这些检查点之间,进程之间没有报文传送。如果每个进程都在发送一个报文之后生成一个检查点,那么最近的检查点集合将永远是一致的。3)检查点的设置可以是同步的,或异步的,也可以是两者的混合。287.4.2异步检查点异步检查点算法中,程序中各进程周期性地相互独立地保存自己的运行状态,程序各进程之间不需要相互协商。在恢复过程中,各进程之间则需要相互协商通过复杂的回退算法各自回退到合适的检查点时刻以使整个程序的各个进程恢复到最近的一个一致的全局状态。一致检查点的检测方法:比较发送的和接收的报文数量来检测孤儿报文的存在。如果接收到的报文数目和任何发送报文的进程发送的报文的数目是一致的,那么就可以认为找到了一个局部检查点的一致集合。使用间隔依赖图来进行检测。如果每个进程i的向量时钟是LCi,一个检查点集合是一致的,当且仅当不存在i和j满足LCi<LCj,即不存在孤儿报文。
4)算法的优缺点:允许分布式程序的各个进程拥有最大程度的自治性,算法的延迟较小。但由于每个进程需要保存若干时刻的检查点信息,空间开销较大;其次,在恢复过程中可能会重复回退,甚至出现多米诺效应,使程序一直回退到初始状态。29多米诺效应(dominoeffect)由于进程的分布式特性,要找到一个恢复线较困难。需要每个进程都回退到它最近保存的状态。每个进程都定期地对状态设置检查点,各进程之间设置检查点的过程是独立的,与系统中其他进程毫无协调。一旦需要形成一条恢复线,每个进程只能回溯到它最近保存的那个局部快照,然后通过一个检验算法来核对一致性。如果检验成功,则皆大欢喜;反之,就必须令所有进程进一步回退,一直到形成一条合法恢复线为止。这种折叠回退的过程可能会导致多米诺效应。例如,为解决孤儿报文的问题,由于一个进程的回退导致另外一个或多个进程的回退的效应,即多米诺效应。
Thedominoeffect307.4.3同步检查点(协调检查点)在同步检查点算法中,各相关进程协调它们的局部检查点的建立行为,以保证所有的最近的检查点都是一致的。在同步检查点中,只有最近的一致的检查点集合才需要被维护和保存。即所有进程都同步地把它们的状态写到本地稳定存储器中。算法的优缺点:由于使用同步检查点算法,各进程的局部检查点组成的集合是一个全局一致的状态,所以在恢复时各个进程只需要简单地从检查点处重新开始执行。优点是每个进程只需保存最近时刻的检查点信息,空间开销较小,且在恢复的时候没有多米诺效应。其缺点是,在建立检查点时,各进程间的同步使程序运行中止时间较长,且中央协调者是系统瓶颈。Sync-and-Stop(SNS)算法中有一个进程pc负责管理全局检查点建立过程。各进程的检查点建立过程如下:pc向所有进程广播检查点开始报文Mb(第一次同步开始);任一个进程接收到报文Mb后停止运行,并在自己所发送的报文全部到达接收者后向pc进程发送报文Ms1;31pc接收到所有进程发送的报文Ms2后,意味着第二次同步结束。pc向所有进程广播报文Me;各进程接收到报文Me后,删除旧的检查点,仅保留新的检查点,然后继续执行。SNS算法的恢复过程十分简单,只需回退到检查点处继续执行。
经过第一次同步之后,任何进程所发送的报文都已经被对应的接收进程接收到,任何进程之间不会存在孤儿报文,满足一致性的要求。pc接收到所有进程发送的报文Ms1后,即意味着第一次同步结束。pc向各进程广播报文Mchk,第二次同步开始;任一个进程接收到报文Mchk后,立即作局部检查点,检查点建立完成之后向pc发送报文Ms2;32Chandy-Lamport(CL)算法:机器mc与m1之间有通道直接相连,可直接相互发送报文,机器mc与m1称为直接相连;机器mc与m2之间没有直接通道相连,它们间相互发送的报文要通过m1转发,机器mc与m2称为间接相连。建立检查点的过程可由任一个进程pc发起,pc进程停止运行,并向与其所在机器直接相连的机器上的进程广播报文Mb,然后进程pc建立局部检查点;进程p接收到报文Mb后,若进程p还未开始建立检查点,则进程p停止运行并立即向与其所在机器直接相连的机器上的进程广播报文Mb,然后进程p建立局部检查点;进程p开始建立检查点后,若接收到其他进程发送的非检查点控制报文m,则保存报文m;33当进程p完成局部检查点的建立,并且接收到与其所在机器直接相连的机器上的所有进程发送的报文Mb后,进程p向pc进程发送报文Ms;当进程pc接收到所有进程发送的报文Ms后,pc进程向所有进程发送报文Me,并删除本进程旧的检查点,进程pc继续执行;其他进程p接收到报文Me后,删除本进程旧的检查点,继续执行。在恢复过程中,CL算法在回退到当前检查点重新执行的同时还必须重发过程(c)中保存的报文m。与SNS算法相比,CL算法减少了两次全局同步的开销。CL算法的缺点是其控制报文的数目与机器间的拓扑结构有关。347.4.4混合检查点其基本思想是在一个较长的时间段中使用同步检查点,而在较短的时间段内使用异步检查点。也就是说,在一个同步时间段里,会有若干个异步时间段。因此,我们可以有一个可以控制的回退,从而保证不会在建立检查点的过程中引入过多的开销。
例如:准同步检查点。这个方法允许每个进程异步地设置检查点,从而保证了进程的独立性。同时,对恢复线的扩展采用发起通信的检查点协调方法,从而可以限制恢复过程中回退的传播。7.4.5报文日志:日志技术日志技术不仅用于故障恢复,也常常用于故障收集、故障报告、以及故障诊断等方面。与保存系统状态相比,记录日志不但节省时间,也节省存储空间,因为保存系统快照要求面面俱到,而保存日志只需要少许的关键信息。不同层次、不同应用领域中的故障恢复系统对日志的观点亦不相同。例如,在分布式数据库系统中,日志记录以事务为单位,记载各事务对数据的更新操作和状态。其典型格式为〈事务标识,数据项,老值,新值〉,以及执行2PC的有关信息。35报文日志:为了减少回退时撤销的计算工作量,所有接收的和发送的报文都可以记录下来。前者叫做接收者日志,后者叫做发送者日志。它使用一个检查点状态作为开始点,然后简单地把从该点以后发送的所有消息都重发并进行处理。当Pj的检查点被恢复到一个没有孤儿报文,而且所有要发送的报文都已经发送的一致状态的时候,可以用Pj的接收者日志减少回退工作量,即只需要将Pj所收到的报文重新向Pj发送一遍即可。
如果进程Pj记录了报文m的接收者日志,那么Pi和Pj的当前检查点集合就可以看作是一致的。一旦Pj由于失效回退到当前检查点重新执行的时候,报文m就可以通过Pj的接收者日志重新发送给进程Pj,不会引起进程Pi的任何回退。36如果Pi在发送完报文m后失效,那么当进程Pi恢复到当前检查点后,它会根据发送者日志的纪录知道曾经发送过报文m,这样就没有必要再发送一次了。如果接收者Pj失效,而且没有接收者日志,它仍然可以根据从发送者日志中得到的报文正确恢复。37Alvisi和Marzullo的报文日志方案报文格式:每个报文m包含有一个报文头用于存放重发这个报文和正确处理这个报文所必需的一些信息,例如,该报文的发送者和接收者,用于识别报文重复的序列号,另外还有一个传输号用于决定何时该报文需要传递给接收进程。
坚固的报文:如果一个报文不再会丢失,则称这个报文是坚固的,例如当一个报文已经被写入到坚固存储器中,就可以说这个报文是坚固的。坚固的报文可以重新发送给失效后重新恢复的进程。进程集合DEP(m)的组成:一个报文m对应于一个进程集合DEP(m),该集合包含了与报文m传输有关的所有进程。DEP(m)包含了所有接收该报文m的进程;
如果另外一个报文m’和报文m有因果依赖性关系,并且m’是传递给进程Q的,那么DEP(m)集合中应该包含进程Q。因果依赖性关系:如果m’和m是由同一个进程发送的,并且m的发送先于m’的发送,则说m’和报文m的传输有因果依赖性关系。同样地,如果m”和m’有因果依赖性关系,m’和m有因果依赖性关系,则说m”和m有因果依赖性关系。38进程集合COPY(m)的组成:如果一个进程有报文m的一个拷贝,但是这个拷贝还没有写入到它的局部坚固存储器中的话,该进程就属于集合COPY(m)。当一个进程发送了报文m,它也属于集合COPY(m)。值得注意的是COPY(m)集合中所包含的进程是那些拥有报文m的拷贝,并且在出现失效的时候,能够重新传输报文m的进程。当COPY(m)中的所有进程都失效时,显然报文m就不能被重新传输。
孤儿进程:假设在一个分布式系统中,某个或某些进程失效了,Q是一个存活下来的进程。有一个报文m,如果进程Q是集合DEP(m)中的一个元素,而集合COPY(m)中的所有进程都失效了,那么Q就是一个孤儿进程。也就是说,当一个进程依赖于报文m,但是无法向该进程重发报文m,该进程就是一个孤儿进程。
避免孤儿进程的出现:需要确保当集合COPY(m)中的进程都失效的时候,DEP(m)中没有存活的进程。也就是说,DEP(m)中的进程也必须全部失效。这可以通过如下的强制方式得以实现,当一个进程成为DEP(m)中的一个成员的时候,我们强制它也成为COPY(m)的一个成员。也就是说,当一个进程依赖于报文m的传输的时候,它将保持报文m的一个副本。39悲观的日志协议:每一个非坚固的报文m,确保最多只有一个进程依赖于报文m。也就是说,对于每一个非坚定的报文m,悲观的日志协议确保该报文最多只传给了一个进程。值得注意的是,一旦一个非坚定的报文m传递给了进程P,P就成为集合COPY(m)的一个成员。最坏的情况是在报文m写入到坚固存储器之前,进程P失效了。因为在悲观的日志协议下,在报文m写入到坚固存储器之前,不允许P发送任何报文,所以不会有其他进程依赖于报文m,也就不会有重发报文m的可能性。所以,使用悲观的日志协议避免了孤儿进程的问题。乐观的日志协议:在乐观的日志协议下,实际的工作是在失效发生之后进行的。假定对某个报文m来说,如果集合COPY(m)中的每个进程都失效了,DEP(m)中的每个孤儿进程一直要回退到以前的某个状态,在这个状态下,该进程不再是集合DEP(m)中的一个成员。很明显,乐观的日志协议需要保持追踪依赖性关系,从而使得它的实现变得复杂。407.5拜占庭故障的恢复故障-停止型故障与拜占庭式故障:在故障-停止模型中,我们假定一个处理器将停止工作并且不再恢复运转。在其他情况下,一个故障可能做出破坏性的行为。例如,一个有故障的处理器可能会向不同的处理器发送不同的令它们费解的报文,这种故障叫做随意性故障(arbitraryfault),或拜占庭式故障(Byzantinefault)。由Pease(1980)和Lamport(1982)进行了分析。
处理这类故障的一个主要方案是将多个完全相同的进程设置成为一个进程组,当消息发送到组本身时,组中所有成员都接收它,从而达到容错的目的。7.1.3进程容错机制-主动复制(层次故障屏蔽)、被动复制(编组故障屏蔽)417.5.1恢复中的设计问题进程组的内部结构:编组目的是把若干等同的进程抽象成一个具备容错能力的虚进程。组内成员具备彼此通信的能力平面结构(Flatgroup)
:在这种结构中,所有的进程都是等价的,要通过彼此协商才能做出决定。层次结构(Hierarchicalgroup)
:在最简单的层次结构的进程组中,一个进程是协调者,其他所有的进程为工作者。无论是进程组外的一个顾客,还是进程组中的一个工作者向进程组发出一个工作请求,由协调者决定哪一个工作者最适合这项工作,并且将此工作请求转交给它42进程组管理:对于进程组通信来说,需要一定的办法进行进程组的管理,如组播通信、组创建及删除,同时还要允许进程能加入到一个进程组中去以及允许一个进程离开一个进程组。实现方式:
集中式管理:设置一个进程组服务员(GroupServer)
,所有的服务请求都发送给进程组服务员。进程组服务员使用一个数据库来保存所有进程组的信息和一个进程组中所有成员的有关信息
分布式管理:另一种办法是采用分布方式管理进程组。借助于一种可靠的组播通信协议,各编组自行管理,同时成员的进入与退出也通过组播通信进行。例如当一个组外的进程要加入到这个进程组时,它向这个进程组中的所有成员发送一个报文,申明自己要加入到这个进程组。存在的问题…437.5.2故障屏蔽和进程复制
利用进程组屏蔽故障:进程组是构造容错系统问题的一部分。特别是,如果用相同的进程来构成一个进程组,那么就能够屏蔽进程组中一个或多个出错的进程。或者说,我们可以用多个相同的进程构造一个进程组,用这个容错的进程组取代相对脆弱的单个进程。利用进程组进行容错需要多少个进程副本:
令G为一个进程编组,如果在G的成员中,只要不多于K个成员同时发生故障,G可以一直正常运行,则G被称为K容错故障—停止型故障:如果进程组中有k+1个进程,那么就足以提供k故障容错。拜占庭式故障:此时,每个编组至少需要2k+1个进程,才能屏蔽K个成员同时发生的故障,即达到K容错能力。447.5.3容错系统中的一致性算法(分布式协定算法)分布式协定算法的目标:使得所有无故障进程在有限步骤里对某个问题达成一致性结论。如下:进程组中的每个参加者都将自己的局部决策(布尔值)发给进程组中所有的其他参加者每个参加者根据自己的局部决策值和收到的其他参加者的局部决策值做出决策(如少数服从多数)故障—停止型故障拜占庭式故障45分布式一致算法的正确性条件:(1)一致性。所有正确的进程取得一致的结果,而且是最后的结果;(2)合法性。所有进程同意的结果必须来自某个正确的进程的输入;(3)有限性。每个进程在有限的步骤内取得一致的结果。交互一致性算法交互一致性:系统中的每个非出错进程都使用来自进程Pi的同样的值来进行决策。这样,一般的一致性问题就变为系统中的进程都同意一个特殊的进程(比如P0)的值。确切地说:所有非出错进程都使用进程P0的同样的值v0若发送进程P0是非出错的,那么所有非出错进程都使用P0发送的值。结论:在有k个出错节点的情况下,只有进程的总数至少为3k+1时才能获得一致。因为只有存在2k+1个正确工作的进程才能达成协议,即只有当三分之二以上的进程正常工作时才能达成一致,所以总共有3k+1个进程46拜占庭将军问题
假设有N支拜占庭部队包围了敌军,每支部队都由一位将军统领,将军与将军之间由信使传递信息。将军之中可能有通敌者,这个(些)通敌者试图用矛盾的信件来混淆视线,破坏将军们之间可能达成的协定。
假定发布命令(广播通信)的将军是司令,而其他将军都是军长,要想达成一致协定,所有的军长都必须“同意”司令发出的命令。
当然,要解决拜占庭将军问题,每一位将军都要扮演一次司令的角色,向其他将军广播消息。更确切地说,每一位将军pi都必须把自己的初始值Vi发送给其他将军,并满足下述两个条件(称为相互一致性):
(1)如果发送者ps是忠诚的,则所有忠诚的将军都要同意Vs; (2)如果发送者ps是通敌的,则所有忠诚的将军都对Vs有一致的看法。
47三位拜占庭将军问题
(1)首先,我们假定司令通敌。于是他向军长A发出“进攻”而向军长B发出“撤退”的相互矛盾的命令。当两位军长互相验证所得到的命令时,发现无法得到一致的结论。看上去是司令出了问题,但问题并非如此简单。在(2)中,假定司令发出正确的命令,而军长B通敌。当两位军长验证来自司令的命令时,军长B把“进攻”篡改为“撤退”。对军长A来说,(1)和(2)并无区别,他在这两种情况下都收到相互矛盾的消息(一封“进攻”,一封“撤退”)。显然,军长A不能服从来自司令的命令,因为如果司令通敌的话,两位忠诚的将军就不可能一致行动,而是背道而驰;可是,如果司令是忠诚的,军长A又不能违抗来自司令的命令,如果违抗,将受到军法从事。于是,军长A陷入两难境地,无法做出决定。撤退进攻司令进攻(1)司令通敌(2)军长B通敌军长A军长B撤退司令进攻军长A军长B进攻撤退进攻48(1)我们仍然假设司令通敌,也就是说,司令向军长们发出两种不同的命令。然而,三位忠诚的军长在随后的通信中,都得到一组相同的命令,即(进攻,进攻,撤退),根据多数原则,三位军长便采取一致的行动,同时发起进攻。而(2)中,军长C通敌,尽管他篡改了来自司令的命令,军长A和军长B还是能够通过多数原则做出决定,即执行来自司令的正确命令。Lamport等人文章把这个原则推广到一般情况:在一可能具有拜占庭故障的系统中,我们需要至少3K+1个服务器才能具备K-容错的能力
四位拜占庭将军问题
司令进攻军长C军长A进攻撤退进攻进攻进攻撤退进攻军长B司令军长A军长B军长C进攻进攻撤退进攻进攻进攻进攻1)司令通敌(2)军长C通敌撤退撤退进攻49TheByzantinegeneralsproblemfor3loyalgeneralsand1traitor.Thegeneralsannouncetheirtroopstrengths(inunitsof1kilosoldiers).Thevectorsthateachgeneralassemblesbasedon(a)Thevectorsthateachgeneralreceivesinstep3.AgreementinFaultySystems50AgreementinFaultySystemsThesameasinpreviousslide,exceptnowwith2loyalgeneralsandonetraitor.51
LAMPORT交互一致性算法IC:IC(m),m<k,开始时m=0,S={}。发送者将其值和发送者列表S发送给其他进程,共(n-1-m)个;设vi是进程Pi从发送者接收到的值或者是如果没有收到值时使用的缺省值。在IC(m+1≠k)时进程Pi作为发送者,将结果vi和发送者列表S∪{Pi}发送给其他不在发送者列表中的n-2-m个进程。如果m+1=k,则调用IC(k);对每个进程Pi,设vj是进程Pj接收到的值(但是由Pj转发给Pi)。节点使用值majority(vj),jS;其中,IC(k):a.发送者将它的值发送给其他n-k-1个进程;b.每个进程使用从接收者收到的值,或者,如果它没有收到任何值,就使用缺省值。结论:上述算法中,被交换的报文总数为(n-1)(n-2)…(n-k-1),其复杂度为O(nk),k可以是(n-1)/3。52实例:具有7个进程的例子,Pi,0≤i≤6。假定k=2,即最多有2个故障,n=7。设P0是初始发送者,发送值为1。不妨设P5和P6是出错进程,它向其他进程发送不确定的值。在这个例子中共需要k+1=3轮信息交换:P0将{V0,S}={1,{P0}}发送给进程P1,P2,…,P6。P1至P6中每个进程都接收到报文{1,{P0}},它们将所收到的报文转发给除了开始的发送者和它本身之外的所有其他的进程。例如P1向P2至P6发送报文{1,{P0,P1}}。它分别从P2至P6处接收到报文{1,{P0,P2}}、{1,{P0,P3}}、{1,{P0,P4}}、{d,{P0,P5}}、{d,{P0,P6}}。53在第三轮中,P1将报文{1,{P0,P2}}以{1,{P0,P2,P1}}的形式分别发送给进程P3、P4、P5、P6,将报文{1,{P0,P3}}以{1,{P0,P3,P1}}的形式分别发送给进程P2、P4、P5、P6,将报文{1,{P0,P4}}以{1,{P0,P4,P1}}的形式分别发送给进程P2、P3、P5、P6,将报文{d,{P0,P5}}以{d,{P0,P5,P1}}的形式分别发送给进程P2、P3、P4、P6,将报文{d,{P0,P6}}以{d,{P0,P6,P1}}的形式分别发送给进程P2、P3、P4、P5。第三轮递归结束,返回第二轮。进程P1收到报文{1,{P0,P2,P3}}、{1,{P0,P2,P4}}、{d,{P0,P2,P5}}、{d,{P0,P2,P6}},连同在第二轮中收到的报文{1,{P0,P2}},将这5个报文中的值执行majority(1,1,d,d,1)=1,得到的这个新值1作为报文{1,{P0,P2}}的新值,记为新报文{1,{P0,P2}}’。同样的道理,得到新报文{1,{P0,P3}}’、{1,{P0,P4}}’、{1,{P0,P5}}’、{1,{P0,P6}}’。第二轮递归结束,返回第1轮。P1对6个报文{1,{P0}}、{1,{P0,P2}}’、{1,{P0,P3}}’、{1,{P0,P4}}’、{1,{P0,P5}}’、{1,{P0,P6}}’中的值执行majority(1,1,1,1,1,1)=1,这个新值是P1所确信的最终值。54交互一致性算法的扩展
:可以通过对每个发送者都重复同样的协议将交互一致性扩展到多个发送者的情况。扩展的方法:在第k轮收到的值将被发送到所有的其他节点,而不仅仅是那些没有被发送过的节点。一致性协议对系统的要求:同步系统与异步系统:如果所有的处理器都是在可以预料的速度下运行,那么这个系统就是同步的。确切地说,处理器是同步的当且仅当存在一个常量s≥1,每当任何一个处理器运行了s+1步,其他的所有处理器都至少运行了1步;否则这个系统就是异步的。
55可以得到一致性对系统的要求为:AB+AC+CD=True即在下面三种情况下,系统满足一致性协议的要求:(1)(AB=1),处理器是同步的,通信延迟是有限的;(2)(AC=1),处理器是同步的,报文是有序的;(3)(CD=1),报文是有序的,传输机制是广播。用卡诺图描述一致性对系统的要求:定义布尔变量(1)系统是同步的(A=1)还是异步的(A=0)。(2)通信延迟是有限的(B=1)还是无限的(B=0)。(3)报文是有序的(C=1)还是无序的(C=0)。(4)传输机制是广播的(D=1)还是点到点的(D=0)。CD00011110AB000010010010111111100011一致性协议对系统的要求:567.6可靠的组通信
7.6.1基本的可靠组播方案
所谓可靠的组播通信,就是要求发送给某个进程组的报文必须确保传送到进程组中的每一个成员。577.6.2可靠组播通信中的可扩充性
简单方案:接收者收到组播报文后不向发送者发送应答报文,只有在接收者发现丢失一个报文后,才向发送者发送一个反馈报文,指出某个报文丢失了。问题1:多个接收者丢失报文时,仍然会出现反馈报文拥塞的情况;问题2:在理论上讲,发送者必须在其历史缓冲区中长时间保存它发送的每一个广播报文。无等级的反馈控制,Floyd1997成功接收到组播报文的接收者不向发送者发送反馈报文,只有在接收者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 喉部阻塞感的健康宣教
- JJF(陕) 080-2021 连续式路面平整度测定仪(非激光型)校准规范
- JJF(陕) 032-2020 混凝土坍落度仪校准规范
- 《收集需求》课件
- 年度班级活动安排与总结计划
- 【小学课件】学生安全教育主题班会
- 2024-2025学年年九年级数学人教版下册专题整合复习卷第28章 锐角三角函数 解答题练习及答案
- 秋季学期家校合作计划
- 双酚A相关项目投资计划书范本
- 中心静脉导管相关项目投资计划书范本
- 《管理学原理》课程期末考试复习题库(含答案)
- 学历史的论文开题报告
- 高铁桥墩吊围栏施工合同
- 告诉我地址 -从IPv4到IPv6的传奇 课件 2024-2025学年清华大学版(2024)B版初中信息技术七年级上册
- 2024年全新初二化学上册期末试卷及答案(人教版)
- AI赋能企业新未来-探索智能化技术在企业中的应用
- 2023-2024学年湖北省武汉市洪山区九年级(上)期末物理试卷(含答案)
- 四年级英语上册 【期末词汇】 期末词汇专项检测卷(一)(含答案)(人教PEP)
- 创业人生学习通超星期末考试答案章节答案2024年
- 义务教育法主题班会课件
- 2024化学镀镍规程
评论
0/150
提交评论