版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章分布容错技术分布容错技术概述系统级故障诊断技术基于检查点的卷回恢复和进程迁移技术分布容错调度技术分布系统的容错设计概述分布式系统是互相通信的自治计算机结点的集合模块性、并行性和自治性适合于容错技术:所有资源都可以冗余,包括CPU、存储器、I/O接口以及数据和控制良好的可扩展性,系统的冗余程度可以随应用要求和环境变化进行动态调整系统资源在物理上分开,从根本上避免了由于局部故障引起系统的全面崩溃高速可靠的通信子网、资源的分散控制,消除了在单处理机或多处理机中存在的竞争、数据流的瓶颈和控制的关键点分布式系统的系统级故障诊断技术基本思想首先让系统中的处理机相互测试,然后对测试结果进行分析,进而找出处理机和链路的故障对系统进行诊断,如果没有正常节点机被错诊为故障结点机,则认为该诊断是正确的。如果诊断中能把所有故障结点机都诊断出来,则认为该诊断是完全的。一个诊断方法的分辨率是指它所执行的诊断中完全正确诊断所占的百分比测试诊断模式二值模型结点机的状态和测试结果都只有两种取值概率模型用概率参数来描述故障结点机和无故障结点机的特性多值模型结点机的状态多于两种取值测试策略系统及故障诊断的测试策略非自适应测试策略一次性选取并执行全部测试自适应测试策略每次只选择并执行一部分测试,根据前面的结果合理地选择后面的测试概率诊断概率诊断不要求正确完成诊断任务,只要求高概率地识别出系统中的故障结点机优点:诊断开销低,分辨率随系统中处理机数目的增多而提高,更适用于大规模系统测试信息的分类利用整个系统的测试信息利用本地测试信息和前面步骤已诊断出的故障结点机来诊断结点的状态只利用本地信息来确定每一个节点机的状态集中式诊断诊断任务由系统中的一台中心结点机完成,由它负责对处理机间相互测试的结果进行收集并进一步作出诊断,以识别各结点机的状态t个故障一步诊断算法前提:无故障机所作的测试结果是可靠的,故障机测试结果不可靠t个故障一步诊断的充分必要条件:在n个处理机结点中,每个处理机至少要被t个其他处理机测试,并且任意两处理机之间不能相互测试测试数大于等于nt分布式诊断将诊断任务分散给各结点机来独立完成,使得诊断完成后,系统中的每台无故障结点机都能正确地识别出其它所有结点机的状态,从而无故障结点机可通过忽略来自故障结点机的信息,并且不向故障结点机发送信息来实现功能上的“故障隔离”分布式诊断故障检测发现结点机故障,通常利用结点机内部的自测试机制和结点机之间的互测试信息传播传播诊断信息,包含检测结果协同保证在系统的一次诊断过程中系统地所有无故障结点机所接受到的诊断信息都是相同的诊断利用诊断信息来判断系统各结点机的故障状态并定位故障结点机Byzantinegeneralsproblem1982年Lamport,Shostak,Pease提出
拜占庭帝国就是5~15世纪的东罗马帝国,拜占庭即现在土耳其的伊斯坦布尔。当时,拜占庭军队有许多分支,驻扎在敌人城外,每一分支由各自的将军指挥。将军们只能靠通讯员进行通讯。在观察了敌人以后,忠诚的将军们必须制订一个统一的行动计划。然而,这些将军中有叛徒,他们不希望忠诚的将军们能达成一致,因而影响统一行动计划的制订与传播。问题是:将军们必须有一个算法,使所有忠诚的将军们能够达成一致,而且少数几个叛徒不能使忠诚的将军们做出错误的计划。Byzantinegeneralsproblem解决拜占庭将军问题的算法必须保证所有忠诚的将军必须基于相同的行动计划做出决策忠诚的将军按算法的要求行动,而叛徒则按他们自己的意志行动。算法要保证不管叛徒怎么做,条件A都能得到保证。忠诚的将军们不但要能达成一致,而且要同意一个合理的计划。少数叛徒不能使忠诚的将军做出错误的计划这一条是很难做到的,因为“错误的计划”很难形式地加以定义Byzantinegeneralsproblem在进行混乱真实消息的传播中两个将军中一个判国,另一个肯定打败仗;三个将军中如果有一个判国,则判国的将军一定有办法让两个爱国的将军不能达成一致4个将军中如果只有一个判国,在不知道谁是判国者的情况下,存在一种算法使将军们达成一致,实际上就是三个爱国的将军能够达成一致,而不管判国的将军如何捣乱。即4个将军的团体能够容忍1个叛国将军。Byzantinegeneralsproblem当有t个判国者在捣乱而又无法找出他们的时候,存在一种算法或称做弹性协议,通过这种协议,能够保证爱国的将军达成一致。如果我们把能够容忍t个叛国者的协议叫t弹性协议,学者已证明:不存在3t个将军下的t弹性协议而一定存在3t+1或以上将军下的t弹性协议。就是说要有3t+1个或以上将军才能保证爱国的将军能够达成一致。既要想容忍t个判国者,必须保证总的将军的个数大于3t。现实意义对于系统坏掉的风险:操作员可能会误操作、可能会被贿赂或背叛,系统本身就有木马程序,系统可能会被黑客或病毒占领,开发的系统可能有漏洞,系统可能会有后门,这些都可以导致系统崩溃。在现实中,入侵容忍体系就是生存技术中的核心。入侵容忍的技术在这样的假设空间中实现它的价值:个人的公开行为在一定的概率下是可预知的,系统在一定的概率下能够正确完成基本的功能。一定的概率并不是指全部,所以,可以允许有错误,因此,入侵容忍还有对纠错理论的联想:即利用纠错码可以在一个错误百出、但有信道容量的信道中准确无误地传输数据,网络系统就这样在错误中“生存”下来的现实特意义这就决是我悦们说挎的入占侵容奶忍体台系,撑它的判生存请技术码有两刮种实莲现方染式一是躁攻击姓响应求的入无侵容择忍方疼法,研它不寇需要笋重新时设计锦系统朗,可皂通过稻高效圆的检哀测系绵统发泼现异猎常,瞎利用术资源尺配置牌系统验调整失系统董资源歼,并陈对对乓错误是进行剥修补梯(修日补系拢统)二是挂攻击向遮蔽脚的入悬侵容看忍方魄法,舟它需岭要重念新设袄计整缸个系勺统,吹并通场过冗骆余、品容错框技术顿,门狠槛密绩码学窜技术短及“抬拜占猜庭”亚技术衡来实待现。系统欣级诊机断方杆法的宝性能金评价故障窑种类腰和数纱目测试智数目测试倦图的众结构上要求诊断泡算法值的时书间复贵杂性诊断循信息蹦传输天量诊断惭算法郑的分肺辨率诊断眼延迟分布唉容错寨技术概述系统恩级故始障诊妖断技氏术基于老检查砖点的劫卷回锁恢复猾和进芝程迁菜移技烫术分布棋容错末调度买技术分布秧系统忽的容肌错设利计分布过式系愈统错爪误恢末复排除疮系统赞错误蜂的方舰法向前崭错误茧恢复麻:当还系统地出现抖故障驳的原尿因能守够精波确确言定,黄并能县找到偶方法劲从系若统中亚排除允错误首隐患设,使踏系统陵继续犯运行纱时不臂再出卖现同随样错穷误的孤错误遣恢复朴技术向后淘错误袜恢复搜:当射无法狼诊断沾出系犁统错嫂误的铃原因型和性扒质,巨或无块法从组系统唤中彻描底排宅除某耀种错贿误隐纵患,炒这是百根据秤检查灾点文险件将茧系统影恢复务到以吊前一慨个没丘有错借误的俱状态爽重新辆运行勤,以狭期望枪错误喇不再狼发生疼的错挽误恢疼复技垄术向后督错误耀恢复趟技术热与具朴体的肉错误辣类型威无关鬼,因倦此,重向后宾错误迎恢复扣技术惑是分桥布式须系统爸的通侄用错阳误恢守复技辛术检查馋点设掏置与夏卷回聚恢复瓶技术荡作为买一种独向后颤恢复抽技术慕,通长过在辆系统尸正常拥运行促过程亮中设高置检奖查点唱,保挥存系铜统运夸行时初的一春致性兼状态俭,并晓通过陵程序嗽卷回梅到最释近的轮检查壁点来街实现坐对错互误的国恢复对于筹不同壶类型释的错倍误,野可采笨用不庸同的歇后向妙恢复桂技术感:对于上瞬时皱错误烧和间商歇错饼误,碎可采冬用检钩查点画设置猫与卷汽回恢尤复对于亮永久蓬错误骡,则趁可通侦过在砌网络欠存储夸设备鼻保存铃检查删点文方件,甚从而雹将进缝程迁跪移到叼其他禁结点禽恢复粗运行基于怕检查猛点的虚卷回寒恢复响技术检查臂点容庙错的和原理凶是在撑程序片正常蛾运行独时,勾定期表或不须定期洋地保刮存程绸序的梯状态店和运慢行数石据。却当错恶误发蒸生时影,把勺程序爆恢复渡到所雹保存姜的某师个时士刻的汽状态进继续停运行片。单进违程程叨序检街查点繁算法分布胃式程绢序检沙查点楼算法单进贤程程撞序检珠查点肢算法用于敬保存效和恢划复单边进程击程序辨的运盖行状绸态内存匙中,纷一个衫进程充的运驱行状蹦态由间用户鞋区和滥核心这区两赌部分该组成抹:进沉程用潜户区脾是指倦进程什的代济码段症、数功据段飘和堆辞栈段宴内容蒙;进宾程核苏心区驶是指抬在进府程运厕行时谢由操或作系雹统所咏维护冤的在拘系统档内核菜中的国进程班状态唉。检样查点胶不是阶操作绳系统愁的一板部分侮,不树能保案存和郊恢复伯进程仰核心庄区的惧全部限信息谜。因拐此,瓶检查绳点通缘瑞常对臭用户叙程序精有一墨定的叮限制拼,例管如不尿允许追使用气某些轮系统产调用石等主要天解决骗进程深状态种的保猎存和求恢复鸟,通租常与扒机器喉的系浇统结乳构密污切相窗关。扇在不用同体雷系结筒构的搜机器丛上应擦进行宴不同猎的处扫理分布徒式程胸序检会查点燃算法分布熟式程类序包南括多矩个进虹程及阀进程霉间消感息。杯因此困,分乖布式陪程序痕检查闹点需织要保炸存进灰程运叛行状采态及许其进斑程间小消息雀记录异步稻检查番点算鞋法同步臭检查很点算爬法异步吨检查容点算歼法程序拆各进陆程周折期性购地互喘相独堤立保仆存自妇己的怀运行造状态粗和记脂录接棒收的童消息句,程单序各代进程姓间不尖需相杰互协捞商;膀在程赤序状改态恢赢复过袜程,沈各进凳程之杰间需野相互潜协调活,通妥过卷刊回算佛法,责将各眉自卷钞回到约合适字的检纪查点砌时刻聪,以刃使整抬个程决序恢多复到股一个枕一致洲的全并局状钉态同步蚕检查阅点算恶法全局呀一致艺性检律查点称算法御。在肆程序燥状态牛保存旦时,丹通过台同步嫩算法教将程闸序各壳进程令同步砍到一枕个全营局一扁致时屈刻,亚再对俱程序恨各进纱程进荐行局滩部检夺查点你记录臣。此下时,削程序仗个进盟程检垄查点驻文件僚组成暑的集甘合就仙是一换个一钻致的俊全局挎状态撕。同台步算吴法在傅恢复研程序饥状态克时,攻只需音执行趣各进凑程的扛检查浅点算法馋优点骑是,观每个齐程序逝进程砌只需员保存壁最近丙时刻惠的检良查点馒文件斯,空势间开工销较芬小,或且程遍序状止态恢血复时却没有馅多米喘诺效逐应算法铅缺点蜓是,父在程米序状累态保款存时盏,由酒于各控进程念间的么同步朋是程瓜序运科行中瞎止时显间较莲长,贯且牺宋牲了鸡分布购式程弯序的孙自治贞性典型慎算法挑有SN祖S算法执和CL算法基于极检查兄点的搏进程益迁移性技术进程摇迁移进程刻迁移欲状态咳信息检查四点文米件检查绵点镜摧像基于秒检查护点的未进程照迁移密技术进程卫迁移五:将银一个龙进程暮在两酬台机行器之劫间进捧行移誓动。负载叔平衡徒:通惹过将跌进程哪从负暴载较返重的葬系统吗移动吸到负凡载较栗轻的购系统京,从何而使士负载付得到变平衡见,改府善整略体性只能改善押通信妇性能坐:交店互密典集的虾多个背进程坝可以超移动屯到同剥一节大点上咽,以夹减少仓因为示他们遵之间避的交悔互而锣带来吹的通敌信开榜销分布晚式系忘统的档一种杨错误开处理炊机制进程致迁移伏未被瞒广泛册应用痒的原摩因原系哑统是狠单独区运行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《组件层压工艺说明》课件
- 吹气球治疗肺部疾病
- 《汇编程序设计》课件
- 《各种各样的绳子》课件
- 儿童常见病治疗
- 医院医疗设备外借流程
- 八省八校2022届高三化学下学期3月第二次联考试题
- 《安全事故案例汇编》课件
- 中国母婴营养品市场洞察报告
- 微课如何撰写岗位说明书之工作目的财经管理人力资源管理系
- 珍爱生命,拒绝“死亡游戏”主题班会教案(3篇)
- 国开(河北)2024年秋《现代产权法律制度专题》形考作业1-4答案
- 2024-2030年度假酒店项目融资商业计划书
- 2024年重庆新版劳动合同范本
- 2024年海南琼中黎族苗族自治县招聘事业单位人员17人历年高频难、易错点500题模拟试题附带答案详解
- 水利基建项目内部审计方法与技巧培训
- 2024秋期国家开放大学《可编程控制器应用实训》一平台在线形考(形成任务5)试题及答案
- 《人力资源管理》全套教学课件
- 3.14 丝绸之路的开通与经营西域 课件 2024-2025学年部编版
- 第三单元《分数除法》(单元测试)-2024-2025学年六年级上册数学人教版
- 进京接访劝返工作预案
评论
0/150
提交评论