2023数据中心基础设施故障处理方案_第1页
2023数据中心基础设施故障处理方案_第2页
2023数据中心基础设施故障处理方案_第3页
2023数据中心基础设施故障处理方案_第4页
2023数据中心基础设施故障处理方案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中心基础设施故障处理方案PAGEPAGE10目录总览 3故障分级 4故障通报 6故障处理 9故障记录与分析 11一、总览数据中心基础设施运维的一个重要目标就是减少故障的发生,从而保障数据中心的可用性。但故障总是无法完全避免的,尤其是在数据中心刚投入运行以及生命周期的后期,设备故障率往往会比较高。故障处理是否得当,是否及时,直接关系到数据中心高可用性的实现。故障的来源通常有如下四种:监控系统发现的、巡检(停电等)。但不管故障的来源是哪一个方面,对故障的处理都必须做好故障的风险分级、故障通报、故障处理以及最后的故障分析与统计工作。二、故障分级描述者迁移流量。运维难点依据什么原则对数据中心的故障进行分级?厂家提供的动环系统、电力监控、冷水自控系统等往往只是根据设备的重要性对告警进行分级,而数据中心故障的分级必须考虑到整个数据中心设备配置的冗余情况、特别是特定故障对业务的影响情况,然后通过恰当的故障分级来指导整个故障的处理,所以故障分级可以说是故障处理的第一道关口。最佳实践故障的分级可以根据故障对数据中心的影响范围和影响程度来进行判断。通常分为三级即可,太多的故障等级并不能对运维工作带来收益,反而会带来故障处理方面的困惑。园区,所以属于一级故障;但需要注意的是二级故障有升级一级故障的可能;如某台空调的风机告警;为了让运维同学能够快速识别重要故障,对常见的一级、二级故障,机房需要根据自己的实际情况建立常见故障分级表,并定期更新和培训。案例赏析为了规范机房的故障处理流程,某互联网公司制订了《XX规定、并对常见故障的等级划分进行了总结。文稿样例以下是一个故障分级表的样例,内容并不完全,用户需要根据自己的实际情况进行补充:机房名称故障等级故障名称XX数据中心一级故障高压双路市电断电XX数据中心一级故障列头柜双路断电XX数据中心二级故障高压单路市电断电XX数据中心二级故障列头柜单路断电XX数据中心二级故障同一UPS组内1台主机故障三、故障通报描述不同的故障对数据中心和业务的正常运营,所造成的制定故障应对策略,以及争取故障处理所需资源,运营人员在故障发生后需要第一时间将故障信息和情况进行通告,同时在故障有更新或者关闭时也需要及时将信息同步到相关人员。运维难点的频率?能及时通知到相关人员?如何定义故障通知的内容?速进行信息同步?最佳实践每半小时更新一次。选取响应的组别进行通知。故障通知的内容需要至少覆盖如下的内容:故障名称故障等级故障发送时间故障描述故障预计维修时间影响范围不同的故障采用不同的通知方式已确保相关人员能够及时收到信息,主要包括邮件、短信、微信、4证故障通知到人。对于一级故障,建议通过电话的和同步。案例赏析为了规范机房的故障通报的内容,通知时间等,某互XX里定义了详细的故障通报模板,对不同等级的故障通报范围邮件组,通报时间要求等都做出了详细规定。文稿样例以下是一个故障通报模板的样例。事件类型故障等级故障/告警发生时间故障描述故障影响范围故障设备维修时间故障处理时间操作内容描述四、故障处理描述故障发生后,在对故障进行通报的同时,还需要及时对故障进行处理,对相关的设备进行维修,避免故障影响范围扩大。在设备进行维修前还需要对维修方案进行评估,确认方案的可行性,避免维修时对其他设备造成影响。同时在故障设备维修过程中,需要记录维修的各项信息,作为后续故障回顾资料。运维难点如何快速处理故障,避免故障影响范围扩大?不被遗漏。最佳实践快速处理故障为了快速的处理故障,首先需要定义好故障的处理流程,定义常见故障的应急预案EOP,并按年度制定好应急演练计划并按计划进行演练,使得运维人员能够熟悉常见故障的处理方式。需要特别关注关键设备的备件准备情况,有条件的需要备份到数据中心本地,对于不方便存储到本地的备件,需要厂家保证备件送达时间,并确保备件储存在就近仓库。控制故障影响范围。针对故障的实际情况,需要制定详细的应急预案。明确操作步骤、配合方式、风险评估等,避免误操作造成二次故障。及时通报到业务部门,技术允许的情况下,将业务进行迁移和切走流量。故障的记录。故障的处理过程,用电子化的平台来进行跟踪,故障的总结和记录作为故障处理流程的一个部分,必须提交后才能进行事件的闭环。这样可以保证对故障的记录成为故障处理的一个必要环节。案例赏析为了规范机房的故障处理流程,某互联网公司制订了《XX自建机房故障处理流程》对不同级别的故障,利用流程框图的方式进行规定,并指明了各级节点的主要负责人。文稿样例以下是一个重要故障的典型处理流程。图1重要故障处理流程图示例备品备件的管理、应急预案EOP电子化平台等,请见项目组后续发布的相关专题,这里不做详述。五、故障记录与分析描述数据中心日常的故障多种多样,引发的原因也五花八门,为避免同样的故障再次发生,或者同样的故障发生时能够快速的处理,运营人员需要对每次的故障进行分析、统计、汇总,从中找出常见的故障类型、故障原因、故障处理方法,并在日常运营工作中加以关注。每一次故障的处理都是一次总结学习和提升的机会,通过对历史的故障的学习和积累,可以帮助我们积累知识库,做好数据中心的故障处理工作。运维难点如何做好故障记录良好的故障记录会使数据中心运营工作获益匪浅,比如:在下次故障时,可以快速的查看以往的经验。选型依据。了解设备的故障历史,针对性的安排维保计划。但是如何做好故障记录,利用什么工具来记录是运维人员面临的一个难点。复发生其他公司已经发生的故障和问题。最佳实践现在大部分数据中心的故障统计,往往还是采用EXCELIT运维团队安排专人定期收集业内发生的重大故障析学习。案例赏析目前国内做到故障从前期录入、派单处理一直到最后的故障记录和分析,完全在一体化平台上形成闭环管理的企业还比较少。通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论