数据中心应急保障_第1页
数据中心应急保障_第2页
数据中心应急保障_第3页
数据中心应急保障_第4页
数据中心应急保障_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中心应急保障I应急机制为保障云计算服务安全评估,提高我公司突发事件综合应对能力,切实做好在重大突发安全事件发生时,能有序、有效地处置突发安全事件,减少突发安全事件带来的风险。I分工应急小组职责应急领导组负责应急策略和业务连续性策略的审批;监督总体应急管理流程的有效执行;负责省公司上报请求的决策和审批;负责本部的应急决策审批。应急管理组协助应急领导小组进行应急决策;负责向应急决策领导组汇报应急处理进展;负责应急措施的计划和部署;负责应急过程中IT内部人员及相关资源的协调;负责应急过程中与业务部门的协调;负责应急过程中与服务提供商的协调;负责对应急信息的收集和整理;负责应急恢复评估总结的整理;根据业务系统安全事件级别及时完成业务系统安全事件的通报,必要时提交给集团总部及省网络与信息安全管理中心。应急执行小组负责应急措施的具体实施和操作;负责业务系统应急措施后的恢复检查和汇报。应急支撑小组负责应急期间提供相应的备件及人员支持;负责应急期间配合相关人员进行应急措施的实施和操作;配合安全事件的处理及回溯工作。突发事件应急响应1、应急响应当突发事件导致基础网络中断或出现网络故障时,应急成员应在应急领导小组的统一指挥协调下,结合实际情况及时启动应急响应流程。各级人员在应急处理工作中,必须遵守以下工作规范,严格工作纪律,确保不出现任何责任事故:有关应急工作人员应服从领导,加强协调,遵守工作程序;应急值班电话和所有应急工作人员应确保24小时通讯畅通;应急事件启动后,有关应急工作人员必须坚守工作岗位;遇到特殊问题、不能判定或需要上级协调的问题,应及时请示汇报。2、故障发现及现象分析在发现故障、接收到告警或接收到相关突发事件通告后,网络管理维护人员通过故障现象发现及分析流程定位故障或安全事件的源头,及时启动相应的应急预案。故障排查对象安全事件、网络故障、系统故障。故障排查措施①安全事件排查②网络故障排查③系统故障排查 结果判定网络维护人员、安全维护人员分别将网络故障排查结果、安全事件排查结果告之网络管理员及安全管理员,由安全管理员和网络管理共同判定导致系统故障的原因,然后启用相应的应急处理办法。突发事件应急处置1、应急处置流程2、设备故障应急措施故障现象设备down机、整机不响应、转发停止;主备异常倒换;整机异常重启;单板异常复位或转发停止故障原因可能的原因有:主控板(主控板含交换网板)故障软件错误单板故障、系统与底层表项不同步配置错误等排除故障故障处理方式与步骤:全部业务中断,初步判断和配置无关,及时通知相关负责人。按指导书进行针对性故障信息收集;以恢复业务为第一要素,进行主备倒换、主控板复位或更换、单板复位或更换单板端口或子卡、板卡故障,若备件不到位,将业务割至其他端口、单板;检查设备日志,人为误操作导致业务中断,立即恢复数据6、若长时间未能准确定位故障原因或处理不了,应及时向网络负责人反映,寻求支援。3、网络故障应急措施故障现象设备连接中断或业务质量受影响故障原因可能的原因有:1、业务相关配置不当2、光模块损坏(发光异常)3、传输链路中断或尾纤损坏4、网络存在攻击排除故障故障处理方式与步骤:1、根据故障现象定位故障范围,并通知相应负责人。2、查询日志信息,初步判断故障原因。4、按指导书进行针对性故障信息收集;3、光模块或尾纤损坏可通过自环、测光功定位,更换模板或尾纤解决;4、网络攻击造成设备cpu高,ping包丢包,攻击造成的流量突发可能导致流量拥塞(主要是FE)丢包,可定位或屏蔽攻击源处理4、业务故障应急措施故障现象部分业务中断故障原因可能的原因有:1、业务主机dowm机2、业务主机到网络设备链路故障3、模块损坏(发光异常)4、配置异常5、网络存在攻击排除故障故障处理方式与步骤:1、根据故障现象定位故障范围,并通知相应负责人。2、通过网络层中的数据链路层基本排除是否有链路或者主机down导致3、检测内网时业务是否正常针对查询各项转发表是否异常5、查询相关日志判断网络中是否存在攻击。5、应急处理事后总结在应急处置工作结束后,存在基础设施受损的,涉及部门要迅速采取措施按照“先抢通,再恢复”原则,抓紧组织抢修恢复业务,尽快恢复正常工作,故障恢复后尽快组织分析,查明原因,并对事件造成的损失和影响以及恢复重建能力进行分析评估,认真制定恢复计划,迅速组织实施,并对突发紧急事件进行归纳、分析,总结经验,吸取教训,提出防护措施或改进建议。云平台保障平台保障A为了提高数据中心应对云平台紧急事件的响应处理速度,避免在发生问题时出现考虑不全,错误决策的现象,确保出现重大问题后能够快速恢复生产运行,最大程度减少对业务连续性的影响,移动节点华为云平台制定相应的应急预案。云平台应急预案整体策略是梳理解决方案级别应急场景,拉通各个部件的故障应急能力,达到重大故障有预案,恢复有工具,恢复时间可控的目标。主要场景包括:解决方案故障场景管理域平台故障场景计算域平台故障场景存储域平台故障场景网络域平台故障场景平台保障B人工巡检:驻场团队从ASCM平台导出健康码资源水位,进行资源水位预警。自动巡检:监控系统,用于ecs、rds等资源进行告警播报。ECSCPU资源不足预案1)杀死导致cpu资源使用率过高的任务(需要得到客户授权)2)通过dtcenter扩容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论