存储故障处理流程的演变及不同阶段问题分析_第1页
存储故障处理流程的演变及不同阶段问题分析_第2页
存储故障处理流程的演变及不同阶段问题分析_第3页
存储故障处理流程的演变及不同阶段问题分析_第4页
存储故障处理流程的演变及不同阶段问题分析_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

存储作为存放金融企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关重要。特别是应对若干存储的大量告警,如何从大量告警中提取关键告警消息并及时处理异常,可谓对存储平台的稳定运行起到保驾护航的作用。存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITIL流程管理的规定。存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程。因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显。下面分别介绍“传统、目前、未来”三个阶段在发现存储故障、提交厂商信息报修、同步ITIL流程三个方面的具体情况,旨在帮助读者更好地了解在自动化推进中各阶段亟需解决的问题。一、传统存储故障处理流程1.发现存储故障机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理。由于人工巡检频率较低,发现异常相对比较滞后,且存在漏检可能。为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配置SNMPTrap,将告警信息由运行监控中心发送给存储运维人员。这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过滤及压缩,也给运维人员的日常工作带来了一定的困扰。2.提交厂商日志确认并安排维修SNMPTrap类告警消息因缺少设备序列号、机柜位置、部件位置、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商。设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间。3.纳入ITIL流程存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。事件工单经服务台确认后需要运维人员反馈事件原因和解决方案。变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施。变更实施完成后,运维人员还需要在事件工单和变更工单中说明变更时间和实施情况,如图1所示。图1传统阶段存储故障处理流程示意图二、目前存储故障处理流程1.发现存储故障引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息。此类告警较Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送。告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求。例如,针对重复的告警,可以采用压缩算法,通常可以4小时报一次,直到问题解决。针对info、warning等较低级别的告警可以实现过滤,而只给运维人员推送error和critical等较高级别的告警。2.提交厂商关键信息并派件维修借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,直接可将告警消息转发给厂商人员即可安排派件维修。3.纳入ITIL流程同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申请事件及变更工单并跟进流转。如图2所示。图2目前阶段存储故障处理流程示意图三、未来存储故障处理流程前两个阶段在变更实施和ITIL流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距。为进一步优化日常存储告警的处理工作,未来应着力于在ITIL流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的恢复告警来自动反馈工单的解决方案和实施情况等信息。1.发现存储故障和判断故障恢复目前硬件监控平台只能抓取设备的异常告警,对于故障修复后未能生成恢复类告警,需要人工参与判断是否完成故障修复。若监控平台对于特定设备能及时判断故障是否修复并生成恢复告警,则有益于推进ITIL流程的自动化管理,极大减少人工参与环节。2.提交厂商关键信息并派件维修此部分尽可能针对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可。3.ITIL流程自动化审批硬件监控平台将收集到的异常告警及时推送至智能平台。智能平台加工整合收集到的异常告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITIL管理平台提交事件工单和变更工单申请。变更工单经变更经理审核确认后,由智能平台提供模板完成方案制定环节的提交。ITIL管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台进行处理。后续由硬件监控平台捕捉设备告警是否修复,如正常完成修复,向智能平台及时推送恢复告警消息。智能平台最终基于恢复告警消息,向ITIL管理平台反馈实施情况从而关闭相关工单。显然,智能平台承担了运维人员ITIL流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用。如图3所示。图3未来阶段存储故障处理流程示意图综上所述,为了提升存储告警处理的自动化运维管理水平,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论