版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、修订记录课程编码适用产品产品版本课程版本ISSUEHC1309114统一存储V1V1.0开发/优化者时间审核人开发类型(新开发/优化)吴昊旻2014年3月14日张博新开发本页不打印HC1309114统一存储维护与故障诊断学习完本章节后,您将能够:掌握存储系统开工失败的处理流程掌握存储控制器故障的处理流程掌握RAID组故障的处理流程掌握链路异常的处理流程了解MSCS的原理以及安装部署流程目标目录阵列开工失败控制器故障RAID故障链路异常硬盘故障MSCS介绍 阵列开工失败阵列开工失败现象描述可能原因故障阐述开工失败通常发生在系统异常掉电后自动恢复的过程中,机房搬迁后重新上电,或者是在更换控制框后。
2、阵列开工失败表现未ISM无法连接阵列进行管理,控制器状态指示灯绿灯闪烁,通过命令行登陆提示“system is not ready please wait”。保险箱盘所在硬盘框MAC地址和DB中记录不一致;主备控内存大小不一致;保险箱硬盘不在位;系统损坏;阵列开工失败诊断思路控制器故障常见开工失败处理策略“master start VAULT failed” 主控启动保险箱失败“master DEV start VAULT failed”设备管理启动保险箱失败“read db failed”控制器读DB失败“master start DEV failed”主控启动设备管理失败目录阵列开工失败控
3、制器故障RAID故障链路异常硬盘故障MSCS介绍故障诊断原则先外部,后内部先整体,后局部先高级,后低级故障诊断原则控制器故障检查控制器状态控制器是能够完成存储业务处理、实现RAID、LUN映射、分条设置或其他业务和故障告警等功能的部件。通过浏览控制器信息,可以检查控制器的健康状态和运行状态信息。对系统的影响如果控制器出现故障,可能会导致读写性能和可靠性降低,甚至业务中断、数据丢失。参考标准在ISM管理软件中:控制器的健康状态为“正常”,运行状态为“在线”。 “事件管理”对话框中没有新增与控制器相关的故障信息。控制器故障控制器故障排查思路按照前面提到的先外部后内部,先整体后局部的原则,首先应该检
4、查系统指示灯和声音告警,然后在检查各个FRU部件的指示灯。若是控制器故障我们可以看到系统指示灯和控制器告警指示灯都红灯常亮。最后再登陆ISM管理软件检查告警信息确认控制器故障。更换控制器在拔插控制器前需要确认业务已经停止或业务已切换至对端,并检查主机多路径是否工作正常;检查控制器缓存中的数据是否已写入硬盘,如果没有进行写盘操作可以对控制器执行offline操作,触发写盘操作。 更换控制器时,如果两个控制版本不一致,在更换过程中会自动进行同步,此时需要时间较长,并可能出现控制器亮红灯或者多次重启现象。目录阵列开工失败控制器故障RAID故障链路异常硬盘故障MSCS介绍 RAID组故障现象描述可能原
5、因故障阐述RAID组故障与成员盘状态有关。该RAID组故障时不能承载业务,导致业务数据丢失。在ISM导航树展开“存储资源”节点,单击“RAID组”。在右侧的信息展示区,故障的RAID组的“健康状态”显示为“故障”且“运行状态”显示为“离线”。硬盘框意外掉电 RAID组成员盘被拔出 RAID组成员盘被其他硬盘替换 RAID组成员盘出现坏道或其他导致读写失败的故障 RAID组故障RAID组故障RAID组故障排查思路RAID组故障RAID组故障排查思路RAID组故障(RAID5双盘失效处理)面试题定位思路 在未修复RAID之前,切勿拔插任何硬盘,避免搞混硬盘故障时间和硬盘位置。 优先修复RAID,再
6、修复文件系统(若文件系统损坏的话),最后恢复业务。 全部恢复正常后,更换故障硬盘。处理过程确定硬盘失效顺序和时间。检查失效硬盘的物理和逻辑状态,如果失效硬盘物理状态未fault则需要尝试将其拔插以恢复物理状态为normal。通过review命令恢复最后失效硬盘逻辑状态为normal,使RAID组变为降级状态。更换未恢复的故障硬盘,是RAID组开始重构。重构完成后更换review命令恢复的硬盘。RAID组故障(RAID5双盘失效处理)定位思路 在未修复RAID之前,切勿拔插任何硬盘,避免搞混硬盘故障时间和硬盘位置。 优先修复RAID,再修复文件系统(若文件系统损坏的话),最后恢复业务。 全部恢复
7、正常后,更换故障硬盘。处理过程确定硬盘失效顺序和时间。检查失效硬盘的物理和逻辑状态,如果失效硬盘物理状态未fault则需要尝试将其拔插以恢复物理状态为normal。通过review命令恢复最后失效硬盘逻辑状态为normal,使RAID组变为降级状态。更换未恢复的故障硬盘,是RAID组开始重构。重构完成后更换review命令恢复的硬盘。目录阵列开工失败控制器故障RAID故障链路异常硬盘故障MSCS介绍FC链路异常诊断思路FC链路异常处理步骤序号 问题 解决方案 1阵列主机口与光纤交换机协商失败更改阵列主机端口模式为点对点或者交换机模式,再重新连接更改阵列主机端口速率为1G、2G或者4G再重新连接
8、 升级阵列版本2交换机zone配置问题删除原来的zone; 重新创建zone,保证阵列主机口和业务服务器的HBA卡在一个zone里; 3HBA卡驱动问题卸载原有的HBA卡驱动重新安装新的HBA卡驱动4硬件故障采用替换法确定故障点,是光模块还是光纤还是HBA卡故障,确定后更换。 FC链路异常处理步骤序号问题解决方案5 存储单元端FC误码率过高登录管理界面查看光纤端口误码情况,如果误码率持续增长,表示误码率过高,如果误码持续增长,属于非正常情况,应该从以下几个方面排除误码: 1)查看存储侧是否有光模块告警信息。2)更换光纤线。3)更换主机端口。iSCSI链路异常诊断思路iSCSI链路异常处理步骤序
9、号问题解决方案1 iSCSI主机端口IP地址或应用服务器业务网口IP地址配置错误1.确认在应用服务器上是否可以ping通iSCSI主机端口IP地址。2.确认现场组网环境是直连组网还是交换机组网。直连组网 = 步骤3。交换机组网 = 步骤4。3.修改iSCSI主机端口IP地址,使iSCSI主机端口IP地址与应用服务器业务网口IP地址在同一个网段,然后转至步骤5。您也可以在应用服务器上修改应用服务器的业务网口IP地址,使其与iSCSI主机端口IP地址在同一个网段上。4.分别为iSCSI主机端口和应用服务器添加路由,使iSCSI主机端口和应用服务器能够通信,然后转至步骤5。5.请在应用服务器上运行p
10、ing命令查看网络链路是否可以通,其中目的地址为存储系统iSCSI主机端口IP地址。iSCSI链路异常处理步骤序号问题解决方案2应用服务器与存储系统之间的线缆松动或损坏1.拔插或更换连接存储系统与应用服务器之间的网线。2.操作结束后,请在应用服务器上运行ping命令查看网络链路是否可以通,其中目的地址为存储系统iSCSI主机端口IP地址。3.操作结束后,iSCSI主机端口的link指示灯是否亮绿色或蓝色,且在ISM中该主机端口的“运行状态”显示为“连接”。目录阵列开工失败控制器故障RAID故障链路异常硬盘故障MSCS介绍 硬盘故障现象描述可能原因故障类型场景的硬盘故障主要包括:无法识别;介质故
11、障;即将失效;物理故障;出现硬盘故障时,硬盘指示灯都将红灯常亮,并产生相应告警,硬盘故障时会导致RAID组降级甚至失效。出现介质故障时可能会导致部分数据损坏。硬盘与槽位接触不良或硬盘故障硬盘出现不可修复的坏道硬盘可修复坏道达到阈值硬盘磁头、电机等故障故障场景 硬盘故障存储系统硬盘故障排查思路注:这里除接触不良外都可以通过更换硬盘的方式解决,如果涉及到RAID失效时,请参考RAID故障进行处理。所有更换的硬盘必需是经过华为认证且和产品型号对应的硬盘,其他途径获取的硬盘存储系统无法识别。 硬盘故障硬盘SMART信息简介硬盘SMART信息是硬盘生产商们建立的,硬盘上保存的跟执行情况、可靠程度、读写错
12、误率等属性相关的数据;这些属性反应了硬盘当前的健康状态,通过分析这些数据能判断该硬盘是否具有风险,比如硬盘即将失效就是通过SMART信息来判断的,SMART信息中有如下常用的属性: 硬盘故障硬盘SMART信息简介smart判断标准Informational Exceptions log page正常情况该log page内容在smart信息中为:IE asc = 0 x00 ascq = 0 x00 No additional sense information若为其他打印,如asc和ascq为其他值,则说明硬盘存在异常,如温度超标,或者硬盘出现即将失效的故障Total uncorrected
13、 errors正常情况该内容在smart信息中为:Total uncorrected errors = 0若不为0,且为一个较大的值,则说明该盘存在介质故障的风险Grown Defect List正常情况该内容在smart信息中为:Grown Defect List is empty,即Grown Defect List为空。若 “0 x000084-00-000004D3”这样格式的打印,若行数较多,则说明存在介质故障风险。Invalid DWORD count正常情况该内容在smart信息中为:Invalid DWORD count = 0若为一个较大的值则说明该盘存在链路故障的风险Run
14、ning disparity error count正常情况该内容在smart信息中为:Running disparity error count = 0若该值不为0则说明该盘存在链路故障的风险Loss of DWORD synchronization正常情况该内容在smart信息中为:Loss of DWORD synchronization = 0若为一个较大的值则说明该盘存在链路故障的风险小结开工失败通常是由于保险箱盘异常或者硬盘框和控制框不匹配导致,建议在设备上架运行后不要轻易调整硬盘和框的位置。RAID组是先降级后失效的,恢复时则需要反向进行,先恢复至降级然后通过更换硬盘重构再将RAID恢复为正常。处理控制器故障时为了确保业务的连续性和数据的完整性,在处理前务必检查链路是否冗余,脏数据是否刷盘。链路异常的排查应是优先考虑连通性,对于iSCSI来讲就是通过PING命令,对FC来讲就是检查接收和发送光功率。硬盘故障的识别也是由外到内的一个排查过程-从指示灯到告警最后在排查硬盘内部信息(Smart)。思考题阵列保险箱硬盘的作用是什么,在存储中是如何进行冗余备份
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版金融理财产品销售合同细则4篇
- 二零二五年度农业科技创新合作合同4篇
- 二零二五年度医院院长任期公共卫生服务合同4篇
- 二零二五年度时尚服饰连锁加盟合同协议3篇
- 二零二五年度公积金提取与个人住房贷款一体化合同
- 二零二五年度新能源发电项目并网接入合同4篇
- 2025年环境监测技术的创新与应用
- 二零二五年度宁德监狱行政区生态园林景观养护协议4篇
- 2025年度个人租车车辆故障应急处理合同4篇
- 二零二五年度高端论坛组织策划合同协议书4篇
- 河南省濮阳市2024-2025学年高一上学期1月期末考试语文试题(含答案)
- 割接方案的要点、难点及采取的相应措施
- 2025年副护士长竞聘演讲稿(3篇)
- 2024年08月北京中信银行北京分行社会招考(826)笔试历年参考题库附带答案详解
- 原发性肾病综合征护理
- (一模)株洲市2025届高三教学质量统一检测 英语试卷
- 苏教版二年级数学下册全册教学设计
- 金字塔原理与结构化思维考核试题及答案
- 基础护理学导尿操作
- DB11∕T 1028-2021 民用建筑节能门窗工程技术标准
- 四川省成都市温江区2023-2024学年四年级下学期期末语文试卷
评论
0/150
提交评论