




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、dell 存储常见存储管理、故障处理和注意事项常见故障原因经验表明,造成客户存储故障的外部原因主要有以下几种:l存储内部错误的开关机顺序。l机头或扩展柜的速率开关处于错误的位置。l不规范的软硬件升级。l对存储子系统进行破坏性操作。l不规范的故障修复操作。l维护过程中触发了相关的隐患。l存储系统没有冗余的配置方案。开关机步骤开机:lsan交换机exp磁盘扩展柜主控柜主机 关机:l主机主控柜exp磁盘扩展柜san交换机 不正确的开关机顺序可能会导致部分硬盘离线以及数据无法访问。l注意:在ds5000按下电源按钮关机后,在控制器代码和所有电源灯熄灭前绝对不能进行任何操作! 管理软件storage m
2、anager客户端管理软件连接方式如下: l将装有storage manager client客户端软件的工作站,通过以太网hub或switch,同时连接到ds4000/ds5000的两个控制器。l打开storage manager client客户端软件l 控制器有一个出厂默认的ip地址:控制器a/b:192.168.128.101/102 (控制器a/b:192.168.129.101/102 )存储子系统状态标识管理界面-企业主管理界面管理界面子系统管理界面子系统部件标识故障检测按钮使用“recovery guru” 故障检测按钮检查ds4000/ds5000子系统的整体状态 “听诊器”
3、故障检测按钮正常故障控制器和扩展柜的硬件状态 点击物理硬盘右侧的状态检查按钮,可以打开查看具体部件的硬件工作状态查看控制器信息 选择“storage subsystem menu” “view” “ profile” 故障数据收集收集 all support datal菜单:advanced-troubleshooting-collect all support data . 故障数据收集查看major event log l菜单:advanced-troubleshooting-view event log 故障数据收集查看链路信号噪音检测报告 l菜单:advanced-troublesho
4、oting-run diagnostics-read link status 电池和缓存电池和缓存的设计原理l为了保证写缓存数据的安全性,ds4000/ds5000系统中,只要电池发生故障(处于failed状态)或者超过微码所规定的设计寿命,那么写缓存就会被自动禁用l为了保证写缓存数据的安全性,默认两个控制器的cache mirroring写缓存镜像功能是打开的。因此当一个控制器的写缓存被禁用之后,另外一个控制器的写缓存也不能使用了。电池和缓存写缓存禁用之后的故障现象l主机端应用程序响应变慢,从topas检查主机性能指标,i/o waiting显著增加,每个逻辑盘的busy接近100%,但是i
5、o吞吐量很小,每秒只有几十k到1m不等: 电池和缓存电池的更换策略l如果电池当前是处于“failed”或“removed”状态l如果电池当前状态正常,只是接近或已超过告警寿命在aix上使用mpio的一些注意事项aix版本5.2以上,除了原有的集成的rdac功能以外,操作系统还新增了mpio的功能来实现外部磁盘的多通路访问。aix 5.2/5.3默认是使用rdac,而aix6.1默认是使用mpio。 rdac和mpio的兼容性lds3000: 只支持 mpio lds4000: 支持方式:rdac, mpiolds5000: 支持方式:mpio (ds5000在aix上不再支持rdac) 在ai
6、x上使用mpio的一些注意事项如何在aix上确认当前正在使用mpio还是rdac l在aix中执行“manage_disk_drivers” l以下是一个当前使用mpio的例子: l#manage_disk_drivers 1: ds4300: currently mpio; supported: rdac/fcparray, mpio 2: ds4500: currently mpio; supported: rdac/fcparray, mpio 3: ds4700/ds4200: currently mpio; supported: rdac/fcparray, mpio 4: ds48
7、00: currently mpio; supported: rdac/fcparray, mpio l以下是一个当前使用rdac的例子: 1: ds4300: currently rdac/fcparray; supported: rdac/fcparray, mpio 2: ds4500: currently rdac/fcparray; supported: rdac/fcparray, mpio 3: ds4700/ds4200: currently rdac/fcparray; supported: rdac/fcparray, mpio 4: ds4800: currently r
8、dac/fcparray; supported: rdac/fcparray, mpio 在aix上使用mpio的一些注意事项如何检查当前磁盘的工作路径lrdac:fget_config -av lmpio: mpio_get_config -av 常见故障处理和注意事项控制器微码是不是有重大隐患的版本? l06.23.05.00: 隐患一:当某个控制器内存校验出错时,故障控制器无法正确的被隔离offline,从而导致逻辑盘lun不能切换到好的控制器上,主机访问中断。 隐患二:ds4800写缓存被禁用,主机写性能大幅度下降,从而影响业务。 l07.10.23.00: 隐患一:更换故障硬盘后,之
9、前已经接管的热备盘无法copyback 隐患二:media scan被自动禁用 常见故障处理和注意事项exp扩展柜的esm微码版本有没有重大隐患? lexp710的esm的微码隐患(9681以下版本) 当一块硬盘故障时,mel里面显示fiber channel link up和link down的event,发生大面积的多块硬盘的同时故障,客户数据访问中断。 lexp810和exp420的esm的微码隐患(98d0以下版本) 当一块硬盘故障时,mel里面显示fiber channel link up和link down的event,发生大面积的多块硬盘的同时故障,客户数据访问中断。 常见故障处
10、理和注意事项要特别注意前面板右下方的(2gb/4gb)速率开关,是否处于正确的位置。速率开关处于4gb位置时,2gbps的硬盘将不能被识别;相反速率开关处于2gb位置时,4gbps的硬盘是可以使用的,但是性能将会下降。这种情况比较容易被忽视。速率开关的更改需要关机下电。注意:所有3gbps的sata硬盘,都推荐运行在4gbps。常见故障处理和注意事项磁盘扩展柜的光纤连线符合ibm的规范。在控制器有冗余的光模块光模块条件下,建议将多个扩展柜连接在多个冗余环路上,尽量不要将所有的扩展柜串联在一个环路里。 常见故障处理和注意事项只要使用了光纤交换机,做zone是强制要求。每一个zone必须只包含两个
11、成员,一个对应主机的一张光纤卡的一个端口,另一个对应ds4000/ds5000的一个控制器的一个端口。 常见故障处理和注意事项逻辑盘不在最优路径“logical drive not on preferred path” l。这个问题指的是ds4000/ds5000的逻辑盘(lun)没有挂在原本所属的控制器下。常见故障处理和注意事项原因分析:(主要有6点) l从主机的光纤卡到logical drive的光纤物理链路有问题。lp-series主机的dar0的虚拟设备配置有问题l光纤交换机fabric1的zone设置有问题。l主机光纤卡hba和ds4000/ds5000控制器的主机端口host po
12、rt之间的光纤连线方式不正确,没有符合ibm的规范。l控制器发生过重启,或者控制器已经offline(离线) 常见故障处理和注意事项检查的确认方法:(主要有8点) l确认从主机的光纤卡到逻辑盘logical drive的物理链路是完全正常的。l查看光纤交换机相应的主机光纤卡端口和ds4000/ds5000控制器端口的状态灯l登陆主机,运行“fget_config -av”确认dar的虚拟设备配置正常l确认光纤交换机的zone设置没有问题。l确认主机光纤卡hba和ds4000/ds5000控制器的主机端口host port之间的光纤连线方式是正确。l在sm客户端管理软件里面确认ds4000/ds
13、5000的控制器状态正常l检查ds4000/ds5000内部的mapping是否正确l确认 linux主机的host type是否正确。 常见故障处理和注意事项恢复方法 l在storage manager客户端管理软件里面运行: advanced recovery redistribute logical drives l在storage manager客户端管理软件里面,更改每一个逻辑盘logical drive的所属控制器 菜单:logical drivechangeownership/preferred path l注意:在恢复之前,一定要确认从主机的光纤卡到logical drive的
14、通道是完全正常的,只有在完全确认上述几种故障都已经解决之后,才能实施恢复。否则后果一定是灾难性的! 常见故障处理和注意事项storage manager客户端软件不能连接和访问ds4000/ds5000的控制器 l首先排除网络方面的问题l看看控制器的两位数字led的显示是否正常l如果控制器的两位数字led的显示在循环变化,或者ping的时通时断,这时候可以通过串口连上控制器,观察并捕获屏幕的输出。l控制器能ping通但是storage manager连不上l如果能安排停机时间,重启机头是最有效的解决方法。 常见故障处理和注意事项拔除ds4000/ds5000系统中所有未使用(没有光纤连接)的光
15、电转换模块sfp l会导致光纤链路的不稳定l在mel event log中,会发现有大量的“fibre channel link down”和“fibre channel link up”的提示信息。 常见故障处理和注意事项特别注意:不规范的实施ds4000/ds5000系统exp扩展柜和物理硬盘的升级和迁移,可能会造成客户数据丢失! lds4000/ds5000系统增加新的exp扩展柜(升级)lds4000/ds5000系统增加新的物理硬盘(升级) l 将一个或多个exp扩展柜,从一个现有的ds4000/ds5000系统迁移到另一个ds4000/ds5000系统(迁移) l将一块或多块硬盘,
16、从一个现有的ds4000/ds5000系统迁移到另一个ds4000/ds5000系统(迁移) l以上工作必须严格按照最新版的ibm官方文档里面所规定的步骤进行。常见故障处理和注意事项注意定期保存ds4000/ds5000系统的all support data(asd) lds4000/ds5000的all support data里面记录了所有array的配置信息和主机mapping的信息,在关键时刻对于客户的数据恢复有着非常重要的作用。常见故障处理和注意事项寻找ds4000/ds5000的recovery profile lsm客户端软件的一个功能l记录了ds4000的array和lun的基本信息常见故障处理和注意事项不能对处于“degraded”状态的array的故障硬盘使用revive操作! l当array变成degraded状态时,主机的访问将会恢复。l故障硬盘仍然处于被隔离的静止状态l造成数据丢失! 常见故障处理和注意事项 故障误报l微码和旧版的不兼容l通过升级微码解决l通过重启机头解决常见故障处理和注意事项绝对不能在生产系统使用sm客户端管理软件的“reset configuration”功能l删除ds4000/ds5000系统里面所有的array/lun信息l将所有配置恢复成出厂设置值常见故障处理和注意事项ds5000维护注意事项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理职业安全规范
- 小班艺术大中国课件
- 兼职买卖合同标准文本
- 以物换车合同标准文本
- 公主房间布置租房合同标准文本
- 会议会展合同标准文本
- 书采购合同标准文本版
- 共享书柜租售合同范例
- 买卖铲车合同标准文本
- 会议标准文本合同标准文本
- 2025-2030中国儿童服装行业市场发展分析及投资前景预测研究报告
- 部编版语文教材培训讲座-口语交际
- 2025年全国中小学生安全教育日专题
- 2025年工程力学笔试试题及答案
- 2025年电子设备装接工岗位职业技能资格证考试题(附答案)
- 2025年河南航空港发展投资集团有限公司社会招聘45人笔试参考题库附带答案详解
- 2025太阳能光热发电站熔融盐储热系统技术
- 企业一季一课安全教育记录(2篇)
- 2025-2030年中国工业废水处理产业十三五发展规划及战略规划分析报告
- 2024年全国高考新课标Ⅱ卷数学试题含答案解析
- 2025年山东国际信托股份限公司社会招聘高频重点提升(共500题)附带答案详解
评论
0/150
提交评论