




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
修订记录课程编码适用产品产品版本课程版本ISSUEHC1209205N8500V100R002V2.0开发/优化者时间审核人开发类型(新开发/优化)张博2013-09-20余雷新开发本页不打印HC1209205
集群NAS存储系统故障处理目标学完本课程后,您将能够:了解N8500问题处理流程掌握N8500常见问题及故障的处理方法具备集群NAS典型故障分析处理能力
目录N8500故障处理的原则、方法N8500故障处理的流程N8500分类故障以及典型问题处理方法N8500故障处理案例
先外部后内部先高级后低级先共性后个别故障处理原则故障处理方法分析法替换法看告警信息并配合对性能数据的分析替换怀疑工作不正常的部件
目录N8500故障处理的原则、方法N8500故障处理的流程N8500分类故障以及典型问题处理方法N8500故障处理案例N8500故障处理流程N8500信息收集故障发生时,需要第一时间收集故障相关信息,主要包括:故障发生的具体时间故障现象的详细描述N8000设备的版本故障后已经采取的措施和结果客户业务组网环境、目前业务情况收集N8000设备的日志信息集群NAS引擎日志系统日志位置日志文件日志用途/var/logmessage操作系统相关的所有关键事件/var/logsfsfs_event.log引擎的network,storage服务所产生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系统升级中的过程/opt/VRTSnasgw/logscanbus.log引擎扫描磁盘操作中搜集的相关信息和关键事件/opt/VRTSnasgw/logCIFS.logCIFS共享操作相关的集群管理服务操作及相关事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相关的集群管理服务操作及相关事件/var/VRTSvcs/logEngine_A.logVCS集群日志故障分析定位和排除故障分析判断和定位通过对收集的信息进行分析,从众多可能原因中找出故障原因的过程,通过故障分析,可以确定故障范围、故障种类、故障发生的具体原因以及故障排除的手段。故障排除是指采取适当的措施或步骤清除故障、恢复系统及业务的过程,具体的方式有检修线路、更换硬件、修改配置数据、重新启动服务或应用程序、替换损坏文件、重新启动系统、修复文件系统及服务等故障分析定位的主要方法原始信息分析指示灯状态分析告警信息分析告警信息分析日志信息分析消息跟踪分析故障分析定位的主要方法原始信息分析指示灯状态分析告警信息分析告警信息分析日志信息分析消息跟踪分析
目录N8500故障处理的原则、方法N8500故障处理的流程N8500分类故障以及典型问题处理方法N8500故障处理案例1、节点控制器故障2、接口卡故障3、节点系统硬盘故障4、节点电源风扇故障1、引擎软件安装和登录故障2、集群容错故障3、
功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主机与存储连接故障5、数据丢失故障引擎节点硬件故障引擎节点软件故障存储单元故障集群NAS系统故障分类集群NAS系统故障影响1、业务中断2、业务性能下降1、无法登录2、集群节点无法切换3、
业务性能下降4、业务功能无法使用1、文件资源失效2、业务中断3、性能下降4、数据丢失引擎节点硬件故障引擎节点软件故障存储单元故障集群NAS典型故障诊断后端存储故障引起系统异常引擎节点硬件故障引起系统异常内部通信链路问题诊断管理模块问题诊断文件系统故障诊断文件读写性能问题诊断NFS挂载和访问问题诊断CIFS挂载和访问问题诊断网络问题诊断1、后端存储故障引起NAS系统异常2、引擎节点硬件故障引起系统异常3、集群NAS内部网络问题内部通信链路问题分析和处理方法引擎之间心跳网络故障序号问题解决方案1脑裂1、停止业务2、修复心跳网络3、配置iofencing硬盘,引擎识别到iofencing硬盘,但是不用加入pool4、启用iofencing功能,重启整个集群内部通信链路问题分析和处理方法引擎与存储单元的链路故障序号问题解决方案1某个节点不能扫描到硬盘1、检查该节点的系统状态
2、查看该节点的HBA卡的状态并恢复正常2执行scanbus、mount操作时挂死1、检查所有存储单元的状态2、查看所有存储单元与引擎的FC连接状态,如果有存储单元的FC连接异常,需要修复连接。3、在引擎主节点的support模式下,通过kill命令删除scanbus进程4、重启主节点内部通信链路问题分析和处理办法序号问题解决方案1存储单元端FC误码率过高1、更换光纤线、光模块和FC主机口
2、更换控制器2引擎、存储单元与光纤交换机的协商问题1、登录存储单元,查看HBA卡的连接状态和速率,修改HBA的连接状态为点对点或者交换机模式2、登录光纤交换机,更改端口模式4、管理模块问题管理模块问题解决方案序号问题解决方案1console口所在的物理网卡没有连网线连上网线,等待1分钟后重新登录2console地址与网络上其他主机有冲突1、通过KVM修改console地址
2、修改冲突主机上的IP地址3资源offline1、通过hagrp-stat|grepMan
2、通过hagrp-onlineManagementConsole-sysN8300_01命令上线5、集群NAS文件系统故障故障集群NAS文件系统故障分析和处理步骤步骤一:确认引擎和存储单元间的链路是否正常登录N8000,执行storagedisklistpaths,查看每个节点链路状态若存在非active的链路,恢复链路后执行storagescanbus,手动online文件系统步骤二:登录存储单元,确认存储单元状态查看是否有存储单元故障,参考存储单元故障处理内容。是否误删N8000文件系统在用的LUN,请联系技术支持是否误删映射,恢复LUN映射,执行storagescanbus,文件系统可自动恢复,若无法恢复,联系技术支持。集群NAS文件系统故障分析和处理步骤步骤三:通过master账号登录引擎,确认是否文件系统故障手动online文件系统,如果online成功,则恢复业务,收集debuginfo信息如果无法online,查看文件系统标志位如果文件系统需要做fsck,请联系技术支持。步骤四:fsck完成后,手动online文件系统如果可以,收集debuginfo供技术支持定位原因;如果不能,则重启系统再尝试online,执行过程时请联系技术支持。6、文件读写性能问题文件读写性能问题原因分析文件读写性能问题诊断-业务变更原因分析原来只有顺序读写业务,现在变成了随机读写业务;原来有只有读业务,现在加入了写业务;原来有10路用户并发,现在更多路用户同时并发;其他复杂业务变更。处理意见:由于业务类型的变化而造成的流量上的下降属正常现象,无需处理。文件读写性能问题诊断-存储单元原因文件读写性能问题诊断思路-引擎原因原因分析文件系统存储及文件系统参数配置不当文件系统存放大量小文件,并且文件系统利用率大于80%,造成检索速度下降集群状态:IP地址在集群各节点上分布不均匀服务状态(NFS/CIFS)参数设置不当。7、NFS挂载和访问问题NFS挂载和访问问题总结NFS挂载和访问问题常见问题包括:客户端原因:挂载参数错误、防火墙原因、权限问题。网络原因:无法ping通N8000的虚拟IP;DNS服务器无法连通;网络链路不稳定。N8000原因:NFS服务或虚拟IPoffline;文件系统故障;NFS相关服务资源异常。8、CIFS挂载和访问问题诊断CIFS挂载和访问问题总结CIFS模块问题常见问题包括:客户端原因:挂载参数错误、防火墙原因、权限问题网络原因:无法ping通N8000的虚拟IP;DNS服务器出现问题;网络链路不稳定N8000原因:CIFS服务或虚拟IPoffline;文件系统故障;CIFS相关服务资源异常9、NAS网络问题NAS网络问题诊断总结
目录N8500故障处理的原则、方法N8500故障处理的流程N8500分类故障以及典型问题处理方法N8500故障处理案例案例1:管理模块无法登录问题描述:客户反映无法通过master登录集群,显示该账号不可用原因分析:1、通过终端可以ping通管理console地址2、通过KVM连接到集群,通过support账号登录集群,使用hastatus–sum|grepMan查询状态为offline,执行hagrp-onlineManagementConsole-systestN8300_013、在集群的support账号下,使用ethtool查看管理网口的物理状态。通过在主机端检查arp–a发现consoleip的mac地址不是集群管理网口的mac地址,表明网络中的ip地址有冲突案例2问题及故障描述集群在设置IOfencing后,重启整个集群,出现部分节点无法加入集群的情况,此现象概率出现原因分析集群重启时,IO防护为了防止集群脑裂,会将部分启动较慢的节点排除出集群。因此不允许直接重启整个集群。若必须将所有节点都进行重启,请一次只重启一个节点,待该节点完全启动并可以提供业务时,再重启下一个节点,直到所有节点全部重启完毕,且可以正常提供业务
处理步骤该现象发生后,重启未能加入集群的节点即可修复案例3问题及故障描述在有NFS业务时,重启一个业务节点后,一个文件系统offline,导致该文件系统不可访问原因分析重启节点与主节点的时间不一致导致,集群为保护文件系统一致性,强制将文件系统标志位设置为1,引起文件系统offline处理步骤登录到集群管理界面的storage模式下,使用fsfsckfs100g命令进行文件系统修复,修复完成后需要使用fsonlinefs100g的命令将文件系统上线案例4问题及故障描述把一个节点从集群删除后再加入集群,该节点的NFS共享服务fault,业务IP无法切换到该节点原因分析在添加一个新的节点加入集群时,必须保证该节点是全新安装的节点,否则由于原来删除的节点依然保留有原有集群的信息,可能导致发生异常情况处理步骤出现此问题时,执行nfsserverstart命令重启NFS服务,即可将虚拟IPonline到新加入的节点案例5问题及故障描述将系统时区从GMT+8改为GMT+9,系统时间应该增加一个小时,实际情况是减少了一个小时,反之亦然原因分析该问题是由于linux下的时区修改和windows的处理方式不一致导致的处理步骤出现该现象时,立即进行系统时间修改,修改时区会导致文件系统全部挂掉时区修改应在系统安装完毕后立即修改使用clocktimezone设置时区时直接使用时区名进行设置,不要使用GMT时间进行设置案例6问题及故障描述使用fsonline命令online一个offline状态的文件系统时,提示该文件系统“Filesystemisalreadyonline”原因分析由于文件系统在节点上mtab信息丢失,但cfs层挂载点正常,而fslist命令是检测系统mount信息判断文件系统是否online的,因此显示文件系统为offline,而fsonline是检测cfs层挂载点状态,因此导致无法online文件系统处理步骤出现该现象时,可以在support用户下,将该文件系统信息手动加入/etc/mtab文件中,则文件系统可以正常显示为online案例7问题及故障描述对未创建快照的文件系统进行删除时,提示有快照存在不可删除原因分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分馏塔培训课件
- 院感管理小组培训
- 《数据库原理及MySQL应用(微课版)》课件 第7章数据定义
- 地产活动培训指南
- 凉茶地摊培训课件
- 培训课件自评报告
- 课件制作培训中心
- 关注学生个性发展实施多元教育
- 简单入库考试题及答案
- 外呼新人培训
- 采购磁铁物料合同模板
- 2024年重新写抚养协议书模板
- 专题6.6射影定理专项提升训练(重难点培优)-2022-2023学年九年级数学下册尖子生培优题典(原卷版)
- 中华诗词之美学习通超星期末考试答案章节答案2024年
- 蚊蝇虫鼠害防治管理制度
- DL∕T 1811-2018 电力变压器用天然酯绝缘油选用导则
- 水泵检修工(高级)技能鉴定考试题库(含答案)
- AQ/T 9009-2015 生产安全事故应急演练评估规范(正式版)
- 泸州老窖“浓香文酿杯”企业文化知识竞赛考试题库大全-下(多选、填空题)
- 酒店运营管理 智慧树知到期末考试答案章节答案2024年山东青年政治学院
- 幼儿园课程故事开展培训
评论
0/150
提交评论