版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0修订记录课程编码课程编码适用产品适用产品产品版本产品版本课程版本课程版本ISSUEHC1209205N8500V100R002V2.0开发开发/优化者优化者时间时间审核人审核人开发类型(新开发开发类型(新开发/优化)优化)张博2013-09-20余雷新开发本页不打印Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1209205 集群NAS存储系统故障处理Copyri
2、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2目标l学完本课程后,您将能够:p了解N8500问题处理流程p掌握N8500常见问题及故障的处理方法p具备集群NAS典型故障分析处理能力Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3目录lN8500N8500故故障处理的原则、方法障处理的原则、方法lN8500故障处理的流程lN8500分类故障以及典型问题处理方法lN8500故障处理案例Copyright 2013 Hu
3、awei Technologies Co., Ltd. All rights reserved. Page 4 故障处理原则Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 5故障处理方法分析法替换法看告警信息并配合对性能数据的分析替换怀疑工作不正常的部件Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6目录lN8500故障处理的原则、方法lN8500N8500故故障处理的流程障处理的流程lN8500分类故障以
4、及典型问题处理方法lN8500故障处理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7N8500故障处理流程Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8N8500信息收集l故障发生时,需要第一时间收集故障相关信息,主要包括:p故障发生的具体时间p故障现象的详细描述pN8000设备的版本p故障后已经采取的措施和结果p客户业务组网环境、目前业务情况p收集N8000设备的日志信息Copyright 20
5、13 Huawei Technologies Co., Ltd. All rights reserved. Page 9集群NAS引擎日志系统日志位置日志位置 日志文件日志文件日志用途日志用途 /var/logmessage操作系统相关的所有关键事件/var/logsfsfs_event.log引擎的network,storage服务所产生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系统升级中的过程/opt/VRTSnasgw/logscanbus.log引擎扫描磁盘操作中搜集的相关信息和关键事件/opt/VRTSnasgw/logCIFS.logCIFS共享操作相
6、关的集群管理服务操作及相关事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相关的集群管理服务操作及相关事件/var/VRTSvcs/logEngine_A.logVCS集群日志 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 10故障分析定位和排除l故障分析判断和定位p通过对收集的信息进行分析,从众多可能原因中找出故障原因的过程,通过故障分析,可以确定故障范围、故障种类、故障发生的具体原因以及故障排除的手段。l故障排除p是指采取适当的措施或步骤清除故障、恢复系统及业务
7、的过程,具体的方式有检修线路、更换硬件、修改配置数据、重新启动服务或应用程序、替换损坏文件、重新启动系统、修复文件系统及服务等 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11故障分析定位的主要方法l原始信息分析l指示灯状态分析l告警信息分析l告警信息分析l日志信息分析l消息跟踪分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 12故障分析定位的主要方法l原始信息分析l指示灯状态分析l告警信息分析l告警
8、信息分析l日志信息分析l消息跟踪分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13目录lN8500故障处理的原则、方法lN8500故障处理的流程lN8500N8500分类故障以及典型问题处理方法分类故障以及典型问题处理方法lN8500故障处理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 141、节点控制器故障2、接口卡故障3、节点系统硬盘故障4、节点电源风扇故障1、 引擎软件安装和登录故障2、 集
9、群容错故障3、 功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主机与存储连接故障5、数据丢失故障引擎节点硬件故障引擎节点硬件故障引擎节点软件故障引擎节点软件故障存储单元故障存储单元故障集群NAS系统故障分类Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15集群NAS系统故障影响1、业务中断2、业务性能下降1、 无法登录2、 集群节点无法切换3、 业务性能下降4、业务功能无法使用1、文件资源失效2、业务中断3、性能下降4、数据丢失引擎节点硬件故障引擎节点硬件故障引擎节点软件故障引擎节
10、点软件故障存储单元故障存储单元故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 16集群NAS典型故障诊断1.1.后端存储故障引起系统异常后端存储故障引起系统异常2.引擎节点硬件故障引起系统异常3.内部通信链路问题诊断4.管理模块问题诊断5.文件系统故障诊断6.文件读写性能问题诊断7.NFS挂载和访问问题诊断8.CIFS挂载和访问问题诊断9.网络问题诊断Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 171
11、、后端存储故障引起NAS系统异常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 182、引擎节点硬件故障引起系统异常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 193、集群NAS内部网络问题Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 20内部通信链路问题分析和处理方法l引擎之间心跳网络故障序号序号问题问题解决
12、方案解决方案1脑裂1、停止业务2、修复心跳网络3、配置iofencing硬盘,引擎识别到iofencing硬盘,但是不用加入pool4、启用iofencing功能,重启整个集群Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21内部通信链路问题分析和处理方法l引擎与存储单元的链路故障序号序号问题问题解决方案解决方案1某个节点不能扫描到硬盘1、检查该节点的系统状态2、查看该节点的HBA卡的状态并恢复正常2执行scanbus、mount操作时挂死1、检查所有存储单元的状态2、查看所有存储单元与引擎的FC连
13、接状态,如果有存储单元的FC连接异常,需要修复连接。3、在引擎主节点的support模式下,通过kill命令删除scanbus进程4、重启主节点Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22内部通信链路问题分析和处理办法序号序号问题问题解决方案解决方案1存储单元端FC误码率过高1、更换光纤线、光模块和FC主机口2、更换控制器2引擎、存储单元与光纤交换机的协商问题1、 登录存储单元,查看HBA卡的连接状态和速率,修改HBA的连接状态为点对点或者交换机模式2、登录光纤交换机,更改端口模式Copyri
14、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 234、管理模块问题Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24管理模块问题解决方案序号序号问题问题解决方案解决方案1console口所在的物理网卡没有连网线连上网线,等待1分钟后重新登录2console地址与网络上其他主机有冲突1、通过KVM修改console地址2、修改冲突主机上的IP地址3资源offline1、通过hagrp -stat |grep Man2、
15、通过hagrp -online ManagementConsole -sys N8300_01 命令上线Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 255、集群NAS文件系统故障故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 26集群NAS文件系统故障分析和处理步骤l步骤一:确认引擎和存储单元间的链路是否正常p登录N8000,执行storage disk list paths,查看每个节点链路状态p若
16、存在非active的链路,恢复链路后执行storage scanbus,手动online文件系统l步骤二:登录存储单元,确认存储单元状态p查看是否有存储单元故障,参考存储单元故障处理内容。p是否误删N8000文件系统在用的LUN,请联系技术支持p是否误删映射,恢复LUN映射,执行storage scanbus,文件系统可自动恢复,若无法恢复,联系技术支持。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 27集群NAS文件系统故障分析和处理步骤l步骤三:通过master账号登录引擎,确认是否文件系统故障
17、p手动online文件系统,如果online成功,则恢复业务,收集debuginfo信息p如果无法online,查看文件系统标志位p如果文件系统需要做fsck,请联系技术支持。l步骤四:fsck完成后,手动online文件系统p如果可以,收集debuginfo供技术支持定位原因;如果不能,则重启系统再尝试online,执行过程时请联系技术支持。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 286、文件读写性能问题Copyright 2013 Huawei Technologies Co., Ltd.
18、 All rights reserved. Page 29文件读写性能问题原因分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 30文件读写性能问题诊断-业务变更l原因分析p原来只有顺序读写业务,现在变成了随机读写业务;p原来有只有读业务,现在加入了写业务;p原来有10路用户并发,现在更多路用户同时并发;p其他复杂业务变更。 l处理意见:p由于业务类型的变化而造成的流量上的下降属正常现象,无需处理。Copyright 2013 Huawei Technologies Co., Ltd. All ri
19、ghts reserved. Page 31文件读写性能问题诊断-存储单元原因Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 32文件读写性能问题诊断思路-引擎原因l原因分析p文件系统p存储及文件系统参数配置不当p文件系统存放大量小文件,并且文件系统利用率大于80%,造成检索速度下降p集群状态 :IP地址在集群各节点上分布不均匀p服务状态(NFS/CIFS)参数设置不当。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved.
20、 Page 337、NFS挂载和访问问题Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 34NFS挂载和访问问题总结lNFS挂载和访问问题常见问题包括:p客户端原因:挂载参数错误、防火墙原因、权限问题。p网络原因: 无法ping通N8000的虚拟IP; DNS服务器无法连通;网络链路不稳定。pN8000原因:NFS服务或虚拟IP offline;文件系统故障;NFS相关服务资源异常。Copyright 2013 Huawei Technologies Co., Ltd. All rights rese
21、rved. Page 358、CIFS挂载和访问问题诊断Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 36CIFS挂载和访问问题总结lCIFS模块问题常见问题包括:p客户端原因:挂载参数错误、防火墙原因、权限问题p网络原因:无法ping通N8000的虚拟IP;DNS服务器出现问题;网络链路不稳定pN8000原因:CIFS服务或虚拟IP offline;文件系统故障;CIFS相关服务资源异常Copyright 2013 Huawei Technologies Co., Ltd. All rights
22、reserved. Page 379、NAS网络问题Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 38NAS网络问题诊断总结Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 39目录lN8500故障处理的原则、方法lN8500故障处理的流程lN8500分类故障以及典型问题处理方法lN8500N8500故障处理案例故障处理案例Copyright 2013 Huawei Technologies Co., Ltd
23、. All rights reserved. Page 40案例1:管理模块无法登录l问题描述:p客户反映无法通过master登录集群,显示该账号不可用l原因分析:1、通过终端可以ping通管理console地址2、通过KVM连接到集群,通过support账号登录集群,使用 hastatus sum |grep Man 查询状态为offline,执行hagrp -online ManagementConsole -sys testN8300_013、在集群的support账号下,使用ethtool查看管理网口的物理状态。通过在主机端检查arp a 发现consoleip的mac地址不是集群管理
24、网口的mac地址,表明网络中的ip地址有冲突Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 41案例2l问题及故障描述p集群在设置IO fencing后,重启整个集群,出现部分节点无法加入集群的情况,此现象概率出现l原因分析p集群重启时,IO防护为了防止集群脑裂,会将部分启动较慢的节点排除出集群。因此不允许直接重启整个集群。若必须将所有节点都进行重启,请一次只重启一个节点,待该节点完全启动并可以提供业务时,再重启下一个节点,直到所有节点全部重启完毕,且可以正常提供业务 l处理步骤p该现象发生后,重启未
25、能加入集群的节点即可修复 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 42案例3l问题及故障描述p在有NFS业务时,重启一个业务节点后,一个文件系统offline,导致该文件系统不可访问l原因分析p重启节点与主节点的时间不一致导致,集群为保护文件系统一致性,强制将文件系统标志位设置为1,引起文件系统offlinel处理步骤p登录到集群管理界面的storage模式下,使用fs fsck fs100g命令进行文件系统修复,修复完成后需要使用fs online fs100g的命令将文件系统上线 Copy
26、right 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 43案例4l问题及故障描述p把一个节点从集群删除后再加入集群,该节点的NFS共享服务fault,业务IP无法切换到该节点l原因分析p在添加一个新的节点加入集群时,必须保证该节点是全新安装的节点,否则由于原来删除的节点依然保留有原有集群的信息,可能导致发生异常情况l处理步骤p出现此问题时,执行nfs server start命令重启NFS服务,即可将虚拟IP online到新加入的节点 Copyright 2013 Huawei Technologies Co.,
27、 Ltd. All rights reserved. Page 44案例5l问题及故障描述p将系统时区从GMT+8改为GMT+9,系统时间应该增加一个小时,实际情况是减少了一个小时,反之亦然 l原因分析p该问题是由于linux下的时区修改和windows的处理方式不一致导致的 l处理步骤p出现该现象时,立即进行系统时间修改,修改时区会导致文件系统全部挂掉时区修改应在系统安装完毕后立即修改 p使用clock timezone设置时区时直接使用时区名进行设置,不要使用GMT时间进行设置Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 45案例6l问题及故障描述p使用fs online命令online一个offline状态的文件系统时,提示该文件系统“Filesystem is already online”l原因分析p由于文件系统在节点上mtab信息丢失,但cfs层挂载点正常,而fs list命令是检测系统mount信息判断文件系统是否online的,因此显示文件系统为offline,而fs online是检测cfs层挂载点状态,因此导致无法online文件系统l处理步骤p出现该现象时,可以在support用户下,将该文件系统信息手动加入/etc/mta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于稀疏分量与张量分析的欠定混合矩阵估计研究
- 高原鼠兔(Ochotona curzoniae)种群和行为对高寒草地退化的响应
- H国有企业员工绩效管理优化研究
- 二零二五版门卫室安全防范应急预案合同4篇
- 二零二五年度脚手架租赁与安全培训协议3篇
- 绿色包装线索对消费者食品购买意愿的影响
- 2025年度常州消防设施改造项目施工合同范本4篇
- 基于分子动力学的水化硅酸钙的徐变特性研究
- 2025新版公司装修合同范本
- 2025民间借款合同范本集锦
- 药学技能竞赛标准答案与评分细则处方
- 2025届高考英语 716个阅读理解高频词清单
- 报建协议书模板
- 汽车配件购销合同范文
- 贵州省2024年中考英语真题(含答案)
- 施工项目平移合同范本
- (高清版)JTGT 3360-01-2018 公路桥梁抗风设计规范
- 胰岛素注射的护理
- 云南省普通高中学生综合素质评价-基本素质评价表
- 2024年消防产品项目营销策划方案
- 闻道课件播放器
评论
0/150
提交评论