




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
APG40常见问题分析处理1. 概述最近全省的APG40都已经打完AGM018的补丁,相比以前APG40稳定性了很多,但是也有着一些相对共性的故障。应山东移动省公司要求,从操作维护的角度分析一下这一些故障问题,总结一下解决的方法。以提高大家APG40的操作维护水平。这一段时间以来APG40最为常出的故障主要有两种,Raid硬盘的故障和Active Directory(活动目录)同步异常。下面分别对这两个问题就故障现象和处理过程中所需要注意的问题进行一些分析。2. Raid硬盘故障Raid是标准化的工业标准,并不是爱立信开发的标准。APG40在硬件上分为C2和C4两种,这两种硬件的Raid机制不同,所以在故障分析和处理上也完全不同。下面就这两种硬件分别来进行一下分析。2.1. APG40C/2APG40C/2一共有6块硬盘,每一边各有三块,每边一块组成一对作为一加一的冗余备份。主用边来同时控制两边的硬盘,读写都是同步进行。APG40C/2的node是DPT manager来控制raid硬盘的,查看的以及操作的命令都是以raidutil开头。下面就分别的讲述和分析一下这些命令。 raidutil K该命令是用来查看raid的firmware版本以及是否支持cluster 。在AGM018版本以后firmware的版本都应该是FT0A的,而且Cluster Support都应该是Enabled的。 raidutil L physical该命令是用来查看raid物理盘状态,查看的命令以主用边为准。Raidutil L physical能看到物理上的6块硬盘,每一边各三块。正常工作的情况下状态都应该是Optimal的,硬盘出现故障的时候状态可能变成failed、missing或着不够6块硬盘,刚刚更换完硬件进行重建raid的时候状态为Replaced Drive。命令显示的前三块(也就是d0b0开头的)为所下命令测,后三块(也就是d0b1开头的)为另一边。注意这里是本边node和另一边node,不是A边或B边也不是主用边或备用边。因此在更换node或者单边断电之类的操作一定要保证本边(也就是d0b0开头的)的三块硬盘状态为Optimal的。 raidutil L logical该命令是用来查看raid逻辑盘状态,查看的命令以主用边为准。Raidutil L logical能看到逻辑上的3块硬盘,正常情况下,状态也都应该是Optimal的,如果逻辑上的状态显示为Degraded,这说明某一边的硬盘出现问题,这时候不影响整个APG40的正常工作;如果逻辑上的状态显示为Failed,说明两边的硬盘都出现了问题,这时候肯定会影响到APG40的正常工作,会有部分的cluster 进程或者整个cluster server无法正常启动。另外更换完硬件之后重建过程中也可以用raidutil L logical来查看,可以看到逻辑硬盘的状态为Reconstruct,后面紧跟着重建完成的百分比。 raidutil -a rebuild dxbxtxdx该命令是用来进行raid的手动重建,该命令也应该在主用边来做。该命令针对的是逻辑盘的,后面dxbxtxdx是逻辑盘的盘符,只有逻辑盘的状态为Degraded的时候才能执行该条指令。该指令只是在物理硬盘并没有真正损坏的时候才起作用,如果在raidutil L physical查看到有硬盘是missing状态或者直接就看不到6块物理硬盘,那么这条命令是不起作用的。 raidutil f optimal dxbxtxdx这条命令是用来对某块特定的硬盘强制设成optimal的。这条命令使用有一些的限制。首先只有是硬盘物理上没有问题,分区信息没有丢的情况下对硬盘强制optimal;其次这条命令只能在本地执行,不能远程用winfiol之类的工具来做,因为做完之后会弹出一个对话框让确认,只有在本地才能点这个对话框。2.2. APG40C/4跟APG40C/2硬件一样APG40C/4硬件也是一共有6块硬盘,每一边各有三块,每边一块组成一对作为一加一的冗余备份。主用边来同时控制两边的硬盘,读写都是同步进行。不一样的是APG40C/4的Raid硬盘改用LSI MegaRaid来控制,查看的以及操作的命令大都是以megarc开头。下面就分别的讲述和分析一下这些命令。 megarc -dispcfg -a0该命令是用来查看Raid的状态,包含了物理和逻辑。主要应该注意log中用红色标出的部分,可以看到逻辑上的状态为Optimal,物理上的状态为online。Chnl(Channel)的0和1分别表示A边和B边,0永远表示A边,1永远表示B边,这跟C2硬件是完全不同的。Target的00表示的是逻辑上的第一块硬盘,一共三块硬盘分别用target的00、01、02来表示。出现故障的时候,物理上的状态可能会是offline或者failed,逻辑上的状态会是Degraded或者failed。逻辑上是failed的话肯定会影响到APG40的正常工作,造成部分cluster进程或者整个cluster server不能启动。 megarc -doRbld -a0 -RbldArray1:00这条命令是用来重建坏掉的raid盘的。中括号内指示某块特定的硬盘,冒号前是chnl号0表示A边,1表示B边;冒号后是target号,00表示第一块盘。这条命令执行成功之后再用megarc -dispcfg -a0查看,相应硬盘的状态就变为RBLD表示正在重建。大约需要半个小时左右会重建成功。 megarc -ctlrInfo -a0该命令是用来查看firmware版本以及一些基本的配置。这条命令可以看到firmware的版本是多少。但是最主要的功能还是红色标出的Initiator Id这个数值在A边应该为7,在B边应该为6,备件都设置为5。一旦两边相同引起冲突就会导致raid硬盘不可用引起APG40自动启动,而且在重启过程中检查raid硬件的时候通不过,两边都会吊死在那里。Initiator Id在做了fcc_save_to_remove other之后,被关电的一边会自动变成5,做fcc_integrate other之后新换上的一侧也会自动的改回7或6. megarc -InitID X -a0该命令是用来更改Initiator Id的,X可以是7、6或者5。更改之后需要重启。 megarc -clrCfg -a0这条命令会删掉逻辑盘,导致数据盘不可用是非常危险的命令。只有在数据盘的配置数据已经出错的时候才会用这条命令来删掉,然后重定。这条命令会马上生效,因此一定要及其慎重不要误操作。 megarc -addcfg -R10:00,1:00 -a0这条命令是对逻辑盘的重新配置用的,如果出现误输入上条命令的情况,就需要这条命令来进行重新配置。括号内指示某两块特定硬盘,冒号前是chnl号0表示A边,1表示B边;冒号后是target号,00表示的是第一块硬盘。正常结果如红框所示。 megarc physOn pd1:01 -a0将某一块硬盘强制online,将physOn改成physOff就是强制offline。中括号内指示某块特定的硬盘,冒号前是chnl号0表示A边,1表示B边;冒号后是target号,01表示第二块盘。正常结果如图中红框所示,例子为将B边的第二块硬盘强制online。这条命令只有是硬盘物理上没有问题,分区信息没有丢的情况下对硬盘强制online;而且这条命令只有在两边都failed的情况下的权益之计,一边硬盘坏掉还是要用命令megarc -doRbld -a0 -RbldArrayX:XX重建的。 SCSIDISK /CS这条命令是用来查看raid的channel设置的。结果里的ChannelSwap对于A边来说应该是0,对于B边来说应该是1。这里的设置正确之后,才能说在megarc dispcfg a0中看到的chnl的0是只A边,1是指B边。如果这里设置不对,比如都设置为1,那么在A边做fcc_save_to_remove other的时候两边的数据盘都会failed。因此在单边断电或者是更换node的时候一定要先查看一些这个配置。3. Active Directory(活动目录)同步问题Active Directory(活动目录)是Windows Server平台的核心组件,它为管理网络环境各个组成要素的标识和关系提供了一种有力的手段。APG40所牵扯到的主要是两边node的同步问题,对于APG40来说也就是Active Directory(活动目录)的同步问题。如果Active Directory(活动目录)不能正常同步,会造成账号的不同步,在重启之后cluster server不能正常启动或者有来自本边或是另一边node的非法登录告警。用net start clussvc来启动的时候报错为“System error 1067 has occurred”关于Active Directory(活动目录)的同步主要用依次用以下命令来查看或处理。 Time /T、date/T这条命令是用来查看APG40上的时间和日期的,一定要确定两边的日期一致,时间差一定要再1分钟之内。更改时间可以用time、date命令来改。 repadmin /syncall这条命令是用来做手动同步的。要在C:Program filesForcefrconfigdomainrename目录下输入才行。只有结果是“SyncAll terminated with no errors”才算正常,其余的都是同步有问题。 repadmin /replsummary这条命令是用来查看之前同步情况的。要在C:Program filesForcefrconfigdomainrename目录下输入才行。Log中的是同步异常的一种情况,已经有41天17小时没有同步成功了。如果超过了60天则永远不可能同步成功了。 repadmin /options *这条命令是来看同步权限的。要在C:Program filesForcefrconfigdomainrename目录下输入才行。A边应该只是IS_GC,B边在AGM018补丁之后也是IS_GC,之前是none。其余的所有的状态都是非正常的。如果这里显示异常,先要手动更改。一般错误的结果如下:DC Options: IS_GC DISABLE_INBOUND_REPL ISABLE_OUTBOUND_REPL更改的命令如下,也是要在C:Program filesForcefrconfigdomainrename目录下输入才行。repadmin /optionshostname -DISABLE_INBOUND_REPL -DISABLE_OUTBOUND_REPL而且更改的命令必须要用administrator这个账号来做,不是administrator权限的账号,而是administrator这个账号本身。如果这一步没有问题可以再用repadmin /syncall在做一遍,还是不好可以做下面的命令。 netdom resetpwd这条命令是用来重设对端APG40的administrator账号的密码用的。全部命令如下:netdom resetpwd /S:/UD:Administrator /pd:这条命令两边都需要做的。做完之后再用repadmin /syncall做一遍。如果还是不成功,建议做双边restore。4. 双边restore步骤4.1. 确保有相同时间的两边node的dump存放在M盘下。4.2. A边,将M盘的dump解压缩到D盘burrestore -a imagesnodea.zip -d D:4.3. B边,将M盘的dump解压缩到D盘,这一步可以和3.2同时进行。burrestore -a imagesnodeb.zip -d D:4.4. 在备用边resetore 备份并且shutdown备用边。prcstateburrestore -r -sp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通化医药健康职业学院《动物微生物学实验》2023-2024学年第二学期期末试卷
- 2025至2031年中国保温肌槽行业投资前景及策略咨询研究报告
- 2025建筑工程项目水电安装承包合同
- 2025至2030年中国长袋低压大型脉冲袋式除尘器数据监测研究报告
- 2025至2030年中国视频手写演示板数据监测研究报告
- 2025关于水电安装工程合同
- 2025至2030年中国皮制钥匙扣数据监测研究报告
- 2025至2030年中国方药盒数据监测研究报告
- 血糖的管理要求及规范
- 铜仁波纹涵管施工方案
- 我国中学导师制的历程、现状及问题分析
- 企业全面战略管理、年度经营计划、预算管理、绩效管理
- 中国民主同盟入盟申请表(样表)
- 安全带检测报告(共8页)
- 壁球馆施工方案
- 公司erp项目激励制度
- Excel函数和公式练习
- 国际石油合同讲座1018
- 某核电项目机械贯穿件安装施工管理技术研究
- 基于单片机的接触器控制器设计
- 50t汽车吊性能表
评论
0/150
提交评论