IBM P服务器故障检测_第1页
IBM P服务器故障检测_第2页
IBM P服务器故障检测_第3页
IBM P服务器故障检测_第4页
IBM P服务器故障检测_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IBM中国维护与技术服务 p系列、系统p预防性维护说明国际商业机器(中国)有限公司文档编号:当前版本号:3.1最初发布日期2001年12月13日最新修订日期:2011年9月2日一、硬件维护部分:检査机房环境:(请参照IBM机房条件及各机型的具体要求)温度:室内温度建议保持在222C湿度:相对湿度应保持在505%电源:根据不同机型使用的电源有:200240V交流单相;380415V交流三相;-48V5%直流,实测电压不应超出允许的范围。零线与火线不能反接,通常是面对插座的左边为零线,右边为火线。机器必须有良好的接地保护,地线的接地电阻要求小于1欧姆。因接地电阻测量需要专业仪器,因此以客户提供的测

2、量数值为准,工程师只要确保机柜电源线的地线、机壳(接上电源线后)到建筑物接地端的电阻小于1欧姆就可以了。新版巡检报告中添加了记录事项为是否双电源此处指的是双动力源供电,比如电力供给来自不同的发电厂,而不是指设备是不是有冗余电源),此外,需要记录如果是双动力源是否部署在了各自独立的PDU或者UPS上。洁净度:机房应保持清洁且有良好的管理与维护。如机房太脏应提醒客户注意。设备散热:设备进风口温度是否够低并有足够的气流。机房内设备的摆放是否符合冷热通道原则(绝对不能让设备排出的热空气排向其它设备的进风口)。随机工具:对于59X/FHA这类高端机型,随机会附带一些R&V时需要用到的平台,滑轨等工具,巡

3、检时应确认随机工具的当前存储状态,以备不时之需。检査系统硬件情况:先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。高端服务器,如p670/p690/p59x/FHA,应检查UEPO开关上的系统故障指示灯是否亮。同时检查BPC、BPD、BPR、DCA、MDA等电源子系统的Power-on、Power-in、Power-out、EnableGreenLED等是否长亮。还要检查部件故障灯,如I/Odrawer、PCI卡,硬盘等。检查是否有人改装过IBM设备(如拆掉面板、开口、拆掉过滤网、改变网络连接等)。这些改装可能会影响设备的稳定运行,甚至带来严重后果

4、。对于高端Power5/Power6服务器,还应检查其正面Lightstrip和背面Lightstrip。有安装的部件(如CPUbook)所对应的绿色LED应长亮。任何故障指示灯(橙色)都应不亮。同时注意主机的OperatorPanel,高端Power5/Power6或其它由HMC管理的机器应检查HMC图形界面的虚拟OperatorPanel。设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。3.检査硬件错误报告errorlog:无HMC管理的系统可登录到AI

5、X,使用“errpt-dH”命令检查硬件错误报告。如有,则应使用“errpt-ajerr_id|more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行“diag-edhdiskl”。诊断程序可对故障记录中的SENSEDATA进行分析并给出SRN、SRC、FRU等。注:如果故障记录太多,应将故障报告取回作进一步分析。可用命令:“snap-r;snap-gc”用“mail”命令查看有否发给root用户的错误报告。用“alog-otboot”命令和“alog-otconsole”命令检查系统的启动记录和主控台的出错信息。对于Power5以前的主机,如果客户允许停机,则应

6、shutdown主机,进入服务处理器(ServiceProcessor)菜单检查故障记录。对于Power5、Power6、Power7主机,无须shutdown分区就可以进入ASMI菜单进行检查。有HMC管理的系统,可进入ServiceFocalPoint进行检查。HMCV6步骤如下:在ServiceFocalPoint目录下点击ManageEvents打开ManageServiceableEvents窗口。三3HK595HMCl.locHoimd三ServerandPartition,|FrameManagemSen/erMaragemJUilizalonDatal編gemPlans3匚Li

7、censednterna匚口HMCManagement三E2ServiceAppicitbns%,Seraice:FocalFoir魁ServiceAjgem祠RemoteSupport;iSysteriManagerSec.务InfarrnatianCenter1E2SwcnManagement壬JIo:ahost.IccaldomainPrublemnumberManageEervrceafcireEvents-SelectServiceabfeEvents匚戸反Usetlriswindawtapeselectiancriteriafartheiceiviizeableeventsyouw

8、ishtoviewormrngQOnlyeventsthatmeetallthecriteriathatyouspecifywillbedisplayedE/ent匚rtericServiceableeventstatus:ErrorcrrtenaReponingMTMS:FailingMTMS:Referencecode:Numtrerofdavstoview:Field-R.plac&ablUnt(FRU)criteriaLocationcode:Partnumber*0Kcance:Help7单击OK,进入ServiceableEventsOverview窗口,里面记载了最近的错误日志。

9、单击一条记录,再选择Selected菜单,选择ViewDetails,察看错误详细信息。面的错误信息应详细记录并保存,不可疏忽。在错误被排除之后应该清除错误信息。选择Selected菜单,选择CloseEvent,关闭错误详细信息。HMCV7步骤如下:登录后直接点击屏幕左下角的扳手图标,接下来的步骤就跟HMCV6样了。5-tatusrOperrServiceableEvents确认硬件问题解决后应关闭SystemAttentionLight。无HMC管理的主机:进入AIXdiag菜单,选择TaskSelection-选择IdentifyandAttentionIndicators-选择SetS

10、ystemAttentionIndicatortoNormal。有HMC管理的主机在图形界面下deactivate相关主机的AttentionLED.检查机器清洁度检查机器的清洁程度,如面板上会不会有很多灰尘。如果机器比较脏,或金属部件有腐蚀的迹象,则需要提醒客户注意改善机房环境。有需要的话可以请IPR进行专业检测。某些机型有空气过滤网,如7040/9119,长期使用可能需要更换,否则过滤网堵塞会影响散热效果。请根据实际情况决定是否更换。9119的过滤网安装在机柜前门,要确保3块过滤网都安装到位,并且机柜正面上下没有开口,所有冷却气流都应该经过滤网进入。风扇转动情况:从机器相应的散热口检查冷却

11、气流的状态,特别需要注意是否风量小或者无冷却风。如有异常,应收集IQYY并开出对应PMH。逻辑卷/硬盘检查用“lsvg-ollsvg-ilIgrepstale”检查是否有stale状态的逻辑卷。如有stale状态逻辑卷应立即进行同步修复。是否有deconfig硬件资源:Power5以前的主机用“bindprocessor-q”命令检查是否有CPU被disable。用“lsattr-Elsys0”命令检查CPUGUARD是否设置正确。AIX5.2以前的版本CPUGUARD默认是disable的。通常系统/分区CPU数目33的就应该enableCPUGUARD(如果操作系统为AIX5.2或以上则C

12、PU2时就应该enableCPUGUARD)。内存用命令lsattr-Elmem0查看。有分区的机器有一定内存overhead,具体计算参考pSeriesPlanningforPartitioned-SystemOperationsSA38-0626-00Power5、Power6、Power7主机登入ASMmenu-SystemConfiguration-HardwareDeconfiguration-ProcessorDeconfiguration和MemoryDeconfiguration检查是否有被deconfigured的CPU或内存。同时检查有无其他部件被deconfigured并

13、做相应记录。DUMP信息(详细请参考AIX操作系统DUMP设置及收集指南):系统DUMP设备应该有足够大的空间,可用“sysdumpdev-e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。对于内存较大的机器,建议建立专用的DUMP设备(如果系统内存大于4GB,则AIX5L会自动建立专用的DUMP设备:/dev/lg_dumplv)。检查DUMP的拷贝目录(文件系统)是否有足够的空间(如果使用非内存交换区作为PrimaryDUMP设备,则无此要求)。如果要改变DUMP的拷贝目录(文件系统)则必须保证其建立在ROOTVG上。为确保系统挂机时可以做强制DUMP,请把“alwaysallo

14、wdump”设成“TURE”,可在线修改。DUMP压缩功能除了可以节省空间外,还可以大大缩短AIX做DUMP的时间,建议打开(默认是关闭),命令为sysdumpdev-C,可在线修改。网络通信:检查网卡状态、IP地址是否正常。通常不建议使用自适应速率(千兆以太网除外),网卡的设置应与交换机端口的设置匹配。用“ping”命令检查网卡通信是否正常,如是否丢包,速度是否正常等。用“netstat-rn”检查路由表是否正常。检查/etc/hosts文件或DNS设置是否正常。SSA/SCSI/SASRAID状态(IBM存储服务器请参考存储设备检査指南):磁盘阵列通常采用RAID1/RAID5/RAID1

15、0等数据保护方式。不建议客户使用RAID0的方式,在RAIDO方式下数据没有任何保护。检查磁盘阵列中的RAID盘是否有坏盘,是否有degrade的状况。检查磁盘阵列的cache是否打开。热备盘(hotspare)盘可以提高磁盘阵列的可靠性,强烈建议设置热备盘。以内置SASRAID为例步骤如下:检查DiskArray状态:#diag-TaskSelection-RAIDArrayManager-IBMSASDiskArrayManager-ListIBMSASDiskArrayConfiguration检查SAS通道状态:#diag-TaskSelection-RAIDArrayManager-

16、IBMSASDiskArrayManager-DiagnosticsandRecoveryOptions-ShowSASControllerPhysicalResources检查cache电池状态:#diag-TaskSelection-RAIDArrayManager-IBMSASDiskArrayManager-DiagnosticsandRecoveryOptions-ControllerRechargeableBatteryMaintenance-DisplayControllerRechargeableBatteryInformationLIC版本信息查看并且记录系统当前的微码版本以

17、及HMC的版本信息(若是高端机器,还需查看并记录BPA的微码版本)RIO连接状况在HMC上查看RIOTopology状态,注意检查环路状态及速率。磁带机是否需要清洗:磁带机/磁带库是重要的数据备份设备,应定期清洗。不同的磁带机/磁带库有不同的清洗间隔,请查阅相关手册。某些磁带机可用/usr/lpp/diagnostics/bin/utape-cdrmt0-n命令查看磁带机使用时数。Systemreadinesscheck检査(power5及以后机型)Power5及以后机型需要做systemreadinesscheck并记录结果。强制ECA信息根据不同阶段发布的ECA列表,检查对应机器是否存在需

18、要进行的强制ECA,应记录对应的ECA号码及完成状态。ServiceAgent是否设置:我们建议给所有的保修期/MA客户都安装ServiceAgent,并激活其自动报修功能。ServiceAgent安装后应保持可以与IBMSDR服务器连接的状态。除callhome外,客户还可以设置emailnotification,SNMP监控或者SystemDirector监控。17.下列数据是否已经收集:AIXsnap文件ASMIerrlog文件RIOTopology文件硬件dump文件其他日志文件(iqyy等)硬件检査完成后必须填写RS/6000及p系列系统预防性维护服务报告单(硬件部分),对于检査中发

19、现的问题必须及时解决。二、软件维护部分(仅适用于有软件维护协议的客户):软件错误报告:用“errpt-dS”命令检查系统的软件出错报告。如果故障记录太多,应将故障报告取回,作进一步分析。用“mail”命令查看有否发给root用户的错误报告。用“alog-otboot”命令和“alog-otconsole”命令检查系统的启动纪录和主控台的出错信息。检查HACMP、TSM等软件的LOG看有否不正常的地方。检査文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。关键文件系统的使用率不应该超过80%(/usr除外)

20、,且剩余空间最好大于200MB。如果有“满”的文件系统则应删除不用的文件以释放空间,或扩展文件系统。如果系统有关于文件系统错误的报告则应用“fsck”命令对文件系统进行检查修复。JFSLOG的大小与文件系统的比例应为:1个PP的LOG管理512个PP的文件系统。如果JFSLOG不够大则应扩大,但JFSLOG不应超过256MB。如果太多的文件系统使用同一个LOG则会影响性能,应考虑不同的文件系统使用不通的JFSLOG。检査逻辑卷:用“lsvg-ollsvg-il|grepstale”检查是否有stale状态的逻辑卷。如有stale状态逻辑卷应立即进行同步修复。内存交换区(pagingspace)

21、:AIX4.3.3以后对内存交换区的使用机制与旧版本已经不一样。内存交换区的大小与物理内存的大小并没有一定的比例关系或计算的公式。客户应进行压力测试以确定内存交换区的大小,若内存交换区使用率超过70%,则需要扩大。某些数据库厂家或应用开发商可能对内存交换区有特殊要求,请咨询相关厂商或开发商。增加内存交换区并不会提高性能,内存交换区使用偏高通常是因为物理内存不足造成的,所以升级物理内存才是解决之道。交换区不应设置在rootvg以外的卷组。从性能上考虑,每个硬盘上应该只有一个内存交换区,并且所有内存交换区的大小应该一致。如果rootvg是采用镜像保护的,则内存交换区也必须镜像。如果rootvg有固

22、态硬盘则建议把内存交换区放在固态硬盘上以提高性能。bootimage是否修改过而没有重启:bootimage修改过应该重启AIX,比如安装了新的补丁或者运行了bosboot命令等。有些案例,客户做了某些修改而没有重启AIX,等几个月之后重启AIX的时候才发现无法启动。这时候已经想不起来做过什么修改了,造成PD很困难。运行命令:uptime和ls-1/etc/bosboot.sum,uptime应该小于/etc/bosboot.sum文件日期到当前的时间,否则就代表bootimage修改过后没有重启。系统性能:用vmstat、topas等命令进行简单的性能分析,检查是否有性能瓶颈。数据备份:数据

23、备份是客户的责任,数据备份包括操作系统备份和用户数据备份。操作系统备份是指ROOTVG的备份。系统备份要及时,它应能恢复操作系统崩溃前的正常工作状态。因此每当系统改变设置,安装PTF,调整应用程序等的前后都应做好系统备份。系统备份建议至少每季度做一次,手头至少保留两份系统备份带。用户数据备份包括数据库备份、应用程序代码备份、用户文件系统备份、TSM数据库备份等。用户数据备份建议每天做一次。检查用户数据备份是否能满足硬盘数据丢失后的恢复要求。检查用户备份介质是否标签明确、保存妥善。通信:用“ping”命令检查通信是否正常。用“netstat-rn”检查路由表是否正常。检查/etc/hosts文件

24、或DNS设置是否正常。数据是否已作保护为保证系统高可用性,建ROOTVG采用镜像保护方式。用“lsvg-lrootvg”检查是否ROOTVG上所有的逻辑卷已镜像。用“lslv-1lvname”命令检查逻辑卷的两份拷贝是否在不同的物理硬盘上。用户数据也应采取适当的保护方式,如RAID1/5/10、逻辑卷镜像和逻辑卷0+1等。如果客户采用逻辑卷镜像或逻辑卷0+1的方式,则应检查其新建的逻辑卷是否设置正确。系统DUMP设置(详细请参考AIX操作系统DUMP设置及收集指南):系统DUMP设备应该有足够大的空间,可用“sysdumpdev-e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。对于内存较大的机器,建议建立专用的DUMP设备(如果系统内存大于4GB,则AIX5L会自动建立专用的DUMP设备:/dev/lg_dumplv)。检查DUMP的拷贝目录(文件系统)是否有足够的空间(如果使用非内存交换区作为PrimaryDUMP设备,则无此要求)。如果要改变DUMP的拷贝目录(文件系统)则必须保证其建立在ROOTVG上。为确保系统挂机时可以做强制DUMP,请把“a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论