下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p系列、系统p预防性维护说明pp预防性维护说明国际商业机器〔中国〕文档编号:当前版本号:最初公布日期最修订日期:
3.12022年12月13日2022年9月2日IBM中国维护与技术效劳 1p系列、系统p预防性维护说明IBM中国维护与技术效劳 2p系列、系统p预防性维护说明一、硬件维护局部:检查机房环境:〔请参照IBM机房条件及各机型的具体要求〕温度:室内温度建议保持在22±2℃湿度:相对湿度应保持在50±5%电源:依据不同机型使用的电源有:200~240V沟通单相;380~415V沟通三相;-48V±5%直流,实测电压不应超出允许的范围。零线与火线不能反接,通常是面对插座的左边为零线,右边为火线。机器必需有良好的接地保护,地线的接地电阻要求小于1欧姆。因接地电阻测量需要专业仪器,因此以客户供给的测量数值为准,工程师只要确保机柜电源线的地线、机壳〔接上电源线后〕到建筑物接地端的电阻小于1(此处指的是双动力源供电,比方电力供给来自不同的发电厂,而不是指设备是不是有冗余电源),此外,需要记录假设是双动力源是否部署在了各自独立的PDU或者UPS上。干净度:机房应保持清洁且有良好的治理与维护。如机房太脏应提示客户留意。设备散热:设备进风口温度是否够低并有足够的气流。机房内设备的摆放是否符合冷热通道原则〔确定不能让设备排出的热空气排向其它设备的进风口〕。随机工具:对于59X/FHAR&V时需要用到的平台,滑轨等工具,巡检时应确认随机工具的当前存储状态,以备不时之需。检查系统硬件状况:先从外观上检查硬件状况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。高端效劳器,如p670/p690/p59x/FHA,应检查UEPO开关上的系统故障指示灯是否亮。同时检查BPCBPDBPRDCAMDA等电源子系统的Power-onPower-inPower-outEnableGreenLED等是否长亮。还要检查部件故障灯,如I/Odrawer、PCI卡,硬盘等。检查是否有人改装过IBM设备〔如拆掉面板、开口、拆掉过滤网、转变网络连接等〕。这些改装可能会影响设备的稳定运行,甚至带来严峻后果。对于高端Power5/Power6效劳器,还应检查其正面Lightstrip和反面Lightstrip。有安装的部件〔如CPUbook〕所对应的绿色LED应长亮。任何故障指示灯〔橙色〕都应不亮。同时留意主机的OperatorPanel,高端Power5/Power6或其它由HMC治理的机器应检查HMC图形界面的虚拟OperatorPanel。设备发生故障时通常伴有出错代码,必需把全部故障代码记录下来。除此以外还应留意有否其他特别状况〔如硬盘、风扇特别的声音、电缆破损、系统出风是否顺畅、气流是否由于异物遮挡而影响散热效果等〕。•IBM中国维护与技术效劳 3p系列、系统p预防性维护说明检查硬件错误报告errorlog:无HMC治理的系统可登录到AIXerrpt–dH”errpt–ajerr_id|more”diag-edhdisk1”。诊断程序可对故障记录中的SENSEDATA进展分析并给出SRN、SRC、FRU等。注:假设故障记录太多,应将故障报告取回作进一步分析。可用命令:“snap–r;snap–gc”用“mail”命令查看有否发给root用户的错误报告。用“alog–otboot”命令和“alog–otconsole”命令检查系统的启动记录和主控台的出错信息。对于Power5shutdown〔ServiceProcessor〕菜单检查故障记录。对于Power5、Power6、Power7主机,无须shutdown分区就可以进入ASMI菜单进行检查。有HMC治理的系统,可进入ServiceFocalPoint进展检查。HMCV6步骤如下:在ServiceFocalPoint名目下点击ManageEvents翻开ManageServiceableEvents窗口。单击OK,进入ServiceableEventsOverview窗口,里面记载了最近的错误日志。单击一条记录,再选择Selected菜单,选择ViewDetails,观察错误具体信息。IBM中国维护与技术效劳 4p系列、系统p预防性维护说明里Selected菜单,选择CloseEvent,关闭错误具体信息。HMCV7步骤如下:登录后直接点击屏幕左下角的扳手图标,接下来的步骤就跟HMCV6一样了。确认硬件问题解决后应关闭SystemAttentionLightHMCAIXdiagTaskSelection->选择IdentifyandAttentionIndicators->选择SetSystemAttentionIndicatortoNormal。有HMC治理的主机在图形界面下deactivate相关主机的AttentionLED.检查机器清洁度检查机器的清洁程度,如面板上会不会有很多灰尘。假设机器比较脏,或金属部件有腐蚀的迹象,则需要提示客户留意改善机房环境。有需要的话可以请IPR进展专业检测。IBM中国维护与技术效劳 5p系列、系统p预防性维护说明某些机型有空气过滤网,如7040/9119,长期使用可能需要更换,否则过滤网堵塞会影响散热效果。请依据实际状况打算是否更换。9119的过滤网安装在机柜前门,要确保3块过滤网都安装到位,并且机柜正面上下没有开口,全部冷却气流都应当经过滤网进入。风扇转动状况:从机器相应的散热口检查冷却气流的状态,特别需要留意是否风量小或者无冷却风。如有特别,应收IQYY并开出对应PMH。规律卷/硬盘检查用“lsvg–o|lsvg–il|grepstale”检查是否有stalestale状态规律卷应马上进展同步修复。是否有deconfig硬件资源:Power5以前的主机用“bindprocessor–q”命令检查是否有CPUdisable。用“lsattr–Elsys0”命令CPUGUARD是否设置正确。AIX5.2以前的版本CPUGUARDdisable的。通常系统/分区CPU数目≥3的就应当enableCPUGUARD〔AIX5.2或以上则CPU≥2时就应当enableCPUGUARD〕。内存用命令lsattr–Elmem0查看。有分区的机器有肯定内存overhead,具体计算参考pSeriesPlanningforPartitioned-SystemOperationsSA38-0626-00Power5、Power6、Power7主机登入ASMmenu->SystemConfiguration->HardwareDeconfiguration->ProcessorDeconfiguration和MemoryDeconfiguration检查是否有被deconfigured的CPU或内存。同时检查有无其他部件被deconfigured并做相应记录。DUMP信息〔具体请参考《AIX操作系统DUMP设置及收集指南》〕:DUMP设备应当有足够大的空间,可用“sysdumpdev–eDUMP的大小以检验DUMPDUMP〔假设系统内存大于4GB,AIX5L会自动建立专用的DUMP设备:/dev/lg_dumplv〕。检查DUMP的拷贝名目〔文件系统〕是否有足够的空间〔PrimaryDUMPDUMP〔文件系统ROOTVG上。为确保系统挂机时可以做强制DUMP,请把“alwaysallowdump”设成“TURE”,可在线修改。DUMP压缩功能除了可以节约空间外AIX做DUMP(默认是关闭),命令为sysdumpdevC,可在线修改。网络通信:检查网卡状态、IP地址是否正常。通常不建议使用自适应速率〔千兆以太网除外〕,网卡的设置应与交换机端口的设置匹配。用“ping”命令检查网卡通信是否正常,如是否丢包,速度是否正常等。用“netstat–rn”检查路由表是否正常。检查/etc/hosts文件或DNS设置是否正常。SSA/SCSI/SASRAID状态〔IBM存储效劳器请参考存储设备检查指南〕:IBM中国维护与技术效劳 6p系列、系统p预防性维护说明磁盘阵列通常承受RAID1/RAID5/RAID10等数据保护方式。不建议客户使用RAID0的方式,在RAID0方式下数据没有任何保护。检查磁盘阵列中的RAID盘是否有坏盘,是否有degrade的状况。检查磁盘阵列的cache是否翻开。热备盘〔hotspare〕盘可以提高磁盘阵列的牢靠性,猛烈建议设置热备盘。以内置SASRAID为例步骤如下:检查DiskArray状态:#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->ListIBMSASDiskArrayConfiguration检查SAS通道状态:#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->DiagnosticsandRecoveryOptions->ShowSASControllerPhysicalResources检查cache电池状态:#diag->TaskSelection->RAIDArrayManager->IBMSASDiskArrayManager->DiagnosticsandRecoveryOptions->ControllerRechargeableBatteryMaintenance->DisplayControllerRechargeableBatteryInformationLIC版本信息查看并且记录系统当前的微码版本以及HMC〔BPA的微码版本〕RIO连接状况HMC上查看RIOTopology状态,留意检查环路状态及速率。磁带机是否需要清洗:磁带机/磁带库是重要的数据备份设备,应定期清洗。不同的磁带机/磁带库有不同的清洗间隔,请查阅相关手册。某些磁带机可用“/usr/lpp/diagnostics/bin/utape-cdrmt0-n“命令查看磁带机使用时数。Systemreadinesscheck检查〔power5及以后机型〕Power5及以后机型需要做systemreadinesscheck并记录结果。强制ECA信息依据不同阶段公布的ECA列表,检查对应机器是否存在需要进展的强制ECA,应记录对应的ECA号码及完成状态。ServiceAgent是否设置:我们建议给全部的保修期/MA客户都安装ServiceAgent,并激活其自动报修功能。ServiceAgent安装后应保持可以与IBMSDRcallhomeemailnotification,SNMPIBM中国维护与技术效劳 7p系列、系统p预防性维护说明监控或者SystemDirector监控。以下数据是否已经收集:AIXsnap文件ASMIerrlog文件RIOTopology文件硬件dump文件其他日志文件〔iqyy等〕硬件检查完成后必需填写《RS/6000及p系列系统预防性维护效劳报告单〔硬件局部〕》,对于检查中觉察的问题必需准时解决。IBM中国维护与技术效劳 8p系列、系统p预防性维护说明二、软件维护局部〔仅适用于有软件维护协议的客户〕:软件错误报告:用“errpt–dS”命令检查系统的软件出错报告。假设故障记录太多,应将故障报告取回,作进一步分析。用“mail”命令查看有否发给root用户的错误报告。用“alog–otboot”命令和“alog–otconsole”命令检查系统的启动纪录和主控台的出错信息。检查HACMP、TSM等软件的LOG看有否不正常的地方。检查文件系统查看有没有“满”AIX的根本文件系统。如/(根文件系统)满则会导致用户不能登录。关键文件系统的使用率不应当超过80%(/usr除外),且剩余空间最好大于200MB系统有关于文件系统错误的报告则应用“fsck”命令对文件系统进展检查修复。JFSLOG的大小与文件系统的比例应为:1个PP的LOG治理512个PP的文件系统。假设JFSLOG不够大则应扩大,但JFSLOG不应超过256MB。假设太多的文件系统使用同一个LOG则会影响性能,应考虑不同的文件系统使用不通的JFSLOG。检查规律卷:用“lsvg–o|lsvg–il|grepstale”检查是否有stale状态的规律卷。如有stale状态规律卷应马上进展同步修复。内存交换区(pagingspace):AIX4.3.3以后对内存交换区的使用机制与旧版本已经不一样。内存交换区的大小与物理内存的大小并用率超过70%,则需要扩大。某些数据库厂家或应用开发商可能对内存交换区有特别要求,请询问相关厂商或开发商。增加内存交换区并不会提高性能,内存交换区使用偏高通常是由于物理内存缺乏造成的,所以升级物理内存才是解决之道。交换区不应设置在rootvg以外的卷组。从性能上考虑,每个硬盘上应当只有一个内存交换区,并且全部内存交换区的大小应当全都。假设rootvg是承受镜像保护的,则内存交换区也必需镜像。假设rootvg有固态硬盘则建议把内存交换区放在固态硬盘上以提高性能。IBM中国维护与技术效劳 9p系列、系统p预防性维护说明bootimage是否修改正而没有重启:bootimage修改正应当重启AIX,比方安装了的补丁或者运行了bosboot命令等。有些案例,客户做了某些修改而没有重启AIX,等几个月之后重启AIX的时候才觉察无法启动。这时候已经想不起来做过什么修改了,造成PD很困难。运行命令:uptime和ls–l/etc/bosboot.sum,uptime应当小于/etc/bosboot.sum文件日期到当前的时间,否则就代表bootimage修改正后没有重启。系统性能:用vmstat、topas等命令进展简洁的性能分析,检查是否有性能瓶颈。数据备份:ROOTVG的备份。系统备份要准时,它应能恢复操作系统崩溃前的正常工作状态。因此每当系统转变设置,安装PTF,调整应用程序等的前后都应做好系统备份。系统备份建议至少每季度做一次,手头至少保存两份系统备份带。TSM数据库备份等。用户数质是否标签明确、保存妥当。通信:用“ping”命令检查通信是否正常。用“netstat–rn”检查路由表是否正常。检查/etc/hosts文件或DNS设置是否正常。数据是否已作保护为保证系统高可用性,建议ROOTVG承受镜像保护方式。用“lsvg–lrootvg”检查是否ROOTVG上全部的规律卷已镜像。用“lslv–llvname”命令检查规律卷的两份拷贝是否在不同的物理硬盘上。用户数据也应实行适当的保护方式,如RAID1/5/10、规律卷镜像和规律卷0+1等。假设客户承受规律卷镜像或规律卷0+1的方式,则应检查其建的规律卷是否设置正确。系统DUMP设置〔具体请参考《AIX操作系统DUMP设置及收集指南》〕:系统DUMPsysdumpdev–e”命令估量系统DUMP的大小以检验DUMPDUM〔4G会自动建立专用的DUMP设备:/dev/lg_dumplv〕。IBM中国维护与技术效劳 10p系列、系统p预防性维护说明检查DUMP的拷贝名目〔文件系统〕是否有足够的空间〔PrimaryDUMP设备,则无此要求〕。假设要转变DUMP的拷贝名目〔文件系统〕则必需保证其建立在ROOTVG上。为确保系统挂机时可以做强制DUMP,请把“alwaysallowdump”设成“TURE”,可在线修改。DUMP压缩功能除了可以节约空间外,还可以大大缩短AIX做DUMP的时间,建议翻开(默认是关闭),命令为sysdumpdevC,可在线修改。补丁程序(PTF)检查检查的范围包括操作系统补丁、HACMP补丁、TSM补丁等。检查系统补丁是否符合客户Fixes策略要求。具体承受什么版本请参考最的《FixesSuggestionLetter》,并与客户协商打算。收集snappackage存档运行“snap-r;snap–gfkbLc”,取回/tmp/ibmsupt/snap.tar.Z或/tmp/ibmsupt/snap.pax.Z文件存档。收集LVM信息(主要是LVMAPING信息)有助于日后系统出问题时数据恢复。留意:检查/tmp文件系统剩余空间最好不要小于200M。IBM中国维护与技术效劳 11p系列、系统p预防性维护说明不同预防性维护周期建议的工作内容的是每个月。不同的预防性维护周期建议承受不同的维护内容,具体入下表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025店面租房合同的范文
- 深圳保姆雇佣合同范例
- 医用扶手合同范例
- 插画电子约稿合同范例
- 托盘贸易合作合同范例
- 乡村饮料配送合同范例
- 打工安装家具合同范例
- 教育培训收款合同范例
- 美食培训合同范例
- 纺织聘用合同范例
- 学前儿童卫生与保健-期末大作业:案例分析-国开-参考资料
- 2023-2024学年河北省廊坊十八中八年级(上)期末数学试卷
- 小学高段数学作业设计有效性的实践与研究中期报告(合集五篇)
- GB/T 44500-2024新能源汽车运行安全性能检验规程
- 劳动教育智慧树知到期末考试答案章节答案2024年上海杉达学院
- (正式版)SHT 3046-2024 石油化工立式圆筒形钢制焊接储罐设计规范
- 生涯职业发展展示
- 新人教版五年级小学数学全册奥数(含答案)
- 30题调度员岗位常见面试问题含HR问题考察点及参考回答
- 食材配送投标服务方案
- 【股票指标公式下载】-【通达信】六脉神剑(底部来临止跌牛势股票)
评论
0/150
提交评论