AIX简单故障维护手册_第1页
AIX简单故障维护手册_第2页
AIX简单故障维护手册_第3页
AIX简单故障维护手册_第4页
AIX简单故障维护手册_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AIX简单故障维护手册1 查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。2 查看系统故障记录收集信息errdemon进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。也可以使用errpt命令来查看(普通用户权限也可使用)#errpt|more列出简短出错信息ERROR_IDTIMESTAMPT

2、CRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P永久;T临时;U未

3、知(永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息#errpt-aj0502f666<-ERROR_ID用大小写均可3控制面板上的LED代码.一般为8位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。.4位代码,通常是Exxx。.3位代码,通常为0yyy,只看后3位。.8位和4位代码可查看系统服务手册(ServiceGuide)。3 位代码可查看系统诊断手册(DiagnosticInformationforMultiple

4、BusSystem)。.闪动的888,系统崩溃,硬件或软件原因造成。按reset键会显示更多内容。888-102一般为软件故障(888-102-207例外)系统会产生一个dump。888-102-xxx-0C9系统正在做dump,请等待。888-102-xxx-0C0系统dump完成,可关电重启。888-103或105硬件故障,一般有SRN代码及位置代码。4 SMS(SystemManagementService)故障记录当主控台出现键盘图标后(LED显示E1F1时)按1键。进入SMS菜单选择"Utilities"选择"ErrorLog",抄下8位故障代

5、码(在SMS中还可以更改系统启动顺序表)5 MAIL#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。6 运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag#diag>选高级诊断(AdvanceDiagnostic)>选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag

6、程序对出错记录里的sense数据进行分析。7查看系统重要记录日志在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明a系统启动日志系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载,后台进程的启动等信息。这些信息在错误日志没有完整的记录,但是通过查看启动日志,可以得到详细的信息。查看系统启动日志的命令为alogotbootbsmit.logsmit.log记录了通过smit菜单执行命令的过程和结果信息。通过查看smit.log可以知道在系统上进行操作

7、的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故障。Smit.log在系统根目录下,通过cat命令就可以查看。cHACMP.OUTHacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。查看hacmp.out文件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。二判断故障类别1硬件故障通常将硬件故障分为以下几个类别IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRN。Checkpoints检查点是系统加电CMOS初始化程序(initialprogramload(IPL)运行后显示在I/O柜的

8、显示面板上一系列信息。IPL流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase1:ServiceProcessor的初始化Phase1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示8xxx或9xxxcheckpoints代码.Phase2:由ServiceProcessor引导的硬件初始化Phase2开始于按下I/O柜上的白色电源开关。在这个步骤会显示9xxxcheckpoints。91FF是最后的代码标志着第三步骤的开始.Phase3:系统固件的初始化在Phase3,一个系统处理器接管控制并继续初始化系统资源,在这个步骤会

9、显示Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分).Phase4:AIX启动当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。ErrorCode当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。SRNs(Servicerequestnumbers,服务请求码)当系统运行有错误发现时,SRNs码会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会有记

10、载。用diag命令进行检测,diag步骤如下:#diag>选高级诊断(AdvanceDiagnostic)>选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等2操作系统故障系统无法正常操作,命令无法正常执行,或者系统频繁的报系统问题,都有可能是操作系统故障造成的。软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。1)文件系统空间不够。查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致

11、系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。用df-k查看。# df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%/dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home除/usr文件系统,其他文件系统都不应太满,一

12、般不超过80%。处理方法1:删除垃圾文件# du-sk*|sort-rn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。处理方法2:增加文件系统大小# smittychjfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。2)检查文件系统的完整性# umountfilesystem_name# fsck-yfilesystem_name

13、注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。3 )查看卷组信息(lsvg-lvg_name):有没有"stale"状态的逻辑卷。若有,用syncvg命令修复"stale"逻辑卷。4 )检查内存交换区(pagingspace)使用率(lsps-s):使用率是否超过70%,若有则用chps-sXpgname增加X个PP或用mkps-a-n-sXmyvg在myvg上增加一个PP数为X的内存交换区。外连设备故障与RS6000机器相连的其他设备发生故障时,会对主机造成影响,从而引发故障。比如网络交换机故障,外置存储故障等等。常见故障记录

14、汇总5 机器电源故障故障:查看IBM服务器如果前面板上有黄色报警灯亮起,并且在服务器电源处电源灯亮黄色报警灯或者有不正常闪烁。在在AIX系统中用#errpt-aj|more命令查看到有描述为“powererror”级别显示为“H”类型显示为“P”。分析:按照该ERRPT报错信息与服务器面板及其电源外部报警灯显示情况,可以确定服务器电源出现硬件故障,必须进行更换。按照服务器的不同机器类型可以采取停机更换电源和不停机更换电源的方法。解决:更换该出现故障的电源。6 机器环境故障故障:在AIX系统中用#6邛1-a|more命令查看到有描述为“TEMPERATUREUNACCEPTABLE”级别显示为“

15、H”类型显示为“P”。分析:按照该ERRPT报错信息可以确定服务器运行的环境不在健康的环境中,机房温度过高,不符合在20摄氏度的环境中。解决:使服务器所在的机房环境达到20摄氏度恒温状态。7 文件系统故障故障:在AIX系统中用#errptamore命令查看到有描述为“FILESYSTEMCHECKREQUIED”级别显示为“H”类型显示为“P”。并且说明某个文件系统需要用fsck命令进行check。分析:按照该ERRPT报错信息可以确定该文件系统存在故障,需要人工对其文件系统进行fsck操作,从而确保数据的安全性、可靠性和可用性。解决:停应用后进行fsck该文件系统。故障:发现硬盘无法进行写操

16、作。分析:对数据库所在的物理硬盘进行写文件操作,如果写文件操作失败,从而确定该物理硬盘有故障发生,必须及时更换。解决:停数据库后进行物理硬盘的更换。6 Ssa卡电池故障故障:在系统中用errpt命令查看错误日志,发现有大量ssaadapter报错,错误级别显示为“H”类型显示为“P”。错误信息为ssaadapterperformancedegrade。分析:对ssaadapter运行diag,返回SRN代码为4252A根据IBM资料,信息如下:4252ADescription:ThesupplyvoltagetotheFast-WriteCacheOptionCardislow.Thecard

17、hasswitchedtoSelf-Refreshmode.Action:Inthesequenceshown,exchangetheFRUsfornewFRUs.PossibleFRUs:Fast-WriteCacheOptionCard(90%)(“RemovingtheFast-WriteCacheOptionCardofanAdvancedSerialRAIDAdapter”onpage332).SSAadaptercard(10%)根据此信息,判断是raid卡上cache电池电量不足,需更换电池。7 磁带机故障故障:磁带机面板上亮黄灯。分析:磁带机磁头脏,导致读盘不正常,或无法读盘。

18、解决:用清洗带清洗磁头8 文件空间无法释放故障:某个日志文件不停增大,在线清空文件后,空间仍未释放分析:在线清空文件时,系统对文件存储指针没有被更新,所以空间没有被释放解决:umount该文件所在的文件系统,对该文件系统进行fscky即可9 机器启动故障故障:机器重新启动之后,IP地址没有被加载,tcp/ip的后台进程没有启动分析:查看系统boot日志(alog-o寸boot),发现系统启动调用文件时报错,错误信息为permissiondenied,检查的权限,发现已被更改,无执行权限解决:将的权限更改为544故障:一台P630,划分两个lpar,发现只能同时启动一个lpar,另外一个lpar无法启动,错误信息为alreadyhasaserviceauthoritypartition分析:在partition属性中有一个serviceauthority的选项,选上之后说明微码升级时是通过该分区进行。一台机器的所有lpar上只能有一个分区有这个选项属性。查看两个分析属性之后,发现两个分区都有这个属性,所以引起冲突,只能有一个可以启

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论