IBM小型机维护指导书V_第1页
IBM小型机维护指导书V_第2页
IBM小型机维护指导书V_第3页
IBM小型机维护指导书V_第4页
IBM小型机维护指导书V_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 江西建行IBM小型机日常维护 第一篇:日常维护部分 第二篇:故障处理部分 第三篇:安图特公司技术支持电话第一篇 日常维护部分目 录第1章AIX系统管理日常工作(检查篇)11.1常用的命令11.2语法介绍11.2.1vmstat:检查内存、CPU、进程状态11.2.2sar:检查CPU、IO21.2.3PS:检查进程状态命令31.2.4svmon:显示进程占用内存31.2.5iostat:显示磁盘IO41.2.6netstat, entstat:显示网卡信息41.2.7no:显示tcpip参数设置51.2.8其它命令5第2章AIX系统管理日常工作(LV篇)62.1IBM AIX系统管理的日常工

2、作62.1.1开关机步骤62.1.2用户组及用户管理62.1.3文件系统维护62.1.4系统日常管理72.1.5系统备份72.1.6定时清洗磁带机72.1.7定时检查设备指示灯状态72.1.8简单故障的判断72.1.9熟悉ibm aix操作系统72.2关于IBM AIX的逻辑卷管理72.3LVM命令8第3章AIX系统管理日常工作(关键参数检查篇)103.1AIO参数检查103.2磁盘阵列queue_depth参数检查113.3用户参数检查113.4激活SSA Fast-Write Cache123.5IO参数设置123.6syncd daemon的数据刷新频率123.7检查系统硬盘的镜像12第

3、4章AIX系统管理日常工作(性能分析篇)134.1性能瓶颈定义134.2性能范围14第5章AIX系统管理日常工作(SHUTDOWN篇)145.1概念145.2关机命令14第6章AIX系统管理日常工作(备份与恢复篇)156.1用SMIT备份156.2手工备份156.3恢复系统15第7章HACMP的 双机系统的管理和维护157.1HACMP 双机系统的启动157.2HACMP 双机系统的关闭167.3察看双机系统的当前状态167.4HACMP环境下的排错177.4.1了解问题的存在177.4.2判断问题的出处18第1章 AIX系统管理日常工作(检查篇)1.1 常用的命令CPUMemoryDiskN

4、etwork标准UNIX命令(包括HP、SUN等)vmstat, sar, psvmstat, psiostat, sar, vmstat, netstat, nfsstatAIX 详细输出Tprofsvmon, rmssfilemon, fileplaceentstatAIX 非常详细输出syscalls, trace, emstat tracetracetrace, iptrace分析工具topastopastopasTopas1.2 语法介绍1.2.1 vmstat:检查内存、CPU、进程状态# vmstat 1 15 kthr memory page faults cpu - - -

5、- - r b avm fre re pi po fr sr cy in sy cs us sy id wa 1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 34 0 2 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 120 317 126 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 0 0

6、2 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 135 316 127 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 133 304 127 99 0 0 0r:正在运行的进程b:被阻挡的进程avm:活动的虚内存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2 sar:检查CPU、IO例如

7、:sar -u 1 30sar -P ALL 1 10语法:sar -abckmqruvwyA inteval repetition-b buffer 活动-c 系统调用-k 内核进程统计.-m 消息及信号量活动-q 正在运行的队列数及等待队列数-r 页交换统计-u CPU利用-P CPU负载.1.2.3 PS:检查进程状态命令ps:显示当前SHELL重所有进程ps -ef :显示系统中所有进程,f显示更详细信息ps -u oracle: 显示oracle用户进程ps emo THREAD:显示线程信息ps au;ps vg:按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(

8、进程启动)1.2.4 svmon:显示进程占用内存svmon G:显示系统占用内存svmon -C command_name:显示某个用户进程占用内存svmon -P pid显示某个进程占用内存svmon S:显示段占用内存1.2.5 iostat:显示磁盘IOtty: tin tout avg-cpu: % user % sys % idle % iowait0.0 4.0 0.9 1.3 95.4 2.5 Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 4

9、28 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6 netstat, entstat:显示网卡信息netstat en0:显示

10、en0信息netstat s:显示网络信息netstat -m显示网络 stat -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7 no:显示tcpip参数设置no a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置tcp_keepalivetime等于3600000秒no d 恢复默认值注:该方法在重启后失效1.2.8 其它命令检查文件系统df -k检查设备lsdev -C检查物理卷lspv检查交换区lsps -a检查配置lscfg -vp检查软件lslpp -l检查用户who第2章

11、 AIX系统管理日常工作(LV篇)2.1 IBM AIX系统管理的日常工作系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:2.1.1 开关机步骤在系统管理员控制下进行正确的操作。(第5章有专门介绍)2.1.2 用户组及用户管理2.1.3 文件系统维护发现文件系统已满,应及时删除无用文件或扩大文件系统。查看文件系统使用率命令:df k ,查看%Used和%IusedFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 32768 20180 39% 2070 13% /dev/h

12、d2 2293760 1230984 47% 33045 6% /usr/dev/hd9var 32768 15832 52% 367 5% /var/dev/hd3 32768 23300 29% 110 2% /tmp/dev/hd1 32768 31384 5% 72 1% /home/dev/informixlv 524288 199060 63% 3521 3% /home/informix注意系统文件系统中的/ /var /tmp使用率不要超过902.1.4 系统日常管理系统管理员最好用 smit来进行系 统管理。Smit是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操

13、作简便。2.1.5 系统备份备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下:A. 每一台机器的操作系统至少有一个全备份。B. 每天备份用户数据。C. 操作系统配置修改后重新备份操作系统。(系统备份方法在第六章专门介绍)2.1.6 定时清洗磁带机可以每月定时清洗一次,将清洗带插入磁带机,清洗完毕后会自动退出磁带。当磁带机需要清洗时,磁带机左边第一个起绿色指示灯会亮。2.1.7 定时检查设备指示灯状态RS6000小型机出现硬件故障时,系统前面板上会亮一个橙色的告警灯。液晶面板上面会有显示错误代码2.1.8 简单故障的判断详细信息见“第二部分:故障处理指导书”2.1.9 熟悉ibm ai

14、x操作系统2.2 关于IBM AIX的逻辑卷管理IBM AIX 存储管理的五个基本概念:物理卷Physical Volume,称为PV:指物理上硬盘,一个硬盘就是一个PV,名字为HDISK0、HDISK1。物理分区(Physical Partitions):物理卷被划分成大小一样的物理分区PPs逻辑卷组 Logical Volume Group,称为VG:一个VG包含整数个PV,可理解为一个大硬盘。逻辑卷 Logical Volume,称为LV:相当于对大硬盘进行逻辑分区, 一个VG里可有若干个LV,对用户讲,LV上的数据是连续的,但PV上的数据可能是分散的。逻辑分区(Logical Part

15、itions):每个LV有若干逻辑分区(LPs)组成,每个逻辑分区至少有一个PV组成。文件系统 File System:在逻辑卷的基础上,可建立文件系统JFS,然后 MOUNT到一个目录下,这样就可以文件存取的方式来使用这块硬盘了。当然,您也可以不建文件系统,而直接把LV当作裸设备,以TRUNK方式来存取数据,许多数据库都是用这种方式存取数据。LVM的关系如下图:2.3 LVM命令一般采用smit命令可对PV、VG、LV、JFS等进行图形化管理,命令如下:smit lvm屏幕显示如下:Add a Logical Volume Logical volume NAME scratch* VOLUM

16、E GROUP name testvg* Number of LOGICAL PARTITIONS 64 # PHYSICAL VOLUME names hdisk1 hdisk2 hdisk3 +Logical volume TYPE jfsPOSITION on physical volume middle +RANGE of physical volumes minimum +MAXIMUM NUMBER of PHYSICAL VOLUMES #to use for allocationNumber of COPIES of each logical 2 +partitionMirro

17、r Write Consistency? yes +Allocate each logical partition copy yes +on a SEPARATE physical volume?RELOCATE the logical volume during yes +reorganization?Logical volume LABEL MAXIMUM NUMBER of LOGICAL PARTITIONS 512 #Enable BAD BLOCK relocation? yes +SCHEDULING POLICY for reading/writing parallel +lo

18、gical partition copiesEnable WRITE VERIFY? no +File containing ALLOCATION MAP Stripe Size? 64K 行命令:.lsvg:查看vg名字查看vg详细信息: lsvg <vgname>查看vg内的LVs: lsvg -l <vgname>查看vg内的PV: lsvg -p <vgname>查看激活的VG: lsvg o. lspv:查看物理卷组pg名字查看PV 详细信息: lspv hdiskN查看PV内的LVs lspv -l hdiskN查看PV内的PP : lspv -

19、p hdiskN. lslv:查看LV的信息查看 LV 名字: lsvg -l <vgname>查看LV 详细信息: lslv <lvname>查看PV 内的LVs : lslv -l <lvname>查看PV 内的 PP : lslv -p <pvname>查看镜像的 LV: lslv -m <lvname>第3章 AIX系统管理日常工作(关键参数检查篇)3.1 AIO参数检查# lsattr -El aio0minservers X MINIMUM number of servers Truemaxservers 80 MAXIM

20、UM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart Truefastpath enable State of fast path Truel MaxServers = 10 * number of disks l MinServers = MaxServers /2 其中MaxServers最大为80可用命令#smitty

21、 aioà Change / Show Characteristics of Asynchronous I/O修改相应的值。3.2 磁盘阵列queue_depth参数检查假设DATAVG的RAID盘为hdisk2# lsattr -El hdisk2pvid 00019081a0dc91ea0000000000000000 Physical volume identifier Falqueue_depth 8 Queue depth Truequeue_depth值设置为7133硬盘个数可用命令#chdev l hdisk2 a queue_depth=x修改,但VG必须为VARYO

22、FF状态。3.3 用户参数检查#smitty chlicense修改Maximum number of FIXED licenses为10#lsattr -El sys0|grep maxuprocmaxuproc 200 Maximum number of PROCESSES allowed per user True用#smitty chgsys修改利用lsattr -Elsys0 检查maxuproc, minpout, maxpout等参数的大小。maxuproc为每个用户的最大进程数,当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33, minpout设

23、为16,利用smitty chgsys来设置。3.4 激活SSA Fast-Write Cache利用smitty ssafastw来激活每一个逻辑盘hdiskn的Fast-Write Cache:选择硬盘后,把Enable Fast-Write一项改为Yes后回车即可。对于OPS必须关闭,对于GAILOVER或单机必须打开。3.5 IO参数设置 High water mark for pending write I/Os per file(maxpout) 和Low water mark for pending write I/Os per file它们缺省值为0,在双机环境中一般应设Hig

24、h water mark为33,Low water mark为24,这两个参数可用smitty chgsys来设置。3.6 syncd daemon的数据刷新频率该值表示刷新内存数据到硬盘的频率,缺省为60,一般可改为20,也可根据实际情况更改。该参数通过vi /sbin/rc.boot更改,其中一行如下:nohup /usr/sbin/syncd 60 >/dev/null 2>&1 & 改为:nohup /usr/sbin/syncd 20 >/dev/null 2>&1 &3.7 检查系统硬盘的镜像#lsvg l rootvgroo

25、tvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tm

26、phd1 jfs 1 2 2 open/syncd /home注意:PPs 为LPs的两倍,PVs为2如果系统盘未镜像,而系统盘为18G盘,用命令镜像# mirrorvg rootvg hdisk0 hdisk1(对rootvg进行镜像)# bosboot a(在两块盘上重建bootimage)# bootlist m normal hdisk0 hdisk1(设置机器的启动顺序)第4章 AIX系统管理日常工作(性能分析篇)4.1 性能瓶颈定义项目 检查命令 判断标准CPU vmstat %user + %sys greater 大于 75%Disk I/O vmstat %iowait 大于

27、 30% (AIX 4.3.3 or later)应用程序磁盘 iostat %tm_act 大于 60%交换区 lsps -a 大于60% 页交换数量 iostat vmstat 大于10×CPU数量 4.2 性能范围 好 坏 极差CPU 60% 75% 90%+Disk <30% <40% <50%+Memory 0 10 pages/秒CPU >50第5章 AIX系统管理日常工作(SHUTDOWN篇)5.1 概念IBM AIX的启动分为多用户(normal)和单用户(service)模式,在正常情况下,一般选择多用户模式。5.2 关机命令快速关机,不警告

28、用户shutdown -F ;halt快速关机并重启shutdown Fr;reboot警告一分钟后关机并重启shutdown -r 发送关机命令,但不关机shutdown -k关机并警告用户推出Shutdown now关机到单用户模式Shutdown m;init s;telinit s第6章 AIX系统管理日常工作(备份与恢复篇)6.1 用SMIT备份#smitty mksysb进行系统备份当COMMAND STATUS页面中Command: OK出现后,表示备份成功。取出制作完毕的磁带,在磁带上的标签上注明备份机器的名称和序列号6.2 手工备份# mksysb i /dev/rmt06.

29、3 恢复系统bootinfo e检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。插入备份带,检查设备启动顺序:bootlist m service o如果需要,将启动顺序改为从磁带启动:bootlist m service rmt0重启机器,系统从磁带读数据,根据提示恢复系统。第7章 HACMP的 双机系统的管理和维护7.1 HACMP 双机系统的启动要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令 行上执行下述命令即可。 # smit clstart 或 # /usr/sbin/cluster/et

30、c/rc.cluster -boot -N -i注:在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源,后启动的节点将成为备用节点。7.2 HACMP 双机系统的关闭要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权,以root 用户进入到该节点主机在命令行上执行下述命令即可。 # smit clstop 或 # clstop -gr 说明:若该节点是主节点并且备节点上的HACMP 软件亦正常运行,则clstop 关闭模式的三种选项行为不同。 。 forced: 是指立即关闭双机软件不调用任何客户应用的善后处理例程。 。graceful 是指在关闭双机软件时将

31、调用客户应用预定义的善后处理例程。 。takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管。 检查HACMP 双机软件在该节点是否已启,动命令如下: # lssrc -g cluster 若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动. Subsystem Group PID Status Clstrmgr cluster 22500 active Clsmuxpd cluster 23674 active Clinfo cluster 28674 active7.3 察看双机系统的当前状态 # /usr/sbin/cluster/clstat -a 如果双

32、机系统一切工作正常则系统将显示下述类似信息:clstat - HACMP for AIX Cluster Status Monitor-Cluster: cluster(80) Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: oracle1 State: UPInterface: oracle1_svc (0) Address: 1State: UPInterface: oracle1_tty (1) Address: State: UPNode: oracle2 Sta

33、te: UPInterface: oracle2_svc (0) Address: 1State: UPInterface: oracle2_tty (1) Address: State: UP7.4 HACMP环境下的排错在一般情况下,HACMP 软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP 的理解来恢复HACMP的正常运作.一般地,HACMP 环境下的排错包括:.了解问题的存在.判断问题的出处.解决问题.7.4.1 了解问题的存在您可以通过以下途径了解到一个CLUSTER 环境下出现了问题.最

34、终用户的投诉,他们无法访问应用程序.控制台上出现一些HACMP 的信息.1.应用服务无法访问最终用户的抱怨通常预示CLUSTER 出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP 有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA 排错的一部分.2.控制台上出现一些HACMP 的信息在HACMP 启动,终止或出错时,控制台上会出现一些HACMP 的信息,

35、同时也会写入相应的文件中.7.4.2 判断问题的出处当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.1.保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖.2.仔细检查HACMP 所产生的LOG 文件.它们能提供最初的判断线索.3.用HACMP 的工具和AIX 的命令来检查HACMP 的部件是否正常.4.打开HACMP 的跟踪工具来产生更详细的信息.HACMP 的LOG 文件:以下文件都是文本文件,可以用VI 来看.每个日志文件都含有每个信息的产生时间./usr/adm/c

36、luster.log :记录了HACMP 的状态,由HA 的守护进程所产生./tmp/hacmp.out :记录了HA 的详细脚本./usr/sbin/cluster/history/cluster.mmdd :记录了HA 的各个事件的发生./tmp/cm.log :由clstrmgr 进程产生,每次HA 重起时会被覆盖.HACMP FOR AIX 的结构应用层HACMP 软件层LVM & TCPIP 层AIX 层物理网络层物理硬盘层硬件层在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用e

37、rrpt 命令来看没有类型为PH 的错误,lsvg -o 来看我们所须的VG 已varyon,mount 来看我们所须的文件系统已安装, netstat -i 来看我们所须的service IP 是UP 的状态(或用ifconfigen*),cluster node 之间的service 与service IP ,standby 与standby IP 互相可以ping 通.在各个节点上执行stty<</dev/tty* 有相应的信息出现.说明硬件层,LVM & TCPIP 层,AIX 层没有问题,问题可能出现在应用层与HACMP 软件层上.否则问题就出现在相应的层次上.在

38、HACMP 软件层上,我们可以用vi /tmp/hacmp.out 来看,如果出现eventfailed 的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out 无信息出现,则问题可能出现在应用层.以下是HA 排错的一些守则:.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件.尝试去重复问题的出现.不要被用户所反映的问题迷惑.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.由简到繁地做测试,我们先从一个简单的环

39、境来做测试,不要尝试在一个复杂的环境中测试.一次做一次改动,否则我们无法知道是那个改动解决了问题.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等.保持各种测试的记录以及解决的步骤,用做将来排错的参考.。拨打技术支持工程师电话,到现场解决问题。第二篇:故障处理部分目 录第1章故障的定义21第2章故障信息的收集222.1收集故障信息对于判断诊断故障原因修复系统非常重要222.2系统故障记录(errorlog)222.3控制面板上的LED 代码242.4SMS (System Management Service) 故障记录252.5MAIL252.6运行故障诊断程序(D

40、iagnostic) 对系统硬件进行检查和诊断252.7其他用于收集系统信息的命令25第3章硬件故障定位方法283.1IPL 流程283.2系统的启动顺序:293.3系统不能启动303.4系统停在551555或557303.5CDE图形界面挂死313.6系统dump32第4章7133-D40SSA磁盘柜的故障定位33第5章软件故障定位方法345.1文件系统空间不够345.2检查文件系统的完整性355.3查看卷组信息(lsvg-lvg_name)355.4检查内存交换区(pagingspace)使用率(lsps-s)355.5小型机内存泄漏问题35第6章常用的系统状态查询命令37第7章网络故障定

41、位方法387.1网络不通的诊断过程387.2网络配置的基本方法38第8章HACMP环境下的排错398.1了解问题的存在398.2判断问题的出处40第9章附常用命令列表错误!未定义书签。第1章 故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第2章 故障信息的收集2.1 收集故障信息对于判断诊断故障原因修复系统非常重要2.2 系统故障记录(errorlog)errd

42、emon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 err

43、demon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt

44、 -aj 0502f666 <- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product DataDevice Driver Level00Diagnos

45、tic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVEReco

46、mmended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00002.3 控制面板上的LED 代码8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4 位代码通常是Exxx3 位代码通常为0yyy 只看后3位8 位和4位代码可查看系统服务手册(Service Guide)3 位代码可查看系统诊断手册(Diagno

47、stic Information for Multiple BusSystem)闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或105硬件故障一般有SRN 代码及位置代码2.4 SMS (System Management Service) 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1时)按1键选择"Utilities&

48、quot;选择"Error Log", 抄下8位故障代码在SMS 中还可以更改系统启动顺序表2.5 MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root2.6 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag> 选高级诊断Advance Diagnostic)> 选问题诊断Problem Determination) 或选系统检查System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析2.7 其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论