IBM rs6000小型机故障的基本定位方法_第1页
IBM rs6000小型机故障的基本定位方法_第2页
IBM rs6000小型机故障的基本定位方法_第3页
IBM rs6000小型机故障的基本定位方法_第4页
IBM rs6000小型机故障的基本定位方法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、RS/6000小型机故障的基本定位方法一 故障的定义.弄清楚系统发生了什么问题.系统现在能做什么不能做什么.故障什么时候发生的 .有没有做平时不同的操作.故障有没有规律定时还是不定时发生的频率有多高.是一台机器出现故障还是多台机器故障故障现象是否相同.最近有没有做改动如安装了新的硬件软件改变了系统的一些设置二 故障信息的收集1 收集故障信息对于判断诊断故障原因修复系统非常重要2系统故障记录(errorlogerrdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户

2、权限也可使用 #errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED 1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 04

3、05130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequen

4、ce Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 选高级诊断Advance Diagnostic 选问题诊断Problem Determination 或选系统检查System Verification(选PD 会对系统错误记录进行分析diag 运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI 机型应在系统报错7天之内运行dia

5、g 程序对出错记录里的sense 数据进行分析7其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk 1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk 1 000782117

6、f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytesLVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUOR

7、UM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A.lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 j

8、fs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020.devices.pci.23100020.rte C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority

9、Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter

10、-Packet Gap Truelscfg 查看VPD 信息Virtual Product Data# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500Part Number.097H0645FRU Number.097H0645 - 备件号Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.7201 - 微码版本 Loadable Microcode Leve

11、l.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevice Specific.(Z0.DRAM=032Device Specific.(Z1.CACHE=0Device Specific.(Z2.000000062955dab2Device Specific.(YL.P2-I7 Access a Root Volume Group Access this volume group and start a shellbefore mounting the file systems格式化文件系统日志(jfslog# /usr/sb

12、in/logform /dev/hd8检查修复文件系统# fsck -y /dev/hd1 /home 文件系统# fsck -y /dev/hd2/usr文件系统# fsck -y /dev/hd3/tmp 文件系统# fsck -y /dev/hd4/ 文件系统# fsck -y /dev/hd9var/var文件系统 . . 用 exit 命令退出文件系统会自动 mount 起来重建bootimage# lslv -m hd5 找出bootimage 所在的硬盘如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0

13、 重建启动顺序表重启动系统# shutdown -Fr如上述步骤不奏效用系统备份带恢复系统如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘.CDE 图形界面挂死CDE 运行时不要更改网络参数如主机名和IP 地址更改网卡设置请先退出CDE 图形环境选择命令行方式登录在字符界面下更改 如CDE 已经挂死远程 telnet 登录找出所有dt 有关的进程用kill 命令杀掉# ps -ef |grep dt. .# kill PID检查当前主机名# hostnametscf50查看主机名是否对应有效的IP 地址# netstat -i |grep tscf50tr0* 1500

14、 9.185.40 tscf50 506049 0 28247 0 0更改主机名或IP 地址使主机名与当前有效的IP 地址存在对应关系# smitty tcpip重新启动CDE 界面# /etc/rc.dtHACMP 环境下可把主机名alias 到127.0.0. 1上# cat /etc/hosts127.0.0. 1 loopback localhost tscf50 # loopback (lo0 name/addressbvg. 系统dump 发生在系统崩溃时AIX 会做dump(系统内存的快照此时机器会显示闪动的888 102 xxx 0cx 代码0c9系统dump 进行中0c9状态

15、可能会维持超过2分钟不要关电和按reset, 等待dump 做完0c0dump 成功完成这时可以断电重起0c2 手动启动dump 功能 0c4dump 设备空间不足只有部分信息保存下来0c5 不明原因导致dump 失败一般dump 是由于软件出错引起(888-102-207 除外 机器通常可以重启重启时可能提示用户插入磁带拷贝dump 文件不要选择退出这样会丢失重要的故障信息dump 的有关设置估算系统dump 的大小在系统最繁忙时内存使用最多# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376# lsps -aPage

16、Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev -lprimary /dev/hd6- dump的主设备secondary /dev/sysdumpnullcopy directory /var/adm/ras- dump拷贝的目录forced copy flag TRUEalways allow dump TRUEhd6应比估算值稍大/var/adm/ras 是默认的dump 拷

17、贝目录比较估算值保证/var文件系统有足够的剩余空间拷贝dump 文件否则机器重起时会提示用户插入磁带 dump 文件名为vmcore.#对PCI 机型如要手动做dump 须把 always allow dump 先设成true# sysdumpdev -Kdump 打包# snap -a -o /dev/rmt#或# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z 如果/tmp文件系统空间不够可用-d directory 参数指定别的目录代替/tmp/ibmsupt四 7133-D40 SSA磁盘柜的故障定位当SSA 磁盘柜出现故障时在磁盘柜前面板的

18、液晶显示屏上会显示相应的SRNs SRNs, 同时黄色的显示灯会闪动在AIX 的error log中也会有记载错误信息如DISK_ERR1DISK_ERR4SSA_ARRAY_ERROR等请在出现问题后记录下代码并致电IBM 服务热线 五 软件故障定位方法软件故障情况错综复杂下面列举几个常见案例的故障处理方法1文件系统空间不够 查看有没有 满 的文件系统特别是 / /var /tmp不要超过 90%文件系统满可导致系统不能正常工作尤其是AIX 的基本文件系统如/ (根文件系统 满则会导致用户不能登录用df k 查看# df -k (查看AIX 的基本文件系统Filesystem 1024-bl

19、ocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统其他文件系统都不应太满一般不超过80%处理方法1删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间

20、最大的子目录逐层往下直到找出占空间最大的文件要区分哪些目录是文件系统的 mount point哪些是文件系统的子目录删除文件释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程序打开只有当这个程序停止后空间才释放有时甚至需要重起系统处理方法2增加文件系统大小# smitty chjfs文件系统可以在任何时候加大前提是卷组(VG中有剩余空间2 检查文件系统的完整性# umount filesystem_name# fsck -y filesystem_name注意文件系统必须先umount 再做检查和修复否则可导致未知的后果3查看卷组信息(lsvg -l vg_name有没有st

21、ale 状态的逻辑卷若有用syncvg 命令修复stale 逻辑卷4检查内存交换区(paging space使用率(lsps -s使用率是否超过70%若有则用chps sX pgname增加X 个PP 或用 mkps a n sX myvg在myvg 上增加一个PP 数为X 的内存交换区5 小型机内存泄漏问题小型机出现内存泄漏即系统或应用进程无法将使用过的内存释放使可用内存的容量逐渐减少如果可用内存降到某最小值将造成系统或应用程序无法FORK 子进北京鑫博腾飞小型机网 http:/www.hp-程就会造成系统瘫痪通常我们可以用ps 和sar 命令来查看小型机内存和CPU 占用率的大概情况以及各

22、进程的内存和CPU 占用率的发展趋势(a ps# ps gv|head -n 1; ps gv|egrep -v RSS | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS SIZE RSS SIZE RSS LIM TSIZ TRS %CPU %MEM %MEM%MEM COMMAND15674 pts/11 A 0:01 0 3672 36108 36172 32768 5 24 0.6 24.0 24.024.0 ./tctestp22742 pts/11 A 0:00 0 20748 2082 20748 2081

23、2 32768 5 24 0.0 14.04.0 ./backups10256 pts/1 A 0:00 0 5692 15628 15692 32768 5 24 0.0 .011.0 ./tctestp2064 - A 2:13 5 64 6448 64 6448 64 6448 xx 0 6392 0.0 4.0 4.04.0 kproc1806 - A 0:20 0 6 6408 16 6408 xx 0 6392 0.0 4.0 4.04.0 kprocSIZESIZE virtual size (in the pagingspace, in kilobytes,RSSRSS rea

24、l-memory (resident set size in kilobytes of the process.通过不同时间输出的比较就能观察出内存和CPU 占用率的基本情况找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏(b sar 指令也可以查看CPU 占用率但统计的结果不是很准确通常使用sar 令的格式为#sar -P ALL 2 1009:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 91- 2 3 4 9209:29:43

25、0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 86北京鑫博腾飞小型机网 http:/www.hp-1 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:

26、57 0 16 8 14 641 15 9 11 65- 15 8 12 64Average 0 3 2 10 851 4 3 8 85- 4 2 9 85表示2秒钟输出一次结果总共有10次结果然后平均目前如果发现内存泄漏最好重新启动系统六 HACMP环境下的排错在一般情况下,HACMP 软件很少需要手工干预, 但一旦有问题发生, 诊断和恢复的技巧是很重要的. 需要能很快地断定问题然后运用你对HACMP 的理解来恢复HACMP 的正常运作.一般地,HACMP 环境下的排错包括:.了解问题的存在.判断问题的出处.解决问题.一 了解问题的存在您可以通过以下途径了解到一个CLUSTER 环境下出现了

27、问题.最终用户的投诉, 他们无法访问应用程序.控制台上出现一些HACMP 的信息.1. 应用服务无法访问最终用户的抱怨通常预示CLUSTER 出现了问题. 他们无法正常执行应用或是无法登录到系统. 我们必须采集到详细的信息以判断到底那里出现了问题. 是否有错误的信息提示? 如果可能的话, 让用户重复步骤以确定那里是错误的开始. 您也可以在自己的系统上重复. 要知道用户应用不可用并不代表HACMP 有问题. 问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题. 因此应用程序本身的排错也应是HA 排错的一部分.2. 控制台上出现一些HACMP 的信息在HACMP 启动, 终止或出错时, 控

28、制台上会出现一些HACMP 的信息, 同时也会写入相应的文件中.二 判断问题的出处当错误出现时, 我们应尝试发现错误的所在. 但我们常常被错误的表面所误导. 以下的步骤可以使我们得到更详细的信息.1. 保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log.因为它们可能被覆盖.2. 仔细检查HACMP 所产生的LOG 文件. 它们能提供最初的判断线索.3. 用HACMP 的工具和AIX 的命令来检查HACMP 的部件是否正常.4. 打开HACMP 的跟踪工具来产生更详细的信息.HACMP 的LOG 文件:以下文件都是文本文件, 可以用VI 来看. 每个日志文件都含有

29、每个信息的产生时间./usr/adm/cluster.log :记录了HACMP 的状态, 由HA 的守护进程所产生. /tmp/hacmp.out :记录了HA 的详细脚本./usr/sbin/cluster/history/cluster.mmdd :记录了HA 的各个事件的发生. /tmp/cm.log :由clstrmgr 进程产生, 每次HA 重起时会被覆盖. .HACMP FOR AIX的结构应用层HACMP 软件层LVM & TCPIP 层AIX 层物理网络层物理硬盘层硬件层在物理网络层, 物理硬盘层, 硬件层,LVM & TCPIP 层,AIX 层 我们可以用AIX 系统命令来

30、看是否硬件和系统出现了问题. 一般地, 在用errpt 命令来看没有类型为PH 的错误,lsvg -o 来看我们所须的VG 已varyon,mount 来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP 的状态(或用ifconfig en*,cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping 通. 在各个节点上执行stty1%ping自己网卡地址 (ip 地址ping 其它机器地址如不通在其机器上用diag 检测网卡是否有问题 在同一网中 subnetmask 应一致网络配

31、置的基本方法(1 如需修改网络地址主机名等一定要用 chdev 命令# chdev l inet0 a hostname=myhost# chdev -l en0 -a netaddr=8 -a netmask=(2 查看网卡状态# lsdev Cc if(3 确认网络地址# ifconfig en0 (4 启动网卡# ifconfig en0 up(5 配置路由有两种方式加入路由永久路由# chdev -l inet0 -a route= , 9临时路由# route add 10.47. 1.2 9.3.24

32、0.59用命令 netstat -rn 查看路由表附常用命令列表! ! #$ %& ! # ($ %& !# * +, !# * % - * ! * !* !* & ! $ *$ + !* , & !* $ !* # !# . !(!# $ * (. % $ ! & $ ! (& / 00 * ! ! $ ! ! $ 1 # !* * , 1 2 !* , ! ! # ! ! $ * ( ! % !(% $ * ,345 (, ( 5 ! ! $ $ * ! # ( %+6 $ ! ! # ! % 78 ! % 99 ! & 99 * 99 ! & 99 ! ! , : (, ! ! ! ; $ ! $ ! ! +( , ! 8 ! * ! ! + ! = ! != ! 3 ! != 3 ! 3 ! ,+55 4+55 ?43 ,+55$ ! * $ $ $ ($ ! * $ & ! % 0 ! & * $% !# ! $ % 00 $% !# 4- # ! $% & ! !# * A B3 C - # 3 ! 3 ! .! ! . ! ! !D & ! # # !E ! ! ! $ * ( #

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论