IBM小型机常见故障的基本定位_第1页
IBM小型机常见故障的基本定位_第2页
IBM小型机常见故障的基本定位_第3页
IBM小型机常见故障的基本定位_第4页
IBM小型机常见故障的基本定位_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一 故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 二 故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户

2、权限也可使用)#errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 04

3、05130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 - ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666 Date/Time: Jun 19 22:

4、29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 选高级诊断(Advance Diagnostic) 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。对于P

5、CI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。7)其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 root

6、vghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavg lsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 me

7、gabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/s

8、yncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件组信息# lslpp -L |grep 23100020.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。 lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_p

9、riority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNE

10、T address Trueip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500) Part Number.097H0645FRU Number.097H0645 - 备件号Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.72

11、01 - 微码版本Loadable Microcode Level.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevice Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0Device Specific.(Z2).000000062955dab2Device Specific.(YL).P2-I7 Access a Root Volume Group Access this volume group and start a shellbefore mounting the

12、file systems格式化文件系统日志(jfslog)# /usr/sbin/logform /dev/hd8 检查修复文件系统# fsck -y /dev/hd1 (/home 文件系统)# fsck -y /dev/hd2 (/usr 文件系统)# fsck -y /dev/hd3 (/tmp 文件系统)# fsck -y /dev/hd4 (/ 文件系统)# fsck -y /dev/hd9var (/var 文件系统). .用 exit 命令退出,文件系统会自动 mount 起来。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盘,如hdisk0

13、# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建启动顺序表。重启动系统# shutdown -Fr 如上述步骤不奏效用系统备份带恢复系统。 如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。 .CDE图形界面挂死CDE 运行时不要更改网络参数(如:主机名和IP 地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。如CDE 已经挂死远程 telnet 登录找出所有dt有关的进程用kill命令杀掉# ps -ef |grep dt . .# kill PID检查当前主

14、机名# hostname tscf50查看主机名是否对应有效的IP地址# netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。# smitty tcpip 重新启动CDE界面# /etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg .系统dump发生在系统

15、崩溃时,AIX会做dump(系统内存的快照)。此时机器会显示闪动的888 102 xxx 0cx 代码:0c9 系统dump 进行中。0c9状态可能会维持超过2分钟,不要关电和按reset, 等待dump做完。0c0 dump 成功完成,这时可以断电重起。0c2 手动启动dump 功能0c4 dump 设备空间不足,只有部分信息保存下来 0c5 不明原因导致dump 失败一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。dump的有关设置估算系统dump的大小,在系统最繁忙时(内

16、存使用最多)# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376 # lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev -l primary /dev/hd6 - dump的主设备secondary /dev/sysdumpnullcopy directory /var/adm/ras -

17、 dump拷贝的目录forced copy flag TRUEalways allow dump TRUE hd6应比估算值稍大。/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。dump文件名为vmcore.# 对PCI机型如要手动做dump,须把 always allow dump 先设成true。# sysdumpdev -Kdump打包# snap -a -o /dev/rmt# 或# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z如果/tmp

18、文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt 四 7133-D40 SSA磁盘柜的故障定位 当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM服务热线。 五 软件故障定位方法 软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。 1) 文件系统空间不够。查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文

19、件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df k 查看。# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 1638

20、4 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。处理方法2:增加文件系统大小# smitty chjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。

21、 2) 检查文件系统的完整性# umount filesystem_name# fsck -y filesystem_name 注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。 3)查看卷组信息(lsvg -l vg_name):有没有stale状态的逻辑卷。 若有,用syncvg 命令修复stale逻辑卷。 4)检查内存交换区(paging space)使用率(lsps -s):使用率是否超过70% ,若有则用chps sX pgname增加X个PP或用 mkps a n sX myvg在myvg上增加一个PP数为X的内存交换区。 5) 小型机内存泄漏问题小型机出现内

22、存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。(a) ps# ps gv|head -n 1; ps gv|egrep -v RSS | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND15674 pts/11 A 0:01 0 36108 36

23、172 32768 5 24 0.6 24.0 ./tctestp22742 pts/11 A 0:00 0 20748 20812 32768 5 24 0.0 14.0 ./backups10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kprocSIZE virtual size (in the pagingspace), in kilob

24、ytes, RSS real-memory (resident set) size in kilobytes of the process.通过不同时间输出的比较,就能观察出内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程,这个进程可能就已经发生了内存泄漏。(b) sar 指令也可以查看CPU占用率,但统计的结果不是很准确。通常使用sar令的格式为:#sar -P ALL 2 10 09:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 9

25、1- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0

26、 16 8 14 641 15 9 11 65- 15 8 12 64 Average 0 3 2 10 851 4 3 8 85- 4 2 9 85 表示2秒钟输出一次结果总共有10次结果,然后平均。目前,如果发现内存泄漏,最好重新启动系统。 六 HACMP环境下的排错 在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作.一般地,HACMP环境下的排错包括:.了解问题的存在.判断问题的出处.解决问题. 一 了解问题的存在 您可以通过以下途径了解到一个CLUSTER环境下出现了问

27、题.最终用户的投诉,他们无法访问应用程序.控制台上出现一些HACMP的信息. 1.应用服务无法访问最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分.2.控制台上出现一些HACMP的信息在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也

28、会写入相应的文件中. 二 判断问题的出处 当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖.2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索.3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常.4.打开HACMP的跟踪工具来产生更详细的信息. .HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间./usr/adm/cluster.log :记录了HA

29、CMP的状态,由HA的守护进程所产生./tmp/hacmp.out :记录了HA的详细脚本./usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生./tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖. .HACMP FOR AIX的结构 应用层HACMP软件层LVM & TCPIP 层AIX 层物理网络层物理硬盘层硬件层 在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层 我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o 来

30、看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping通.在各个节点上执行stty1%ping自己网卡地址 (ip 地址)ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。在同一网中, subnetmask 应一致。网络配置的基本方法:(1) 如需修改网络地址、主机名等,一定要用 chdev 命令# chdev l inet0

31、a hostname=myhost# chdev -l en0 -a netaddr=9.3.240.58 -a netmask=255.255.255.0(2) 查看网卡状态:# lsdev Cc if(3) 确认网络地址:# ifconfig en0(4) 启动网卡:# ifconfig en0 up(5) 配置路由有两种方式加入路由:永久路由# chdev -l inet0 -a route=10.47.0.0,9.3.240.59临时路由# route add 10.47.1.2 9.3.240.59用命令 netstat -rn 查看路由表 附:常用命令列表:Any XXXX, #,

32、 *, or X is to be substituted by a name, resource name or #,fn = filenameDIR = Directory| = pipe symbol bosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(hdiskx)cat -view contents of a filecat /tmp/*.1 -view a file, look at outputcat fn fn newfile -combines two files to a single f

33、ilecd -will return you to default DIRcd / -will put in root DIRcd /xxxx -change you to a DIR anywhere is systemcd . -will drop you out of 1 DIR at a timecd xxxxx -will change you to a DIR in current dircfgmgr -will auto config devicescfgmgr -v & -(-v) shows processes (&) puts in backgroundchps -s xx

34、 hd# -increase paging space (xx=# of addtl PPs)cp oldfn newfn -copy a filecp oldfn Dirn -copy a file to another directorycrontab -l -list crontab entries for the current userctrl + v -will page down 1 pagectrl + 6 -will page up 1 pagedel fn -same as rm -i,promts to remove fndf -I -shows status of fi

35、le systems (no inodes)df -Ik -(k) show status in 1024 bites(1mb)(only AIX 4diag -a -updates changes in hardware configurationdiag * -*= a device type(as tape,disk.Fastpath)diag -cd rmtX -resets tape drivedosformat -formats a diskette to DOSdosdir -list files on dos formated diskettedosread XX YY -co

36、pies dos file XX to aix file YYdoswrite YY XX -copies aix file YY to dos file XXerrpt -generates a one line synopsis of logged errorserrpt | pg -list errorlog 1 page a time(1st column is ID)errpt -a -displays detailed information of logged errorserrpt -s Mmddhhmmyy -select entries posted later than

37、dateerrpt -aj XXXXXXX -list detail error by ID number.(XXX=1st column)errpt -d S -list software errorserrpt -j XXXXXXX -list summary report by ID number.errpt -aN XXXXXX -list detailed report by resource name columnerrpt -N XXXXXXX -list summary report by resource name columnerrclear 0 -clears error

38、logerrclear -N XXXXX 0 -clears errorlog by resource name, 0=all entererrclear -j XXXXX 0 -clears errorlog by ID number.finger -same as who but with more detailsflcopy -copies a diskette to another disketteformat -formats a diskette in default diskette driveformat -l -formats in lower denity: 1.44 on

39、 2.44 / 720 on 1.44hostname -responds with host system namehost (hostname) -responds with internet addressinstfix -ik IPAR# -lists ipar fix was completely installedlppchk -v -checks install status of LPPslppchk -v 2 /dev/lpX -sends output of lppchk to printer lpxlpstat -a all -view all printer queue

40、slptest 80 5 /dev/lp0 -send test pattern to lp0ls -list names of files & directories in current dirls -lia -list details of files, current dir & subdirls -al -list details of files or dir in current dirlsattr -El xxxxxx -list specific settings on a devicelsdev -C | sort -d -f -list system hardware (devices)lsdev -C | grep 00-0X -list resourses for a adapterlsdev -Cc xxxxx -H -list devices(xxx=tty,printer,disk,memory,adptlsdev -Cs scsi -list scsi devices(not serial

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论