




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、非常详细的 IBM 小型机故障定位方法IBM , 小型机 , 故障定位一 故障的定义. 弄清楚系统发生了什么问题. 系统现在能做什么?不能做什么?. 故障什么时候发生的?. 有没有做平时不同的操作?. 故障有没有规律?定时还是不定时?发生的频率有多高?. 是一台机器出现故障还是多台机器故障?故障现象是否相同?. 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 二 故障信息的收集1 收集故障信息对于判断、诊断故障原因,修复系统非常重要。2 系统故障记录 (errorlogerrdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为 /var/adm/
2、ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用 (普通用户权限也可使用 #errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131
3、000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年 论T (类型 : P 永久 ; T 临时 ; U 未知 (永久性的错误应引起重视C (分类 : H 硬件 ; S 软件 ; O 用户 ; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 - ERROR_ID用大小写均可例
4、:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: ; 选高级诊断(Advance Diagnostic; 选问题诊断(Problem Determination 或选系统检查(System Verification选 PD 会对系统错误记录进行分析 diag 运行后会给出
5、 SRN 代码,故障设备名称及百分比,地址代码等。对于 PCI 机型应在系统报错 7天之内运行 diag 程序对出错记录里的 sense 数据进行分析。 7 其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷
6、信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabyt
7、esLVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A.lv00 jfs 51 102 1 closed/stale
8、 /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020.看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_
9、que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet
10、Gap Truelscfg 查看 VPD 信息(Virtual Product Data# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500Part Number.097H0645FRU Number.097H0645 - 备件号Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and ID.7201 - 微码版本Loadable Microcode Level.04Devi
11、ce Driver Level.00Displayable Message.SSA-ADAPTERDevice Specific.(Z0.DRAM=032Device Specific.(Z1.CACHE=0Device Specific.(Z2.000000062955dab2Device Specific.(YL.P2-I7 ; Access a Root Volume Group; Access this volume group and start a shellbefore mounting the file systems格式化文件系统日志 (jfslog# /usr/sbin/l
12、ogform /dev/hd8检查修复文件系统# fsck -y /dev/hd1 (/home 文件系统# fsck -y /dev/hd2 (/usr 文件系统# fsck -y /dev/hd3 (/tmp 文件系统# fsck -y /dev/hd4 (/ 文件系统# fsck -y /dev/hd9var (/var 文件系统. .用 exit 命令退出,文件系统会自动 mount 起来。重建 bootimage# lslv -m hd5 找出 bootimage 所在的硬盘,如 hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal
13、/dev/hdisk0 重建启动顺序表。重启动系统# shutdown -Fr如上述步骤不奏效用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(Diagnostic CDROM检查是否坏硬盘。.CDE 图形界面挂死CDE 运行时不要更改网络参数(如:主机名和 IP 地址更改网卡设置,请先退出 CDE 图形环境,选择命令行方式登录,在字符界面下更改。如 CDE 已经挂死远程 telnet 登录找出所有 dt 有关的进程用 kill 命令杀掉# ps -ef |grep dt. .# kill PID检查当前主机名# hostnametscf50查看主机名是否对应有效的 IP 地址# netst
14、at -i |grep tscf50更改主机名或 IP 地址,使主机名与当前有效的 IP 地址存在对应关系。# smitty tcpip重新启动 CDE 界面# /etc/rc.dt# cat /etc/hosts. 系统 dump发生在系统崩溃时, AIX 会做 dump(系统内存的快照 。此时机器会显示闪动的 888 102 xxx 0cx 代码:0c9 系统 dump 进行中。 0c9状态可能会维持超过 2分钟,不要关电和按 reset, 等待 dump 做完。0c0 dump 成功完成,这时可以断电重起。0c2 手动启动 dump 功能0c4 dump 设备空间不足,只有部分信息保存下
15、来0c5 不明原因导致 dump 失败一般 dump 是由于软件出错引起 (888-102-207 除外 ,机器通常可以重启。重启时可能提示用户插入磁 带拷贝 dump文件,不要选择退出,这样会丢失重要的故障信息。dump 的有关设置估算系统 dump 的大小,在系统最繁忙时(内存使用最多# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376# lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480M
16、B 1 yeshd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev -lprimary /dev/hd6 - dump的主设备secondary /dev/sysdumpnullcopy directory /var/adm/ras - dump拷贝的目录forced copy flag TRUEalways allow dump TRUEhd6应比估算值稍大。/var/adm/ras 是默认的 dump 拷贝目录,比较估算值,保证 /var文件系统有足够的剩余空间拷贝 dump 文件。否则机器重起时会提示用户插入磁带。dump 文件名为 vmcore.#
17、对 PCI 机型如要手动做 dump ,须把 always allow dump 先设成 true 。# sysdumpdev -Kdump 打包# snap -a -o /dev/rmt# 或# snap -a -c 把 /tmp/ibmsupt目录做成一个压缩文件可用 -d directory 参数指定别的目录代替 /tmp/ibmsupt四 7133-D40 SSA磁盘柜的故障定位当 SSA 磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的 SRNs, 同时黄色的显示灯会闪 动,在 AIX 的error log中也会有记载错误信息,如:DISK_ERR1, DISK_ERR4,
18、 SSA_ARRAY_ERROR等。请在出现问题 后记录下代码,并致电 IBM 服务热线。五 软件故障定位方法软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。1 文件系统空间不够。查看有没有“满”的文件系统。特别是 /、 /var、 /tmp,不要超过 90%。文件系统满可导致系统不能正常 工作,尤其是 AIX 的基本文件系统。如 / (根文件系统 满则会导致用户不能登录。用 df k 查看。# df -k (查看 AIX 的基本文件系统 Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1
19、452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除 /usr文件系统,其他文件系统都不应太满,一般不超过 80%。处理方法 1:删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。 (要区分哪些目录是文 件系统的mount po
20、int,哪些是文件系统的子目录删除文件,释放空间。有时删除文件后空间并不马上释放, 这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。处理方法 2:增加文件系统大小# smitty chjfs文件系统可以在任何时候加大,前提是卷组 (VG中有剩余空间。2 检查文件系统的完整性# umount filesystem_name# fsck -y filesystem_name注意:文件系统必须先 umount ,再做检查和修复,否则可导致未知的后果。3查看卷组信息 (lsvg -l vg_name:有没有 stale状态的逻辑卷。 若有,用 syncvg
21、命令修复 stale逻辑卷。4检查内存交换区 (paging space使用率 (lsps -s:使用率是否超过 70% ,若有则用 chps sX pgname增加 X 个 PP 或用 mkps a n sX myvg在 myvg 上增加一个 PP数为 X 的内存交换区。5 小型机内存泄漏问题小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果 可用内存降到某最小值将造成系统或应用程序无法 FORK 子进程,就会造成系统瘫痪。通常我们可以用 ps 和 sar 命令来查看小型机内存和 CPU 占用率的大概情况以及各进程的内存和 CPU 占 用率的发展趋势。
22、(a ps# ps gv|head -n 1; ps gv|egrep -v RSS | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0.6 24.0 ./tctestp22742 pts/11 A 0:00 0 20748 20812 32768 5 24 0.0 14.0 ./backups10256 pts/1 A 0:00 0 15628 15692 32768
23、5 24 0.0 11.0 ./tctestp2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kprocSIZE virtual size (in the pagingspace, in kilobytes,RSS real-memory (resident set size in kilobytes of the process.通过不同时间输出的比较,就能观察出内存和 CPU 占用率的基本情况。找出其中占用内存数不断变大的 进程,这个进程可能就已经发生了内存泄漏
24、。(b sar 指令也可以查看 CPU 占用率,但统计的结果不是很准确。通常使用 sar 令的格式为:#sar -P ALL 2 1009:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 91- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29
25、:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0 16 8 14 641 15 9 11 65- 15 8 12 64Average 0 3 2 10 851 4 3 8 85- 4 2 9 85表示 2秒钟输出一次结果总共有 10次结果,然后平均。目前,如果发现内存泄漏,最好重新启动系统。六 HACMP环境下的
26、排错在一般情况下 ,HACMP 软件很少需要手工干预 , 但一旦有问题发生 , 诊断和恢复的技巧是很重要的 . 需要能 很快地断定问题然后运用你对 HACMP 的理解来恢复 HACMP 的正常运作 .一般地 ,HACMP 环境下的排错包括 :. 了解问题的存在 . 判断问题的出处 . 解决问题 .一 了解问题的存在您可以通过以下途径了解到一个 CLUSTER 环境下出现了问题 . 最终用户的投诉 , 他们无法访问应用程序 . 控制台上出现一些 HACMP 的信息 .1. 应用服务无法访问最终用户的抱怨通常预示 CLUSTER 出现了问题 . 他们无法正常执行应用或是无法登录到系统 . 我们必须
27、采 集到详细的信息以判断到底那里出现了问题 . 是否有错误的信息提示 ? 如果可能的话 , 让用户重复步骤以确定那里是 错误的开始. 您也可以在自己的系统上重复 . 要知道用户应用不可用并不代表 HACMP 有问题 . 问题可能出现在应用程 序本身或是它的启动或终止脚本出现了问题 . 因此应用程序本身的排错也应是 HA 排错的一部分 .2. 控制台上出现一些 HACMP 的信息在 HACMP 启动 , 终止或出错时 , 控制台上会出现一些 HACMP 的信息 , 同时也会写入相应的文件中 .二 判断问题的出处当错误出现时 , 我们应尝试发现错误的所在 . 但我们常常被错误的表面所误导 . 以下
28、的步骤可以使我们得 到更详细的信息 .2. 仔细检查 HACMP 所产生的 LOG 文件 . 它们能提供最初的判断线索 .3. 用 HACMP 的工具和 AIX 的命令来检查 HACMP 的部件是否正常 .4. 打开 HACMP 的跟踪工具来产生更详细的信息 .HACMP 的 LOG 文件 :以下文件都是文本文件 , 可以用 VI 来看 . 每个日志文件都含有每个信息的产生时间 . /usr/adm/cluster.log :记录了 HACMP 的状态 , 由 HA 的守护进程所产生 ./tmp/hacmp.out :记录了 HA 的详细脚本 ./usr/sbin/cluster/histor
29、y/cluster.mmdd :记录了 HA 的各个事件的发生 ./tmp/cm.log :由 clstrmgr 进程产生 , 每次 HA 重起时会被覆盖 .HACMP FOR AIX的结构应用层HACMP 软件层LVM TCPIP 层AIX 层物理网络层物理硬盘层硬件层在物理网络层 , 物理硬盘层 , 硬件层 ,LVM TCPIP 层 ,AIX 层 我们可以用 AIX 系统命令来看是否硬件和系 统出现了问题 . 一般地 , 在用 errpt 命令来看没有类型为 PH 的错误 ,lsvg -o 来看我们所须的 VG 已 varyon,mount 来看我们所须的文件系统已安装 , netstat
30、 -i来看我们所须的 service IP 是 UP 的状态 (或用 ifconfig en*,cluster node 之间的 service 与 service IP ,standby与 standby IP 互相可以 ping 通 . 在各个节点上执行stty;1%ping 自己网卡地址 (ip 地址 ping 其它机器地址,如不通,在其机器上用 diag 检测网卡是否有问题。在同一网中, subnetmask 应一致。网络配置的基本方法:(1 如需修改网络地址、主机名等,一定要用 chdev 命令# chdev l inet0 a hostname=myhost(2 查看网卡状态:#
31、lsdev Cc if(3 确认网络地址:# ifconfig en0(4 启动网卡:# ifconfig en0 up(5 配置路由有两种方式加入路由:永久路由临时路由用命令 netstat -rn 查看路由表附:常用命令列表:Any XXXX, #, *, or X is to be substituted by a name, resource name or #, fn = filenameDIR = Directory| = pipe symbolbosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(
32、hdiskx cat -view contents of a filecat /tmp/*.1 -view a file, look at outputcat fn fn ; newfile -combines two files to a single filecd -will return you to default DIRcd / -will put in root DIRcd /xxxx -change you to a DIR anywhere is systemcd . -will drop you out of 1 DIR at a timecd xxxxx -will cha
33、nge you to a DIR in current dircfgmgr -will auto config devicescfgmgr -v -(-v shows processes (& puts in backgroundchps -s xx hd# -increase paging space (xx=# of addtl PPscp oldfn newfn -copy a filecp oldfn Dirn -copy a file to another directorycrontab -l -list crontab entries for the current userct
34、rl + v -will page down 1 pagectrl + 6 -will page up 1 pagedel fn -same as rm -i,promts to remove fndf -I -shows status of file systems (no inodesdf -Ik -(k show status in 1024 bites(1mb(only AIX 4diag -a -updates changes in hardware configurationdiag * -*= a device type(as tape,disk.Fastpathdiag -cd
35、 rmtX -resets tape drivedosformat -formats a diskette to DOSdosdir -list files on dos formated diskettedosread XX YY -copies dos file XX to aix file YYdoswrite YY XX -copies aix file YY to dos file XXerrpt -generates a one line synopsis of logged errorserrpt | pg -list errorlog 1 page a time(1st col
36、umn is IDerrpt -a -displays detailed information of logged errorserrpt -s Mmddhhmmyy -select entries posted later than dateerrpt -aj XXXXXXX -list detail error by ID number.(XXX=1st column errpt -d S -list software errorserrpt -j XXXXXXX -list summary report by ID number.errpt -aN XXXXXX -list detai
37、led report by resource name column errpt -N XXXXXXX -list summary report by resource name column errclear 0 -clears errorlogerrclear -N XXXXX 0 -clears errorlog by resource name, 0=all enter errclear -j XXXXX 0 -clears errorlog by ID number.finger -same as who but with more detailsflcopy -copies a d
38、iskette to another disketteformat -formats a diskette in default diskette driveformat -l -formats in lower denity: 1.44 on 2.44 / 720 on 1.44 hostname -responds with host system namehost (hostname -responds with internet addressinstfix -ik IPAR# -lists ipar fix was completely installedlppchk -v -che
39、cks install status of LPPslppchk -v 2; /dev/lpX -sends output of lppchk to printer lpx lpstat -a all -view all printer queueslptest 80 5 ; /dev/lp0 -send test pattern to lp0ls -list names of files directories in current dirls -lia -list details of files, current dir subdirls -al -list details of fil
40、es or dir in current dirlsattr -El xxxxxx -list specific settings on a devicelsdev -C | sort -d -f -list system hardware (deviceslsdev -C | grep 00-0X -list resourses for a adapterlsdev -Cc xxxxx -H -list devices(xxx=tty,printer,disk,memory,adpt lsdev -Cs scsi -list scsi devices(not serial or raidlsdev -Cc tap
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力施工承包合同(5篇)
- 口罩销售的合同(6篇)
- 房地产项目开发委托代理合同
- 文化旅游产业推广与合作经营合同
- 房产收购合作协议书
- 书面货物运输合同
- 互联网项目合作协议
- 可再生能源发电项目合作开发协议
- 制式装修合同
- 房地产项目销售合同
- 2023静脉治疗护理技术操作标准解读
- 《甲状旁腺疾病》课件
- 鲁教版九年级化学上册课件【全册】
- 八年级道德与法治下册研课标、说教材-陈俊茹课件
- 《城市轨道交通应急处理》课件 《城市轨道交通应急处理》项目二
- 特种行业许可证变更申请表
- 建筑施工安全风险辨识分级管控指南
- 政务信息工作先进单位事迹材料
- 《触不可及》影视鉴赏课件
- 冀教版五年级英语下册教学计划(精选17篇)
- 外科感染教案
评论
0/150
提交评论