巡检常用命令.doc_第1页
巡检常用命令.doc_第2页
巡检常用命令.doc_第3页
巡检常用命令.doc_第4页
巡检常用命令.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。 参考值:温度(摄氏 ) 10 40 湿度 8% 80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。 参考值: 零-地电压 小于1V 火-地电压 200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。 主要查看硬件的永久性报错 #errpt -dH | pg 软件的永久性报错 #errpt -dS | pg 还有系统又没又报警灯 第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev l (检查dump是否设置为always allow sysdump)执行sysdumpdev e (检查当前dump大小应该为主dump设备的大小的80以下)执行lsvg -l rootvg (检查有否stale状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df k (检查文件系统的分配状况,一般不要超过80%)执行lsdev Cc disk (检查硬盘状态为available)执行lsdev Cc adapter (检查PCI卡状态为available)执行lsdev Cc tape (检查磁带机状态为available)执行lsdev Cc processor (检查CPU状态为available)执行lsattr El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr El mem0 (检查内存状态正常size=goodsize)执行 vmstat 2iostat,topas观察us,sy,pi,po, (内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat in和netstat rn (观察网络状态)执行entstat d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route 操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)执行ping命令 (检查网络连接状况)执行lsdev C|grep aio (检查异步IO是否可用)执行lssrc g cluster (查看是否有三个进程均为active状态)(这个主要看起了几个HA的进程了,有的时候是一个或两个)执行/usr/sbin/cluster/clstat a (查看cluster状态是否正常)检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)执行 #more /usr/es/adm/cluster.log #more /usr/es/sbin/cluster/history/* #cat /tmp/hacmp.out (检查这三个日志中是否有error或者fail.)检查7133面板上的指示灯,如果黄灯亮则需要诊断问题HOTspare 磁盘检测1、检查是否有raid保护 # smitty ssaraid-List All Defined SSA RAID Arrays2、检查是否有Hot Spare # smitty ssaraid-List Components in a Hot Spare Pool对于7133,执行Smitty ssaraid? List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。对于7133,执行Smitty ssaraid?Change/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。记录检查结果cpu (主频*数量) #lsattr -El proc0内置磁盘个数: #lsdev -Cc disk 网卡信息: #lsdev -Cc adapter系统属性: #lsattr -E -l sys0 1 系统错误报告(Error Log)的检查: 硬件故障检测命令:# errpt -d H -T PERM 若有故障执行命令# errpt -a -d H -T PERM/tmp/harderror.log保存,分析结果报告给客户 软件故障检测命令:# errpt -d S -T PERM 若有故障执行命令# errpt -a -d S -T PERM/tmp/softerror.log保存,分析结果报告给客户 2 有否发给root用户的错误报告(mail): #mail (1) 观察所有未读消息,注意有关diagela的消息。 (2) 常用命令: h Display headings of group containing message t Display messages in or current message. n Display next message. q Quit (3) 对发现的问题详细分析,结果报告给客户 3 文件系统的检查: 命令: # df k %Used为文件系统的使用率。所有文件系统的使用率不能大于80%4 通信系统的检测: (1) 网卡的状态 命令: #ifconfig a 输出判断: en0: flags=e080863 inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255 en1: flags=e080863 inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255 主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。 (2) 路由的检测 命令: #lsattr El inet0 authm 65536 Authentication Methods True hostname h24 Host Name True gateway Gateway True route net,0,172.16.23.81 Route True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True (3) 网络的检测 命令: #ping ip address 输出判断: 用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。 5系统DUMP设置的检查 命令: #sysdumdev l 输出判断: 结果应为 primary /dev/hd6 secondary /dev/sysdumpnull copy directory /var/adm/ras forced copy flag TRUE always allow dump FALSE dump compression OFF 若不正确请用下列命令修改: #sysdumdev P p /dev/hd6 s /dev/sysdumpnull 6系统硬件诊断: 命令顺序为: (1)#diag (2).Enter (3).Diagnostic Routines (4).System Verification (5).All Resources (6).F7 输出判断: 结果应为No trouble was found.7补丁程序(PTF)的检查 (1) 系统维护补丁版本为ML09,检查命令为: #instfix i |grep ML 8系统参数的检查 (1)HIGH water mark for pending write I/Os # lsattr -El sys0 |grep maxpout 输出判断: 结果应为 maxpout 33 HIGH water mark for pending write I/Os per file True (2)LOW water mark for pending write I/Os # lsattr -El sys0|grep minpout 输出判断: 结果应为 minpout 24 LOW water mark for pending write I/Os per file True 更改命令为: #chdev -l sys0 -a maxpout=33 -a minpout=24 (3)Syncd参数 # grep syncd /sbin/rc.boot 输出判断: 结果应为 nohup /usr/sbin/syncd 10 /dev/null 2&1 & 更改命令为: #vi /sbin/rc.boot (4)aio参数 # lsdev -Cc aio 输出判断: 结果应为 aio0 Available Asynchronous I/O # lsattr -El aio0 输出判断: 结果应为 minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True 更改命令为: #smitty aio (5)Limits文件的设置: #ulimit a 输出判断: 结果应为 time(seconds) unlimited file(blocks) 2097151 data(kbytes) 262144 /尤其是这项参数 stack(kbytes) 32768 memory(kbytes) 32768 coredump(blocks) 2097151 nofiles(descriptors) 2000 更改命令为: #vi /etc/security/limits 更改data为5242889.集群状态检查smitty ssaraid List All Defined SSA RAID Arrayshdisk1 40263B2E0DF74CK system good 91.1GB RAID-5 array(如果是good就正常)IBM巡检流程1、检查系统硬件情况:设备故障灯是否有亮 2、系统错误报告(errlog) 3、有否发给root用户的错误报告(mail) 4、检查hacmp.out,smit.log,boot.log 5、关键系统的文件使用率不大于80% 6、逻辑卷有否stale 7、内存交换区使用率是否超过70% 8、内存交换区的大小是否为物理内存的1.5倍 9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗) 10、通信(网卡、IP、路由表、ping、etchosts、DNS设置等) 11、是否有数据保护方式如RAID10RAID5,是否有Hot spare 12、系统DUMP设置是否正确 13、检查系统参数是否正确 1)etcenviroment中的TZ不能有夏时制 2)如有数据库: Aioavailable 3)HACMP中 IO pacingHigh Water MarkLow Water MArk3324 4)HACMP中 Syncd10 5)HACMP中 Power Monitoroff 14、检查rootvg是否有镜象 15、检查errdemon,srcmstr是否正常运行 16、机房环境(电压、湿度) 17、系统性能:有否性能瓶颈(topas,vmstat) 18、补丁程序(PTF)、微码(是否需要升级) 19、HACMP测试:Cluster Verification 20、系统硬件诊断 21、运行#snap -ac,生成文件snap+sn.pax.Z 22、机器清洁 注115为A类维护(季度维护),1618为B类维护(半年维护),1922为C类维护(年度维护)1、检查系统硬件情况:设备故障灯是否有亮 2、系统错误报告(errlog) errpt -d H -T PERM 对有怀疑的进一步errpt -aj 错误代码more3、有否发给root用户的错误报告(mail) mail 4、检查hacmp.out,smit.log,boot.log #cd tmp ls hacmp.out找到时间最近的字节不为零的文件,vi查看 如果怀疑系统曾经有调整操作,检查smit.logalog -ot boot5、关键系统的文件使用率不大于80% #df k (查看%Used)6、逻辑卷有否stale #lsvg -l 卷组名称 (查看状态是否有stale的逻辑卷)7、内存交换区使用率是否超过70% #lsps a (查看占用率是否超过70%) 8、内存交换区的大小是否为物理内存的1.5倍 命令同上现在原则有所改变,2G内存以下可按照1.5倍的标准,2G内存以上如果交换区占用率不高,可用2GB标准9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗) 口头询问:系统备份、数据备份 检查磁带机面板,提醒用户清洗10、通信(网卡、IP、路由表、ping、etchosts、DNS设置等) #netstat in #netstat rn #netstat I #vi etchosts (检查DNS相关文件内容)11、是否有数据保护方式如RAID10RAID5,是否有Hot spare 如果是7133,diagTask SelectionSSA Service AidsLink Verification,smitty ssaraidFAStT产品使用其管理软件Storage Manager查看 ESS使用ESS控制台查看12、系统DUMP设置是否正确 sysdumpdev -l 13、检查系统参数是否正确1)etcenvironment中的TZ不能有夏时制 #vi etcenvironment检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式2)如有数据库:Aioavailable #lsdev -Cgrep aio (查看其状态是否available)如不是:smitty chgaio,将状态修

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论