




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中科生财
AIX操作系统工作手朋siriodcifco
AIX操作系统工作手册
文件编号
版本0.1
作成日2013年10月24日
修订日
发布日
中科生财
AIX操作系统工作手朋siriodcifco
修改履历
序号版本修改日期章节号修改记录修改人批准人
10.12013/10/23创建修游
中科生财
AIX操作系统工作手朋siriodcifco
目录
1引言5
1.1编写目的5
1.2适用范围5
1.3预期读者5
1.4文档说明5
2操作系统健康性检查5
2.1系统日志6
2.1.1系统硬件错误日志检查6
2.1.2系统所有错误日志检查7
2.1.3系统错误日志Core_dump检查8
2.1.4系统错误日志DELAYED」NT检查9
2.1.5系统邮件日志内容检查9
2.1.6系统邮件日志大小检查11
2.1.7登录失败日志文件大小检查11
2.1.8登录日志文件人小检查12
2.1.9su日志文件大小检查12
2.1.10异常终止的vi日志文件大小检查13
2.2系统性能14
2.2.1系统CPU使用率检查14
2.2.2查看占用CPU资源最多的进程17
2.2.3系统内存使用率检查18
2.2.4系统占用内存资源最多的进程20
2.2.5系统磁盘繁忙程度检查22
2.3交换空间23
2.3.1交换空诃使用率检查23
2.4进程状态24
2.4.1僵尸进程检查24
2.5网络状态24
2.5.1网卡状态检查24
2.5.2路由状态检查25
2.5.3网络传输检查26
2.5.4网络连接数量及状态检查29
2.5.5主机解析检查31
2.6存储状态32
2.6.1HBA卡状态检查32
2.7文件系统状态33
2.7.1文件系统使用率检查33
2.7.2文件系统挂载检查33
2.7.3NFS文件系统挂载检查34
2.7.4dump设备空间检查35
2.8逻辑卷状态35
中科生财
AIX操作系统工作手朋siriodcifco
2.8.1Rootvg的剩余空间检查35
2.8.2PV状态检查36
2.8.3是否存在stale的pp检查37
2.9系统安全38
2.9.1系统登录情况检查38
2.9.2特权用户检查39
2.9.3Su操作次数检查39
2.9.4失败登录记录检查40
2.10双机状态41
2.10.1双机心跳状态检查41
2.10.2Hacmp.out日志检查42
2.10.3Cluster.log日志检查42
2.10.4双机节点状态检查43
2.11其它43
2.11.1操作系统时间检查43
3操作系统异常快速排查规范44
3.1系统日志检查44
3.2CPU使用率检查45
3.3内存使用率检查45
3.4I/O使用率检查46
3.5网络检查46
3.6交换区检查47
3.7文件系统检查47
3.8双机检查48
中科生财
AIX操作系统工作手朋siriodcifco
1引言
1.1编写目的
为了保证项目组所运维系统的持续健康运行,降低操作系统的出错几率,并
在出现问题时及时且有效的进行排查、处理,故编写本手册。
本手册是以AIX操作系统管理员的技术为基础,并结合四年项目运营的实际
经验进行编写。有关AIX操作系统的主要工作包括:操作系统健康性检查、操作
系统异常快速排查。
本运维手册按照以上两个方面的内容进行编写。
1.2适用范围
IBMAIX5/6操作系统日常运维
1.3预期读者
国家外汇管理局项目组运维工程师。
1.4文档说明
1、粗体表示注意事项、操作命令;
2、所有命名规范中所用字母,未特殊标注的,均使用小写;
3、本文所有截图是为了配合文字说明,图片内容仅供参考。
2操作系统健康性检查
对于IBMATX操作系统的健康性,主要从以下几个方面进行检查:
•系统日志
•系统性能
中科生财
AIX操作系统工作手朋siriodcifco
•交换空间
•进程状态
・网络状态
•存储状态
•逻辑卷状态
•文件系统状态
•系统安全
•双机状态
•其它
2.1系统日志
2.1.1系统硬件错误日志检查
>检查点:
操作系统错误日志是否含有硬件错误
>检查方法:
#errpt-dH
>标准:
检查结果如存在硬件错误则为系统不健康
检查结果如不存在硬件错误则为系统健康
重点关注输出信息第三列为P的错误日志
>示例:
errpt-dH
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115413'1HsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter
E142C6D408021153133HsysplanarOEEHtemporaryerrorforadapter
49A832160802115313THhdiskODISKOPERATIONERROR
F39312840802115313IHeiiLOETHERNETNETWORKRECOVERYMODE
中科生财
AIX操作系统工作手朋siriodcifco
>输出信息说明:
第三列:类型TYPE错误的类型或者说严重的程度
类型说明简写
PEND设备或功能组件可能丢失P
PERF性能严重下降P
PERM硬件设备或软件模块损坏P
TEMP临时性错误,经过重试后已经恢复正T
常
INFO一般消息,不是错误I
l\K\不能确定错误的严重性U
2.1.2系统所有错误日志检查
>检查点:
操作系统错误日志是否含有错误
>检查方法:
#errpt
>标准:
检查结果如存在错误则为系统不健康
检查结果如不存在错误则为系统健康
重点关注输出信息第三列为P第四列为H、S的错误日志
>示例:
#orrpt
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter
49A832160802115313THhdiskODISKOPERATIONERROR
F39312840802115313IHentOETHERNETNETWORKRECOVERYMODE
E142CGD40802115313TElsysplanarOEEI1temporaryerrorforadapter
中科生财
AIX操作系统工作手朋siriodcifco
49A832160802115313THhdiskODISKOPERATIONERROR
E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter
L142C6D4
0802115213THsysplanarOEEHtemporaryerrorforadapter
E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter
49A832160802115213THhdiskODISKOPERATIONERROR
E142C6D40802115113THsysplanarOEEHtemporaryerrorforadapter
,6DF45AA0802115113I0RMCdaemonThedaemonicotarted.
E142C6D40802115113THsysplanarOEEHtemporaryerrorforadapter
>输出信息说明:
第四列:种类CLASS指错误源
类型说明简写
HardWarc硬件错误H
Software软件错误S
Operation用户操作错误0
UnKnown不能确定的错误U
2.1.3系统错误日志Coredump检查
>检查点:
操作系统错误日志是否含有应用程序Core_dump错误
>检查方法:
#errpt-a|grepCORE_DUMP
A标准:
检查结果如存在Coie_duinp错误则为系统不健康
检查结果如不存在Coredump错误则为系统健康
>示例:
set-ovi
errpt-aIgrepCORE_DUMP
中科生财
AIX操作系统工作手朋siriodcifco
>输出信息说明:
无
2.1.4系统错误日志DELAYEDJNT检查
>检查点:
操作系统错误日志是否含有应用程序DELAYEDJNT错误
>检查方法:
#errpt-a|grepDELAYED_INT
>标准:
检查结果如存在DELAYED」NT错误则为系统不健康
检查结果如不存在DELAYED/NT错误则为系统健康
>示例:
errpt-a|grepDELAYED_INT
>输出信息说明:
1.DELAYED」NT错误是版本BUG,出现该错误需要进行版本补
丁升级
2.1.5系统邮件日志内容检查
>检查点:
操作系统邮件日志是否含有异常错误信息
>检查方法:
>标准:
检查结果如存在异常错误信息则为系统不健康
检查结果如不存在异常错误信息则为系统健康
中科生财
AIX操作系统工作手朋siriodcifco
>示例:
Mail[5.2UCB]|AIX5.X]Type?forhelp.
M/var/spool/mail/root":1message1new
>N1rootThuJul2519:2128/1144Hdiagelamessagefromaixl"
?
Message1:
FromrootThuJul2519:21:482013
Date:Thu,25Jul201319:21:47-0500
From:root
To:esaadmin,pconsole,root
Subject:diagelamessagefromaixl
APROBLEMWASDETECTEDONThuJul2519:20:38CDT2013801014
TheServiceRequestNumber(s)/ProbableCause(s)
(causesarelistedindescendingorderofprobability):
B17CE433:SurveillanceErrorPredictiveError,general.Refertothesystem
servicedocumentationformoreinformation.
AdditionalWords:2-030000FO3-8330L5104-C13920FF5-40000000
6-000000007-000017F98-000018589-00000000
Errorloginformation:
Date:ThuJul2519:19:03CDT2013
Sequencenumber:132
Label:SCAN_ERROR_CHRP
Priority:HMaintainenceProcedure:FSPSP33
Priority:MMaintainenceProcedure:FSPSP04
Priority:LFRU:80P6787S/N:YL1226O39202CCIN:293ALocation:
U787F.001.DPM0BYH-P1-C7
iomailforroot
A输出信息说明:
1.关键的错误信息会以mail形式发送给用户
2.特别关注crontab定时执行任务异常时会有mail产生
中科生财
AIX操作系统工作手朋siriodcifco
2.1.6系统邮件日志大小检查
>检查点:
操作系统邮件日志大小是否超过阀值
>检查方法:
#ls-1/var/spool/mail
>标准:
检查结果如目录下存在文件大小超过基线阀值则为系统不健康
检查结果如目录下不存在文件大小超过基线阀值则为系统健康
1.crontab中的定时任务脚本输出没有重定向,系统会将这些
输出信息以mail形式发给这个用户,时间长了mail会越来
越大
2.1.7登录失败日志文件大小检查
>检查点:
检查登录失败日志文件大小是否超过阀值
>检查方法:
#Is-1/etc/security/failedlogin
>标准:
登录失败日志大小超过基线阀值则为系统不健康
中科生财
AIX操作系统工作手朋siriodcifco
登录失败日志大小未超过基线阀值则为系统健康
>示例:
Is-1/etc/security/failedlogin
rw-r1rootsystem648Jul1513:09/etc/security/failedlogir
>输出信息说明:
1.日志大小建议不超过64M(默认PP大小)
2.L8登录日志文件大小检查
>检查点:
检查登录日志文件大小是否超过阀值
>检查方法:
#Is-1/var/adm/wtmp
>标准:
登录日志大小超过基线阀值则为系统不健康
登录日志大小未超过基线阀值则为系统健康
>示例:
#Is-1/var/adm/wtmp
-rw-rw-r--1admadm935064Auc0212:28/var/adm/wtmp
#du-m/var/adm/wtmp
0.90/var/adm/wtmp
>输出信息说明:
1.日志大小建议不超过64M(默认PP大小)
2.1.9su日志文件大小检查
>检查点:
检查SU日志文件大小是否超过阀值
>检查方法:
中科生财
AIX操作系统工作手朋siriodcifco
#Is-1/var/adm/sulog
>标准:
SU日志大小超过基线阀值则为系统不健康
SU日志大小未超过基线阀值则为系统健康
>示例:
Is-1/var/adm/sulog
rw1rootsystem1291Aug0212:52/var/adm/sulog
>输出信息说明:
1.su日志大小建议不超过64M(默认PP大小)
2.L10异常终止的vi日志文件大小检查
>检查点:
检查异常终止的vi日志文件大小是否超过阀值
>检查方法:
#du-sm/var/preserve
>标准:
异常终止的vi日志大小超过基线阀值则为系统不健康
异常终止的vi日志大小未超过基线阀值则为系统健康
>示例:
0.16/var/preserve
#Is-1/var/preserve
total0
-rw1rootsystem163840Aug0213:06Exaaa49168
ivi-r
OnFriAug02at13:06saved525linesoffile/tmp/smit.log
#vi-r/tmp/smit.log
*xs./var/preseiue
total0
>输出信息说明:
中科生财
AIX操作系统工作手朋siriodcifco
1.异常终止的vi日志大小建议不超过64M(默认PP大小)
2.异常终止的vi操作可通过vi-r显示查看,同样通过#vi
-r{filepath/filename)继续上次终止的操作
3.执行#vi-r{filepath/filename}JB,/var/preserve文件
夹下的文件自动清除
2.2系统性能
2.2.1系统CPU使用率检查
>检查点:
操作系统CPU使用率是否存在高于正常基线的情况
>检查方法:
#vmstat230
#sar230
#mpstat230
#topas
>标准:
检查结果如存在CPU空闲率小于30%则为系统不健康
检查结果如不存在CPU空闲率小于30%则为系统健康
>示例:
vmstat230
ystemconfiguration:lcpu=2mem=1536MB
kthrmemorypagefaults
rbavmfrerePipofrsrcyinsycsusdwd
2016305018424800000099122000991
2016305018424800000004420100990
20163049184249000000016320300990
中科生财
AIX操作系统工作手朋siriodcifco
2016304918424900000004421800990
2016304918424900000002821200990
20163053184245000000297222800990
2016305318424500000002821500990
3016305318424500000002321500990
2016305218424600000002421700990
2016305218424600000088422900990
2016305218424600000002521600990
2016305218424600000003522000990
2016305218424600000003122600990
2016305218424600000002821800990
2016305218424600000002821500990
2016305218424600000002421800990
2016305218424600000002822400990
2016305218424600000002422100990
2016305218424600000002421600990
2016305218424600000002721100990
kthrmemorypagefaultscpu
¥sar230
AIXaixl160000682ED70008/02/13
Systemconfiguration:lcpu=2mode=Capped
15:47:46%usr%sys%wio%idlephysc
15:47:480001001.00
15:47:50000991.00
15:47:520001001.00
15:47:54000991.00
15:47:560001001.00
15:47:580001001.00
15:48:000001001.00
15:48:020001001.00
15:48:040001001.00
15:48:060001001.00
15:48:08000991.00
15:48:100001001.00
15:48:120001001.00
15:48:140001001.00
15:48:160001001.00
15:48:180001001.00
15:48:200001001.00
中科生财
AIX操作系统工作手朋siriodcifco
15:48:220001001.00
#mpstat230
Systemconfiguration:lcpu=2mode=Capped
cpuminmajmpcintcsicsrqmigIpasyscussywaidpc
00001781627600100690001000.53
100018101000-00001000.47
ALL0001961728600100690001001.00
02001821637700100320001000.53
100018101000-00001000.47
ALL2002001738700100320001001.00
00001821627701100260001000.53
10001811110110000001000.47
ALL0002001738802100260001001.00
00001801617600100270001000.53
100018101000-00001000.47
ALL0001981718600100270001001.00
00001801627600100320001000.53
100018101000-00001000.47
ALL0001981728600100320001001.00
TopasMonitorforhost:aixlEVENTS/QUEUESFILE/TTY
FriAug215:51:252013Interval:2Cswitch191Readch0
Syscall56Writech67
CPUUser%Kern%Wait%Idle%Reads0Rawin0
ALL0.00.20.099.8Writes1Ttyout67
Forks0Igets0
NetworkKBPS二-PackO-PackKB-InKB-OutExecs0Namei1
Total0.21.51.00.10.1Runqueue0.0Dirblk0
Waitqueue0.0
DiskBusy%KBPSTPSKB-ReadKB-WritMEMORY
Total0.00.00.00.00.0PAGINGReal,MB1536
Faults0%Comp42
FileSystemKBPSTPSKB-ReadKB-WritSteals0%Noncomp10
Total0.00.00.00.0Pgspln0%Client10
中科生财
AIX操作系统工作手朋siriodcifco
PgspOut0
NamePIDCPU%PgSpOwnerPagein0PAGINGSPACE
topas48497620.01.4rootPageOut0Size,MB512
java58327080.037.1pconsoleSios0%Used1
getty41944620.00.6root%Free99
gil9175320.00.1rootNFS(calls/sec)
xmge7209180.00.1rootSerV20WPARActiv0
clcomd24249420.01.7rootCliV20WPARTotal0
rpc.lock44565020.00.2rootSerV30Press:"h^-help
pilegc6553800.00,1rootCliV30"q"-quit
aixmibd39978340.01.0root
netm8519940.00.1root
java17040360.067.6root
cimserve52431120.023.6root
syned15722820.00.6root
A输出信息说明:
cpu的idle小于30%,即cpu的利用率大于70%认为不正常
222查看占用CPU资源最多的进程
>检查点:
操作系统进程的CPU使用率是否存在高于正常基线的情况
>检查方法:
#psaux|head-1;psaux|sort-rn+2|head-10
>标准:
查看CPU使用率前10的进程,
CPU使用率偏离基线值需关注。
>示例:
#psaux|head-1;psaux|sort-rn+2|head-10
USERPID%CPU%MEMSZRSSTTYSTATSTIMETIMECOMMAND
root13107626.10.06060-A11:45:25132:09wait
root78645623.60.06060-A11:45:25119:24wait
root17040360.18.06931269328-A11:51:130:25/var/opt/tivoli
root56361460.00.0808844-A11:51:490:00/bin/ksh/peons
root55705680.00.016681692-A11:52:340:00/usr/sbin/rset/
root55052620.00.011721204-A11:49:060:00/usr/sbin/snrepd
中科生财
AIX操作系统工作手朋siriodcifco
root54396640.00.05656-A11:49:010:00rdpgc
root53741200.00.0292308-A11:49:070:00/opt/freeware/c
root52431120.03.02420024224-A11:49:410:01[cimserve]
root51775640.01.071287152-A11:50:550:00/usr/bin/cimlis
>输出信息说明:
无
2.2.3系统内存使用率检查
>检查点:
操作系统内存使用率是否存在高于正常基线的情况
>检查方法:
#topas
#svmon-G
#vmstat130
>标准:
操作系统内存使用率超过70%则为系统不健康
操作系统内存使用率未超过70%则为系统健康
>示例:
#svmon-G
1
sizefreepin,上匕匚ua,mmode
memory393216209122184094
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 古代教育理念对当代的启示
- 公建项目物业招标流程及标准
- 澳门废气处理施工方案
- 2024年三季度报湖南地区A股应收账款周转率排名前十大上市公司
- 辽宁省辽阳市2024-2025学年高三(上)期末生物试卷(含解析)
- 河北省保定市2024-2025学年高一上学期1月期末英语试题(B)【含答案】
- 2025年R1快开门式压力容器操作证模拟题库及答案
- 遂宁医院消防施工方案
- 墙面木质吸音板施工方案
- 2025年民俗知识考试试题及答案
- 2021年河南公务员行测考试真题及答案
- 广告安装施工及方案
- 应急第一响应人理论考试试卷(含答案)
- 2024年海南省公务员录用考试《行测》试题及答案解析
- 《预防未成年人犯罪》课件(图文)
- 上下级关系与领导力管理制度
- 九年级化学人教版跨学科实践3水质检测及自制净水器教学设计
- 堆垛机保护保养手册
- 2024年卫生资格(中初级)-初级药师考试近5年真题集锦(频考类试题)带答案
- 2024年职业病防治考试题库附答案(版)
- 【呋塞米合成工艺的探究进展5300字(论文)】
评论
0/150
提交评论