AIX操作系统运行维护手册Ver10_第1页
AIX操作系统运行维护手册Ver10_第2页
AIX操作系统运行维护手册Ver10_第3页
AIX操作系统运行维护手册Ver10_第4页
AIX操作系统运行维护手册Ver10_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中科生财

AIX操作系统工作手朋siriodcifco

AIX操作系统工作手册

文件编号

版本0.1

作成日2013年10月24日

修订日

发布日

中科生财

AIX操作系统工作手朋siriodcifco

修改履历

序号版本修改日期章节号修改记录修改人批准人

10.12013/10/23创建修游

中科生财

AIX操作系统工作手朋siriodcifco

目录

1引言5

1.1编写目的5

1.2适用范围5

1.3预期读者5

1.4文档说明5

2操作系统健康性检查5

2.1系统日志6

2.1.1系统硬件错误日志检查6

2.1.2系统所有错误日志检查7

2.1.3系统错误日志Core_dump检查8

2.1.4系统错误日志DELAYED」NT检查9

2.1.5系统邮件日志内容检查9

2.1.6系统邮件日志大小检查11

2.1.7登录失败日志文件大小检查11

2.1.8登录日志文件人小检查12

2.1.9su日志文件大小检查12

2.1.10异常终止的vi日志文件大小检查13

2.2系统性能14

2.2.1系统CPU使用率检查14

2.2.2查看占用CPU资源最多的进程17

2.2.3系统内存使用率检查18

2.2.4系统占用内存资源最多的进程20

2.2.5系统磁盘繁忙程度检查22

2.3交换空间23

2.3.1交换空诃使用率检查23

2.4进程状态24

2.4.1僵尸进程检查24

2.5网络状态24

2.5.1网卡状态检查24

2.5.2路由状态检查25

2.5.3网络传输检查26

2.5.4网络连接数量及状态检查29

2.5.5主机解析检查31

2.6存储状态32

2.6.1HBA卡状态检查32

2.7文件系统状态33

2.7.1文件系统使用率检查33

2.7.2文件系统挂载检查33

2.7.3NFS文件系统挂载检查34

2.7.4dump设备空间检查35

2.8逻辑卷状态35

中科生财

AIX操作系统工作手朋siriodcifco

2.8.1Rootvg的剩余空间检查35

2.8.2PV状态检查36

2.8.3是否存在stale的pp检查37

2.9系统安全38

2.9.1系统登录情况检查38

2.9.2特权用户检查39

2.9.3Su操作次数检查39

2.9.4失败登录记录检查40

2.10双机状态41

2.10.1双机心跳状态检查41

2.10.2Hacmp.out日志检查42

2.10.3Cluster.log日志检查42

2.10.4双机节点状态检查43

2.11其它43

2.11.1操作系统时间检查43

3操作系统异常快速排查规范44

3.1系统日志检查44

3.2CPU使用率检查45

3.3内存使用率检查45

3.4I/O使用率检查46

3.5网络检查46

3.6交换区检查47

3.7文件系统检查47

3.8双机检查48

中科生财

AIX操作系统工作手朋siriodcifco

1引言

1.1编写目的

为了保证项目组所运维系统的持续健康运行,降低操作系统的出错几率,并

在出现问题时及时且有效的进行排查、处理,故编写本手册。

本手册是以AIX操作系统管理员的技术为基础,并结合四年项目运营的实际

经验进行编写。有关AIX操作系统的主要工作包括:操作系统健康性检查、操作

系统异常快速排查。

本运维手册按照以上两个方面的内容进行编写。

1.2适用范围

IBMAIX5/6操作系统日常运维

1.3预期读者

国家外汇管理局项目组运维工程师。

1.4文档说明

1、粗体表示注意事项、操作命令;

2、所有命名规范中所用字母,未特殊标注的,均使用小写;

3、本文所有截图是为了配合文字说明,图片内容仅供参考。

2操作系统健康性检查

对于IBMATX操作系统的健康性,主要从以下几个方面进行检查:

•系统日志

•系统性能

中科生财

AIX操作系统工作手朋siriodcifco

•交换空间

•进程状态

・网络状态

•存储状态

•逻辑卷状态

•文件系统状态

•系统安全

•双机状态

•其它

2.1系统日志

2.1.1系统硬件错误日志检查

>检查点:

操作系统错误日志是否含有硬件错误

>检查方法:

#errpt-dH

>标准:

检查结果如存在硬件错误则为系统不健康

检查结果如不存在硬件错误则为系统健康

重点关注输出信息第三列为P的错误日志

>示例:

errpt-dH

IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION

E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115413'1HsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter

E142C6D408021153133HsysplanarOEEHtemporaryerrorforadapter

49A832160802115313THhdiskODISKOPERATIONERROR

F39312840802115313IHeiiLOETHERNETNETWORKRECOVERYMODE

中科生财

AIX操作系统工作手朋siriodcifco

>输出信息说明:

第三列:类型TYPE错误的类型或者说严重的程度

类型说明简写

PEND设备或功能组件可能丢失P

PERF性能严重下降P

PERM硬件设备或软件模块损坏P

TEMP临时性错误,经过重试后已经恢复正T

INFO一般消息,不是错误I

l\K\不能确定错误的严重性U

2.1.2系统所有错误日志检查

>检查点:

操作系统错误日志是否含有错误

>检查方法:

#errpt

>标准:

检查结果如存在错误则为系统不健康

检查结果如不存在错误则为系统健康

重点关注输出信息第三列为P第四列为H、S的错误日志

>示例:

#orrpt

IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION

E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115413THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115313THsysplanarOEEHtemporaryerrorforadapter

49A832160802115313THhdiskODISKOPERATIONERROR

F39312840802115313IHentOETHERNETNETWORKRECOVERYMODE

E142CGD40802115313TElsysplanarOEEI1temporaryerrorforadapter

中科生财

AIX操作系统工作手朋siriodcifco

49A832160802115313THhdiskODISKOPERATIONERROR

E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter

L142C6D4

0802115213THsysplanarOEEHtemporaryerrorforadapter

E142C6D40802115213THsysplanarOEEHtemporaryerrorforadapter

49A832160802115213THhdiskODISKOPERATIONERROR

E142C6D40802115113THsysplanarOEEHtemporaryerrorforadapter

,6DF45AA0802115113I0RMCdaemonThedaemonicotarted.

E142C6D40802115113THsysplanarOEEHtemporaryerrorforadapter

>输出信息说明:

第四列:种类CLASS指错误源

类型说明简写

HardWarc硬件错误H

Software软件错误S

Operation用户操作错误0

UnKnown不能确定的错误U

2.1.3系统错误日志Coredump检查

>检查点:

操作系统错误日志是否含有应用程序Core_dump错误

>检查方法:

#errpt-a|grepCORE_DUMP

A标准:

检查结果如存在Coie_duinp错误则为系统不健康

检查结果如不存在Coredump错误则为系统健康

>示例:

set-ovi

errpt-aIgrepCORE_DUMP

中科生财

AIX操作系统工作手朋siriodcifco

>输出信息说明:

2.1.4系统错误日志DELAYEDJNT检查

>检查点:

操作系统错误日志是否含有应用程序DELAYEDJNT错误

>检查方法:

#errpt-a|grepDELAYED_INT

>标准:

检查结果如存在DELAYED」NT错误则为系统不健康

检查结果如不存在DELAYED/NT错误则为系统健康

>示例:

errpt-a|grepDELAYED_INT

>输出信息说明:

1.DELAYED」NT错误是版本BUG,出现该错误需要进行版本补

丁升级

2.1.5系统邮件日志内容检查

>检查点:

操作系统邮件日志是否含有异常错误信息

>检查方法:

#mail

>标准:

检查结果如存在异常错误信息则为系统不健康

检查结果如不存在异常错误信息则为系统健康

中科生财

AIX操作系统工作手朋siriodcifco

>示例:

#mail

Mail[5.2UCB]|AIX5.X]Type?forhelp.

M/var/spool/mail/root":1message1new

>N1rootThuJul2519:2128/1144Hdiagelamessagefromaixl"

?

Message1:

FromrootThuJul2519:21:482013

Date:Thu,25Jul201319:21:47-0500

From:root

To:esaadmin,pconsole,root

Subject:diagelamessagefromaixl

APROBLEMWASDETECTEDONThuJul2519:20:38CDT2013801014

TheServiceRequestNumber(s)/ProbableCause(s)

(causesarelistedindescendingorderofprobability):

B17CE433:SurveillanceErrorPredictiveError,general.Refertothesystem

servicedocumentationformoreinformation.

AdditionalWords:2-030000FO3-8330L5104-C13920FF5-40000000

6-000000007-000017F98-000018589-00000000

Errorloginformation:

Date:ThuJul2519:19:03CDT2013

Sequencenumber:132

Label:SCAN_ERROR_CHRP

Priority:HMaintainenceProcedure:FSPSP33

Priority:MMaintainenceProcedure:FSPSP04

Priority:LFRU:80P6787S/N:YL1226O39202CCIN:293ALocation:

U787F.001.DPM0BYH-P1-C7

mail

iomailforroot

A输出信息说明:

1.关键的错误信息会以mail形式发送给用户

2.特别关注crontab定时执行任务异常时会有mail产生

中科生财

AIX操作系统工作手朋siriodcifco

2.1.6系统邮件日志大小检查

>检查点:

操作系统邮件日志大小是否超过阀值

>检查方法:

#ls-1/var/spool/mail

>标准:

检查结果如目录下存在文件大小超过基线阀值则为系统不健康

检查结果如目录下不存在文件大小超过基线阀值则为系统健康

1.crontab中的定时任务脚本输出没有重定向,系统会将这些

输出信息以mail形式发给这个用户,时间长了mail会越来

越大

2.1.7登录失败日志文件大小检查

>检查点:

检查登录失败日志文件大小是否超过阀值

>检查方法:

#Is-1/etc/security/failedlogin

>标准:

登录失败日志大小超过基线阀值则为系统不健康

中科生财

AIX操作系统工作手朋siriodcifco

登录失败日志大小未超过基线阀值则为系统健康

>示例:

Is-1/etc/security/failedlogin

rw-r1rootsystem648Jul1513:09/etc/security/failedlogir

>输出信息说明:

1.日志大小建议不超过64M(默认PP大小)

2.L8登录日志文件大小检查

>检查点:

检查登录日志文件大小是否超过阀值

>检查方法:

#Is-1/var/adm/wtmp

>标准:

登录日志大小超过基线阀值则为系统不健康

登录日志大小未超过基线阀值则为系统健康

>示例:

#Is-1/var/adm/wtmp

-rw-rw-r--1admadm935064Auc0212:28/var/adm/wtmp

#du-m/var/adm/wtmp

0.90/var/adm/wtmp

>输出信息说明:

1.日志大小建议不超过64M(默认PP大小)

2.1.9su日志文件大小检查

>检查点:

检查SU日志文件大小是否超过阀值

>检查方法:

中科生财

AIX操作系统工作手朋siriodcifco

#Is-1/var/adm/sulog

>标准:

SU日志大小超过基线阀值则为系统不健康

SU日志大小未超过基线阀值则为系统健康

>示例:

Is-1/var/adm/sulog

rw1rootsystem1291Aug0212:52/var/adm/sulog

>输出信息说明:

1.su日志大小建议不超过64M(默认PP大小)

2.L10异常终止的vi日志文件大小检查

>检查点:

检查异常终止的vi日志文件大小是否超过阀值

>检查方法:

#du-sm/var/preserve

>标准:

异常终止的vi日志大小超过基线阀值则为系统不健康

异常终止的vi日志大小未超过基线阀值则为系统健康

>示例:

0.16/var/preserve

#Is-1/var/preserve

total0

-rw1rootsystem163840Aug0213:06Exaaa49168

ivi-r

OnFriAug02at13:06saved525linesoffile/tmp/smit.log

#vi-r/tmp/smit.log

*xs./var/preseiue

total0

>输出信息说明:

中科生财

AIX操作系统工作手朋siriodcifco

1.异常终止的vi日志大小建议不超过64M(默认PP大小)

2.异常终止的vi操作可通过vi-r显示查看,同样通过#vi

-r{filepath/filename)继续上次终止的操作

3.执行#vi-r{filepath/filename}JB,/var/preserve文件

夹下的文件自动清除

2.2系统性能

2.2.1系统CPU使用率检查

>检查点:

操作系统CPU使用率是否存在高于正常基线的情况

>检查方法:

#vmstat230

#sar230

#mpstat230

#topas

>标准:

检查结果如存在CPU空闲率小于30%则为系统不健康

检查结果如不存在CPU空闲率小于30%则为系统健康

>示例:

vmstat230

ystemconfiguration:lcpu=2mem=1536MB

kthrmemorypagefaults

rbavmfrerePipofrsrcyinsycsusdwd

2016305018424800000099122000991

2016305018424800000004420100990

20163049184249000000016320300990

中科生财

AIX操作系统工作手朋siriodcifco

2016304918424900000004421800990

2016304918424900000002821200990

20163053184245000000297222800990

2016305318424500000002821500990

3016305318424500000002321500990

2016305218424600000002421700990

2016305218424600000088422900990

2016305218424600000002521600990

2016305218424600000003522000990

2016305218424600000003122600990

2016305218424600000002821800990

2016305218424600000002821500990

2016305218424600000002421800990

2016305218424600000002822400990

2016305218424600000002422100990

2016305218424600000002421600990

2016305218424600000002721100990

kthrmemorypagefaultscpu

¥sar230

AIXaixl160000682ED70008/02/13

Systemconfiguration:lcpu=2mode=Capped

15:47:46%usr%sys%wio%idlephysc

15:47:480001001.00

15:47:50000991.00

15:47:520001001.00

15:47:54000991.00

15:47:560001001.00

15:47:580001001.00

15:48:000001001.00

15:48:020001001.00

15:48:040001001.00

15:48:060001001.00

15:48:08000991.00

15:48:100001001.00

15:48:120001001.00

15:48:140001001.00

15:48:160001001.00

15:48:180001001.00

15:48:200001001.00

中科生财

AIX操作系统工作手朋siriodcifco

15:48:220001001.00

#mpstat230

Systemconfiguration:lcpu=2mode=Capped

cpuminmajmpcintcsicsrqmigIpasyscussywaidpc

00001781627600100690001000.53

100018101000-00001000.47

ALL0001961728600100690001001.00

02001821637700100320001000.53

100018101000-00001000.47

ALL2002001738700100320001001.00

00001821627701100260001000.53

10001811110110000001000.47

ALL0002001738802100260001001.00

00001801617600100270001000.53

100018101000-00001000.47

ALL0001981718600100270001001.00

00001801627600100320001000.53

100018101000-00001000.47

ALL0001981728600100320001001.00

TopasMonitorforhost:aixlEVENTS/QUEUESFILE/TTY

FriAug215:51:252013Interval:2Cswitch191Readch0

Syscall56Writech67

CPUUser%Kern%Wait%Idle%Reads0Rawin0

ALL0.00.20.099.8Writes1Ttyout67

Forks0Igets0

NetworkKBPS二-PackO-PackKB-InKB-OutExecs0Namei1

Total0.21.51.00.10.1Runqueue0.0Dirblk0

Waitqueue0.0

DiskBusy%KBPSTPSKB-ReadKB-WritMEMORY

Total0.00.00.00.00.0PAGINGReal,MB1536

Faults0%Comp42

FileSystemKBPSTPSKB-ReadKB-WritSteals0%Noncomp10

Total0.00.00.00.0Pgspln0%Client10

中科生财

AIX操作系统工作手朋siriodcifco

PgspOut0

NamePIDCPU%PgSpOwnerPagein0PAGINGSPACE

topas48497620.01.4rootPageOut0Size,MB512

java58327080.037.1pconsoleSios0%Used1

getty41944620.00.6root%Free99

gil9175320.00.1rootNFS(calls/sec)

xmge7209180.00.1rootSerV20WPARActiv0

clcomd24249420.01.7rootCliV20WPARTotal0

rpc.lock44565020.00.2rootSerV30Press:"h^-help

pilegc6553800.00,1rootCliV30"q"-quit

aixmibd39978340.01.0root

netm8519940.00.1root

java17040360.067.6root

cimserve52431120.023.6root

syned15722820.00.6root

A输出信息说明:

cpu的idle小于30%,即cpu的利用率大于70%认为不正常

222查看占用CPU资源最多的进程

>检查点:

操作系统进程的CPU使用率是否存在高于正常基线的情况

>检查方法:

#psaux|head-1;psaux|sort-rn+2|head-10

>标准:

查看CPU使用率前10的进程,

CPU使用率偏离基线值需关注。

>示例:

#psaux|head-1;psaux|sort-rn+2|head-10

USERPID%CPU%MEMSZRSSTTYSTATSTIMETIMECOMMAND

root13107626.10.06060-A11:45:25132:09wait

root78645623.60.06060-A11:45:25119:24wait

root17040360.18.06931269328-A11:51:130:25/var/opt/tivoli

root56361460.00.0808844-A11:51:490:00/bin/ksh/peons

root55705680.00.016681692-A11:52:340:00/usr/sbin/rset/

root55052620.00.011721204-A11:49:060:00/usr/sbin/snrepd

中科生财

AIX操作系统工作手朋siriodcifco

root54396640.00.05656-A11:49:010:00rdpgc

root53741200.00.0292308-A11:49:070:00/opt/freeware/c

root52431120.03.02420024224-A11:49:410:01[cimserve]

root51775640.01.071287152-A11:50:550:00/usr/bin/cimlis

>输出信息说明:

2.2.3系统内存使用率检查

>检查点:

操作系统内存使用率是否存在高于正常基线的情况

>检查方法:

#topas

#svmon-G

#vmstat130

>标准:

操作系统内存使用率超过70%则为系统不健康

操作系统内存使用率未超过70%则为系统健康

>示例:

#svmon-G

1

sizefreepin,上匕匚ua,mmode

memory393216209122184094

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论