RS6000系统日常管理培训_第1页
RS6000系统日常管理培训_第2页
RS6000系统日常管理培训_第3页
RS6000系统日常管理培训_第4页
RS6000系统日常管理培训_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

日常管理与故障处理日常管理与

故障处理内容提要

系统健康检查

常用操作

故障的处理

IBM

服务热线日常管理与

故障处理系统健康检查日常管理与

故障处理系统健康检查

机房环境检查––––––电源线的母头是否为左零右火电压值是否为

240V零地电压是否小于

1V温度(摄氏

)10

40

℃湿度(

%

)8%

80%查看硬件情况–––检查设备故障灯,一般为橙色并有

标志。有没有异常声响,如硬盘、风扇等。有没有破损的电缆等日常管理与

故障处理系统健康检查检查文件系统

查看有没有

的文件系统。文件系统满可导致系统

不能正常工作,尤其是

AIX

的基本文件系统。如

/

(

根文

件系统

)

满则会导致用户不能登录。#

df

-k

(查看AIX的基本文件系统)Filesystem

1024-blocks

Free

%Used/dev/hd4

24576

1452

95%/dev/hd2

614400

28068

96%/dev/hd9var

8192

4540

45%/dev/hd3

167936

157968

6%/dev/hd1

16384

5332

68%Iused

%Iused

Mounted

on

2599

22%

/22967

15%

/usr

649

32%

/var

89

1%

/tmp

1402

35%

/home日常管理与

故障处理系统健康检查

/usr

文件系统,其他文件系统都不应太满,一般

不超过

80%

处理方法

1

:找出(删除)垃圾文件

#

du

-sk

*

|sort

–r

n

|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大

的文件。(要区分哪些目录是文件系统的

mount

point

,哪些是文件系

统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释

放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止

后空间才释放,有时甚至需要重起系统。日常管理与

故障处理系统健康检查处理方法

2

:增加文件系统大小

#

smitty

chjfs

文件系统可以在任何时候加大,前提是卷组

(VG)

中有剩余空间。检查文件系统的完整性

#

umount

filesystem_name

#

fsck

filesystem_name

#

fsck

-y

filesystem_name注意:文件系统必须先

umount

,再做检查和修复,否则可导致未知的后果。日常管理与

故障处理系统健康检查

查看卷组信息

lsvg

-l

vg_name

有没有

"stale"

状态的逻辑卷。

syncvg

命令修复。

#

smitty

syncvgLV

NAMEhd5hd6paging00hd8hd4hd2hd9varhd3hd1TYPEbootpagingpagingjfslogjfsjfsjfsjfsjfsLPs148321132541PPs2966422641082PVs222222222LV

STATEclosed/syncdopen/syncdopen/syncdopen/syncdopen/syncdopen/syncdopen/syncdopen/syncdopen/syncdMOUNT

POINTN/AN/AN/AN/A//usr/var/tmp/home日常管理与

故障处理

系统健康检查

检查内存交换区

(paging

space)

使用率

#

lsps

-s

使用率不要超过

70%

增加交换区,或增加内存。

观察内存大小的命令:

lsattr

–El

mem0#lsps

-sTotal

Paging

Space

Percent

Used

2048MB

15%#lsps

–aPage

Space

Physical

Volume

Volume

Grouphd6

hdisk0

rootvg

Size2048MB%Used

15Active

yesAuto

yesType

lv日常管理与

故障处理系统健康检查网络检查

netstat

-i

查看网卡状态

Ierrs/Ipkts

Oerrs/Opkts

是否

>1%

ping

host_name

/IP

Address

查看是否通和是否有丢包。

路由表

#netstat

-rn

查看路由表是否正确,

ping

各路由器是否通。

#hostname日常管理与

故障处理系统健康检查

#ifconfig

-aen0:flags=4e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,PSEG>

inet

netmask

0xffff0000

broadcast

lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>

inet

netmask

0xff000000

broadcast

inet6

::1/0

#ifconfig

用法

ifconfig

en0

inet

up

ifconfig

en0

ns

up

(还有很多)日常管理与

故障处理系统健康检查

#lsattr

–El

inet0authmhostname65536qtsmsAuthentication

Methods

TrueHost

Name

Truegatewayroutebootup_optionrout6

Gateway

Truenet

Route

Trueno

Serial

Optical

Network

Interface

True

FDDI

Network

Interface

Trueroute

属性是否有相应的路由信息。格式为:

如果没有缺省路由

,

执行命令:

#chdev

–l

inet0

–a

其中

为网关如果缺省路由不正确,则先删除路由

,

再增加缺省路由

:

#chdev

–l

inet0

–a

delroute=

#chdev

–l

inet0

–a

日常管理与

故障处理系统健康检查检查

dump

设置

#sysdumpdev

–l

primary

/dev/hd6

secondary

/dev/sysdumpnull

copy

directory

/var/adm/ras

forced

copy

flag

TRUE

always

allow

dump

FALSE

dump

compression

OFF

若不正确请用下列命令修改:

–#sysdumdev

–P

–p

/dev/hd6

–s

/dev/sysdumpnull日常管理与

故障处理系统健康检查系统故障记录

(errorlog)

errdemon

进程在系统启动时自动运行

记录包括硬件、软件及其他操作信息

故障记录文件为

/var/adm/ras/errlog

,可备份下来或

拷贝到别的机器上分析

errpt

命令的使用

(

普通用户权限也可使用

)日常管理与

故障处理系统健康检查日常管理与

故障处理系统健康检查日常管理与

故障处理系统健康检查日常管理与

故障处理系统健康检查发给

root

mail

信息

#

mail

#

mail

–f

;查看已经存起来的邮件

#

Ctrl+d

;

存盘退出

,

存在

/var/spool/Mail

目录下,每个用户一个

文件

#

mhmail;

将邮件另存至

/Mail/inbox

目录下,每个邮件一个文件

系统会定期将

PD

的结果以邮件形式发送给

root

,比errlog

更详细准确。日常管理与

故障处理系统健康检查磁带机

磁带机应定期清洁,每使用

30

小时(

8mm20GB

72

小时)或至少

每月清洁一次,不要等故障灯亮起后再清洁。

不同类型的带机用要不同的清洗带,不要混用。

"

/usr/lpp/diagnostics/bin/utape

-c

-d

rmt0

-n"

可查看磁带机

使用时数。

4mm

DDS3

磁带机可读写

DDS2

,但对

DDS1

只能读。

8mm20GB

磁带机只能读

5GB

7GB

磁带,而且在读过低密度磁带

后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上

有提示信息。日常管理与

故障处理系统健康检查磁盘阵列状态检查(

ssa

disk

如果在

errlog

mail

中发现了

ssa

的报错,则进入

smitty

ssaraid

细观察日常管理与

故障处理系统健康检查Listing

All

Defined

SSA

RAID

Arrays

COMMAND

STATUSCommand:

OK

stdout:

yes

stderr:

noBefore

command

completion,

additional

instructions

may

appear

below.hdisk3

095231779F0737K

good

3.4G

RAID-5

arrayhdisk4

09523173A02137K

good

3.4G

RAID-5

arrayF1=Help

F2=RefreshF3=CancelF6=CommandF8=ImageF9=Shell

F10=Exit

/=Find

n=Find

Next日常管理与

故障处理系统健康检查Listing

or

Identifying

SSA

Physical

Disk

Drives日常管理与

故障处理系统健康检查

ssa

errlog

中的报错形式––––Open

Link;

不一定是故障Resource

Unavailable;Pdisk

error;Others.pdisk

的状态

Good,

Failed

Free,

System,

Array

Candidate,

Hotspare,

Rejectedssa

raid

的状态

Good,

Exposed,

Degraded,

Rebuilding,

Offline日常管理与

故障处理常用操作日常管理与

故障处理常用操作

系统备份系统备份

除每日进行正常的用户数据备份外,建议定期进行系统备份。

备份前先停止业务系统软件和

HACMP

软件的运行。其他无关的用

户退出

,停止无关的操作。

系统备份只备份

ROOTVG

,除系统

基本的

5

个文件系统外,其他

ROOTVG

上已

mount

上的文件系统也会被备份。

smitty

mksysb

命令进行系统备份,备份前先清掉

root

的密码。

每当系统作变更

(

安装新软件、补丁程序等

)

前后,都需要做系统备

份。

[Entry

Fields][/dev/rmt0]nononoyesyesno

日常管理与

故障处理+/++++++

常用操作

系统备份

Back

Up

the

SystemType

or

select

values

in

entry

fields.Press

Enter

AFTER

making

all

desired

changes.[TOP]

WARNING:

Execution

of

the

mksysb

command

will

result

in

the

loss

of

all

material

previously

stored

on

the

selected

output

medium.

This

command

backs

up

only

rootvg

volume

group.*

Backup

DEVICE

or

FILE

Create

MAP

files?

EXCLUDE

files?

List

files

as

they

are

backed

up?

Generate

new

/image.data

file?

EXPAND

/tmp

if

needed?

Disable

software

packing

of

backup?[MORE...2]F4=ListEsc+8=ImageF1=HelpEsc+5=ResetEsc+9=ShellF2=RefreshEsc+6=CommandEsc+0=ExitF3=CancelEsc+7=EditEnter=Do日常管理与

故障处理常用操作

系统备份

检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备

份带是否能用于启动。出现以下菜单后,关机即可。

Welcome

to

Base

Operating

System

Installation

and

MaintenanceType

the

number

of

your

choice

and

press

Enter.>>>

1

Start

Installation

Now

with

Default

Settings

2

Change/Show

Installation

Settings

and

Install

3

Start

Maintenance

Mode

for

System

Recovery

88

Help

?

99

Previous

Menu日常管理与

故障处理常用操作

系统备份#smitty

lsmksysb

;检查系统备份带的内容。系统备份不是万能的。备份最好有两份。用户数据备份

文件系统可用

tar

命令,切记不要使用绝对路径。

数据库可用数据库的备份方式备。

逻辑卷

(LV)

可用

dd

命令。

smitty

savevg

用户卷组备份

只备份

mount

起的文件系统。

注意:不备份逻辑卷(裸设备)

。日常管理与

故障处理常用操作

系统备份

磁带机卡带子时可尝试

RESET

磁带机。–

按住磁带机的弹出按钮

15~30

,

直到磁带机液晶面板显示

RESET

。磁带

RESET

后磁带应能弹出。(此方法仅适用于

8mm20GB

磁带机)–

#

diag

-cd

rmt0–

#

tctl

-f

/dev/rmt0

reset–

如果上述方法均不奏效,则只有重起机器。日常管理与

故障处理常用操作

镜像

镜像

(rootvg)

lspv,

lsvg

–l

rootvg,

lsvg

rootvg,

lsvg

–p

rootvg,

lslv

–m

lv_name,

lsvg

–M

rootvg––––––extendvg

–f

rootvg

hdisk1chvg

–a

y

–Q

n

rootvgmirrorvg

–S

rootvg

hdisk0

hdisk1bosboot

–a

–l

/dev/hd5

–d

/dev/hdisk1bootlist

–m

normal

hdisk0

hdisk1syncvg

–v

rootvg日常管理与

故障处理常用操作

镜像

拆镜像(

rootvg

)––––––––––lsvg

–M

rootvg

;

检查有效的

pv,

确认

hdisk1

坏unmirrorvg

rootvg

hdisk1bosboot

–a

–d

/dev/hdisk0bootlist

–m

normal

hdisk0

cd0mkboot

–c

–d

/dev/hdisk1sysdumpdev

–l

;

检查

dump

所在的

lv(

缺省

hd6)sysdumpdev

–P

–p

/dev/hd6;reducevg

rootvg

hdisk1rmdev

–dl

hdisk1shutdown

-Fr日常管理与

故障处理常用操作

HACMP

的操作HACMP

的操作

启动:

smitty

clstart

停止:

smitty

clstop

启动

/

停止过程可以查看

/tmp/hacmp.out

文件:

#tail

f

/tmp/hacmp.out检查

Cluster

是否运行正常

Cluster

进程是否运行:

#lssrc

–g

cluster

,至少两个进

程,且为

active

IP

地址是否获取:

#netstat

–i

,看

boot

IP

是否变为

service

ip

VG

是否

varyon

#lsvg

–o

文件系统是否

mount

#mount

应用进程是否启动:

#ps

–ef

|

grep

app_name日常管理与

故障处理常用操作

HACMP

的操作

HACMP

相关日志

/usr/adm/cluster.log

以事件为单位的纪录

/tmp/hacmp.out

详细记录

/usr/sbin/cluster/history/cluster.

mmdd

历史纪录日常管理与

故障处理常用操作

dump

设置dump

的有关设置

估算系统

dump

的大小,在系统最繁忙时(内存使用最多)

#

sysdumpdev

-e

0453-041

Estimated

dump

size

in

bytes:

53477376

#

lsps

-a

Page

Space

Physical

Volume

Volume

Group

Size

%Used

Active

paging00

hdisk0

rootvg

480MB

1

yes

hd6

hdisk1

rootvg

544MB

1

yes

当前的设置

#sysdumpdev

-l

<--

dump

的主设备<--

dump

拷贝的目录

primary

/dev/hd6

secondary

/dev/sysdumpnull

copy

directory

/var/adm/ras

forced

copy

flag

TRUE

always

allow

dump

TRUE–

hd6

应比估算值稍大。日常管理与

故障处理常用操作

dump

设置–

/var/adm/ras

是默认的

dump

拷贝目录,比较估算值,

保证

/var

文件系统有足够的剩余空间拷贝

dump

文件。

否则机器重起时会提示用户插入磁带。–

dump

文件名为

vmcore.#–

建立一个新的

dump

设备

#smitty

lv

例如:

lv_name=

dump_lv,

type=sysdump

#sysdumpdev

–P

–p

/dev/dump_lv日常管理与

故障处理故障处理日常管理与

故障处理故障处理

故障的定义弄清楚系统发生了什么问题

系统现在能做什么?不能做什么?

故障什么时候发生的?

有没有做平时不同的操作?

故障有没有规律?定时还是不定时?发生的频率有多高?

是一台机器出现故障还是多台机器故障?故障现象是否相同?

最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些

设置

(

HACMP

配置

)

。日常管理与

故障处理故障处理

故障信息的收集收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录

(errorlog)

errdemon

进程在系统启动时自动运行

记录包括硬件、软件及其他操作信息

故障记录文件为

/var/adm/ras/errlog

,可备份下来或拷贝到别的

机器上分析

errpt

命令的使用

(

普通用户权限也可使用

)日常管理与

故障处理故障处理

故障信息的收集控制面板上的

LED

代码

8

位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故

障设备位置代码。(注:

S85

正常启动过程中有合法的

8

位代码。)

4

位代码,通常是

Exxx

3

位代码,通常为

0yyy

,只看后

3

位。

8

位和

4

位代码可查看系统服务手册

(Service

Guide)

3

位代码可查看系统诊断手册

(Diagnostic

Information

for

Multiple

Bus

System)

。日常管理与

故障处理故障处理

故障信息的收集控制面板上的

LED

代码

查看

Diagnostic

Information

for

Multiple

Bus

Systems

手册日常管理与

故障处理故障处理

故障信息的收集控制面板上的

LED

代码

(续)

闪动的

888,

系统崩溃,硬件或软件原因造成。按

reset

键会显示更

多内容。

888-102

一般为软件故障(

888-102-207

例外)

系统会产生一个

dump

888-102-xxx-0C9

系统正在做

dump,

请等待。

888-102-xxx-0C0

系统

dump

完成,可关电重启。

888-103

105

硬件故障,一般有

SRN

代码及位置代码。日常管理与

故障处理故障处理

故障信息的收集SMS

(System

Management

Service)

故障记录

如何进入

SMS

菜单

当主控台出现键盘图标后

(LED

显示

E1F1

)

F1

键。字符终端按

1

键。(

X80

机型则无论是字符主控还是图形主空台,一律按键

盘左上角的

1

选择

"Utilities“,

选择

"Error

Log",

抄下

8

位故障代码

SMS

中还可以更改系统启动顺序表#mail

系统会向

root

用户发

mail

报告出错信息。通常系统出现故障后没有

进行检查修复,系统会定时提醒

root日常管理与

故障处理故障处理

故障信息的收集

其他用于收集系统信息的命令–

lsdev

-C系统设备信息#lsdev

-Cc

diskhdisk0

Available

00-06-00-2,0

4.5

GB

16

Bit

SCSI

Disk

Drivehdisk1

Available

00-06-00-1,0

4.5

GB

16

Bit

SCSI

Disk

Drivehdisk2

Defined

00-06-00-4,0

16

Bit

SCSI

Disk

Drive–

lspv

#lspv

hdisk0

hdisk1

hdisk2–

lsvg

查看物理卷信息0007821160af3d76

rootvg000782117f571294

rootvg0000000045c45bde

datavg

查看卷组信息日常管理与

故障处理故障处理

故障信息的收集日常管理与

故障处理故障处理

故障信息的收集日常管理与

故障处理故障处理

故障信息的收集日常管理与

故障处理故障处理

系统不能启动系统不能正常启动可能由多种原因引起,硬件或软件。

观察系统的启动过程。

设备的故障灯是否亮起。

异常的声音,如硬盘的怪声。

注意

LED

上显示的代码,这是故障分析最重要的信息。

主控台上最后显示的信息也很重要,必须记录下来。

alog

-ot系统的启动顺序日常管理与

故障处理故障处理

系统不能启动日常管理与

故障处理故障处理

系统不能启动系统停在

Stage

1

,可能为电源、系统板、

CPU

、内存等硬件故障。记录故障代码通知

IBM

工程师。系统停在

Stage

2

,可能是启动顺序表

(bootlist)

损坏或I/O

子系统故障。可尝试进入

SMS

菜单检查启动顺序表,并修改。

若在选择

bootlist

时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。

若根本没有

SCSI

设备可选则链路有问题。系统停在

Stage3

,可能是硬盘数据损坏,系统设置文件出错,或

I/O

子系统故障。日常管理与故障处理

系统停在

551

555

557

故障处理发生在系统启动的第三阶段

(Stage

3)

,可能是:–

文件系统损坏–

文件系统日志

(jfslog)

损坏–

rootvg

中有坏硬盘修复方法–

用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)–

启动后选择选项

3"Start

Maintenance

Mode

for

System

Recovery">

"Access

a

Root

Volume

Group">

"Access

this

volume

group

and

start

a

shellbefore

mounting

the

file

systems"

日常管理与故障处理

系统停在

551

555

557

故障处理

格式化文件系统日志

(jfslog)

#

/usr/sbin/logform

/dev/hd8

检查修复文件系统

#

fsck

-y

/dev/hd1

/home

文件系统)#

fsck

-y

/dev/hd2#

fsck

-y

/dev/hd3#

fsck

-y

/dev/hd4(

/usr

文件系统)(

/tmp

文件系统)(

/

文件系统)

#

fsck

-y

/dev/hd9var

/var

文件系统)

...

...

exit

命令退出,文件系统会自动

mount

起来。–

重建

bootimage

#

lslv

-m

hd5

找出

bootimage

所在的硬盘,如

hdisk0

#

bosboot

-ad

/dev/hdisk0

#

bootlist

-m

normal

/dev/hdisk0

重建启动顺序表。日常管理与故障处理

系统停在

551

555

557

故障处理–

重启动系统#

shutdown

-Fr如上述步骤不奏效–

用系统备份带恢复系统。–

如备份带不能恢复,用诊断光盘(

DiagnosticCDROM

)检查是否坏硬盘。–

通知

IBM

工程师。日常管理与

故障处理故障处理

主控台不能登录

字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是

getty

进程运行不正常。远程

telnet

登录检查

"getty"

进程是否运行正常

#

ps

-ef

|grep

console

root

29170

1

0

Jul

24

lft0

0:00

/usr/sbin/getty

/dev/console如

"getty"

正常,查看主控台端口是否正确

#

lscons

查看主控台设备

/dev/tty0

#

lsdev

-C

-l

tty0

查看端口是否可用,连线是否正确

tty0

Available

01-S1-00-00

Asynchronous

Terminal

#

lsattr

-El

tty0

看端口参数是否正确,如波特率日常管理与

故障处理故障处理

主控台不能登录如

"getty"

没有运行在主控台上,检查/etc/inittab

文件有否

cons:0123456789:respawn:/etc/getty

/dev/console

更正后运行

"init

Q"

命令激活主控端口。如

getty

确实在运行,则可能是终端的硬件问题。日常管理与

故障处理故障处理

CDE

图形界面挂死CDE

运行时不要更改网络参数(如:主机名和

IP

地址)更改网卡设置,请先退出

CDE

图形环境,选择命令行方式登录,在字符界面下更改。如

CDE

已经挂死

远程

telnet

登录

找出所有

dt

有关的进程用

kill

命令杀掉

#

ps

-ef

|grep

dt

...

...

#

kill

PID

检查当前主机名uname

-a#

hostnametscf50日常管理与

故障处理故障处理

CDE

图形界面挂死

查看主机名是否对应有效的

IP

地址

#

netstat

-i

|grep

tscf50tr0*

1500

tscf505060490

28247

0

0–

更改主机名或

IP

地址,使主机名与当前有效的

IP

地址存

在对应关系。

#

smitty

tcpip–

重新启动

CDE

界面

#

/etc/rc.dt–

HACMP

环境下可把主机名

alias

#

cat

/etc/hosts

loopback

localhost

tscf50

#

loopback

(lo0)

name/addressbvg日常管理与

故障处理故障处理

系统

dump发生在系统崩溃时,

AIX

会做

dump(

系统内存的快照

)

。此时机器会显示闪动的

888

102

xxx

0cx

代码:0c90c00c20c40c5系统

dump

进行中。

0c9

状态可能会维持超

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论