IBM RS6000 小型机质量检查标准V1.0(评估版)_第1页
IBM RS6000 小型机质量检查标准V1.0(评估版)_第2页
IBM RS6000 小型机质量检查标准V1.0(评估版)_第3页
IBM RS6000 小型机质量检查标准V1.0(评估版)_第4页
IBM RS6000 小型机质量检查标准V1.0(评估版)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IBM RS6000 小型机日维指导书/检查表内部使用资料编码产品名称业务与软件产品使用对象技术支援产品版本编写部门集成产品部资料版本V0.9业务与软件产品IBM RS6000 小型机日维检查指导(评估版)拟 制:卢山日 期:2004-12-29审 核:日 期:审 核:日 期:批 0准:日 期:修 订 记 录日 期修订版本作 者描 述华 为 技 术 有 限 公 司版权所有 侵权必究IBM RS6000 小型机日维检查步骤评估版 1日检31.1检查系统错误报告31.2是否有给 root 发送的 mail ,并关注内容31.3检查磁盘剩余空间31.4忙时/闲时 磁盘、CPU、内存、swap 区的使

2、用情况41.4.1忙时/闲时十分钟 CPU 实时观测41.4.2忙时/闲时十分钟 DISK 实时观测41.4.3忙时/闲时十分钟 MEM 实时观测41.4.4忙时/闲时十分钟 CPU 平均数据41.4.5忙时/闲时十分钟 DISK 平均数据51.5SWAP 空间使用率检测51.6检查 hacmp 状态51.7检查 hacmp 进程51.8检查 cluster 日志/usr/es/sbin/cluster/history; hacmp.out ; cluster.log ;62月检62.1系统备份62.2检查系统硬件指示灯62.3检查系统启动信息 alog ot boot62.4SWAP 分区大

3、小检测72.5操作系统时间以及 cluster 各节点之间的时间一致性73季检83.1增加操作系统配置参数检测83.1.1/etc/environment 中的 TZ 不能有夏时制83.1.2检查 AIO 是否被启用83.1.3检查 HACMP 中 I/O pacing:High Water Mark/Low Water MArk:33/2483.1.4检查系统 Syncd:1083.1.5检查 sysdumpdev83.1.6ulimit 检查93.1.7vmtune 检查103.2逻辑卷 stale 检测103.3通信检测104年检(或半年检)详见华为IBM联合巡检指导书114.1增加 C

4、LUSTER 切换检测114.2增加机房环境检测114.3增加硬件诊断114.4补丁微码检测114.5ROOTVG 镜像检测114.6HOTspare 磁盘检测114.7Snap 信息收集114.8清洁设备11IBM RS6000 小型机日维检查步骤评估版 日维检查目的:其出发点是从常见问题入手,对常见的、可预测问题,提供一种简单可行的对照原则。检测系统中出现的明显瓶颈或故障,通过常用的命令和维护方法,建立尽早发现问题的途径。.日检1.1 检查系统错误报告 当 IBM 小型机出现重要告警事件时会通过 errdemon 上报错误消息,可以使用 errpt查看消息内容。#errpt |more根据

5、 TIMESTAMP 字段看是否有新增的事件输出,注:某些重要的系统维护操作也会产生新记录,可以结合 errpt aj 详细输出结果判断是否属于错误信息。#errpt T PERM d H查看是否有新增的硬件故障#errpt aj |more 参考:需要进一步定位故障时,使用 errpt aj 指定 IDENTIFIER 号码查看故障详细信息,重点关注 Resource Name、 Description、 Probable Causes、 Failure Causes、 Recommended Actions 了解故障产生的原因以及建议的处理方法参考值: errpt 无近期输出,errpt

6、T PERM d H 无新内容显示1.2 是否有给 root 发送的 mail ,并关注内容原因同上mail参考值:无近期的 mail 输出1.3 检查磁盘剩余空间磁盘空间满会引发各种莫名其妙的问题,需要关注df k查看磁盘空间使用率 Used% 是否有大于 70-90,根据需要删除没有用的文件或扩展文件系统参考值:无使用率大于 70-90 的文件系统1.4 忙时/闲时 磁盘、CPU、内存、swap 区的使用情况CPU、内存/swap、磁盘几个子系统的使用情况,与业务运行息息相关,重点关注其各项指标超出正常范围的规律,配合业务应用解决或解释出现的各类瓶颈问题。同时也可以根据长期观测积累经验,判

7、断当前系统是否正常,其连续观察结果可以作为后续系统升级的依据。监测磁盘、CPU、内存、swap的使用情况,分为业务忙、闲两个时间段进行。可以打开多个终端窗口同时执行下列操作,两个时段各取十分钟数据进行观测或记录。1.4.1 忙时/闲时十分钟 CPU 实时观测#vmstat 2 300持续观测us、sy、id、wa的使用情况,查找资源瓶颈参考值: id30,wa30参考 1.4.4 1.4.2 忙时/闲时十分钟 DISK 实时观测#iostat 2 300|grep v 0.0持续观测热点盘的使用情况,查找资源瓶颈参考值:%tm_act30,wio30%此项监测等同于1.4.1,重点关注最后一组

8、数据,%wio30 是一个临界参考值,当wio超过 10,就应该予以关注。如果wio超过40-50% ,则系统处于瘫痪边缘。1.4.5 忙时/闲时十分钟 DISK 平均数据#sar d 10 60对 disk 进行六十次的十秒钟采样,计十分种,最后一组数据为平均值参考值:busy 70%当busy长期处于90上时,磁盘IO处于临界值,需要分析业务或进行硬件扩容。1.5 SWAP 空间使用率检测Swap 空间使用率过高代表着内存不足,同时当 swap 空间满时,系统会出现异常或完全失去功能。可以结合 pi、po 进一步观察。#lsps s 查看 Percent Used 项参考值:Persent

9、 Used 50%对系统性能要求高时,程序多会在物理内存上运行,该值应该尽量接近 11.6 检查 hacmp 状态clstat 可以用来观测 cluste 各节点通讯,它的信息来源需要 hacmp 的三个服务进程支持。每日检查 cluster 是否处于稳定状态,各接口状态是否为 UP,进而保证资源的正常切换。/usr/es/sbin/cluster/clstat -a检查输出结果是否正常(hacmp5.1)/usr/sbin/cluster/clstat a检查输出结果是否正常(hacmp4.4)参考值:1、cluster 的 state 为 UP,SubState 为 STABLE (稳定)

10、2、所有节点状态为UP3、所有接口状态为UP( boot ip可以出现 down 状态: cluster 的 service ip地址有两种配置模式 ip alias OR no ip alias . 非定制的 hacmp 4.5以下的版本只支持 no ip alias一种配置方式 , hacmp4.5 及 hacmp5.1 支持 ip alias 与 no ip alias 两种配置方式 . 当使用 no ip alias 配置方式配置 service ip 时,当拥有资源组的节点启动后, boot ip 地址将被 serviceip 地址替换,具体表现为 down)4、所有 Resourc

11、e Group 为UPclstat 命令位置随 hacmp 版本不同而不同,如与上述目录有出入,请在 /usr/ 下查找该文件1.7 检查 hacmp 进程HACMP 按照我司规范运行时可以看到三个进程,分别控制资源和信息传递。同时也可以根据 hacmp 服务进程的状态观测 cluster 是否已经启动或停止。#lssrc g cluster可以看到 info、mux、mgr 三个服务进程,服务进程的名称随 hacmp 版本不同而不同参考值:三个服务进程状态应该为 active,如果没有特殊要求,不应该出现其他进程1.8 检查 cluster 日志/usr/es/sbin/cluster/hi

12、story/*; /usr/es/adm/cluster.log ; /tmp/hacmp.out ;查看是错误信息提示,无 error、fail、switch、down 等字样,根据行的内容判断是否正常。(日检中只需要检查新增的记录即可)因为 hacmp.out 的日值信息非常多,日常维护可以重点关注 history 目录下的文件(日期结尾)以及 cluster.log 文件。当发现异常后再仔细核查 hacmp.out 文件。参考值:日志中无错误信息关键字出现,无例外事件产成,该项监测较为复杂,同时难度较高,需要日常维护中逐步熟悉,对比系统正常时的日值文件结构做判断。重点关注项: histo

13、ry目录下产生的新文件 cluster.log 文件中的 FAILED (注意大小写) 以及新增记录 hacmpr.out 文件中的 ERROR (注意大小写)history 以及 cluster.log 的位置随 hacmp 版本不同而不同,如与上述目录有出入,请在 /usr/ 下查找该目录或文件2 月检2.1 系统备份a) 卸载不需要进行系统备份的根盘文件系统,减少备份所需空间umount b) #mksysb -i /dev/rmt0系统备份,假设 /dev/rmt0 为磁带机设备参考值:备份结束时查看屏幕打印结果,无错误信息提示2.2 检查系统硬件指示灯指示灯随设备的不同有多种定义方法

14、,原则上系统中不应该出现黄色或红色的告警灯出现。正常指示灯多为常亮绿灯(网卡以及特殊定义的指示灯除外)参考值:无异常指示灯2.3 检查系统启动信息 alog ot boot# alog ot boot 检查最近一次系统启动时记录的信息。该检查项目应该在系统重启后完成,但是为了避免遗忘,所以放在月检中。此项内容很难给出关键字进行指导,可以根据具体英文内容判断是否异常(出现异常时日志中所显示的内容格式与正常时有所不同)。参考值:无异常信息错误信息:Failure replaying log: 0mount: 0506-324 Cannot mount /dev/bsclv202 on /usr1/

15、sjz: The media is not formatted or the format is not correct.0506-342 The superblock on /dev/bsclv202 is dirty. Run a full fsck to fix.mount: 0506-324 Cannot mount /dev/bsclv801 on /usr1/zz: A file or directory in the path name does not exist.mount: 0506-326 +B is not a valid flag.mount: 0506-326 +B

16、 is not a valid flag.mount: 0506-324 Cannot mount /dev/lviinscu on /tellin/iinscu: A file or directory in the path name does not exist.2.4 SWAP 分区大小检测#lssp s查看 Total Paging Space 项,很难说 paging space 空间到底多大才适合,可以根据业务要求设定。小的 paging space 在出现大量异常 pageout 时很容易被迅速填满(如运行了错误的命令或内存溢出),paging space 填满后系统将无法建立

17、新的进程,导致系统崩溃。当业务无具体要求,同时,系统磁盘空间足够的情况下,paging space 可以取实际物理内存的 11.5 倍或以上,更多的 paging space 会给异常情况处理提供更多的时间。参考值:paging space 可以取实际物理内存的 11.5 倍或以上 , 更多的 paging space 会给异常情况处理提供更多的时间。2.5 操作系统时间以及 cluster 各节点之间的时间一致性#date查看各节点日期、时间是否一致。查看各节点日期、时间是否与当前标准时间相符参考值:时间正确、各节点时间一致注:根据不同的业务需要,对于时间的监测可以作为日监测或周监测内容3

18、季检3.1 增加操作系统配置参数检测3.1.1 /etc/environment 中的 TZ 不能有夏时制 #date方法1:运行 date 命令,查看命令输出是否有 DT 字样。#grep DT /etc/environment 方法2:查看enviromnent TZ一行是否有 DT 字样此参数由 smit chtz 设定3.1.2 检查 AIO 是否被启用 # lsdev -Cc aio查看 aio 状态应该是 avaliableaio0 Available Asynchronous I/O此参数由 smitty aio 设定3.1.3 检查 HACMP 中 I/O pacing:Hig

19、h Water Mark/Low Water MArk:33/24 # lsattr -El sys0|grep water查看maxout minout的值是否为 33、24maxpout 33 HIGH water mark for pending write I/Os per file Trueminpout 24 LOW water mark for pending write I/Os per file True此参数由 smitty chgsys 设定3.1.4 检查系统 Syncd:10 # ps -ef |grep syncd查看syncd的同步间隔,建议值为 10 root

20、9300 1 0 Dec 08 - 428:54/usr/sbin/syncd 10此参数由 /sbin/rc.boot 中的 nohup /usr/sbin/syncd 10 /dev/null 2&1 & 行设定3.1.5 检查 sysdumpdev# sysdumpdev l运行sysdumpdev命令检查sysdumpdev的状态primary /dev/lg_dumplvprimary dumpdev 不得与paging space重叠secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEa

21、lways allow dump TRUEalways allow dump 为 TRUEdump compression OFF# sysdumpdev esysdump大小 主dump设备大小*80%0453-041 Estimated dump size in bytes: 160432128单位:byte主dump设备空间估算 = PP SIZE * LPs单位:Mlslv PP SIZE * LPs3.1.6 ulimit 检查#ulimitulimit -atime(seconds) unlimitedfile(blocks) unlimiteddata(kbytes) unlim

22、itedstack(kbytes) 132768memory(kbytes) unlimitedcoredump(blocks) unlimitednofiles(descriptors) 2000WIN产品的特殊要求:2)Ulimit参数修改:/etc/security/limits 文件中的stack(kbytes)参数为1。1 . nofiles 修改为 -1。修改完重起机器后,cluster 软件 clinfo 进程不能起来,把参数值调整为默认的nofiles2000 后重起机器问题解决2. limits 文件中默认 rss = -1 应修改为 rss = 65536 否则,双机不能正常切换,文档中没有有关此参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论