IBM小型机及存储巡检手册_第1页
IBM小型机及存储巡检手册_第2页
IBM小型机及存储巡检手册_第3页
IBM小型机及存储巡检手册_第4页
IBM小型机及存储巡检手册_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IBM小型机及存储巡检手册CONTENTS第一章硬件部分日常维护操作(耗时共 20分钟左右)11.1 检查机房环境(5分钟)11.2 检查系统硬件情况(5分钟)11.3 检查硬件错误报告 (5分钟)21.4 机器清洁(3分钟)41.5 逻辑卷/硬盘检查(1分钟)41.6 磁带机是否需要清洗(1分钟)41.7 CPU检查(1分钟)41.8 通信(5分钟)51.9 磁盘阵列 RAID 盘的状态(2分钟)5第二章软件部分日产维护操作(耗时共 20分钟左右)62.1 软件错误报告(5分钟)62.2 检查文件系统(2分钟)62.3 内存交换区(2分钟)62.4 系统性能(5分钟)72.5 数据备份(2分

2、钟)72.6 数据是否已作保护(1分钟)72.7 系统DUMP设置(1分钟)72.8 用户登录记录检查(2分钟)82.9 HACM国M ( 5 分钟)82.10 补丁程序(PTF)和微码(Microcode)检查(1分钟)82.11 归档VPD信息.(3分钟)9第三章旧M HACMP检查(耗时共 15分钟左右)103.1 HACM检查简表(5分钟)103.2 HACM检查内容(2分钟) 113.3 HACMPpatch安装原理和注意要点(2分钟) 113.4 对HACMP现有配置作verify(2分钟)123.5 检查共享文件系统和逻辑卷是否同步(2分钟)133.6 HACM常数修改(1分钟)

3、 153.7 检查网络参数(2分钟)173.8 检查用户是否同步( 1 分钟) 173.9 检查域名解析是否同步( 1 分钟) 18第一章 硬件部分日常维护操作(耗时共20分钟左 右)1.1 检查机房环境(5分钟)? 温度:室内温度应保持在 24 ±2C? 湿度:相对湿度应保持在 50 ±5%?电源:根据不同机型使用的电源有:200240V交流单相;380415V交流三相;-48V± 5%直流,实测电压不应超出允许的范围。机器必须有良好的接地保护,地线的接地电阻要求小于1欧姆。零线与地线的电压差要小于 1V,实测时应同时测 量零线与电源地 线、零线与机柜金属外壳、

4、零线与机房地板的金属框架之间的电压,所得数值应一致。? 洁净度:机房应保持清洁,不能有太多的灰尘,如机房太脏应提醒客户注意。? 维护空间:机柜旁不宜摆放杂物,要根据各机型的规定留有足够的散热空间和维护空间。?电话线:机房应该配备电话线(用于紧急拨号维护或及时电话支持)。1.2 检查系统硬件情况(5分钟)? 先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橘红色并有!标记。同时注意主机和磁盘阵列的 LCD面板,设备发 生故障时通常伴有出 错代码,必须把所有故障代码记录下来。!P5系列小型机指示灯如下图:注意CPU风扇和电源风扇等的出风是否顺畅,是否有异物遮挡,影响

5、散热效果。注意机器是否有异常的声响,特别是风扇,电源,和硬盘部分。检查IO板卡插槽是否有板卡的指示灯不正常或不亮。检查是否有松脱、曲折甚至破损的线缆和线缆插头。温馨提醒:机柜间、机柜顶或者地板上有金属物体(螺丝,铁片)等,请注意收好,以免维护或者碰撞时跌入机柜内或地板线槽,造成不必要的损失。温馨提醒:做好每一台主机和阵列的标签(包括型号,序列号,主机名及本机IP),做好线缆两头的标签,方便紧急维护时,能快速及时判断机器及报修;也为了在进行维护时,能再次准确确认机器的身份,以免出错。1.3 检查硬件错误报告 (5分钟)使用“errpt - d H”命令检查硬件错误报告。如有,则应使用“ errp

6、t - aj err_id |more " 命 令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行“diag -edhdiskl 诊断程序可对故障记录中的 SENSE DATA进行分析并给出 SRN, FRU等。注意:如果故障记录太多,应将故障报告取回作进一步分析。可用命令:"snap - r; snap - ac” " mail ”命令查看有否发给 root用户的错误报告。用"alog - ot boot"命令和"alog - ot console ”命令检查系统的启动记录和主控台的出错信息。如果允许停机,则应

7、 shutdown主机,进入服务处理器(Service Processor ) 菜单检查故 障记录。对于 Power5主机,可以在线登陆到 ASMI管理界面,选择 "System Service Aids ”-> “Error/Event Logs ”检查故障记录。对于有HMC管理的机器,应在 HMC的“Service Focal Point ”菜单中检查故障记录,并采取相关的维护措施。errpt命令的使用:用errpt查看系统的错误记录( errorlog ) , errorlog 由系统的 errdemon 进程记 录,errdemon进程在系统启动时就自动运行,记录包括硬

8、件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog 。可备份下来或拷贝到其他机子上进行分析。errpt 命令的使用(普通用户权限也可以使用)- errpt |more列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100314 T 0 errdemon Error logging turned off0E017ED1 0720131014 P H mem2 Memory failure9DBCFDEE 0701000014 T 0 errdemon Error log

9、ging turned on038F2580 0624131014 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130914 T O OPERATOROPERATOR NOTIFICATION以上信息中的标题栏中:ERROR_ID 错误识别号,用于检查详细错误信息TIMESTAMP 时间标签,格式为 MMDDHHMMY月(日时分年)T (Type类型):P永久(永久性的错误应引起重视;T临时;U未知C (Class分类):H硬件(引起重视;S软彳O (errlogger 命令信息);U未知RESOURCE_NAM E 为错误来源DESCRIPTION

10、为错误描述常用法如下:#errpt |more列出所有错误的简短信息#errpt -dH|more列出所有硬件错的简短信息#errpt -dS|more列出所有软件错的简短信息#errpt -aj <ERROR_ID>列出某条错的详细信息注意:对于硬件错误,硬件更换或修复后,应该对此设备做一个Repair Action 的动作,因为系统会定期对errorlog进行分析,发现有问题没解决的时候,部分错误会不停向终端发送信息的,并且会影响DIAG的检测结果。所以一定要做 Repair Action或者把errorlog 清掉。更换电源后, 要把crontab 里面的定时报错项清掉。ma

11、il命令的使用:AIX系统会周期性的对系统进行检测。并会把检测到的硬件或其他错误以邮件的方式发给用户。要获得完整的系统检测信息,必须用root用户登陆。#mail进入当前用户邮箱,用数字来选择不同的邮件以便浏览,最后按“ q "退出#mail -f可以浏览以往的邮件。diag命令的使用:diag命令用于启动故障诊断程序(Diagnostics),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用 diag ,帮助确认和分析。#diag- > 选高级诊断(Advance Diagnostic)- > 选问题诊断(Problem Determination) 或- >

12、; 选系统检查(System Verification)选Problem Determination会对系统错误记录进行分析。diag运行后会给出 SRN代码,故障设备名称及百分比,地址代码等。多数的设备都可以在线诊断,除了某些SCSI设备,例如内置的 SCSI硬盘。/k 在运行在线诊断的时候几点注意事项:?当系统在运行繁重应用的时候,不要应用在线诊断。?在应用正在读写硬盘时,不要对该硬盘进行磁盘表面的全扫描。? 如果一个内置的 SCSI硬盘属于rootvg ,那么只能用诊断光盘启动对其进行诊断。?在线运行诊断有一定风险,在某些极端情况下可能会触发某些操作系统bug而导致业务中断,所以非不得已

13、建议不要在线运行。1.4 机器清洁(3分钟)根据实际需要清洁机器各部件。某些机型有空气过滤网,如 7040 ,长期使用可能需要 清洗或 更换,请根据实际情况决定是否更换。7040的过滤网在CEC柜正中垂直位置 上,一共有2块,9119的过滤网在机柜前门,一共有 3块。抽出滤网可以检查是否有破损或者堵塞。如果过滤网堵塞会导致机器因散热问题而宕机。可以检查出风口的温度和气流,如气流较弱温度较高则非常可能是滤网堵塞了。7040 Service Guide建议过滤网必须每半年检查一次。1.5 逻辑卷/硬盘检查(1分钟)用“lsvg - o|lsvg - il |grep stale ”检查是否有 st

14、ale 状态的逻辑卷。通常 stale 的逻 辑卷是 由于硬盘故障引起的。如有硬盘故障应立即修复,并重新同步逻辑卷。1.6 磁带机是否需要清洗(1分钟)磁带机/磁带库是重要的数据备份设备,应定期清洗。不同的磁带机/磁带库有不同的 清洗间隔,长期不清洗或太频繁的清洗都会对磁头造成伤害,请查阅相关磁带机说明手册。某些磁带机可用"/usr/lpp/diagnostics/bin/utape -cd rmt0 -n"命令查看磁带机使用时数。1.7 CPU检查(1分钟)用“bindprocessor - q”命令检查是否有 CPU被disable 。用“lsattr -曰sys0 ”

15、命令检 查CPU GUARD是否设置正确。AIX 5.2 以前的版本 CPU GUARD默认是disable 的。通 常系统/ 分区CPU数目>3的就应该 enable CPU GUARD (如果操作系统为 AIX 5.2 或 以上则 CPl>2时就应该 enable CPU GUARD)1.8 通信(5分钟)检查网卡状态、ip地址是否正常。通常不建议使用自适应速率(千兆以太网除外) ,网卡的设 置应与交换机端口的设置匹配。?用ping 命令检查网卡通信是否正常,如是否丢包,速度是否正常等。用netstat - in命令检查网卡IP地址是否正确。?用netstat - rn命令检查

16、系统路由表是否正确。?用netstat - na命令检查TCPIP端口连接,帧听是否正常。用host iplable命令检查域名解释是否正常。?用lssrc - g tcpip 命令检查通讯子系统进程是否正常。1.9 磁盘阵列RAID盘的状态(2分钟)磁盘阵列通常采用 RAID1/RAID5/RAID10等数据保护方式。 不建议客户使用 RAID0的方式,在 RAID0方式下数据没有任何保护。检查磁盘阵列中的RAID盘是否有坏盘,是否有degrade的状况。检查磁盘阵列的 cache是否打开。热备盘(hotspare )盘可以提高磁盘阵列的可靠性,强烈 建议设置热备盘。对于SAN存储服务器,请

17、参照 相关SAN存储服务器维护文档进行检查。第二章软件部分日产维护操作(耗时共20分钟左右)2.1 软件错误报告(5分钟)用“errpt - d S”命令检查系统的软件出错报告。如果故障记录太多,应将故障报告取回,作进一步分析。用“ mail ”命令查看有否发给 root用户的错误报告。用“ alog - ot boot ”命令 和"alog - ot console "命令检查系统的启动纪录和主控台的出错信息。检查HACMP TSM等软件的LOG看有否不正常的地方。2.2 检查文件系统(2分钟)查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基

18、本文件系统。如/(根文件系统)满则会导致用户不能登录。关键文件系统的使用率不应该超过 80%(/usr 除外),且剩余空间最好大于100MB如果有“满”的文件 系统则应删除不用的文件以释放空间,或扩展文件系统。如果系统有关于文件系统错 误的报告则应用“ fsck ”命令对文件系统进行检查修复。JFSLOG的大小与文件系统的比例应为: 1个PP的LOG管理512个PP的文件系统。 如果 JFSLOG不够大则应扩大, 但JFSLOG不应超过256MB。如果太多的文件系统使 用同一个LOG则会 影响性能,应考虑不同的文件系统使用不通的JFSLOG2.3 内存交换区(2分钟)新版本的AIX (AIX4

19、.3.3 以后)对内存交换区的使用机制与旧版本已经不一样。内存 交换区 的大小与物理内存的大小并没有一定的比例关系或计算的公式。客户应进行压 力测试以确定内存交换区的大小,若内存交换区使用率超过70%,则需要扩大。某些 数据库厂家或应用开发商可能对内存交换区有特殊要求,请咨询相关厂商或开发商。增加内存交换区并不会提高性能,内存交换区使用偏高通常是因为物理内存不足造成的,所以升级物理内存才是解决之道。交换区不应设置在 rootvg 以外的卷组。从性能上考虑,每个硬盘上应该只有一个内存交换区,并且所有内存交换区的大小应该一致。如果rootvg 是采用镜像保护的,则内 存交换区也必须镜像。2.4 系

20、统性能(5分钟)用vmstat、topas等命令进行简单的性能分析,检查是否有性能瓶颈。2.5 数据备份(2分钟)数据备份对于保障系统数据的安全至关重要。数据备份包括操作系统备份和用户数据备份。操作系统备份是指ROOTVG的备份。系统备份要及时,它应能恢复操作系统崩溃前的正常工作状态。因此每当系统改变设置,安装PTF,调整应用程序等的前后 都应做好系统备份。系统备份建议至少每季度做一次,手头至少保留两份系统备份带。注意:操作系统备份仅备份 ROOTVG中mount起的文件系统,用户逻辑卷中的数据并不会 备份。一般 不建议在ROOTVG上建立裸设备 存放用户数 据。对于ROOTVG用户建立的裸设

21、备,请使用其他方法备份。用户数据备份包括数据库备份、应用程序代码备份、用户文件系统备份、TSM数据库备份等。用户数据备份建议每天做一次。 检查用户数据备份是否能满足硬盘数据丢失后的恢复要求。检查用户备份介质是否标签明确、保存妥善。2.6 数据是否已作保护(1分钟)为保证系统高可用性, 建议ROOTVG采用镜像保护方式。用“lsvg - l rootvg ”检查是 否ROOTVG 上所有的逻辑卷已镜像。用“ lslv - l kname ”命令检查逻辑卷的两份拷贝是否在不同的物理硬盘上。用户数据也应采取适当的保护方式,如RAID1/5/10、逻辑卷镜像和逻辑卷 0+1等。如 果客户采用逻辑卷镜像

22、或逻辑卷 0+1的方式,则应检查其新建的逻辑卷是否设置正确。2.7 系统DUMP设置(1分钟)系统DUMP设备应该有足够大的空间,可用" sysdumpdev - e”命令估计系统 DUMP的大小以 检验DUMP设备是否足够大。对于内存较大的机器,建议建立专用的DUMP设备(如果系统内存大于4GB,则AIX5L 会自动建立专用的 DUMP设备:/dev/lg_dumplv )。检查DUMP的拷贝目录(文件系统)是否有足够的空间。如果要改变DUMP的拷贝 目录(文件系统)则必须保证其建立在ROOTVG上。为确保系统挂机时可以做强制DUMP请把"always allow dum

23、p "设成"TURE。2.8 用户登录记录检查(2分钟)? 运行"last username ”命令检查用户登录记录,看是否有不正常的登录。? 运行"who /var/adm/sulog”检查用户切换记录,看是否有不正常的切换。? 运行"who /etc/security/failedlogin”检查是否有非法侵入某个帐户的企图。? 检查smit.log 文件,看有没有非法的操作。? 检查root用户密码是否有定期更改。2.9 HACM初试(5分钟)HACMP的测试在于检查系统在出现 DOWNB情况时业务系统能否正常地进行接管切换。由于生产环境

24、的一些参数设置的改变, 有可能导致生产系统和备份系统出现不一致的情况,从而导致在真正发生故障时业务系统不能正常接管。因此HACMP的测试非常重要。Cluster Verification 可在线进行,可检查节点间是否有不同步的情况。检查HACMP相关的参数设置:? 系统 I/O pacing: high/low watermark 设为 33/24? 修改/sbin/rc.boot文件确保sync每10秒运行一次,而不是默认的60秒? 建议把 HACMP 的"failure detect rate "设为"slow"? 检查/etc/inittab 文件

25、,确认power management程序关闭? 建议调整 minfree/maxfree (minfree=CPU#x120 ; maxfree=CPU#x120+32 或 maxfree=CPU#x128,但 maxfree-minfree不要大于 100)?建议网卡设为固定速率, 同时交换机上相应的端口也应采用相同的设置。除千兆 以太网外,不要使用自适应设置,这样可能带来不可预知的问题。? 如果共享存储设备为第三方设备,如 HDS或EMC的存储服务器,则必须确保在 HACMP勺配置中包含相关的“ Custom Disk Methods ”。接管测试警告:接管测试会导致客户应用中断,请与客

26、户协商。接管测试会导致应用中断,请与客户协商是否测试。用命令"smitty clstop ”然后选择"takeover ”进行测试。2.10 补丁程序(PTF)和微码(Microcode)检查(1分钟)检查的范围包括操作系统补丁、HACMF#丁、TSM补丁等。检查系统补丁是否满足稳定运行的要求。对于下列情形,建议进行有关的微码/补丁升级:? IBM规定的Mandatory 的微码ECA和补丁? 等级为HIPER/SPE(高风险/特别注意)的微码和补丁? 配置升级(MES)所要求的微码/补丁?为解决客户现有问题所必需安装的微码/补丁注:为保证系统运行的稳定性,所采用的微码和补

27、丁建议至少是已发布一个月以上的版本。微码/补丁升级与否由客户最终决定。微码和补丁的更新信息可查阅旧M定期发布的fixes letter 。2.11 归档VPD信息(3分钟)运行"snap-r;snap gLc”,取回 /tmp/ibmsupt/snap.tar.Z 或/tmp/ibmsupt/snap.pax.Z 文 件 存档。收集LVM信息(主要是LV MAPING信息)有助于日后系统出问题时数据恢复。注意:检查/tmp文件系统剩余空间最好不要小于50M第三章EM HACMF查(耒!时共15分钟左右)HACMP的安装调试并不是一劳永逸的。即使在安装完成后做了最完整的测试,如果不定时

28、对HACM用勺配置进行检查的话,仍然有可能出现在故障时无法切换的情况。要排除这种情况的发生,必须定时对HACMP的配置进行检查。如果系统出现了重大的变化,如增加需要保护的应用或新的存储等情况时,除检查 HACMP配置外,还需 要进行新的HACMP测试。和HACMP的测试不同,HACMP勺检查工作通常不需要停机,因此进行检查的时间相对灵活。检查工作中发现的问题,要及时解决。在实际修改前,必须作 snapshot,即对HACMP的配置进行备份。如修改出现问题,保 证能将 HACMP恢复到snapshot时的一致点。在修改完成,并通过相关测试后,需要 做一份新的snapshot, 新的snapsho

29、t名字应和旧的不同。对HACMP修改参数后,原则上应该做 verify 和sync。修改后的参数,部分在 sync后立即 生效,部分需要重新启动 cluster manager后才生效,甚至有部分参数需要关闭cluster manager后才能修改。以上的修改限制条件在不同的HACMP版本中的规定也 不相同。详细的情况可查询HACM耕目关手册。如果你无法判断修改的参数属于以上列举的那种情况,建议在关闭cluster manager 之后修改,同步。在通常的情况下,参数修改后要进行新的测试,因此此种较谨慎的做法并不会过多增加系统停机时间。本文档的编写基于 HACMP 5.1,如您当前使用的是其他

30、的HACMP版本,则菜单和输 出上会有所不同。3.1 HACM淞查简表(5分钟)表格含HACMP常见的检查步骤,具体的检查方法会在后续的章节中陆续介绍。检查内容完成情况注释检查 HACMP PATCHtt客户有否对events进行过客户化对HACM觊有配置作verify有 warning ,不影响生产检查共享文件系统和逻辑卷是否同步snmpd版本和hacmp误切有关的参数检查网络参数检查用户是否同步检查域名解析是否同步第三方存储HACM环境3.2 HACM淞查内容(2分钟)检查HACMP patch版本:在HACMP节点上分另运行:# lslpp -1 "cluster.es.ser

31、ver.rte”(对 hacmp v5 和 hacmp v4 es) Fileset LevelState DescriptionPath: /usr/lib/objreposcluster.es.server.rte5.2.0.3 COMMITTEDES Base Server RuntimePath: /etc/objreposcluster.es.server.rte5.2.0.3 COMMITTEDES Base Server Runtime或#lslpp -1"cluster.base.server.rte ”(对 hacmp v4 classic)Fileset Leve

32、l StateDescriptionPath: /usr/lib/objreposcluster.base.server.rte 4.5.0.8 COMMITTEDBase Server RuntimePath: /etc/objreposcluster.base.server.rte 4.5.0.8 COMMITTEDBase Server Runtime更详细的信息可以参考以下地址: 推荐客户安装最新的 HACMP PATCHI由于安装PATCH需要停止业务,建议和 HACMP的测试安排在一起进行。3.3 HACMPpatch安装原理和注意要点(2分钟)hacmp patch的安装原理和

33、AIX 的patch 安装原理是相似的,即用 patch 中的文件覆盖 相 应软件包中的文件。客户对 AIX 中的event 作客户化的时候,应使用 pre-event, post-event 或 notify event script,而避免直接修改 event 本身。因华为采购的设备通常都做过较大的客户化,如果没有特殊原因,在华为的设备上不要轻易安装patch,即使要安装patch 也要和华为的技术人员取得沟通。验证客户是否对 hacmp event脚本做过客户化。# Ippchk -c cluster.es.server.eventsIppchk: 0504-208 Size of/us

34、r/es/sbin/cluster/events/fail_interface is 2995,expected value was 2988.如上所示,fail_interface脚本被客户修改过,在安装 patch 前应将相应文件作备份,安装patch后,提示客户手动将旧文件中客户化的部分重新写入 新文件。3.4 对HACMP现有配置作verify (2分钟)verify, 缺省是对HACMP配置的VERIFY可安排在生产环境中,但在菜单中一定要选择bothsmitty hacmp-> Extended Configuration-> Extended Verification

35、 and SynchronizationStandard Jizat ion only?(Entry FieldsAACrrt1 Uier if icSt iorAutOMtic«l correct errors found during uerif ication?Verify chnnges Lodginguer if icatian fe iIs?Type or select values in entry fields.Press Enter AFTEE naking a 1J desired chdinges> HACMP Verification and Synch

36、ronization&rif少 Synchronise对于hacmp54版本:smitty hacmp-> Cluster Configuration(选 both )-> Cluster Verification-> Verify ClusterVerify ClusterTypp or select ualues in entry fields.Press Enter AFTER ndkiuy d I desired cIidiiLies.Bast: HACHP UerlfiLdtion Hethuds(Cluster topology* resourceSj b

37、oth.Custon Defined Ver if ication HethodsError CountLog rile to store output(Entry rteLdsl |jthnon ll LI (1对verify中发现的error 和warning 必须认真检查。如检查中发现:WARNING: Volume group major numbers conflict for VG vg1 on nodes nodel and node2WARNING: Volume group major numbers conflict for VG vg2 on nodes nodel an

38、d node2可忽略。3.5 检查共享文件系统和逻辑卷是否同步(2分钟)HACMP切换时,要求主机和备机的环境同步:环境的同步包含三个层次的含义:? HACM口身的定义在组成 cluster的所有节点上一致。? AIX操作系统和HACMP相关的参数在组成 cluster的节点上一致。?共享硬盘上的lvm定义在主备机上一致。如出现3 )不一致的情况,hacmp对存储的接管将失败。(hacmp在切换时提供Lazy update功能同步lvm 定义,但如条件允许,仍推荐手工同步)。由于在备机上vg并未varyon, 常规的lvm 命令失效,因此需要访问 odm在备机上运行:odmget - q na

39、me=vg_name CuDep|grep dependency|awk 'print $3'对以上命令输出的lv ,分别运行odmget - q name=lv_name CuAt注意size,intra,copies,label等属性。在主机上运行相同的命令。比较主备机以上输出的结果和/etc/filesystems的内容。另一简单的方法是比较主备机的timestampdu Lu UHUAutu udryunTruerone auto_onnN/ATruennnc nnpabnM/ATrimtimestamp£&4b?b51ad7a3bfN/ATrueuh

40、skt irf1_idUni *力七 yrmijiidrul if irr FrtlsttH50:/usr/sbIn>H501/usr/sbin>IsdtLr El dutduy为保证共享硬盘的lvm定义在主备机上一致,可采用以下三种方法。? 采用 enhanced concurrent vgenhanced concurrent vg 可应用于 concurrent reoursce group 和 non-concurrent resource group.在主机上, enhanced concurrent vg 是 active varyon,能访问至 U数据,在备机上, e

41、nhanced concurrent vg 是 passive varyon,不能访问至 U数据。1、当主机增加,删除,改变lv 的定义时,采用 enahnced concurrent vg的系统,备机上能自动得到更新。2、当主机增加,删除,改变fs 的定义时,采用 enhanced concurrent vg 的系统,备 机上只能自动更新fs 对应的lv 的变化,fs 本身的变化,需要手动修改 /etc/filesystems 。? lazy updateHACMP高版本(如 5.1,5.2,4.4,4.5)支持 lazy update.1、当备机切换主机的vg时,HACM总比较共享硬盘上v

42、gda的timestamp 和系统记录的vgda的timestamp,如两者不一致,且硬盘上的timestamp 比较新,HACMP会自动作exportvg/importvg,2、但对数据库直接使用的lv owner不会自动修改,因此在 application server 中应 加入chown。在实际的客户运行环境中,lazy update失败的例子也不少,因此在条 件允许的前 提下,尽可能选用手动同步的方法。? 动更新lvm定义手动更新lvm定义需要停止客户应用。在主备机上shutdown hacmp,释放所有资源(包括 vg )在备机上执行exportvg vg_name在备机上执行im

43、portvg - y vg_name hdiskx chvg - an vg_name如在新import的vg中有数据库直接访问的裸设备:聿亚 而chown user_name.group_name /dev/rlv_name ( 建议强制力口在 startscript 中) varyoffvg vg_name? Informix trunk定义同步对使用informix的用户,需要提醒用户检查informix 的truck定义是否在主备机上一3.6 HACM渗数修改(1分钟)snmpd版本AIX 5.2选用SNMPV3,而HACMP选用SNMPV1。在缺省的,f#况下,AIX5.2系统基 于

44、snmp的 hacmp utility 如 clstat 等不能正常的运行。可通过 clstat 命令验证 #/usr/es/sbin/cluster/clstat 修改的步骤如下:#/usr/sbin/snmpdv3_ssw -1stop/start 基于snmp的daemon如clinfoES,clsmuxpES 等。在修改前要和客户确认没有 基于snmp v3的程序运行。 和hacmp误切有关的参数HACMME组成CLUSTER的节点间传递心跳信号,并以是否在规定的时间里接受到心跳信号作为 判断CLUSTER中是否有宕机的依据。如果由于系统繁忙,在特定的时间里,CLUSTER中的节点未能

45、正常的传递心跳信号,就可能出现主机仍然在正常工作,而备机试图接管的情况。为避免此种情况的发生,可采取如下措施:syncd - > 10对早期的hacmp需要手动修改 vi /sbin/rc.boot找到nohup /usr/sbin/syncd 60 > /dev/null 2>&1 &改为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &需要重启才会生效或ps - ef|grep syncd kill -9 PID nohup /usr/sbin/syncd 10 & logout/lo

46、gin ps - ef|grep syncd对后期hacmp可采用菜单修改(推荐)Smitty hacmp- > Extended Configuration- > Extended Performance Tuning Parameters Configuration- > Change/Show syncd frequencyIO pacing对采用fibre-channel的高速存储设备,不建议修改io pacing.对采用scsi和ssa的慢速存储,可考虑修改 io pacing.high/low water mark设置为非缺省值(缺省值为0 , 0),会影响到io 的性能,如果 系统目前的io wait 值已经很大,则不建议修改。- lsattr El sys0|grep poutmaxpout 33 HIGH water mark for pending write I/Os per file True minpout24 LOW water mark for pending write I/Os

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论