HACMP维护手册_第1页
HACMP维护手册_第2页
HACMP维护手册_第3页
HACMP维护手册_第4页
HACMP维护手册_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 HACMP维护文档 什么是HACMP 在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。 High availability:在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务和数据保护。HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。 实现一个高可用性解决方案,需要: 冗余服务器、冗余网络、冗余网络接口卡、监视、故障检测、故障诊断、自动接管、自动重新控制 HACMP的主要目标就是消除单点故障。 IBM针对AIX的高可用性解决方案-HACMP群集技术,它包括以下两个组

2、件: 高可用性(HA): 该进程保证应用在用户复制共享资源时是可用的。 群集多处理(CMP): 该进程提供在同一节点上多个应用共享或并发访问 数据。 基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。高可用性系统VS容错系统容错系统: 它是提供冗余的设计为不间断操作。这样的系统中所有的组件都是双份的(不管硬件还是软件),CPU、内存、磁盘都有特殊的设计来提供不间断服务。这样的系统是非常昂贵和非常专业的。只有在要求0宕机的环境中,容错系统设备和方案才有需求。高可用性系统:

3、配置为高可用性的系统是一组软件、硬件的组合,可以保证系统失效后在可接受的宕机时间内恢复。在这种系统中,软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。因此,在这种环境下重要的是消除SPOF。例如,如果只有一个网络连接,就需要提供第二块网卡以备主网卡失效后接管。另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。HACMP相关概念1、群集拓扑: 包含基本的群集组件节点、网络、通讯接口、通讯设备、通讯适配器。2、群集资源: 被设为高可用性的实体(例如文件系统、裸设备、服务IP标签、应用等)。所有资源被组织成资源组(RG),HACMP保持唯一实体资源组的高可用性。资源组

4、可以被一个节点访问或者在并发应用中同时被多个节点访问。3、Fallover: 在活动节点出现故障时,将资源组从活动节点转移到备份节点的动作。4、Fallback: 原来的活动节点恢复时,将资源组切换回原节点的动作。这是将失效节点重新集成到集群的标准动作。HACMP相关术语 要理解HACMP的正确功能并利用它,就必须知道一些术语:1、群集(Cluster):为共享资源和相互通讯而通过网络连接在一起的独立主机(节点)。HACMP负责定义在协同的系统中哪个节点提供服务哪个节点不提供服务。所有节点共同负责维护应用的功能可用。2、节点(Node):在群集中所有运行AIX系统和HACMP软件的IBMp系列

5、服务器都是节点。每个节点都有一个资源集(磁盘、文件系统、IP地址、应用)在该节点失效时可以被群集中其他节点接管。3、资源(Resource):是在群集配置中可以从一个节点转移到其他节点的逻辑组件。所有必须提供高可用性应用的资源被构成资源组(RG)。当节点失效时,资源组中的组件被一同从一个节点移动到另一个节点。一个群集可以有多个RG,从而提高节点的效率(也就是HACMP中的Multi-Processing)。HACMP相关术语4、接管:在群集内部节点之间传送资源的操作称为接管。如果一个节点发生硬件故障或AIX故障,它的资源应用会被移到另一个节点。5、客户:客户就是可以通过局域网访问群集节点应用的

6、一个系统。客户通过运行客户端程序连接到应用所在的服务器上。 HACMP的实现(此处略去)安装配置HACMP共分三步:1、准备AIX: 在AIX中配置硬件、软件。2、安装HACMP软件3、配置HACMP群集AIX中需要配置网络、共享磁盘、LVM组件等 配置IP 配置串行网络 配置共享磁盘 定义LVM组件 编辑文件/.rhosts串行网络 每个运行Cluster Manager进程软件的节点会通过HACMP中配置的所有网卡持续送出Keep-alive包(心跳信号)到Cluster的其它各个节点。HACMP就是通过检测节点间keep-alive包的中断来检测网络事件。 Keep-alive包通常在同

7、一网络上的服务网卡间和备份网卡间双向传输。传输中的任何中断都会激活故障检测过程,此时,Keepalive向所有网卡上传送。通过简单的“淘汰过程”,故障原因被很快发现,然后群集可采取正确的事件处理脚本处理故障。 由于服务网卡和备份网卡都是采用TCP/IP进行通讯的,如果某节点的TCP/IP子系统发生故障或者网络拥塞,就会造成Keep-alive包无法正常传输。此时因为所有的心跳停止了,其它节点将错误地认为该节点故障,导致其它节点试图接管资源,群集及其资源将处于不稳定状态。 因此HACMP中必须配置一条串行网络,当LAN故障时,可以提供另外的Keep alive路由。由于串行网络不用TCP/IP协

8、议,所以TCP/IP子系统的故障并不意味着HACMP故障,使得群集可以分清网络故障和节点故障,避免出现孤立节点串行网络HACMP日常系统管理维护 日常日志1: 日常日志主要是记录平时事件的启动,从中可以了解HACMP的动作,例如主机standby网卡故障,有fail_standby事件发生,系统管理员可从日志中得知何时出的故障,及有没有解决。主要日志文件有:(查找文件命令find / -name “文件名”)/var/hacmp/log/hacmp.out.1-7:存放由HACMP脚本产生的带时间戳信息,包括执行的命令及其输出。脚本中的每一命令及其参数占一行。此文件一天刷新一次,保留七天;/v

9、ar/hacmp/adm/cluster.log:存放由HACMP脚本和daemon产生的带时间戳的信息。每个事件在记录文件中有两行一行在开始时写入,一行在结束时写入。 日常日志2:/tmp/cm.log:(未找到)保存HACMP中clstrmgr进程产生信息的时间;HACMP技术人员在clstrmgr处于debug模式下排错需要参考此文件内容。重启集群服务,这个文件就会被重写,因此需要做好备份。(/var/hacmp/log中有参考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy:HACMP的历史记录文件,不同日期发生的集群事件记录在不同的文件中。mm

10、-月 dd-日 yyyy-年HACMP日常系统管理维护 启动和关闭HACMP 启动群集是指在一个或几个节点上启动Cluster Manager,并使客户机能够访问群集的资源。 HACMP可以配置为自动启动或手动启动,自动启动是通过在文件/etc/inittab/etc/inittab中的一条命令来实现的,但是配置为自动启动后,故障节点返回群集时可能发生资源的接管,造成不必要的停机。因此,建议配置为手动启动。启动关闭HA必须有root权限! 启动命令:# smit clstart 选项按缺省,建议在一个节点完全启动后再启动另一个节点,并在启动过程中监视事件脚本的输出(tail f /var/ha

11、cmp/log/hacmp.out.7 )。 HACMP日常系统管理维护 关闭命令:# smit clstop 该命令中尤其要注意第四个选项Select an Action on Resource Groups:指停止HACMP后,其上的资源如何处理:三种选择1、Bring Resource Groups Offline:释放资源,但其它节点不接管2、Move Resource Groups:释放资源,其它节点接管资源3、Unmanage Resource Groups:停止进程,但不释放资源(不处理) 我们的配置中默认是其他节点接管资源。 注意:我们不推荐在同一时间在多个节点上使用第三个选项

12、来停止群注意:我们不推荐在同一时间在多个节点上使用第三个选项来停止群集服务。集服务。HACMP日常系统管理维护无论何时,都应该避免用kill -9命令停止群集管理后台进程。在这种情况下(使用kill -9命令),系统资源控制器(SRC)会检测到clstrmgr后台进程异常退出。这会造成系统停止并有可能造成共享存储数据的破坏。依照资源组策略,其他节点会初始化接管。 当出现主、备机在关电后,再次启动时,备机正常,主机不能启动,要按指定步骤操作:在备机上执行 # smit hacmp选择System Management(C-SPOC)-Resource Group and Applications

13、-Move a Resource Group to Another Node/Site- Move Resource Groups to Another Node-选择需要移动的资源组,选择备机节点进行接管。退出命令行,启动HACMP,这时备机接管主机资源。HACMP日常系统管理维护 查看HACMP状态在HACMP中,它启动一个进程来监控各节点。用# ps ef|grep clinfo 命令查看clinfo进程是否启动。若未启动,有两种方法启动此进程:1、执行 # /usr/sbin/cluster/clinfo2、启动HACMP时, # smit clstart 中 Startup Clus

14、ter Information Daemon (后台守护程序)改为 true用/usr/sbin/cluster/clstat 命令查看各节点状态,因现使用的是字符终端,出现的将是字符界面。须注意的是群集的substate属性,正常为Stable( 稳定的;坚定的;牢固的),不是Stable时,HACMP可能有动作或者是不正常。HACMP日常系统管理维护HACMP日常系统管理维护获取集群状态(一) 检查集群服务daemon状态: lssrc -g cluster; lssrc -g lock 检查集群和网络接口状态: /usr/sbin/cluster/clstat (在smit hacmp

15、中用问题诊断工具查看更好) 查看集群记录文件: tail -f /var/hacmp/log/hacmp.out.1-7 more /var/hacmp/adm/history/cluster.mmddyyyy tail -f /var/hacmp/adm/cluster.log 检查节点名的正确性: odmget HACMPcluster获取集群状态(二) 检验集群配置:/usr/sbin/cluster/diag/clconfig -v -tr /一般慎用 显示集群配置:/usr/sbin/cluster/utilities/cllscf 显示clstrmgr版本:snmpinfo -m

16、dump -o /usr/sbin/cluster/hacmp.defs clstrmgrHACMP日常系统管理维护 校验HACMP 执行 # /usr/es/sbin/cluster/diag/clverify,将会出现一个交互式界面,可以检验HACMP软件(bos)和拓扑结构(topology),管理员可按提示操作。HACMP日常系统管理维护 在磁盘阵列上添加逻辑卷、扩大卷组:首先把主、备机的HACMP停下。在主机上: # varyonvg sharevg; 扩大卷组或增加逻辑卷 (在AIX中已讲) # varyoffvg sharevg;在备机上:# exportvg sharevg;

17、# smit importvg 将sharevg重新import进来; # smit chvg 将sharevg在下次启动时不自动激活; # varyoffvg sharevg。HACMP日常系统管理维护 增加文件系统、新的卷组,并要接管首先把主、备机的HACMP停下。在主机上: # varyonvg sharevg; 增加文件系统、新的卷组;(AIX中讲述) # varyoffvg sharevg;在备机上: # exportvg sharevg; # smit importvg 将sharevg重新import进来; # smit chvg 将 sharevg在下次启动时不自动激活; #

18、varyoffvg sharevg。在主机上:#smit hacmp-Cluster Configuration-Cluster Resource-Change/Show Resources for a Resource Group 在Filesystems选项中加入新的文件系统,Volume Groups选项中加入新的卷组名; # smit hacmp-Cluster Configuration-Cluster Resources-Synchronize Cluster Resources 按缺省选项执行。HACMP日常系统管理维护 HACMP备份 HACMP允许将群集的配置存储在一个文件中

19、,称为snapshot,系统管理员可从此文件中恢复HACMP的配置。 文件缺省存放在/usr/es/sbin/cluster/etc/snapshot目录下,生成两个文件,后缀名分别为.odm、.info,.odm文件存放AIX ODM数据库类的信息,.info为群集的信息,可查看。 创建方法:# smit hacmp-Cluster Configuration-Cluster Snapshots-Add a Cluster Snapshot,在Cluster Snapshot Name中填写XX,在Cluster Snapshot Description中填写 Xxbackup,执行。 系统

20、管理员将/usr/sbin/cluster/snapshots下的XX.odm、XX.info备份。 恢复方法:先将备份的XX.odm、XX.info文件拷入/usr/sbin/cluster/snapshots目录下,执行#smit hacmp-Cluster Configuration-Cluster Snapshots-Apply a Cluster Snapshot选择XX,执行。HACMP日常系统管理维护 错误恢复:当HACMP配置出现问题时,启动不能正常结束,此时/tmp/hacmp.out文件中会出现event errot ,管理员应按以下步骤停止HACMP:# smit hac

21、mp-Cluster Recovery Aids-Recovery from Scrip Failure选择一块正在工作的网卡,建议用standby网卡,执行。然后再将HACMP关闭。HACMP日常系统管理维护 错误举例:脚本运行超时错误(config_too_long)(发生原因及现象)每当集群状态发生变化时,HACMP软件将运行相应的脚本在某些情况下,比如脚本编写错误、应用运行错误、特殊集群状态等,可能造成脚本运行挂起HACMP判断脚本运行挂起的超时条件是6分钟(默认) HACMP认为脚本运行挂起后,将在/tmp/hacmp.out中记录config_too_long信息: This cl

22、uster has been in reconfiguration too long: Something may be wrongHACMP日常系统管理维护脚本运行超时错误(config_too_long)(原因分析及解决方法)多数情况下,是由于脚本运行失败。但脚本中的命令确实需要运行较长时间的情况也不能排除,这种情况下,脚本运行并未失败,集群管理程序也正常,因此需要查看/tmp/hacmp.out以确定原因如果存在错误,可根据/tmp/hacmp.out和/var/adm/cluster.log的内容查找并排除错误运行clruncmd命令或使用SMIT的“Cluster Recovery Aids”屏,使集群管理器恢复集群处理HACMP日常系统管理维护Deadman Switch(发生错误接管的情况)集群中的主机定时向其他主机发送heartbeat信息服务主机并未失效,但可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论