双机原理及应用_第1页
双机原理及应用_第2页
双机原理及应用_第3页
双机原理及应用_第4页
双机原理及应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

双机原理及应用1.1双机的原理与结构1.1.1关于集群的几个基本概念•集群(Cluster):一个计算机群,在一个集群中,以一个节点机充当集群管理者(ClusterManager)的角色,它最先收到用户发来的请求,然后判断一下集群中哪个节点的负载最轻,就把这个请求发过去。集群中的所有节点都会在本地内存中开设缓冲区,当一个节点需要使用其它节点内存中的数据时,这些数据会通过网络先放入本地缓冲区。在两个节点的集群中,如果一个节点失效了,另一个节点可以通过检查缓冲区中的内容将失效节点的任务接管过去。•集群的分类:1、按应用目标可分为面向科学计算型或面向关键任务应用型高性能集群(highperformancecluster)高可用性集群(highavailabilitycluster)2、按组成集群的处理机类型小型机集群PC集群SMP(对称多处理器)集群3、按处理机操作系统AIX集群Linux集群Solaris集群NT集群微软Wolfpack集群4、按处理机的位置和数量组集群,节点数量为2~99,通过SANs(系统级网络)部门集群,节点数量为几十或几百企业集群,节点数量为几百•集群节点(ClusterNode):集群节点是同时运行AXI操作系统和HACMP软件的机器,它是集群的当前成员(clustermember),或者是潜在成员。集群节点一般连接着一个或多个多主机磁盘。集群中的所有节点都会归组到一个共用的名称下,即用于访问和管理集群的集群名称下(ClusterName)。公共网络适配器将节点连接到公共网络,为客户机提供对集群的访问。集群成员通过物理上独立的一个或多个网络(称作privatenetworks)与集群中的其他节点通信。集群中的专用网络集称作clusterinterconnecto集群中的每一节点都会知道另一节点的加入或离开。另外,集群中的每一节点还都会意识到本地运行的资源和在其他集群节点上运行的资源。确保同一集群中的各节点具备相似的处理、内存和I/O能力,以便可在保持性能不变的情况下实现失败切换。因为存在失败切换的可能性,所以应确保每个节点都具有足够额外能力,能够承担它们所备份或辅助的所有节点的工作量。HA(HighAvailability):高可用性,HACMP将高可用性(HA)定义为集群使应用程序保持活动状态并运行(即使发生通常会使服务器系统不可用的故障)的能力。集群如何实现高可用性:集群框架通过一个称为失败切换的进程,提供高可用性的环境。失败切换就是一系列由集群执行的步骤,它将应用程序从一个故障节点转移到集群上另一个可操作节点。HACMP:HACMP是旧M双机的高可用性管理软件,类似于SUNCLUSTER的一种集群软件。通过"心跳"协议来监控处理器和网络接口,心跳信号通过TCPIP以及RS232同时传送。它提供了clinfo编程接口,用于监测HACMP状态,华为HLR中采用了HACMP/ES(增强版本)。1.1.2旧M双机的组成:所谓双机热备份就是一台主机为工作机(PrimaryServer,另一台主机为备份机(StandyServer),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(TakeOver)工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断的运行(Non-Stop)。当工作机经过修复正常后,系统管理员通过管理命令或经由以人工或自动的方式将备份机的工作切换回工作机;也可以激活监视程序,监视备份机的运行情况,此时,原来的备份机就成了工作机,而原来的工作机就成了备份机。旧M双机结构图如下所示:旧M双机中,选用HACMP软件对集群资源组进行管理,HACMP对资源组进行接管的方式有三种:•层递式(Cascading)•替换式(Rotating)•同时存取(Concurrent)层递式:1、主机A和主机B均被配置成资源组的成员2、主机A正常运行的情况下,它拥有最高的优先级按管资源3、主机B处于备用状态,当主机A接管失败时主机B才接管资源4、当主机A重新加入聚群,主机B将释放控制权由主机A来按管5、主机A和主机B能够配置它们自已的资源组并且可以互为备份替换式:1、主机A和主机B均被配置成资源组的成员2、先加入聚群的节点获取资源组的控制权3、另一个节点处于备用状态,当主节点运行异常时备节点获取资源控制权4、先前的主节点恢复正常,重新加入聚群,以备机状态运行,而不去获取资源控制权同时存取式:1、不同的主机在同一时间访问相同设备上的数据2、由于AIX日志文件系统不支持同时访问,应用必须使用”原”逻辑卷(非文件系统)方式来访问3、应用采用分布式的聚群锁管理来同步和更新共享数据资源注:华为HLR采用了替换式的资源接管方式1.2双机的配置HACMP配置的步骤比较复杂,大致可以分为以下几步:步骤一、集群计划步骤二、定义集群拓扑步骤三、同步集群拓扑步骤四、定义集群资源步骤五、同步集群资源步骤六、集群测试1.2.1集群计划在进行双机配置之前,要对集群节点、集群网络、集群磁盘、资源计划、应用计划、客户化计划、用户ID计划进行全面的规划。•群集节点配置选择:每个节点最少32M内存,1GB硬盘。群集节点要求:需要考虑处理器能力能否满足应用的要求,业务预期增长,I/O槽是否充足。节点对其联上的每个网络可有多达7个的Standby网卡。Sharevg做镜像时,要考虑一台机器连接硬盘的两块I/O卡要在的不同总线。•群集网络分为ICP/IP和非TCP/IP两大类:TCP/IP网络和非TCP/IP网络。TCP/IP网络:支持类型有GenericIP,ATM,Ethernet,FCS,FDDI,Spswitch私有(Private网络),SLIP,SOCC,Token-Ring。HACMP每个群集最多支持支持32个网络每个节点最多支持24个网卡。各种类型的特性如下:ATM:点到点,和FCS、SPSwitch都不支持硬件地址切换。SLIP:一般不用,太慢。SOCC:很少用了,withdrawn。IP地址接管:只有SPSwitch可以用ifconfigalias在一块卡上实现,其它都需要两块卡。非TCP/IP网络:HACMP可以不用非TCPIP网络仍可工作,但建议采用,以区分网络(TCPIP)故障,还是节点故障(心跳线)。非TCP/IP网络支持类型Serial(RS232)TargetmodeSCSITarget-modeSSA在HA的配置中,这三种NetworkType都是Serial。各种类型的特性如下:Seral:双机时,只要一个串口,多机时,每节点要二个串口构成环;S7X无串口,因此要订多口异步卡;SP的节点,多个串口只有一个可用于HACMP;TMSCSI:只有SCSI-2Diff和SCSI-2DiffF/W以后的卡支持;SCSI/SE和SCSI-21SE不支持;建议一个群集中不要超过4个targetmodeSCSI网络;TMSSA:用6215/6219EnhancedRAID-5以后的卡,支持Multi-Initiator特性。•群集磁盘SSADisk:分2种7131SSAMulti-StorageTowerModel4057133SSADiskSubsystem010,500,020,600,D40,T40所有的7133都有可热插拔的冗余电源,风扇,线也是热插拔的。7131,7133的硬盘都是热插拔,7131:2-5个,7133:4-16个。•资源计划资源类型有:VG、Disks、FS、FStobeNFSmounted/exported、IP、APP源组选项分三类:CascadingResourceGroupsInactiveTakeover为真时,第一个启动的节点接管资源,随后加入的如有更高优先级则接管。避免开机时,不必要的接管。InactiveTakover为假时,第一个启动的节点不接管资源(除非有最高级别)随后加入的如有更高优先级则接管。RotatingResourceGroups先加入的节点就得到资源,除非节点故障或人工要求接管,否则不发生接管ConcurrentResourceGroups这类资源不会发生接管,因为节点都可以访问到它们。资源一般指裸磁盘,有裸逻辑卷的vg,应用服务程序。IP地址接管网络拓朴:SingleNetwork:网络存在单点失败DualNetwork:Point-to-PointNetwork:网络两要素:网络名:同一个物理网络用同一个网络名网络属性:public公有:联结2-32个节点,允许client访问private私有:提供节点通讯,不允许client访问,但ATM和SPSwitch允许client访问serial:心跳硬件地址交换:IPtakeover后,通过硬件地址交换,将IP地址和新网卡相联,不用专门去刷新ARPCache。用户ID计划群集用户和组ID:管理员要保证各机的/etc/passwd和/etc/security/*的文件一致,可用rdist或rcp同步,SP用PCP或Super同步°C-SPOC(ClusterSinglePointofControl)群集可自动同步(除/etc/security/passwd)。群集密码:如果未采用NIS或DCE,即使是C-SPOC命令,也需要手工拷贝/etc/security/passwd文件到各机。用户Home目录计划:节点失败时,要保证用户的Home目录持续可用。HomeDir放在SharedVolumes,这种方式的局限性是一个时刻,HomeDir只对一台机器有效可用。NFS-MountedHomeDir,用户的HomeDir可以同时mount到多台机器,但有风险,包含HomeDir的机器失败后,大家都访问不到。NFS-MountedHomeDironSharedVolumes,能解决上述问题,当主机失败时,备机先Break它mount的主机NFS文件锁,再umountNFS,取到SharedVolumes,mountSharedFS,再给用户提供服务。1.2.2定义集群拓扑在定义集群拓扑之前,要保证设备软硬件正常,同时对网络进行测试,并确保已完全正确安装了HACMP软件包。通过SMITTY输入到HACMPODM中,运行如下命令:#smittyhacmpHACMPMovecursortodesireditemandpressEnterClusterConfigurationClusterServicesClusterSystemManagementClusterRecoveryAidsRASSupportF1=HelpF2=RefreshF3=CancelEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do在输出的HACMP窗口上选择ClusterConfiguration域,进入到下一级子项ClusterConfiguration。ClusterConfigurationMovecursortodesireditemandpressEnter.ClusterTopologyClusterSecurityClusterResourcesClusterSnapshotsClusterVerificationClusterCustomModificationRestoreSystemDefaultConfigurationfromActiveConfigurationAdvancedPerformanceTuningParametersF1=HelpF2=RefreshF3=CancelEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do要想对集群拓扑进行定义,您还要继续进入到下一级菜单ClusterTopology。ClusterTopologyMovecursortodesireditemandpressEnterConfigureClusterConfigureNodesConfigureNetworksConfigureAdaptersConfigureSitesConfigureGlobalNetworksConfigureNetworkModulesConfigureTopologyServicesandGroupServicesShowClusterTopologySynchronizeClusterTopologyF3=CancelF2=RefreshEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do定义群集ClusterID1~99999ClusterNameUpto31char定义节点F3=CancelNodeName:群集中节点名按ASCII序排列,出于心跳目的,系统认为相邻的节点名代表相邻的节点,最高和最低节点名也相邻,初始配置后,也可以加或改变节点名,看HACMP管理资料。定义卡:卡名AdapterIPLabel:对应于每个IP地址的ASCIItext描述。通过AddanAdapter加入。名字中不要用“-”。因Clverify检验时会更花时间。IP/Adapter:对有IP地址的Adapter,如按IPLabel在DNS或/etc/hosts中查不到,则要在此给出IP地址。对RS232给出/dev/ttyN,对tmscsi给出/dev/tmscsiN,对tmssa给出/dev/tmssaN.im或/dev/tmssaN.tm硬件NetworkTYPE:如Serial(RS232),TmSCSI,TmSSA,Ethernet等。网名NetworkName:每个物理网络给一个唯一网名。分类NetworkAttribute:public:如Ethernet、TokenRing、FDDI、SLIPprivate:如SOCC、ATM、SPSwitchserial:如RS232,tmSCSI,tmSSA用途AdapterFunction:Service,standby,boot硬件地址AdapterHardwareAddress:适用于Ethernet、TokenRing、FDDI,当定义Serviceadapter,且它有bootaddress,并且用到硬件地址切换时,可指定其HardwareAddress,其它情况不用。节点名NodeName:除了service卡会共享于几个Node之间,其它卡都可给于节点名。配置网络模块NetworkModules:网络模块用于维护各自网络的连通性,当一定时间收不到心跳,可以判定是网络失败。可做配置的内容就是检测的敏感性。1.2.3同步集群拓扑群集中定义做的任何修改,都要同步。如果是初次安装HA,clustermanager没有在本地(发同步命令的机器)运行,所有在默认配置目录中的ODM数据都被拷贝到其它节点,但如果其它节点此时有运行Clustermanager则同步操作不能执行。两个同步选项:IgnoreClusterVerificationError:Yes/NO,当选择No,如果Verification有错,则不同步,可看errlog。EmulateorActual:是模拟还果真正同步。SynchronizeClusterTopologyTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.■[EntryFields]IgnoreClusterVerificationErrors?[No]+EmulateorActual?[Actual]+SkipClusterVerification[No]+■Note:Onlythelocalnode'sdefaultconfigurationfileskeepthechangesyoumakefortopologyDAREemulation.Onceyourunyouremulation,torestoretheoriginalconfigurationratherthanrunninganactualDARE,runtheSMITcommand,"RestoreSystemDefaultConfigurationfromActiveConfiguration."Werecommendthatyoumakeasnapshotbeforerunninganemulation,justincaseuncontrolledclustereventshappenduringemulation.NOTE:IftheClusterManagerisactiveonthisnode,synchronizingtheClusterTopologywillcausetheClusterManagertomakeanychangestakeeffectoncethesynchronizationhassuccessfullycompleted.F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditF1=HelpF2=RefreshF3=CancelEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=DoEsc+9=ShellEsc+0=ExitEnter=Do1.2.4定义集群资源资源包括:Disks、VGs、FSs、NetworkAddress、Appserverso多个资源构成资源组,和节点的关系有:cascading、concurrent、rotatingo•配置资源组AddaResourceGroup为资源组配置资源。#smittyhacmp增加资源组路径:[HACMP]—>[ClusterConfiguration]->[ClusterResources]—>[DefineResourceGroups]—>[AddaResourceGroup]AddaResourceGroupTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges[EntryFields]*ResourceGroupName[SZ_SMC_rg]cascading*NodeRelationship+*ParticipatingNodeNames/DefaultNodePriority[SZ_旧M1SZ」BM2]+F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Docascading在ResourceGroupName域输入资源组名称,ParticipatingNodeNames/DefaultNodePriority域输入各节点名称,NodeRelationship即资源接管方式有三种:cascading、concurrent、rotatingo•配置run-time参数:配置run-time参数路径:[HACMP]—>[ClusterConfiguration]一〉[ClusterResources]—>[Change/ShowRunTimeParameters]Change/ShowRunTimeParametersTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.[EntryFields]NodeNameSZIBM1DebugLevelhighHostusesNISorNameServerfalseFormattingoptionsforhacmp.outStandardF1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=DoEsc+9=ShellEsc+0=ExitEnter=Do配置debug级别:high:所有clustermanager行动被logged。low:只有error被logged。是否使用NIS或DNSo定义APPServer配置run-time参数路径:[HACMP]—>[ClusterConfiguration]一〉[ClusterResources]一〉[DefineApplicationServers]一〉[AddanApplicationServer]AddanApplicationServerTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.[EntryFields]ServerName[SZ_SMC_app]ScriptStart[/usr/es/sbin/cluster/smc/start.sh]ScriptStop[/usr/es/sbin/cluster/smc/stop.sh]ScriptScriptF1=HelpF2=RefreshF4=ListF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=DoEsc+9=ShellEsc+0=ExitEnter=Do一般对应于一个script,注意路径名字,权限的一致。1.2.5同步集群资源同步集群资源路径:[HACMP]—>[ClusterConfiguration]—>[ClusterResources]—>[SynchronizeClusterResources]SynchronizeClusterResourcesTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.■[EntryFields]IgnoreClusterVerificationErrors?[No]+Un/ConfigureClusterResources?[Yes]+EmulateorActual?[Actual]+SkipClusterVerification[No]+■Note:Onlythelocalnode'sdefaultconfigurationfileskeepthechangesyoumakeforresourceDAREemulation.Onceyourunyouremulation,torestoretheoriginalconfigurationratherthanrunninganactualDARE,runtheSMITcommand,"RestoreSystemDefaultConfigurationfromActiveConfiguration."Werecommendthatyoumakeasnapshotbeforerunninganemulation,justincaseuncontrolledclustereventshappenduringemulation.F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do对于集群资源所做任何修改,必须进行资源同步。第一次同步,所有节点要在它的boot地址上,否则/etc/不会修改未同步的节点,将不能加入群集。1.2.6集群测试clverify检查clerify命令用来校验HACMP软件安装和配置是否正确,集群配置是否正确且一致。该命令仅次于/usr/sbin/cluster/diag/clverify,包括软件和群集检查。#/usr/sbin/cluster/diag/clverifyTogethelponaspecificoption,type:help<option>Toreturntopreviousmenu,type:backToquittheprogram,type:quitValidOptionsare:softwareclusterclverify>helpsoftwareVerifiesthatyoursoftwareenvironmentiscompatiblewithHACMPValidOptionsare:lppclverify>软件检测等价于命令Ippchk-v。集群检测等价于拓朴和配置检查命令smitclverify。初次启动测试判断HA是否启动:用ps-e|grepclstr,Issrc-gcluster或用netstat-i看IP是否在bootaddress。启动cluster:#smittyclstartStartClusterServicesTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.[EntryFields]now*Startnow,onsystemrestartorbothBROADCASTmessageatstartup?true+StartupClusterLockServices?false+StartupClusterInformationDaemon?true+Reacquireresourcesafterforceddown?false+F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do在每个节点都启动后,运行/usr/sbin/cluster/clstat命令看cluster状态。now检查takeover和reintegration进行停集群和接管测试。#smittyclstopStopClusterServices

Typeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.[EntryFields]*Stopnow,onsystemrestartorbothnow+BROADCASTclustershutdown?true+*Shutdownmodetakeover+(gracefulorgracefulwithtakeover,forced)F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=Edi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论