




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、H3C CAS集群管理技术白皮书 概述随着虚拟化和云计算浪潮在全球IT行业的兴起,越来越多的企业、行业和运营商纷纷将自身的IT架构切换到虚拟化环境中。虚拟化技术对数据中心内未被充分利用的服务器进行整合,极大地降低了客户的一次性投入成本,精简了数据中心物理服务器的数量,同时,减少了供电、制冷、场地和运维人员方面的运营成本。但是,虚拟化也为IT应用带来了单点故障问题。在未实施虚拟化技术之前,IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略,即一台高性能物理服务器仅安装一个应用程序。在这种情况下,即使该物理服务器出现了断电或操作系统崩溃等异常状况,最多只会影响到一个应用的
2、运行。而在虚拟化环境下,每台物理服务器往往运行多个虚拟应用,因此,虚拟化技术的实施将使IT环境面临的灾难破坏性更严重,尤其对于一些重要的业务入口或接入点(如企业的生产管理系统和金融行业的数据库系统等),即使出现秒级的业务中断,也将遭受灾难性的后果。在这种应用背景下,如何保证虚拟化环境下业务应用的高可靠性,成为急需解决的一个技术问题。服务器故障造成虚拟机业务全部中断在没有实施虚拟化之前,提高物理环境中关键业务应用程序可靠性的最常用方法是部署传统的高可靠性集群解决方案,如微软的Cluster Service(MSCS)和Veritas Cluster Server(VCS)等。这些解决方案致力于在
3、发生服务器主机故障或虚拟机故障时,在最短的应用程序停机时间内实现即时恢复,要达到这个目标,IT基础架构必须进行如下设置:每台物理服务器和虚拟机都必须有一个镜像虚拟机(可能在其它服务器主机上)。使用集群软件将服务器(或虚拟机及其主机)设置为互相镜像,一般情况下,由主虚拟机向镜像发送心跳信号,一旦发生故障,镜像将立即接管。下图显示使用传统集群方法的典型的虚拟机设置:使用传统集群配置确保虚拟化应用的高可靠性设置和维护这样的集群解决方案成本昂贵,并会占用大量资源。每添加一台新的虚拟机,可能需要更多的虚拟机甚至是更多的服务器主机才能进行故障切换。您将不得不设置、连接和配置所有的新服务器主机,并更新群集应
4、用程序的配置。总之,传统解决方案虽然能够保证快速恢复,但却是资源和劳动密集型的,而且通常存在对应用程序和操作系统的依赖性问题。由于集群解决方案的成本和复杂性问题,它们通常只被一小部分企业应用程序所采用,而大部分应用程序则没有任何故障切换保护。为了解决虚拟化和云计算部署带来的单点故障问题,H3C CAS云计算管理平台摒弃了高成本、高复杂度的传统集群方案,通过为应用程序提供可用的、经济的高可用性,而使其更“大众化”。H3C CAS云计算管理平台简介H3C CAS云计算管理平台是H3C公司面向企业和行业数据中心推出的虚拟化和云计算管理软件,通过精简数据中心服务器的数量,整合数据中心IT基础设施资源,
5、精简IT操作,提高管理效率,达到提高物理资源利用率和降低整体拥有成本的目的。同时,利用先进的云管理理念,建立安全的、可审核的数据中心环境,为业务部门提供成本更低、服务水平更高的基础架构,从而能够针对业务部门的需求做出快速的响应。H3C CAS云计算管理平台由三个组件构成:CVK:Cloud Virtualization Kernel,虚拟化内核平台运行在基础设施层和上层客户操作系统之间的虚拟化内核软件。针对上层客户操作系统对底层硬件资源的访问,CVK用于屏蔽底层异构硬件之间的差异性,消除上层客户操作系统对硬件设备以及驱动的依赖,同时增强了虚拟化运行环境中的硬件兼容性、高可靠性、高可用性、可扩展
6、性、性能优化等功能。CVM:Cloud Virtualization Manager,虚拟化管理系统主要实现对数据中心内的计算、网络和存储等硬件资源的软件虚拟化管理,对上层应用提供自动化服务。其业务范围包括:虚拟计算、虚拟网络、虚拟存储、高可用性(HA)、动态资源调度(DRS)、虚拟机容灾与备份、虚拟机模板管理、集群文件系统、虚拟交换机策略等。CIC:Cloud Intelligence Center,云业务管理中心由一系列云基础业务模块组成,通过将基础架构资源(包括计算、存储和网络)及其相关策略整合成虚拟数据中心资源池,并允许用户按需消费这些资源,从而构建安全的多租户混合云。其业务范围包括:
7、组织(虚拟数据中心)、多租户数据和业务安全、云业务工作流、自助式服务门户、兼容OpenStack的REST API接口等。 H3C CAS云计算管理平台系统逻辑结构图H3C CAS集群管理技术:HCCSH3C CAS集群是一组协同工作并运行H3C CAS集群服务(H3C CAS Cluster Service,HCCS)的物理服务器集合。HCCS为资源和应用程序提供高可靠性、故障恢复、可伸缩性和可管理性。当集群中的某个节点由于软件或硬件原因故障,或因为维护需要而无法使用时,H3C CAS集群管理系统可以将IP、客户业务等资源切换到其它健康的节点上,使整个系统能连续不间断地对外提供服务,从而为企
8、业和机构的关键业务提供24365的可靠性保障。技术优点从功能层面上,HCCS集群方案比传统的服务器集群方案更加丰富,增加了以下三个高级功能: 虚拟机动态迁移:可以将一个正在运行的虚拟机从一台服务器迁移到另外一台服务器,而虚拟机上的业务不间断。 高可靠性(High Availability,HA):当一台服务器发生故障的时候,该主机上的所有虚拟机都可以在集群中其它的正常工作的服务器上重新启动,从而保证了虚拟机上的业务系统运行的连续性。动态资源调度(Dynamic Resource Scheduling,DRS):当一台服务器负载过大的时候,该服务器上的虚拟机可以迁到集群中的其它服务器上,而虚拟机
9、上的业务不间断。技术实现HCCS服务运行于安装了H3C CAS CVK组件的集群节点中,使用集群协议,通过UDP报文完成节点之间的心跳消息探测,维护集群节点成员关系。H3C CAS集群管理系统架构H3C CAS集群管理系统中,各组件模块的功能说明如下:节点(Node)运行H3C CAS Cluster Service的一个独立主机,称为节点。节点是HA软件模块的运行载体,每个节点上运行着H3C CAS云操作系统和HCCS服务。CCE(Cluster Connectivity Engine,集群连接管理引擎)整个集群管理系统的通信模块,各个节点之间的所有通信全部通过该模块完成,如在节点之间传递心
10、跳存活消息(Heartbeats)、集群事物消息(Cluster Transition Messages)、重传消息(Retransmission Request)等。节点之间通过基于以太网的组通信协议进行交互,所有数据都采用UDP广播或单播发送。CCM(Consensus Cluster Membership,一致性集群成员关系)管理集群中各个节点的成员以及各成员之间的关系,使集群中各个节点有效地组织成一个整体,并保持稳定的连接。CRM(Cluster Resource Manager,集群资源管理器)集群中的每个节点上都有一个本地的集群资源管理器,是整个集群管理系统的指挥中心,用于维护集群
11、系统中各种资源的配置信息和调度协调。例如,将CCE模块收集到的各个成员节点的基本信息转交给CCM模块来更新整个集群的成员信息;调用LRM模块对当前节点的资源执行相应的操作;将各个模块返回的各种消息通过调用设定的日志记录程序记录到日志文件中。DC(Designated Coordinator,指定协调者)集群管理系统在开始工作前,首先在各节点间选举产生一个节点作为主节点,用于管理和控制集群的指令,所有配置操作都在该DC主机上进行,并由其分发到集群下的各个节点上。一旦某个节点被选举为DC,它将负责维护一个主的集群信息数据库,集群内的任何改变(如配置和状态)都由DC来变更集群信息数据库,然后同步信息
12、库内容到其它节点的集群资源管理器。如果DC所在节点出现故障,集群会马上重新选举出新的DC。CIB(Cluster Information Base,集群信息数据库)一个XML格式的文件,用于保存整个集群的“静态”配置与“动态”状态信息。集群内每个节点都存在一份CIB文件,主CIB文件由DC节点维护,并自动在集群内所有节点上同步更新。同步更新消息通过CCE模块的集群协议来完成。一个CIB文件至少包含以下配置信息:集群通信协议版本令牌环号(一个逻辑概念上的环,用于管理节点之间的连通性及集群状态信息的同步。报文在令牌环上的传输默认为组播。)服务器主机接口网络IP地址组播地址组播端口号日志输出方式(标
13、准输出、保存到指定的日志文件、Syslog、调试信息、是否记录时间戳等)LRM(Local Resource Manager,本地资源管理器)仅节点本身范围内有效,它会在CRM的通知下调用本地的资源代理,执行资源的启动、停止、重启、监控等操作,并将结果报告给CRM。PE(Policy Engine,策略引擎)负责将CRM发送来的信息按照配置文件中的各种设置进行计算和分析,将结果按照某种固定的格式通过CRM模块提交给执行模块。PE需要计算分析的信息主要是当前有哪些节点、各节点的状态等。PE模块始终在DC上运行。TE(Transition Engine,执行引擎)用于分析PE的计算结果,然后根据配
14、置信息转换成后续所需的相应操作。TE和PE之间并不直接通信,而是通过CRM模块来传递消息。TE模块始终在DC上运行。资源代理(Resource Agent)控制服务启动、停止、监控服务状态的shell脚本集合,这些脚本被LRM模块调用,从而实现各种资源的启动、停止、暂停和监控等。集群的形成新节点加入到集群后,首先启动本地的HCCS集群服务,并向集群内发送一个加入集群的组播消息。集群中其它节点接收到该消息后,将新节点添加到自己的CIB列表中。因为合并后的CIB列表有更新,所以,需要在集群内广播新的CIB列表,所有节点将本地的CIB列表与接收到的CIB列表进行比较,如果相同,则进入一致性状态,集群
15、重新进入稳定状态。集群的维护物理节点状态维护在正常工作时,集群处于稳定状态,HCCS集群管理系统中各个节点之间通过相互发送组播报文(默认组播地址为226.94.1.2,组播端口号为35933)以检测对方是否存在。当发现某个节点连续多次(默认为10次)未响应组播请求时,CCE引擎就认为该节点发生了系统故障事件。此时,集群内的DC就会重启该节点,并通知CCM成员关系管理层,更改CIB数据库,根据PE中的策略算法,尝试在其它的节点上重新启动所有失效的虚拟机。同时,在集群内向邻居节点发送数据包,通知它们改变自己的CIB数据库。如果发生故障的节点为DC,将在集群内触发DC的重新选举,DC选举完成后,再进
16、行CIB数据库的同步更新与虚拟机的动态迁移操作。资源状态维护在H3C CAS集群管理系统中,运行于节点上的虚拟机是一种资源。H3C CAS集群管理系统除了对集群中的节点进行心跳检测之外,还会对运行于节点之上的虚拟机资源进行状态检测。在每个节点上,都运行了一个LRMd(Local Resource Manager daemon,本地资源管理器守护进程),它是H3C CAS集群管理系统中直接操作所管理的资源的一个软件模块,负责对本地的虚拟化资源进行状态检测,并通过shell脚本调用方式实现对资源的各种操作。当LRMd守护进程检测到本机的某台虚拟机出现通信故障时,首先将事件通知给DC,由DC统一将该
17、虚拟机状态告知集群内所有的物理节点,并按照PE计算的策略算法,为该故障的虚拟机选择一个空闲的节点,在该节点上重启该虚拟机。虚拟机故障迁移虚拟机动态迁移虚拟机动态迁移的触发条件可能是物理节点故障,也可能是虚拟机故障。动态迁移是虚拟化中的一项独特技术,它将服务器、存储和网络完全虚拟化,使得正在运行的整个虚拟机能够在瞬间从一台服务器“漂移”到另一台服务器上,而虚拟机上的业务不中断。迁移的目的节点位置由CIB数据库中保存的各节点的状态决定,节点负载越小,越有可能成为迁移的目的节点。虚拟机动态迁移技术利用动态迁移技术在物理服务器之间实时迁移虚拟机的过程是通过两项底层技术实现的。虚拟机操作系统和应用程序的
18、完整状态被封装在共享存储设备上的一组文件之中,这样的共享存储设备可以是iSCSI存储区域网络(SAN)或网络连接存储(NAS),虚拟机的活动内存和精确的执行状态可通过高速网络迅速传输。通过H3C CAS高性能集群文件系统,多个物理服务器主机可以同时访问同一个虚拟机文件。 虚拟机的内存映像和精确执行状态可通过高速网络在各物理服务器主机之间迅速传递。H3C动态迁移技术通过在一个位图中保存对现行内存处理过程的跟踪,使用户在数据传递期间察觉不到性能变化。一旦整个内存和系统状态被复制到目标物理服务器主机之后,H3C CAS动态迁移技术就会中止源虚拟机的运行,随后,将位图复制到目标物理服务器,并在目标物理
19、服务器上继续运行该虚拟机。动态资源调度在虚拟化和云计算环境中,一旦客户将服务器整合到资源较少的物理主机上,虚拟机的资源需求往往会成为意想不到的瓶颈,全部资源需求很有可能超过主机的可用资源。H3C CAS集群管理系统提供的动态资源调度特性引入一个自动化机制,通过持续地平衡容量,将虚拟机迁移到有更多可用资源的主机上,确保每个虚拟机在任何节点都能及时地调用相应的资源。即便大量运行SQL Server的虚拟机,只要开启了动态资源调整功能,就不必再对CPU和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能,也可以显著地降低数据中心的成本与运营费用。使用H3C CAS云计算软件动态资源调整特性进行
20、虚拟机动态迁移H3C CAS CVM管理平台定期(默认1分钟)轮询集群内所有的物理服务器主机,对CPU和内存等关键计算资源的利用率进行检测,并根据用户自定义的规则来判断是否需要为物理服务器主机在集群内寻找有更多可用资源的主机,以将该主机上的虚拟机迁移到另外一台具有更多合适资源的服务器上,或者将该服务器上其它的虚拟机迁移出去,从而为某个虚拟机腾出更多的“空间”。集群动态资源调度自定义规则配置除了定时检测和动态迁移之外,H3C CAS云计算管理平台还充分考虑了虚拟机对物理服务器主机的亲和性因素,即衡量虚拟机对当前物理主机的依赖程度。例如,用户可能希望某些虚拟应用系统只允许在固定的物理主机上运行,而
21、不允许其动态迁移。此时,只需要在H3C CAS云计算管理平台上,去勾选虚拟机的自动迁移属性即可。虚拟机自动迁移属性配置H3C实现的技术特色H3C CAS集群管理技术有效地解决了目前其它高可用性解决方案面临的问题:当物理服务器发生硬件故障时,所有运行于该服务器的虚拟机可以自动切换到其它的可用服务器上,相对传统的双机容错方案,H3C CAS集群管理技术可以最大程度减少因硬件故障造成的服务器故障和服务中断时间。不同于其它HA的双机热备方式,所有参与HA的物理服务器都在运行生产系统,充分利用现有硬件资源。同时,对众多的操作系统和应用程序,H3C CAS提供统一的HA解决方案,避免了针对不同操作系统或者
22、应用,采用不同的HA方案带来的额外开销和复杂性。通过H3C CAS HA,IT部门可以:为没有容错功能的应用提供冗余保护传统意义上HA实现很复杂并且价格昂贵,多用于关键性的服务或应用,而H3C CAS HA为所有的应用程序提供了高性价比的HA解决方案。为整个IT环境提供“第一条安全防线”不同于其它基于操作系统和应用的HA实现方式,H3C CAS集群管理技术为IT系统提供了更统一、更易于管理的高可靠性解决方案。H3C CAS用最少的成本和最简单的管理方式为所用的应用提供了最基本的冗余保护功能。综上所述,H3C CAS集群管理解决方案的技术特点总结如下:自动侦测物理服务器和虚拟机失效H3C CAS
23、会自动的监测物理服务器和虚拟机的运行状态,如果发现服务器或虚拟机出现故障,会在其它的服务器上重新启动故障机上所有虚拟机,这个过程无需任何人为干预。资源预留H3C CAS永远会保证资源池里有足够的资源提供给虚拟机,当物理服务器宕机后,这部分资源可以保证虚拟机能够顺利的重新启动。虚拟机自动重新启动通过在其它的物理服务器上重新启动虚拟机, HA可以保护任何应用程序不会因为硬件失效而中断服务。智能选择物理服务器当与H3C CAS动态资源调度功能共同使用时,H3C CAS集群管理系统可以根据资源的使用情况,为失效物理服务器上的虚拟机选择能获得最佳运行效果的物理服务器。根据业务需求自动调整资源H3C CAS将物理服务器主机资源聚合到集群中,通过监控CPU和内存等关键计算资源的利用率持续优化虚拟机跨物理主机的分发,将这些资源动态自动分发到各虚拟机中。自动平衡计算容量H3C CAS动态资源调度功能会不间断地平衡资源池内的计算容量,提高服务级别并确保每个虚拟机能随时访问相应资源,满足虚拟应用程序的高可用性。典型组网案例组网拓扑对于具有特殊硬件访
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年甘肃省省属事业单位考试真题
- 2024年成都市市属事业单位考试真题
- 2024年北票市市属事业单位考试真题
- 2025年高压液压柱塞泵马达合作协议书
- 2025年机械设备租赁服务合作协议书
- 公司管理人员安全培训试题附答案(轻巧夺冠)
- 岗位安全培训试题及完整答案(历年真题)
- 新思想与自我提升的路径
- 小学班主任文化建设培训计划
- 大学生创业团队的职责与角色分配
- 学校膳食管理委员会组织及工作职责
- 广西壮族自治区工程造价综合定额答疑汇编2022年11月更新
- 中国教育学会教育科研规划课题结题报告格式(参考)doc
- 机动车驾驶员培训机构质量信誉考核评分表doc-附件1
- (完整word)苏教八年级初二下册英语单词默写表
- 城市规划原理课件(完整版)
- 民法案例分析教程(第五版)完整版课件全套ppt教学教程最全电子教案
- DBJ03-107-2019 房屋建筑和市政工程施工危险性较大的分部分项工程安全管理规范
- 国家电网有限公司十八项电网重大反事故措施(修订版)
- 夜景照明工程验收标准
- 家长类型分析及沟通技巧
评论
0/150
提交评论