服务器集群基础知识.doc_第1页
服务器集群基础知识.doc_第2页
服务器集群基础知识.doc_第3页
服务器集群基础知识.doc_第4页
服务器集群基础知识.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务器集群知识介绍在发展初期,一路处理器便可为一台服务器及其所有应用提供动力。接着就发展到了多处理时代,这时两路或多路处理器共享一个存储池,并能处理更多更大的应用。然后出现了服务器网络,该网络中的每台服务器都专门处理不同的应用集。现在,发展到了服务器集群,两台或多台服务器像一台服务器一样工作,提供更高的可用性和性能,这已经远远超出了您的想像。应用可从一台服务器转移到另一台服务器,或同时运行在若干台服务器上所有这一切对用户都是透明的。集群并不是新事物,但在软件和硬件方面,直到最近它们还是专有的。信息系统经理对集群进行了更加仔细的考虑,这是因为现在他们可以使用大规模生产的标准硬件实现集群,如RAID、对称多处理系统、网络和I/O网卡及外设。集群技术在未来将会获得更大的发展,现在,不断推出新的集群选件,而真正的集群标准尚在制定之中。何为集群?简单的说,集群就是两台或多台计算机或节点在一个群组内共同工作。与单独工作的计算机相比,集群能够提供更高的可用性和可扩充性。集群中的每个节点通常都拥有自己的资源(处理器、I/O、内存、操作系统、存储器),并对自己的用户集负责。故障切换功能提供切换到集群中一个或多个其它节点上。一旦发生故障的节点恢复全面运行,通过前瞻性地将一台服务器的功能切换到集群中其它服务器上,可以实现升级,停止该服务器的运行以增加组件,然后将其放回到集群中,再将其功能从其它服务器转回该服务器。利用分布式讯息传递(DMP)可提供额外的可扩充性,DMP是一种集群内通信技术,该技术允许应用以对最终用户透明的方式扩展到单个对称多处理(SMP)系统以外。集群中的每个节点必须运行集群软件以提供服务,如故障检测、恢复和将服务器作为约个系统进行管理的能力。集群中的节点必须以一种知道所有其它节点状态的方式连接。这通常通过一条由于局域网路径相分离的通信路径来实现,并使用专用网卡来确保节点间清楚的通信。该通信路径中继系统间的心跳,这样,如果一个资源发生故障因而无法发送心跳,就会开始故障切换过程。实际上,最可靠的配置采用了使用不同通信连接(局域网、SCSI和RS232)的冗余心跳,以确保通信故障不会激活错误的故障切换。集群级别今天,对于集群购买者来说,幸运的是有多款不同档次的集群可供选择,它们可提供广泛的可用性。当然,可用性越高,价格也越高,管理复杂性也越大。共享存储共享磁盘子系统往往是集群的基础、它使用共享的SCSI或光纤通道。每个节点使用其本地磁盘存储操作系统交换空间和系统文件,而应用数据存储在共享磁盘上,每个节点均可读取由其它节点写入的数据。应用间的并发磁盘访问需要分布锁定管理器(DLM),而且共享磁盘子系统与其集群节点之间的距离会受到所选择介质(SCSI或光纤通道等)的限制。服务器镜像(镜像磁盘)需要数据冗余而又无需占用额外磁盘子系统的环境有权选择服务器间的镜像数据。除了成本更低以外,服务器镜像的另一个优势是,在主板服务器与辅助服务器之间的连接可以是基于局域网的,这样就消除了SCSI距离限制。数据写到主板服务器上后,它还写到了辅服务器上;通过锁定服务器数据保持了数据的完整性。一些服务器镜像产品还可将工作负载从主服务器转换到辅服务器上。 非共享现在,一些集群产品使用的是非共享体系结构,在此体系结构中,节点既不共享集中式磁盘,也不在节点间镜像数据。发生故障时,非共享集群所具有的软件能够将磁盘所有权从一个节点传送至另一个节点,而无需使用分布式分布式锁定管理器(DLM)。如何实现故障切换?可以使用多种方法配制集群实现故障切换。第一种方法是路配制,集群中的所有节点在正常情况下都拥有自己的用户和工作负载。一个故障节点的资源可切换到其它节点,但由于剩余的服务器承担了额外的负载,因此其性能将有所下降。N+1配制包括一个热待机系统,它在主系统发生故障之前一直处于空闲模式。在N+1配制中,当一个节点发生故障时可避免其它节点的性能下降。但是,由于待机节点在正常情况下并不提供服务,因而成本较高。在任何配制中,一旦出现问题,集群软件将能够首先进行本地恢复。本地恢复即在发生故障时,在本地节点自动重新启动应用或服务的能力。对节点并非致命的故障来说,逻辑上本地恢复是首选方式,因为与切换至另一个节点相比,它对用户的中断更少。就故障切换的种类而论,一些集群产品可进行并行恢复,其中资源能够故障切换到不同地区的远程节点上。这很适合于容灾需求。次外,为了解决多个节点故障问题,一些集群产品可以进行级联故障切换,其工作方式就像多米诺骨牌一样:节点一故障切换到节点二,节点二发生故障后再切换到节点三等等。故障切换举例以下是双节点集群故障切换举例,其中两个节点都拥有其自己的用户和以下的应用。1. 节点1因出现内存问题导致了应用故障。用户讯息错误且其应用停止运行。集群管理软件将这一问题通知系统管理员。2. 节点1进行本地恢复,重新启动故障应用。用户能够重新启动其应用。3. 当应用再次发生故障时,集群软件向节点2进行故障切换。故障切换需要大约1分钟,用户必须等待。(实际时间可能会从几秒至几分钟。)一些应用能够检测故障过程并向用户显示信息,告知她们向另一台服务器传输应用。4. 一旦该应用在节点2中重新启动,用户即可继续工作。5. 诊断和修理节点1。将已恢复正常的节点1放回远处后,关恢复(切换)过程就会启动,以使应用和相关资源回到节点1。可人工或自动实现该故障恢复。例如,在非高峰期间,可将其配置为故障恢复状态。集群可扩充性除了提高的可用性,性能可扩充性也是集群的一个主要优势。通常,可通过集群负载平衡提高性能。本质上,负载平衡意味着将相关应用和资源从繁忙节点转移到不繁忙节点。真正的可扩充性是在其它区域实现的。第一个区域是增加可扩充性,这意味着能够在不抛弃以前系统的情况下,不断添加服务器、磁盘存储器等。实际上,随着您的计算机需求不断增加,集群提供了随着您的发展进行支付的环境。当能够在集群多个节点上自动分配其工作负载的真正支持集群应用在未来形成开发标准后,您将看到第二种类型的可扩充性。除此之外还可分离应用,以使一个应用的不同线程运行在不同节点上,从而极大提高可应用如何处理故障切换?下一个问题是应用如何处理故障切换?答案是这取决于所使用的应用和集群产品。一些集群产品为专门应用(如数据库或通信协议)提供了恢复或切换套件。这些套件可在应用故障时进行检测,并可在另一服务器上重新启动该应用。应用处理故障的方法由于集群产品的不同而不同。正如我们以前提到的一样,尽管不同的厂商都试图制定一个通用标准,但现在集群软件还没有公共标准。然而,必须修改现在的应用以处理故障切换,应用的最终目标不受硬件的影响。一个解决方案是与操作系统共同运行的一组程序和API(应用编程口),从而使得应用厂商能够创建执行这些恢复功能的程序。使用这些API使应用支持集群。当前集群产品的许多厂商都在努力奋斗,以确保集群产品能够符合这些不同的操作系统API。虚拟接口体系结构(VIA)由英特尔、康柏、惠普、微软、戴尔、SCO和天腾联合推出了虚拟接口体系结构(VIA)计划正为开发集群硬件和软件产品制定标准,该标准将是独立于厂商的,它将为用户购买技术时提供更多的选择。需牢记的重点真正的集群可被认为是多处理发展演变的下一步以前,应用应用跨越一个系统的多个处理器运行,现在,应用可以跨越跨越若干系统的多个处理器运行。集群提供了两个主要优势:高可用性(通过故障切换功能)和可扩充性(通过增加扩展和跨越处理器进行负载平衡)。当节点出现硬件或软件问题后,就会进行故障切换,该节点的应用及通信连接将切换到另一台服务器上。可使用集群管理产品规定那些应用应进行故障切换,以及那些故障条件可触发这一过程。可以获得许多集群种类和配置,以为用户提供他们所需的确切可用性级别。共享磁盘、服务器镜像及非共享是这些配置的几个。服务器集群基础知识:集群的形成和操作【 简介 】 一旦在服务器上安装并运行了群集服务,该服务器即可加入群集。群集化操作可以减少单点故障数量,并且实现了群集化资源的高可用性。下述各节简要介绍了群集创建和群集操作中的节点行为。 一旦在服务器上安装并运行了群集服务,该服务器即可加入群集。群集化操作可以减少单点故障数量,并且实现了群集化资源的高可用性。下述各节简要介绍了群集创建和群集操作中的节点行为。 注意:有关安装群集服务器的信息,请参阅 Windows server 2003 产品家族的帮助和部署指南。 创建群集 在服务器群集产品中含有用来在服务器上安装群集软件和创建新群集的群集安装实用工具。创建新群集时,首先在选择作为群集的第一个成员的计算机上运行该实用工具。第一步是确定群集名称并创建群集数据库和初始的群集成员列表来定义新群集。 Windows server 2003 群集新增了一个群集管理设置向导以及使用 cluster.exe 命令行界面创建( 包括从远程创建 )群集的功能。 创建群集的第二步是,添加可供所有群集成员使用的共用数据存储设备。这样,创建的新群集将带有一个节点、自己的本地数据存储设备以及群集共用资源 通常是磁盘或数据存储和连接介质资源。 创建群集的最后一步是,在另外将要成为群集成员的每一台计算机上运行安装实用工具。每当将新节点添加到群集中时,新节点都会自动从群集的原始成员获得现有群集数据库的副本。当节点加入或形成群集时,群集服务会更新该节点私有的配置数据库副本。 形成群集 如果服务器运行了群集服务并且无法找到群集中的其它节点,它自己可以形成一个群集。要形成群集,节点必须能够获得对仲裁资源的独占权。 当最初形成群集时,群集中的第一个节点将包括群集配置数据库。每当有新节点加入群集时,新节点都会在本地获得并保持群集配置数据库的副本。仲裁资源用恢复日志(其中含有同节点无关的群集配置和状态数据)的形式存储配置数据库的最新版本。 在群集运行中,群集服务使用仲裁恢复日志执行以下操作 : 保证只有一组活动、可相互通讯的节点才能形成群集 仅当某个节点可以获得对仲裁资源的控制权时 , 才允许它形成群集 仅当某个节点可以同控制仲裁资源的节点通讯时 , 才允许它加入或留在现有群集中 从群集中的其它节点和群集服务管理接口的角度看,当形成群集时,群集中的每个节点可能处于三种不同状态中的一种。事件处理器会记录这些状态,而事件日志管理器会将这些状态复制到群集的其它节点。群集服务状态包括: 脱机。此时的节点不是完全有效的群集成员。该节点及其群集服务器可能在运行,也可能未运行。 联机。此时的节点是完全有效的群集成员。它遵从群集数据库的更新、对仲裁算法施加自己的影响、维护心跳通讯,并可以拥有和运行资源组。 暂停。此时的节点是完全有效的群集成员。它遵从群集数据库的更新、对仲裁算法施加自己的影响、维护心跳通讯,但它无法接受资源组。它只能支持它当前已拥有的那些资源组。之所以提供暂停状态,是为了允许执行某些维护。大多数服务器群集组件会将联机和暂停视为等价的状态。 加入群集 如果一个服务器要加入现有群集 , 则它必须运行群集服务并且必须成功找到群集中的其它节点。在找到其它节点后,加入的服务器必须接受群集成员资格验证,并获得群集配置数据库的副本。 加入现有群集的过程开始于 Windows Server 2003 或 Windows 2000 Service Control Manager 在节点上启动群集服务之时。在启动过程中,群集服务会配置并装入该节点的本地数据设备。它并不会试图将共用的群集数据设备作为节点联机,因为现有群集可能正在使用这些设备。 为了查找其它节点 , 会启动一个发现过程。当节点发现任何群集成员时,它将执行身份验证序列。第一个群集成员会对新加入者进行身份验证,并且在新服务器得到成功验证后返回成功状态。如果验证不成功(未能识别待加入节点的群集成员身份,或者它使用了无效的帐户密码),则加入群集的请求会被拒绝。 进行成功验证后,首先联机的群集节点会检查加入节点上的配置数据库副本。如果该副本已过时,对加入服务器进行验证的群集节点会为加入的服务器发送该数据库的更新副本。刚加入群集的节点在收到复制的数据库后,可以用它查找共享资源并根据需要将它们联机。 脱离群集 当节点关闭或群集服务被停止时,节点可能脱离群集。但当节点不执行群集操作(比如不向群集配置数据库提交更新)时,节点也可能被迫脱离(被逐出)群集。 如果节点根据预先的计划脱离群集 , 它会向其它所有节点成员发送 ClusterExit 消息,通知它们它将脱离群集。该节点不等待任何响应就会立即进行关闭资源和所有群集连接的操作。由于其余节点收到了退出消息,因此它们不会执行在节点意外失效或网络通讯停止时发生的重新分组过程以重新确立群集成员身份。服务器集群技术及其在视频网络中的应用本文详细阐述了服务器集群的概念、优点、实现模式、组件及组件之间的相互作用关系,集群故障转移发生的条件和实现过程、故障恢复的过程。分析了电视台视频网络通常选择的集群模式,并结合河南电视台都市频道节目制作网的实例,说明了服务器集群的创建过程。 一、前言 视频网络的搭建和应用给电视台带来的是技术上的变革、节目制作理念的转变、工作效率的提高。同时,由于网络自身的原因,也给整个节目制作过程带了一些不稳定因素,比如网络瘫痪、带宽堵塞、素材丢失等。可用性成为评定视频网络好坏的重要标准,而服务器的可用性在很大程度上又决定了视频网络的可用性,因为服务器是整个网络的心脏,它担当着素材、数据库和硬件设备的管理工作。 当然,随着许多先进技术的应用,充分保证了服务器的可用性,其中,比较经济、有效的一种技术就是服务器集群技术。 二、服务器集群技术 1 、服务器集群概述 服务器集群是由一组独立的服务器,并像单个系统一样运作,通过将运行着 Windows 2000 Advanced Server 的服务器编组,组成集群服务器,从而对资源和应用程序提供了高可用性、可扩展性和可管理性。 采用服务器集群的目的是,在出现故障或断电的情况下,保证客户对应用程序和资源的访问。如果集群里的某服务器由于故障或维护的缘故不可用,资源和应用程序将转移到其它可用的集群节点上。 而提起集群,人们容易将双机热备份与集群混为一谈,其实它们有本质上的区别:即能否实现并行处理和服务器失效后的任务平滑接管。双机或多机热备份的原理是一台主机做服务器,其他主机做备份机,服务器失效时,备份机接管。 2 、使用服务器集群的优点 高可用性。集群技术可以用来避免单台服务器的资源或应用程序出现故障。使用集群技术,资源的所有权,如磁盘驱动器和 IP 地址将自动地从有故障的服务器上转移到可用的服务器上。当集群中的系统或应用程序出现故障时,集群软件将在可用的服务器上重启失效的应用程序,或将失效服务器的工作分配到剩余的服务器上,结果是,用户只是觉得服务器暂时停顿了一下。可扩展性。可以很方便地通过添加更多的服务器,来提高集群的计算能力和网络的可用性。可管理性。可以使用集群管理器来管理集群,并管理应用程序。可以通过拖放集群对象,在集群里的不同服务器之间移动应用程序,也可以通过同样的方式移动数据。可以通过这种方式来手工平衡服务器的负荷,卸载服务器,从而方便地进行维护。可以从网络的任意地方的客户端和资源处,监视集群的状态。 3 、服务器集群模式 根据使用服务器集群的目的不同,服务器集群有三种主要的集群模式:一种是使用静态负载平衡的高可用性集群模式;另一种是具有最大可用性的“热备份”集群模式;第三种是混合型集群模式。 模式 A :使用静态负载平衡的高可用性集群模式 在这种模式下,两台服务器都处在联机状态,每台服务器都以虚拟服务器的形式向整个网络提供自己的资源组,而客户端可以检测并访问到这种虚拟服务器。每台服务器容量的选择应该使每台服务器中的资源在最优性能下运行。但是在发生故障转移时,每台服务器又可以暂时承担其他服务器上资源的运行。根据指定的资源和服务器容量配置,所有的客户服务在故障转移时仍保持有效,但性能要受到影响响。 假定某公司内部网络依赖一台运行了两个大型数据库应用程序的服务器。这两个数据库对全天反复连接进来的大量客户来说都是非常关键的。但在高峰连接时间,出现服务器不能满足需求和保持性能的问题。 要缓解这个问题,必须将另一台服务器连接到过载的服务器上,形成集群以平衡负载,如图 1 所示。系统中有两台服务器,每台运行一个数据库应用程序。如果一台服务器出现故障,系统将回到性能降低的初始状态,但这是暂时的。在故障服务器恢复正常后,它运行的应用程序就会执行故障恢复,同时操作恢复正常。 模式 B :具有最大可用性的“热备份”集群模式 在这种模式下,两台服务器只有一台是处于联机状态,它会支持所有的客户请求和操作。而另一台服务器却空闲着,它只是一个专用的“热备份”。如果联机服务器出现故障,“热备份”服务器就以接近或等于联机服务器的性能接管全部操作并继续为客户提供服务。 集群 图 2 Web 集群服务器模式 这种模式最适用于单位中的重要应用程序和资源。例如,某公司主要通过网络渠道来销售其产品,就可以采用这种模式为所有专门支持 Web 访问的服务器提供“热备份”,如图 2 所示,例如运行 IIS 的服务器。在这一领域加倍投入硬件所需的费用,可以通过为客户提供高效稳定的访问得到回报。如果一台 Web 服务器出现故障,第二台服务器就会被完全配置以接管该服务器的全部操作。 模式 C :混合型集群模式 混合型集群模式是上面两种模式的结合,它只针对关键应用进行故障转移,这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。当出现故障时,出现故障的服务器上的不太关键的应用就不可用了,但是那些关键应用会转移到另一台可用的服务器上,从而达到性能和容错两方面的平衡。 4 、电视台视频网络集群模式的选择 从以上集群模式的分类可以看出三种集群模式各有自己的特点和用途,理想的集群模式应该是模式 A ,即集群中的两台服务器都同时处于联机状态,也就是在两台服务器上同时运行应用程序,当一台服务器出现故障时,运行在出现故障的服务器上的应用程序就会转移到另外的没有出现故障的服务器上,这样一来,由于两台服务器的工作现在由一台服务器来承担,自然会影响服务器的性能。对于电视台来说,应用程序都不是运算量很大的程序,单台服务器的处理能力足以满足需要,负载平衡也就起不到有效的作用,而电视台考虑最多的是网络的可用性,所以通常采用的是模式 B ,即在正常操作时,另一台服务器处于备用状态,只有当联机的服务器出现故障时该备用服务器才会接管工作,并且不会有任何性能上的影响。但这并不是一个很经济的方案,因为你不得不买两台服务器来做一台服务器的工作,虽然当出现故障时不会对性能产生任何影响,但是在正常运行时的性能价格比并不太好。 5 、服务器集群组件及实现过程 集群是由许多组件组成,这些组件相互协作来管理集群对象,下面就对集群组件如何在单一集群服务器内相互作用关系进行阐述。 集群组件之间的相互作用关系如图 3 所示,从图 3 可以看出集群主要有以下组件构成:( 1 )集群服务;( 2 )资源监视器;( 3 )资源;( 4 )集群管理器;( 5 )集群数据库;( 6 )集群网络驱动程序。 集群服务是集群的核心组件,它管理所有集群指定的活动。在集群中的每台服务器上都运行着集群服务的一个实例。集群服务主要管理集群对象和配置、与集群中集群服务的其他实例协调、促进其他软件组件之间的通讯和执行故障转移操作。 资源监视器是担当集群服务和资源之间媒介的集群组件。当集群服务请求资源时,资源监视器将它的请求传输给相应的资源。每台集群服务器都运行着一个或多个资源监视器。默认情况下,集群服务只启动一个资源监视器与此服务器中的资源交互作用。 集群资源是具有如下特征的所有物理或逻辑组件:( 1 )能够联机和脱机;( 2 )能够在服务器集群上进行管理;( 3 )每次只能属于一台服务器。 Windows 2000 Advanced Server 定义了几种资源类型,主要有物理磁盘资源类型、网际协议资源类型、文件共享资源类型等。一些资源可以组成一个资源组,一个资源组存在于一个上,但同时只能在一个服务器上,组是集群可以进行故障转移的最小单元。 管理员使用集群管理器管理应用程序的配置、控制和监视集群。集群管理器是一个图形界面(如图 4 )来管理集群对象、建立组、进行故障转移、处理维护工作和监视集群行为。 集群数据库常驻在每台集群服务器上的 Windows 2000 注册表中。它包含集群的所有物理和逻辑元素的信息,包括集群对象、对象属性和配置数据。 集群中的每个服务器都运行集群网络驱动程序的一个实例。集群网络驱动程序负责:监视节点之间所有网络路径的状态、路由消息、检测通讯问题。每台服务器的集群网络驱动程序都要和其他服务器上的集群网络驱动程序定期交换消息,称为“信跳”。如果没有成功地响应这种“信跳”消息,则此服务器上负责故障检测的集群网络驱动程序会通知启动故障转移的集群服务。 从以上对集群组件的分析可以看出,服务器集群的实现过程是:首先,资源监视器根据管理员通过集群管理器设定的时间间隔对资源进行LookAlive 和 IsAlive 两种级别的检查,一旦发现某一个资源不可用,就会试图重新启动该资源。根据阀值的设定,如果在某一时间段内,资源不可用的情况达到了设定的阀值时,就会发生故障转移。经过故障转移的过程,对应的资源组在另外一台服务器上重新启动了,继续为客户机提供服务,对客户来说,工作没有影响,这就完成了一次故障转移。当出现故障的服务器恢复正常以后,如果事先对该资源组设定了首选服务器,就会把该资源组移回该首选服务器。 6 、故障转移和故障回复 ( 1 )故障转移 如果服务器集群上的个别应用程序执行失败(但是服务器没有问题),集群服务会尝试重新启动同一服务器上的应用程序。如果失败了,集群服务会移动此应用程序的资源并且在服务器集群的其他服务器上重新启动它们。这个过程称为故障转移。负责监视资源的资源监视器一旦发现资源出现故障,它就会通知集群服务,集群服务会根据事先定义好的策略触发对应的事件。虽然发现的是个别资源的故障,但是,集群还是会把整个资源组进行故障转移。 故障转移会在三种不同的情况下发生:人工(一般是因为管理员的请求),自动,或者在特定的时间(由集群管理软件设定)。自动故障转移又包含了三个阶段: 1 、故障发现; 2 、资源重新定位; 3 、重新启动应用程序。当达到资源组的故障转移阀值时,自动的故障转移才会发生,阀值是可以设定的,一般又管理员来完成。 故障转移包括如下步骤: 集群服务使组中的所有资源按组的从属关系级别所决定的顺序脱机;首先是依存资源,紧随其后的是它们所依存的资源。例如,如果某个应用程序依赖于一个物理磁盘资源,则集群服务首先使此应用程序脱机,允许应用程序在磁盘脱机前将更改写入磁盘。集群服务通过资源监视器调用管理此资源,从而使该资源脱机。如果这个资源没有在指定的时间期限内关闭,则集群服务将强行中断此资源。 当所有资源脱机后,集群服务会尝试将组转换到列在首选服务器的组列表下面的服务器中。 如果集群服务成功地将组转移到其他服务器,则它会尝试将所有的组资源联机。当所有的组资源在新服务器上联机后,故障转移便告结束。 ( 2 )故障恢复 当服务器由于某种原因转变为非活动状态时,集群服务将故障转移到由此服务器控制的任何组。当该服务器重新转变为活动状态时,集群服务能够对最初由此服务器控制的组进行故障恢复。 集群服务使用同故障转移中一样的过程对某个组进行故障恢复,首先集群服务使组中的所有资源脱机,然后移动这个组,最后使组中的所有资源联机。 三、服务器集群技术在视频网络中的应用 1 、项目概述 河南电视台都市频道节目制作网是一个具有信号收录、演播室上载、节目资料共享、视音频制作的全数字环境的智能化、自动化的数据化制作网络系统,它能支持河南电视台都市频道节目制作业务的运转,并承担大部分节目的生产任务。 在节目制作网搭建之前,河南电视台都市频道曾建立了一套基于 M_JEPG 格式的新闻网,新闻网服务器系统只有一台服务器构成,素材管理、管理网络程序、数据库应用程序都在一台服务器上完成。成本虽然很低,但安全性不能得到保障。服务器出现一点小小的故障就会影响到系统的使用。为了避免这种劣势,新搭建的节目制作网在可靠性上有了很大的改进,充分考虑到了节目素材、文稿、管理数据的安全问题。可靠性主要体现在服务器的建设方面,节目制作网采用了大量的服务器,关键服务器还配置了双机容错的机制,系统中一共配置了 5 台服务器, 2 台作为管理 / 数据库服务器,通过集群方式达到自动冗余的功能, 1 台 MDC ( Meta Data Controller )服务器, 1 台网络管理服务器, 1 台日志管理服务器。服务器系统结构图如图所示。 2 、服务器集群的拓扑结构 集群技术在服务器中应用是河南电视台都市频道节目制作网的一个重要的技术特色。其服务器集群拓扑结构如图 6 所示。 从图中可以看出,此集群是由两台名称为 DataServer-01 和 DataServer-02 的服务器组成的集群系统,集群名称叫 DSPDCLUSTER ,集群系统管理着网络的域控制器和登录帐号、节目制作网的高压缩比素材、 SQL 数据库应用程序。其中 DataServer-01 是主服务器,一直处于联机状态,而 DataServer-02 是备份服务器,平时处于空闲状态,只有在 DataServer-01 出现故障,集群发生故障转移时,DataServer-02 才把资源控制权接管过来。 3 、服务器集群的创建 ( 1 )软硬件的配置要求 软件要求: 安装集群的一个首要条件是配置集群的每台服务器必须是安装了微软的 Windows 2000 Advanced Server 或 Windows 2000 DataCenter Server 。 有某种名称解析手段,如域名系统( DNS ), Windows 互连网命名系统( WINS ), HOSTS 等。 硬件要求: 集群服务器的硬件,必须满足 Windows 2000 Advanced Server 或 Windows 2000 DataCenter Server 的硬件要求。 共享的磁盘有独立的 PCI 存储适配器( SCSI 或光纤)。 集群里的每台服务器有两块 PCI 网络适配器。 有外部存储单元,它跟所有的服务器相连,它被作为集群磁盘使用。 ( 2 )集群网络的建立 每台集群服务器至少需要两个网络适配器,一个连接公共网络,一个连接私有网络。如图 6 , DataServer-01安装有编号为 NIC11 、 NIC12 两个网络适配器, NIC11 用于私有网络连接, NIC12 用于公共网络连接,DataServer-02 安装有编号为 NIC21 、 NIC22 , NIC21 用于私有网络连接, NIC22 用于公共网络连接。并且每个网卡必须设置不同的静态 IP 地址,公共网与私有网必须不在同一网段内。网卡信息设置如表 1 。私有网通常是采用点对点进行通信,有人也形象地把私有网的连线成为“信跳线”,其功能在前面已经提到。每台集群服务器的公共网络适配器连接集群到公共网上,并在此驻留客户。 ( 3 )共享磁盘的创建 DataServer-01 和 DataServer-02 共享一个 SCSI 磁盘阵列,又根据集群和网络的不同需要把 SCSI 磁盘阵列分成 F 盘、 G 盘和 I 盘。 F 盘是集群的定额磁盘,是用来存储集群配置集群数据库的检测点和日志文件等集群信息,这些信息是用来维护集群的完整性以及使两台服务器保持同步,F盘在某一时刻只能被一台服务器所拥有,并用来决定由哪台服务器来拥有集群的所有资源。需要注意的是定额磁盘必须位于共享的磁盘子系统中,一般都是使用外接的作过 RAID 的磁盘阵列。因为定额磁盘的故障,将导致整个集群失效,容量至少有 50MB ,建议配置容量是 500MB 。 G盘是用来存储 SQL Server 数据库应用程序和数据的。 I 盘是用来存储节目的高压缩低质量的素材。 ( 4 )集群软件的安装 安装主服务器集群软件,首先安装 DataServr-01 的集群软件,在安装过程中,所有其它服务器都要关闭,必须提供所有的初始配置信息,以创建集群,集群名称为 DSPDCLUSTER 。 安装备服务器集群软件, DataServer-01 的集群软件安装完毕后,就可以安装 DataServer-02 的集群软件。 安装 SQL Server 2000 Cluster, 设定虚拟 SQL Server 名称为 SQL2000 。 ( 5 )组的创建 集群软件安装成功后,就要通过集群管理器来创建集群组,在 DSPDCLUSTER 集群中,除了集群自己默认的一个组 Cluster Group 外,又根据需要创建了两个组,即 Disk Group1 、 Disk Group2 。组的配置如表 2 所示。 四、结论 服务器集群不能算得上是最好的高可用性技术,但可以说它是一种提供高可用性、改善性能和增强电视台视频网络应用软件可管理性的有效途径。电视台可以根据自己的需求来选择容错级别,用好它,也会收到意想不到的效益。 架设基于LINUX的服务器集群技术1.什么是服务器集群 随着Internet的爆炸性增长,Internet与人的生活越来越息息相关,通过Internet上进行交易也就越来越受关注。近几年,电子商务的年增长均超过100。服务器的工作量也迅速增长,所以服务器(特别是一个受人欢迎的WEB服务器)很容易在访问高峰时期过载。而另一方面,计算机从1946年单纯的科学计算任务到现在大量纷繁复杂的信息处理,工作量越来越大,需要越来越快的处理能力。所以计算机界就不得不不断研究更快的处理器,存储器,以适应这一需求。然而,科学家们意识到,单块处理器的速度发展空间是有限的,为什么不能让计算机象人一样协同工作,“群策群力”地将工作完成好呢!这时,就掀起了“并行计算”的研究。举个例子来说,我们架设了一台WWW服务器,上面构建了一个电子商务网站,然而随着时间的推移,名声越来越大,这时点击率也就越来越高,WWW服务器的负载也就越来越高。这种情况下,我们就必须提升WWW服务器的能力,以满足以益增长的服务请求。这时,我们就面临两种选择:1)升级WWW服务器,采用更快的CPU,增加更多的内存,使其更具有POWER;但日益增长的服务请求又会使服务器再次过载,需要再次升级,这样就陷入了升级的怪圈。还有,升级时还得考虑到服务如何接续,能否中止!2)增加WWW服务器,让多台服务器来完成相同的服务。 这种方法就是服务器集群,通过并行技术来大大提升系统性能。也就是这一章的主要内容,这种方法具有很好的扩展性,而且可以最大限度地利用已有投资。1.1.集群的概念 集群,是一组独立的计算机系统构成一个松耦合的多处理器系统,它们之间通过网络实现进程间的通信。应用程序可以通过网络共享内存进行消息传送,实现分布式计算机。 近几年来,微处理器、内存、总线技术、网络技术有了非常大的进步,软件的并行技术也有了非常大的进步,这使得让一组廉价的个人电脑与工作站协同工作成为可能,甚至可以与拥有强大的芯片处理能力的超级计算机竞争。 比如,16个普通微处理器组成的集群系统可以达到亿次级浮点计算机能力,而且总的成本小于40万元。 不幸的是,建造一个集群并不是一件简单的事件。集群的组成部分必须根据要运行的主要应用进行调整,以使之运行在最佳状态。这此因素带来的结果就是,建造集群系统不是只有一个标准的方案,在本章中,我们就会看到许多种建造方案。 集群技术是计算机系统结构的前沿领域,笔者也仅是略有了解,希望本文能起到抛砖引玉之用。 1.2.并行技术 这是一个非常简单的建造四节点的小集群系统的例子,它是构建在Linux操作系统上,通过MPICH软件包实现的,希望这个小例子能让大家对集群系统的构建有一个最基本的了解。 2.1 所需设备 1).4台采用Pentium II处理器的PC机,每台配置64M内存,2GB以上的硬盘,和EIDE接口的光盘驱动器。 2).5块100M快速以太网卡,如SMC 9332 EtherPower 10/100(其中四块卡用于连接集群中的结点,另外一块用于将集群中的其中的一个节点与其它网络连接。) 3).5根足够连接集群系统中每个节点的,使用5类非屏蔽双绞线制作的RJ45缆线 4).1个快速以太网(100BASE-Tx)的集线器或交换机 5).1张Linux安装盘 2.2 构建说明 对计算机硬件不熟的人,实施以下这些构建步骤会感到吃力。如果是这样,请找一些有经验的专业人士寻求帮助。 1. 准备好要使用的采用Pentium II处理器的PC机。确信所有的PC机都还没有接上电源,打开PC机的机箱,在准备与网络上的其它设备连接的PC机上安装上两块快速以太网卡,在其它的PC机上安装上一块快速以太网卡。当然别忘了要加上附加的内存。确定完成后盖上机箱,接上电源。 2. 使用4根RJ45线缆将四台PC机连到快速以太网的集线器或交换机上。使用剩下的1根RJ45线将额外的以太网卡(用于与其它网络相连的那块,这样机构就可以用上集群)连接到机构的局域网上(假定你的机构局域网也是快速以太网),然后打开电源。 3. 使用LINUX安装盘在每一台PC机上安装。请确信在LINUX系统中安装了C编译器和C的LIB库。当你配置TCP/IP时,建议你为四台PC分别指定为、、、。第一台PC为你的服务器节点(拥有两块网卡的那台)。在这个服务器节点上的那块与机构局域网相连的网卡,你应该为其指定一个与机构局域网吻合的IP地址。 4.当所有PC都装好Linux系统后,编辑每台机器的/etc/hosts文件,让其包含以下几行: node1 server node2 node3 node4 编辑每台机器的/etc/hosts.equiv文件,使其包含以下几行: node1 node2 node3 node4 以下的这些配置是为了让其能使用MPICHs p4策略去执行分布式的并行处理应用。 1. 在服务器节点,建一个/mirror目录,并将其配置成为NFS服务器,并在/etc/exports文件中增加一行: /mirror node1(rw) node2(rw) node3(rw) node4(rw) 2. 在其他节点上,也建一个/mirror目录,关在/etc/fstab文件中增加一行: server:/mirror /mirror nfs rw,bg,soft 0 0 3. /mirror这个目录从服务器上输出,装载在各个客户端,以便在各个节点间进行软件任务的分发。 4. 在服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论