曙光GPGPU高性能计算解决方案_第1页
曙光GPGPU高性能计算解决方案_第2页
曙光GPGPU高性能计算解决方案_第3页
曙光GPGPU高性能计算解决方案_第4页
曙光GPGPU高性能计算解决方案_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、曙光gpgpu高性能计算解决方案曙光信息产业(北京)有限公司2010年5月目 录1.曙光方案优势41.1.cpu和gpu计算能力均衡设计41.2.采用水冷散热设计41.3.采用低延迟infiniband设计51.4.配置了丰富的集群软件51.5.专业的高性能计算厂商52.曙光公司与中国高性能计算73.gpgpu的应用及其产品94.曙光百万亿次gpgpu高性能计算解决方案124.1.总体设计原则124.2.方案配置134.2.1.系统总体布置图134.2.2.方案一(260t)144.2.3.方案二(193t)154.3.曙光ghpc1000高性能计算机174.3.1.概述184.3.2.特性与

2、优势194.3.3.技术规格204.4.计算系统214.4.1.概述214.4.2.技术特色214.4.3.技术规格234.5.网络系统254.6.存储系统274.7.软件系统314.7.1.gridview服务器综合管理系统314.7.2.powerconf服务器节能软件385.机房建设方案415.1.水冷机柜方案415.1.1.概述415.1.2.高效节能的水冷机柜系统425.1.3.水冷机柜产品介绍435.1.4.冷机柜解决方案465.1.5.机房物理环境要求及水冷机柜系统设备参数485.2.风冷机柜方案505.2.1.机柜尺寸和摆放要求505.2.2.机房环境要求525.2.3.供电和

3、环境要求536.用户服务方案546.1.售后服务承诺546.1.1.概要546.1.2.保修期限和服务方式546.1.3.服务流程及响应时间556.1.4.有偿服务收费标准576.2.技术支持及服务项目586.2.1.硬件升级服务项目586.2.2.系统软件支持服务项目586.2.3.应用软件及解决方案支持服务项目596.2.4.应用开发和移植支持服务项目597.培训方案607.1.概述607.2.培训目标617.3.培训教材617.4.项目实施前培训617.4.1.培训方式617.4.2.培训地点627.4.3.培训人数627.4.4.培训内容627.4.5.培训时间637.5.现场培训64

4、601. 曙光方案优势1.1. cpu和gpu计算能力均衡设计曙光ghpc 1000高性能计算平台采用通用cpu和专用gpu均衡设计,既保证了gpu的处理性能,又兼顾了通用cpu的计算能力。既保证了适合gpu的高并行度计算应用的需求,同时也保证了非高并行度应用和尚未进行gpu移植的应用需求。ghpc 1000的每个计算节点配置12颗64位四核心处理器和1块gpu处理卡。它既可作为gpu高性能计算平台,又可作为通用cpu计算平台,能完成所有的普通集群系统可完成的应用。1.2. 采用水冷散热设计ghpc 1000可采用水冷散热设计。相比于传统的风冷散热系统,水冷散热系统具有如下优势:1、 节能,绿

5、色环保,降低了使用成本采用全封闭设计和高效热交换系统,大大降低对制冷系统的要求,降低了制冷系统的耗电量。另一方面,计算设备在相对较低的温度下运行也降低了其功耗。2、 提高系统稳定性,提高了高性能计算平台的使用寿命采用水冷散热系统以后,使得系统一直保持在良好的工作温度(入口温度在14),并且温度变化率低。这样大大提高对服务器、存储、交换机、gpu卡等精密电子设备的稳定性,同时有利于延长其使用寿命。3、 提高了计算密度目前散热是限制计算密度重要因素,采用水冷散热系统就能增加单位空间的散热能力,提高计算密度。4、 采用全密闭设计,降低了机房噪音和辐射。5、 采用水冷散热系统,机房无需再为该设备配置空

6、调等其他散热设备,节省了机房建设成本。6、 水冷散热方式在技术上更为先进,是高性能计算系统和数据中心的发展趋势同时,ghpc 1000采用的水冷散热系统,对机房建设并没有过高的要求,一般的机房大都能满足要求。1.3. 采用低延迟infiniband设计采用gpu计算以后,大幅度的提升了计算性能,但同时对于网络的压力也大幅度提升。为保证网络和计算的均衡,提升系统的整体实际性能。曙光ghpc 1000采用infiniband专用高速网络,任何两点之间的网络带宽达双向20gb/s。同时采用最先进的connectx技术,使其点到点的延迟为1.26us。网络高带宽尤其是网络的低延迟对于提升hpc应用的性

7、能是至关重要的。1.4. 配置了丰富的集群软件ghpc 1000配置了gridview集群管理系统,通过类windows的管理模式能轻松监控、管理整个集群系统。同时配置为高性能计算设计的powerconf节能系统,能大幅降低系统能耗1.5. 专业的高性能计算厂商从93年的曙光一号到今天的曙光5000,从每秒6.4亿次到每秒230万亿次,曙光一直致力于高性能计算机的研发、生产和销售。目前曙光每天生产、销售一套集群系统,占据着中国高性能计算机30%以上的市场份额。在20052008年中国top 100排行榜中,曙光连续四年为列国产第一。同时曙光拥有一支专业的、以首席工程师为核心的技术服务团队,他们

8、不仅仅能解决硬件、系统问题,同时能为用户提供各个应用领域的应用级服务,包括石油、材料计算、计算化学、分子动力学、有限元计算、流通力学、气象等应用的调试、移植、优化。2. 曙光公司与中国高性能计算曙光信息产业有限公司成立于1995年6月,是一家在科技部、信息产业部、中科院大力推动下,以国家“863”计划重大科研成果为基础组建的高新技术企业。它以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心为技术依托,拥有强大的技术实力。我国著名计算机专家、中国工程院院士、中科院计算所所长李国杰任董事长。曙光系列产品的问世,为推动我国高性能计算机的发展做出了不可磨灭的贡献。胡锦涛总书记在200

9、6年1月全国科技大会上,“点”出了新中国成立以来特别是改革开放以来,我国广大科技人员所取得的大“标志性”重大科技成就,在大标志性科技成就中,高性能计算机位列第五。曙光高性能计算机不仅代表着中国计算机最高水平,也为“两弹一星、载人航天、基因组研究”等其他标志性科技成就做出了重要贡献。2004年6月,每秒运算 11万亿次的超级计算机曙光4000a研制成功,落户上海超算中心,进入全球超级计算机前十名,从而使中国成为继美国和日本之后,第三个能研制10万亿次高性能计算机的国家。2008年11月,在“中国高性能服务器top100”排行榜中,曙光更上一层楼,以每秒运算230万亿次曙光5000a雄踞榜首,并再

10、次跻身全球超级计算机前十名,带领中国的高性能运算跨越百万亿次门槛。曙光高性能计算机连续12年稳居国产高性能计算机市场第一,拥有国产高性能70%以上的份额,并在高性能集群领域实现了国产机对进口产品的超越。曙光高性能计算机以技术先进、性能卓越、服务优良见长,曾获“国家科技进步一等奖、二等奖”、“中科院科技创新特等奖”、“2001、2003、2004中国十大科技进展”等多项国家级殊荣。曙光公司以推动高性能计算在中国的发展和应用为己任,为国内的高性能计算用户提供全面的服务,扶植用户的应用,为用户提供全面、定制化的培训,帮助用户把高性能计算机用好,发挥出真正的作用和效益。3. gpgpu的应用及其产品g

11、pgpu(general purpose gpu)是指利用图形卡来进行一般意义上的计算,而不是传统意义上的图形绘制。时至今日,gpu已发展成为一种高度并行化、多线程、多核的处理器,具有杰出的计算功率和极高的存储器带宽,如图所示。cpu 和 gpu 的每秒浮点运算次数和存储器带宽cpu 和 gpu 之间浮点功能之所以存在这样的差异,原因就在于 gpu 专为计算密集型、高度并行化的计算而设计,上图显示的正是这种情况,因而,gpu 的设计能使更多晶体管用于数据处理,而非数据缓存和流控制,如图所示。 gpu 中的更多晶体管用于数据处理更具体地说,gpu 专用于解决可表示为数据并行计算的问题在许多数据元

12、素上并行执行的程序,具有极高的计算密度(数学运算与存储器运算的比率)。由于所有数据元素都执行相同的程序,因此对精密流控制的要求不高;由于在许多数据元素上运行,且具有较高的计算密度,因而可通过计算隐藏存储器访问延迟,而不必使用较大的数据缓存。数据并行处理会将数据元素映射到并行处理线程。许多处理大型数据集的应用程序都可使用数据并行编程模型来加速计算。在 3d 渲染中,大量的像素和顶点集将映射到并行线程。类似地,图像和媒体处理应用程序(如渲染图像的后期处理、视频编码和解码、图像缩放、立体视觉和模式识别等)可将图像块和像素映射到并行处理线程。实际上,在图像渲染和处理领域之外的许多算法也都是通过数据并行

13、处理加速的从普通信号处理或物理仿真一直到数理金融或数理生物学。在上述领域,gpgpu已经获得了成功的应用,并取得了令人难以置信的加速效果。 gpu 的应用加速效果gpgpu得到了业界的广泛支持,nvidia、amd、intel等都对芯片市场的微妙变化和gpgpu的技术发展前景都极为关注,并展开了激烈的技术竞赛。nvidia最早提出了gpgpu概念。2007年2月,nvidia正式发布了cuda架构(compute unifieddevice architecture统一计算设备架构),这也是nvidia确定的gpgpu产品的正式名称。cuda是gpgpu产品的一个新的基础架构,一个完整的gpg

14、pu解决方案,它采用c语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在gpu的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案;它提供了硬件的直接访问接口,而不必像传统方式一样必须依赖图形api接口来实现gpu的访问。cuda是世界上第一个针对gpu的c语言开发环境的gpgpu产品,其工具集的核心是一个c语言编译器,利用它可以最大限度地提升流处理单元浮点运算能力。cuda架构的成功尝试,为业界gpgpu的研发提供了宝贵的借鉴。早在2006年收购ati之初,amd就做出了一个重大举动,这就是它所发布的gpgpu“stream processor”(流处理器),率先将g

15、pgpu技术引入普通应用阶段。amd也提出了以fusion为研发代号的硅芯片整合计划。fusion提供基于融合处理器的gpgpu平台融合,二个fusion处理器一起连接可以达到并行gpu的关系,更适合cpu的代码将在fusion处理器当中的cpu部分被执行,而更适合gpu的代码也将在fusion处理器的gpu部分被执行。作为全球最大的cpu供应商,intel早已经敏锐地意识到,gpu通用计算将给pc带来革命性的变化。intel采取了与nvidia以gpu为核心的截然不同的研发理念,将gpgpu纳入了cpu的发展轨道。业界普遍对intel首款larrabee芯片充满了期待。larrabee在硬件

16、设计上,采用微内核设计,内核逻辑采用顺序执行结构(inorder),可同时执行4个线程。在指令体系上,larrabee最大的优点就是与ia架构(x86)处理器的互换性,它使用经过调整的x86指令,使现行x86计算程序可以直接被larrabee运算执行。gpgpu的发展前景一片光明,也必将在更多的领域内得到更广泛的支持和应用。4. 曙光百万亿次gpgpu高性能计算解决方案4.1. 总体设计原则u 先进性在方案中应采用最新的gpu技术、cpu技术和服务器设计技术,使系统的设计在整个行业内具有一定的前瞻性。u 高性能系统的gpu处理能力应达到100-200tflops,同时cpu的处理能力也要兼顾,

17、节点之间应采用高性能infiniband连接,以提高并行运算的效率。u 高可扩展性方案应具有很好的可扩展性,使整个系统的规模可以不断升级,满足未来几年技术和应用发展的需要。u 高密度系统应具有较高的计算密度,占地面积不宜超过5个机柜,以免给机房建设造成太大的压力。u 低功耗系统应具有较低的功耗,减少散热系统的需求和未来运行维护的费用。4.2. 方案配置4.2.1. 系统总体布置图系统总体拓扑水冷机柜布置示意图4.3. 曙光ghpc1000高性能计算机曙光ghpc1000,开启高性能计算的创新时代4.3.1. 概述曙光ghpc1000,开启高性能计算的创新时代由于gpu具有较高浮点计算性能的特点

18、,曙光ghpc1000高性能计算机使用gpu作为主体计算资源,将图形处理器引入到高性能计算领域。ghpc1000高性能计算机同时配置cpu和gpu,系统支持cpu和gpu的混合计算。ghpc1000系统具有较高的计算密度,可在4个机柜内实现超过260tflops(单精度)的计算能力,同时具有良好的可扩展性,能够轻松扩展到千万亿次。体系架构曙光ghpc1000采用高密度集群架构,是基于通用cpu+gpu的高性能集群系统。ghpc1000采用曙光天阔a620r-t服务器为计算节点;计算网络采用高带宽、低延迟的infiniband 4×ddr网络,单向速率为20gbps;管理网络则采用千兆

19、以太网;基础架构子系统可采用曙光42u标准风冷机柜或曙光智能高效水冷机柜系统;管理软件采用曙光gridview大型机监控管理系统。计算节点计算节点采用曙光天阔a620r-t服务器,为业内领先的单机双node(twins)的标准机架式服务器,在2u的空间内提供4个amd 四核高性能处理器、2块高性能gpu卡、8块高性能ssd硬盘。单节点gpu理论峰值最高可达4.8tflops。曙光天阔a620r-t服务器集成2个20gbps的infiniband网卡和4个千兆以太网卡,可以较好满足节点的各种互联需求。互联网络曙光ghpc1000互联网络方案灵活多样,可以根据客户的应用需求配备适合的互联网络;可选

20、的方案包括:全无阻塞或有阻塞的infiniband网络,全无阻塞或有阻塞的千兆ethernet网络和fc san网络,从而以多种方式来构建系统的计算网络、存储网络和管理网络;gridview是曙光ghpc1000的核心组件之一gridview大型机监控管理系统是继承了曙光dcmm2、dcas等监控管理产品的主要功能和技术特色,并增加多项优秀功能开发而成的集群监控管理系统;基于b/s架构的gridview提供统一的集中管理和监控平台,主要实现了集群状态监控、告警管理、统计报表、集群管理、系统配置、作业调度、机房温湿度的远程监控等功能,使得系统使用和维护人员可远离机房环境。可选水冷和风冷两种散热模

21、式ghpc1000可采用传统的风冷散热模式。曙光天潮风冷机柜采用业内领先的铝镁合金整体型材结构设计,具有强度高、重量轻、可靠性高以及模块化、拆装便捷等特点;ghpc1000也可选用更为先进的水冷散热模式。曙光水冷机柜系统采用水作为冷媒,由外部水冷机组提供冷却水经由管道输送到机柜内的热交换设备,冷却水在热交换设备内与服务器产生的热空气进行高效率的热交换,可以有效解决高密度服务器所产生的热量。存储系统方案多样曙光ghpc1000可以根据客户的应用需求配备存储系统;既可以配置简单易用的das存储,又可以构建高性能的fc或infiniband san存储。存储系统配合高性能文件系统,从而实现高性能的系

22、统存储和i/o访问;4.3.2. 特性与优势功能特性优势高性能l 支持cpu和gpu的混合计算,更有利于gpu计算性能的发挥l 系统性能达到数百万亿次,可以扩展到千万亿次l 高带宽、低延迟的infiniband网络和高性能存储系统,保证了系统的高性能和高效率高密度l 可在4个机柜内聚合200万亿次的计算能力l 计算节点采用twins结构,可以在2u空间内提供4个amd 四核高性能处理器、2块高性能gpu卡、8块高性能ssd硬盘。超低功耗l 计算节点采用业界领先的单机双node的设计,提高了系统的能耗比;l 全系统ssd存储设计,比传统硬盘节能50%; l 水冷机柜系统的采用,比常规空调制冷节约

23、30能耗;l 第一套ghpc1000系统的单精度计算能力达到201.6tflops,而能耗仅为80kw(含冷却系统)可选高效冷却系统l 曙光水冷机柜系统的使用,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。水冷系统的设计实现了水电分离,保证了系统的安全性;l 水冷机柜单机柜制冷能力可达20kw;l 曙光水冷机柜系统采用大量自动控制系统,有效保证机柜内的服务器设备安全。水冷机柜可根据机柜内设备负载情况自动调解制冷能力,实时保证冷却与负载相匹配。自主创新的管理软件l 自主开发的gridview监控管理系统,为集群系统综合管理提供统一的集中式监控平台,具备可扩展性、集成性、可靠性和易用性

24、,提供对各种商用、自行研发管理工具的集成接口,从而满足同时对分布式广域局域网高效能百万亿次可扩展计算机的环境、硬件、软件等各方面进行监控的需求超广泛应用l 曙光ghpc1000系统引领了hpc新模式,可以广泛应用于科研、教育、石油勘探、气象预报、生物医药等各个领域4.3.3. 技术规格曙光ghpc1000系统主要包含以下部分:计算节点曙光天阔a620r-t其它可选节点曙光全系列机架式服务器、刀片服务器存储曙光全系列存储产品网络可配置千兆以太网, infiniband网络系统软件曙光gridview软件(曙光大型机监控管理系统); 机柜及机柜内部电源系统可选曙光天潮风冷机柜或者水冷机柜;可选各种

25、高性能计算相关软件可选曙光skvm系统4.4. 计算系统计算系统采用曙光天阔a620r-t gpu服务器进行构建。4.4.1. 概述曙光天阔a620r-t服务器是一款性能卓越,稳定可靠的gpu计算节点,曙光天阔a620r-t兼顾了cpu计算密度和gpu计算密度的双高搭配,最大限度地满足了客户的应用需求。a620r-t采用独具特色的机箱设计,在传统标准2u的机箱中采用业界领先的单机双node的设计,在标准的2u机箱内,可以提供高达4个amd 四核高性能处理器、2片高性能gpu卡、8块高性能ssd的计算能力。同时系统配合先进的2.5寸ssd作为数据存储,在系统功耗、可靠性、性能方面满足了客户对本地

26、存储的性能需求。a620r-t服务器作为gpgpu计算节点时,除了本身所具有的超高计算性能以外,在系统互联部分,节点本身支持infiniband互联架构,每个节点集成了2个速率达20gbps的infiniband控制器,配合双千兆以太网卡,提供了高速的系统互联能力。曙光天阔a620r-t服务器兼容目前的32位及64位应用,特别是面向新兴的gpgpu计算领域,为用户从32位应用向64位应用平滑过渡、保护投资提供便利,同时针对仿真模拟、动画制作以及cg渲染、分子化工等领域的超大计算量的应用,更可以发挥gpu计算的优势。4.4.2. 技术特色曙光天阔a620r-t服务器系统支持amd最新推出的200

27、0系列皓龙处理器(四核),在1个芯片上集成了两个或四个处理核心,每个处理器核心各自拥有完全独立的执行单元及l1、l2 cache,巴塞罗那的四个处理器核心共享2m的l3 cache,上海的四个处理器核心共享6m的l3 cache;各个核心通过crossbar连接到ddr ii内存控制器,实现共享内存资源。曙光天阔a620r-t服务器支持2个扩展接口,支持2个pci-e ×16 接口,支持高速gpu卡。a620r-t使用的芯片组支持sata raid功能,支持sata raid0,1,0+1,5,满足客户的大容量安全存储要求。集成usb2.0高速接口。曙光天阔a620r-t服务器支持8

28、个热插拔sata硬盘,以满足不同行业对存储空间的苛刻要求。曙光天阔a620r-t服务器集成2个20gbps的infiniband控制器和4个千兆以太网卡,可以充分满足高速、大数据量、低延迟的节点互联需求。功能特性优 势高cpu性能采用nvidia mcp55 pro高性能芯片组,支持hyper transport连接。每node最大支持2颗amd opteron 2200 系列双核处理器,2×1mb二级缓存。每node最大支持2颗amd opteron 2300 系列四核巴塞罗那处理器,4×512kb二级缓存,2mb共享三级缓存。每node最大支持2颗amd opteron

29、 2300 系列四核上海处理器,6mb共享三级缓存。每node支持ddr2 533/667内存,最高可支持64gb内存。高速互联系统集成2个高速infiniband控制器,端口速率高达20gbps系统集成4口千兆以太网,rj45端口,高gpu性能系统每node支持一块单或双gpu核心的gpu加速卡,每个2u节点的gpu理论峰值最高可达4.8t。(注:gpu理论峰值会因gpu加速卡不同而有不同)高可靠性支持电源状态记忆功能,当外部供电系统出现故障而使服务器掉电时,系统将在供电系统恢复正常以后自动开启,并继续提供服务。无需系统管理员进行管理。支持网卡冗余功能。支持网络唤醒(wolwake on l

30、an)功能8mb flash eeprom bios,提供病毒保护功能高级内存容错功能板载sata控制器支持raid0,1,0+1,5高性能智能散热风扇,并带有温度监控报警4.4.3. 技术规格主机性能系统架构 单机双node处理器每node最大支持2颗amd opteron 2000系列处理器/每2u最大支持4颗处理器l2 cache(双核处理器)1mb per corel2&l3 cache(四核巴塞罗那处理器)512kb l2 cache per core,共享 2mb l3 cachel2&l3 cache(四核上海处理器)512kb l2 cache per core

31、,共享 6mb l3 cachegpu每node支持1块单或双核心gpu加速卡/每机器最大支持2块卡支持nvidia tesla c1060 gpu卡 (单精度933 gflops,4gb gddr3 sdram)支持ati firestream 9270 gpu卡 (单精度1.2 tflops,2gb gddr5 sdram)芯片组nvidia mcp55 pro内存特性支持ddr2 400/533/667 ecc registered内存,支持单条2g或4g的内存模组内存容量每机器最大支持32个dimm插槽,(每个主板支持16个dimm插槽)硬盘8个热插拔2.5寸硬盘位,每node分配4个

32、硬盘位,支持sata raid 0,1,0+1,5,支持2.5寸ssd高速硬盘32g/64g支持企业级2.5寸sata硬盘外 设可选usb 光驱、软驱可选usb键盘、鼠标显示系统板载xgi z9s图形控制器网络每主板集成两个千兆网卡(rj45接口),每系统4个网卡infiniband每主板集成1个20gbps infiniband端口,每系统2个端口扩展性能扩展插槽2个pci-e x16扩展插槽外设接口2个后部vga接口(主板集成)4个后部usb2.0接口(主板集成),4个前置usb2.0接口 4个后置rj45网口(主板集成)2个infiniband 接口(主板集成)2个后部com接口(主板集

33、成)散热性能散热风扇数量每gpu独立风扇6个系统散热风扇,智能控制,超温报警并转速调整控制每电源模块独立风扇机箱电源机箱2u机架式机箱电源750w单电源x 2随机资料软件曙光天阔服务器随机光盘(1cd) 机箱尺寸机箱尺寸88.1mm(高)×433mm(宽)×709mm(深)操作系统兼容操作系统windows server 2008 32bit/64bitwindows server 2003 32bit/64bitred hat enterprise linux 5.0 update 2 64bit操作系统兼容性和系统配置有很大关系,详细部件兼容性信息请查询曙光产品兼容性列

34、表或咨询曙光公司相关人员环境适应性温度范围工作时存储1040(50104)-4055(-40131)相对湿度范围工作时最大相对湿度工作时装运存储 90rh(40)1090 rh1093 rh1095 rh振动频率 5hz150hz 加速度20m/s2 ,振幅0.15mm冲击峰值加速度 150m/s2 300m/s2 持续时间11ms碰撞峰值加速度 100m/s2 150m/s2 次数 1000次内* 注:所有温度额定值均指海平面。每上升300米,温度降低1,最大海拔高度为3000米。避免阳光直射。工作上限高度为3000米。非工作上限高度为9000米。* 注:95的最大存放湿度基于最大温度40。

35、存放的最大高度应对应最小压力70kpa。注:此表仅供参考,具体配置请与曙光公司销售代表联系。曙光公司保留不经事先通知而更改上述配置的权利。4.5. 网络系统本方案充分考虑到了计算节点、存储节点、以及网络交换机的性能参数。在保证了系统稳定的前提下,使每台设备都能得到最大限度的利用。本方案的网络系统的设计从性能和可靠两个原则出发,采用2套网络实现方式。实现双网分离、专网专用。节点配置2套网络,1套计算/存储网络和数据网络,选用infiniband高速网络;1套千兆管理监控网。Ø 计算和存储网采用infiniband高速网络,用于并行计算时的数据交换、计算通讯和io读写等。Ø 管

36、理网采用千兆以太网,用于系统管理控制、系统监控、作业的递交、作业监控等监控管理方面的数据通讯。同时,管理网又可作为数据传输网的备份。voltaire是全球网格骨干解决方案的领导者,这种解决方案用于下一代数据中心的网络化计算。voltaire集成的网格骨干产品系列多服务交换解决方案和网络虚拟软件为网格计算架构提供了最高的性能和智能的骨干设备。利用infiniband标准,voltaire提供了涵盖计算集群、存储和ip网络的高性能、低延时、高扩展的解决方案。作为业界容量较大的infiniband交换解决方案,isr 9024为高性能计算集群和网格提供了水平空前的性能和扩展性。isr 9024能使高

37、性能应用运行在分布式的服务器、存储和网络资源上。对单个机箱中的24个节点精心设计了10/20gb全双向带宽,多台isr 9024以及配合voltaire更大的交换机isr9096/isr9288/isr2012也可以互联组成更大规模的集群。能够配置的节点范围从十几个到几千个,优良的扩展性能使你能随所需节点无与伦比的的性能 isr 9024 以最大的交换容量在infiniband业界处于领先地位。每个端口提供全双向带宽。isr 9024支持24个infiniband 4x(20gb)端口(或10gb sdr)。线速无阻塞交换能力结合小于140纳秒的低延时使isr 9024成为可用的性能最高的交换

38、机。大型集群和网格成本效益高的解决方案 巨大的交换容量,使用一台或几台即可组建大型集群,显著地降低集群的总成本。isr 9024的完整的组网能力和与存储设备的连通性使得组网需要较少的设备,因此使集群的组建变得简全面的管理 isr 9024通过gridvision,一款infiniband架构管理软件,提供了全面的和强大的管理能力。管理软件安装在交换机上,不依赖任何外部管理平台,通过cli、gui或snmp管理器即可访问管理软件。gridvision通过以下方面执行实时的,前瞻性的管理:架构和资源概览,访问整体架构和交换机诊断,管理所有级别的故障切换的能力,infiniband架构和相连的服务器

39、、网络和存储资源的维护。 高可用性为了达到最高的可用性,isr 9024绝大多数部件都是可热插拔的。电源模块以及风扇都为系统提供了高可用性和易服务性。冗余的管理刀片保持着同步,所以不丢失任何管理信息,不对端口到端口的通信产生任何影响即可完成故障恢复。 4.6. 存储系统本方案选用高容量的曙光存储系统,配置1套曙光ds6310ee磁盘阵列,存储容量为16 tb;可在线扩容至80块硬盘,性价比非常高。i/o节点使用a620r-h服务器,amd opteron处理器采用直连架构,提供了优异的内存性能和磁盘io性能,有利于存储系统性能的提高。sas技术融合了scsi技术与串行传输技术,拥有非常高的性能

40、、灵活性与稳定性,特别是sas与sata在物理与软件上的兼容性,使其可以高效的满足众多用户各种不同的应用。ds6310ee系列产品将sas技术应用到磁盘阵列系统中,从而具有了极高的性能和方便快捷的管理方式。既可融入客户已有的存储资源,又可以提供高可靠、高可用的数据储存管理解决方案,允许客户方便快捷的储存、管理、使用数据,最大程度得发挥数据资源的作用。ds6310ee系列包含两款高可靠性、高可管理性、高性价比的产品,提供灵活机动的raid存储解决方案,以适应用户不断发展变化的需求,可满足大容量直连存储和中等规模应用需求。概述稳定可靠的高可用性设计,无单点故障ü 无线缆全模块化设计,简化

41、部署,增加可靠性;ü 模块化冗余控制器设计,在更换或发生故障时实现自动切换;ü 冗余、热插拔冷却系统确保整个存储系统的散热,保证数据安全;ü 冗余、热插拔大功率负载均衡电源系统,保护整个硬件平台;ü 支持多种本地、全局热备援磁盘设置,对磁盘驱动器提供完整保护;高性能、扩展方便ü 控制器cpu采用intel 341处理器,主频高达1.2 ghz;ü 每控制器4个sas 4×的fc主机通道;ü (双控)互为镜像的高性能cache;ü 锂电池提供72小时不间断cache保护(512mb);ü 根据需要

42、配置最初的硬盘,并可随时更换,紧跟企业发展;ü 最多可连接4个磁盘扩展柜,提供极高的扩展性;全面的数据管理ü 基于web的管理方式,email、snmp、wbem/cim、sslü 全面的基于ethernet的嵌入式管理软件,无需另外安装;ü 支持通过rs232的串口命令行模式;ü 支持远程管理。技术特性ü 高可靠性无单点故障冗余的控制器,两控制器cache互为镜像,支持负载均衡与路径冗余;ü 冗余电源模块、冷却模组,无线缆设计,无单点故障;ü 高可扩展性利用sas 4x接口进行扩展,扩展带宽可达12gb/s;&#

43、252; 高可用性ds6310ee在创建raid时,每颗物理磁盘可以被分割成不同的区域,这些不同的区域可以用来创建不同raid级别的逻辑磁盘,每组逻辑磁盘的stripe size以及缓存使用方式可以自行设定;ü 支持在线扩展逻辑磁盘的容量,方便用户应用系统的规划与调整;ü 支持raid级别迁移,降低用户维护成本,降低系统重新规划带来的数据丢失风险;ü 具备由用户自行设定“cache数据刷新时间”的功能,通过此功能,控制器会自动强制将cache中的数据写入相应的硬盘区域中,避免了cache故障导致数据丢失的风险,提高了cache的利用率;ü 开放式架构广泛

44、支持绝大部分的hba卡,降低构建系统的难度;ü 广泛支持各种型号、各种容量的sas和sata磁盘;ü 只需增加一个控制器,无须任何附加操作,即可实现单控向双控的升级,为用户的升级提供了极大的便利性和灵活性;ü 可根据应用升级情况和存储空间需求的变化,扩展存储容量;ü 多种磁盘容错方式具备pdm(predictive data migration,预先数据迁移)功能,当某些条件具备的情况下,将raid中某个物理磁盘的预数据迁移到热备援磁盘中,最大限度地避免数据丢失;pdm可自动工作;也可以手工执行;ü 具备“media patrol”(介质巡检)

45、功能,自动检测逻辑磁盘中的物理硬盘状况,如果遇到有坏块或其他错误,media patrol功能会自动发起pdm(predictive data migration,预先数据迁移),media patrol功能可以手工进行,也可以自动化的周期运行;ü 灵活性 sas/sata 兼容性允许一个子系统同时支持三种主要的数据类型;ü 全面的数据管理基于web的网络管理, email,snmp,wbem/cim, ssl;ü 全面的基于ethernet的内嵌式管理软件,提供包括简体中文、繁体中文、英文、法文、日文、意大利文、韩文、德文多种语言界面,方便不同语种用户的使用;&

46、#252; 支持通过rs232串口使用命令行模式进行管理;ü 支持telnet远程管理,远程管理的端口可以由用户自行指定,提供菜单以及命令行两种管理界面,增强系统管理安全性。ds6310ee磁盘阵列技术特征ds6310eeds6312ee控制器单控双控处理器intel iop 341 1.2ghz处理器数据cache标配512mb,可选1gb、2gb;标配2x512mb,可选2x1gb、2x2gb锂电池标配锂电池(当控制器配置512mb cache时,可以保护cache中数据72小时不丢失)raid级别0,1,1e,5,6,50,60stripe size64kb、128kb、256

47、kb、512kb、1mb热备份盘支持多个全局/本地热备份盘支持后台活动后台同步;重建;冗余检测;smart condition polling;在线扩容;raid级别迁移后台raid迁移支持raid0、5、10、50、1e之间互相迁移连通性主机通道每控制器4个sas 4x主机接口扩展接口每控制器1个sas 4x扩展接口常规特性外型尺寸标准3u高 19英寸支持硬盘sas:73gb、146gb、300gb(15k rpm)sata:500gb、750gb、1tb(7200 rpm)硬盘插槽数量16最大硬盘数80电源与风扇双冗余操作供电规范温度540(工作),-4060(储藏)湿度最大95%电源10

48、0240vac,5060hz兼容性支持光纤设备lsi、qlogic、emulex、brocade支持操作系统windows,linux(redhat/suse),solaris等系统管理存储管理软件基于web的嵌入式管理软件dawning raid manager其他管理方式基于串口的命令行模式,基于telnet的命令行/菜单管理模式磁盘扩展柜技术特性jb6310eejb6312eei/o模块单扩展模块双扩展模块扩展连接接口每扩展模块2个sas 4x接口磁盘接口sas支持硬盘sas:73gb、146gb、300gb(15k rpm)sata:500gb、750gb、1tb(7200 rpm)硬

49、盘插槽数量16电源与风扇双冗余散热模块,双冗余电源模块操作供电规范温度540(工作),-4060(储藏)湿度最大95%电源100240vac,5060hz4.7. 软件系统4.7.1. gridview服务器综合管理系统曙光gridview服务器综合管理系统v2.0是继承曙光dcmm2、dcas、曙光gridview管理系统v1.1等监控管理产品的主要功能和技术特色,并增加多项优秀功能开发而成的机群监控管理系统产品。曙光gridview管理系统提供了统一的集中式监控平台portal,具备可扩展性、集成性、可靠性和易用性,提供了对各种商用、自己研发的管理工具的集成接口,从而满足同时对各不同厂家大

50、型机的环境、硬件、软件等各方面进行监控管理的需求。曙光gridview大型机监控管理系统采用模块化设计,该系统提供了机群状态监控、告警管理、统计报表、机群管理、系统部署、作业调度六大类机群管理功能。技术特色gridview提供全方位的状态监控功能,状态监控功能提供了机群总体运行状态视图、机群总体io状态视图、机群实际物理拓扑视图以及多项性能视图,用户可直观地监控当前机群系统运行情况。此外,状态监控功能还提供了具体某台服务器节点的运行状态监控,用户在监控机群整体运行状态的同时,也可具体监控各节点的运行状态。gridview提供全面的告警管理功能,告警管理模功能提供了实时告警和历史告警两个告警模式

51、,每种告警模式又包含分级告警管理、告警类型定位、告警设备定位、告警分析、告警报表、分级显示等多个子功能,让用户更加有效的定位故障、解决问题;用户也可通过历史告警信息、告警分析等掌握机群总体运行情况。gridview提供丰富的个性化报表输出功能,可支持小时报、日报、月报、年报等,同时可提供多项指标的关联对比分析等功能。用户可根据需要选择机群总体报表、应用报表,服务器各项性能报表以及各种告警报表。gridview提供简单灵活的、易用的机群管理功能,机群管理功能采用了人性化的界面和功能设计,方便用户对机群系统的管理、使用。机群管理功能提供了从ip管理、hosts管理、进程管理、服务管理到并行命令、关

52、机管理等九项机群管理功能,有效解决了大型机群管理的复杂性,保证了机群管理的扩展性、可靠性、自主性。gridview提供机群os系统、文件系统、作业管理软件等多节点并行安装的系统部署功能,系统部署功能实现了同时针对不同节点部署不同操作系统,极大地方便了用户对机群系统的操作。功能特性优势机群状态监控管理l 直观的机群物理拓扑视图支持以机柜为基础的机群物理拓扑方式,按设备实际位置和尺寸实时显示,使用户对机群系统“一目了然”。l 全方位的机群总体性能视图从机群总体性能视图中用户可全方位把握当前整个机群的使用情况,包括cpu平均使用率、内存剩余率、磁盘剩余率等等。l 一目了然的机群总体io视图从机群总体

53、io视图中用户可以一目了然的查看机群整体io运行情况,包括总体网络发送速度、网络接收速度、磁盘写入速度、磁盘读出速度等等。l 详细直观的机群性能视图从机群性能视图中用户可通过柱状图方式,监控当前机群各部件的cpu平均使用率、内存使用率、磁盘剩余量等等。l 机群各节点的静态、动态信息属性视图机群状态监控功能还提供了对机群节点的静态属性信息、动态属性信息及告警属性信息显示。机群告警管理l 实时告警信息查询实时告警管理的主要功能就是实时显示系统的告警信息,以便用户可以及时地了解系统状态,在系统出现问题时能够及早发现问题。l 历史告警信息查询历史告警信息查询功能为用户提供了一个访问告警历史信息的入口,

54、用户可以通过此功能查询任意时间的告警信息。机群性能报表l 通过机群性能报表系统了解机群系统每小时、每日、每月、每年的总体运行情况。Ø 支持小时报、日报、月报、年报等多个时间段的报表生成Ø 关联报表,可以把多个设备的指标在一个报表中生成并进行多设备对比分析;也可以把一个设备的多个指标在一个报表中生成,从而进行多指标之间的关联分析Ø 报表可以导出成pdf和excel文件格式,方便用户查看机群管理系统l 采用有browser/server分布式结构、跨平台管理等特性l 提供了一整套对集群系统进行并行操作、性能监控、信息获取的工具,为整体集群计算资源的统一管理构建了一个基

55、础平台l 机群管理系统提供了从ip管理、hosts管理、进程管理、服务管理到并行命令、关机管理等九项机群管理功能 机群系统部署l 采用b/s架构,安装后节点信息直接存储在管理系统的数据库中,方便管理配置。l 可以同时针对不同的节点分发不同的系统镜像,极大方便系统的安装过程。l 安装过程中无需手动干预。l 安装前可指定系统最终ip、主机名等l 能自动适应大硬盘,自动适应各节点间的软硬件配置不完全相同。l 支持多种linux系统,如redhat linux, turbo linux, debian gnu/linux,suse等.l 同时支持64位和32位的cpu、操作系统作业调度系统l 多种方式

56、的作业提交作业提交的功能是通过web页面将作业提交给调度器。系统中有三种提交方式:Ø 模板方式提交Ø 脚本方式提交Ø 命令行方式提交l 作业监控和管理作业管理主要是对作业的查询、控制和删除等操作。对作业的控制包括保留、释放、挂起、恢复、重新运行等操作。系统提供多种查询方式,可以按照作业名、作业状态等作业相关的信息进行作业的查询。l 应用模板管理应用模板管理为用户提供了一个管理模板的入口,用户可以通过此功能增加、删除、修改模板。l 调度器管理集群管理模块可以完成查询集群、添加集群、修改集群和删除集群的操作。l 队列管理队列管理包含队列的创建、删除、修改和查看等操作,并管理队列与用户、节点等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论