曙光高性能计算解决方案_第1页
曙光高性能计算解决方案_第2页
曙光高性能计算解决方案_第3页
曙光高性能计算解决方案_第4页
曙光高性能计算解决方案_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新一代曙光高性能计算解决方案曙光发展历程曙光代表着中国最先进的高性能计算机技术实力1993年曙光一号研制成功,中国高性能计算的起点11995年曙光1000峰值达25亿次,被誉为中国“争气机”21998年曙光2000峰值达200亿次,开始采用Cluster架构32001年曙光3000峰值4032亿次,开始大规模进入市场42004年曙光4000A峰值10万亿次,首次位列全球前十52008年曙光5000峰值230万亿次,成为继美国后第二个研制6122010年曙光星云峰值1270万亿次,首次位列全球第二7我们的业务布局The layout of our business曙光公司自1996年成立以来,始

2、终倡导着“自主创新 服务中国”的品牌理念,目前已拥有1000+员工。+在天津,拥有1个制造物流中心+在北京,拥有1个研发中心+在盘锦,拥有1个生产基地+在北京、包头、南京、无锡、成都拥有全资的云计算公司+在香港拥有一个全资子公司+全国设有29个办事处、分公司,服务范围覆盖中国主要市和区域广州哈尔滨深圳成都乌鲁木齐福州 重庆长沙 西安昆明杭州济南天津南宁 南昌郑州合肥 上海太原沈阳武汉南京长春 北京青岛石家庄呼和浩特贵阳兰州国家发展战略的重点历任国家领导寄予厚望江泽民同志参观曙光3000系列高性能计算机1胡锦涛主席2004年了解曙光产品研究情况22010年温家宝总理视察曙光天津产业基地3温总理:

3、“曙光4000A让我们的计算机水平上了一个新台阶42010年,中共中央政治局常委、全国政协主席贾庆林同志参观曙光52011年,中共中央政治局委员刘延东等党和国家领导人参观曙光62012年9月,胡锦涛主席视察曙光天津产业基地7高性能计算发展趋势高性能计算发展现状处理器架构互联网络操作系统协处理器增加迅速高性能计算系统方案设计原则新一代曙光高性能计算解决方案小结目录HPC应用需求分析因地制宜区分领域,因地制宜物理化学:开源软件众多,浮点运算密集生物基因:海量数据,批量任务,大内存卫星遥感:数据并行气象环保:流程化作业,高带宽低延迟地质石油:GPU应用成熟CAE/CAD: 商业应用,需求多样技术服务

4、高性能计算系统的设计原则应用适配系统性能功耗散热建设成本高性能计算系统方案设计原则新一代曙光高性能计算解决方案小结目录曙光HPC产品线曙光 6000 系列高性能计算机硅立方(Silicon Cube)系列高性能计算机面向特定应用的专用高性能计算机针对高性能计算设计和优化、类型丰富的计算单元刀片服务器整机柜式刀片服务器胖节点异构计算节点ParaStor200 分布式并行存储系统第三代高性能计算机存储系统高性能、高可靠、高可扩展计算和存储融合的高速互连网络胖树CloudBASE 机房基础设施为高性能计算机提供稳定可靠、绿色节能的支撑环境液冷刀片服务器Gridview:高性能计算机统一的监控管理与资

5、源调度系统3D-Torus图形计算和可视化:全系列图形工作站“云图”远程可视化产品曙光6000高性能计算机高可扩展性采用模块化设计,可根据需求进行灵活扩展峰值计算性能可扩展到 100Pflops(十亿亿每秒)最大存储容量可达 EB 级多种类型的CPU、GPU、MIC计算资源,灵活的网络拓扑结构,针对不同应用优化的存储和作业调度系统等,都可组合定制,与用户应用达到最佳匹配广泛的应用适配性成熟可靠,海量应用案例曙光6000系列高性能计算机已经过超算中心、物理、化学、材料、生命科学、工程计算、气象、海洋、环境、石油物探、动漫渲染等行业的广泛检验拥有以“星云”(国家超级计算深圳中心)、“元”(中国科学

6、院超级计算中心)等为代表的众多成功案例每年占据中国高性能计算机TOP100 30%以上份额曙光Silicon Cube(硅立方)高性能计算机3D-Torus 网络架构Hyper Node超节点Silicon Cube硅立方应用1应用2Failed全新架构,融合了曙光在 3D-Torus 高速网络架构、液冷高效制冷、高密度海量存储等方面的最新研究成果大幅度提高系统的扩展性和能效比、提高计算密度、减小占地面积液冷散热制冷技术基于 3D-Torus 的层次化网络结构立体延展,无与伦比的扩展能力强大的系统容错能力面向大规模并行、格点化应用曙光高性能计算解决方案总体基础设施层:为相关软硬件设施提供稳定可

7、靠、绿色节能的运行环境;硬件资源层:包含全部 HPC 相关的计算、存储、网络等硬件设施;基础软件层:对底层硬件资源进行统一的管理和调度,并为上层应用软件提供开发运行环境和访问接口;应用软件层:兼容各领域和行业的 HPC 应用软件,并针对资源需求特点进行深度系统优化。曙光6000系列高性能计算机,国家”863”计划科研成果转化,提供从底层机房基础设施,到系统硬件、软件,再到应用软件整合的一体化产品和整体解决方案,提供全生命周期的全方位技术服务。层次化体系结构高性能集群拓扑图登陆管理节点(2台)终端访问控制、作业提交封闭机柜环境SMP胖节点(2台)普通计算节点(82台)GPU节点(8台)外部网络I

8、nfiniBand网千兆管理网Ostor1(48TB)OPara2Ostor2(48TB)Ostor4(48TB)Ostor3(48TB)Opara1元数据互备ParaStor200并行存储系统(192T).计算设备选型分析高性能计算中心用户众多应用种类众多应用对资源需求种类众多需求双路节点双路节点成为高性能计算中心的主体。双路节点组成的集群系统,性价比高、技术成熟、应用支持丰富,是计算架构的首选多路胖节点 少量多路胖节点满足大内存、单机多核、高本地IO等特殊需求 多路胖节点相比双路集群系统,性价比较低、密度不足+GPU/MIC节点 少量GPU和MIC节点用于支持GPU和MIC的应用。 GPU

9、/MIC的兼容性、易用性和平衡性可能不足+针对HPC优化的计算系统刀片系统是HPC市场主流曙光TC4600是专门为HPC设计优化的刀片平台,功能专一,成熟可靠高性能、高密度、高集成度、易管理性的计算系统,与应用适配的混合架构整机柜式服务器是极具活力的服务器新形态,其特点符合HPC需求曙光TC5600以I980为代表的曙光多路服务器,作为HPC系统的胖节点,满足特殊应用需求曙光多款刀片和机架式服务器针对GPU、MIC等协处理优化设计曙光TC4600高性能计算刀片平台高密度5U10片,平均每U:2节点,4颗处理器高性能支持最新 Intel Xeon E5-2600 v3 CPU平台,BIOS 等针

10、对 HPC 应用优化高速率支持 56/100Gb/s InfiniBand /Omni-Path高速网络广应用广泛适用于不同的HPC行业/领域,已有众多大规模应用案例低能耗93%效率金牌电源,冗余热插拔易部署与Gridview管理调度系统无缝对接曙光TC4600E成熟度高、专门针对HPC设计优化的刀片平台曙光TC4600E刀片服务器曙光TC4600已有的大规模应用案例包括:中科院超算中心新一代计算系统“元”,北京市计算中心,教育网格二期(华中科技大学、清华大学等),东北大学、华东师范大学、中国科学技术大学等,国家气象局,北京、上海、福建、浙江、舟山等气象局,中国环境监测总站、江苏等环境监测中心

11、,中科院等离子体所、地质与地球物理所等曙光TC4600LP高性价比成熟液冷刀片TC4600E-LP 液冷刀片服务器基于 TC4600E 进行液冷改造,中国首款量产的液冷服务器高性能、高密度、高能效比,兼顾可维护性、成本优化PUE1.2更节能降低CPU核温30更可靠噪音1.4(传统模式2.0)传热温差小,全年自然冷却噪音小实现超高计算密度PUE1.2曙光TC5600整机柜计算系统TC5600-H整机柜刀片服务器整机柜服务器的定义:一种全新的服务器形态,整机柜共享供电、散热、管理、交换等基础设备,实现整机柜快速整体交付的一体化服务器TC5600-H采用全模块化设计,由机柜框架、节点仓、计算节点、供

12、电、散热、管理等模块组成。机柜最大可支持40U 节点空间,最大可配置80个计算刀片采用前走线、前维护方式计算系统多路胖节点1 单机性能高2 内存容量更大3 更高本地IO更大的空间,丰富的插槽,可以适合插入各种类型的外插卡,提供更为灵活的配置和扩展8块以上的本地硬盘扩展能力,提供更高的存储性能和更大的存储空间某些应用需要非常大的单机内存容量,比如序列拼接,电磁计算等应用,胖节点具有1-4TB海量内存的扩展性,满足此类应用单机更高的核心数,可扩展至120核心,提供 更高的单机性能,对于共享存储并行程序提供更大的扩展性4 丰富的扩展能力AMD四路(AMD Opteron 6300):A840-G10

13、Intel四路(E5-4600v2/4600 v3):I840-G10I820-G10Intel四路(E7-4800 v3):I840-G25I840-G20Intel八路(E7-8800 v3):I980-G10曙光多路胖节点产品选型曙光I980-G10超高性能&关键业务最大单机144个物理核心采用Intel E7-8800 v3系列处理器性能更加卓越16个PCIe 3.0扩展,支持热插拔128根内存插槽,最大8TB内存扩展16个热插拔硬盘位扩展能力超级强大60余项RAS设计,关键部件全部实现冗余冗余多路径设计,支持硬件分区液晶监控屏实时监控硬件状态所有关键部件支持热插拔,“秒”级维护稳定可

14、靠堪比小机异构计算节点GPU/MIC计算资源PCI-E插槽速率、尺寸优化大功率、高效率电源设计专门的散热风道设计W760-G20(2U2卡)W740-G20(2U4卡)W580-G20(4U4卡)2U高度,两颗 Intel Xeon E5-2600 v3 系列 CPU2U高度,两颗 Intel Xeon E5-2600 v3 系列 CPU,最大支持145W4U高度,两颗 Intel Xeon E5-2600 v3 系列 CPU,最大支持160W最大支持 2 个 GPU/MIC 加速单元(PCI-E 3.0 x16)最大支持 4 个 GPU/MIC 加速单元(PCI-E 3.0 x16)最大支持

15、 4 个 GPU/MIC 加速单元(PCI-E 3.0 x16)最大支持1.5TB DDR4内存 (24 DIMM)最大支持1TB DDR4内存 (16DIMM)最大支持1TB DDR4内存 (16 DIMM)支持 56Gb FDR/100Gb EDR InfiniBand支持 56Gb FDR/100Gb EDR InfiniBand(配置4卡时不支持EDR)支持 56Gb FDR/100Gb EDR InfiniBand(配置4卡时不支持EDR)可配置1+1冗余电源可配置1+1冗余电源2000W 高效冗余电源8个热插拔3.5寸/16个2.5寸SAS/SATA/SSD硬盘10个热插拔2.5寸

16、SAS/SATA硬盘8个热插拔3.5寸SATA硬盘,可选SAS控制器曙光异构计算节点虚拟桌面实现显示资源整合利用显示资源选型资源整合NVIDIA GRID K1NVIDIA GRID K2GPU模块数量4 Kepler GPUs2 High End Kepler GPUsCUDA 处理器数量768 (192/GPU)3072 (1536/GPU)显存总量16GB DDR3 (4GB/GPU)8GB GDDR5 (4GB/GPU)最大功耗130 W225 W单个GPU模块性能Quadro K600 (入门级)Quadro K5000 (专业级)W560,W760图形工作站统一的文件印象快速的访问

17、性能海量快速扩展超大的文件及容量超高可靠性高性能计算系统对共享存储的需求统一的文件映像:是高性能存储的基本要求,即保证每个节点中看到的文件为同一个文件,并且任何节点所做的修改在其它节点立刻生效。超高可靠性:存储是系统级节点,一旦损坏将导致整个系统不可用,同时,存储中的数据价值难以估量,一旦损失后果不堪设想。快速的访问性能:随着计算性能和节点数量的不断扩大,存储的访问性能很可能成为制约整个系统的瓶颈。超大的文件及容量:高性能存储的单一目录往往要求数百TB甚至数十PB,单一文件往往要求数GB甚至数TB,这也远远超出了很多常规文件系统的设计限额。海量快速的扩展:在使用过程中随着存储空间的不断损失,可

18、在线方便扩展,并同时实现容量和性能的扩展。需求说明高性能存储的设计演变NFS 为代表,一对多方式的网络共享文件系统面向大规模系统或 I/O 密集型应用,存在严重性能瓶颈Lustre 为代表,磁盘阵列 RAID+I/O 节点方式的并行存储系统解决了性能问题但单点故障较多,容错性较差基于存储服务器+并行文件系统的软硬件一体的分布式并行存储系统多副本/纠删码数据保护,可靠性高、扩展性高高性能计算机全局共享存储系统的技术演进曙光ParaStor200并行存储系统存储系统架构:数据、元数据分离,均为多活;支持透明分级存储曙光ParaStor200并行存储系统磁盘、节点、网络全冗余设计;数据保护:数据副本

19、或N+M纠删码方式无人值守故障硬盘处理,避免传统RAID的“雪崩”效应曙光ParaStor200并行存储系统支持在线扩容,扩容后自动负载均衡;Scale-out扩展方式,容量和性能线性增长简单易用的Web监控管理页面;Linux/Windows多客户端支持;丰富的权限控制;支持WORM(Write Once Read Many)曙光ParaStor200并行存储系统深圳超算单系统容量16PB!目前国内最大!众多使用案例计算网络Infiniband 技术发展QDR2008年发布Adapter/Switch Port bandwidth 40Gb/sLatency reduction 1usInf

20、iniBand routerLink bit encoding- 8/10Lower power consumptionFDR2011年发布Adapter/Switch Port bandwidth 56Gb/sLatency reduction 700nsInfiniBand router and IB-Eth/FC bridgesLink bit encoding- 64/66Forward Error CorrectionLower power consumptionEDR2014年发布Adapter/Switch Port bandwidth 100Gb/sLatency reduct

21、ion 2.0单柜5-10kW冷池级/机柜排级PUE 1.41.6,单柜30kW系统规模考量计算密度考量持续运维成本初期建设成本提高制冷效率,降低PUE的途径冷热通道分离水平气流组织、就近精确送风自然冷却、辅助冷却曙光机柜排级水平送风系统型号C1000C3000制冷量30KW30KW制冷方式直膨型冷冻水型风量6000m3/h6000m3/h送风方式行间布置,水平送风前后门工艺封闭门宽600mm600mm高2000mm2000mm深1200mm1200mm适用范围单柜830KW高密度机房C1000/C3000行间水平送风气流组织曙光CloudBASE C1000/C3000机柜排级曙光机冷池级水

22、平送风系统- 冷热通道分离,气流组织有序就近精确送风,循环风阻小、风量大水平送风,保证不同高度进风温度均衡制冷效率高 可以解决最高单机柜密度30KW的散热需求制冷量30KW制冷方式冷冻水型流量6m3/h水温1015度风量8000m3/h曙光CloudBASE C4000冷池级前瞻性散热设计:芯片级蒸发冷却基于液冷技术的曙光PHPC 300亮相2014 ISC支持中国科学技术大学代表队参加ISC14国际大学生超算竞赛 1 切换到UPS电池供电。 2 UPS管理节点读取到UPS电池供电状态。 3 UPS管理节点检测到UPS供电达到5分钟,开始启动自动关机程序。 4 按照计算节点登录管理节点存储节点

23、的顺序依次对集群进行关机,只留下当前管理节点。 5 当UPS控制节点检测到UPS电池剩余容量小于5%时,则关掉管理节点本机。突然停电UPS管理节点与UPS连接,专业定制的UPS状态监测工具,实时读取UPS供电状态 1 UPS切换到充电状态。 2 UPS管理节点读取到UPS市电供电状态。 3 UPS管理节点检测到U市电供电达到5分钟,开始启动自动开机程序。 4 按照存储节点登录管理节点计算节点的顺序依次对集群进行开机,甚至可以将不接入UPS的集群瘦节点自动开机。 5 整个系统恢复正常工作。供电恢复智能供电智能无人值守功能在线运维帮助用户专注于专业研究专业的7*24小时高性能计算机远程运维高性能计算专家在线咨询服务智能化,自动化运维服务大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论