版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录 TOC o 1-5 h z 曙光HPC方案优势 76曙光公司简介 76 HYPERLINK l bookmark5 o Current Document 市场占有率高 77 HYPERLINK l bookmark7 o Current Document SUMA标准的完美体现 78 HYPERLINK l bookmark9 o Current Document 产品技术优势78 HYPERLINK l bookmark11 o Current Document 成熟方案78 HYPERLINK l bookmark13 o Current Document 高级技术服务和用户应用支持
2、 78 HYPERLINK l bookmark15 o Current Document 全面的用户培训 79曙光高性能计算中心典型案例 80技术方案85 HYPERLINK l bookmark30 o Current Document 系统配置清单 85需求分析87项目背景87高性能计算的现状与发展 87 HYPERLINK l bookmark36 o Current Document 系统需求分析 94方案总体设计 95系统拓扑图95 HYPERLINK l bookmark41 o Current Document 系统优势96 HYPERLINK l bookmark43 o C
3、urrent Document 系统方案说明96计算系统97计算系统需求分析97 HYPERLINK l bookmark48 o Current Document 刀片集群97 HYPERLINK l bookmark50 o Current Document 工作站节点99 HYPERLINK l bookmark52 o Current Document Intel E5-2600 v3 处理器性能优势 100 HYPERLINK l bookmark64 o Current Document 网络系统101 HYPERLINK l bookmark66 o Current Docume
4、nt 千兆管理网络102 HYPERLINK l bookmark68 o Current Document Infiniband 高速网102存储系统103 HYPERLINK l bookmark72 o Current Document 高性能集群存储的需求特点 103 HYPERLINK l bookmark75 o Current Document 并行文件系统 104管理调度系统 107管理/登陆节点107 HYPERLINK l bookmark82 o Current Document 曙光Gridview作业调度系统110集群基础软件环境 113编译环境113 HYPERLI
5、NK l bookmark87 o Current Document 并行环境114 HYPERLINK l bookmark89 o Current Document 数学库116 HYPERLINK l bookmark91 o Current Document 机柜配置及参数指标 1 18 HYPERLINK l bookmark93 o Current Document 机柜摆放要求 1 18 HYPERLINK l bookmark95 o Current Document 曙光标准机柜特点120 HYPERLINK l bookmark97 o Current Document 曙
6、光机柜配电系统121 HYPERLINK l bookmark99 o Current Document 供配电及制冷需求122机房环境要求123项目实施及验收方案 124项目管理124项目计划124项目跟踪和汇报 125项目团队125项目系统集成 126实施计划和时间进度表 127安装调试127硬件安装127操作系统127存储系统128集群网络环境128系统管理软件 128并行库软件128资源调度软件128应用软件集成128安装后验证129移交设备和技术材料129验收方案129设备考核129功能性考核130稳定性考核130技术材料项目交付 130方案报告 130测试报告、运行总结报告 130
7、产品使用手册或维护操作指南 131出厂测试报告、产品合格证、保修卡 131产品权威性检验报告131交付清单131系统管理说明书,技术说明书 131制造、安装标准(含技术规范)131验收报告(包括验收数据资料) 131人员培训方案132培训目标132?熟练使用操作系统; 133培训方式、地点及对象 133培训方式133培训地点133培训对象133高性能计算培训课程内容1 33售后服务方案135本项目售后服务 135售后服务承诺135保修服务内容136服务流程和响应时间 136备件支持138曙光公司售后服务体系(战略客户) 138曙光公司服务部门架构 138曙光专业服务团队139战略客户服务流程1
8、41曙光公司服务网点 146曙光服务网点功能介绍 146曙光各级服务网点资源介绍 148曙光服务网点覆盖能力 149曙光公司备件库体系149遍布全国的四级响应能力库房 150曙光公司备件库优势 151陕西双友大业软件开发有限公司售后服务介绍 152相关投标产品说明 155曙光刀片服务器 TC5600H技术资料 155曙光天阔服务器 W560-G10 159曙光HPC方案优势曙光公司简介曙光公司是在原国家科委和中国科学院支持下成立的高科技企业,于1995年6月正式成立,注册基金 7500万元,目前已经增资到 1.5亿元,我国著名计算机专家、中国工程院 院士、国家智能计算机研究开发中心主任李国杰出
9、任董事长兼总裁。曙光公司以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心强大的技术和人才为后盾, 开发推出了三大系列 30多种型号的服务器,已经实现了从巨型计算机和超级服务器的供应 商到全系列服务器产品供应商的角色转变,向用户提供了从PC服务器到RISC服务器、价格从一万元到几千万元的全系列服务器产品,形成了以曙光天潮系统超级服务器、曙光天阔 PC服务器和曙光天演 UNIX系列服务器三大系列为主的30余款曙光全系列服务器产品。曙光天潮系列超级服务器以其卓越的性能在石油、教育、气象、电信、生物基因、政府 部门等行业部门发挥着举足轻重的作用,赢得了众多用户的赞誉。发展高技术,实
10、现产业化,是我国科技工作者和科学界一直在追求的目标。在这一目标指引下, 从1990年成立国家智能计算机研究开发中心,启动研制曙光计算机,到曙光3000超级服务器,以李国杰院士为首的曙光人,从关起门来搞研究到走出“象牙塔”做市场,20年间,走出了一条有自身特色的产业化道路。公司从95年创办至今,历时15年,取得了骄人的业绩,销售额逐年、稳步、快速增长,根据权威调研机构CCID的报告表明,曙光已经成为国产服务器前三甲。公司汇集了许多高学位、有计算机专业特长、工程经验和管理经验丰富的优秀人才,其中博士后15人、博士50人、硕士180多人。公司许多员工获得过中国科学院科技进步特等 奖、国家科技进步奖、
11、优秀青年科学家奖、何梁何利奖等。许多专家承担着863高技术计划重点项目、973项目研究、“九五”攻关计划等与国民经济息息相关的国家级高科技项目的 研究和开发。曙光公司先后推出有自主知识产权的曙光1号、曙光1000、曙光1000A、曙光2000、曙光2000-II和曙光3000等大规模并行计算机系统,曙光TC150。TC1700等一系列达到或接近世界先进水平的高技术产品,上述产品在国内均处于领先地位。其中曙光1号曾被作为我们国家科技代表成就之一写入1994年李鹏总理政府工作报告,并获得中国科学院科技进步特等奖; 曙光3000超级服务器于2001年荣获中国十大科技进展殊荣,并成功完成举世瞩目的水稻
12、基因组测序工作。1990年3月,建立国家智能计算机研究开发中心,她是在 863-306主题专家组的领导 下,为实现国家高技术计划在计算机领域的关键目标而组建的研究开发实体,其宗旨是发展计算机高技术,实现高性能计算机产业化。的战略高技术,关系到国家的战略安全,高性能计算机是一项西方国家对我国仍实行禁运对国民经济和社会发展有重要作用,能广泛应用于科学研究、信息服务和事务处理。 智能中心成立后,陆续向市场推出了 曙光并行机系列产 品,为促进我国高档计算机产业化做出了重大贡献。国家高性能计算中心(合肥)1996年7月建立并为用户服务,时任国务委员兼国家科委主任的宋健院士指示,用曙光1000在全国建立一
13、批国家高性能计算中心,大力开展曙光1000的推广应用。此后,在北京、成都、武汉和上海相继成立了四个国家高性能计算中心,在全国形成了一个以曙光天潮系列为主服务器的第一个全国性的高性能计算网络,大规模地对全国众多行业领域进行高性能计算服务。国家高性能计算基金共支持了100多个国家自然科学基金、攀登计划、国家攻关计划、863计划和各部委省市的重要课题在五个中心进行计算。此外,这些中心还支持了其他 150余个课题完成了计算任务,取得了一批在国内外有重要影响的成果。市场占有率高TOP100国内厂商第一名,TOP10睇一名。2009、 2010、 2011、曙光已近连续多年占有中国高性能计算 2012年连
14、续四年超过所有国内国际厂商,荣登游光36%曙光乃4%2口 1 0年制做德机器数量份羽图图9.1曙光机器数量份额图SUMA标准的完美体现曙光公司是国内服务器“ SUMA标准的倡导者,产品的设计和方案的设计充分体现了:可扩展性;易使用性;易管理性;高可用性产品技术优势高性能、高密度第四代刀片服务器;曙光ClusKVM-OVER-IP系统,优势:连接方便,可扩展性强,可以通过Internet 远程使用;曙光机群操作系统,为用户使用维护机群提供了全面的工具。成熟方案专业的高性能计算机厂商;2009,2010,2011,2012 年连续4年在国内高性能计算机排名( TOP100排行榜) 中占据最大份额;
15、各行业(包括生物计算行业)有众多的成功案例;曙光5000A、曙光4000A大型并行计算机的设计和使用维护经验;高级技术服务和用户应用支持曙光公司实施服务超越战略,把用户服务提到了战略的高度:全方位,立体化的服务。包括:售前售中售后尤其是售中和售后服务,是曙光服务的中心和重点。延长的售后服务年限无限期的应用支持。例如:用户各种软件的编译,测试系统性能优化帮助用户解决使用中的难题帮助用户分析系统瓶颈,寻找解决方法,如:和某地球物理公司的合作曙光公司对用户提供的应用支持完全免费。全面的用户培训曙光公司将为用户提供全面的培训,为用户培训系统管理员, 并为用户的应用提供技术培训。曙光公司培训联合中科院计
16、算所进行,将为用户提供定制化服务,曙光公司为用户提供的服务完全免费。曙光高性能计算中心典型案例国家超级计算深圳中心一一曙光“星云”国家超级计算深圳中心(深圳云计算中心)曙光“星云”是在国家863计划重大专项支持下,由曙光信息产业(北京)有限公司、 中国科学院计算技术研究所、国家超级计算深圳中心共同研制,由曙光集团天津产业基地制造的一款拥有自主知识产权的超千万亿次超级计算机;是国内首台实测性能超千万亿次的超级计算机,其每秒系统峰值达三千万亿次 (3PFlops),每秒实测Linpack值达1.271万亿次。 在2010年6月第35届全球高性能计算机 Top 500排名中,“星云”位列世界第二,成
17、为世 界上第三台实测性能超千万亿次的超级计算机。星云系统还是国内最绿色的超级计算机,每网光星云高就能计草机都交 PAWNING NEBUW瓦能耗实测性能4.8亿次。i :ii IJi JUi归咽 1 川 .SinWIJ r IQ*-flKk ri/i H l1i *EpnAii熟3* h.闺 LM - iUrf M hi E切门一 HlVIE. MH曙光“星云”作为中国第一台面向未来“云计算”环境设计的超级计算机系统,强调系 统的均衡设计和资源动态调度能力,将成为我国新一代超级云计算中心建设的主力机种。“星云”高性能计算机系统已经安装在国家超级计算深圳中心,为我国华南、港澳乃至全国用户提供计算
18、服务和信息服务。上海超级计算中心曙光“魔方”上海超级计算中心(Shanghai Supercomputer Center )成立于2000年12月,是国内第一个面向社会开放,资源共享、设施一流、功能齐全的高性能计算公共服务平台,目前拥有曙光4000A (2004年世界排名第十)和“魔方”(曙光5000A, 2008年世界排名第十)等3台超级计算机,同时配备丰富的科学和工程计算软件,致力于为国家科技进步和企业创新 提供高端计算服务。由中科院计算所和曙光公司联合研制的曙光5000A高效能超级计算机于 2008年成功推出,峰值性能达到 230Tflops ,实际Linpack测试性能为 180.6T
19、flops ,进入了世界前 10 名,成功部署于上海超级计算中心,代号“魔方”。曙光5000A的成功,极大缩小了国内与美国在超级计算机领域的差距,并且在计算密度、系统效率、系统功耗等诸多方面达到当时的世界先进水平。曙光5000A实现了诸多创新,在体系结构、多处理机芯片组、高性能节点操作系统、高 可扩展互连网络、高吞吐率通信软件、多线程分割全局地址空间编程模型及编译器等核心技 术上实现了较大突破;并提供高效能计算机的高密度节点、可靠的系统结构、虚拟化软件、 高效能海量存储、并行文件系统、大规模系统的管理软件、系统级鲁棒性技术、超大规模并 行算法等产品及技术。曙光5000A具有“四高两低”的技术特
20、点,“四高”具体表现为高性能、高效能、高密度、高可靠;“两低”表现为低价格、低功耗。曙光5000A是定位于高效能的计算机系统,高效能包含了高性能、可编程性、可移植性、稳定性等多个方面的要求,高效能代表了高性 能计算机研究的新方向。曙光5000A是完全自主知识产权的国产超级计算机,在系统的研制过程中,曙光公司已 申请了 50项发明、实用新型及外观专利,并申请了近16项软件著作版权登记。在曙光5000A的基础上,曙光公司推出了曙光5000系列计算机及其应用解决方案。北京市计算中心如京市H4中心IBeijing Computing Center北京市计算中心建立于一 九七三年,隶属于北京市科学 技术
21、研究院。是国内成立最早、最具影响力的从事计算机应用技术研究及推广的机构,服务对象涉及工业、商业、交通、能 源、环保金融、税务、社会事务等多个领域。北京市计算中心汇集了许多高学位、计算机与 网络通信、物理、化学等交叉学科领域优秀人才,曾获得过国家科技进步奖、北京科技进步 奖等殊荣,许多专家承担着“ 863”高技术计划重点项目、“937”项目、“九五”攻关计划等与国民经济息息相关的国家级高科技项目的研究和开发。中心现有计算服务平台一期项目于2009年1月建成,选用曙光5000系列国产高性能计算机,采用 CPU+GP的混合异构集群系统架本总体性能超过30TFLOPS 2010年开始进行了二期扩容,继
22、续购置了1套曙光6000系列高性能计算机,并进行了系统整合,目前系统总体计算能力已经超过 100TFLOPS支撑着中心的工业云计算平台和生物计算平台,满足气 象预报、分子动力学、生物医药、CAE真以及动漫等众多高性能计算领域计算需求,同时也作为信息化服务平台和云计算技术研发平台。曙光5000、6000高性能计算机为中心的高性能计算服务以及云计算服务提供了强有力的支撑和保障,不仅计算性能强劲,计算资源的种类也丰富多样,配置灵活,符合中心多样性和综合性的业务特点,满足多领域计算服务对计算资源的差异化需求。计算服务平台投入使用以来,系统运行稳定,已经为全国众多科研 机构和企业提供了大量计算服务,支持
23、了多项重大科研项目,在众多企业的关键产品研制过程中起到了关键作用。曙光公司不仅为北京市计算中心建设了计算服务基础平台,同时也与北京市计算中心在高性能计算技术和云计算技术研发方面建立了深入合作。2010年,北京市计算中心与曙光公司建立了 “北京市计算中心&曙光云计算联合实验室”,为企业提供软件应用支持,提供高性能计算基础平台, 提供企业在成长中所需要的科技支持等,全面解决中小企业的云计算需求难题,促进中小企业的创新能力并壮大企业未来的发展。成都云计算中心由曙光集团下属“成都超级计算中心有限公司”建设并于成都云计算中心2009年底开通运营,一期建设规模达到30万亿次每秒,并将于 2年内扩展至200
24、万亿次每秒。中心依托中科院计算机技术研究所以及曙光集团的优势资源, 在国内率先将超级计算技 术用于云计算服务提供,并创新性的采用了 “政府指导、企业投资建设和运营”的全新模式, 具有里程碑式意义,标志着超级计算(云计算)在国内的发展进入一个新的阶段。复旦大学高性能计算中心复旦大学是教育部直属全国重点大学之一,名列985工程、211工程,是国内技术实力强、影响力巨大的技术研究、高等教育机构。作为一所综合性研究型大学,伴随校内物理、 化学、环境、生物、地理等不同学科的不断发展,对高性能计算的迫切需求变得日益突出。2011年建设的复旦大学高性能计算中心是一个面向校内各学科的计算平台,主要运行 物理、
25、化学、材料、流体、软件、气象开发相关领域的应用,其中物理、化学、材料为主要 应用。计算平台应用软件种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,方案的设计需要充分考虑到实际应用的特点。基于对复旦大学用户应用需求分析,曙光提供了具有针对性的成熟稳定、 高可靠、高性能的系统方案。全系统共计502台计算节 点,理论峰值达到 64.3万亿次每秒,在 2011年中国高性能计算机性能 TOP100排名第37。作为全球一流的计算机公司和开放系统的领导者,曙光公司拥有完善的信息处理技术和丰富的行业应用经验。在本项目中,曙光提出了一套先进的高性能计算机系统设计方案,充分利用了计算机科学与网络
26、技术的最新发展成果,考虑了系统的先进性、 高可靠性、高可用性、系统的灵活扩展能力、开放性以及高可管理性等原则对项目的具体需求提出了解决方案! 曙光不仅限于提供高性能计算设备并保障其稳定运行上,曙光技术支持专家也在计算物理、化学、材料、热能、流体、气象、海洋、环保等专业方面与复旦大学应用专家一起进行共同 研究与合作。2技术方案2.1系统配置清单类别产品型号技术规格单位数量1计算系统CPL#算节点曙光TC5600-H 整 机柜刀片平 台TC5600-H整机和刀片半百,含 TC5600-H整机 柜刀片系统框架(44U)、双输入供电系统、直 流母排套件、1*RMCf理模块、2*4U节点仓台24U节点仓
27、,含节点机框、风扇模块、背板等个122500W高效白金级(电源效率 93%电源模块个24曙光SR60-T20 计 算刀片2*Xeon E5-2640v3 2.6G 20M 八核处理器 (2.6GHz);16GB DDR4 ECC REGW;2*300G 2.5寸SAS热插拔硬盘;2*千兆以太网接口;1*56Gb FDR InfiniBand 接 口 ;片702网络系统计算网络InfiniBand交换机FDR 36端口旧交换机台5InfiniBand线缆FDR Infiniband 线缆根145管理网络以太网交换 模块(千兆 带万兆上 联)48端口千兆以太网(带万兆上联)交换模块,向下提供48*
28、1GE电口,向上提供 2*10GE SFP优 口台4视频切换系 统Cluskvm100 菊花链KVM 主控端菊花链控制终端,每终端最大可支持 32个节点台1Cluskvm100 CIM模块节点USB模块,每节点配置1个个10PDU机柜PDU每 PDIM 15 位 10A C13 插座 +12 位 16A C19 插座,3个32A单相空开,含 1个32A 3相5芯IEC60309工业连接器台4PDM125A PDM 系 统(带监控)PDMK统作为集群配电分配模块, 可提供最多4 个32A PDU勺统一配电管理,输入采用125A三 相5芯IEC60309工业连接器,输出为4个32A 三相5芯IEC
29、60309工业连接器个13存储系统曙光ParaStor200 并行存储系 统P200高性能64位处理器,64GB Cache, 2个管理网 络接口,3.5 7.2krpm 4TB SATAX 15, 1 个 56Gb FDRInfiniband数据接口, 1+1冗余电源,内嵌高性能数据存取引擎,用于并行处理所有客户 端的数据访问请求,内嵌高性能数据恢复引擎, 支持节点间replication (多副本)/N+M (纠删 码)数据冗余方式套14软件系统操作系统LinuxRedhat 64bit 企业级Linux操作系统套11集群管理调 度系统(可 选)曙光Gridview (商业版)标准版(标准
30、组件):支持资源配置、组资源管 理、实时告警、阈值管理、集群状态视图、总 体性能视图、对比性能视图、配置管理、账户个1设置、预定义报表、自定义报表功能。应用开发环 境编译器GNIBJ译器,支持 C/C+/Fortran套一1Intel 编译器,支持 C/C+/Fortran套1数学库MKL BLAS LAPACK ScaLAPACK FFTW NCLGrads 等套1并行环境OpenM所行环境套一1OpenMP 1MPICH2 MVPAICH等 MPI 并行环境(支 持InfiniBand 和以太网)套1GPLFF发环 境CUDA1动、编译器、调t端1、工具包、SDK;CUDA FFT CUD
31、A BLA第;套1MIC开发环境MIC编译环境;Intel(R) Manycore Platform Software Stack (MPSS);套1自动部署工 具软件自动部署工 具软件高性能计算软件环境自动部署工具软件套1三维设计系 统协同设计 软件三维设计系 统协同设计 软件三维设计系统协同设计软件套15图形工作站图形工作站曙光W560-G10图 形工作站塔式 /2*Xeon E5 2667v2 3.3G 25M 8C (主频 3.3GHz,共 16 核)/32G DDR3ECCREG 内存/2*1T 3.5 口寸 6GbSATA/NV QUADRO K620 2GBs卡 / 双 千兆以太
32、网口 /DVD-RW/集成BMC片/单电源 /24寸宽屏黑色液晶显示器套202.2需求分析 2.2.1项目背景上海卫星工程研究所(简称 509所)成立于1969年,隶属于第八研究院,是一家适应 多型号生产要求的卫星总体研究所,属科研生产事业单位,是我国气象卫星的摇篮和对地遥感、空间监测、深空探测系列卫星的主要研制基地。目前主要承担了气象、科学试验、微波 遥感、电子等系列卫星的研制工作。40余年来共成功研制并发射了风云系列,实践系列、遥感系列等多颗卫星,取得了100%勺发射成功率,在我国科学实验、国土资源普查、农作物估产及防灾减灾等领域发挥了积极作用。其中气象卫星使我国在中长期、多方位气象观测、
33、预报、研究领域取得了重大突破,也使我国成为少数几个能同时研制、发射和管理静止和极轨气象卫星,并由此形成气象监测应用系统的国家之一。近十年来共成功研制并发射了3颗风云二号气象卫星,1颗风云三号气象卫星,3颗实践六号A空间环境探测及技术试验卫 星,1颗实践七号科学技术试验卫星,2颗遥感一号卫星和 1颗遥感六号等卫星,取得了 100%成功率。2008年抗震减灾、北京奥运会以及 2010年上海世博会等国家重大活动的气象预报 中,遥感一号、风云三号等卫星作出了突出的贡献。随着应用体量的增大,应用工作者人数的增加,高性能计算平台的扩容迫在眉睫。为能使种类繁多的应用软件,依照各自的应用特点,在一套完整、高效
34、、可靠、稳定的平台上成 熟运行,设计了一套成熟建议方案。2.2.2高性能计算的现状与发展高性能计算的应用需求应用需求是高性能计算技术发展的根本动力。传统的高性能计算应用领域包括:量子化学、分子模拟、气象预报、天气研究、油气勘探、流体力学、结构力学、核反应等。随着经 济发展和社会进步,科学研究、经济建设、国防安全等领域对高性能计算设施及环境提出了 越来越高的需求,不仅高性能计算的应用需求急剧增大,而且应用范围从传统领域不断扩大到资源环境、航空航天、新材料、新能源、医疗卫生、金融、文化产业等经济和社会发展的 众多领域。当前,世界和中国面临诸多重大挑战性问题。比如,全球气候出现快速增温的事实使“应对
35、气候变化”成为各国政治、经济和社会发展的重大课题,为了进一步消减“温室效应”和 减少碳排放,实现可持续发展的低碳经济,新材料的发现、设计与应用迫在眉睫;随着化石能源的日益枯竭和环境的日趋恶化,新能源的开发势在必行; 随着科技的发展,人类迈向太空的脚步逐渐加快, 空间资源的争夺和战略性部署竟然愈发激烈,航空航天领域作为此项重大科研技术活动的基础支撑,投入将持续扩大;为了攻克重大疾病、 进一步提高人口健康质量,生命科学与新药制造已成为技术发展和经济投入的重要增长点;在国际竞争的大环境下,基础科研实力是高新技术发展的重要源泉,是未来科学和技术发展的内在动力,也是实现国家经济、社会和环境可持续性发展的
36、重要途径,基础科学研究的投入也将持续增长。解决上述关系国家战略和国计民生的重大挑战性问题都离不开高性能计算的强力支撑,可以预见在战略层面, 各国对高性能计算的投入会持续增长,而中国将更加发力; 在技术层面上,高性能计算的应用范围将越来越广,发过来应用需求也将催生高性能计算新技术的诞生与发展。Projectsd Pcirfoim biicq D eve I op me ntQ Ml则QSumttl Tiend Line一曲Q Trend Line一Sum TreiKl Line口得-我芯-9一将 S一行 zoe-2后 A京,二R ?看 rsR-S3 g-ss-旨将 二管 口息图2-1全千HPC
37、TOP500统计数据显示高性能计算能力呈指数型增长国内高性能计算发展现状“九五”以来,在国家及相关政府的持续支持和IT企业的积极参与下,我国高性能计算机有了长足的发展,研制队伍不断发展和壮大,主要的研制单位有:国家并行计算机工程 技术研究中心、中科院计算技术研究所国家智能中心、国防科技大学计算机学院、曙光公司等,是数十年积聚起来的我国高性能计算机技术研发的中坚力量。“十一五”期间,在国家863计划“高效能计算机及网格服务环境”重大项目的支持下,我国先后研制成功若干台百万亿次和千万亿次高性能计算机系统。2008年,曙光公司研制成功“曙光5000”百万亿次计算机;2009年,国防科技大学研制成功“
38、天河一号”千万亿 次计算机,使我国成为继美国之后世界上第二个研制成功千万亿次计算机的国家;2008年,曙光公司研制的“曙光 5000”百万亿次高性能计算机位列全球 TOP500第十,亚洲第一;2010年,曙光公司研制成功“星云”千万亿次计算机,性能列世界TOP500第二位;而升级后的“天河-1A”系统创造了中国高性能计算机全球排名第一的最好成绩。中国高性能计算机在全球TOP500中的份额也在逐年增大,已经成为仅次于美国的高性能计算大国。Couiitr1#w -雪y/t 的与物力|:MB9000300,图2-2 TOP500系统国家分布历史统计我国在高性能计算机系统相关的基础性支撑技术方面也有了
39、很大进步。在处理器方面, 国内自主研制的“龙芯”、“神威”、“飞腾”等系列的多核处理器方面已有所突破,相关 的生态环境正在逐步完善;在异构协同与并行优化方面,国内在 CPU/GPU混合结构的应用 研究,比如生命科学领域的基因比对、分子动力学、电镜数据处理石油勘探领域的电子断层三维重构、叠前时间偏移等方面均取得突破。在系统软件及环境方面,国内在大规模异构系统的管理和监控、大规模系统的快速部署以及高效系统虚拟化等关键技术上也取得了很大进 展。“十一五”期间,在国家863计划“高效能计算机及网格服务环境”重大项目的支持下,成功开发具有自主知识产权的中国国家网格软件GOS (Grid Operatin
40、g System ),突破了广域资源共享和协同工作的关键技术,其功能和性能已达到并超越国际同类软件水平。此外, 863计划还先后重点支持了化学、天文、气象、生物医药、流体、激光聚变、大飞机、石油 勘探地震成像等领域的高性能计算应用,形成了若干可利用上千以上的处理器核进行计算模拟的应用实例。高性能计算机关键技术发展现状体系架构作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了几十年的发展历程。先后出现了向量机、多处理器并行向量机、MPP大规模并行处理机、SMP对称多处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluste
41、r集群系统、混和系统等多种主体的体系架构,并分别在不同的时期占据着应 用的主流。其中,计算机集群(简称集群、Cluster)是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看 作是一台计算机。集群系统中的单个计算机通常称为节点,通过内部网络连接。高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能力。比较流行的高性能计算集群采用Linux操作系统和其它一些标准软件来完成并行运算,这一集群配置通常被称为 Beowulf集群。这类集群通常运行特定的程序以发挥高性能计算集群的并行能力,这类程序 一般使用特定的运行库,比
42、如MPI等。相比于MPP等一些专有高性能计算系统,集群系统具有明显的优势,包括: 集群的标准化程度高高性能计算集群一般都是采用工业标准的硬件和软件系统,比如采用标准的x86架构处理器;工业标准的互联网络,比如 InfiniBand、万兆网络等;通用的 Linux操作系统;通用 的并行编程标准和模型;通用的作业分发调度系统等。灵活性、可扩展性好集群是一个松散的架构,由计算节点通过互联网络连接而成,一个集群可以方便地进行扩展;同样的,一个集群也可以灵活的进行物理或逻辑上的拆分。MPP等一些专有定制系统就很难做到这样的灵活可扩展性。 性能高集群单个计算节点性能在不断提升、集群互联网络技术发展迅猛、集
43、群可扩展性也越来越好、集群的并行编程技术不断进步,集群已经成为高性能计算的代名词。性价比高由于集群采用的是标准化的软硬件系统,采用的是大规模工业生产的设备部件,可以极 大程度降低高性能计算系统的建设成本,相应的,集群的运维和维护成本也要小很多。投资风险小集群技术经过多年的发展,其硬件和软件技术已经发展得非常成熟, 建设和维护需要的 设备器件有充足的市场保障; 绝大部分高性能计算应用在集群架构上开发和调试, 应用支持 程度高,可以确保高性能计算平台的建设成功。正是因为具有的这些优势, 集群在高性能计算领域发展迅猛, 目前已经成为高性能计算 的主流机构,在TOP500中占据了 80%的市场份额,在
44、中小规模高性能计算系统中更是占统治地位。amt.WeSIMD5i峥PtDC.IW1 3001 2OC3 JtXM 2CO5 ZxM* 7007 20W W( 20W 3011 2(U2图 2-3 TOP500中体系架构份额历史统计.2处理器处理器是高性能计算机的计算核心,很大程度上决定了高性能计算机的计算性能。随着x86处理器在PC消费级市场的繁荣,其触角逐渐延伸到高性能计算领域。另一方面,也随着开放式集群架构在高性能计算领域的统治地位确立,市场占有率大、性价比高的x86处理器也成为自然合理的选择。自 2000年开始,Intel和AMD的x86处理器在高性能计算市场 占有率迅速扩大,逐渐蚕食掉
45、了Alpha、MIPS、Power、SPARC、PA-RISC等RISC处理器的市场。40KProprietaryAlphaMIPSIBMHPJNTELAMDiw aniw iw moo emi moz 2M4 ms zom wot 婚力 xra* rav aou图2-4 TOP500中处理器份额历史统计此外,随着GPU、Intel MIC等加速器/协处理器的出现,CPU不再是高性能计算领域计算单元的唯一选择。相比于 CPU,这些协处理器的浮点运算能力更强、任务处理模式更简单,非常适合部分高性能计算应用。使用协处理器可以大大提升高性能计算机的计算性能, 分担CPU的处理负载。全球 HPC TO
46、P500中协处理器的使用越来越多,其中包括 2012年 11月TOP500全球第一的Titan , 2010年11月全球第一的天河-1A,以及2010年6月全球第二的曙光星云系统。在协处理器的市场份额中,Nvidia GPU占据主导,AMD ATI GPU 也 有一定市场,近一两年 Intel MIC (Xeon Phi)也开始发力,在未来可能会有较好市场表现。7C2004口国呻CSX600tW7ionHVIDIA2O5Ou1411InttlXccnPItiNVIDIA 20?0NVIDIA 2090NVIDIA K2Q2CU图2-5 TOP500中使用协处理器的系统越来越多.3互联网络高性能
47、计算集群是一个通过内部互联网络将松散的计算节点有效整合起来的系统架构, 内部互联网络是高性能计算集群的核心技术之一。集群系统内部互联网络主要用于以MPI为代表的并行计算程序节点间的数据网络通信,从类型看,有的即作为计算网络使用。不同计算方法和计算程序的数据通信特征不尽相同,数据交换以小数据包为主,有的大数据包交换较多。小数据包交换较多时,计算性能和效率对计算网络的延迟非常敏感,大数据包交换较多时,计算网络的带宽有关键性影响;从数据通信的频率看,有的计算方法和程序数据通信不频繁,对计算网络的性能要求不高,有的数据通信密集,对计算网络的性能要求很高。总的来说,高性能计算机计算网络的性能对并行计算程
48、序的并行加速比和并行扩展性有重要的影响。计算网络需要有高带宽、低延迟的特点。与MPP等体系架构一般使用高度定制化的私有内部网络不同,高性能计算集群系统一般采用标准通用的网络技术和设备,比如以太网络、Quadrics、Myrinet InfiniBand 。其中,千兆/万兆以太网络技术发展成熟、通用性好,目前仍占有一部分市场份额;Quadrics和Myrinet在与InfiniBand的竞争中败下阵来,目前已基本在市场上消失,而 InfiniBand已经成为通用高速网络的代名词,在高性能计算领域的市场份额逐年扩大,已经成为市场主流,特别是在大型、高端计算系统,InfiniBand几乎成为标配。i
49、ntFri ntiiixlshrtrp20i aoe* am imb seu miQu如 d.中 UtkcrK4b 域1 & FitMUM闻70%卜1+图2-6 TOP500中互联网络份额历史统计.4作业调度系统作业调度系统是高性能计算机核心软件系统之一,主要负责系统资源的统一管理和调度。作业调度系统一方面对系统软硬件资源进行监控管理,另一方面负责对用户提交任务进行队列管理,通过不同的调度算法和调度策略将合适的计算资源分配给用户计算任务。通过作业调度系统,可以整合系统软硬件资源,实现“单一系统映像”,对资源和计算任务的统一管理避免的资源冲突,此外,作业调度系统还能对多用户、多队列、异构计算资源
50、等进行不同的权限控制和精细管理,结合负责高效的调度算法,可以优化高性能计算机的使用方式,提高资源的利用率。匚*-I-T L异* 1taBD JU 0mX T dOL、i_rlaiM. Brakrr图2-7作业调度系统软件的发展历史作业调度系统的发展历史比较悠久,目前使用广泛的作业调度系统有Oracle Grid Engine(前身为 SGE: Sun Grid Engine )、Portable Batch System ( PBS,包括开源的 OpenPBS、Torque 和商业版 PBS Pro)、IBM LoadLeveler、Condor、Simple Linux Utility fo
51、r Resource Management(SLURM)以及 EM Platform LSF等。在国内,PBS系列的作业调度软件具有最广泛的用 户群。2.2.3系统需求分析先进性需求目前,世界IT技术发展迅速,按照摩尔定律,每 18个月计算性能发展一倍,所以对于IT设备采购,保证系统的先进性非常重要,只有先进的系统才能保证用户的IT投资具有更高的投入产出比,对于用户的使用、总体拥有和扩展才能有所保证。(Wj可晶、tWj可用需求本系统建成后将面向全校,提供一个高性能公共计算平台,系统的高可靠高可用是保证服务 质量和好的用户体验的前提。适合用户应用软件需求正如应用需求分析中提到,系统建成后将提供数
52、十种高性能计算应用软件,必须保证这些应用软件在该平台的高效运行,才能让系统建设的效果真正发挥出来。易使用需求Linux操作系统有一定的使用难度,必须使用工具或方法,降低用户的使用难度,才能保证系统有较高的使用率。可扩展性需求本次高性能计算为对原有系统进行扩展,同时,也要考虑到系统建成后的扩展性,这样,当系统要更新时,不会造成投资的浪费。易管理维护需求系统规模大,节点众多、应用复杂、用户数量多,带给管理员管理难度大、管理效率低,必须使用功能强大、易于操作的管理系统和提供培训、实习等方式保证系统能够高效管理运维。节能环保需求系统规模大,耗电量大,节能环保不但能够大大降低用户运维成本,同时也是在相应
53、国家节能减排、绿色低炭的号召。2.3方案总体设计2.3.1系统拓扑图节防(2ft)IrvfimBanditff图3-1系统拓扑图2.3.2系统优势先进性本系统中,我们使用的刀片集群架构,为目前高性能发展的先进趋势。使用的最新一代Intel E5-2600 v3处理器,为目前性能最高的 X86处理器。使用的Infiniband 网络,也为目前最为先进的网络技术。高可靠、高可用需求关键节点设计高可用,系统采用刀片服务器,冗余电源,并行存储系统采用多副本、 全冗余技术,故障对象可自动修复。同时,高效管理监控系统也是保证系统高可靠、 高可用的保证。适合用户应用软件需求用户应用软件众多, 用户众多,对计
54、算需求大,系统共配置104TFLOPS勺计算能力。针 对部分应用对节点间网络需求高,配置了高带宽,低延时的Infiniband 网。带宽达到40Gbps,延时小于3us。同时,海量计算时的 IO并发读写量巨大,对存储的容量和性 能需求惊人,系统配置了并行存储系统,能够实现所有存储的统一地址和并发读写。 可扩展性需求 集群的架构可以保证计算系统的良好扩展,同时,并行存储的架构也实现对存储系统的扩展。易管理维护需求配置高效管理系统,支持监控、告警、管理、报表等多项功能,解决管理员的后顾之忧, 同时,对管理员的培训和对系统的运维支持,也能有效提高系统的管理水平。 节能环保需求配置了刀片系统和高效节能
55、系统,支持空载节点的自动待机,能够有效降低能耗, 帮助用户节省运维成本。2.3.3系统方案说明计算系统CPU整体峰值性能达到 46.59万亿次;系统配置高性能、可扩展的并行存储系统,可以扩展到PB级,能够实现全局文件的统一访问和并发读写; 主要产品都采用了冗余设计(电源、风扇等),系统的可靠性有极高保证;提供曙光商用版高性能作业调度系统,可达到新旧资源整合、统一调度;曙光公司将为用户提供完善的服务,包括安装调试、系统优化、用户培训等,这些都不 单独收费,用户不必考虑这些方面的费用;曙光公司是领先的专业高性能机算机及方案提供商,拥有较多的成功案例, 包括千万亿次超级机算机的成功案例,产品的可靠性
56、和稳定性得到了充分验证。计算系统计算系统需求分析.计算性能高高性能计算应用最为核心的需求仍然是计算能力,高性能计算机峰值计算能力代表着高性能计算机的整体处理能力, 而对于大部分的高性能计算应用, 对计算资源的海量需求仍然 是最为迫切和直接的需求。.适合高性能应用高性能计算机的最核心的需求仍然为适合高性能计算机的使用方的应用软件,从而帮助科研及生产工作,所以高性能计算采用的部件及架构要适合高性能计算软件。如果应用软件的扩展性不好,则在相同的预算下,尽量考虑高主频、核心较少的方案。如果系统扩展性很 好,则尽量考虑总体计算峰值最高的方案。.每瓦性能高高效能代表着高性能计算的每瓦性能较高, 这是评价高
57、性能计算机架构是否科学、 配置 是否合理的重要指标。能源的利用率对于降低总体拥有成本、 节能减排有着重要意义。GPU、 MIC等众核方案具有较高的计算效能、 如果用户的应用适合 GPU或MIC等众核方案,可广 泛采用。.总体功耗低高性能计算机是能耗大户,一台高性能计算满负载运行,在他的生命周期内所消耗的电力的预算几乎和高性能计算机初期的预算一致,所以高性能计算机降低功耗非常有意义。降低功耗一般可以通过选购效率较高的IT设备、提高制冷及空气调节效率、使用功耗控制软件等几个方面实施。.高密度较高密度能满足用户机房空间有限的需求,同时,较高的密度能够有效节约空间, 降低运维成本,降低管理难度。刀片集
58、群系统共配置70片曙光SR60-T20计算刀片服务器,安装在 2个曙光TC5600整机柜平 台中。每个刀片服务器配置 2颗8核Intel Xeon E5-2640V3处理器,主频2.6Ghz,刀片节点总双精度峰值 46.592万亿次。每节点配置 64GB DDR4 2133MHz内存。目前,开放的集群(Cluster)系统具有较多的优势,已经占据了目前高性能计算机的主流 位置,在TOP500中占据了 80%以上的份额,在中小规模的高性能计算系统中更是占据统治 地位。刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明 显优于其它系统,且为系统的扩容升级提供了良好的基础,刀
59、片系统的优势主要体现在以下几个方面。计算密度更高提高计算密度是刀片服务器发展的主要动力之一。对于大规模并行计算机来说,提高计算密度尤其重要,刀片式集群系统有效提高了计算密度。机房要求降低大规模高性能计算机将对机房空间提出较高的要求,并且要为系统的扩容升级留下空间。刀片式集群系统实现了较高的计算密度, 并且有效降低了系统功耗,对系统空调等散热系统 的要求也相对降低。功耗散热降低刀片服务器的功耗部件较少。刀片柜中的电源将由多个刀片共享,所以会使用高效率电源,减小了系统功耗,同时产生的热量减少,减少了冷却系统的耗电量。节能的设计体现在曙光刀片服务器的各个层面:1)根据实时功耗确定工作电源个数,使电源
60、工作在最佳效率曲线上。2)修改计算刀片操作系统内核,实现节能3)多计算刀片任务调整调度布线简单在机架式服务器构成的集群系统中,系统布线是一个很大的问题。系统的线缆可能包括高性能计算网络(InfiniBand ,以太网等)、数据网络、管理网络、监控网络、电源网络、KVM 网络等,这些线缆需要连接到每一个计算单元。尤其是在高密度、计算单元数目又比较多的 情况下,系统布线是令设计人员头疼的问题。多个刀片服务器可以共用冗余电源,内刀片式集群系统可以大大减少系统布线的数量。 置的交换机将高速网络(InfiniBand等)、数据网络、管理网络、 KVM网络集成在一起,只 需要对刀片柜进行布线,刀片柜内部的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公室绿植布置租赁合同
- 交通枢纽租赁合同
- 铝单板安装合同超市室内装饰工程
- 苗木种植联盟合同
- 招投标环境保护措施与合同管理
- 银行系统防雷施工合同
- 保健品总助岗位招聘合同
- 电力电缆敷设工程合同
- 销售岗位聘用合同模板
- 企业间还款协议
- 安全生产培训课件
- 2025年建筑公司年度工作总结及2025年计划
- 母婴安全培训课件
- 《人力资源招聘体系》课件
- 模拟集成电路设计知到智慧树章节测试课后答案2024年秋广东工业大学
- 2024年国家工作人员学法用法考试题库及参考答案
- FOCUS-PDCA改善案例-提高术前手术部位皮肤准备合格率医院品质管理成果汇报
- 山东省济南市2023-2024学年高一上学期1月期末考试 地理 含答案
- 中国成人心肌炎临床诊断与治疗指南2024解读
- 期末(试题)-2024-2025学年人教PEP版英语六年级上册
- 龙门吊二手买卖合同(2024版)
评论
0/150
提交评论