HP 高性能计算系统技术方案建议书_第1页
HP 高性能计算系统技术方案建议书_第2页
HP 高性能计算系统技术方案建议书_第3页
HP 高性能计算系统技术方案建议书_第4页
HP 高性能计算系统技术方案建议书_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识水坝(豆丁网pologoogle)为您倾心整理(下载后双击删除) 百度一下知识水坝 高性能计算系统高性能计算系统技术方案建议书技术方案建议书 中国惠普有限公司中国惠普有限公司 2021/7/92021/7/9 *高性能计算系统方案建议书 中国惠普有限公司2 目录目录 第一章第一章 概述概述.3 1.1 高性能计算环境发展的趋势.3 1.1.1 更高、更全面的性能要求.3 1.1.2 向通用化方向发展.4 1.1.3 更加严格的预算约束.4 1.1.4 使用商品化部件.5 1.2 高性能计算应用的特点.5 1.3 高性能计算主机性能评价体系.6 第二章第二章 设计方案设计方案.9 2.1 系

2、统设计原则.9 2.2 总体方案结构.10 2.3 smp 计算服务器方案 .12 2.3.1 cpu 内存配置数量计算.12 2.3.2 smp 计算服务器型号及配置.13 2.3.3 基于 epic 的安腾芯片技术.15 2.3.4 高性能计算环境 hp-ux 11i tcoe.18 2.3.5 计算任务提交及管理.19 2.3.6 hp rx8620 计算服务器的特点和优势.20 2.4 cluster计算集群方案.21 2.4.1 hp cluster 计算集群结构.21 2.4.2 cluster 节点系统配置.24 2.4.3 节点互连、管理和用户网络.26 2.4.4 clust

3、er 计算集群节点管理.27 2.4.5 cluster 计算集群作业管理.28 2.4.6 hp cluster 计算集群的特点和优势.29 2.5 高性能计算外接存储需求分析.30 2.6 hp 方案的优势 .31 附件附件 hp 的的 hpc 应用及成功案例应用及成功案例.33 1 hp 的基础研究和国防研究 hpc 解决方案.35 2 hp 面向计算机辅助工程 (cae)的 hpc 解决方案.38 2.1 hp 基于网络的一体化和虚拟化 cae 解决方案.38 2.2 hp 全面和丰富的 cae 应用软件.40 2.3 hp 面向 cae 的 hpc 解决方案在中国国内的应用.42 2

4、.4 hp 面向 cae 的 hpc 解决方案的成功应用实例.43 *高性能计算系统方案建议书 中国惠普有限公司3 第一章第一章 概述概述 hp 公司非常荣幸能为高性能计算中心系统建设提出建议。作为全球 最大的计算机厂商之一,hp 公司具有一流的产品、技术和服务。在本方案建议 书中,hp 公司推荐了先进的系统建设方案,考虑了系统的实用性、高可用性、 安全性、可管理性以及灵活扩展能力。 hp 公司凭借先进的技术和出色的支持服务,相信通过双方的合作,可使 高性能计算中心系统项目顺利实施,从而为用户提供一个健壮、安全、 高可用的运行环境,并进一步建立长期的友好合作关系。 高性能计算系统是提高一个科研

5、机构研究水平的重要基础设施,也是一个 国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的 是在其之上运行的各种应用对科学领域产生非常深远的影响。20 世纪 90 年代 中后期以来,许多高性能计算应用领域越来越多地希望利用半导体和计算机技 术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设 计和科学研究,提高科学研究水平、厂商市场竞争力以至国家的综合国力。另 一方面,人们也要求利用工业标准芯片等开放性的技术降低投资、加速开发, 在规定经费预算和时间框架内完成规模越来越大的计算任务。高性能和高经济 效益相结合已经成为高性能计算领域最引人注目的发展趋势。 1.11

6、.1 高性能计算环境发展的趋势高性能计算环境发展的趋势 1.1.11.1.1 更高、更全面的性能要求更高、更全面的性能要求 高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技 术。这一技术广泛应用于核武器研究和核材料储存仿真、生物信息技术、医疗 和新药研究、计算化学、gis、cae、全球性长期气象、天气和灾害预报、工艺 过程改进和环境保护等许多领域。近年来,随着研究的深入和竞争的加剧,各 个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模 *高性能计算系统方案建议书 中国惠普有限公司4 型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如, 在一

7、个 3 维模型中,如果把从每个方向取 100 个分点增加取到 1000 个分点,对 计算机资源的需求将增加 1000 倍以上。高性能计算应用不仅规模越来越大,而 且往往必须在规定的时间内完成任务否则就失去了计算的价值(如天气预报、 传染病防治) 。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备 和 i/o 吞吐能力以及应用软件的开发技术都提出了更高、更全面的要求。 1.1.21.1.2 向通用化方向发展向通用化方向发展 过去人们一般把计算机应用分为科学计算、信息处理和自动控制等类型。 其中,以信息处理为主的应用统称企业应用,是市场容量最大的应用领域。早 期的企业应用与高性能计算应用有

8、很大的差别,涉及的计算比较简单、使用的 数据量也不大,对计算机系统的主要要求是能够支持大量用户(包括网上用户) 进行事务处理如信息输入、查询和统计等,而对于计算能力、存储容量要求也 不高。因此,高性能计算应用往往使用与企业应用不同的系统,影响了产品批 量的扩大。当前,人类正在从工业化社会进入信息社会,技术的持续创新、市 场需求的瞬息万变、竞争空间的迅速扩大,要求企业采用 internet、电子商务、 电子商务企业等现代化手段,来适应时代的发展。许多新型的企业应用对计算 能力、存储容量和系统带宽的要求都越来越高、越来越迫切,高性能计算 应用 和其他类型应用的界限也日益淡化。当前,几乎所有应用领域

9、都需要使用能够 提供高计算能力、系统带宽和存储容量的计算机系统,促使用户选择相同的系 统满足各种类型的需求,为利用大批量、低成本的通用产品满足高性能计算应 用需求创造了有利的条件。 1.1.31.1.3 更加严格的预算约束更加严格的预算约束 随着竞争的加剧和应用的普及,高性能计算不再是一个不惜工本的应用领 域,许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不 同规模应用的需求、更加可靠地保护用户原有投资、加速 it 投资回报,而且也 要求实现资源按需供应和更大范围的资源共享,推动了网格和公用服务等新的 计算模式的发展。 *高性能计算系统方案建议书 中国惠普有限公司5 1.1.4

10、1.1.4 使用商品化部件使用商品化部件 为了促进高性能计算广泛应用必须降低成本,否则很难为更多的用户所接 受。由于高端的高性能计算系统(特别是超级计算机)需要使用许多计算节点 和互联设备等部件,因此必须保持每个部件的低成本。早期的超级计算机系统 使用专门定制的处理器和互联设备等部件价格非常昂贵。以后,cray research 公司的 t3d 和 cray t3e 开始使用商品化的 alpha 处理器。当前商品化处理 器和服务器性能日益提高、价格也日趋下降,为利用它们建立高端和超级计算 机系统提供了良好的基础。为此,美国政府还推出了 asci 计划,力图降低超 级计算机系统的成本,其主要途径

11、是尽可能采用商品化市售(cots)硬件和软件 部件,把力量集中在发展主流计算机工业不能有效地提供的专门技术。目前已 经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。今后的 发展趋势是在高端和超级计算机系统中尽可能普遍地采用商品化和大批量的工 业标准部件,包括处理器、互联设备、i/o、存储、操作系统、语言、编译程序、 编程工具和应用软件。人们注意到,基于开放性 ia32 体系结构的 xeon 和 pentium 4 处理器的超级计算机已经在 top500 占有重要地位。新兴的 itanium 处理器系列(ipf)必将以其开放性、大批量和 64 位寻址和处理能力,对超级 计算机水平的

12、提高产生划时代的影响,以远比 32 位体系结构时代高的性能和性 价比来满足日益增长的需求。 我们深信,通过采用 hp 的高性能计算系统 ,必将加速在高性能计 算领域取得更加丰硕的科研成果。 1.1.2 2 高性能计算应用的特点高性能计算应用的特点 在传统意义上高性能计算应用是属于 cpu 和内存密集型的应用,它对所运行 的计算机体系结构(超级计算机体系结构)提出了几个主要的要求: 浮点计算能 力(尤其是 64 位双精度浮点运算),内存带宽和内存容量及体系框架。 所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建 立模型和模拟物理现象。随着各种模型越来越大,越来越复杂,数据集的规模

13、 *高性能计算系统方案建议书 中国惠普有限公司6 也急剧增长。例如,一个 100*100*100 的栅格包含 100 万个元素,该模型仅占 用 32mb 内存,如果此栅格的分辨率提高 10 倍,这一模型就变为 1000*1000*1000,包含 10 亿个元素,此模型的原始数据将占用 32gb 的内存! 因此不论是分布式内存还是共享式内存,要将此数据传输至内存中,由 cpu 处 理,就需要高带宽,高容量,低延迟的体系结构,当然还需要强大的 cpu 进行 计算。 而超级计算机主要用来处理这样庞大的工作负载。这样的负载所要求的超 级计算机一定是采用快速的 cpu,高性能的内存和 i/o 子系统,旨

14、在实现最高 的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理 技术,能够利用几十个甚至几千个处理器来处理一项任务;这样的并行处理技 术也需要超级计算机要采用高性能的互连设备和系统设计,以较高的成本去换 取最高的性能。 1.31.3 高性能计算主机性能高性能计算主机性能评价体系评价体系 衡量主机系统或处理器计算处理能力的测试体系(benchmark)也有多种,如 spec、linpack 等, 尤其是通过 linpack 值更可以衡量一个主机系统或一个处 理器芯片的实际运算能力, 而不仅仅是虚的理论峰值能力。 过去,人们使用系统能够达到的执行指令最大速率如每秒执行百万指令数

15、/浮点操作数(mips/mflops)来量度计算机硬件性能。但是,这些量度指标的实 用价值十分有限,它们只能给出理论上最大的性能,并没有全面反映计算机系 统的实际性能如内存带宽、内存延迟和 i/o 性能等。此外,硬件性能量度和系 统体系结构都是非标准的,使得人们很难使用它们作为服务器选型的性能指标。 因此,出现了计算机系统性能基准测试的概念,即由某些中立的非盈利机构开 发出一组经过精心统筹设计和组合的程序,来量度计算机系统运行这组程序的 性能指标。此类程序一般称为基准测试程序。不同的计算机系统都运行同一组 基准测试程序,就可以相对客观地比较计算机系统的性能。目前有许多专门设 计基准测试程序和管

16、理各种计算机系统基准测试指标的机构,其中最著名的是 spec 和 tpc。 *高性能计算系统方案建议书 中国惠普有限公司7 基准测试可以分为三类: 1) 系统基准测试指标:用于测试计算机各子系统的性能,其中主要有: spec cpu2000 用于处理器子系统的指标; mccaplin stream 用于测试内存带宽指标; tpc-c 用于测试在线事务处理指标性能指标; 2) 标准应用基准测试指标:用于测试计算机系统执行某种标准的应用的 性能指标,其中主要有: spec web 99 用于测量计算机执行 web 应用的性能指标; spec mail2000 用于测量计算机执行电子邮件应用的性能指

17、标; spec jbb2000,spec jvm98 用于测量计算机执行 java 应用性能 指标; linpack 用于测量计算机进行线性代数计算的性能指标(也常作为 测量计算机浮点计算速度的基准测试指标) ; spec hpc96 用于测量计算机执行高性能计算应用的性能指标; spec sfs97 用于测量计算机执行网络文件系统应用的性能指标; tpc-d 专门用于测量计算机执行数据仓库应用的性能指标; spec glperf 和 spec viewperf 专门用于测量计算机执行图形和 图象显示方面应用的性能指标; 3) 实际应用基准测试指标:许多重要的独立软件开发商(isv)都制订了计

18、 算机系统运行本公司开发的软件产品的基准测试指标。例如,在数据 库应用方面 oracle、informix、 sybase 公司的基准测试指标;在企 业应用方面 sap、sas、peoplesoft、baan 等公司的基准测试指标;在 高性能计算方面运行 amber、charmm、fluent、ls-dyna、marc、ansys *高性能计算系统方案建议书 中国惠普有限公司8 等著名应用软件的指标等; 一般地说,系统基准测试指标测试的计算机子系统的性能,而其他两类基准 测试指标则主要测试计算机执行某种或某个特殊应用的性能。基准测试指标在 用户服务器选型工作中具有重要的作用,许多用户都根据它们

19、来决定设备选型。 但是“全信书不如无书” 。对基准测试必须持一分为二的观点。一方面,虽然基 准测试的环境和用户的实际应用环境不完全相同,但是它们毕竟比较客观地反 映了计算机系统某一方面的性能,对性能评估和搞好服务器选型工作都有相当 大的参考价值;另一方面,任何基准测试指标都是在人为设定的特殊条件下得 到的。虽然,设计基准测试的机构尽了很大的努力使得基准测试条件尽可能符 合实际、具有代表性,但真实的应用环境规模大、软件类型多其组合更是千变 万化。基准测试的条件不可能完全反映实际应用的复杂性,基准测试指标不可 避免地具有某种片面性。因此,在进行设备选型时必须尽可能了解所使用的各 项基准测试指标的实

20、际含义,包含产生它们的环境和测试方法等。为了避免片 面性,对服务器系统的性能指标、特性和厂商进行全面考察,将是搞好服务器 选型工作比较科学和可靠的方法。 *高性能计算系统方案建议书 中国惠普有限公司9 第二章第二章 设计方案设计方案 2.1 系统设计原则系统设计原则 帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地 位的高性能计算环境是 hp 公司为高性能计算用户设计方案的基本出发点。hp 认为,高性能计算系统应具有处理大规模的复杂运算,尤其是浮点运算 的能力 。它将为提供优化工程设计、分析、验证的手段,最终实现提高 设计质量、缩短开发周期、降低开发成本。 方案设计以用户现场测

21、试结果为基础,根据用户对未来应用模式及业务量 需求预测为前提,强调高性能以及可行、合理和低风险。架构设计和系统选型 遵循以下原则: 1先进性 本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具 有很高的技术先进性,保持在同类系统中的领先地位。这样有利于提高整个系 统的计算与处理能力 。 2. 有限投资获取最大计算性能 在有限的投资前提下,高性能计算系统应具有优秀的处理能力,它不仅具 有符合要求的峰值性能 (peak performance), 更重要的是应具有稳定的应用 性能(sustained performance) 。各种复杂的研究课题在本系统中能够得到 准确,快速的计算

22、结果 。 3. 可扩展性 系统应具有很强的扩展能力 。 随着对计算机系统性能的要求不断提高, 该计算机系统应具有扩展能力, 并且容易实现 。 4. 开放性和兼容性 本计算机系统应符合公认的工业标准, 包括体系结构,硬件,i/o, 网络, 操作系统,开发环境和开发工具等 。这样,便于和其他平台上的系统互操作 *高性能计算系统方案建议书 中国惠普有限公司10 。 5应用软件丰富 本系统的平台上应具有丰富的软件资源, 能够提供研究课题的解决方案和 相应的软件系统 。hp 公司与高性能计算方面的独立软件开发商紧密合作,例 如:fluent,ansys 等专业工程软件商,red hat,etnus,pa

23、llas,platform 等专业 平台软件商, 不仅提供处理节点间的协调和通信的中间件,使整个系统节点能 够真正实现合作,负载均衡,还能针对不同应用需求,提供一系列并行计算应 用。 6. 良好的技术支持 由于本系统是比较复杂的计算机环境, 在使用过程中不可避免的会遇到一 些技术问题。 当遇到这些问题时能够得到有效的支持, 使问题得以圆满的解 决 。 7性能价格比优越 由于本系统比较庞大,价格因素也比较重要。 本系统在性能价格比方面在 同类系统中应具有明显的优势,对于三院三部来说在采购大型系统中应该考虑 的重要因素。 8管理简单 尽量减少数据中心的设备管理难度。 2.2 总体方案结构总体方案结

24、构 针对系统高性能计算应用的特点,结合与相关业务处室的沟通。从满 足应用需求的角度出发,我们建议建立一个高可扩展、易管理的混合 smp 与 cluster 结构的高性能计算环境,整体方案架构如下: *高性能计算系统方案建议书 中国惠普有限公司11 我们推荐采用 1 台 hp 高档 unix 服务器 hp integrity rx8620 作为 smp 计 算服务器,主要运行 ansys、nastran、marc 计算应用。smp 计算服务器采用高 性能 hp-ux 11i tcoe 高性能计算操作系统环境,并运行 hp workload manager(wlm)动态资源管理工具对任务的资源分配

25、进行管理和调度。 另外,采用 64 节点、通过 infiniband 高速互连的 linux 高性能计算集群 (128 颗 cpu,512g 内存) ,主要运行 fluent、fastran 或 ls-dyna 计算应用。 高性能计算集群配置 1 个管理节点及 2 个 i/o 节点,并通过用户网络和管理网 络进行互联。 cluster 管理节点运行 cluster management utility(cmu)管理软件实现 cluster 中所有节点的集中管理、配置、激活/关闭等,并通过 openpbs 软件对 用户提交的任务进行作业管理。 smp 计算服务器和 cluster 管理节点通过

26、1000base-t 千兆以太网连接到三 部的骨干网中,各室工作组通过该网络申请计算资源和提交任务。 待三院三部存储区域网络(san)建成后,smp 计算服务器和 cluster i/o *高性能计算系统方案建议书 中国惠普有限公司12 节点可通过扩展的光纤通道卡连接到 san 中,满足高性能计算环境对存储性能 和空间的巨大需求。 2.3 smp 计算服务器方案计算服务器方案 2.3.12.3.1 cpucpu 内存配置数量计算内存配置数量计算 根据以上分析,smp 计算服务器主要用于结构类计算任务,包括结构的设 计、分析和仿真等。smp 服务器的选型应与用户现场测试服务器具有相同的结 构和相

27、同的产品系列机型,即采用基于 itanium2 芯片的 hp integrity(安腾) 服务器系列产品,并根据未来几年内三院三部的计算需求配置适当的型号和 cpu 内存数量。 从测试结果上看,ansys 类应用对系统资源和开销是最大的,而用户使用 ansys 来进行部件和系统设计也是最多的,因此按此类应用的峰值性能需求来 计算出系统的配置,当然还应根据任务的并发情况来适当调整。根据用户计算 需求的预测,该 smp 计算服务器应至少达到以下性能: 1) 同时运行 5-6 个 ansys 系统级任务(每个 600 万单元) ,计算时间不超 过 12 小时(夜间运行) ; 2) 部件级 ansys

28、 任务(每个 200 万单元)的计算时间在 1-2 小时内(白 天运行) ; 用户目前此类应用用户有 5 人,按未来 10 人来规划。白天考虑 4-5 个部件 级的并发。 计算依据上述要求和实测数据: ansys 实际测试结果:1 个 7 万单元任务,4 个 1.3ghz cpu,8gb ram,运行时间:2 分 15 秒; 本次选择 1.5ghz 的芯片,性能比测试机配置芯片性能高; ansys 提供标准题的计算要求:600 万单元的任务,要求 20gb 内存; *高性能计算系统方案建议书 中国惠普有限公司13 系统级并发任务对系统级并发任务对 cpucpu 数目要求如下:数目要求如下: 6

29、 任务*(600 万/7 万)*(1.3ghz/1.5ghz)*(2 分钟/720 分钟)*4cpu=4.95cpu 结论:对于在 12 小时内完成 6 个系统级任务,按每个任务分配 1 个 cpu, 共需 6 个 1.5ghz cpu 即可实现。如果每个系统级任务分配 2 个 cpu,共占用 12 颗 cpu,只需不到 6 个小时即可完成计算。 部件级并发任务对部件级并发任务对 cpucpu 数目要求如下:数目要求如下: 5 任务*(200 万/7 万)*(1.3ghz/1.5ghz)*(2 分钟/90 分钟)*4cpu=11cpu 按每个任务分配 2-3 个 cpu,共需 11 个 1.5

30、ghz cpu。 结论:对于在 1.5 小时内完成 5 个系统级任务,共需 11 个 1.5ghz cpu 即 可实现。 整个系统配置整个系统配置 cpucpu 数目如下:数目如下: 按照白天在 1.5 个小时内完成 5 个并发部件级任务和晚上并发 6 个系统级 人物的最大要求,考虑其他应用如 nastran、marc、ls-dyna 任务的并发计算要 求,建议本次 smp 系统的 cpu 配置总数为 12 个。 系统对内存的要求如下:系统对内存的要求如下: 我们以 ansys 应用对内存的要求作为估算标准。1700 万单元 ansys 标准题 的内存要求约为 60gb。对于本系统来说,系统最

31、大负荷时的并发任务量总计最 大为 6 x 600 万单元,因此,我们建议本次 smp 系统内存配置为 128gb。 2.3.22.3.2 smpsmp 计算服务器型号及配置计算服务器型号及配置 根据以上分析,我们配置 16cpu 和 128gb 内存的 hp integrity rx8620 安 *高性能计算系统方案建议书 中国惠普有限公司14 腾服务器作为 smp 计算服务器,并安装在 2 米高机柜内。 hp integrity rx8620 具有 51.2gb/s 系统带宽、64gb/s 内存带宽和 8.5gb/s 的 i/o 总线带宽,非常适合做高性能计算服务器,并最多可支持 32 个

32、cpu 及扩展至 256gb 内存。 hp integrity rx8620 如下图所示: 除了满足上述用户的计算要求外,配置 16cpu 和 128gb 内存的 rx8620 计算 服务器还可胜任超过单任务 3000 万以上单元的系统部件的计算,并在 4-12 小 时内得到计算结果。 hp integrity rx8620 计算服务器的配置如下: 服务器型号 hp integrity rx8620-32 处理器 12*itanium2 1.5ghz/4mb 内存128gb hd syncdram 内存 硬盘4*146gb 硬盘 网络接口(内置)1*10/100/1000base-t,接用户网

33、络 1*10/100/1000base-t,接管理网络 扩展网卡1*10/100/1000base-t,接所骨干网 dvd-rom1*dvd+rw *高性能计算系统方案建议书 中国惠普有限公司15 机柜1*rack system/e 41u,pdu 电源风扇n+1 热拔插电源风扇 软件配置- hp-ux 11i v2 tcoe 操作系统(无限用户许可) - hp workload manager(wlm)动态资源管理器 - hp mirrordisk/ux 磁盘镜像软件 - c/c+/fortran 编译器 配置的 hp integrity rx8620 还有 13 个可扩展的 pci-x 插

34、槽,未来可配置 2 块 fiber channel 2gb 适配器分别连接至 san(存储区域网络)上,以获得高性 能的数据访问及所需的及可扩展的存储空间。 hp integrity rx8620 最多可扩展 32 个 pci-x 插槽,满足 i/o 扩展的需要。 2.3.32.3.3 基于基于 epicepic 的安腾芯片技术的安腾芯片技术 针对高性能计算应用对高性能的需求,hp 在系统设计上允许通过使用不断 更新的 ipf 系列产品、采用先进的芯片组、使用更高性能的基础节点、支持更 多的节点和提供更高的带宽等多种途径扩展系统的规模,提供高性能和最大的 性能扩展空间,满足当前和为适应当前飞速

35、发展的计算需要, 一个高性能计算 的全新时代应运而生, 而 hp 正是以其基于第二代 itanium2 处理器的安腾服务 器执业界之牛耳。未来各种高端应用的需要。 具有革命意义的安腾处理器家族架构由 hp 与 intel 共同研制开发, 它基于 全新的 epic 体系结构, 降低了平台的成本, 提高了其性能和可扩展性. 基于 itanium2 的 hp 系统的速度比上一代产品快两倍, 轻松超越 ia-32 和基于标准 rsic 的系统的性能. 基于 itanium2 的惠普服务器能够提供更强大的功能, 更 多的应用, 附加的特性, 以及更广泛的解决方案。 *高性能计算系统方案建议书 中国惠普有

36、限公司16 ia64 体系结构在吸收 risc 体系结构经验教训基础上另辟蹊径,一开始 就走开放性的道路,充分利用现代芯片制造工艺发展成果、提供足够的资源; 同时,通过力争成为新的高端工业标准、扩大批量来降低成本。它的基本设计 思想是:提供一种新的机制、充分利用硬软件协同能力来提高指令并行度:一 方面大力开发先进的编译程序,消除程序中的条件转移指令、并基于猜测机制 越过转移和存储指令界限调度指令的执行次序,把程序员利用串行语义编写的 源程序转换成由可并行执行指令段序列组成的目标程序;另一方面使得处理器 具有足够资源和智能,来纪录编译程序所发现的程序中可并行执行指令段之间 的划分信息,并保证在程

37、序运行过程中发现猜测和调度有错时仍然给出正确结 果。对 ia64 体系结构处理器来说,所执行的目标程序中可并行执行的指令段 已经由编译程序显性地标识出来了、指令间的数据相关性和过程相关性也已经 由编译程序消除了,使得处理器只需使用相对简单的逻辑来实现很高的指令级 并行度(ilp) 。相反,传统的 risc 处理器没有足够的资源来纪录编译程序所产 生许多有用的信息,也没有充分利用现代编译程序强大的对程序执行过程的调 度能力。虽然在 risc 体系结构下,设计师们也使用编译程序来优化目标程序、 为处理器提高 ilp 创造条件。但是,处理器所执行的基本上是隐性并行和包含 大量相关性的目标程序,发现并

38、行、线路预测、动态调度等提高 ilp 的无序执 行技术、完全是由处理器硬件利用复杂的芯片逻辑来实现的。尽管两种体系结 构之间存在着许多差别,但是执行显性并行或者隐性并行目标程序是其中最主 要的本质差别。所以最初发明这种新体系结构的惠普公司把它称为显性并行指 令计算(epic)体系结构。 *高性能计算系统方案建议书 中国惠普有限公司17 ipf 编译程序 观察更宽的范围 可并行执行记录 机器code 编译程序 原始的源代码 编译 硬件 功能部件 . . . . . . . . . . . . 更加有效地利用执行资源 e ep pi ic c 体体系系结结构构设设计计思思想想 编编译译程程序序通通

39、过过发发现现并并行行、重重新新调调度度把把原原始始源源代代码码转转换换成成一一个个由由机机 器器代代码码组组成成的的可可执执行行记记录录; 可可执执行行记记录录中中的的指指令令字字包包含含编编译译程程序序所所产产生生的的各各种种调调度度信信息息,允允 许许全全面面控控制制处处理理器器的的整整个个操操作作过过程程; 处处理理器器硬硬件件以以丰丰富富的的资资源源、简简捷捷的的机机制制、高高主主频频、低低延延迟迟,反反演演 可可执执行行记记录录,最最终终实实现现高高并并行行度度、高高性性能能; 为为利利用用先先进进编编译译技技术术、生生产产工工艺艺、设设计计思思想想,进进一一步步提提高高性性能能、

40、留留有有充充分分的的余余地地 除了强有力的编译程序外,ia64 体系结构微处理器必须提供足够的资源 来实现 epic 设计思想、提高并行度和实现高性能,包括: 新颖的指令集:允许编译程序产生由并行指令段组成的目标程序,并纪录 指令段间的划分; 大寄存器空间:为编译程序通过寄存器换名等技术消除相关性、产生尽可 能在寄存器中进行运算的优质目标程序提供充分的余地; 具有足够长度的指令:便于在指令中访问大寄存器空间中多个寄存器和消 除程序中转移指令; 足够的指令发送端口和派送网络:用于提高每个时钟周期发送到指令数和 提高发送到速度和效率; 多种类型的新型寄存器:允许编译程序越过条件转移和存储指令的界限

41、调 度目标程序中访问内存指令的位置、消除相关性,并弥补调整位置所产生的错 误; 更多的浮点执行部件:有利于处理器实现高并行度的浮点计算; *高性能计算系统方案建议书 中国惠普有限公司18 更多的整数和多媒体运算执行部件:有利于处理器实现高并行度的整数和 多媒体信息处理; 更多的芯片上高速缓存:有利于提高缓存命中率、降低内存延迟; epic 体系结构处理器提供的寄存器资源体系结构处理器提供的寄存器资源 ia64 的 epic 体系结构是对传统 risc 体系结构的重大革新,许多方面突 破了 risc 体系结构的局限、发展了 risc 体系结构,为利用新制造工艺和技术、 按照摩尔定律预示的速度提高

42、处理器性能提供了可靠的保证。 i it ta an ni iu um m 2 2 处 处理理器器特特别别适适合合于于高高性性能能计计算算领领域域 innovative features to support superior hpc performance 6.4 gb/s bus6.4 gb/s bus 1024 tb1024 tb 8 8 1.0 ghz1.0 ghz 1 2 3 4 5 6 7 8 9 1011 registers resourcesregisters resources 128 fp, integer, 8 branch, 128 fp, integer, 8 bran

43、ch, 64 predicate, and 96 rotating64 predicate, and 96 rotating 6 instructions / cycle6 instructions / cycle 3 mb3 mb 6 integer, 6 integer, 3 branch3 branch 2 fp, 2 fp, 1 simd1 simd 2 load and 2 load and 2 store2 store handles large, complex handles large, complex workloads, accelerates loop workload

44、s, accelerates loop unrolling and branch unrolling and branch intensive code execution. intensive code execution. 5050- -bit physical and 64bit physical and 64- -bit bit virtual addressingvirtual addressingsupport for 4gb page size support for 4gb page size large, low latency, onlarge, low latency,

45、on- -die die cache accelerates data cache accelerates data throughputthroughput short pipeline to minimize short pipeline to minimize miss predict penalties miss predict penalties powerful branch arch to powerful branch arch to support predication and support predication and speculation to reduce sp

46、eculation to reduce branch branch mispredicts mispredicts high memory bandwidth for high memory bandwidth for increased calculations / secincreased calculations / sec flexible memory model flexible memory model speeds performance by speeds performance by minimizing unnecessary minimizing unnecessary

47、 cache line transfers cache line transfers parallel issue ports avoids parallel issue ports avoids reservation stallsreservation stalls dual 80dual 80- -bit bit fmacsfmacs w/ 128w/ 128- -bit bit support for efficient single and support for efficient single and dual precision multiplydual precision m

48、ultiply- -addadd high precision math / high precision math / transcendental library for transcendental library for complex scientific calculations complex scientific calculations memorymemory 2.3.42.3.4 高性能计算环境高性能计算环境 hp-uxhp-ux 11i11i tcoetcoe hp integrity rx8620 采用 hp_ux 11i v2(现在成为唯一可支持安腾芯片 的 64

49、位 unix 操作系统)操作系统(tcoe)提供高性能计算环境的基础,并配合相 应的系统管理软件、语言编译器、并行模式、相关数学库,还可支持目前流行的 各种第三方高性能计算商业软件包和应用软件包,例如 platform 的 lsf(负载平 衡软件)和 checkpoint, etnus 的 totalview, pallas 的 vampir 及 gaussian 等 等,这些可根据实际要求灵活配置, 以运行高性能计算应用程序和商业软件(含 数据库软件)。 *高性能计算系统方案建议书 中国惠普有限公司19 hp_ux11i 系统下的 c,c+和 fortran 编译器展示出卓越的实际应用性能,

50、 操作系统库充分利用了 itanium2 架构的先进技术,其中包括: mlibmlib。一系列子程序, 为科学和技术计算提供了常用数学软件, 并针对 itanium2 架构进行了优化; hphp mpimpi。实现对 itanium2 架构信息传递接口的高性能, 为开发人员提供了 api 和软件库来支持下有效,可移植的并行信息传递的应用, 是分布式计算的理 想选择。 2.3.52.3.5 计算任务提交及管理计算任务提交及管理 所有向 hp integrity rx8620 计算服务器提交的任务其所需的 cpu 内存等 系统资源是通过 hp workload manager(wlm)动态资源管理

51、工具来进行管理的。 hp workload manager(wlm)是一个非常简单、高效、易用的资源分区和管 理工具,通过它,系统管理员可根据计算服务器的资源情况及提交任务的优先 级给使用用户灵活分配和调度 cpu、内存及 i/o 等系统资源,当更高优先级的 任务提交后,hp wlm 可动态调整系统资源的分配,保证高优先级的任务获得所 需的资源。 *高性能计算系统方案建议书 中国惠普有限公司20 hp wlm 动态资源管理可通过本地或远程终端进行管理,其界面如下图所示。 *高性能计算系统方案建议书 中国惠普有限公司21 2.3.62.3.6 hphp rx8620rx8620 计算服务器的特点

52、和优势计算服务器的特点和优势 hp integrity rx8620 是具有非常高性能价格比的 smp 计算服务器,非常 适合三院三部的结构类计算任务的运算。其特点和优势如下: 1)1) 业已经测试证明的结构类高性能计算架构业已经测试证明的结构类高性能计算架构 用户现场测试结果表明,hp integrity 安腾服务器的架构最适合作为 ansys、nastran、marc 等应用的计算平台。 2)2) 优越的系统架构和优越的系统架构和 cpucpu 芯片技术优势芯片技术优势 与用户现场测试服务器的架构相同的 hp integrity rx8620 高端 smp 服务 器,提供更高的系统带宽、内

53、存总线带宽和 i/o 总线带宽。基于这样的架构, hp integrity rx8620 可为计算应用带来更高的性能和更好的加速比。 另外,hp integrity rx8620 采用基于 epic(显式并行指令计算)技术的 itanium2 mp 芯片(注:非 itanium2 dp 芯片) ,拥有更大的内存带宽和系统带 宽。与 risc 和超标量技术不同,epic 技术是在程序编译阶段即实现指令的并 行,这为强调并行的高性能任务实现更高的计算性能提供了基础。 3)3) 多操作系统支持以及硬件分区技术给用户更多的灵活性多操作系统支持以及硬件分区技术给用户更多的灵活性 hp integrity

54、 rx8620 可支持 hp-ux、linux 和 windows 等操作系统,并支 持在同一机箱内划分成 1 至 4 个完全电隔离的硬件分区(npars) 。这样,在需 要的情况下,用户可灵活配置不同大小的硬分区及分别运行相同或不同的操作 系统,从而给与用户最大的系统使用灵活性。 4)4) 易管理的高性能计算环境易管理的高性能计算环境 hp-uxhp-ux 11i11i tcoetcoe hp-ux 11i tcoe 提供高性能、高可靠及安全的 unix 操作系统基础环境, 并提供 hp 高性能 c/c+和 fortran 编译器、数学库 mlib 和 mpi 工具。 通过 hp workl

55、oad manager(wlm)动态资源管理工具,管理员可根据 smp 计 算服务器的资源情况及任务的优先级给不同使用用户灵活分配和调度 cpu、内 *高性能计算系统方案建议书 中国惠普有限公司22 存及 i/o 等系统资源,hp wlm 动态资源管理工具简单、高效、易用。 5)5) 投资保护优势投资保护优势 hp integrity rx8620 基于工业标准架构,拥有良好的可扩展能力(其中 内存可最大扩展到 256gb) ,并支持在机箱内升级到下一代 itanium2 芯片,最 大可容纳 32 颗 cpu,可实现最大程度的投资保护。 2.4 cluster 计算集群方案计算集群方案 2.4

56、.12.4.1 hphp clustercluster 计算集群结构计算集群结构 hp 公司作为高性能科学计算集群技术的领导者,可提供最强大的、易于管 理的一系列现有的 linux 集群解决方案。惠普结合了 linux 的优势、最好的软 件、内部互连、工业标准的计算机平台、惠普集群技术专家、支持和服务向用 户提供具有增加容量和能力的 linux 集群系统。 linux 集群系统也叫做 beowulf cluster 集群系统。 hp beowulf 集群的逻辑架构如下: beowulf 机群定义 计计算算节节点点1 计计算算节节点点2 计计算算节节点点3 计计算算节节点点4 计计算算节节点点5

57、 计计算算节节点点 n 内部互连 管管理理工工作作站站 开开发发环环境境 编译器 工具 调试工具 管理工具 批批处处理理系系 统统 作作业业调调度度 文文件件系系 统统 客客户户应应用用标标准准应应用用 数数学学库库 并并行行库库 操操作作系系统统/设设备备驱驱动动 网网格格 软软件件 硬硬件件 *高性能计算系统方案建议书 中国惠普有限公司23 硬件部分应包括:硬件部分应包括: 计算节点 管理节点 i/o 节点 互连系统 软件部分应包括:软件部分应包括: 操作系统 集群管理软件 开发环境 数学库、并行库 作业管理系统 文件系统 和 客户应用软件 标准应用软件 根据用户的需求分析,按 hp be

58、owulf 集群的逻辑架构,我们为本项目设 计的 cluster 计算集群方案如下: *高性能计算系统方案建议书 中国惠普有限公司24 上述 cluster 高性能集群主要为 fluent、fastran 等流体类应用提供计算 环境,另外,根据用户现场测试的结果,ls-dyna 应用在此 smp 和 cluster 架 构上均有非常出色的表现,用户也可选择在此 cluster 计算集群中来运行此类 应用。 2.4.22.4.2 clustercluster 节点系统配置节点系统配置 根据用户需求,配置高性能 计算节点配置计算节点配置 配置 64 台计算节点。每台配置如下: 计算结点 处理器 2

59、*opteron 2.6ghz *高性能计算系统方案建议书 中国惠普有限公司25 内存4gb 内存 硬盘1*60gb sata 硬盘 网络接口(内置)1*10/100/1000base-t,接用户网络 1*10/100/1000base-t,接管理网络 网络互连接口 1*infiniband adapter 远程管理 integrated lights out (ilo) 软件配置 redhat el3 u2 x86-64 ws i/oi/o 节点配置节点配置 配置 2 台 i/o 节点,每台配置如下: i/o 节点 处理器 2*opteron 2.6 ghz 内存4gb 内存 硬盘2*146

60、gb scsi ultra320 硬盘 网络接口(内置)1*10/100/1000base-t,接用户网络 1*10/100/1000base-t,接管理网络 扩展网卡1*10/100/1000base-t,接所骨干网 远程管理 integrated lights out (ilo) 软件配置 redhat el3 u2 x86-64 es 用户数据中心建立以前,用户数据及应用程序临时存放在 4 个 146gb 硬盘 中。用户数据中心建立后,可扩展配置 2 个 2gb 光纤通道卡接到 san 存储网络 *高性能计算系统方案建议书 中国惠普有限公司26 中,届时,所有 cluster 计算集群的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论