高性能计算系统性能评价白皮书-中国计算机学会_第1页
高性能计算系统性能评价白皮书-中国计算机学会_第2页
高性能计算系统性能评价白皮书-中国计算机学会_第3页
高性能计算系统性能评价白皮书-中国计算机学会_第4页
高性能计算系统性能评价白皮书-中国计算机学会_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公共大数据国家重点实验室(贵州大学)上海交通大学清华大学北京大学中国科学技术大学中科院科白皮书以高性能计算系统综合评价指标作为评估系统性能的新方法,牵引建设存算平衡、以数据为中心的系统,以达到三个主要目标:以实际需求牵引系统设计,以行业经验为指导系统选型,以提高系统实际使用能效为首要目标。白皮书将以综合评价指标为载体,介绍高性能计算系统设计方法,提升高性能计算系统设计选型的平衡性。白皮书从算力(包括科学计算与AI计算性能)、存力(存储性能)、运力(网络性能)和效率(系统能效与平衡性)六个维度选取指标,给出了综合性能的评测方法,和高性能计算系统的典型应用场景、典型系统配置,最后提出了建立评测社区推广评测体系的愿景,展望了标准演进的规划。白皮书内容将随着技术演化与社区成员反馈而逐步迭代,这是系统性能评价指标发布的首个版本。1高性能计算的发展趋势021高性能计算的发展趋势02CONTENTS2集群综合性能评价方法的演进051.1.存储系统的重要性愈发凸显031.2.系统综合性能更突出1.1.存储系统的重要性愈发凸显031.2.系统综合性能更突出042.2.以性能评价牵引建设存算比合理的计算系统052.3.以性能评价牵引使用多协议互通的存储系统0634.1.六个维度度量高性能计算系统124.1.1.科学计算性能维度4.1.六个维度度量高性能计算系统124.1.1.科学计算性能维度123.2.性能评价的标准规范104.1.2.AI计算性能维度124.1.3.存储性能维度124.1.4.网络性能维度134.1.5.系统能效维度134.1.6.系统平衡性维度134.2.综合评价计算方法164.3.指标权重与平衡性范围的设计初稿165性能评价方法的应用195.1.典型算力下的集群设计示例195.1.1超大型集群设计示例205.1.2大型集群设计示例215.1.3中型集群设计示例225.2.典型场景下的集群特性分析235.2.1.“IO密集型”超算系统:以面向基因测序的集群为例235.2.2.“IO密集+计算密集型”超算系统:以面向气象预报的集群为例245.2.3.“AI密集型”超算系统:以面向自动驾驶的集群为例256高性能计算系统性能评价规范的展望2711高性能计算的发展趋势党的十九届四中全会首次将数据作为生产要素参与分配,数据的作用受到国家高度重视,2022年1月,国务院《“十四五”数字经济发展规划》中要求“以数据为关键要素,加强数字基础设施建设”,数据资源汇聚、共享、流通、应用的需求快速增加,对存储、计算、网络、安全等的要求也越来越高,以数据为中心的新型数字基础设施将有力支撑经济社会数字化发展。2021年5月,国家发展改革委会同中央网信办、工业和信息化部、国家能源局联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出构建数据中心、云计算、大数据一体化的新型算力网络体系,布局建设全国一体化算力网络国家枢纽节点,以满足数据资源存储、计算和应用需求的大幅提升。在需求和政策双重牵引下,全国各地区大力推进数字基础设施建设的发展,包括计算、存储和网络在内的基础设施和技术均被高度重视,2022年7月,工业和信息化部主办的中国算力大会上发布了中国综合算力指数,从算力、存力、运力、环境四个维度综合评价新型基础设施和新型数据中心的发展水平。高性能计算是重要的数字基础设施、国之重器,是高算力、高存力、高运力的代表。2020年以来,十四五信息化规划和新基建驱动我国高性能计算建设进入高速增长期,多地地方政府和企事业单位都在积极建设高性能计算中心和部署新一代高性能计算系统,将其作为推动经济社会快速发展的关键措施。随着数据价值的不断提升以及大数据、人工智能等新兴数字产业的兴起,高性能计算正在由“大计算”的HPC加速迈向“大计算”+“大数据”的HPDA(高性能数据分析),并呈现5大趋势特点。多元应用驱动多元算力。CPU处理器和GPU、FPGA、xPU等专用处理器相结合构建高性能计算的异构算AI计算发展迅猛。AI计算成为高性能计算算力发展最为迅猛的类型之一,且逐步呈现计算芯片DSA化、计算网络多平面化等特征。成为与传统高性能计算越来越有区分的领域,这种变化与特征在大模型时代表现的更异构多态复合归一,资源集约推动架构融合化。一方面,根据应用的需求,构建不同性能和功能的计算和存储环境,通过灵活组织异构计算体系结构,实现计算、存储资源比例的灵活调整和性能功耗的平衡。另一方面,围绕应用负载特征开展体系结构软硬件协同设计,提升资源的使用效率与性能。高速互联,更宽更快推动全光化。当前高性能计算互联网络主要有Infiniband、Slingshot和RoCE等,随着技术积累和产业需求升温,光子集成技术已从功能器件研究向规模化集成芯片演进,光交换技术趋于成熟,全光交换成为发展趋势。按需弹性极简运维,加速应用容器化。容器可以为高性能计算工作负载提供动力,并为大规模计算工作负载启用若干功能框架,能够提前封装高性能计算运行环境,易获取、易操作、易利用,在科研人员中普及化使用高性能计算。以数据为中心,数据密集型超算快速发展。进入大数据时代后,数据的规模不断增长。随着HPDA的发展,高性能计算系统的业务负载需考虑HPC、大数据和AI的混合叠加,对于数据的存储和处理能力提出了更高要求。高性能计算系统需要从数据密集型角度进行设计,支持应用驱动的科学计算工作流,推动负载从计算科学发现向数据科学发现转变。总结以上趋势,不难看出,当前计算性能已不再是评价高性能计算集群的唯一标准,集群的综合性能日益受到重视,尤其是与数据息息相关的存储系统。021.1.存储系统的重要性愈发凸显传统的高性能计算行业以算力作为核心生产力,如今,业界普遍意识到,当数据存力不足或者效率低下时,数据就无法高效流动、按需使用,也就无法充分挖掘其价值,小则影响算力作用的充分发挥,大则关乎整个高性能计算产业的发展。存储性能是继计算性能之后,各行各业数字化能力建设的一种进阶,在数字经济发展中至关重要。存储与计算性能高度融合,方能真正形成新的核心生产力,能够在各种业务场景中让效率指数级增加,让生产力获得前所未有的解放。平衡存算比是当前超算集群融合存储与计算性能的主要方法之一。目前,芯片不断朝着高性能、低成本、高集成的方向发展,但随着单芯片集成的晶体管数量增多,高耗能等问题随之出现,导致芯片性能难以持续提升,无法大规模提升算力。多芯片堆叠封装为芯片突破性能瓶颈提供了可能,平衡存算比可有效缩短数据搬运路径,降低搬运功耗,实现芯片级算力与IO的平衡。从设备内视角来看,CPU、总线速度、主内存带宽及容量的发展速度不一,尤其是在处理海量数据过程中,内存与存储的空间和带宽成为制约性能增长的主要瓶颈,如果存储设备能平衡CPU和IO性能,将在很大程度上释放算力潜力。此外,随着数据量的增加,数据处理和存储的效率也需要及时跟进。在多样化的HPC场景中,日均产生的数据量可达PB级,需要超大的容量方能完成归档。除此之外,在海量数据处理过程中,数据可能需要经过多种格式的转换,比如自动驾驶和石油勘探这两个高性能计算应用较为普遍的领域,只有将NFS格式的数据转换成HDFS格式后,系统才能进行有效处理。海量的数据转换需要耗费大量的时间,其中还会损坏部分数据,而且产生的数据冗余也占用了宝贵的存储空间。因此,存储设备实现多协议互访可有效提升数据结构多样化的处理效率。03系统综合性能更突出虑的重要因素,绿色节能也成为衡量高性能计算平台综合性能的重要尺度,TOP500和Green500排名榜单均加E不超过20MW。诚然,硬件工艺的更新换代对能040522集群综合性能评价方法的演进设计高效工作的高性能计算集群系统,需要在目标场景指引下,平衡处理器、网络和存储等组件的选型,合理搭配。高性能计算集群的综合性能评测方法能够发挥“标尺”作用,对衡量设计的有效性产生着重。2.1.性能评价方法的演进趋势现有的性能评价规范专注细分领域,存在重计算、轻存储、评测指标分散、缺少应用场景和缺少综合的性能评价规范等缺点。这些评测规范通常过分强调被测系统某一个方面的能力,容易造成偏科。例如,在设计系统时若以浮点计算能力为唯一考量目标,以此为指导设计出的高性能计算系统,难以全面满足高算力、高存力、高运力、高能效的新型基础设施要求。此外,现有评价方法对新场景的关注还不够。随着NVMe全闪存储介质、基于纠删码的存储冗余机制、多协议互通存储系统、新一代异构加速处理器的面市,诞生了诸如BurstBuffer闪存缓冲文件系统、超高密度存储系统、多功能一体化存储系统、面向超大模型训练的人工智能专用系统等新的集群应用场景。如何为这些场景分类,如何评价设计系统与这些场景的适用程度,是新的性能评价方法需要解决的问题。06NFSCIFSMPIPOSIXSNFSCIFSMPIPOSIXS3容易被忽视的问题。论文《Ananalysisofsystembalanceandarchitecturaltrendsbasedontop500supercomputers》总结今年Top500超算集bHDFHDFSIndexLayerPersistenceLayer评测领域基础计算性能图计算性能评测领域基础计算性能图计算性能33高性能计算性能评价现状3.1.性能评价基准测试程序当前,业内研究人员发布了数十个具有不同侧重面的高性能计算集群性能基准测试程序,按照评价的领域,可以分为基础计算性能、图计算性能、AI计算性能、存储网络性能、设备能效等等。各个主要领域中相对知名的基准测试程序如下表所示:知名基准测试程知名基准测试程序TOPTOP500、HPCG、PARSEC、SPECCPU、SPECHPC、SPECACCELGraphGraph50007评测领域评测领域AI计算性能存储与网络性能设备能效知名基准测试程知名基准测试程序HPCAI500、MLPerf、AIPerf、AISBenchIO500、OSUMicrobenchmarksHPCChallengeGreen500其中,被广泛使用的包括Linpack(求解线性方程组性能)、HPCG(求解共轭梯度性能)、IO500(存储性能)、Graph500(图计算性能)、AI500(AI计算性能)等,但是均专注于各个细分的评测领域,缺少对集群的综合性能评测,且多数没有形成系统性的评价规范。始于1993年的TOP500榜单是目前最为熟知的高性能计算性能评价规范,由国际组织“TOP500”编制,每半年发布一次,TOP500排名基于Linpack基准测试衡量线性方程计算的速度和效率,最新版HPL2.0规范从2008年一直用到现在,不过随着越来越多的应用程序采用微分方程等复杂计算方式,Linpack性能与实际计算效率间的差距将越来越大。因此田纳西大学教授JackDongarra提出了HPCG (高度共轭梯度基准测试)标准,与Linpack关注线性方程的计算性能不同,HPCG使用更复杂的微分方程计算方式。Linpack更考验超算的处理器理论性能,而HPCG更看重实际性能,对内存系统、网络延迟要求也更高。除了TOP500以外,多个评测榜单试图从不同方向对超算集群的性能展开评价:面向图计算性能的Graph500标准于2010年发布,采用GTEPS基准测试评价,更加适用于在数据密集型应用场景中的评测;BenchCouncil的AI500测试标准,基于增量迭代的方法学和智能科学计算应用场景,目前包含3个典型科学数据集,14个负载的不同软件栈实现;IO500是衡量高性能计算存储性能的常用评价标准,于2017年11月发布,该标准涵盖带宽和元数据两项基准测试。同时,业界还存在多个商用或非商用的评测基准套件,例如侧重计算性能的SPEC系列和PERSEC、侧重AI应用性能的MLPerf、侧重存储与网络性能的OSUMicrobenchmarks和HPCChallenge等。以下是SPECHPC与HPCChallenge两个被广泛应用的基准测试套件的测试内容:SPECHPC包含9个测试,涵盖了宇宙学、天气学、高能物理学等多个方向的科学计算问题,侧重于科学计算性能的测试。SPECHPC的评分规则相对简单,使用了基准集群的运行时间与被测集群的运行时间的比值作为集群的评分。08评测领域科学计算性能基准测评测领域科学计算性能基准测试HPL:测量求解线性方程组的浮点执行率DGEMM:测量双精度实矩阵-矩阵乘法的浮点执行率FFT:测量双精度复数一维离散傅里叶变换(DFT)的浮点执行率PTRANS(并行矩阵转置):来自多处理器内存的大型数据数组的传输速率,测试网络总通信容量RandomAccess:测量内存的整数随机更新率STREAM:测量可持续内存带宽和简单矢量内核的相应计算速率通信延迟:测量将8字节消息从一个节点发送到另一个节点所需的时间通信带宽:测量传输大小为2,000,000字节消息所需的时间基准测基准测试LBMD2Q37:计算流体动力学SOMAOffersMonte-CarloAcceleration:物理/聚合物系统Tealeaf:物理学/高能物理学Cloverleaf:物理学/高能物理学Minisweep:核工程-辐射传输POT3D:太阳物理学SPH-EXA:天体物理学和宇宙学HPGMG-FV:宇宙学、天体物理学、燃烧miniWeather:天气HPCChallenge包含了8个测试,分别属于科学计算性能、存储性能与网络性能三个评测领域。然而,该,仅对于各个测试分别输出了性能的数值。评测评测领域计算性能存储性能093.2.性能评价的标准规范现有的高性能计算性能评价规范非常碎片化。国内外标准化组织尚未发布针对高性能计算集群综合性能评价的国家或行业标准,现有标准集中于数据中心和存储,缺少集群性能相关的国标、行标、ISO标。相关要有如下几项:发布时发布时间数据中心存储能效测评规范分布式块存储总体技术要求计算存储分离架构的分布式存储测试方法服务器应用场景性能测试方法高性能计算通用计算CPU性能测试评价技术要求分布式块存储总体技术要求计算存储分离架构的分布式存储测试方法信息技术人工智能服务器系统性能测试规范PerformanceBenchmarkingforArtificialIntelligenceServerSystemsT/CESA1214-2022T/CESA1215-2022T/CESA1213-2022T/CESA1169-2021T/CCSA263-2019T/CCSA325-2021YD/T4030-2022GCC7003-2020标准名称IEEEP29372020/11/26019/12/23标准号2022/4/82022/92022/72022/72022/7型2021/9地标地标地标标其中,《数据中心存储能效测评规范》规定了数据中心存储设备的能效测试方法与能效等级评价方法,对测试环境、测试方法、能效指标、加分项均做出了规范;《分布式块存储总体技术要求》针对分布式块存储解决方案提出功能、性能、可靠性等方面的要求;《计算存储分离架构的分布式存储测试方法》规定了计算存储分离架构的分布式存储方案的功能、性能、兼容性、扩展性、可靠性、安全性、运维、硬件和网络测试方法;《服务器应用场景性能测试方法高性能计算》通过制定标准化的评估方法,对比评估绿色计算产品与传统架构产品在该场景所关注指标、特性上的差异化优势,展示了以ARM架构为代表的绿色计算服务器在高性能计算应用场景的性能表现。44高性能计算性能指标和评价规范标具有科学性和可解释性,我们充分调研了Top500各大超级计算集群的性能指标,相应数据集的链接为214+提升建议214+提升建议浮点计算性能存储带宽浮点计算性能(Flops)存储带宽(GB/s)网络延迟(微秒)......19项基础指标19项指标权重分析集群特点,给出特定场景下的提升建议分析集群特点,给出特定场景下的提升建议度共19项基础指标为19项指标设计维度内权重维度的性能评分334.1.六个维度度量高性能计算系统4.1.1.科学计算性能维度2个指标,用于衡量高性能计算集群以双精度浮点处理典型科学计算内核的性能。HPL双精度浮点计算性能:系统按双精度使用高斯消元法求解稠密线性方程组时的计算速度,单位:FLOPS。HPCG双精度浮点计算性能:系统使用双精度共轭梯度法求解稀疏线性方程组时的浮点运算速度,单位:FLOPS。4.1.2.AI计算性能维度本维度共包含以下2个指标,用于衡量AI计算集群以典型业务负载表现为衡量方式的性能,2个指标使用的模型分别为MLPerf基准程序中的ResNet-50和MaskR-CNN模型。图像推理任务的计算性能:系统使用ResNet-50模型在图像推理任务的性能,单位:VFLOPS。测试数据集使用ImageNet,遍历周期(Epochs)设定为90,性能度量单位VFLOPS计算方法如下:FLOPS*(实测准确度/目标准确度)^5,其中,FLOPS是推理过程中的浮点运算速度,实测准确度是测试过程实际达到的Top1准确度;目标准确度是测试标准预定义的最佳模型质量Top1,设定为0.763。图像训练任务的计算性能:系统使用MaskR-CNN模型在COCO数据集上的图像训练任务中的训练速度,单位:图片/秒。质量要求为每AP0.377Box和0.339Mask,性能度量单位为完成质量要求的训练所花费4.1.3.存储性能维度本维度共包含以下5个指标,参考了在IO500等榜单中被广泛使用的测试基准,同时扩展了存储新能力 (多协议互通)的测试,衡量高性能计算集群存储系统的性能特征。文件系统单客户端单流带宽:文件系统在单客户端单流测试条件下能达到的带宽,单位GB/s。文件系统单客户端多流带宽:文件系统在单客户端多流测试条件下能达到的带宽,单位GB/s。文件系统聚合带宽:文件系统在多客户端多流测试条件下能达到的聚合带宽,单位GB/s,按照文件系统可文件系统聚合IO操作速率:文件系统在多客户端多流测试条件下能达到的IO操作速率,单位:IOPS,按多协议平均访问效率:分别以HDFS、对象、NFS三种协议访问文件系统上的同一份数据时,与使用POSIX标准文件访问协议的速率比值,取三项比值的平均数,不支持的协议比值为0,单位为百分比。4.1.4.网络性能维度本维度共包含以下3个指标,以描述高性能计算集群的网络性能。随着集群规模的扩大、精度要求的提高、模型趋于复杂,以及数据中心、云计算、异地超算等分布式基础设施的概念提出,集群对IO通信性能的需集群性能的一个不可或缺的维度,与存力一同保障了算力的高效率运行。点对点通信带宽:系统中任意两个节点间的双向通信带宽,单位Gbps。点对点通信延迟:系统中任意两个节点间的通信往返延迟,单位微秒。宽与所有节点注入带宽的比值,单位为比值。4.1.5.系统能效维度本维度包含2个指标,用于评价高性能计算集群的能源利用效率。随着高性能计算集群算力突破E级大关,核心挑战。提升算力与存力的能源利用效率势在必行。单位功耗支持浮点计算能力:系统的HPL浮点计算性能计算子系统能耗的比值,计算单位功耗下的浮点计算能力,单位FLOPS/W。单位功耗的可得存储容量:系统的可得存储容量与存储子系统额定功率的比值,计算单位功耗下的可得存储容量,单位TB/W。4.1.6.系统平衡性维度5个指标,用于评价高性能计算系统的容量层级。。BurstBuffer与内容容量比:BurstBuffer容量与内存容量的比值,单位为比值。长久存储与BurstBuffer容量比:并行文件系统容量与BurstBuffer容量的比值,单位为比值。内存与BurstBuffer的带宽比:内存带宽与BurstBurffer带宽的比值,单位为比值。BurstBuffer与文件系统的带宽比:BurstBuffer带宽与并行文件系统带宽的比值,单位为比值。匹配度=(1)V上匹配度=(1)上限下限VV+VV上限下限表高性能计算性能指标汇总表度位备注系统使用双精度高斯消度位备注系统使用双精度高斯消元法求解稠密线性方程组时的浮点运算速度。标能PFLOPS科学计算性能HPCG双精度浮点计算HPCG双精度浮点计算实际测试值TFLOPS度法求解稀疏线性方程组时的浮点运算速度。图像推理任务的计算性能VFLOPS图像推理任务的计算性能VFLOPSAI计算性能模型在图像推理任务的性能。测试数据集使用ImageNet,遍历周期 (Epochs)设定为VFLOPS计算方法如下:FLOPS*(实测准图像训练任务的计算性能图像训练任务的计算性能模型在COCO数据集上的图像训练任务中的训文件系统单客户端单流文件系统单客户端单流GB/s流测试条件下能达到的文件系统单客户端多流文件系统单客户端多流GB/s流测试条件下能达到的存储性能GB/GB/s流测试条件下能达到的文件系统聚合IO操作文件系统聚合IO操作速率IOPS流测试条件下能达到的度存储性能系统平系统平衡性数值说数值说明单位功耗的浮点计算性能单位功耗的可得存储容量内存容量(GB)与处理器标备注备注时,与使用POSIX标准系系统中任意两个节点间的MPI消息通信双向宽系系统中任意两个节点间的MPI消息通信往返延迟。计算网络性能时,该指标取延迟数值数。系系统网络的对分带宽与所有节点注入带宽的比值。系系统的浮点计算实测性能与计算子系统能耗的系系统的可得存储容量与存储子系统额定功耗的比值。评评分时如下公式转换为“匹配度”再代入综合位GbpsGFLOPS/W数值说数值说明评分时如下公式转换为“匹配度”再代入综合系统平衡性备注度位标4.2.综合评价计算方法本评价规范使用几何平均数计算每个维度的性能评分,为每个被测集群评出科学计算性能、AI计算性能、存储性能、网络性能、系统能效和系统平衡性六个维度的评分。维度的性能评分按照公式(2)计算。系数,建议该常数值为100。考虑到不同计算集群的算力规模,使用公式(2)对各个维度进行评分之前,需要参考表2中的HPL实测性能对集群进行划档分类,然后再进行评分。对高性能计算集群的评价,最终会输出两个结果:(1)评测数据详表:该表详细记录各指标性能的数值;(2)性能雷达图:以多维度雷达图来显示集群系统在不同维度的性能评分。4.3.指标权重与平衡性范围的设计初稿我们根据经验初步设计了如下的指标权重,主要考虑是:在计算性能维度,以HPL为代表的稠密矩阵计算方法应用最广泛,权重最高。存储性能维度的五个指标重要性相当,均分1.0权重。网络性能维度中,点对点带宽最重要因此权重最高。系统能效方面,单位功耗浮点性能比可用存储容量重要,因此权重更高。系统平衡性方面,五个指标重要性相当,均分1.0权重。综合评价方法的使用者可以针对具体测试场景,按需设置权重。度科学计算性能科学计算性能AI计算性能存储性能系统能效系统平衡性表指标权重标HPLHPL精度浮点计算性能HPCG双精度浮点计算性能GB值BurstBuffer存容量的比值存储容量与BurstBuffer容量的比值BurstBuffer的比值rstBuffer重0.20.2我们调研了历年Top500超算集群,在现有集群建设经验基础上,初步整理了各层级存储系统容量、带宽的配比范围。按照集群实测峰值计算能力,我们将集群划分为三档规模,分别是:性能大于30PFLOPS的超大型集群,性能10-30PFLOPS的大型集群,和1-10PFLOPS的小型集群。不同规模的集群具有不同的设计考量,因此在平衡性上有范围差异。后续将补充其他评估方法,不断完善建议值范围。标内存容量(GB)与处理器核心数的比值BurstBuffer容量与内存容量的比值并行文件系统存储容量与BurstBuffer容量的比值内存带宽与BurstBuffer带宽的比值BurstBuffer带宽与并行文件系统带宽的比值按按实测峰值计算能力分类>30>30PFLOPS10-30PFLOPS1-10PFLOPS>30PFLOPS10-30PFLOPS1-10PFLOPS>30PFLOPS10-30PFLOPS1-10PFLOPS>30PFLOPS10-30PFLOPS1-10PFLOPS>30PFLOPS10-30PFLOPS1-10PFLOPS建建议值范围2~84~62~520~4010~302~201500~50001000~3000800~20004~82~655性能评价方法的应用择其他组件的性能。2)分析典型场景下的集群特性,将集群划分为“计算密集”、“IO密集”、“计算+IO密5.1.典型算力下的集群设计示例我们调研TOP500超算集群的相关性能,基于集群实测性能,将集群划分为三档:30PFLOPS以上、10-30PFLOPS、1-10PFLOPS,分别对应超大型计算集群、大型计算集群和中型计算集群。在2022年Top500值分标值分标HPL双精度浮点计算性能(单位:PFLOPS)HPCG双精度浮点计算性能(单位:TFLOPS)图像推理任务的计算性能(单位:VFLOPS)图像训练任务的计算性能(单位:图片/秒)位:GB/s)位:GB/s)件系统聚合带宽(单位:GB/s)148.647578475782725.75AI计算性能AI计算性能307000000035942400(*)825003571825003571826000000文件系统聚合IO操作速率(单位:IOPS260000000.860.86200点对点网络带宽(单位:Gbps)2000.567040.567041.0221.02214.719单位功耗的浮点计算性能(单位:GFLOPS/W14.719系0.02480.02481(+)0.68(+)0.89(+)0.95(+1(+)0.68(+)0.89(+)0.95(+)1(+)BurstBuffer存容量的比值系统平衡性90系统平衡性90存与BurstBuffer的带宽比值BurstBuffer统带宽的比值注:(+)表示匹配后的值,(*)表示该项指标结果为估计值20型集群设计示例“Hawk”超级计算机坐落于德国斯图加特大学,该型超级计算机主要服务于在能源、气候、尖端学术、工业和健康等领域的研究,在发电厂的优化、区域和全球气候模型的相互作用、流行病和迁徙的探索、车辆和飞机的空气动力学改进以及噪音排放的测定等领域均发挥着重要的作用。使用上文所述的评分方法,“Hawk”超级计算各维度的指标和各维度的评分结果如下所示,不同维度内的各指标所占权重见附录表格。部分性能指标结果难以获得,我们通过推测得出。度科学计算性能AI计算性能存储性能系统能效系统平衡性标HPL双精度浮点计算性能(单位:PFLOPS)HPCG双精度浮点计算性能(单位:TFLOPS)图像推理任务的计算性能(单位:VFLOPS)图像训练任务的计算性能(单位:图片/秒)位:GB/s)位:GB/s)件系统聚合带宽(单位:GB/s)文件系统聚合IO操作速率(单位:IOPS)点对点网络带宽(单位:Gbps)单位功耗的浮点计算性能(单位:GFLOPS/W)GB值BurstBuffer存容量的比值存储容量与BurstBuffer容量的比值存与BurstBuffer的带宽比值BurstBuffer统带宽的比值值19.336047334.65240329(*)26743581297600(*)9(*)11(*)1760(*)18190000(*)0.82(*)2006710.81(*)4.95350.00641(+)0.53(+)1(+)1(+)(*)0.9(+)(*)分304060.680注:(+)表示匹配后的值,(*)表示该项指标结果为估计值中型集群设计示例“Wilkes-3”坐落于英国剑桥大学,是世界上第一台云原生超级计算机,该超算中心为英国的科学研究提供了主要的计算资源,在天体物理学、材料模拟、核聚变发电和临床医学研究具有重要的应用。使用上文所述的评分方法,“Wilkes-3”超级计算各维度的指标和各维度的评分结果如下所示,不同维度内的各指标所占权重见附录表格。部分性能指标结果难以获得,我们通过推测得出。值分标值分标HPL双精度浮点计算性能(单位:PFLOPS)HPCG双精度浮点计算性能(单位:TFLOPS)图像推理任务的计算性能(单位:VFLOPS)图像训练任务的计算性能(单位:图片/秒)位:GB/s)位:GB/s)件系统聚合带宽(单位:GB/s)文件系统聚合IO操作速率(单位:IOPS)点对点网络带宽(单位:Gbps)2.29728科学计算性能72841.22(*)408981(*)45039380AI计算性45039380496000(*)10(*)15(*)存储性能30389存储性能3038913240000(*)0.87(*)2006910.59(*)6910.91(*)0.91(*)29.7单位功耗的浮点计算性能(单位:GFLOPS/W29.7146系1460.016(*)1(+0.016(*)1(+)1(+)(*)1(+)(*)0.93(+)(*)1(+)(*)GB值BurstBuffer存容量的比值系统平衡性99系统平衡性99存与BurstBuffer的带宽比值BurstBuffer统带宽的比值注:(+)表示匹配后的值,(*)表示该项指标结果为估计值221-数据收集6-数据分发/归档1-数据收集6-数据分发/归档5.2.典型场景下的集群特性分析为探索可有效评估高性能计算集群系统的性能指标,本文充分调研了几个典型的高性能计算应用场景,其中包括基因测序、气象预报、油气勘探、自动驾驶和新材料设计领域,研究不同场景下的应用特性和典型,分析不同应用场景下的超算集群需要拥有的性能特点。主控主机 (部署SGE/PBS主控主机2-基因转换3-基因拼接4-基因比对52-基因转换3-基因拼接4-基因比对5-基因注释主机1执行主机N (集群部署)BAMBAM/SAM文件FASTQ文件FASTQ文件XXX格式VCF文件图:基因测序业务流基因测序的业务流程主要包括:文库制备(样本上机+数据下机)、生信分析(测序分析+报告解读)、分析后解读(报告交付+归档分发)。其中生信分析阶段包含文件格式转换、解压缩、基因拼接、比对、排序、去重、变对环节CPU行量为6TB/40h,满负荷下一年能产生1PB左右数据,加之生物信息分析过程一般会产生原始数据量5倍左右的中足1PFLOPS,但每核心配备的内存数超过10GB,且采用了低延迟Infiniband网络,文件系统聚合吞吐能力达到23表某基因测序集群对对应评测方法的关键指标HPL性能:0.58PFLOPS每核心内存数:10.6GB节点间网络延迟:0.64微秒聚合吞吐能力:324GB/s量8748核心93312GB100GHDRInfiniband100PBCPU储硬件数值气象预报通过采集各种观测手段获得的数据作为初始场,在一定的初值和边值条件下,利用高性能集群的算力,求解描述天气演变过程的流体力学和热力学的方程组,从而预测未来一定时段的大气运动状态和天气现象。主要包括气象观测数据采集、数据预处理、模式计算以及后处理。其中,模式计算对高性能集群系统的计算、网络和IO都有很高的要求,属于典型的“IO密集+计算密集型”HPC应用。数值气象预报应用软件的运行时长通常和预报区域大小,网格数量、分辨率大小、设计算法及HPC集群性能等因素有关。通常而言,预报区域越大,网格数越多、分辨率越精细以及设计算法越复杂对HPC的性能和规模有着更高的要求。一方面,现有的数值气象模式都采用MPI方式实现并行计算,适合在多个高性能服务器上并行执行;另一方面,数值气象预报模式本质上是基于流体力学和热力学等设计的,网格数量的多少一定程度上决定着模式执行的并行度,所以数值气象模式是计算密集型的应用。因此,跟计算集群的浮点计算能力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论