公有云巨头争夺HPC霸权_第1页
公有云巨头争夺HPC霸权_第2页
公有云巨头争夺HPC霸权_第3页
公有云巨头争夺HPC霸权_第4页
公有云巨头争夺HPC霸权_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-6-公有云巨头争夺HPC霸权每个NDv2节点都有一个100Gb/秒的ConnectX-5网络接口卡,可以连接到100Gb/秒的EDRInfiniBand互连,这明显是从MellanoxTechnology那里获得的,Nvidia正在收购该公司,Nvidia已经出售了InfiniBand和多年来,以太网已切换到Microsoft的Azure公共云中。MicrosoftAzure能够将实际的CrayXC系列超级计算机和CSStorm集群放入公共云已有两年多了,目前尚不清晰有多少公司托付Cray(现在是HewlettPackardEnterprise的一部分)来这样做。想要在云上运行HPC和AI工作负载(尤其是GPU加速的工作负载)的客户更有可能将现有实例群集在一起以创建虚拟超级计算机。

但是,微软特别渴望在Azure上建立HPC业务,因此通过在Azure上放置HPC实例来建立差异,从而在外观上和感觉上都像客户可以在自己的数据中心中部署的群集,从而消退了差异。

新的Azure实例已在丹佛的SC19超级计算机会议上宣布,本周将在技术预览中进行演示,它实际上是Microsoft放置在选定区域中的100节点群集的单个节点。(目前尚不清晰,但我们已经提出了要求。)那个名为NDv2的HPC实例明显适合于运行机器学习训练工作负载以及GPU加速工作负载。NDv2基于Tesla"Volta'V100GPU加速器的单个HGX托盘,它们全部捆绑在一起以在NVLink上共享数据。(可以认为这是NvidiaDGX-2系统中GPU简单度的一半,其中抽出了NVSwitch并在这些GPU之间引导NVLink,以便它们可以彼此寻址32GBHBM2内存块。)此GPU计算中心与基于一对20核"Skylake'XeonSP-6168Platinum处理器的主机CPU系统链接,该处理器运行在2.7GHz频率下,并安装在Microsoft自己开发的"ProjectOlympus'系统中。服务器节点具有672GB的主内存,这表明某个地方有一个虚拟机管理程序会消耗一些内存。我们猜想是96GB,并且该计算机在其24个内存插槽中装有64GB的存储棒。

每个NDv2节点都有一个100Gb/秒的ConnectX-5网络接口卡,可以连接到100Gb/秒的EDRInfiniBand互连,这明显是从MellanoxTechnology那里获得的,Nvidia正在收购该公司,Nvidia已经出售了InfiniBand和多年来,以太网已切换到Microsoft的Azure公共云中。尚不清晰Microsoft正在使用哪种拓扑将NDv2实例彼此链接,但是我们会猜想,它是HPC和AI工作负载中通常使用的胖树拓扑,而不是超扩展程序和云构建者通常使用的Clos拓扑。。Nvidia副总裁兼加速计算总经理IanBuck告知TheNextPlatformNDv2中的机器将以8个服务器的块的形式出售,总共64个GPU,这意味着随着客户扩展NDv2集群,他们正在购买胖树的相邻分支。知道这一点,您可能会认为NDv2的高端Pod是96个节点,带有768个GPU,但是我们被告知实际上是100个节点,总共有800个GPU。去搞清晰。我们的钱说实际上是前者,并且在通讯树中有人收集了数据。

这些系统明显是在运行某些Linux变体的状况下设置的(看起来是CentOS或UbuntuServer是默认版本,但RedHatEnterpriseLinux和SUSELinuxEnterpriseServer一样是一个选项),并且可以通过以下方式获得完整的Nvidia软件堆栈:NvidiaNGC云或Azure市场。微软表示已经安装了MellanoxOFED网络驱动程序(就像有任何其他选择一样),并且支持全部MPI类型和版本。明显,某处有一个虚拟机管理程序,也许是Hyper-V,Microsoft用来构建Azure云。Hyper-V运行时,没有任何性能下降的迹象(假如有的话)。狡猾说,我们很惊异这不是一个裸机。

微软尚未正式透露价格,但我们在大街上听说它将达到每台NDv2实例每小时26.44美元。这肯定是要设置某种记录,但是要看一下所承受的全部GPU性能和内存带宽。而且,即使客户没有充分利用InfiniBand网络的成本,也必需为此付费。

好玩的是,我们可以花掉这笔钱。假如没有任何数据存储服务,将一个96节点的群集运行满三年将花费6,675万美元,并且该机器将具有5.76petaflops的总峰值双精度性能。DGX-1V具有八个TeslaV100和两个Xeon处理器,大致类似于Microsoft为NDv2实例组装的节点,当前价格为119,000美元(低于两年前发布时的169,000美元)。因此,其中96台将花费1140万美元,其中包括相当数量的本地闪存和四倍于现成的网络带宽。该数字不包括电源,冷却,房地产,系统管理或InfiniBand的交换和布线成本,但是假如您将其倒退工作并分四年摊销,那么仅硬件就具有相同的5.76petaflops的性能,对于DGX-1节点而言,每小时的费用为4.53美元,大致相像。每个人都应自行担当构建一个96节点群集的成本,并了解如何比较它们的负担。或者,相当于ODM和OEM的成本,甚至比Nvidia还要廉价。微软只是为云上的HPC设置了上限。

这里要考虑的另一件事是利用率。出于争辩的考虑,假设一个内部DGX-1群集每小时仅需花费10美元,仅用于计算和联网,而无需来自PureStorage或DataDirectNetworks的本地闪存存储阵列,也无需使用Excelero,VastData或Lightbits自产试验室软件定义的存储。假如您拥有自己的混合CPU-GPU群集,并且仅在50%的时间内使用它,那么您实际上每小时要支付20美元才能拥有该群集。因此,云与本地之间的差距很快就消退了。但是,您也可以使用ODM或OEM机器来降低成本-浪潮,Supermicro,戴尔和惠普企业将使您看起来像NDv2节点,而价格却要比Nvidia廉价得多。也许少40%。这样可以将总成本降低一些,但可能不会达到您的期望。假如您提高利用率,那么每小时的本地成本也会下降。这里清晰的是利用率是打算因素,而利用率模式可能会驱动您选择在内部部署什么容量以及在云上部署什么容量。

或者,只需管理全部这些,然后将其全部移至云中就可以了。有几名HPC和AI从业者会这样做,由于他们永久不会大规模运作。

除了NDv2实例外,微软还将预览其基于64核"罗马'Epyc7742处理器的HBv2虚拟机,其中60个内核暴露在Hyper-V虚拟机管理程序之上。基础节点有两个这样的处理器;核心的基本速度为2.25GHz,最高可提升至3.4GHz。微软表示,两路HBv2节点可以双精度供应4teraflops的总峰值浮点性能(明显是单精度的两倍),此外,它已经建立的网络可以使用MPI跨越80,000个核心Azure区域内峰值容量的5.36petaflops。顺便说一下,这些节点使用Mellanox的200Gb/secHDRInfiniBand互连,这是在公共云上首次使用HDRInfiniBand。HBv2实例具有480GB的可供应用程序使用的主内存,并在两个插槽之间供应350GB/秒的内存带宽。每小时收费3.96美元。根据Microsoft在HBv2实例上为其HDR网络供应的全部MPI可扩展性限制(我们认为是672个节点),每小时仅需花费2,661美元,即可使用按需实例租用5.36petaflops云;预留实例尚不行用,这将大大降低价格。

微软盼望在Azure上拥有数据启示的四个主要功能,就像英特尔想要拥有一样,而AMD正在通过合作伙伴关系和自己的芯片来做。(这是CPU,GPU,FPGA和NNP。)为此,微软正在预览其NDv3实例,该实例将具有与一对具有768GB内存和八个SkylakeXeonSP-8168Platinum处理器的基本Olympus服务器节点。Graphcore加速器,每个处理器都带有一对IPU芯片,并供应1,216个IPU磁贴,7,296个线程和300MB的处理器内存以及惊人的45TB/sec的内存带宽。Graphcore处理器上的16个IPU核心库组通过专有的IPU-Exchange交叉开关连接,其总带宽为8TB/sec,并且在NDv3实例中,使用专有的IPU链接将多达八个Graphcore芯片粘合在一起互连。(这大致类似于带有GPU的NVLink。Graphcore芯片通过PCI-Express4.0x16插槽连接到CPU结构中。这些实例配备了Graphcore的Poplar软件开发套件。

此外,微软承诺将在Azure上供应NP系列实例,该实例将公开Xilinx的一到四个AlveoU250FPGA加速器。该服务器将由与上述其他实例相同的基本服务器实例托管,并将预装Xilinx的SDAccel2022.1运行时环境。

微软尚未发布GraphcoreNDv3系列和XilinxU250NP系列实例的价格。

在已经出售其F1FPGA实例并且尚未透露任何NNP实例方案的AWS上,SC19的目的是谈论其新的C5a和C5ad实例,这些实例将以裸机形式与192个虚拟实例一起供应。CPU(vCPU,是跨激活内核的线程)和384GB内存。C5a使用网络存储,而C5ad具有7.6TB的本地NVM-Expre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论