电子行业市场分析3_第1页
电子行业市场分析3_第2页
电子行业市场分析3_第3页
电子行业市场分析3_第4页
电子行业市场分析3_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子行业市场分析一、DGX服务器集群架构需要服务器、网卡、交换机、线缆、光模块等关键硬件为实现AI大模型训练、科学计算等高算力需求工作,需要使用数百甚至上千个GPU组成的计算单元作为算力基础评估、优化模型的配置和参数。为了使这样一个庞大的计算单元能够有效发挥其效率,需要使用低延迟、高带宽的网络联接各个服务器节点,以满足服务器/GPU间计算、读取存储数据的互联通信需求,同时对整个集群系统进行管理。服务器集群的网络系统包含服务器、网卡、交换机、线缆(包含光模块)等主要硬件。就网络构成来看,网卡搭载于服务器内部,网卡直接与CPU相连或通过PCIeSwitch与GPU相连;一层交换机通过服务器机身的端口与服务器内的网卡相连;线缆用于实现服务器-交换机、交换机-交换机间的连接,如果使用光信号实现信号传输,线缆两端均需要搭载光模块。(一)服务器我们参考NVIDIADGX系列服务器的硬件配置,重点关注网卡、机身网络端口的配置情况,分析服务器集群的网络架构发展在服务器硬件端的反映。1.DGX-12016年,NVIDIA发布了搭载8颗V100的DGX-1服务器。服务器内配有4颗单端口100Gb/sIB/以太网NIC。服务器机身有4个QSFP28端口,单端口支持100GEDRIB网络或100G以太网络。此外,服务器机身还有2个10GBASE-TRJ45以太网端口、以及1个10/100BASE-TIPMI网络RJ-45端口。2.DGX-2NVIDIA2018年发布的DGX-2通过首代NVSwitch,内部搭载了16颗V100GPU。服务器内共有10个ConnectX-5网卡,其中8颗可用于连接100GIB或以太网络,其余2颗用于100G以太网络。10张网卡对应服务器端的10个QSFP28端口。此外,服务器端还有2个RJ-45端口,均支持千兆以太网,用于In-Band和Out-of-Band管理。3.DGXA1002020年发布的DGXA100搭载了新一代MellanoxConnectX-6网卡,单端口支持的带宽提高至200Gb/s。在DGXA100内,共有8个支持IB网络的单端口ConnectX-6网卡、1个支持IB/以太网络的双端口ConnectX-6网卡,此外,服务器可选装1个双端口ConnectX-6网卡。在服务器机身,共有12个QSFP端口,用于计算、存储、In-Band管理;以及1个用于Out-of-Band管理的RJ-45端口。4.DGXH1002022年最新发布的DGXH100搭载了8个可支持IB/以太网络的单端口ConnectX-7网卡,最新一代ConnectX-7网卡支持NDR400Gb/s带宽;此外还有2个可支持IB/以太网络的双端口Bluefield-3DPUs,单端口速率200Gb/s。服务器机身配有4个OSFP端口用于计算网络连接;配有4个QSFP56端口,用于存储网络、In-Band管理网络;此外还有1个用于RemoteHostOS管理的10G以太网RJ-45端口、1个用于RemoteSystemManagement管理的1G以太网RJ-45端口。在DGXH100服务器,网卡与端口的对应关系为:2个ConnectX-7网卡(400Gb/s)对应一个OSFP端口(800G),1个Bluefield-3DPU对应2个QSFP56端口。(二)网卡DGXA100和DGXH100服务器内分别搭载ConnextX-6和ConnectX-7网卡。ConnectX-7相较于前者,在网络带宽、单网卡支持端口数量、PCIe适配性等方面均有提高。(三)交换机1.计算网络、存储网络交换机参考NVIDIA服务器集群设计,集群中计算网络、存储网络均使用IB网络互联,推荐使用的服务器型号也是相同的。DGXA100和DGXH100服务器集群内IB网络推荐使用的交换机分别为MellanoxQM8790和MellanoxQM9700。MellanoxQM9700相较于前者,在单端口网络带宽、端口数量、总吞吐量方面均有提高。2.In-Band管理网络、Out-of-Band管理网络交换机DGXA100和DGXH100服务器集群内In-Band管理网络推荐使用的交换机分别为SN4600和SN4600C;Out-of-Band管理网络推荐使用的交换机分别为AS4610和SN2201。(四)线缆、光模块服务器-交换机、交换机-交换机间的连接主要通过DAC(DirectAttachCable,一般译为直接连接电缆或直连铜缆)或AOC(ActiveOpticalCable,有源光缆)。DAC是两端带有固定接头的铜轴线缆组件,根据两端接头是否配有信号补偿等芯片,DAC可分为有源DAC和无源DAC;DAC中间传输的是电信号,不涉及到电到光或光到电的转换;AOC由两端的光模块和中间的多模光纤组成,信息在AOC中以光信号形式传输。有源DAC、无源DAC、AOC都可以用于服务器-交换机、交换机-交换机之间的连接。三种连接方式的主要区别在于传输距离、功耗和成本。参考Mellanox/NVIDIA官网,200GDAC产品价格在300~1500美元不等,200GAOC产品价格在2100~2300美元不等。在接下来的二、三两章,我们参考NVIDIADGXSuperPOD白皮书中关于服务器集群网络的构建,针对DGXA100和DGXH100组成的集群,分析交换机、线缆、光模块的数量需求。二、DGXA100服务器集群中单颗A100对应约7颗200G光模块需求在DGXA100和DGXH100网络集群中,根据网络协议,主要使用InfiniBand和以太网两类网络;根据服务器工作过程网络的功能,可以分为计算网络、存储网络、InBand管理网络、Out-of-Band管理网络四类。其中计算和存储使用IB网络,In-Band管理和Out-of-Band管理使用以太网。参考NVIDIADGXA100集群的网络架构,在集群中每20台DGXA100组成一个SU,每4台DGXA100被放置在一个单独的机架(ComputeRack)上,该机架上配有2个配电单元(PowerDistributionUnit,PDU);同时各类交换机被单独放置在一个机架上;即每个SU包含6个机架(5个用于放置服务器、1个用于放置交换机)。(一)计算网络(ComputeFabric)在参数量较大的AI模型训练中,需要多个GPU协同并行工作;通过把数据在N个GPU之间分配,即每个GPU并行处理1/N的数据量,理想情况下可以将训练速度提高N倍。在实际工作过程中,各个GPU针对被分配的数据训练得到局部梯度(LocalGradients),在这个训练阶段结束后,GPU通过彼此通信来平均所有局部梯度,从而得到全局梯度(GlobalGradients),全局梯度会被反馈给每一个GPU,并进行后续的训练过程。这个过程被称为全规约(通过平均来减少每个GPU的值,并反馈给各个GPU),进行全规约运算过程中,GPU间的互联通信速度对于系统的算力表现有非常直接且明显的影响。DGXA100集群中的计算网络可以应用到多达3层交换机,一到三层的交换机分别被称为Leaf交换机、Spine交换机、Core交换机(只应用在较大规模集群)。在DGXA100服务器集群中,三层交换机均使用40端口的MellanoxQM8790型号交换机。计算网络架构的三层交换机:集群中每20台DGXA100构成一个SU,每个SU中有8台Leaf交换机。每个SU中每一台DGXA100与每一台Leaf交换机都有连接,这意味着SU中每一台DGXA100都连接到同一台Leaf交换机,这种线路优化(rail-optimized)的网络架构对于提升深度学习训练表现具有重要帮助。十台QM8790交换机组成的第二层交换机组SpineGroup(SG)用于优化网络架构,实现不同SU之间的通信。在140节点集群系统中,共需要8组SG(对应80台交换机)。14台QM8790交换机组成的第三层交换机组CoreGroup(CG)用于实现SG之间的互联通信,在140节点交换机系统中,需要使用到两个CG,,即共需要28台交换机。在80节点及以下的AI服务器集群中,计算网络架构仅包含两层交换机。统计集群中计算网络交换机、线缆需求,在140台DGXA100组成的SuperPOD集群中,共需要使用164台交换机、3364根线缆,对应连接6728个端口。(二)存储网络(StorageFabric)服务器集群中的存储网络使用InfiniBand网络,存储网络需要提供较高的吞吐量以使AI服务器获取共享存储(sharedstorage)的数据/信息。以140节点服务器集群为例,存储网络架构包含两层交换机,共使用26台交换机、660根线缆,对应约1320个端口。(三)In-Band管理网络、Out-of-Band管理网络服务器集群中的In-Band管理网络的主要功能包括:负责连接管理集群的所有服务;管理控制集群中节点访问主文件系统和存储池以及集群内外其他服务的连接。服务器集群中的Out-of-Band管理网络通过连接服务器内的BMC对系统进行管理,Outof-Band管理使用单独的低使用率网络系统,避免与其他集群内网络服务形成带宽的竞争,对于保障集群的正常运行至关重要。In-Band管理和Out-of-Band管理均使用以太网。在DGXA100集群中,In-Band管理使用100Gb以太网,交换机型号为SN4600;而Out-of-Band管理使用1Gb以太网,交换机型号为AS4610。(四)DGXA100服务器集群中光模块/光芯片数量需求测算我们对DGXA100集群中光模块/光芯片的需求量进行测算,考虑到服务器集群中的网络包括IB网络和以太网,其中IB网络的端口数量、单端口带宽均远高于以太网,因此我们通过测算计算网络和存储网络合计端口数量来测算集群网络中光模块/光芯片的需求量。测算得到服务器集群、集群中单台服务器、集群中单个GPU对应的端口数量如表10所示。可以看出在20-80个DGXA100组成的集群中,单个GPU对应的端口数量为5.3~5.8个;在120、140个DGXA100组成的集群中,单个GPU对应的端口数量为7.2个;两者差异主要由于120及以上节点的集群中,计算网络增加了第三层交换机(CG),相应增加了交换机、线缆、端口数量需求。考虑DGXA100服务器集群中,服务器端、交换机端IB网络端口均使用QSFP56,因此系统中50G光芯片(收、发芯片记为一颗)与200G光模块数量比为4:1。基于此前提,我们测算得DGXA100集群中单个GPU对应约28颗50G光芯片需求。三、DGXH100服务器集群中单颗H100对应约1.5颗800G光模块+2颗400G光模块需求在NVIDIADGXH100服务器集群中每32台DGXH100组成一个SU,每4台DGXH100被放置在一个单独的机架上,每个机架上配有3个配电单元(PDU);同时各类交换机被放置在两个独立机架上;即每个SU包含10个机架(8个用于放置服务器、2个用于放置交换机)。(一)计算网络(ComputeFabric)根据NVIDIA参考设计,在128台DGXH100服务器组成的集群中,计算网络只需要使用到两层交换机,两层交换机均使用MellanoxQM9700型号交换机。集群中每32台DGXH100构成一个SU,每个SU中有8台Leaf交换机。在SU中每个DGXH100都需要与8台Leaf交换机有连接,由于每个服务器只有4个用于计算网络连接的800GOSFP端口,在每个端口接800G光模块后,通过拓展端口将1个OSFP端口拓展为2个QSFP端口,实现每台DGXH100与8个Leaf交换机的连接。在服务器端需使用800G光模块,服务器端的800G光模块需求量为4*32*4(第一个4:每个服务器有4个800GOSFP端口;32:每个SU中有32台服务器;第二个4:集群中有4个SU)在Leaf交换机的下行端口需使用400G光模块,需求量为32*8*4(32:每个Leaf交换机有32个下行端口用于连接32台服务器;8:每个SU中有8台Leaf交换机;4:集群中有4个SU)Leaf交换机的上行端口使用800G光模块,需求量为16*8*4(16:每个Leaf交换机有16个上行端口用于连接16台Spine交换机;8:每个SU中有8台Leaf交换机;4:集群中有4个SU)Spine交换机的下行端口使用800G光模块,需求量为32*16(32:每个Spine交换机有32个下行端口用于连接32台Leaf交换机;16:集群中有16台Spine交换机)。基于以上测算,在该服务器集群中,计算网络应用到的800G光模块数量为1536,应用到的400G光模块数量为1024。每台DGXH100对应12个800G光模块、7.3个400G光模块;即每颗H100对应1.5个800G光模块、0.9个400G光模块。(二)存储网络(StorageFabric)在DGXH100服务器集群中,存储网络的连接主要通过400G/200G光模块/光纤。由于网络中Leaf交换机与存储设备的连接所需的光模块/线缆数量有一定变化性。因此我们基于以下假设对存储网络中端口/光模块的需求数量进行测算:根据NVIDIA白皮书信息,在128台DGXH100服务器组成的集群中,存储网络共需要使用16台QM9700交换机,我们假设每台DGXH100端的2个存储网络端口、每台交换机端的64个400G端口均配有光模块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论