技术解构英伟达H100体系800G光模块需求几何_第1页
技术解构英伟达H100体系800G光模块需求几何_第2页
技术解构英伟达H100体系800G光模块需求几何_第3页
技术解构英伟达H100体系800G光模块需求几何_第4页
技术解构英伟达H100体系800G光模块需求几何_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2整体结论H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G

->

一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。

资料来源:英伟达技术文档,申万宏源研究3投资案件结论在英伟达DGX

H100

SuperPOD最新的NVLink

Switch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,

NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IB

NDR网络则需要更多。原因及逻辑英伟达占训练推理环节GPU几乎90%以上份额,在DGXH100

SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBand

NDR网络是主流,但新的NVLink

Switch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLink

Switch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。若不采用NVLink

Switch架构或者需要多集群扩容,需要使用InfiniBandNDR网络,则采用传统叶脊双层架构,需要800G+2x400G(NDR)的方案,数量关系可参考普通集群,核心是系统内带宽激增,依据不同规模可另外计算。有别于大众的认识鉴于H100

GPU的供货范围限制,市场对其实际的架构理解有一定信息差,我们借助英伟达技术文档试图拆解H100超算系统的通信架构;市场担心800G在AI算力环节并非刚需,但高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的迭代是AI刚需。风险提示

• NVLink

Switch方案渗透不达预期;技术迭代产生新的通信方案。 主要内容DGX

H100

SuperPOD架构引入更高速NVLink方案用NVLink和PCIe两套体系解决架构问题组网架构与光模块需求预测结论与相关标的451.

DGX

H100

SuperPOD架构引入更高速NVLink方案以全球算力领军和标杆NVIDIA为案例,在最新的DGX

H100

SuperPOD方案下,做一个尝试性的定量测算,解释为何400G/800G以上光网络在AI框架下是必然选择:(一)NVLink迭代至gen4,每通道带宽达100

Gbps:NVLink是专门设计用于高速点对点链路互连GPU(GPU

to

GPU)的网络方案,开销比传统网络更低,传统网络中复杂网络功能(例如端到端重试、自适应路由、数据包重新排序等)可以在增加端口数的情况下进行权衡。此外,基于NVLink的网络接口更加简单,允许将应用程序层、表示层和会话层功能直接嵌入到CUDA本身中,从而进一步减少通信开销。NVIDIA

2016-2022

4

的NVLink

满足了其算力方案的两大需求(专用连接方案解决专业问题),使GPU具有尽可能高的性能、使用专用协议和系统设计以实现更高的性能。传统的PCIe

Gen5每通道仅为32Gbps,而NVLink每通道高达100Gbps、多个通道连接其GPU系统。最新的NVLink

4相比上代从12

Links升级至18

Links,每个GPU提供900GB/s

7200Gbs)

的双向带宽(bidirectional

bandwidth)。资料来源:英伟达技术文档,申万宏源研究61.

DGX

H100

SuperPOD架构引入更高速NVLink方案与英伟达H100

GPU结合:1)在DGX

H100服务器内部,搭载了8个H100

GPU;2)每一个H100

GPU通过18个NVLink4连接到内部NVSwitch3芯片(每台服务器搭配4个NVSwitch3芯片);3

每一个

NVLink4

拥有

2

条通道(

lane

每条通道参数为

100Gbps-per-lane(x2@50Gbaud-PAM4),即一个NVLink4单向200Gbps,

或换算为25GB/s单向带宽、50GB/s双向带宽。在18个NVLink4时,H100搭配NVLink4可以实现900GB/s双向带宽。英伟达NVLink迭代至gen4资料来源:英伟达技术文档,申万宏源研究71.

DGX

H100

SuperPOD架构引入更高速NVLink方案(二)NVSwitch芯片迭代至gen3,每个芯片64个NVLink

4接口:此外NVIDIA发布适用于超算服务器内部的NVSwitch芯片(类似于交换机ASIC),进一步通过上述NVLink协议接口将多个GPU高速互联到一起。在H100芯片+NVLink

4协议这一代,应为配套了NVSwitch

3芯片方案,采用台积电4N工艺,满足GPU间的点对点连接,内嵌ALU使NVSwitch提供FP32的400GFLOPS计算吞吐,每个芯片64个NVLink

4接口。资料来源:英伟达技术文档,申万宏源研究81.

DGX

H100

SuperPOD架构引入更高速NVLink方案资料来源:英伟达技术文档,申万宏源研究依据技术文档,NVSwitch3芯片大小50mm*50mm,包括一个

SHARP

控制器,可并行管理多达

128

SHARP

组;内嵌ALU可帮助NVSwitch提供FP32的400GFLOPS计算吞吐,并且支持FP16、FP32、FP64和BF16等精度计算。另外PHY

接口可以兼容400Gbps

以太网或者NDR

InfiniBand

连接,

每个cage

4

个NVLink4的OSFP接口,同时支持FEC校验。NVSwitch3芯片提供64个NVLink4接口,每个NVLink4通道x2即200Gbps单向带宽,单个芯片可提供64

x200Gbps=12.8Tbps(1.6TB/s)单向带宽、或3.2TB/s双工带宽。NVSwitch3芯片架构主要内容DGX

H100

SuperPOD架构引入更高速NVLink方案用NVLink和PCIe两套体系解决架构问题组网架构与光模块需求预测结论与相关标的9102.

DGX

H100用NVLink和PCIe两套体系解决架构问题基本原则:GPU卡的通信以NVLink为基础,CPU/存储的通信+跨集群通信以PCIe为基础。NVIDIA的DGX

H100服务器,每台服务器拥有8个H100

GPU、4个NVSwitch

3,且相互连接。在服务器发布的同时,NVIDIA还发布了搭载2个NVSwitch

3芯片的NVLink交换机,连同GPU服务器和NVLink

4协议组成NVLink网络。(一)H100

GPU发布后,服务器架构变化较大:资料来源:英伟达技术文档,申万宏源研究112.

DGX

H100用NVLink和PCIe两套体系解决架构问题资料来源:英伟达技术文档,g-dep

jp,申万宏源研究DGX

H100服务器架构:GPU

Tray和Motherboard分离,是NVLink和PCIe分离的基础如左图,DGX

H100服务器机柜内大致包括了GPU

Tray、Motherboard

Tray、Power系统、Front

Cage等部分。如右图,DGX

H100服务器背面接口以Motherboard

Tray为主。122.

DGX

H100用NVLink和PCIe两套体系解决架构问题DGX

H100服务器架构:Motherboard

Tray中,ConnectX-7网卡是主要的网络组成部分,而CX-7网卡基于PCIe方案。按照公开参数,每台服务器拥有8个ConnectX-7

InfiniBand/

Ethernet适配器

(400Gb/s)。技术文档描述:4xOSFPportsserving8xsingle-portNVIDIAConnectX-7400Gb/s

InfiniBand/Ethernet资料来源:英伟达技术文档,g-dep

jp,申万宏源研究132.

DGX

H100用NVLink和PCIe两套体系解决架构问题DGX

H100服务器架构:GPU

Tray中,拥有8x

H100

GPU

+

4x

NVSwitch芯片,芯片端4-5-5-4共18组OSFP接口负责不同DGX

H100节点(服务器)之间的连接。(理想情况)资料来源:英伟达技术文档,g-dep

jp,申万宏源研究142.

DGX

H100用NVLink和PCIe两套体系解决架构问题资料来源:英伟达技术文档,HC34,申万宏源研究(二)NVLink交换机是H100体系的创新,也是800G光通信方案应用的亮点。英伟达发布新的NVLink交换机,1U尺寸设计,32个OSFP接口的设计;和普通交换机不同,每台NVLink交换机搭载2个NVSwitch3芯片,提供128个NVLink4接口(

单个NVSwitch3

提供64

个NVLink4

双工带宽6.4TB/s

单个NVLink4

单向200Gbps,128x

200Gbps=25.6Tb/s单向带宽)。NVLink交换机搭载了OSFP等接口152.

DGX

H100用NVLink和PCIe两套体系解决架构问题NVLink交换机推出背景是搭建H100

SuperPOD的计算集群。据英伟达设计,每套SuperPOD系统32台服务器折合256个H100

GPU,AI性能高达1EFlops;每套系统配18台NVLink交换机,系统双向带宽57.6TB/s;同时每套系统的32台DGX

H100服务器中的400Gb/s

ConnectX-7网卡对外与IB交换机连接,用于连接多套SuperPOD系统。两层NVSwitch芯片设计:一层交换芯片位于服务器内,二层交换芯片位于交换机内。•128个L1层芯片(32台服务器,每台4个)+36个L2层芯片(18台NVLink交换机,每台2个)。一个SuperPOD内所有256个GPU的互联,都通过NVLink协议和NVLink交换机单独完成,不经过CX-7

PCIe网络。因此,从通信网络角度看,

DGXH100

SuperPOD高算力、高吞吐升级的精髓,在于:将过去A100及之前用于服务器内部GPU高效连接的NVLink,外化到整个集群,借助新的NVLink交换机,搭建L1、L2两层网络,实现跨服务器、跨机柜的GPU

to

GPU连接。162.

DGX

H100用NVLink和PCIe两套体系解决架构问题若不使用新的NVLink交换机体系,DGX

H100

SuperPOD也可以使用,但仍然用和A100类似的体系,

使用CX-7

InfiniBand实现跨服务器的连接,

则预计需要方案直接连接MotherBoard

Tray进而外接交换机。(但该IB网络的H100方案训练效率明显逊于NVLink交换机系统。资料来源:英伟达技术文档,申万宏源研究172.

DGX

H100用NVLink和PCIe两套体系解决架构问题如下图所示,H100架构中可能的OSFP存在于两处:若传统IB网络方案,两张CX-7网卡各提供400Gb带宽,形成4个2x400G

NDR

OSFP需求;若新的NVLink交换机系统方案,则需要4个NVSwitch芯片对应了18个800G

OSFP需求。资料来源:英伟达技术文档,HC34,申万宏源研究182.

DGX

H100用NVLink和PCIe两套体系解决架构问题上述是从服务器角度;

而如果从

NVLink

交换机的角度,

NVLink

交换机中

2

个NVSwitch3芯片合计128个NVLink接口,双工带宽6.4TB/s,也必然需要使用高速率的400G/800G光通信方案。上一代DGX

A100

256

SuperPOD架构和目前最新DGX

H100

256

SuperPOD架构对比,NVLink的作用方式差异明显。总结来看,A100架构下NVLink主要用于单个服务器内部GPU和NVSwitch的“板载”连接;而H100架构下,除了“板载”连接外,GPU到新的NVLink交换机之间的连接并非板载,optical

OSFP等连接方式是新增需求,在极致性能的要求下,也就带动了光通信市场的必然需求。资料来源:英伟达技术文档,HC34,申万宏源研究192.

DGX

H100用NVLink和PCIe两套体系解决架构问题如果在256个节点的基础上,需要进一步扩容至1024个节点,则需要借助NDR

InfiniBandLinks连接4个DGX

H100

256

SuperPOD集群。这种方案搭配英伟达的ConnectX-7

NDR

NIC网络适配器和Quantum2

NDR交换机,性能强于A100体系的HDR

IB网络。下图以Quantum-2

QM9700交换机为例,拥有32个OSFP接口承载64x400Gb/s的容量。资料来源:英伟达技术文档,申万宏源研究主要内容DGX

H100

SuperPOD架构引入更高速NVLink方案用NVLink和PCIe两套体系解决架构问题组网架构与光模块需求预测结论与相关标的20213.

组网架构与光模块需求预测扩充至32台服务器的一个SuperPOD集群,架构预计如下所示。资料来源:申万宏源研究223.

组网架构与光模块需求预测H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G->

一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。

资料来源:英伟达技术文档,申万宏源研究主要内容DGX

H100

SuperPOD架构引入更高速NVLink方案用NVLink和PCIe两套体系解决架构问题组网架构与光模块需求预测结论与相关标的23244.

结论与相关标的我们的结论在于:

在英伟达DGX

H100

SuperPOD

最新的NVLink

Switch

架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,

NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IB

NDR网络则需要更多。具体而言,英伟达占训练推理环节GPU几乎90%以上份额,在DGX

H100

SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBandNDR网络是主流,但新的NVLink

Switch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLink

Switch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32

台服务器则需要36x32=1152

个800G光模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论