版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023年技术解构专题报告英伟达H100体系800G光模块需求几何_核心观点:原因及逻辑。英伟达占训练推理环节GPU几乎90%以上份额,在DGXH100SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBandNDR网络是主流,但新的NVLinkSwitch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLinkSwitch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。若不采用NVLinkSwitch架构或者需要多集群扩容,需要使用InfiniBandNDR网络,则采用传统叶脊双层架构,需要800G+2x400G(NDR)的方案,数量关系可参考普通集群,核心是系统内带宽激增,依据不同规模可另外计算。有别于大众的认识。鉴于H100GPU的供货范围限制,市场对其实际的架构理解有一定信息差,我们借助英伟达技术文档试图拆解H100超算系统的通信架构;市场担心800G在AI算力环节并非刚需,但高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的迭代是AI刚需。1.DGXH100SuperPOD架构引入更高速NVLink方案以全球算力领军和标杆NVIDIA为案例,在最新的DGXH100SuperPOD方案下,做一个尝试性的定量测算,解释为何400G/800G以上光网络在AI框架下是必然选择:(一)NVLink迭代至gen4,每通道带宽达100Gbps:NVLink是专门设计用于高速点对点链路互连GPU(GPUtoGPU)的网络方案,开销比传统网络更低,传统网络中复杂网络功能(例如端到端重试、自适应路由、数据包重新排序等)可以在增加端口数的情况下进行权衡。此外,基于NVLink的网络接口更加简单,允许将应用程序层、表示层和会话层功能直接嵌入到CUDA本身中,从而进一步减少通信开销。NVIDIA在2016-2022年迭代4代的NVLink满足了其算力方案的两大需求(专用连接方案解决专业问题),使GPU具有尽可能高的性能、使用专用协议和系统设计以实现更高的性能。传统的PCIeGen5每通道仅为32Gbps,而NVLink每通道高达100Gbps、多个通道连接其GPU系统。最新的NVLink4相比上代从12Links升级至18Links,每个GPU提供900GB/s(7200Gbs)的双向带宽(bidirectionalbandwidth)。与英伟达H100GPU结合:1)在DGXH100服务器内部,搭载了8个H100GPU;2)每一个H100GPU通过18个NVLink4连接到内部NVSwitch3芯片(每台服务器搭配4个NVSwitch3芯片);3)每一个NVLink4拥有2条通道(lane),每条通道参数为100Gbps-per-lane(x2@50Gbaud-PAM4),即一个NVLink4单向200Gbps,或换算为25GB/s单向带宽、50GB/s双向带宽。在18个NVLink4时,H100搭配NVLink4可以实现900GB/s双向带宽。(二)NVSwitch芯片迭代至gen3,每个芯片64个NVLink4接口:此外NVIDIA发布适用于超算服务器内部的NVSwitch芯片(类似于交换机ASIC),进一步通过上述NVLink协议接口将多个GPU高速互联到一起。在H100芯片+NVLink4协议这一代,应为配套了NVSwitch3芯片方案,采用台积电4N工艺,满足GPU间的点对点连接,内嵌ALU使NVSwitch提供FP32的400GFLOPS计算吞吐,每个芯片64个NVLink4接口。依据技术文档,NVSwitch3芯片大小50mm*50mm,包括一个SHARP控制器,可并行管理多达128个SHARP组;内嵌ALU可帮助NVSwitch提供FP32的400GFLOPS计算吞吐,并且支持FP16、FP32、FP64和BF16等精度计算。另外PHY接口可以兼容400Gbps以太网或者NDRInfiniBand连接,每个cage4个NVLink4的OSFP接口,同时支持FEC校验。NVSwitch3芯片提供64个NVLink4接口,每个NVLink4通道x2即200Gbps单向带宽,单个芯片可提供64x200Gbps=12.8Tbps(1.6TB/s)单向带宽、或3.2TB/s双工带宽。2.用NVLink和PCIe两套体系解决架构问题基本原则:GPU卡的通信以NVLink为基础,CPU/存储的通信+跨集群通信以PCIe为基础。NVIDIA的DGXH100服务器,每台服务器拥有8个H100GPU、4个NVSwitch3,且相互连接。在服务器发布的同时,NVIDIA还发布了搭载2个NVSwitch3芯片的NVLink交换机,连同GPU服务器和NVLink4协议组成NVLink网络。DGXH100服务器架构:MotherboardTray中,ConnectX-7网卡是主要的网络组成部分,而CX-7网卡基于PCIe方案。按照公开参数,每台服务器拥有8个ConnectX-7InfiniBand/Ethernet适配器(400Gb/s)。NVLink交换机是H100体系的创新,也是800G光通信方案应用的亮点。英伟达发布新的NVLink交换机,1U尺寸设计,32个OSFP接口的设计;和普通交换机不同,每台NVLink交换机搭载2个NVSwitch3芯片,提供128个NVLink4接口(单个NVSwitch3提供64个NVLink4),双工带宽6.4TB/s(单个NVLink4单向200Gbps,128x200Gbps=25.6Tb/s单向带宽)。NVLink交换机推出背景是搭建H100SuperPOD的计算集群。据英伟达设计,每套SuperPOD系统32台服务器折合256个H100GPU,AI性能高达1EFlops;每套系统配18台NVLink交换机,系统双向带宽57.6TB/s;同时每套系统的32台DGXH100服务器中的400Gb/sConnectX-7网卡对外与IB交换机连接,用于连接多套SuperPOD系统。两层NVSwitch芯片设计:一层交换芯片位于服务器内,二层交换芯片位于交换机内。128个L1层芯片(32台服务器,每台4个)+36个L2层芯片(18台NVLink交换机,每台2个)。一个SuperPOD内所有256个GPU的互联,都通过NVLink协议和NVLink交换机单独完成,不经过CX7PCIe网络。因此,从通信网络角度看,DGXH100SuperPOD高算力、高吞吐升级的精髓,在于:将过去A100及之前用于服务器内部GPU高效连接的NVLink,外化到整个集群,借助新的NVLink交换机,搭建L1、L2两层网络,实现跨服务器、跨机柜的GPUtoGPU连接。3.组网架构与光模块需求预测H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G->一个POD集群需要36x32=1152个800G光模块。若需要InfiniBand网络,则是传统叶脊双层架构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。4.结论我们的结论在于:在英伟达DGXH100SuperPOD最新的NVLinkSwitch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IBNDR网络则需要更多。具体而言,英伟达占训练推理环节GPU几乎90%以上份额,在DGXH100SuperPOD架构引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe两套体系解决通信问题。尽管目前InfiniBandNDR网络是主流,但新的NVLinkSwitch的架构在H100硬件基础上,在某些AI场景下可以贡献比IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。在H100最新的NVLinkSwitch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。若不采用NVLinkSwitch架构或者需要多集群扩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洞见趋势 解码未来福利-2023年企业福利策略和管理趋势调研报告
- 防震知识课件教学课件
- 设计营销课件教学课件
- 股份置换协议书(2篇)
- 南京工业大学浦江学院《税务稽查》2022-2023学年第一学期期末试卷
- 集控化验办公楼施工组织设计
- 防灾减灾说课稿
- 宿淮高速收费大棚施工组织设计
- 《轴对称》说课稿
- 【初中化学】化石能源的合理利用课件-2024-2025学年九年级化学人教版(2024)上册
- 【道法】认识生命 课件-2024-2025学年统编版道德与法治七年级上册
- 贵州省建筑与装饰工程计价定额(2016版)
- JGT 486-2015 混凝土用复合掺合料
- 世界急救日常见的急救基本知识科普讲座课件
- 乡村振兴民宿产业项目可行性研究报告
- 某县纪委书记在整顿农村三资管理工作会议上的讲话
- DL∕T 1736-2017 光纤光栅仪器基本技术条件
- 茶艺上课教案
- 中秋国庆灯会彩灯设计方案
- 人教版部编语文一年级上册全册教学课件
- 外汇交易居间合同范本
评论
0/150
提交评论