版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
证券研究报告
|
2024年5月5日新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存摘要•
AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。•
智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。•
网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、SubnetManagement(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。•
投资建议:AI大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势;AI大模型需要部署在高速互联的多个AI芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。•
风险提示:宏观经济波动、下游需求不及预期、AI伦理风险等。目录智算中心:从集群走向超级池化01网络互联:节点内外多方案并存投资建议及风险提示0203智能算力需求:训练数据量+参数量大幅提升,模型能力“涌现”•
训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《EmergentAbilitiesofLargeLanguageModels》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。图1:训练数据大幅提升后,模型能力“涌现”图2:模型参数大幅提升后,模型能力“涌现”资料:JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-Transactionson资料:JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-TransactionsonMachineLearningResearch(2022)-P4,国信证券经济研究所整理MachineLearningResearch(2022)-P27,国信证券经济研究所整理智能算力需求:大模型训练+推理拉动智能算力需求快速增长•
大模型训练+推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。图3:全球智能算力快速增长图4:中国智能算力快速增长智能算力(基于FP32计算,ZFLOPS)智能算力(基于FP16计算,EFLOPS)60504030201012001117.452.5010008006004002000812.5616.6497.1414.3259.92022155.22021750.230.450202120222030202020232024202520262027资料所整理:《中国算力发展指数白皮书(2022年&2023年,中国信通院)》
、国信证券经济研究资料
:《2023-2024年中国人工智能计算力发展评估报告(IDC&浪潮信息)》、国信证券经济研究所整理智算中心:以GPU、AI加速卡为核心的新型数据中心•
智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务;以中国移动推出了NICC新型智算中心为例,可分为“三层两域”:•••••基础设施层:提供计算、存储、网络等硬件资源。智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。应用使能层:集成行业主流AI开发框架。智算运维域:负责对底层IaaS进行管理维护,确保系统稳定运营。智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。图5:中国移动NICC新型智算中心的“三层两域”架构资料:《中国移动
NICC新型智算中心技术体系白皮书》,国信证券经济研究所整理智算中心:从集群走向超级池化•
智算中心逐步从“集群时期”走向“超级池化时期”。随着AI大模型参数量增长,新型智算中心的建设既要考虑计算、存储、网络三大维度横向协同,也应兼顾软件平台与硬件资源的纵向协同,聚焦于“新互联”、“新算效”、“新存储”、“新平台”、“新节能”。••智算中心发展推动力:模型参数量快速增长,对算力、显存和互联提出新的需求。集群时期(2022-2024年):数据及模型出现巨量化趋势,千亿级模型出现,对算力底座和拓展性提出更高要求。•••••设备形态:GPU、AI芯片以扣卡模组为主,服务器形态多为8卡,DPU按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按集群的方式部署。互联方案:以服务器节点为界限,节点内采用高速计算总线,节点间采用100G/200G高速无损网络。存储方面:原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率;平台方面:具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体化管理;同时,引入分布式并行训练框架提升模型训练效率;散热方面:为配合高算力需求,散热系统逐步从风冷向冷板式液冷过渡。图6:大模型参数规模增长速度超过摩尔定律,推动智算中心发展资料:《生成式AI(StateofGenerativeAI2023)》-启明创投、未尽研究-P8、国信证券经济研究所整理智算中心:从集群走向超级池化•
超级池化时期(2025年开始):大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态。•••••设备形态:从单机8卡服务器逐步转化为“超级服务器”,基于存算一体架构的大算力芯片将开始逐步应用。互联方案:内部打造统一的协议实现CPU、GPU、AI芯片、显存、存储等池化资源无缝连接;外部通过GSE等高性能交换网络,达到极高吞吐、极低时延的系统算力。存储方面:在“超级服务器”内支持内存池化技术,对外拓展支持全局统一存储。平台方面:构建基于算力原生平台的跨架构开发、编译、优化环境,屏蔽底层硬件差异,从软件层面最大化使能异构算力融通,以应对日益割裂的智算生态。散热方面:浸没式液冷逐步落地。图7:新型智算中心的发展路径资料:《中国移动
NICC新型智算中心技术体系白皮书》,国信证券经济研究所整理目录智算中心:从集群走向超级池化01网络互联:节点内外多方案并存投资建议及风险提示0203网络互联:大模型训练,网络成为AI算力瓶颈•••分布式并行运算是发展趋势。AI大模型需要部署在高速互联的多个AI芯片上,主要由于:1)单芯片算力提升的速度明显低于模型参数的增长速率;2)巨量的模型参数和训练数据,已经远超单个AI芯片、单台服务器的计算能力。传统的中小AI模型:训练模式多采用单卡运行或单节点内多卡数据并行,每张卡或节点上都有完整的模型结构,卡间通信主要用于传输训练数据,因此通信需求不频发,带宽通常在几十GB,传统PCIe可满足要求。AI大模型:数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递;••数据并行(DP):每计算设备(卡或节点)都有一个完整模型,将数据集拆分到多个计算设备同时训练,在反向传播中,各个设备上的梯度进行归约操作求平均,再更新模型参数。模型并行(MP):1)流水线并行(PP):将模型按照“层”拆分为多个Stages放在每个计算设备上,训练过程是逐层顺序计算,通信数据量比DP小,点对点互联即可;2)张量并行(TP):将模型在“层”内进行切分,训练过程中前向和反向传播中都设计Allreduce,通信量大且频繁,通常要求全互联(FC)或交换拓扑(Switch)。图8:模型参数量(及模型训练所需算力)增长显著高于GPU内存和吞吐量的增长图9:不同的分布式并行策略及对应的卡间互联要求策略通信模式互联拓扑,带宽需求数据并行DPAllreduce
环状或全互联,常规需求,几~几十GB/s流水线并行PP张量并行TPP2P点对点相连,常规需求,几~十几GB/s环状或全互联,带宽需求高,几百GB/sAllreduce资料:Rishi等著-《OntheOpportunitiesandRisksofFoundationModels》-arXiv(2022)-资料:《中国移动NICC新型智算中心技术体系白皮书》、国信证券经济研究所整理P97、国信证券经济研究所整理网络互联-节点内外多种互联协议并存•
智算中心内部网络互联可以分为节点内互联和节点外互联(此处以服务器为节点),节点内互联包括处理器之间、处理器与外设及存储之间互联,节点外互联主要指服务器之间互联。•
计算体系多种互联协议:自1978年intel开创x86体系以来,逐步衍生出各种物理特性、传输特性和功能特性不同的互联协议。•••处理器之间:UPI、CXL、PCIe、NVLink等;处理器与外设及存储之间:Pcie、CXL、NVLink、SATA、SAS、NVMe等;节点之间:Ethernet、IB等。图10:计算体系多种互联协议资料:《数据中心2030-》,国信证券经济研究所整理网络互联-节点内:私有方案以英伟达NVLink为代表•
大模型场景,私有和开放技术方案并存。针对传统传统的中小模型,PCIe技术方案已经非常成熟;面向大模型场景,基于扣卡模组的卡间高速互联方案主要分为私有和开放技术两大类,私有方案以英伟达NVLink为代表,开放技术方案以OAM和UBB为主。•
私有方案以英伟达NVLink为代表。2014年英伟达发布第一代NVLink,旨在实现GPU芯片间低延迟、高带宽的数据互联,相较于传统PCIe方案,CPU和GPU之间共享数据的速度大幅提升。•
传统PCIe方案:PCIe由Intel2001年推出,主要用于连接CPU和各类高速外围设备,采用点对点的连接方式,平均3年迭代一次;在传统PCIe方案中,GPU发出的信号要先传递到PCIeSwitch,PCIeSwitch中涉及到数据的处理,CPU会对数据进行分发调度,会引入额外的网络延迟,限制了系统性能。•
NVLink方案:以P100方案为例,拥有4条NVLink,单条NVLink是一个双向接口,包括32个链路,每个方向形成8个差分(采用基于差分信号线的高速串行通信技术),单条NVLink提供40GB/s带宽(通过将多个Sub-Link组成Port,实现GPU之间的快速数据传输),合计提供160GB/s带宽。图11:传统PCIe技术方案图12:P100GPU中有4个NVLink1.0,总聚合带宽达160GB/s资料:WikiChip、国信证券经济研究所整理资料:WikiChip、国信证券经济研究所整理网络互联-节点内:NVLink已经发展至第五代产品•
NVLink已经发展至第五代:第一代到第二代的演进主要是互联拓扑的改变,从cube直连变为Switch交换拓扑;第三代在通过增加单卡的NVLink通道数提升点到点(P2P)带宽,第四代通过完善多种协议内容,进一步实现C2C(ChiptoChip)、AI卡间以及服务器节点的统一连接;第五代带宽大幅提升,同时支持576个GPU之间的无缝高速通信。图14:NVLink已经发展到第五代•
NVSwitch:节点交换架构。NVSwitch是一种类似交换机的物资料:英伟达官网、国信证券经济研究所整理图15:NVLink向更大带宽、更多Link数迭代理芯片(Asic),通过其接口可以将多个GPU高速互联在一第二代第三代第四代第五代起,实现所有GPU在一个具有全带宽连接集群中协同工作。NVLink带宽(单GPU)单GPU最大Link数300GB/s600GB/s900GB/s1,800GB/s图13:NVLink拓扑结构发展6121818NVIDIAVoltaarchitectureNVIDIAAmpere
NVIDIAHopper
NVIDIABlackwell支持NVIDIA架构architecturearchitecturearchitecture资料:英伟达官网、国信证券经济研究所整理图16:NVLinkSwitch迭代情况第一代第二代第三代第四代单NVLinkDomain内可直连GPU个数Upto8300GB/s2.4TB/sUpto8Upto8Upto576NVSwitchGPU-to-GPU带宽加总带宽600GB/s4.8TB/s900GB/s7.2TB/s1,800GB/s1PB/sNVIDIAVolta
NVIDIAAmpere
NVIDIAHopper
NVIDIABlackwellarchitecture
architecture
architecture
architecture支持NVIDIA架构资料:英伟达官网、国信证券经济研究所整理资料:英伟达官网、国信证券经济研究所整理网络互联-节点内:开放技术方案以OAM和UBB为主•
开放技术方案:2019年OCP组织为降低整机厂家集成多家AI芯片的适配难度,发起开放基础设施项目(OAI),定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范,以8张OAM为一个整体,进一步定义了8*OAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互联拓扑、ScaleOut方式。•系统架构:OAM模块承担起单个GPU节点的AI加速计算能力,通过符合UBBv1.5base规范的基板完成OAM间的7P*8FC(全互联)、6P*8HCM(混合立方互联)等高速互联拓扑实现多OAM数据低延时共享,利用RDMA网络部署实现对外拓展完成集群互联,最大程度上发布OAM计算性能并降低通信带宽限制。••AI扣卡模组形态(OCPAcceleratorModule,OAM):OCP-OAI定义了OAM的结构形态及互联接口,以此促进跨通信的可拓展性。基板拓扑结构(UniversalBaseboard,UBB):UBB基板可以承载8个OAM模块,形成一个AI加速计算子系统,尺寸为16.7*21英寸,可以放在19寸、21寸机柜中。图17:OAM的全互联和混合立方互联图18:UBB硬件布局和关键部件全互联混合立方互联资料:《开放加速规范AI服务器设计指南(浪潮信息)》、国信证券经济研究所整理资料:《开放加速规范AI服务器设计指南(浪潮信息)》、国信证券经济研究所整理网络互联-节点间:主要方案为Infiniband和RoCEv2•
RDMA技术是降低卡间通信时间的关键技术。在分布式场景中,整体算力并不是随着智算节点的增长而线性增长,而是存在加速比(通常小于1,由于存在卡间通信时间),RDMA技术可以绕过操作系统内核,直接访问另一台主机内存,从而大幅降低卡间通信时间。•
主要方案为Infiniband和RoCEv2。实现RDMA的方式有Infiniband、RoCEv1、RoCEv2、iWARP,其中RoCEv1已经被v2替代,iWARP使用较少,目前主要方案为Infiniband和RoCEv2。图20:Infiniband网络架构图19:加速比和RDMA技术n
加速比通常小于1:分布式场景,单次计算时间包括单卡计算时间+卡间通信时间;n
提升加速比:降低卡间通信时间是关键,关键技术是RDMA技术,其可以绕过操作系统内核,让一台主机直接访问另一台主机的内存;资料:《智算中心网络架构白皮书》、国信证券经济研究所整理图21:RoCE网络架构资料:《智算中心网络架构白皮书》、国信证券经济研究所整理资料:《智算中心网络架构白皮书》、国信证券经济研究所整理网络互联-节点间:InfiniBand网络核心组成•Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、SubnetManagement(SM)、连接件组成。目前,英伟达是InfiniBand网络方案和设备最主要供应商,其他供应商还包括intel、Cisco、HPE等。••••英伟达:InfiniBand技术的主要供应商,提供各种InfiniBand适配器、交换机和其他相关产品;Intel:InfiniBand另一重要供应商,提供各种InfiniBand网络产品和方案;Cisco:知名网络设备制造商,也提供InfiniBand交换机和其他相关产品;HPE:大型IT公司,提供各种InfiniBand网络解决方案和产品,包括适配器、交换机和服务器等。图22:Infiniband网络主要包括网卡、交换机、SubnetManagement(SM)、连接件组成网卡SMüüüüInfiniBand交换机上不运行任何路由协议;网络转发表是由SM进行统一计算并统一下发的;SM分为OpenSM(开源)和UFM(收费)两种模式;SM通常部署在接入InfiniBand子网的一台服务器上,一个子网内同时只能有一个SM工作,若多个设备配置成SM,则只有一个SM能成为主SM;üüInfiniBand网卡以英伟达为主;速率方面快速发展,200GbpsHDR已实现规模化商业部署,400GbpsNDR开始商业部署;交换机连接件SB7800(36*100G)Quantum-1(40*200G)Quantum-2(64*400G)专用线缆和光模块资料:《智算中心网络架构白皮书》、英伟达、Mellanox、国信证券经济研究所整理网络互联-节点间:InfiniBand网络特点-无损&万卡拓展能力•
原生无损网络:InfiniBand网络采用基于Credit信令机制,从根本上避免缓冲区溢出丢包。•••发送端只有在确定接收端有额度能接受对应数量的报文后,才会启动报文发送;每一条链路都有预置缓冲区,发送端一次发送的数据不会超过接收端可用预置缓冲区的大小;接收端完成转发后会腾空缓冲区,并持续向发送端返回当前可用的预置缓冲区大小;通过该流控机制,可以确保发送端绝不会发送过量,网络中不会产生缓冲区溢出丢包。•
万卡拓展能力:InfiniBand的AdaptiveRouting基于逐包的动态路由,在超大规模组网的情况下保证网络最优利用。图23:Infiniband网络无损数据传输资料:《智算中心网络架构白皮书》、国信证券经济研究所整理网络互联-节点间:RoCEv2网络核心组成•RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成,一般情况下是两层架构。连接件使用传统光纤和光模块即可,流控机制通常使用PFC、ECN和DCQCN。•设备供应商:1)交换机:支持RoCE交换机供应商较多,新华三、等占据主要市场份额。2)网卡:目前英伟达ConnextX系列网卡占据主要市场份额。图24:RoCE网络主要包括网卡、交换机、流控机制、连接件组成网卡流控机制商用卡云厂商PFC流控策略百度智能云太行DPU自研DPUDCQCN流控策略üüü支持RoCE网卡的厂商较多,主流厂商为英伟达、Intel、Broadcom;以PCIe卡为主,RDMA网卡的端口PHY速率一般50Gbps起,当前可达400Gbps;以云厂商为代表的自研DPU也在蓬勃发展;交换机连接件üü国内的主流IDC交换机厂商包括交换机的核心是转发芯片,目前市场上商用转发芯片多为博通的Tomahawk系列芯片;、新华三等;传统光纤和光模块ü交换机的端口从100Gbps逐步提升到400Gbps,转发能力持续提升;资料:《智算中心网络架构白皮书》、英伟达、Mellanox、国信证券经济研究所整理网络互联-节点间:InfiniBand和RoCEv2网络方案对比•••••网络性能:InfiniBand的端到端时延小于RoCEv2,但RoCEv2性能也满足绝大部分智算场景的需要;集群规模:InfiniBand在集群规模领域具备显著优势,可以支持万卡集群(且性能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何构建和谐医患关系
- 山东省枣庄市2024年一级造价工程师《土建计量》预测密卷含解析
- 七台河市茄子河区2024年一级造价工程师《土建计量》模拟预测试卷含解析
- 西亚课件教学
- 嘉峪关落地仿真花施工方案
- 【大学课件】文件管理
- 合肥彩色压花地坪施工方案
- 剪力墙粮仓施工方案
- 佛山玻璃幕墙维修施工方案
- 学校安全预防工作计划
- 费用审核操作说明
- (完整版)政府工程项目代建管理方案(范本)
- 车辆维修服务投标方案
- 和与积的奇偶性
- 第13讲醛酮(教师版)-高二化学讲义(人教版2019选择性必修3)
- 大全高压电工安全培训课件
- 临沂球迷协会筹备申请书
- 消防控制室值班记录样本
- 大学生职业生涯规划与就业创业指导知到章节答案智慧树2023年四川水利职业技术学院
- 刑事诉讼法学重点概念
- 网络创业智慧树知到答案章节测试2023年海南经贸职业技术学院
评论
0/150
提交评论