




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国内智算中心建设提速,重视产业链相关机遇——AIDC行业专题报告主要观点AIDC为人工智能训练和推理提供高效、稳定的计算环境。根据中国智算中心产业发展白皮书(2024年),上游包括土建基础设施、IT基础设施;中游包括智算服务供应商、IDC服务商、云服务供应商;下游应用于互联网、金融、电信、交通等领域。国内AIDC市场规模与算力规模持续提升。根据中国智算中心产业发展白皮书(2024年),AI大模型应用场景不断丰富,商用进程加快,智算中心市场增长动力逐渐由训练切换至推理,预计2028年中国智算中心市场规模有望达到2886亿元。根据IDC与浪潮信息联合发布的《2025年中国人工智能计算力发展评估报告》,2025年中国智能算力规模将达到1037.3EFLOPS,预计到2028年将达到2781.9
EFLOPS。AI大模型对网络提出更高要求。根据中国移动面向AI大模型的智算中心网络白皮书,智算中心向超大规模组网、超高带宽、超低时延及抖动、超高稳定性方向发展。AIDC网络架构打造高性能网络。按照Marvell分类,智算中心分为计算节点、后端网络、前端网络、数据中心间互连。计算节点内部GPU采用铜连接的方式互连(scale-up),并通过NIC/DPU与后端网络连接,构建大规模算力集群(scale-out);CPU通过NIC/DPU连接到前端以太网网络。后端网络采用IB/Erthernet协议,连接集群内智算服务器,以光连接为主。前端网络采用Erthernet协议,连接智算服务器与数据中心其他设备,负责数据的输入输出。国内智算中心建设加速,产业链相关环节迎来增长机会。国产大模型加速国产算力建设,
我们看好由国内智算中心建设带来AIDC运营商、AI服务器、交换机、光模块、高速铜缆以及温控等环节的放量机会。风险提示:AI模型与应用发展不及预期;贸易摩擦加剧的风险;算力资本开支不及预期。请务必阅读报告正文后各项声明目录/Contents01020304AIDC产业发展现状AI大模型对网络的要求AIDC网络架构投资建议及风险提示请务必阅读报告正文后各项声明◼
根据中国智算中心产业发展白皮书(2024年),智算中心提供人工智能应用所需算力服务、数据服务和算法服务的算力基础设施,融合高性能计算设备、高速网络以及先进的软件系统,为人工智能训练和推理提供高效、稳定的计算环境。请务必阅读报告正文后各项声明上游 中游 下游配电AI芯片IT基础设施AI服务器网络设备管理系统IDC服务商云服务供应商金融土建基础设施 智算服务供应商 行业 产业制冷
自动驾驶元宇宙互联网文娱创作机器人智慧科研电信智慧农林智慧物流交通智慧医疗资料来源:科智咨询,《中国智算中心产业发展白皮书(2024年)》,甬兴证券研究所请务必阅读报告正文后各项声明需求推动中国智算中心市场投资规模高速增长。根据中国智算中心产业发展白皮书(2024年),2023年中国智算中心市场规模达879亿元,同比增长90%以上。预计2024年国产化芯片产能提升,算力供给瓶颈将逐渐缓解。未来,AI大模型应用场景不断丰富,商用进程加快,智算中心市场增长动力逐渐由训练切换至推理,市场进入平稳增长期,预计2028年中国智算中心市场规模有望达到2886亿元。从算力规模来看,互联网及云厂商在智算中心投资建设中占据重要地位。根据中国智算中心产业发展白皮书(2024年),企业主体在智算中心建设中可以提供强大的资金、技术支持和市场应用,以及市场化的管理运营机制,相比于政府等国资平台更注重效率和效益。中国智能算力发展水平增速高于预期。根据IDC与浪潮信息联合发布的《2025年中国人工智能计算力发展评估报告》,2025年中国智能算力规模将达到1037.3
EFLOPS,预计到2028年将达到2781.9
EFLOPS。2020-2028年期间,中国智能算力规模的五年年复合增长率预计达到57.09%。2020-2028年中国智算中心市场规模及预测(亿元) 中国智算中心项目主体分布(截至2024年8月) 2020-2028年中国智能算力规模及预测(EFLOPS)资料来源:科智咨询,《中国智算中心产业发展白皮书(2024年)》,《2025年中国人工智能计算力发展评估报告》,甬兴证券研究所智算需求具有场景多样化、高度定制化特征,同时智算中心涵盖从底层基础设施到上层应用各个方面,衍生出多元化的智算中心服务体系。根据中国智算中心产业发展白皮书(2024年),智算中心服务包括机房托管服务、算力租赁服务、AI平台服务、模型定制服务及AI应用服务。机柜托管与算力租赁是当前主流服务模式。根据中国智算中心产业发展白皮书(2024年),产业发展初期,智算中心一般为算力用户和传统IDC客户提供机柜托管服务,算力用户的服务器由用户自行解决。算力租赁市场目前处于起步期,投入使用的算力中,用于租赁的部分占比35%左右,其他均为自用。智算算力租赁业务的兴起意识由于短期内智算资源供给能力不足,特别是以GPU为代表的AI芯片紧缺,二是自建智算中心投资规模大、运维能力要求较高,算力使用综合成本高。请务必阅读报告正文后各项声明类型 商业模式 介绍 供应方 需求方IaaS基础设施即服务机房托管服务在传统数据中心机房托管基础上,提供更高功耗、配电和网络定制智算转型的数据中心服务商、中立的智算中心服务商等头部云商及AI公司、大型央国企等算力租赁服务以云服务形式租赁智能算力,按照使用时间和规模收费云厂转型的智算服务商、中立的智算中心服务商等中小型科技公司、IT公司、非连续需求的科研机构等PaaS平台即服务AI平台服务提供人工智能应用开发工具和平台头部IT公司中小企业和开发者MaaS模型即服务模型定制服务规模定制、精调、部署等AI大模型全流程服务成熟的大模型供应商(具有AI大模型技术能力)中小垂直行业企业SaaS软件即服务AI应用服务直接应用于企业业务,提供人工智能分析、决策等服务具有AI能力的垂直行业头部企业小型垂直行业企业资料来源:科智咨询,《中国智算中心产业发展白皮书(2024年)》,甬兴证券研究所请务必阅读报告正文后各项声明根据中国移动NICC新型智算中心技术体系白皮书,新型智算中心技术体系由“三层两域”构成,分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。基础设施层提供计算、存储、网络等硬件资源;智算平台层作为资源管理的核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力,在此之上搭建算力原生平台提供应用跨架构迁移能力;应用使能层集成行业主流AI开发框架以供应用开发调用。智算运维域主要负责对底层IaaS资源进行管理维护;智算运营域对接外部客户,提供计量计费、访问等界面,对内根据上层任务进行资源编排调度。根据中国移动NICC新型智算中心技术体系白皮书,新型智算中心技术发展将分为集群时期和超级池化时期:集群时期:数据及模型出现巨量化趋势,千亿级的模型已经出现,对智算底座的算力能力和扩展性均提出高要求。超级池化时期:大模型迈进万亿参数量规模,算力、显存和互联的需求再次升级,智算中心将真正进入超级池化时代,高速互联的百卡组成的“超级服务器”可能成为新的设备形态。新型智算中心技术体系架构 新型智算中心技术发展路径资料来源:《中国移动NICC
新型智算中心技术体系白皮书》,甬兴证券研究所请务必阅读报告正文后各项声明AI应用计算量呈几何级数增长,算法模型向巨量化发展。根据中国移动面向AI大模型的智算中心网络白皮书,超大模型对于显存的需求页很高。在训练过程中,前向计算产生的激活值、反向计算产生的梯度、参数更新需要的优化器状态等中间变量均需要存储,且中间变量在单次迭代中也会不断增加。训练超大模型需要数千GPU组成的集群。根据中国移动面向AI大模型的智算中心网络白皮书,云数据中心使用CPU计算,
网络需求一般在10Gbps~100Gbps,并且使用传统TCP传输层协议。但AI
超大模型训练使用GPU
训练,互联网络需求在100Gbps~400Gbps,此外使用了RDMA协议来减少传输时延,提升网络吞吐。根据锐捷网络官网和新一代智算中心网络技术白皮书(2022年)介绍,数据中心网络架构演进:传统三级网络架构→Clos组网架构(智算中心网络主流)→直连拓扑组网架构传统三级网络架构:分为接入层、汇聚层、核心层。适应早期数据中心南北向流量(即数据中心之外的客户端到数据中心服务器之间的流量)。Clos组网架构:无带宽收敛的Fat-Tree胖树架构与大二层Spine-Leaf叶脊架构,适应数据中心东西流量需求。直连拓扑组网架构:网络直径短,具备低成本、端到端通信跳数少,超算中心主流。传统三级网络架构 Clos组网架构 直连拓扑架构资料来源:《面向AI大模型的智算中心网络白皮书》,锐捷网络官网,《新一代智算中心网络技术白皮书(2022年)》,甬兴证券研究所请务必阅读报告正文后各项声明根据中国移动面向AI大模型的智算中心网络白皮书,在AI
大模型训练场景下,机内与机外的集合通信操作将产生大量的通信数据量。从机内GPU通信角度看,服务器内GPU应支持高速互联协议,且其进一步避免了GPU通信过程中依靠CPU内存缓存数据的多次拷贝操作。从机间GPU通信角度看,流水线并行、数据并行及张量并行模式需要不同的通信操作,因此机间GPU的高速互联对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。网络变化因素引入的时延抖动也对训练效率产生影响。根据百度智能云智算中心网络架构白皮书,分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存,是降低多机多卡间端到端通信时延的关键技术。当前RDMA
技术主要采用的方案为InfiniBand
和RoCEv2
两种。AI模型训练的流量模式为突发的独特流量模式RDMA
通信示意图资料来源:《面向AI大模型的智算中心网络白皮书》,《智算中心网络架构白皮书》,《用于新一代AI浪潮的下一代网络白皮书》,甬兴证券研究所请务必阅读报告正文后各项声明根据Marvell
2024AI
Day给出的定义,智算中心互连包括:计算节点、后端网络、前端网络、数据中心间互连:计算节点
(Compute
fabric):机柜内部GPU通过NVLink等方式采用铜缆连接(Scale-Up),CPU通过NIC/DPU与前端网络光连接,GPU通过NIC/DPU与后端网络光连接(Scale-Out)后端网络
(Backend
network):Infiniband/Ethernet光连接网络,集群内多个服务器连接前端网络
(Frontend
network):Ethernet光连接网络,AI服务器数据的输入及运行结果的输出,与数据中心的其余通用服务器、存储和其他交换机等环节连接数据中心间互连
(DCI):采用相干光模块长距离传输Marvell定义的智算中心互连全景图 计算节点内部与前端、后端网络的连接细节资料来源:Marvell:
Accelerated
Infrastructure
for
the
AI
Era
Event,甬兴证券研究所传统云网络架构承载智算业务存在的挑战。根据百度智能云智算中心网络架构白皮书,传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。承载VPC网络的底层物理网络架构,对于承载智算业务存在如下挑战:有阻塞网络:考虑到并非所有服务器都会同时对外产生流量,为了控制网络建设成本,Leaf交换机的下联带宽和上联带宽并非按照1:1设计,而是存在收敛比,一般上联带宽仅有下联带宽的三分之一云内部流量时延相对较高:跨Leaf交换机的两台服务器互访需要经过Spine交换机,转发路径有3跳带宽不够大:一般情况下单物理机只有一张网卡接入VPC网络,单张网卡的带宽比较有限,当前较大范围商用的网卡带宽一般都不大于200Gbps云数据中心VPC网络的Spine-Leaf
架构和流量模型请务必阅读报告正文后各项声明资料来源:《智算中心网络架构白皮书》,甬兴证券研究所◼
智算场景需要建立高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。根据百度智能云智算中心网络架构白皮书,智算服务器可以满配8张GPU卡,并预留8个PCIe网卡插槽。在多机组建GPU集群时,两个GPU跨机互通的突发带宽有可能会大于50Gbps。因此,一般会给每个GPU关联一个至少100Gbps的网络端口。在这种场景下可以配置4张2*100Gbps的网卡、8张1*100Gbps的网卡、8张单端口200/400Gbps的网卡。无阻塞网络设计的关键是采用Fat-Tree(胖树)网络架构。交换机下联上联带宽采用1:1无收敛设计,即如果下联有64个100Gbps的端口,那么上联也有64个100Gbps的端口。交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。百度智能云同智算资源池AI-Pool
机间互通示意图百度智能云跨智算资源池AI-Pool
机间互通示意图请务必阅读报告正文后各项声明资料来源:《智算中心网络架构白皮书》,甬兴证券研究所◼
根据百度智能云智算中心网络架构白皮书,InfiniBand网络的关键组成包括Subnet
Manager(SM)、InfiniBand
网卡、InfiniBand交换机和InfiniBand连接线缆。InfiniBand
网络方案特点:原生无损网络:InfiniBand
网络采用基于credit
信令机制来从根本上避免缓冲区溢出丢包万卡扩展能力:InfiniBand
的Adaptive
Routing
基于逐包的动态路由,在超大规模组网的情况下保证网络最优利用InfiniBand交换机InfiniBand网卡◼
InfiniBand
网络设备供应商:NVIDIA、Intel、Cisco、Hewlett
Packard
EnterpriseInfiniBand网络结构拆分线缆和光模块等连接件集中式的子网管理器(Subnet
Manager)
InfiniBand
网络的控制器请务必阅读报告正文后各项声明资料来源:《智算中心网络架构白皮书》,甬兴证券研究所根据百度智能云智算中心网络架构白皮书,RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机组成,一般情况下是两层架构。RoCEv2网络方案特点:RoCE方案相对于InfiniBand方案的特点是通用性较强和价格相对较低。除用于构建高性能RDMA网络外,还可以在传统的以太网络中使用。但在交换机上的Headroom、PFC、ECN相关参数的配置是比较复杂的。在万卡这种超大规模场景下,整个网络的吞吐性能较InfiniBand
网络要弱一些。◼
RoCE网络设备供应商:根据2023年百度智能云智算中心网络架构白皮书介绍,市场占有率排名靠前的包括新华三、华为等。支持RoCE的网卡当前市场占有率比较高的是NVIDIA
的ConnectX
系列的网卡。RoCEv2网络结构拆分线缆和光模块等连接件
RoCE交换机RoCE
网卡当前大部分数据中心交换机都支持RDMA流控技术,和RoCE网卡配合,实现端到端的RDMA通信。国内的主流数据中心交换机厂商包括华为、新华三等。高性能交换机的核心是转发芯片。当前市场上的商用转发芯片用的比较多的是博通的Tomahawk系列芯片。其中Tomahawk3系列的芯片在当前交换机上使用的比较多,市请务必阅读报告正文后各项声明资料来源:《智算中心网络架构白皮书》,甬兴证券研究所
场上支持Tomahawk4系列的芯片的交换机也逐渐增多。
RoCEv2
承载在以太网上,传统以太网的光纤和光模块都可以用支持RoCE
网卡的厂家比较多,主流厂商为NVIDIA、Intel、Broadcom。数据中心服务器网卡主要以PCIe
卡为主。除了商用卡之外,以云厂商为代表的自研DPU也在蓬勃发展。◼
InfiniBand和RoCEv2网络方案对比:根据百度智能云智算中心网络架构白皮书,具体到实际业务场景上看,RoCEv2是足够好的方案,InfiniBand是特别好的方案。同集群端到端时延流控机制转发模式负载均衡模式Infiniband RoCEv22us 5us基于Credit的流控机制 PFC/ECN,DCQCN等基于LocalID转发 基于IP转发逐包的自适应路由 ECMP方式路由故障恢复Self-HealingInterconnectEnhancementfor
IntelligentDatacenters路由收敛网络配置通过UFM实现零配置手工配置供应商运维成本功能和规模Infiniband RoCEv2性能请务必阅读报告正文后各项声明资料来源:《智算中心网络架构白皮书》,甬兴证券研究所业务性能:InfiniBand的端到端时延小于RoCEv2,所以基于InfiniBand构建的网络在应用层业务性能方面占优,但RoCEv2的性能也能满足绝大部分智算场景的业务性能要求业务规模:
InfiniBand能支持单集群万卡GPU规模,且保证整体性能不下降,并且在业界有比较多的商用实践案例。RoCEv2网络能在单集群支持千卡规模且整体网络性能也无太大的降低业务运维:
InfiniBand较RoCEv2更成熟,包括多租户隔离能力,运维诊断能力等业务成本:
InfiniBand的成本要高于RoCEv2,主要是InfiniBand交换机的成本要比以太交换机高业务供应商:
InfiniBand的供应商主要以NVIDIA为主,RoCEv2的供应商较多InfiniBand
和RoCEv2
的技术对比 InfiniBand
和RoCEv2对比示意图投资建议未来十二个月内,维持通信行业“增持”评级。AIDC服务商:建议关注中国联通、中国电信、中国移动、光环新网、世纪互联等。AI服务器:建议关注浪潮信息、工业富联、中科曙光、紫光股份、中兴通讯等。交换机:建议关注中兴通讯、盛科通信、紫光股份、锐捷网络等。光连接:建议关注中际旭创、天孚通信、光迅科技、源杰科技、华工科技等。铜连接:建议关注博创科技、华丰科技、神宇股份等。温控:建议关注英维克、浪潮信息、高澜股份、中科曙光等。请务必阅读报告正文后各项声明风险提示AI模型及应用发展不及预期:AI模型及应用发展受各方影响因素较多,若不能及时有效推动,整体建设或不能达到预期。贸易摩擦加剧的风险:若贸易摩擦加剧,可能会对相关产品的进口造成不利影响,从而对相关公司业绩造成不利影响。国内算力资本开支不及预期:若国内云厂商算力相关资本开支未能持续高增,AIDC建设或不能达到预期。请务必阅读报告正文后各项声明分析师声明本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉尽责的职业态度,专业审慎的研究方法,独立、客观地出具本报告,保证报告采用的信息均来自合规渠道,并对本报告的内容和观点负责。负责准备以及撰写本报告的所有研究人员在此保证,本报告所发表的任何观点均清晰、准确、如实地反映了研究人员的观点和结论,并不受任何第三方的授意或影响。此外,所有研究人员薪酬的任何部分不曾、不与、也将不会与本报告中的具体推荐意见或观点直接或间接相关。公司业务资格说明甬兴证券有限公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可,具备证券投资咨询业务资格。体系与评级定义说明:不同证券研究机构采用不同的评级术语及评级标准,投资者应区分不同机构在相同评级名称下的定义差异。本评级体系采用的是相对评级体系。投资者买卖证券的决定取决于个人的实际情况。投资者应阅读整篇报告,以获取比较完整的观点与信息,投资者不应以分析师的
取代个人的分析与判断。股票 :分析师给出下列评级中的其中一项代表其根据公司基本面及(或)估值预期以报告日起6个月内公司股价相对于同期市场基准指数表现的看法。买入股价表现将强于基准指数20%以上增持股价表现将强于基准指数5-20%中性股价表现将介于基准指数±5%之间减持股价表现将弱于基准指数5%以上行业 :分析师给出下列评级中的其中一项代表其根据行业历史基本面及(或)估值对所研究行业以报告日起12个月内的基本面和行业指数相对于同期市场基准指数表现的看法。增持行业基本面看好,相对表现优于同期基准指数中性行业基本面稳定,相对表现与同期基准指数持平减持行业基本面看淡,相对表现弱于同期基准指数相关证券市场基准指数说明:A股市场以沪深300指数为基准;港股市场以恒生指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准指数。特别声明在法律许可的情况下,甬兴证券有限公司(以下简称“本公司”)或其关联机构可能会持有报告中涉及的公司所发行的证券或期权并进行交易,也可能为这些公司提供或争取提供投资银行、财务顾问以及金融产品等各种服务。因此,投资者应当考虑到本公司或其相关人员可能存在影响本报告观点客观性的潜在利益冲突,投资者请勿将本报告视为投资或其他决定的唯一参考依据。也不应当认为本报告可以取代自己的判断。版权声明本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年房地产经纪职业资格的试题及答案简析
- 2014年1月国家开放大学汉语言文学本科《心理学》期末纸质考试试题及答案
- 现代公文写作自考题及答案
- 物理中考题及答案遵义
- 吉林省伊通满族自治县重点中学2024届中考数学最后一模试卷含解析
- 《灯光》读后感500字
- 圆幅大厅施工方案
- 江苏省五校2025年高三三月月考数学试题试卷含解析
- 2025年浙江省绍兴市上虞区城南中学高三第二轮复习测试卷生物试题(七)含解析
- 甘肃省酒泉市新苑学校2025年三年级数学第二学期期末检测试题含解析
- GB/T 44980-2024冻虾滑
- 食品采购员工工作计划
- EPC工程项目建设管理机构及权力职责
- 人工智能赋能学校教育的创新与突破
- 纪检业务知识培训课件
- 2024年林芝地区人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 护理教学计划及设想汇报课件
- 2025年全国国家版图知识测试竞赛题库(附答案)
- 宁夏银川市兴庆区一中2025届高三第一次模拟考试英语试卷含解析
- 2025深圳劳动合同下载
- 《同济堂会计信息披露违规案例研究》
评论
0/150
提交评论