版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
算力:AI算力需求持续高景气,单卡到组网集群各产业链环节均受益终端:AI
+终端百花齐放,边缘SoC+生态系统+硬件迭代构筑端侧智能体应用:AI应用百舸争流,LLM仍是核心竞争力风险提示请务必参阅正文之后的重要声明1AI算力需求持续高景气,单卡到组网集群各产业链环节均受益请务必参阅正文之后的重要声明2供需:AI创新支撑算力需求,产能和技术等供给持续改善芯片:英伟达全面领先,AMD和博通面临机遇,台积电享受代工红利服务器:拥有大量未交付订单,关注Dell、HPE和超微电脑供需:AI创新支撑算力需求,产能和技术等供给持续改善产业链梳理:AI算力需求持续高景气,算力硬件产业链受益AI大模型技术迭代,Scaling
Law构建算力增长底层逻辑短期订单强劲可见度高,后续持续跟踪客户订单和资本开支计划技术供给方面,AI芯片加速技术迭代,助推算力成本下降产能供给方面,CoWoS和HBM的供给情况均在积极改善请务必参阅正文之后的重要声明3生成式AI浪潮推动AI大模型研发和相关应用开发需求,算力硬件公司作为“卖铲人”持续受益。芯片侧,GPU
直接受益,英伟达Blackwell需求强劲、供不应求。ASIC定制化积极配合云厂商等大客户。芯片制造和CoWoS封装产业链因旺盛需求积极扩产。服务器侧,AI芯片积极出货进而带动服务器订单高增,
同英伟达密切合作的公司受益程度更高。AI服务器同时带动HBM和SSD等存储需求。数据中心侧,
算力集群化趋势带动网络互联需求,
利好光模块、交换机、连接器等。数据中心的电力需求激增,推高清洁能源需求。产业链梳理:AI算力需求持续高景气,算力硬件产业链受益图表1:AI算力硬件产业链梳理资料来源:光大证券研究所整理绘制请务必参阅正文之后的重要声明4请务必参阅正文之后的重要声明5需求:AI大模型积极迭代,Scaling
Law构建算力增长底层逻辑图表2:近两年已发布的重点AI大模型情况汇总资料来源:OpenAI官网,
Stability
AI官网,
Anthropic官网,Google官网,Meta
AI官网,53AI网,华尔街见闻,新华网,网易新闻,新浪财经,光大证券研究所整理生成式AI竞赛中,各公司加快训练大模型,模型发布时间缩短,带动所需算力增长。单以OpenAI为例,2024年已推出文生视频大模型Sora、多模态大模型GPT-4o和擅长解决数学、代码等复杂推理问题的o1。AI大模型仍在积极迭代、向更强性能和更多功能冲刺。Scaling
Law:OpenAI于2020年的一篇论文提出,大模型最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型具体结构(层数/深度/宽度)基本无关;而且AI大模型规模(参数量和数据集)扩大,除了提升原有性能表现外,还会“涌现”原来不具有的能力。Scaling
Law奠定了客户提升大模型性能必须购买堆叠AI算力的底层逻辑。模型Lab发布时间参数量ChatGPT
o1-previewOpenAI2024年9月12日ChatGPT
4oOpenAI2024年5月13日Qwen2.5阿里云2024年5月9日Claude
3.5
SonnetAnthropic2024年6月21日DeepSeek
-V2.5深度求索2024年9月6日236BGLM-4-Plus智谱AI2024年8月29日405BStable
LM
2Stability
AI2024年1月19日1.6BGemini
1.5Google2024年2月15日Llama
3.2Meta
AI2024年9月25日lightweighttext-only:1B&3B;larger:11B&90BMixtral
8x22BMistral
AI2024年4月10日141BSoraOpenAI2024年2月15日PalM2Google2023年5月10日Claude
2Anthropic2023年7月11日ChatGPT
4OpenAI2023年3月14日ChatGPT3.5OpenAI2022年11月30日图表3:大模型表现随着模型计算量提升而变佳资料来源:Epoch
AI请务必参阅正文之后的重要声明6需求:AI大模型技术迭代,Scaling
Law构建算力增长底层逻辑图表4:OpenAI
GPT-4的训练算力需求相较GPT-3大幅增加资料来源:Life
Architect,腾讯云,36氪,Lambda,Medium,光大证券研究所整理计算量的增长驱动AI大模型开发厂商构建更大的AI芯片算力集群。OpenAI训练GPT-4时,在大约2.5万个A100上训练了90到100天;而OpenAI训练GPT-3时,在大约1万个V100上训练了15天。68倍计算量增长驱动OpenAI采用性能增强的AI芯片、更多芯片数量的算力集群、增长训练时间。各大模型厂商纷纷囤积AI芯片用于模型训练。Meta
CEO扎克伯格表示2024年底Meta将拥有35万块H100,拥有近60万个GPU等效算力;根据The
information预测,截至2024Q1,OpenAI用于模型训练的服务器集群约包括12万个英伟达A100,而2024年全年的训练成本(包括支付数据的费用)可能由原先最早计划的8亿美元增至30亿美元。参数量Tokens数据规模FLOPS训练芯片型号芯片数量训练时长(B)(B)(GB)(天)GPT-417601300050002.15
e25A1002500095GPT-31753005703.14
e23V1001000015请务必参阅正文之后的重要声明资料来源:华尔街见闻,光大证券研究所7需求:RL+CoT推动AIAgent,叠加多模态推动推理算力大幅提升RL+CoT
对于实现能自主规划的
AI
Agent
至关重要。
AI
Agent应当拥有自主理解、规划和执行复杂任务的能力,是打破AI应用发展瓶颈的关键,可以将简单的指令自主拆分成多个步骤并精细化执行,将上一环节的输出作为下一环节的输入。强化学习(RL)具备自主探索和连续决策的能力。其中包括self-play和蒙特卡洛树搜索(MCTS)。思维链(CoT)通过分步推理,要求模型在生成最终答案前生成一系列中间推理步骤,实现“内部思维”的推理过程。强化学习推理推出测试维度Scaling
Law,提升推理算力需求。强化学习范式使得推理过程包含多次推理迭代、更加复杂的搜索算法或模型的深度思考,因此推理中的思考时间(即测试时间)产生的数据量需要投入更多计算资源。图表5:o1在AIEM测试中的准确率与“训练时间计算”和“测试时间计算”呈正比请务必参阅正文之后的重要声明资料来源:论文《
The
Illustrated
Transformer
》(作者Jay
Alammar),《Enhancing
Jujube
Forest
Growth
Estimation
and
Disease
Detection
Using
a
Novel
Diffusion-TransformerArchitecture》(作者Xiangyi
Hu),Creative
Commons,21经济,光大证券研究所整理绘制多模态大模型输入输出Tokens规模较纯文本数据大幅提升。图片和视频形式需要矩阵级分割成Tokens。RL+COT带来测试维度Scaling
Law,多模态要求推理阶段更多Tokens输入输出,均驱动推理算力需求大幅上升,但不代表训练算力需求会停止增长。1)AI
Agent和多模态要求新模型持续研发;2)预训练阶段同样需要消耗大量的算力;3)强化学习推理和多模态大模型均并不意味着模型参数停止扩张,因为主模型参数提升可能会产生更好的推理路径和表现。图表6:各模态切片汇总,音频、图片、视频切片后对应的Tokens数相较文字大幅增加8需求:RL+CoT推动AIAgent,叠加多模态推动推理算力大幅提升9需求:英伟达未到“思科时刻”,跟踪客户订单和资本开支计划资料来源:凤凰网,英伟达官网,投资界,光大证券研究所整理请务必参阅正文之后的重要声明宏观背景①突发事件的宏观扰动(2020年的新冠/2022年2月的俄乌战争
vs
1990年的海湾战争/1997年的亚洲金融危机)②新政府的财政刺激(2022年拜登政府的“芯片法案”
vs
1993年克林顿政府的“信息高速公路计划”)③降息周期的宽松环境(2024年底开启的降息周期
vs
1990年至1999年的阶梯式降息长周期)④经济软着陆后的需求回归(2024年的经济软着陆
vs
1994年的经济软着陆)中观背景①新技术迭代(大模型
vs
万维网)②“卖铲”公司垄断(2023年英伟达的GPU
vs
1993年思科的路由器/交换机
)③标志应用的推出(2023年ChatGPT
vs
1995年Netscape
)行业需求英伟达下游AI初创公司及云厂商的大量资本开支明确用于AI基础设施建设,AI芯片获取直接决定下游公司产品迭代速度,行业实际需求强劲。大量互联网公司资金大量投入广告和推广而非产品和技术投入,需求泡沫堆积,缺乏更新换代动力,基础设施建设完成后需求迅速下降。客户分布AI初创及云服务大客户资本充裕稳定,下游客户领域仍在多元扩展:主权AI、垂直大模型、跨行业应用方兴未艾。客户集中于有线电视和电信行业,存在资本支出周期。行业竞争壁垒AI芯片技术、资金壁垒高,创新难度大,龙头企业先发优势和经验积累优势明显,不易受挑战者冲击。交换机和路由器技术壁垒相对较低,思科受到华为等后发竞争对手在价格和性能上的威胁,迅速失去市场份额。短期需求各主要客户陆续披露资本开支计划和芯片需求,短期需求可见度高,强劲需求趋势延续。2000年前思科战略决策已经呈现过度扩张趋势,大量囤积库存、疯狂收购、扩张产品线等策略埋下隐患。AI算力产业链相较互联网时期的“思科泡沫”
,存在客户积极研发投入、行业竞争壁垒高等优势。1)AI算力客户群体(云厂商、AI初创公司)投入大量资本开支用于AI基础设施建设,思科对应的互联网公司资金除产品技术投入外更多投入广告宣传;2)AI芯片技术和资金壁垒高,思科的路由器、网络技术壁垒低,后期市场竞争激烈。“思科泡沫”警醒应紧密跟踪AI算力需求和订单变化,当前英伟达Blackwell芯片订单可见度高。互联网泡沫破灭时,思科存在22亿美元过剩库存,因此应短期监控客户订单、中长期跟踪下游客户需求和资本开支计划。图表7:当前英伟达和思科崩盘前的背景、行业和公司表现对比英伟达 思科需求:北美科技巨头资本支出持续增加,短期算力需求仍有支撑10图表9:科技公司资本支出占营运现金流的比例变化趋势资料来源:彭博,光大证券研究所整理,已排除自由现金流为负的年份和极端值,24E数据为彭博一致预期80%60%40%20%0%100%
140%120%2015 2016 2017 2018 2019 2020 2021微软 亚马逊
谷歌
Meta
特斯拉2022 2023 2024EOracle
100%图表8:北美科技巨头23Q1-24Q2资本支出与同比增速(单位:亿美元)请务必参阅正文之后的重要声明资料来源:各公司公告,光大证券研究所整理23Q123Q223Q323Q424Q124Q2微软78.0107112115109.5190YoY23.8%23.0%69.7%69.1%40.4%77.57%谷歌62.968.980.6110120131YoY-35.7%0.9%10.7%45.1%90.8%90.13%Meta70.963.567.6796785YoY27.7%-18.0%-28.9%-14.4%-5.5%33.86%亚马逊131104113133139169YoY-4.4%-26.2%-24.7%-14.2%6.1%62.50%北美科技公司陆续进入新一轮AI投资周期,资本支出大幅增加,短期内对高端AI芯片的需求仍较为强劲根据Omdia,23年微软、Meta共计购买15万张H100
GPU,谷歌、亚马逊共计购买5万张H100
GPU。由于谷歌、亚马逊拥有自研AI芯片的储备,对第三方芯片供应商的依赖较弱,但随着LLM性能迭代和用户对AI服务的要求提升,当前阶段训练和推理均需要高性能GPU和大规模集群算力的支撑,帮助科技巨头培养早期口碑、抢占市场先机。虽然科技巨头仍有充足的营运现金流支持资本开支持续增加,但仍面临一定的成本压力,长期AI投资策略可能发生变化从资本支出占营运现金流的比例来看,利润压力较大的亚马逊、Meta、Oracle大幅削减了资本支出的占比,谷歌资本支出占比无明显变化,微软、特斯拉资本支出占比均呈上升趋势。而根据公司指引,2024年和2025年科技巨头有望继续增加资本支出,Meta则明确指出持续增加的投资会使2025年的折旧成本大幅提升。根据彭博一致预期,2024年科技巨头资本支出占营运现金流的比例将普遍达到40%以上。因此,在AI的投资回报率尚不明显的现状下,科技巨头会更加重视AI战略的性价比。请务必参阅正文之后的重要声明11需求:云厂商注重AI产品创新,AI算力公司对长期增速表态乐观资料来源:新浪财经,南方财经,BiaNews,华盛通,腾讯,智通财经,芯智讯,光大证券研究所整理云厂商和OpenAI积极研发投入,产品创新和模型推理运作将为主要工作负载。OpenAI表示2030年前预计累计投入2000亿美元;云厂商方面更注重针对不同行业和客户需要开发具备实用性、创新性的功能,激发客户的购买和复用意愿。AI芯片厂商预计AI芯片市场规模长期维持较快复合增速。AMD预计2028年数据中心人工智能加速器市场规模将达到5000亿美元(2023年~2028年期间的年均复合增速60%+);英伟达和Dell科技预计数据中心由通用计算向加速计算转型,带来万亿级别数据中心市场空间。图表10:各公司对AI算力产业链相关需求的表述与预期汇总行业公司对于未来长期AI算力需求的表述AI大模型OpenAI预计2030年前累计花费2000亿美元,其中60%-80%将用于训练和运行模型;2026年的大模型训练成本或提高至95亿美元。云厂商MetaAI模型会针对不同行业和用户进行大量产品和应用创新,具备更多实用性功能。新一代
Llama
模型的训练需求,资本支出将在2025年显著增长,投入注重大模型训练、推理和业务支持。GoogleAI大模型正在整合基础功能,未来的重点是基于这些功能构建解决方案。Microsoft公司将在未来几个季度继续加大资本支出,以扩展基础设施建设。当前大部分AI工作负载来自推理运行工作。Amazon生成式AI仍处非常早期阶段,公司已在AI领域实现数十亿美元收入,而需求增长仍非常显著,看好AI未来持续发展。AI芯片英伟达未来几年内,总值达1万亿美元的数据中心将全部实现加速计算。当前客户对于Blackwell需求旺盛供不应求使得客户关系紧张。AMD预计2023年~2028年数据中心人工智能加速器市场将以每年60%+的速度增长,2028年市场将增长至5000亿美元。此前曾预计2027年市场规模达4000亿美元。Marvell科技Marvell对应的数据中心TAM将从2023年的210亿美元增长至2028年的750亿美元,年复合增长率29%。其中,预计ASIC加速计算芯片业务2028年市场规模将达429亿美元。服务器Dell科技未来数据中心将更多转向采用GPU和AI加速器以满足对复杂AI工作负载的支持。请务必参阅正文之后的重要声明12供给:AI芯片加速迭代,算力成本下降助推应用推理侧发展资料来源:英伟达官网,谷歌云官网,新浪财经,芯智讯,IT之家,搜狐,TOP
CPU,新浪科技,36氪,信息化观察网,hpcwire,icsmart,光大证券研究所整理资料来源:腾讯网,新浪财经,光大证券研究所整理底层逻辑提升芯片性能以降低算力单位成本,进而帮助AI为“推理”运行服务。单芯片改善提升单颗芯片峰值算力。机架级改善基于芯片和网络互联的性能提升,GB200
NVL72相较等数量的
H100
Tensor
CoreGPU,可为LLM推理工作负载提供30倍性能,同时将成本和能耗降低25倍,大幅降低单位算力成本。AI芯片厂商产品迭代加速,英伟达性能优势明显。自2023年以来,英伟达、AMD和博通等AI芯片厂商均积极进行产品迭代。性能提升帮助算力成本下降,降低AI应用推理运行门槛,帮助硬件和应用形成正向循环。单芯片性能提升、算力集群整体运行效率增强均帮助单位算力成本下降,有望促进AI应用和产品研发和使用,丰富的AI应用则将为AI算力带来持续需求。图表11:已发布重点AI芯片情况汇总 图表12:AI芯片算力成本出现下降趋势供给:产能瓶颈CoWoS和HBM的供给情况均在积极改善资料来源:TrendForce,光大证券研究所资料来源:格隆汇,新浪财经,IT之家,TheElec,光大证券研究所整理公司CoWoS产能情况台积电2024年底CoWoS月产能4万片;2025年底CoWoS月产能预计爬升至8万片。联华电子2023年8月消息,英伟达打造非台积电CoWoS供应链,其中联华电子将扩充旗下硅中介层(silicon
interposer)产能,把月产能由3千片扩增至1万片。三星电子2024年4月消息,三星电子已经成功拿下英伟达2.5D封装订单,提供Interposer(硅中介层和I-Cube先进封装产能,以补充台积电CoWoS产能缺口。CoWoS:AI芯片扩产瓶颈之一是CoWoS先进封装中的硅中介层(interposer)产能。1)台积电克服土地和厂房等扩产限制,2025年底CoWoS月产能预计由2024年底4万片翻倍扩至8万片;2)英伟达积极扩展非台积电的CoWoS供应链,吸纳联华电子和三星电子实现对台积电的产能补充。HBM:根据TrendForce,英伟达和AMD的AI芯片积极提升搭载HBM规格,由HBM3向HBM3E更迭,由8层堆叠向12层堆叠更迭,并不断提升HBM容量和内存带宽。图表13:CoWoS供应链的扩产情况汇总 图表14:英伟达和AMD
AI芯片采用HBM产品的规格情况预测请务必参阅正文之后的重要声明13供给:HBM3E将于2024H2大批量出货,HBM4
2025年蓄势待发资料来源:
TrendForce,光大证券研究所公司最新财报AI业务表述HBM扩产计划HBM产品迭代SK海力士1)24Q3
,
HBM营收环比增长70%,同比增长330%;
Q3中HBM销售额占DRAM
的30%
,
预计Q4将实现40%。2)24Q3,eSSD营收环比增长20%,同比增长430%。)
2024
年
SK
海力士HBM产能预计翻倍;)
2024
年
SK
海力士HBM产能售罄,且2025年也基本售罄。1)
据Q3业绩会,
12层HBM3E产品将于
2024Q4
出货,
预计2025H1HBM3E12H将
占HBM3E总出货量的50%;2
)
据
Q2
业绩会
,
2024
年HBM3E将占HBM出货量的50%3)
据Q2业绩会,
2025年12层HBM3E将成为旗舰产品;4)据Q2业绩会,2025H2推出12层堆叠HBM4。三星电子1)24Q2
,
HBM营收环比增长50%+;2
)
24Q2
,
服务器SSD营收环比增长约40%;3)
24Q3,
HBM3E营收占HBM总收入比重略高于10%,预计Q4将增至50%。HBM3E全面增产1)24Q1向客户发送8层HBM3E样品,24Q3正在量产8层和12层HBM3E产品;2)12层HBM3E已完成开发,目前已发送样品并完成增产准备,预计24H2根据客户需求情况扩大供应;3
)
HBM4
按计划研发,
预计
2025H2发布。美光科技2024年和2025年的HBM产品均已售罄,
且定价已确定-2024年3月,12层HBM3E产品送样,并预计2025年大批量生产。请务必参阅正文之后的重要声明14图表16:三大存储厂商的HBM产品的业绩、产能和技术情况汇总资料来源:三星电子官网,美光科技官网,新浪财经,新浪科技,理财网,华尔街见闻,光大证券研究所整理HBM供不应求,三大存储厂商积极扩产,驱动相关收入高增。美光表示其HBM产品2024年和2025年产能均已售罄,三大厂商均加大产能供给,2025年预计HBM出货量持续高增以驱动收入增长。存储厂商竞相推出新款HBM技术,并加速量产出货。2024年HBM芯片将向HBM3E产品迭代,其中三大存储厂商均发布8层HBM3E;三星和SK海力士于24Q3量产出货12层HBM3E,美光科技将于2025年大批量出货12
层HBM3E
;
SK
海力士和三星电子预计于2025H2推出HBM4。图表15:三大存储厂商的HBM3E研发和供应进展芯片:英伟达全面领先,AMD和博通面临机遇,台积电享受代工红利英伟达:发布Blackwell平台,算力集群系统成为突出技术优势AMD:
MI325x注重推理,关注后续集群算力产品和软件生态建设博通:
AI定制芯片+以太网,把握AI浪潮长期发展趋势台积电:掌握先进制程和先进封装技术优势,收获AI芯片代工红利请务必参阅正文之后的重要声明1516英伟达:股价历史复盘,多轮业绩超预期驱动股价快速抬升请务必参阅正文之后的重要声明资料来源:格隆汇,新浪财经,IT之家,TheElec,光大证券研究所整理英伟达股价可分成逻辑推演期和业绩兑现期:
)逻辑推演期( ):英伟达收割生成式 算力红利“铲子”逻辑突出,市场预期算力需求强劲、英伟达手握大量确定性订单;
)业绩兑现期( 至今):
亮眼业绩不断推高盈利预测,进而带动股价提升。业绩驱动股价:英伟达凭借其技术优势,夺得绝大部分AI
GPU市场份额,成为收获AI算力红利的主要受益公司。AI算力需求帮助英伟达数据中心业务营收高速增长,同时高价值量的AI
GPU帮助英伟达盈利能力爬升。图表17:英伟达强劲业绩驱动股价大幅抬升英伟达:发布超级芯片GB200,机架系统级性能和能效大幅提升图表18:GB200超级芯片由2个B200
GPU和1个Grace
CPU组成B200
SXMH200
SXMH100
SXMA100(80GB)
SXMGPU
SubsystemHBM3eHBM3eHBM3HBM2eMemory
Bandwidth8TB/s4.8TB/s3.35TB/s2TB/sVRAM192GB(2*96GB)141GB80GB80GBFP8
Tensor
Core9000
TFLOPS3958
TFLOPS3958TFLOPS624TOPSFP16
Tensor
Core4500
TFLOPS1979TFLOPS1979TFLOPS312TFLOPSTF32
Tensor
Core2250
TFLOPS989TFLOPS989TFLOPS156TFLOPS(tensore
float)FP64
Tensor
Core40
TFLOPS67TFLOPS67TFLOPS19.5TFLOPSInterconnectNVLink
5:1800GB/sNVLink
4:
900GB/sNVLink
4:
900GB/sNVLink
3:
600
GB/sPCIe
Gen5:
256GB/sPCIe
Gen5:
128GB/sPCIe
Gen5:
128GB/sPCIe
Gen4:
64
GB/sTDP1000W700W700W400W17资料来源:英伟达官网,光大证券研究所整理图表19:Blackwell平台产品涉及GPU、CPU、网络等多类产品资料来源:英伟达官网 资料来源:英伟达官方材料图表20:英伟达AI芯片性能汇总,B200(SXM)单卡峰值算力提升至H200(SXM)的两倍以上(除FP64精度)Blackwell全新架构实现单卡芯片算力密度及峰值算力较上代Hopper跃升。Blackwell
GPU
实现两个GPUdie
双芯片堆叠,
晶体管数量较Hopper
GPU提升160%,B200同精度的峰值算力也较H200均提升至少一倍(除FP64精度外)。弱化单独GPU芯片,英伟达推出当前最强AI芯片GB200
。GB200通过NVLink-C2C接口连接两个BlackwellGPU和一个Grace
CPU,GB200推理速度为H100
的7
倍,
训练速度为H100的4倍(基于GPT-3模型)。互联技术帮助GB200机架系统实现通信速度和整体性能的大幅提升。GB200还可扩充至机架系统级产品,DGX
GB200
NVL72
机架通过18
个NVLink
Switch芯片连接36个GB200,帮助Blackwell机架级系统推理性能较Hopper算力集群提升至30倍(基于GPT-MoE模型)。请务必参阅正文之后的重要声明请务必参阅正文之后的重要声明18英伟达自研通信芯片,实现通信能力持续增强。1)NVLink
5.0在B200上实现1.8TB/s的数据传输,较4.0提升一倍;2)NVLink
Switch是第一款机架级交换机芯片,能够在无阻塞计算结构中支持多达
576
个完全连接的
GPU。图表21:英伟达、AMD和博通的芯片通信产品发布时间表资料来源:英伟达官网,腾讯云,搜狐,36氪,智东西,IThome,光大证券研究所整理绘制英伟达:自研通信芯片成为组建大规模算力集群系统的关键19资料来源:英伟达官网,光大证券研究所整理请务必参阅正文之后的重要声明NVLink和NVLink
Switch是英伟达创建无缝、高带宽、多节点GPU集群的关键。NVLink
Switch互连技术帮助已连接的GPU共享计算结果,提高通信速度,降低集群损耗。NVLink
Switch可组建连接GB200
NVL72的GPU实现全通信连接,并可进一步扩展、最多连接576个GPU,从而形成高效的数据中心大小的GPU算力集群。图表22:英伟达NVLink通信芯片历次迭代产品性能汇总表2nd
Generation3rd
Generation4th
Generation5th
GenerationNVLink
bandwidth
per
GPU300GB/s600GB/s900GB/s1,800GB/sMaximum
Number
of
Links
per
GPU6121818Supported
NVIDIA
ArchitecturesNVIDIA
Volta™
architectureNVIDIA
Ampere
architectureNVIDIA
Hopper™
architectureNVIDIA
Blackwell
architectureFirst
GenerationSecond
GenerationThird
GenerationNVLink
SwitchNumberofGPUswithdirectconnection
within
a
NVLink
domainUp
to
8Up
to
8Up
to
8Up
to
576NVSwitch
GPU-to-GPU
bandwidth300GB/s600GB/s900GB/s1,800GB/sTotal
aggregate
bandwidth2.4TB/s4.8TB/s7.2TB/s1PB/sSupported
NVIDIA
architecturesNVIDIA
Volta™
architectureNVIDIA
Ampere
architectureNVIDIA
Hopper™
architectureNVIDIA
Blackwell
architecture资料来源:英伟达官网,光大证券研究所整理图表23:英伟达NVLink
Switch通信芯片历次迭代产品性能汇总表英伟达:自研通信芯片成为组建大规模算力集群系统的关键20英伟达:GB200
NVL72等机架系统大幅强化新一代AI计算能力HGX
B200HGX
B100GPU组成8
x
B200
SXM8
x
B100
SXMFP4
Tensor
Core144
PFLOPS112
PFLOPSFP8/FP6
Tensor
Core72
PFLOPS56
PFLOPSINT8
Tensor
Core72
POPS56
POPSFP16/BF16
Tensor
Core36
PFLOPS28
PFLOPSTF32
Tensor
Core18
PFLOPS14
PFLOPSFP64
Tensor
Core320
TFLOPS240
TFLOPS存储高达1.5TBNVIDIA
NVLinkNVLink
5.0NVIDIA
NVSwitchNVSwitch
4.0GPU间带宽1.8
TB/s总聚合带宽14.4
TB/s资料来源:英伟达官方,光大证券研究所请务必参阅正文之后的重要声明资料来源:英伟达官网,光大证券研究所英伟达产品形态包括芯片、服务器和机架系统三个层级,存在依次组成构建的关系。芯片级:英伟达官方当前公布的芯片款式包括B100、B200和GB200三类,其中GB200由2个B200和1个CPU构成;服务器级:8个B100或B200芯片组成对应8卡服务器,GB200超级芯片服务器则配备两个GB200超级芯片;机架系统:服务器通过机架式设计,可实现多个服务器连接形成更多GPU互连,例如72个GPU连接的GB200
NVL72。机架系统组成:1)GB200
NVL72:计算部分由18个GB200
服务器构成(36个GB200超级芯片,即36个Grace
CPU+72个Blackwell
GPU),中间通过9个NVLink
Switch
Tray实现通信共享;机架还可横向拓展,如8个GB200
NVL
72机架可组成一个SuperPOD,创建一个576个GPU互连的大型算力集群。2)GB200
NVL36:单机柜形式,计算部分由9个GB200服务器构成,其中机架上方放置5个、机架下方放置4个,中间通过9个NVLink
Switch
Tray连接。图表24:英伟达Blackwell系列服务器规格 图表25:英伟达GB200
NVL72和GB200NVL36的机架内部构成和结构21图表26:英伟达和AMD的AI软件生态系统结构图请务必参阅正文之后的重要声明资料来源:英伟达官网,AMD官网,光大证券研究所整理绘制资料来源:AMD官网,HPCwire,腾讯云,光大证券研究所整理绘制英伟达:CUDA成为生态护城河,积极打造软件配套服务图表27:英伟达、AMD和Intel的AI软件生态布局对比CUDA成英伟达生态护城河,AMD依赖迁移+开源追赶。英伟达CUDA具备丰富训练框架和强大算子库,开发者使用粘性强。CUDA支持JAX、PaddlePaddle、MXNet、PyTorch
Geometric、DGL等深度学习框架,且CUDA-XAI软件加速库具备丰富的数学、数据处理、图像视频、通讯等库,以及TensorRT、cuDNN两个专门绑定英伟达GPU的深度学习核心库。英伟达打造软硬一体解决方案。1)DGX平台,打造从硬件到软件的企业级AI平台;2)AI
Enterprise软件套件,帮助客户灵活部署、加速降本,提供包括NeMo、Riva、NIM容器式微服务等应用。22请务必参阅正文之后的重要声明资料来源:英伟达官网,AMD官网,光大证券研究所整理绘制;英伟达选取“Tensor
Core”,AMD选取“with
Structured
Sparsity”资料来源:新浪财经,光大证券研究所整理NVIDIA
B200NVIDIAH200
SXMAMD
MI325XAMD
MI300XMemory
Clock8Gbps
HBM3eHBM3e6
GHz
HBM3E5.2
GHz
HBM3MemoryBandwidth8TB/s4.8TB/s6
TB/s5.3
TB/sVRAM192GB(2*96GB)141GB256GB192GBFP8稀疏4500TFLOPS3958
TFLOPS5.22
PFLOPs5.22
PFLOPsFP16稀疏2250TFLOPS1979TFLOPS2.61
PFLOPs2.61
PFLOPsTF32稀疏1100TFLOPS989TFLOPS1.3
PFLOPs1.3
PFLOPsFP64稀疏40TFLOPS67TFLOPS81.7
TFLOPs81.7
TFLOPsInterconnectNVLink
5:1800G/sNVLin
4:900GB/sInfinity
Fabric:128GB/sInfinity
Fabric:128GB/sAMD
MI325x发布,公司注重提升内存和推理性能。MI325x芯片采用MI300X相同的基本设计和CDNA
3
GPU架构,但配备256GB
HBM3e内存;注重推理性能,单颗MI325x在执行Llama
3.1
70B等大模型的推理性能比英伟达H200快20%~40%,MI325X服务器在运行Llama
3.1405B时,较英伟达HGX
H200推理性能可提高40%。而AMD指引2024年AI芯片收入由原先40亿美元上调至45亿美元,主要系MI300贡献。AMD积极弥补通信和软件生态短板。1)通信:使用Infinity
Fabric,并推出业界首款支持UEC超以太网联盟的AI网卡Pensando
Pollara
400和性能翻倍提升的Pensando
Salina
400
DPU。2023年7月,微软、Meta、AMD、博通等公司组建UEC,致力于建立AI时代下的超大型网络标准。2)生态系统:AMD推出ROCm
6.2生态系统,平均推理/训练性能提高2.4倍。后续关注AMD的集群系统、软件生态和客户进展。AI工作负载由训练向推理转变,算力性能和软件生态面临的壁垒降低,但AMD仍较英伟达存在差距,我们建议关注后续进展突破。1)英伟达已推出机架级系统,市场期待AMD的超大规模算力产品的推出;2)AMD积极推出通信产品,但实际可能较英伟达仍有差距,例如单颗MI325x训练Llama
2
7B的速度超过单颗英伟达H200,但8张MI325X训练Llama
2
70B的性能同英伟达HGX
H200相当;3)客户当前以微软为主,OpenAI、Meta、Cohere、xAI为其战略合作伙伴,关注后续下单潜力。图表28:英伟达和AMD新款AI芯片单芯片性能对比 图表29:AMD公布后续AI芯片产品迭代路线图23请务必参阅正文之后的重要声明资料来源:博通Hot
Chips
2024
PPT资料来源:博通投资者日PPT博通:AI定制芯片+以太网,把握AI浪潮长期发展趋势定制芯片趋势已来。相较英伟达等通用芯片,定制AI芯片ASIC具备低成本同时实现最大限度提高客户关心性能的优势。博通当前已具备四家重要ASIC客户,分别为Google、Meta、字节跳动和OpenAI,其中博通已帮助Google研发五代TPU芯片。通信成为组建大型算力集群的关键,博通以太网成为重要技术。GPU、网卡、内存之间需要高速传输数据,业界发明RDMA技术,使网卡接管数据,在发送方和接收方的内存间直接传输数据,从而绕过缓存和操作系统。英伟达主导的infiniband和以太网都支持RDMA,而博通以太网具备成本和开放生态优势,可供客户组建大型算力系统时自由选择软硬组件。博通推出共同封装光学器件(CPO)集成至ASIC芯片。共同封装光学器件(CPO)这一新技术可提供功耗和成本领先优势,且显著减少了系统延迟,并提高了数据传输速度、能效和频宽。CPO技术已被使用在博通新一代的Tomahawk
5
Bailly交换机,目前博通在致力于开发硅光子学与共封装光学器件的结合,以实现AI加速器ASIC芯片的进一步升级。图表30:博通发布集成在ASIC的硅光子学和共封装光学器件(CPO)技术 图表31:AI数据中心算力集群需网络通信产品连接,博通通信产品覆盖较为全面务必参阅正文之后的重要声明资料来源:老虎说芯,华尔街见闻,光大证券研究所整理资料来源:华尔街见闻台积电:掌握先进制程和先进封装技术优势,收获AI芯片代工红利CoWoS-SCoWoS-L中介层硅中介层RDL中介层和LSI芯片尺寸和布线密度硅中介层尺寸受限,布线密度较低满足更大尺寸需求,布线密度较高性能需求能够支持更高的带宽和更低的延迟满足了性能和成本之间的平衡应用场景主要用于需要极高性能和高密度互连的应用,如HPC、AI加速器和高端服务器适用于兼顾性能和成本的应用,如网络设备、通信基站和某些高端消费电子产品制造复杂性制造工艺复杂且对精度要求高,通常只在对性能要求极高且能够承受较高制造成本的应用中使用制造复杂度高于CoWoS-S,能够实现复杂系统集成的需求技术成熟度请良率较高,目前高达99%良率偏低,目前约为90%24AI芯片厂商为保证性能领先,均采取台积电的先进制程和先进封装工艺用于芯片生产,台积电享受AI发展红利。台积电负责为英伟达、AMD和博通等AI芯片公司代工制造数据中心服务器端AI芯片,当前其CoWoS先进封装产能已成AI芯片产能瓶颈。CoWoS-L成为英伟达Blackwell生产的关键。台积电CoWoS-L较此前CoWoS-S技术,能够帮助AI芯片实现更高布线密度和更大尺寸。3nm进入量产阶段,2nm工艺预计于2026年量产。台积电先进制程向2nm和3nm转移,当前服务器端AI芯片、手机芯片、PC芯片等下游客户向3nm过渡,支撑起台积电未来强劲业绩表现。图表32:CoWoS-S和CoWoS-L的区别对比 图表33:台积电公布代工制程工艺的技术演进路线请务必参阅正文之后的重要声明25服务器:拥有大量未交付订单,关注Dell、HPE和超微电脑全球AI服务器市场规模有望持续高增,市场竞争格局较为分散三大服务器厂商AI服务器营收&未交付订单金额增长,印证行业高景气AI服务器赛道竞争激烈,三大品牌服务器厂商短期盈利能力承压资料来源:Counterpoint,光大证券研究所整理资料来源:
Statista
,光大证券研究所整理请务必参阅正文之后的重要声明314052678811520040608010012014020232024E2025E2026E2027E2028E(十亿美元)AI服务器市场规模全球AI服务器市场规模有望持续高增,市场竞争格局较为分散受益于生成式AI的数据分析、训练、推理等多方面需求,AI服务器行业有望维持高景气度。Statista研究数据显示,2023年全球AI服务器市场规模为310亿美元,预计2024年达到400亿美元、2028年将达到1150亿美元左右,2024-2028年间CAGR约30%。除云厂商委托ODM定制的AI服务器外,品牌服务器厂商DELL、HPE、超微电脑份额合计超50%。Counterpoint发布的2Q24统计数据显示,品牌服务器厂商DELL、HPE、超微电脑为AI服务器三大巨头,份额合计超50%。服务器商业模式分为品牌和白牌厂商。数据中心建设过程包括“零部件—服务器—服务器机柜—数据中心”,零部件除关键算力设施GPU外,还需要CPU、内存、硬盘等核心部分,组装完成的服务器需要挂载在服务器机架,以实现服务器间的数据交互及统一管理。白牌服务器厂商主要负责将GPU等部件组装为GPU服务器/机柜,在主板设计、供应链整合、制造代工等环节提供溢价;品牌服务器厂商通过自主设计服务器整体解决方案提供溢价。图表34:2023-2028年全球AI服务器市场规模 图表35:2Q24AI服务器市场份额 图表36:服务器厂商商业模式资料来源:
DELL、HPE公司公告,光大证券研究所整理品牌服务器厂商白牌服务器厂商定位拥有服务器方案的自主设计权,将设计好的产品交给代工厂进行生产,组装后交付给下游客户下游客户提供设计方案,根据客户定制化委托进行生产厂商戴尔科技、超微电脑、HPE、浪潮信息、联想集团等鸿海精密、富士康、英业达、广达电脑、纬创资通、神达电脑等请务必参阅正文之后的重要声明27受强劲AI需求拉动,
DELL、HPE、超微电脑AI服务器营收高速增长:1)Dell科技
ISG业务线收入连续2个季度同比正增长,最新季度收入环比增长26%至116亿美元,超市场预期。业绩改善主因是AI服务器需求强劲,看好AI服务器的强劲势头持续;2)HPE:已实现连续2个季度AI系统收入同比增长,公司对AI新系统未来订单保持乐观。3)超微电脑:OEM设备和大型数据中心业务收入近3个季度均实现超过150%同比高增长,截至2024年6月30日的最新季度同比增长达192%,增长主因OEM和大型数据中心客户增加、超大数据中心业务占比增加,客户对DLC液冷机架需求超预期。图表37:DELL、HPE、超微电脑AI服务器所在业务线的业绩情况汇总Dell859392116ISG服务器和网络,包括AI服务器和非AI的传统服务器连续2个季度同比增长,受益于AI服务器需求强劲和传统服务器需求恢复YoY-12%-6%22%38%HPE44913AI
Systems 高性能计算(HPC)
AI系统收入实现连续2个季度同比增长和AIYoY 33%0%125%44%公司AI服务器所在业务线营收(亿美元)业务线业务线简介业绩描述服务器产品示例23Q3
23Q4
24Q1
24Q2超微电脑12221934OEM设备和大型数据中心主要以AI服务器为主大型数据中心客户增加,收入同比维持高增速YoY 26%175%222%192%资料来源:
DELL、HPE、超微电脑公司公告,光大证券研究所整理;注:由于各公司财年划分不一,表头中如“24Q2”等非财年概念,超微电脑、Dell、HPE最新季度对应截止日期分别为2024年6月30日、2024年8月2日、2024年7月31日。28从AI服务器未交付订单金额来看,DELL、HPE呈现逐季增加趋势:2023年以来DELL、HPE的AI服务器订单交付速度低于新签速度,未交付订单逐季增加。1)截至FY2025Q2(2024年8月2日),Dell未完成订单金额为38亿美元,金额较上一季度FY2025Q1基本持平,较24财年同期接近翻倍,供给交付能力提升后,AI服务器新增需求仍保持增长态势。2)截至FY2024Q3(2024年7月31日),HPE未完成订单金额为34亿美元,金额较上一季度FY2024Q2的31亿美元进一步增长。图表38:HPE和Dell未完成订单情况(亿美元)请务必参阅正文之后的重要声明资料来源:
DELL、HPE公司公告,光大证券研究所整理AI服务器赛道竞争激烈,三大品牌服务器厂商短期盈利能力承压资料来源:英伟达官网、光大证券研究所整理请务必参阅正文之后的重要声明英伟达提供AI服务器参考设计,产业链话语权较高,服务器品牌厂商价值量增量环节受到挤压。GB200
NVL机柜交付模式下,英伟达对于整机产品定义能力更强,价值量向运算主板、交换机主板设计,以及机柜设计倾斜,工业富联、广达电脑、纬创资通等受益。服务器品牌商DELL、HPE、超微电脑整机解决方案设计自由度降低,主要通过液冷、组网等系统集成能力参与产业链价值分配。图表39:AI服务器产业链请务必参阅正文之后的重要声明11.3%11.8%11.4%10.9%13.2%12.6%9.7%14%13%12%11%10%9%8%7%6%FY2019 FY2020 FY2021 FY2022 FY2023 FY2024 FY25H1AI服务器赛道竞争激烈,三大品牌服务器厂商短期盈利能力承压整体来看,DELL、HPE、超微电脑AI服务器相关业务盈利能力短期呈下滑趋势。1)DELL
ISG部门FY25H1经营利润率同比下降1.5pct、环比下降4.3pct;2)HPE服务器业务经营利润率在FY2023大幅下降后,近两季度经营利润率下降趋缓;3)超微电脑毛利率于FY2023达到18%高点,FY2024毛利率14.1%,同比下降3.9pct。分析由于:1)AI服务器市场作为新兴赛道,行业竞争激烈、前期研发投入大;2)DLC液冷机架等关键零组件短缺,导致供应链成本提升。14.2%15.8%15.0%15.4%18.0%14.1%19%18%17%16%15%14%13%12%11%10%FY2019 FY2020 FY2021 FY2022 FY2023 FY202415.7%14.4%10.1%10.1%11.4%11.0%10.8%18%16%14%12%10%8%6%FY23Q1FY23Q2FY23Q3FY23Q4FY24Q1FY24Q2
FY24Q3图表40:DELL
ISG部门经营溢利率资料来源:超微电脑官网,光大证券研究所图表41:HPE服务器业务经营溢利率图表42:超微电脑毛利率资料来源:Dell官网,光大证券研究所资料来源:HPE官网,光大证券研究所AI算力:多模态+AI推理+多元客户驱动需求持续高涨,供给改善助推业绩增长确定性强化,算力集群化带来产业链投资机遇AI
GPU:训练侧AI大模型持续迭代,推理侧和端侧延伸引发增量需求,产品加速迭代出货,推荐英伟达,关注AMD;ASIC芯片设计:AI算力需求由通用芯片向配合行业和公司特性的专用定制AI芯片转型,关注Marvell科技、博通;存储:行业开启涨价周期,AI手机/AIPC提升容量需求,云端算力带动HBM供不应求、市场规模高速增长,关注美光科技;服务器OEM:AI算力需求强劲带动AI服务器出货量攀升,在手订单高涨,关注超微电脑、戴尔科技、惠普、慧与、IBM;CoWoS:先进封装CoWoS产能成AI算力供应瓶颈,台积电订单持续外溢,封测厂受益,关注台积电,Amkor科技;网络:万卡算力集群化趋势驱动通信互联需求,利好光模块、连接器、交换机等,关注Coherent、安费诺、Arista网络、Juniper网络。请务必参阅正文之后的重要声明31投资建议24Q2以来,美股市场对AI算力相关公司的投资趋于理智,且半导体复苏节奏呈现整体表现偏弱、不同领域分化的特点。因此我们综合考量当前业绩支撑性、长期行业增长性和高AI敞口等因素,推荐英伟达:Blackwell芯片需求强劲,强大芯片性能叠加通信产品能力,GB200
NVL72等机架系统大幅强化整体训练和推理表现,受到云厂商等客户的大力追捧。CoWoS-L供给情况改善后,看好2025年英伟达业绩在Blackwell出货推动下持续高速增长。建议关注:高通:AI终端(AI手机+AI
PC)直接受益标的,智能手机出货量复苏已得到验证,汽车+PC业务打开长期想象空间。PC处理器骁龙X
Elite短期抢得量产出货先机,长期顺应AI
PC低功耗趋势,看好高通长期在PC市场获得较高市占率。台积电:先进制程&先进封装技术全面领先,英伟达、AMD、博通等各类AI芯片均采用台积电进行晶圆代工和先进封装,AI时代下台积电“强者更强”,先进制程和CoWoS积极扩产助推业绩高增,后续整体业绩稳健性高。博通:网络产品受益于算力集群化趋势,作为定制化AI芯片龙头,已为谷歌、Meta研发AI芯片,其AI相关业务具备持续超预期潜力。Marvell科技:网络业务因算力集群化趋势而增长强劲,定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一次性卫生材料管理制度(3篇)
- 2024年六一儿童节老队员代表发言稿范文(2篇)
- 城区容貌集结治理指导方案(4篇)
- 单位负责人职责权限模版(3篇)
- 市政工程防汛工作方案模版(3篇)
- 矿井隐蔽致灾因素普查制度(3篇)
- 新媒体运营主管岗位的主要职责(3篇)
- 实施项目经理岗位的工作职责描述(2篇)
- 二小创建市文明单位活动考核管理制度(4篇)
- 2024年工程承包分公司女职工工作总结模版(2篇)
- 2024新苏教版一年级数学册第五单元第1课《认识11~19》课件
- 知识产权法(四川师范大学)智慧树知到答案2024年四川师范大学
- 医疗器械质量安全风险会商管理制度
- 香文化与养生智慧树知到期末考试答案章节答案2024年浙江农林大学
- (2024)政府采购评审专家考试题库及答案
- 英语语法《状语从句》PPT课件(完整版)
- 专题04 《鱼我所欲也》三年中考真题(解析版)-备战2022年中考语文课内文言文知识点梳理+三年真题训练(部编版)
- 理论力学(第二版)课后答案]金尚年马永利高等教育出版社(完整版)
- 年产130万平方辊道窑设计讲解
- 构建化学教学示范中心“一体化、三层次”实验教学新模式教改项目立项申请书
- 深基坑开挖钢板桩支护施工专家评审施工方案(已论证)
评论
0/150
提交评论