




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI仍是科技产业主旋律,当前正步入AI
Agent阶段早期2023年ChatGPT开启AI的“iPhone”时刻,AI行业经历2年左右时间发展,2H24以来步入AI
Agent阶段的早期:AI
大模型阶段:
2023
年
ChatGPT
开启 AI
的“iPhone
时刻”,拉开AI大模型时代的序幕。Open
AI、谷歌、百度、阿里巴巴、腾讯、字节跳动、商汤科技等大型互联网厂商&科技公司纷纷发布旗下AI大模型、并持续加大AI大模型的研发投入,“百模大战”一触即发。AIAgent阶段:2024年9月,Open
AI发布o1模型,基于RL(强化学习)+CoT(思维链)
,为具备自主规划能力的AI
Agent奠定基础。当前随着AI应用商业化落地进程加快,
生成式AI对各种使用场景、应用领域、终端的渗透率提升,当前产业正步入AI
Agent阶段的早期:1)AI算力需求从训练逐步向推理过渡,产业链延续高景气;2)AI大模型逐步渗透至手机、PC、汽车、机器人等终端,端侧生态蓬勃发展;3)AI应用与具体业务场景的融合不断强化,具备爆款潜质的应用开始萌芽。AGI通用人工智能阶段:长远来看,随着AI算力基建扩容和大模型技术的不断迭代,
人工智能的“涌现”将带领人类社会步入AGI时代。图表1:AI应用发展可分成AI大模型、AI
Agent和AGI三阶段请务必参阅正文之后的重要声明1资料来源:光大证券研究所绘制把握AI算力-终端-应用全产业链投资机会主线请务必参阅正文之后的重要声明2我们认为AI仍是2025年全球科技的核心主题,AI大模型的迭代、新应用的落地持续带来算力基础设施增量需求,亦将助力终端生态和交互的新变革,赋能千行百业迎来新奇点。本篇报告系统化梳理AI科技行业变化、技术趋势,详细拆解产业链各环节竞争格局,围绕算力-终端-应用三大主线,深度分析投资逻辑、及重点标的,对应投资机会的分析和把握:算力为基:多模态+AI推理+多元客户驱动需求持续高涨,供给改善强化业绩增长确定性,持续看好25年英伟达及算力集群产业链投资机会。24Q2以来,半导体复苏节奏呈现整体表现偏弱、不同领域分化的特点,美股市场对AI算力产业链公司的投资整体趋于理性,核心聚焦业绩兑现度、行业格局变化、技术演进趋势,综合:1)短期高业绩支撑性及兑现度,2)具备强逻辑的长期行业成长性,3)高AI敞口,我们梳理四条核心投资主线:AI算力“卖铲人”:AI大模型Scaling
Law构建算力增长底层逻辑,英伟达凭借单卡性能+软件生态+通信组网的综合优势,
手握大量确定性订单,23Q1至24Q3业绩持续高增。CoWoS-L供给情况改善后,看好2025年英伟达业绩在Blackwell出货推动下持续高速增长。推荐:英伟达。英伟达产业链:1)CoWoS:先进封装CoWoS产能成AI算力供应瓶颈,关注:台积电、Amkor科技。2)存储:行业开启涨价周期,AI手机/AIPC提升容量需求,云端算力带动HBM供不应求、市场规模高速增长。关注:美光科技;3)服务器:AI算力需求强劲带动AI服务器出货量攀升、在手订单高涨,关注:戴尔科技、惠普、慧与、IBM、超微电脑;受益于AI算力大规模集群化:
2024年英伟达发布基于Blackwell
GPU的NVL机架系统,大规模AI算力集群成为趋势,
AI算力产业红利进一步外溢,1)网络:万卡算力集群化趋势驱动通信互联需求,且更多供应商获得英伟达认证,利好网络通信相关中小盘标的。关注:①交换机相关:
Arista网络、Juniper网络、Marvell科技、博通;②DSP芯片:Credo科技、Marvell科技、博通;③光模块:Coherent、应用光电、先科电子;④线缆:安费诺、Credo科技、Lumen科技。2)液冷:AI芯片性能增强,风冷散热能力达到极限,未来大型算力集群中液冷将成为必选项,关注:Vertiv。ASIC定制化芯片设计:
Meta、Google、微软、亚马逊为主的互联网大厂布局芯片自研,AI算力需求由通用芯片向配合行业和公司特性的专用定制AI芯片转型。关注:博通、Marvell科技。把握AI算力-终端-应用全产业链投资机会主线请务必参阅正文之后的重要声明3终端为继:AI大模型发展有望驱动PC、手机、智能汽车、机器人等终端的软硬件生态持续迭代,看好AI趋势对产业升级+下游需求的催化作用。AI
手机&PC:AI升级带动智能手机、PC更加高效智能+个性化,
Apple、微软、安卓、联想等操作系统&终端阵营相继布局完善生态,硬件创新与换机周期有望迎来共振。持续推荐苹果、小米集团,关注联想集团、戴尔科技、惠普。看好多模态背景下影像光学+声学产业链,关注高伟电子、瑞声科技、舜宇光学科技。智能驾驶:车企智能化的迭代节奏进入加速阶段,搭载多融合传感器+智能驾驶AI算法优化的智能汽车或将成为行业未来发展方向,建议关注智驾能力领先厂商特斯拉,关注智驾芯片厂商地平线;关注激光雷达厂商禾赛科技、速腾聚创;关注智能车载屏显厂商京东方精电。机器人:多模态规划大模型+端到端神经网络有望持续赋能具身智能机器人,人形机器人商业化进展持续推进,建议关注技术+落地领先厂商特斯拉、优必选。把握AI算力-终端-应用全产业链投资机会主线请务必参阅正文之后的重要声明4应用为核:AI算力开支的变现依赖于下游应用场景的增长。美股AI应用公司24Q3业绩基本面转暖,底层大模型迭代、特朗普胜选叠加降息对美国经济预期更加乐观。看好AI应用将驱动美股AI应用在25-26年迎来大周期:短期:关注生成式AI的低代码、可视化能力对核心体验提升较直观的领域,以及受益于决策式AI的领域,关注:1)IT运维:ServiceNow、Datadog、Gitlab、Dynatrace;2)广告营销:AppLovin、Meta、谷歌、Zeta;3)数据治理:Palantir、C3.AI;4)网络安全:CrowdStrike、Palo
Alto网络、Cloudflare。中期:从底层改变企业运营治理,利用AI打通数据孤岛,融入企业工作流。帮助行业客户简化AI探索、优化企业运营效率的平台将具备巨大的潜在需求,推荐微软,关注:1)大型企业服务平台:ServiceNow、Salesforce、SAP、Oracle。2)特定业务流:Workday、Atlassian、Zoom、Twilio、Asana。长期:随着各行业AI与具体业务场景的融合效果得到验证,AI应用相对传统应用的比例将不断提升,对应的上游需求将水涨船高,关注:1)NoSQL数据库/数据仓库:Snowflake、MongoDB;2)可观测性:Datadog、Confluent;3)训练数据版权:Reddit、Shutterstock。4、行业垂类:随着LLM推理成本的持续降低,以及多模态、Agent等技术的迭代,AI+行业垂类将打开广阔的市场空间,建议关注:1)AI+多媒体:Adobe、SoundHound。2)AI+教育:Duolingo、Coursera;3)AI+金融:Intuit、FICO、Lemonade、CCC智能,Guidewire。4)AI+电商:亚马逊、Shopify。风险提示:AI产业链产能扩产可能存在瓶颈;AI行业竞争加剧的风险;AI大模型迭代及下游应用进展不及预期,大模型训练和推理的算力需求的下行风险;下游需求不及预期风险;市场竞争加剧风险;市场拓展不及预期;商业化进展不及预期风险;国内外政策风险。算力为基:AI
Agent+多模态+推理支撑新需求,算力集群趋势带动产业红利终端为继:AI
+终端百花齐放,边缘SoC+生态系统+硬件迭代构筑端侧智能体应用为核:海外AI应用大周期拉开帷幕,各细分领域行情分阶段演绎风险提示请务必参阅正文之后的重要声明5AI
Agent+多模态+推理支撑新需求,算力集群趋势带动产业红利请务必参阅正文之后的重要声明6供需:未到“思科时刻”,AI
Agent+推理+供给改善助力持续高景气芯片:英伟达龙头引领,产业链迎来ASIC和组网集群新红利机遇服务器:未交付订单金额持续增长,但短期盈利能力有所承压供需:未到“思科时刻”,AI
Agent+推理+供给改善助力持续高景气产业链梳理:AI算力高景气,单卡到组网集群各环节均受益AI
Agent新阶段,预训练、后训练和测试时间三类Scaling
Law齐头并进需求:英伟达未到“思科时刻”,客户后续资本开支投入可见度高技术供给:AI芯片迭代助推算力成本下降,为推理侧和应用发展蓄力产能供给:CoWoS预计2025年翻倍扩产,12层HBM3E已实现量产请务必参阅正文之后的重要声明7生成式AI浪潮推动AI大模型研发和相关应用开发需求,算力硬件公司作为“卖铲人”持续受益。芯片侧,GPU
直接受益,英伟达Blackwell需求强劲、供不应求。ASIC定制化积极配合云厂商等大客户。芯片制造和CoWoS封装产业链因旺盛需求积极扩产。服务器侧,AI芯片积极出货进而带动服务器订单高增,同英伟达密切合作的公司受益程度更高。AI服务器同时
带动HBM和SSD等存储需求。数据中心侧,算力集群化趋势带动网络互联需求,利好光模块、交换机、线缆等。数据中心的电力需求激增,推高清洁能源和液冷需求。产业链梳理:AI算力高景气,单卡到组网集群各环节均受益图表2:AI算力硬件产业链梳理资料来源:应用光电官网,先科电子官网,C114通信网,36氪,网易,搜狐,华尔街见闻,光大证券研究所整理绘制请务必参阅正文之后的重要声明8需求:AI大模型积极迭代,Scaling
Law构建算力增长底层逻辑模型Lab发布时间参数量ChatGPT
o1-previewOpenAI2024年9月12日ChatGPT
4oOpenAI2024年5月13日Qwen2.5阿里云2024年5月9日Claude
3.5
SonnetAnthropic2024年6月21日DeepSeek
-V2.5深度求索2024年9月6日236BGLM-4-Plus智谱AI2024年8月29日405BStable
LM
2Stability
AI2024年1月19日1.6BGemini
1.5Google2024年2月15日Llama
3.2Meta
AI2024年9月25日lightweighttext-only:1B&3B;larger:11B&90BMixtral
8x22BMistral
AI2024年4月10日141BSoraOpenAI2024年2月15日PalM2Google2023年5月10日Claude
2Anthropic2023年7月11日ChatGPT
4OpenAI2023年3月14日ChatGPT3.5OpenAI2022年11月30日生成式AI竞赛中,各公司加快训练大模型,模型发布时间缩短,带动所需算力增长。单以OpenAI为例,2024年已推出文生视频大模型Sora、多模态大模型GPT-4o和擅长解决数学、代码等复杂推理问题的o1。AI大模型仍在积极迭代、向更强性能和更多功能冲刺。Scaling
Law:OpenAI于2020年的一篇论文提出,大模型最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型具体结构(层数/深度/宽度)基本无关;而且AI大模型规模(参数量和数据集)扩大,除了提升原有性能表现外,还会“涌现”原来不具有的能力。Scaling
Law奠定了客户提升大模型性能必须购买堆叠AI算力的底层逻辑。图表3:近两年已发布的重点AI大模型情况汇总 图表4:大模型表现随着模型计算量提升而变佳请务必参阅正文之后的重要声明9资料来源:Epoch
AI资料来源:OpenAI官网,
Stability
AI官网,
Anthropic官网,Google官网,Meta
AI官网,53AI网,华尔街见闻,新华网,网易新闻,新浪财经,光大证券研究所整理需求:AI大模型积极迭代,Scaling
Law构建算力增长底层逻辑资料来源:Life
Architect,腾讯云,36氪,Lambda,Medium,光大证券研究所整理计算量的增长驱动AI大模型开发厂商构建更大的AI芯片算力集群。OpenAI训练GPT-4时,在大约2.5万个A100上训练了90到100天;而OpenAI训练GPT-3时,在大约1万个V100上训练了15天。68倍计算量增长驱动OpenAI采用性能增强的AI芯片、更多芯片数量的算力集群、增长训练时间。各大模型厂商纷纷囤积AI芯片用于模型训练。Meta
CEO扎克伯格表示2024年底Meta将拥有35万块H100,拥有近60万个GPU等效算力;根据The
information预测,截至2024Q1,OpenAI用于模型训练的服务器集群约包括12万个英伟达A100,而2024年全年的训练成本(包括支付数据的费用)可能由原先最早计划的8亿美元增至30亿美元。图表5:OpenAI
GPT-4的训练算力需求相较GPT-3大幅增加参数量Tokens数据规模FLOPS训练芯片型号芯片数量训练时长(B)(B)(GB)(天)GPT-417601300050002.15
e25A1002500095GPT-31753005703.14
e23V1001000015请务必参阅正文之后的重要声明10需求:RL+CoT推动AI
Agent,叠加多模态推动推理算力大幅提升RL+CoT
对于实现能自主规划的
AI
Agent
至关重要。
AI
Agent应当拥有自主理解、规划和执行复杂任务的能力,是打破AI应用发展瓶颈的关键,可以将简单的指令自主拆分成多个步骤并精细化执行,将上一环节的输出作为下一环节的输入。强化学习(RL)具备自主探索和连续决策的能力。其中包括self-play和蒙特卡洛树搜索(MCTS)。思维链(CoT)通过分步推理,要求模型在生成最终答案前生成一系列中间推理步骤,实现“内部思维”的推理过程。强化学习推理推出测试维度Scaling
Law,提升推理算力需求。强化学习范式使得推理过程包含多次推理迭代、更加复杂的搜索算法或模型的深度思考,因此推理中的思考时间(即测试时间)产生的数据量需要投入更多计算资源。图表6:o1在AIEM测试中的准确率与“训练时间计算”和“测试时间计算”呈正比资料来源:华尔街见闻,光大证券研究所请务必参阅正文之后的重要声明11资料来源:论文《
The
Illustrated
Transformer
》(作者Jay
Alammar),《Enhancing
Jujube
Forest
Growth
Estimation
andDisease
Detection
Using
a
Novel
Diffusion-Transformer
Architecture》(作者Xiangyi
Hu),Creative
Commons,21经济,光大证券研究所整理绘制图表7:各模态切片汇总,音频、图片、视频切片后对应的Tokens数相较文字大幅增加多模态大模型输入输出Tokens规模较纯文本数据大幅提升。图片和视频形式需要矩阵级分割成Tokens。RL+COT带来测试维度Scaling
Law,多模态要求推理阶段更多Tokens输入输出,均驱动推理算力需求大幅上升,但不代表训练算力需求会停止增长。1)AI
Agent和多模态要求新模型持续研发;2)预训练阶段同样需要消耗大量的算力;3)强化学习推理和多模态大模型均并不意味着模型参数停止扩张,因为主模型参数提升可能会产生更好的推理路径和表现。需求:RL+CoT推动AI
Agent,叠加多模态推动推理算力大幅提升请务必参阅正文之后的重要声明12需求:英伟达未到“思科时刻”,跟踪客户订单和资本开支计划资料来源:凤凰网,英伟达官网,投资界,光大证券研究所整理宏观背景①突发事件的宏观扰动(2020年的新冠/2022年2月的俄乌战争
vs
1990年的海湾战争/1997年的亚洲金融危机)②新政府的财政刺激(2022年拜登政府的“芯片法案”
vs
1993年克林顿政府的“信息高速公路计划”)③降息周期的宽松环境(2024年底开启的降息周期
vs
1990年至1999年的阶梯式降息长周期)④经济软着陆后的需求回归(2024年的经济软着陆
vs
1994年的经济软着陆)中观背景①新技术迭代(大模型
vs
万维网)②“卖铲”公司垄断(2023年英伟达的GPU
vs
1993年思科的路由器/交换机
)③标志应用的推出(2023年ChatGPT
vs
1995年Netscape
)行业需求英伟达下游AI初创公司及云厂商的大量资本开支明确用于AI基础设施建设,AI芯片获取直接决定下游公司产品迭代速度,行业实际需求强劲。大量互联网公司资金大量投入广告和推广而非产品和技术投入,需求泡沫堆积,缺乏更新换代动力,基础设施建设完成后需求迅速下降。客户分布AI初创及云服务大客户资本充裕稳定,下游客户领域仍在多元扩展:主权AI、垂直大模型、跨行业应用方兴未艾。 客户集中于有线电视和电信行业,存在资本支出周期。行业竞争壁垒AI芯片技术、资金壁垒高,创新难度大,龙头企业先发优势和经验积累优势明显,不易受挑战者冲击。交换机和路由器技术壁垒相对较低,思科受到华为等后发竞争对手在价格和性能上的威胁,迅速失去市场份额。短期需求各主要客户陆续披露资本开支计划和芯片需求,短期需求可见度高,强劲需求趋势延
2000年前思科战略决策已经呈现过度扩张趋势,大量囤积库存、疯狂收购、扩续。 张产品线等策略埋下隐患。AI算力产业链相较互联网时期的“思科泡沫”
,存在客户积极研发投入、行业竞争壁垒高等优势。1)AI算力客户群体(云厂商、AI初创公司)投入大量资本开支用于AI基础设施建设,思科对应的互联网公司资金除产品技术投入外更多投入广告宣传;2)AI芯片技术和资金壁垒高,思科的路由器、网络技术壁垒低,后期市场竞争激烈。“思科泡沫”警醒应紧密跟踪AI算力需求和订单变化,当前英伟达Blackwell芯片订单可见度高。互联网泡沫破灭时,思科存在22亿美元过剩库存,因此应短期监控客户订单、中长期跟踪下游客户需求和资本开支计划。图表8:当前英伟达和思科崩盘前的背景、行业和公司表现对比英伟达 思科请务必参阅正文之后的重要声明13需求:北美科技巨头资本支出持续增加,短期算力需求仍有支撑图表10:科技公司资本支出占营运现金流的比例变化趋势资料来源:彭博,光大证券研究所整理,已排除自由现金流为负的年份和极端值,24E数据为彭博一致预期80%60%40%20%0%100%
140%120%2015 2016 2017 2018 2019 2020 2021微软 亚马逊
谷歌
Meta
特斯拉2022 2023 2024EOracle
100%图表9:北美科技巨头23Q1-24Q2资本支出与同比增速(单位:亿美元)资料来源:各公司公告,光大证券研究所整理23Q123Q223Q323Q424Q124Q2微软78.0107112115109.5190YoY23.8%23.0%69.7%69.1%40.4%77.57%谷歌62.968.980.6110120131YoY-35.7%0.9%10.7%45.1%90.8%90.13%Meta70.963.567.6796785YoY27.7%-18.0%-28.9%-14.4%-5.5%33.86%亚马逊131104113133139169YoY-4.4%-26.2%-24.7%-14.2%6.1%62.50%北美科技公司陆续进入新一轮AI投资周期,资本支出大幅增加,短期内对高端AI芯片的需求仍较为强劲根据Omdia,23年微软、Meta共计购买15万张H100
GPU,谷歌、亚马逊共计购买5万张H100
GPU。由于谷歌、亚马逊拥有自研AI芯片的储备,对第三方芯片供应商的依赖较弱,但随着LLM性能迭代和用户对AI服务的要求提升,当前阶段训练和推理均需要高性能GPU和大规模集群算力的支撑,帮助科技巨头培养早期口碑、抢占市场先机。虽然科技巨头仍有充足的营运现金流支持资本开支持续增加,但仍面临一定的成本压力,长期AI投资策略可能发生变化从资本支出占营运现金流的比例来看,利润压力较大的亚马逊、Meta、Oracle大幅削减了资本支出的占比,谷歌资本支出占比无明显变化,微软、特斯拉资本支出占比均呈上升趋势。而根据公司指引,2024年和2025年科技巨头有望继续增加资本支出,Meta则明确指出持续增加的投资会使2025年的折旧成本大幅提升。根据彭博一致预期,2024年科技巨头资本支出占营运现金流的比例将普遍达到40%以上。因此,在AI的投资回报率尚不明显的现状下,科技巨头会更加重视AI战略的性价比。请务必参阅正文之后的重要声明14需求:云厂商注重AI产品创新,AI算力公司对长期增速表态乐观资料来源:新浪财经,南方财经,BiaNews,华盛通,腾讯,智通财经,芯智讯,光大证券研究所整理云厂商和OpenAI积极研发投入,产品创新和模型推理运作将为主要工作负载。OpenAI表示2030年前预计累计投入2000亿美元;云厂商方面更注重针对不同行业和客户需要开发具备实用性、创新性的功能,激发客户的购买和复用意愿。AI芯片厂商预计AI芯片市场规模长期维持较快复合增速。AMD预计2028年数据中心人工智能加速器市场规模将达到5000亿美元(2023年~2028年期间的年均复合增速60%+);英伟达和Dell科技预计数据中心由通用计算向加速计算转型,带来万亿级别数据中心市场空间。图表11:各公司对AI算力产业链相关需求的表述与预期汇总请务必参阅正文之后的重要声明15行业公司对于未来长期AI算力需求的表述AI大模型OpenAI预计2030年前累计花费2000亿美元,其中60%-80%将用于训练和运行模型;2026年的大模型训练成本或提高至95亿美元。云厂商MetaAI模型会针对不同行业和用户进行大量产品和应用创新,具备更多实用性功能。新一代
Llama
模型的训练需求,资本支出将在2025年显著增长,投入注重大模型训练、推理和业务支持。GoogleAI大模型正在整合基础功能,未来的重点是基于这些功能构建解决方案。Microsoft公司将在未来几个季度继续加大资本支出,以扩展基础设施建设。当前大部分AI工作负载来自推理运行工作。Amazon生成式AI仍处非常早期阶段,公司已在AI领域实现数十亿美元收入,而需求增长仍非常显著,看好AI未来持续发展。AI芯片英伟达未来几年内,总值达1万亿美元的数据中心将全部实现加速计算。当前客户对于Blackwell需求旺盛,供不应求使得客户关系紧张。AMD预计2023年~2028年数据中心人工智能加速器市场将以每年60%+的速度增长,2028年市场将增长至5000亿美元。此前曾预计2027年市场规模达4000亿美元。Marvell科技Marvell对应的数据中心TAM将从2023年的210亿美元增长至2028年的750亿美元,年复合增长率29%。其中,预计ASIC加速计算芯片业务2028年市场规模将达429亿美元。服务器Dell科技未来数据中心将更多转向采用GPU和AI加速器以满足对复杂AI工作负载的支持。请务必参阅正文之后的重要声明16供给:AI芯片迭代助推算力成本下降,为推理侧和应用发展蓄力图表12:已发布重点AI芯片情况汇总资料来源:英伟达官网,谷歌云官网,新浪财经,芯智讯,IT之家,搜狐,TOP
CPU,新浪科技,36氪,信息化观察网,hpcwire,icsmart,光大证券研究所整理图表13:AI芯片算力成本出现下降趋势资料来源:腾讯网,新浪财经,光大证券研究所整理底层逻辑提升芯片性能以降低算力单位成本,进而帮助AI为“推理”运行服务。单芯片改善提升单颗芯片峰值算力。机架级改善基于芯片和网络互联的性能提升,GB200
NVL72相较等数量的
H100Tensor
Core
GPU,可为LLM推理工作负载提供30倍性能,同时将成本和能耗降低25倍,大幅降低单位算力成本。AI芯片厂商产品迭代加速,英伟达性能优势明显。自2023年以来,英伟达、AMD和博通等AI芯片厂商均积极进行产品迭代。性能提升帮助算力成本下降,降低AI应用推理运行门槛,帮助硬件和应用形成正向循环。单芯片性能提升、算力集群整体运行效率增强均帮助单位算力成本下降,有望促进AI应用和产品研发和使用,丰富的AI应用则将为AI算力带来持续需求。供给:产能瓶颈CoWoS和HBM的供给情况均在积极改善资料来源:TrendForce,光大证券研究所资料来源:格隆汇,新浪财经,IT之家,TheElec,光大证券研究所整理公司CoWoS产能情况台积电2024年底CoWoS月产能4万片;2025年底CoWoS月产能预计爬升至8万片。联华电子2023年8月消息,英伟达打造非台积电CoWoS供应链,其中联华电子将扩充旗下硅中介层(silicon
interposer)产能,把月产能由3千片扩增至1万片。三星电子2024年4月消息,三星电子已经成功拿下英伟达2.5D封装订单,提供Interposer(硅中介层和I-Cube先进封装产能,以补充台积电CoWoS产能缺口。CoWoS:AI芯片扩产瓶颈之一是CoWoS先进封装中的硅中介层(interposer)产能。1)台积电克服土地和厂房等扩产限制,2025年底CoWoS月产能预计由2024年底4万片翻倍扩至8万片;2)英伟达积极扩展非台积电的CoWoS供应链,吸纳联华电子和三星电子实现对台积电的产能补充。HBM:根据TrendForce,英伟达和AMD的AI芯片积极提升搭载HBM规格,由HBM3向HBM3E更迭,由8层堆叠向12层堆叠更迭,并不断提升HBM容量和内存带宽。图表14:CoWoS供应链的扩产情况汇总 图表15:英伟达和AMD
AI芯片采用HBM产品的规格情况预测请务必参阅正文之后的重要声明17供给:12层HBM3E于2024H2量产,HBM42025年蓄势待发图表16:三大存储厂商的HBM3E研发和供应进展资料来源:
TrendForce,光大证券研究所公司最新财报AI业务表述HBM扩产计划HBM产品迭代SK海力士1)24Q3
,
HBM营收环比增长70%,同比增长330%;
Q3中HBM销售额占DRAM
的30%
,
预计Q4将实现40%。2)24Q3,eSSD营收环比增长20%,同比增长430%。)
2024
年
SK
海力士HBM产能预计翻倍;)
2024
年
SK
海力士HBM产能售罄,且2025年也基本售罄。1)
据Q3业绩会,
12层HBM3E产品将于
2024Q4
出货,
预计2025H1HBM3E12H将
占HBM3E总出货量的50%;2
)
据
Q2
业绩会
,
2024
年HBM3E将占HBM出货量的50%3)
据Q2业绩会,
2025年12层HBM3E将成为旗舰产品;4)
据Q2业绩会,
2025H2推出12层堆叠HBM4。三星电子1)24Q2
,
HBM营收环比增长50%+;2
)
24Q2
,
服务器SSD营收环比增长约40%;3)
24Q3,
HBM3E营收占HBM总收入比重略高于10%,预计Q4将增至50%。HBM3E全面增产1)24Q1向客户发送8层HBM3E样品,24Q3正在量产8层和12层HBM3E产品;2)12层HBM3E已完成开发,目前已发送样品并完成增产准备,预计24H2根据客户需求情况扩大供应;3
)
HBM4
按计划研发,
预计
2025H2发布。美光科技2024年和2025年的HBM产品均已售罄,
且定价已确定-2024年3月,12层HBM3E产品送样,并预计2025年大批量生产。请务必参阅正文之后的重要声明18图表17:三大存储厂商的HBM产品的业绩、产能和技术情况汇总资料来源:三星电子官网,美光科技官网,新浪财经,新浪科技,理财网,华尔街见闻,光大证券研究所整理HBM供不应求,三大存储厂商积极扩产,驱动相关收入高增。美光表示其HBM产品2024年和2025年产能均已售罄,三大厂商均加大产能供给,2025年预计HBM出货量持续高增以驱动收入增长。存储厂商竞相推出新款HBM技术,并加速量产出货。2024年HBM芯片将向HBM3E产品迭代,其中三大存储厂商均发布8层HBM3E;三星和SK海力士于24Q3量产出货12层HBM3E,美光科技将于2025年大批量出货12层HBM3E;SK海力士和三星电子预计于2025H2推出HBM4。芯片:英伟达龙头引领,产业链迎来ASIC和组网集群新红利机遇英伟达:Blackwell交付顺利,系统级机架出货支撑2025年业绩高增速AMD:MI325x注重推理,仍需关注集群算力产品和客户拓展博通:大厂自研趋势助推ASIC芯片业务,算力集群化利好通信业务台积电:掌握先进制程和先进封装优势,AI时代下“强者恒强”请务必参阅正文之后的重要声明1920英伟达:股价历史复盘,多轮业绩超预期驱动股价快速抬升请务必参阅正文之后的重要声明资料来源:彭博,光大证券研究所绘制。注:股价截止日期为2024年12月11日英伟达股价可分成逻辑推演期和业绩兑现期:1)逻辑推演期(23M1~23M5):英伟达收割生成式AI算力红利“铲子”逻辑突出,市场预期AI算力需求强劲、英伟达手握大量确定性订单;2)业绩兑现期(23M5~至今):
亮眼业绩不断推高盈利预测,进而带动股价提升。业绩驱动股价:英伟达凭借其技术优势,夺得绝大部分AI
GPU市场份额,成为收获AI算力红利的主要受益公司。AI算力需求帮助英伟达数据中心业务营收高速增长,同时高价值量的AI
GPU帮助英伟达盈利能力爬升。根据股价拆分图,盈利预期提升成为英伟达市值持续增长的主要原因。图表18:英伟达强劲业绩驱动股价大幅抬升请务必参阅正文之后的重要声明英伟达:发布超级芯片GB200,机架系统级性能和能效大幅提升图表19:GB200超级芯片由2个B200
GPU和1个Grace
CPU组成B200
SXMH200
SXMH100
SXMA100(80GB)
SXMGPU
SubsystemHBM3eHBM3eHBM3HBM2eMemory
Bandwidth8TB/s4.8TB/s3.35TB/s2TB/sVRAM192GB(2*96GB)141GB80GB80GBFP8
Tensor
Core9000
TFLOPS3958
TFLOPS3958TFLOPS624TOPSFP16
Tensor
Core4500
TFLOPS1979TFLOPS1979TFLOPS312TFLOPSTF32
Tensor
Core2250
TFLOPS989TFLOPS989TFLOPS156TFLOPS(tensore
float)FP64
Tensor
Core40
TFLOPS67TFLOPS67TFLOPS19.5TFLOPSInterconnectNVLink
5:1800GB/sNVLink
4:
900GB/sNVLink
4:
900GB/sNVLink
3:
600
GB/sPCIe
Gen5:
256GB/sPCIe
Gen5:
128GB/sPCIe
Gen5:
128GB/sPCIe
Gen4:
64
GB/sTDP1000W700W700W400W资料来源:英伟达官网,光大证券研究所整理21图表20:Blackwell平台产品涉及GPU、CPU、网络等多类产品资料来源:英伟达官网 资料来源:英伟达官方材料图表21:英伟达AI芯片性能汇总,B200(SXM)单卡峰值算力提升至H200(SXM)的两倍以上(除FP64精度)Blackwell全新架构实现单卡芯片算力密度及峰值算力较上代
Hopper
跃升。Blackwell
GPU实现两个GPU
die双芯片堆叠,
晶体管数量较Hopper
GPU提升160%
,
B200
同精度的峰值算力也较H200均提升至少一倍(除FP64精度外)。弱化单独GPU芯片,英伟达推出当前最强AI
芯片GB200
。GB200
通过NVLink-C2C接口连接两个
Blackwell GPU
和一个
Grace
CPU,GB200推理速度为H100的7倍,训练速度为H100的4倍(基于GPT-3模型)。互联技术帮助GB200机架系统实现通信速度和整体性能的大幅提升。GB200还可扩充
至机
架系
统
级
产
品
,
DGX
GB200NVL72机架通过18个NVLink
Switch芯片连接36个GB200,帮助Blackwell机架级系统推理性能较Hopper算力集群提升至30倍(基于GPT-MoE模型)。请务必参阅正文之后的重要声明22英伟达自研通信芯片,实现通信能力持续增强。1)NVLink
5.0在B200上实现1.8TB/s的数据传输,较4.0提升一倍;2)NVLink
Switch是第一款机架级交换机芯片,能够在无阻塞计算结构中支持多达
576
个完全连接的
GPU。图表22:英伟达、AMD和博通的芯片通信产品发布时间表资料来源:英伟达官网,腾讯云,搜狐,36氪,智东西,IThome,光大证券研究所整理绘制英伟达:自研通信芯片成为组建大规模算力集群系统的关键资料来源:英伟达官网,光大证券研究所整理NVLink和NVLink
Switch是英伟达创建无缝、高带宽、多节点GPU集群的关键。NVLink
Switch互连技术帮助已连接的GPU共享计算结果,提高通信速度,降低集群损耗。NVLink
Switch可组建连接GB200
NVL72的GPU实现全通信连接,并可进一步扩展、最多连接576个GPU,从而形成高效的数据中心大小的GPU算力集群。图表23:英伟达NVLink通信芯片历次迭代产品性能汇总表请务必参阅正文之后的重要声明232nd
Generation3rd
Generation4th
Generation5th
GenerationNVLink
bandwidth
per
GPU300GB/s600GB/s900GB/s1,800GB/sMaximum
Number
of
Links
per
GPU6121818Supported
NVIDIA
ArchitecturesNVIDIA
Volta™
architectureNVIDIA
Ampere
architectureNVIDIA
Hopper™
architectureNVIDIA
Blackwell
architectureFirst
GenerationSecond
GenerationThird
GenerationNVLink
SwitchNumberofGPUswithdirectconnection
within
a
NVLink
domainUp
to
8Up
to
8Up
to
8Up
to
576NVSwitch
GPU-to-GPU
bandwidth300GB/s600GB/s900GB/s1,800GB/sTotal
aggregate
bandwidth2.4TB/s4.8TB/s7.2TB/s1PB/sSupported
NVIDIA
architecturesNVIDIA
Volta™
architectureNVIDIA
Ampere
architectureNVIDIA
Hopper™
architectureNVIDIA
Blackwell
architecture资料来源:英伟达官网,光大证券研究所整理图表24:英伟达NVLink
Switch通信芯片历次迭代产品性能汇总表英伟达:自研通信芯片成为组建大规模算力集群系统的关键英伟达:GB200
NVL72等机架系统大幅强化新一代AI计算能力HGX
B200HGX
B100GPU组成8
x
B200
SXM8
x
B100
SXMFP4
Tensor
Core144
PFLOPS112
PFLOPSFP8/FP6
Tensor
Core72
PFLOPS56
PFLOPSINT8
Tensor
Core72
POPS56
POPSFP16/BF16
Tensor
Core36
PFLOPS28
PFLOPSTF32
Tensor
Core18
PFLOPS14
PFLOPSFP64
Tensor
Core320
TFLOPS240
TFLOPS存储高达1.5TBNVIDIA
NVLinkNVLink
5.0NVIDIA
NVSwitchNVSwitch
4.0GPU间带宽1.8
TB/s总聚合带宽14.4
TB/s资料来源:英伟达官方,光大证券研究所资料来源:英伟达官网,光大证券研究所图表26:英伟达GB200
NVL72和GB200
NVL36的机架内部构成和结构图表25:英伟达Blackwell系列服务器规格英伟达产品形态包括芯片、服务器和机架系统三个层级,存在依次组成构建的关系。芯片级:英伟达官方当前公布的芯片款式包括B100、B200和GB200三类,其中GB200由2个B200和1个CPU构成;服务器级:8个B100或B200芯片组成对应8卡服务器,GB200超级芯片服务器则配备两个GB200超级芯片;机架系统:服务器通过机架式设计,可实现多个服务器连接形成更多GPU互连,例如72个GPU连接的GB200
NVL72。机架系统组成:1)GB200
NVL72:计算部分由18个GB200
服务器构成(36个GB200超级芯片,即36个Grace
CPU+72个BlackwellGPU),中间通过9个NVLink
Switch
Tray实现通信共享;机架还可横向拓展,如8个GB200
NVL
72机架可组成一个SuperPOD,创建一个576个GPU互连的大型算力集群。2)GB200
NVL36:单机柜形式,计算部分由9个GB200服务器构成,其中机架上方放置5个、机架下方放置4个,中间通过9个NVLink
Switch
Tray连接。请务必参阅正文之后的重要声明24图表27:英伟达和AMD的AI软件生态系统结构图英伟达:CUDA成为生态护城河,积极打造软件配套服务图表28:英伟达、AMD和Intel的AI软件生态布局对比资料来源:AMD官网,HPCwire,腾讯云,光大证券研究所整理绘制资料来源:英伟达官网,AMD官网,光大证券研究所整理绘制请务必参阅正文之后的重要声明25CUDA成英伟达生态护城河,AMD依赖迁移+开源追赶。英伟达CUDA具备丰富训练框架和强大算子库,开发者使用粘性强。CUDA支持JAX、PaddlePaddle、MXNet、PyTorch
Geometric、DGL等深度学习框架,且CUDA-XAI软件加速库具备丰富的数学、数据处理、图像视频、通讯等库,以及TensorRT、cuDNN两个专门绑定英伟达GPU的深度学习核心库。英伟达打造软硬一体解决方案。1)DGX平台,打造从硬件到软件的企业级AI平台;2)AI
Enterprise软件套件,帮助客户灵活部署、加速降本,提供包括NeMo、Riva、NIM容器式微服务等应用。26请务必参阅正文之后的重要声明资料来源:英伟达官网,AMD官网,光大证券研究所整理绘制;英伟达选取“Tensor
Core”,AMD选取“with
Structured
Sparsity”资料来源:新浪财经,光大证券研究所整理AMD:MI325x注重推理,仍需关注集群算力产品和客户拓展NVIDIA
B200NVIDIAH200
SXMAMD
MI325XAMD
MI300XMemory
Clock8Gbps
HBM3eHBM3e6
GHz
HBM3E5.2
GHz
HBM3MemoryBandwidth8TB/s4.8TB/s6
TB/s5.3
TB/sVRAM192GB(2*96GB)141GB256GB192GBFP8稀疏4500TFLOPS3958
TFLOPS5.22
PFLOPs5.22
PFLOPsFP16稀疏2250TFLOPS1979TFLOPS2.61
PFLOPs2.61
PFLOPsTF32稀疏1100TFLOPS989TFLOPS1.3
PFLOPs1.3
PFLOPsFP64稀疏40TFLOPS67TFLOPS81.7
TFLOPs81.7
TFLOPsInterconnectNVLink
5:1800G/sNVLin
4:900GB/sInfinity
Fabric:128GB/sInfinity
Fabric:128GB/sAMD
MI325x发布,公司注重提升内存和推理性能。MI325x芯片采用MI300X相同的基本设计和CDNA
3
GPU架构,但配备256GB
HBM3e内存;注重推理性能,单颗MI325x在执行Llama
3.1
70B等大模型的推理性能比英伟达H200快20%~40%,MI325X服务器在运行Llama
3.1405B时,较英伟达HGX
H200推理性能可提高40%。而AMD指引2024年AI芯片收入由原先40亿美元上调至45亿美元,主要系MI300贡献。AMD积极弥补通信和软件生态短板。1)通信:使用Infinity
Fabric,并推出业界首款支持UEC超以太网联盟的AI网卡Pensando
Pollara
400和性能翻倍提升的Pensando
Salina
400
DPU。2023年7月,微软、Meta、AMD、博通等公司组建UEC,致力于建立AI时代下的超大型网络标准。2)生态系统:AMD推出ROCm
6.2生态系统,平均推理/训练性能提高2.4倍。后续关注AMD的集群系统、软件生态和客户进展。AI工作负载由训练向推理转变,算力性能和软件生态面临的壁垒降低,但AMD仍较英伟达存在差距,我们建议关注后续进展突破。1)英伟达已推出机架级系统,市场期待AMD的超大规模算力产品的推出;2)AMD积极推出通信产品,但实际可能较英伟达仍有差距,例如单颗MI325x训练Llama
2
7B的速度超过单颗英伟达H200,但8张MI325X训练Llama
2
70B的性能同英伟达HGX
H200相当;3)客户当前以微软为主,OpenAI、Meta、Cohere、xAI为其战略合作伙伴,关注后续下单潜力。图表29:英伟达和AMD新款AI芯片单芯片性能对比 图表30:AMD公布后续AI芯片产品迭代路线图资料来源:博通Hot
Chips
2024
PPT资料来源:博通投资者日PPT博通:大厂自研趋势助推ASIC芯片业务,算力集群化利好通信业务定制芯片趋势已来。相较英伟达等通用芯片,定制AI芯片ASIC具备低成本同时实现最大限度提高客户关心性能的优势。博通当前已具备四家重要ASIC客户,分别为Google、Meta、字节跳动和OpenAI,其中博通已帮助Google研发五代TPU芯片。通信成为组建大型算力集群的关键,博通以太网成为重要技术。GPU、网卡、内存之间需要高速传输数据,业界发明RDMA技术,使网卡接管数据,在发送方和接收方的内存间直接传输数据,从而绕过缓存和操作系统。英伟达主导的infiniband和以太网都支持RDMA,而博通以太网具备成本和开放生态优势,可供客户组建大型算力系统时自由选择软硬组件。博通推出共同封装光学器件(CPO)集成至ASIC芯片。共同封装光学器件(CPO)这一新技术可提供功耗和成本领先优势,且显著减少了系统延迟,并提高了数据传输速度、能效和频宽。CPO技术已被使用在博通新一代的Tomahawk
5
Bailly交换机,目前博通在致力于开发硅光子学与共封装光学器件的结合,以实现AI加速器ASIC芯片的进一步升级。图表31:博通发布集成在ASIC的硅光子学和共封装光学器件(CPO)技术 图表32:AI数据中心算力集群需网络通信产品连接,博通通信产品覆盖较为全面27请务必参阅正文之后的重要声明图表33:CoWoS-S和CoWoS-L的区别对比资料来源:老虎说芯,华尔街见闻,光大证券研究所整理资料来源:华尔街见闻台积电:掌握先进制程和先进封装优势,AI时代下“强者恒强”图表34:台积电公布代工制程工艺的技术演进路线CoWoS-SCoWoS-L中介层硅中介层RDL中介层和LSI芯片尺寸和布线密度硅中介层尺寸受限,布线密度较低满足更大尺寸需求,布线密度较高性能需求能够支持更高的带宽和更低的延迟满足了性能和成本之间的平衡应用场景主要用于需要极高性能和高密度互连的应用,如HPC、AI加速器和高端服务器适用于兼顾性能和成本的应用,如网络设备、通信基站和某些高端消费电子产品制造复杂性制造工艺复杂且对精度要求高,通常只在对性能要求极高且能够承受较高制造成本的应用中使用制造复杂度高于CoWoS-S,能够实现复杂系统集成的需求技术成熟度良率较高,目前高达99%良率偏低,目前约为90%AI芯片厂商为保证性能领先,均采取台积电的先进制程和先进封装工艺用于芯片生产,台积电享受AI发展红利。台积电负责为英伟达、AMD和博通等AI芯片公司代工制造数据中心服务器端AI芯片,当前其CoWoS先进封装产能已成AI芯片产能瓶颈。CoWoS-L成为英伟达Blackwell生产的关键。台积电CoWoS-L较此前CoWoS-S技术,能够帮助AI芯片实现更高布线密度和更大尺寸。3nm进入量产阶段,2nm工艺预计于2026年量产。台积电先进制程向2nm和3nm转移,当前服务器端AI芯片、手机芯片、PC芯片等下游客户向3nm过渡,支撑起台积电未来强劲业绩表现。28请务必参阅正文之后的重要声明服务器:未交付订单金额持续增长,但短期盈利能力有所承压全球AI服务器市场规模有望持续高增,市场竞争格局较为分散三大服务器厂商AI服务器营收&未交付订单金额增长,印证行业高景气AI服务器赛道竞争激烈,三大品牌服务器厂商短期盈利能力承压请务必参阅正文之后的重要声明29资料来源:Counterpoint,光大证券研究所整理资料来源:
Statista
,光大证券研究所整理314052678811520040608010012014020232024E2025E2026E2027E2028E(十亿美元)AI服务器市场规模全球AI服务器市场规模有望持续高增,市场竞争格局较为分散受益于生成式AI的数据分析、训练、推理等多方面需求,AI服务器行业有望维持高景气度。Statista研究数据显示,2023年全球AI服务器市场规模为310亿美元,预计2024年达到400亿美元、2028年将达到1150亿美元左右,2024-2028年间CAGR约30%。除云厂商委托ODM定制的AI服务器外,品牌服务器厂商DELL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高级社会工作者职业资格笔试2024年考试必考题含答案
- 高级社会工作者职业资格笔试2024年仿真试卷带解析
- 2024初级社会工作者职业资格笔试题库答案分析
- 2025执业医师资格考试仿真试卷带解析
- 喷泉盖板施工方案
- 【部编版】五年级语文下册口语交际《怎么表演课本剧》精美课件
- 工程补充协议范例
- 户口登记委托书3篇
- 场地租赁风险2篇
- 快乐游玩安全伴随3篇
- 动土作业安全技术交底
- 手术室护理质量控制讲解
- 大学物业服务月考核评价评分表
- GB 36893-2024空气净化器能效限定值及能效等级
- 19G522-1钢筋桁架混凝土楼板图集
- RPA财务机器人开发与应用 课件 6.1 RPA网银付款机器人
- 软件开发中介服务协议范本
- 云南省昆明市2025届高三年级第二次联考+物理试卷
- 企业宣传与品牌形象设计手册
- 别墅设备维护方案
- DL∕T 1917-2018 电力用户业扩报装技术规范
评论
0/150
提交评论