版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
掘金真成长2024中期策略报告2024年6月29日核心逻辑
AI仍是A股科技行业需求最确定的增量关键词:1、计算机下游各行业需求不足,预计中期及全年业绩承压2、下半年行业成本侧压力较大,降本增效预计是重中之重3、整体需求不足情况下,AI仍是下游最确定的需求和投入增量4、国内外AI模型和应用已处在爆发初期,国产化趋势依旧势不可挡
算力行情已进入零部件和供应链环节关键词:1、NV服务器整机大格局已定,国内相关供应链厂商有望从0到12、NV芯片架构重大升级,算力零部件领来新机会,液冷首当其冲3、下半年预计910C发布,国内算力供应格局迎来新机会
科技成长股投资环境已深刻变化关键词:1、新国九条后,真科技、硬科技、公司质量成为市场首要因素2、风险偏好下降,估值趋势:从需求到成长和业绩的切换
受益标的:NV链:(工业富联、淳中科技、麦格米特),链:(恒为科技、开普云、泰嘉股份、科技、神州数码);鸿蒙链:(润和软件、软通动力、智微智能、九联科技);AI及应用:(润达医疗、科大讯飞、金山办公、息、拓尔思、万兴科技);算力:(网宿科技、海光信息、中科曙光、浪潮信息、首都在线、拓维信息
);低空:(新晨科技、莱斯信息、四川九洲);电力:(东方电子、国能日新、国网信通、科远智慧);信创:(达梦数据、太极股份、中国软件)。
风险提示:1)政策落地不及预期;2)AI产品下游需求不及预期;3)核心技术水平升级不及预期;4)全球经济发展的不确定性。201
AI应用从0到1,国产02算力从英伟达到AI生态崛起目录,零部件迎来大机遇03成长股的大环境已深刻变化04投资建议与风险提示3AI应用从0到1,国产
AI生态崛起0141.1
部分国产AI大模型竞争能力已超过国际平均水平
在过去这一年里,大模型及生成式AI工具爆发式增长,正改变着传统工作流程,重塑各行各业。沙利文发布的《2024年中国⼤模型能⼒评测》对国内主流的15个大模型进行了横评,从而将中国大模型分成了三个梯队。如下图所示,百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队,综合表现更为优异。其中,文心一言能力最为全面,五项评测维度均为优势能力,并取得四项第一。根据国家数据局3月25日发布的最新工作报告,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。大模型综合竞争力气泡图51.2AI模型百舸争流,海外模型迭代持续领先
OpenAI
的
GPT
系列模型是自然语言处理领域的重大突破,其中ChatGPT
和
GPT-4
是两个代表性模型。ChatGPT
专注于对各种文本指令做出回应,模型的训练过程包括有监督的指令微调与强化学习。现在的
ChatGPT
支持最长达
32000
个字符,它可以执行各种任务,包括代码编写、数学问题求解、写作建议等。
多模态大模型方面,从Google家族的Gemini到open
ai家族的sora,进一步颠覆模型生态。海内外大模型相关研究与产品竞相涌现、加速迭代,进入“百舸争流”的新时代。在大模型的神奇“模力”下,指令和语料得以转化为现实生产力,有望赋能千行百业,被视为通向通用人工智能的潜在路径。2018-2023年模型参数规模变化图全球AI主要产品访问量总榜61.2.1
open
AI多模态大模型完成进阶,LLaMA开源模型重构AI生态
从大语言模型到多模态模型,Openai完成模型时代进阶。从GPT-1到GPT-4O,模型的参数规模不断扩大,预训练数据不断增加,性能也不断提升。2024
年
2
月
15
日,曾在
2022
年底发布
ChatGPT
惊艳世界的
OpenAI,再次凭借
Sora
的亮相震惊世界。Sora整合了自家的GPT和DALL-E模型。其中,GPT-4就是基于Transformer架构的大型神经网络,目前在自然语言处理领域独树一帜,而最新的DALL-E
3是基于文本提示生成图像的图像生成模型。
LLaMA(Large
Language
ModelMetaAI)是由Meta(原Facebook)推出的开源大语言模型系列。与GPT系列不同,LLaMA的一个重要特点是其开源性质,这为研究人员和开发者提供了宝贵的资源,推动了整个领域的快速发展。LLaMA模型的训练采用了一些创新的技术,如使用贝叶斯网络密度缩放和SwiGLU激活函数等,这些技术使得LLaMA能够在相对较小的参数规模下实现强大的性能。例如,LLaMA-13B(130亿参数)在某些任务上的表现可以媲美甚至超越GPT-3(1750亿参数)。openAI历代版本更新时间轴LLaMA家族版本更新时间7资料:超级AI大脑,
Datawhale,华西证券研究所1.2.2Anthropic公司发布Claude
3.5
Sonnet,部分能力已超越GPT-4o
近日,Anthropic公司发布了Claude
3.5Sonnet,其优秀的表现震撼了整个AI技术圈。作为OpenAI的劲敌,Anthropic本次发布的是Claude3.5系列模型的首个版本,也是Anthropic迄今为止发布的“最强大、最智能”的模型。有消息称,在关键基准测试中在推理、语言、编程、数据分析、数学和指令遵循方面均超越了GPT-4o及其前身Opus。
PaLM
系列语言大模型由
开发,其初始版本于
2022年
4月发布,并在
2023年
3月公开了
API。PaLM
基于
Google提出的Pathways
机器学习系统搭建,训练数据总量达
780B
个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。目前
PaLM
共有8B、62B、540B
三个不同参数量的模型版本。Google
还开发了多种
PaLM
的改进版本。Med-PaLM
是
PaLM540B在医疗数据上进行了微调后的版本,在
MedQA等医疗问答数据集上取得了最好成绩。PaLM-E
是
PaLM
的多模态版本,能够在现实场景中控制机器人完成简单任务。2023
年
5
月,Google
发布了
PaLM
2,但并未公开其技术细节。Google
内部文件显示其参数量为
340B,训练数据为PaLM
的
5倍左右。Claude大模型更新版本时间PALM大模型更新版本时间81.3
OpenAI全面封锁国内API,国产AI模型迎来全新发展
6月25日,OpenAI向中国用户发布邮件:自7月9日起阻止来自非支持国家和地区的API流量,受影响组织若希望继续使用OpenAI的服务,必须在其支持的国家或地区内访问。
从技术角度来看,国内头部大模型和OpenAI的差距在缩小。在OpenCompass大模型榜单中,前10家大模型中,OpenAI依然占据第一、第二的位置,但中国也占到了两席的地位,其中就有阿里的通义千问系列,也就是Qwen系列。目前来看,国内的大模型分为两大竞争板块。一块是巨头企业,包括:阿里通义,百度文心、讯飞星火、盘古、字节豆包、腾讯混元、昆仑万维天工等大模型;一块是创业新秀,包括零一万物、智谱、月之暗面、MiniMax、零一万物和百川智能等初创公司。国产大模型移动端下载量(次数)国内AI产品在6月第三周的排行榜数据(访问量数据)3,500,0006,000,0005,000,0004,000,0003,000,0002,000,0001,000,000-3,000,0002,500,0002,000,0001,500,0001,000,000500,000-讯飞星火每日新增下载量智谱清言每日新增下载量天工每日新增下载量(右轴)文心一言每日新增下载量豆包每日新增下载量(右轴)kimi每日新增下载量9资料:
七麦小程序,AI数智源,华西证券研究所1.3.1
百度文心一言迅猛成长,通义千问2.5的得分已与GPT-4
Turbo平分秋色
百度文心一言迅猛成长,引领国产模型发展。从去年3月文心一言发布到如今的文心大模型4.0版本,用户们见证了文心一言的迅猛成长,这不仅代表的是搜索平台、工具的迭代升级,更是人们对信息获取、理解和应用的一次全面革新。在过去这一年里,大模型及生成式AI工具爆发式增长,正改变着传统工作流程,重塑各行各业。百度创始人、CEO李彦宏在今年3月的财报会议上提到,文心大模型的日调用量已超过5000万次,大约有2.6万家企业调用文心大模型,每1分钟企业调用文心大模型的次数超过3.4万次。
通义千问的发展一日千里。自2022年4月首次亮相以来,通义千问始终坚持专注于基础模型的技术研发,从最初的1.0版本迭代升级到如今的2.5版本,展现了惊人的进化之速。通义千问2.5较上一版本在理解能力、逻辑推理、指令遵循、代码能力等方面实现了全方位的提升,尤其是在中文能力上更是一骑绝尘,遥遥领先于其他模型。权威基准Open
Compass的测评结果显示,通义千问2.5的得分已与GPT-4
Turbo平分秋色,这是国产大模型在该基准上取得的最好成绩。百度大模型历代更新时间轴阿里大模型历代更新时间轴资料:
百度百科,AI信息GAP,华西证券研究所101.3.2腾讯混元底层模型的持续迭代,豆包产品访问量稳居前十
腾讯混元底层模型的持续迭代。腾讯元宝是一个基于混元大模型及搜索引擎驱动的高效信息整合工具,界面设计简洁,可以搜索实时信息,也可以对上传的多格式文档进行总结、翻译,还能语音对话练习口语。根据机器之心,自
2023
年
9
月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至
7
万亿
tokens,并率先升级为多专家模型结构(MoE),整体性能相比
Dense
版本提升超
50%。
豆包大模型原名“云雀”,产品访问量稳居前十。字节跳动基于豆包大模型打造了
AI对话助手“豆包”、AI
应用开发平台“扣子”等多款AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等
50余个业务,用以提升效率和优化产品体验。根据字节跳动招聘,截至5月,豆包大模型日均处理
1200
亿
tokens
文本、生成
3000
万张图片。基于豆包大模型同名打造的豆包
APP,是字节跳动重点投入的大模型应用。在苹果
APP
Store
和各大安卓应用市场,豆包
APP
的下载量在
AIGC
类应用中排名第一。豆包上已有超过
800万个智能体被创建,月度活跃用户达到
2600
万。腾讯大模型历代更新时间轴字节跳动AI产品分类111.3.3讯飞星火V4.0完成对GPT-4Turbo的整体超越,盘古5.0发布
讯飞星火V4.0发布,完成对GPT-4
Turbo的整体超越。今年1月底,星火大模型
V3.5在语言理解、数学能力方面超过了GPT-4
Turbo,但代码、多模态等其他能力依然与后者存在一些差距。星火大模型V4.0再次进化,不仅在文本生成、语言理解、知识问答、逻辑推理和数学五大能力方面完成了对GPT-4
Turbo的整体超越,并进一步缩小了在代码、多模态能力方面的差距,尤其是多模态能力达到了后者97%的水平。
盘古5.0:5+N+X的三层解耦架构,灵活满足不同行业客户的需求。6月21日,开发者大会发布盘古5.0,此次发布的盘古大模型5.0预计将带来一系列重磅升级,为用户带来更加智能、高效的服务。盘古大模型5.0不仅在自然语言处理(NLP)领域有着显著的提升,还将在计算机视觉(CV)、科学计算、预测等多个领域应用。其强大的数据处理能力和精准的算法模型,将为各行各业的数据分析和决策支持提供强有力的技术支撑。讯飞大模型历代更新时间轴盘古大模型历代更新时间轴121.3.4
kimi长文本大模型累计下载量持续攀升,智谱AI致力于打造新一代认知智能大模型
Kimi:国产长文本大模型之光,累计下载量持续攀升。Kimi大模型,作为月之暗面科技有限公司(Moonshot
AI)的杰出成果,是一款集成了多种先进技术的智能对话系统。它不仅能够理解用户的自然语言输入,还能提供丰富、详尽的回答,满足用户在多种场景下的需求。根据腾讯科技,kimi上线的时间是2023年10月,当时可以支持无损上下文长度最多为20万汉字。今年,在5个月的时间内,月之暗面直接将长文本能力提高10倍。
智谱AI致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司于2020年底开始研发
GLM
预训练架构,并训练了百亿参数模型GLM-10B,2021年利用MoE架构成功训练出万亿稀疏模型,于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型打造大模型平台及产品矩阵。kimi大累计下载量质谱清言大模型功能kimi累计下载量(次)350000003000000025000000200000001500000010000000500000002024/1/142024/2/142024/3/142024/4/142024/5/142024/6/14131.4.1服务器构筑世界AI算力第二选择,期待910C
目前已具备“端、边、云”的产品布局:
AI
服务器:AI服务器分为推理服务器和训练服务器:3000
系列和
9000
系列。训练侧,算力精度要求较高,Atlas
800
训练服务器(型号:9010)基于
Intel处理器+昇腾
910芯片,
具有超强算力密度、高速网络带宽等特点,AI
算力可达
2.24
PFLOPS@FP16。
AI
处理器:AI处理器有昇腾
310和昇腾
910两款:910
支持全场景人工智能应用,昇腾
310主
要用在边缘计算等低功耗的领域。与英伟达对比,昇腾
910
半精度算力(FP16)达
320TFLOPS,约为英伟达
V100芯片算力(130TFLOPS)的
2.5倍,与英伟达
A100算力(312
TFLOPS,
未采用稀疏技术)水平相当。根据集成电路IC消息,
旗下昇腾910C芯片正处于紧张的测试阶段。发布了全新一代计算集群
Atlas
900SuperCluster
和
CANN7.0
异构计算架构。SuperCluster
可支持超万亿参数大模型训练,采用
了最新一代的星河
AI智算交换机
CloudEngine
XH16800,该交换机具备高密度的
800GE
端口能力,使得只需要两层交换网络即可构建一个拥有
2250
个节点的超大规模集群,相当于
18000
张计算卡的规模,为开发者提供了更多的自定义高性能算力的可能性。Atlas全系列产品AI服务器产品参数AI服务器型号形态CPUAI处理器Ai算力最大支持8个2UAI服务器
2*鲲鹏
920
Atlas300I推最大704
TOPS30003010INT8理卡Atlas800推理服务器1/2个Intel®
Xeon®
最大支持7个2UAI服务器
SPSkylake
Atlas300I推最大616
TOPSINT8或Cascade理卡Lake处理器1.76/2.24PFLOPSFP16900090104UAI服务器
4*鲲鹏
920
8*昇腾910Atlas800训练服务器2*IntelV51.76/2.24PFLOPSFP164UAI服务器Cascaded8*昇腾910Lake处理器141.4.2国产生态—鸿蒙OS:国产操作系统先进龙头,拥抱万物互联
鸿蒙系统(HarmonyOS、鸿蒙OS)是音箱、耳机、手表/手环、平板、大屏、PC、AR/VR)
N(泛IOT设备)战略,开创了全新局面,OpenHarmony是其对应的开源项目。
公司在2019年8月正式发布HarmonyOS,实行开源HarmonyOS通过创造一个超级虚拟终端互联的世界,将人、设备、场景推出的一款面向万物互联的全场景分布式操作系统:1+8+N战略,即1(手机)
8(车机、有机地联系在一起,将消费者在全场景生活中接触的多种智能终端,实现极速发现、极速连接、硬件互助、资源共享,用合适的设备提供场景体验。
根据techweb和博云,2024Q1在中国智能手机市场,鸿蒙操作系统的份额达到17%,开发者超过220万人,鸿蒙生态已经与iOS、安卓形成了“三分天下”的格局,成为当下的风口。鸿蒙发展历程151.4.2国产生态—纯血鸿蒙发布,生态全面启动
鸿蒙市场份额快速攀升:CounterPoint的报告显示,2024年第一季度,鸿蒙系统在全球市场的份额从2%增长到4%,而在中国市场的份额则爆增至17%。同期,苹果iOS在中国智能手机操作系统市场的份额则下降了四个百分点,降至16%,这也就标志着鸿蒙系统在中国市场的市占率正式超越了iOS。
纯血鸿蒙值得期待:根据TechWeb,备受瞩目的开发者大会2024(HDC
2024)将于本月21日至23日在东莞松山湖召开。此次大会不仅是全球开发者与科技创新者的年度盛会,更将带来HarmonyOS
NEXT鸿蒙星河版的正式发布,并进入Beta测试阶段,引领“纯血鸿蒙”向正式商用迈出关键一步。
鸿蒙+AI打开全新国产化生态:HarmonyOS
NEXT作为操作系统家族的最新力作,被寄予厚望。该版本不仅在系统性能、安全性和用户体验上进行了全面升级,还深度融合了
云盘古大模型5.0,为开发者提供了更为强大的AI开发能力和丰富的应用场景。HarmonyOS
NEXT的发布预示着将进一步巩固其在物联网生态建设中的领先地位,推动构建全场景智慧化生活的新篇章。中国手机操作系统市场份额HarmonyOSNEXT即将发布161.4.3
国产生态—生态参与者逐渐壮大,HarmonyOS
NEXT首次将AI能力融入系统
星河璀璨,加入鸿蒙正当时:在6月21日,在主题演讲中,常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东分享了鸿蒙生态的最新进展。HarmonyOS操作系统从2019年8月9日正式发布,历时1778天,历经4代,鸿蒙生态设备数量已超过9亿,已有254万
HarmonyOS开发者投入到鸿蒙世界的开发中来,鸿蒙学堂学习人次435万,开发者服务调用次数827亿次/月。鸿蒙原生应用已进入全面冲刺阶段,
5000多个常用应用已全部启动开发,其中超过1500家已完成上架。
Harmony
Intelligence正式发布:HarmonyOS
NEXT首次将AI能力融入系统,赋能生态。小艺升级为小艺智能体,可执行更复杂的操作,并在端云大模型协同和意图框架的加持下获得更好的场景感知、意图识别和用户理解能力,能够帮助用户更好地获取所需个性化服务。HarmonyOS
NEXT也为鸿蒙生态带来了强大的AI能力,围绕图像智能、通话智能、文档智能、跨应用协同等,开放给应用的AI能力,和开发者共同打造生态级的鸿蒙原生智能。全面构筑了鸿蒙生态,星河璀璨示意图171.4.4
国产生态—
盘古5.0大模型正式发布,重塑千行万业
盘古5.0大模型正式发布,重塑千行万业:6
月
21
日,开发者大会
2024(HDC
2024)正式揭幕,常务董事、云
CEO张平安重磅发布盘古大模型
5.0,在全系列、多模态、强思维三个方面全新升级。在过去的一年中,盘古大模型持续深耕行业,已在30多个行业、400
多个场景中落地,在政务、金融、制造、等领域发挥着巨大价值。
全系列:盘古大模型
5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的
PanguE系列可支撑手机、PC
等端侧的智能应用;百亿级参数的
PanguP系列,适用于低时延、低成本的推理场景;千亿级参数的
PanguU系列适用于处理复杂任务,可以成为企业通用大模型的底座;万亿级参数的
PanguS系列超级大模型是处理跨领域多任务的超级大模型够在全场景应用
AI技术。
多模态:盘古大模型
5.0能够更好更精准地理解物理世界,包括文本、图片、视频、5.0,可以生成符合物理世界规律的多模态内容,让创新随心所欲。、红外、遥感等更多模态。在生成方面,盘古
强思维:复杂逻辑推理是大模型成为行业助手的关键。盘古大模型
5.0将思维链技术
与策略搜索技术深度结合,极大提升了数学能力、复杂任务规划能力。盘古大模型5.0示意图181.4.5
国产生态—盘古+鸿蒙星河+麒麟+昇腾+鲲鹏打造最强生态
打响关键自主可控保卫战,自主可控势在必行:手机等终端,苹果拥有其自己的A系列手机芯片和M系列的PC芯片、操作系统拥有IOS等系统、云端可配备英伟达、AMD等AI算卡、大模型侧拥有Apple
Intelligence
其中集成了ChatGPT。AI
PC端,海外拥有Intel、AMD、高通等端侧AI
PC芯片,操作系统为Winodws,目前融入了Copilot等AI功能。自2018年来,美国通过多种制裁手段,严重限制我国高科技领域发展,因此对于关键高科技领域自主可控势在必行。
盘古+鸿蒙星河+麒麟+昇腾+鲲鹏打造国产最强生态:我们判断AI端侧爆发为产业趋势,AI应用离落地更进一步,因此国产领域中拥有最完整的生态,软件端,盘古可赋能千行百业,鸿蒙可实现万物互联,例如,智慧屏、穿戴设备、车机、音箱、手机等,硬件端,端侧,麒麟已重回巅峰,鲲鹏+昇腾有望构筑全球算力体系的第二极,因此我们判断在终端爆发元年,麒麟+昇腾+鲲鹏最强生态领衔演绎国产软硬件生态崛起。有望凭借盘古+鸿蒙星河+操作系统将广泛应用于万物互联领域1+8+N战略应用程序框架方舟编译器多终端开发IDE基础服务内核鸿蒙:微内核1902
算力从英伟达到
,零部件迎来大机遇202.1英伟达架构持续升级,升级迭代速度明显加快
平均两年架构升级,目的是维持在GPU霸主地位:根据CSDN数据,英伟达14年期间发布8款芯片架构,我们判断芯片架构的持续升级有望维护其在GPU市场的龙头地位。英伟达GPU发展时间表
英伟达架构升级速度明显加快:此前,根据财联社以及SemiAnalysis消息,预计在H200芯片架构后,B100将于2024年第三季度开始量产,部分早期样品将于明年第二季度出货。而GH200和H200也是于2023年开始问世,同时,AMD也推出了MI300AI算力芯片,谷歌直接表示要打造自己的人工智能基础设施,其TPUv5和TPUv5e可用于内部培训和推理,还供苹果、Anthropic、CharacterAI等公司客户使用。我们判断英伟达架构升级明显处于加速状态。英伟达全新产品架构升级图资料:
CSDN,财联社,SemiAnalysis,华西证券研究所212.2英伟达GPU架构疯狂加速,确定下一代架构为Robin架构
黄仁勋宣布下一代AI芯片为Robin架构:2024年6月2日晚,英伟达CEO黄仁勋在中国台北国际电脑展(COMPUTEX
2024)上表示,将在2026年推出下一代AI芯片平台Rubin,作为对现有Blackwell平台的迭代,Rubin
AI平台将采用HBM4记忆芯片。Rubin平台的产品包括,Rubin
GPU(8S
HBM4)、Vera
CPU等
英伟达GPU架构疯狂加速:在演讲中,黄仁勋介绍了关于芯片产品年度升级周期的计划。黄仁勋表示,英伟达将坚持数据中心规模、一年节奏、技术限制、一个架构的路线,即坚持运用当时性能最强的半导体制程工艺,以一年为节奏更新产品,用统一架构覆盖整个数据中心产品线,具体来看,2024年,Blackwell芯片现已开始生产;2025年,将推出Blackwell
Ultra产品;2026年,将推出Rubin产品2027年,将推出Rubin
Ultra产品。英伟达黄仁勋在中国台北的工Computex2024展示英伟达架构升级示意图222.3英伟达Q1业绩超预期,Blackwell出货时间为最大亮点
英伟达Q1业绩超预期,原因是Hopper架构的强势需求:英伟达第一季度收入达到创纪录的
260亿美元,环比增长
19%,远高于市场245亿美元的预期。创历史新高。原因是数据中心推动的快速成长,数据中心推动英伟达成长,该业务第一季度营收达226亿美元,强于分析师预期的221亿美元,环比增长23%,同比增长427%,原因是Hopper架构的强劲需求。
公司给予第二季度乐观指引,Blakcwell出货时间为最大亮点:英伟达预计下一季度营收为280亿美元,上下浮动2%,强于分析师预期的268亿美元。GAAP和非GAAP毛利率预计分别为74.8%和75.5%,上下浮动50个基点。同时,根据超微电脑指引,超微电脑Q1收入为38.5亿美元,下一季度指引为51-55亿美元收入,原因是AI的强势需求。此外,公司在业绩会上透露,公司Blackwell架构已经全面投入生产,公司预计第二季度开始供货,第三季度加速,客户数据中心在第四季度建立。我们判断Blackwell出货时间超出市场预期。英伟达季度总收入及市场一致预期(百万美元)数据中心实际收入与预期收入对比232.4GB200
NVL72震撼出世,其为性能怪兽
GB200
NVL
72震撼出世,其为性能怪兽:在英伟达GTC大会上,基于
Blackwell的
AI
算力将以名为
DGXGB200的完整服务器形态提供给用户,结合了
36
颗
NVIDIAGraceCPU
和
72
块
BlackwellGPU。这些超级芯片通过第五代
NVLink连接成一台超级计算机(后文简称
GB200NVL
72)。与相同数量的
72
个
H100相比,GB200NVL72的性能绝对是逆天的存在,大模型推理性能可以提升
30
倍,并且成本和能耗只有前者的
1/25。英伟达NVL72规格
此为全机架式解决方案:有
18个
1U
服务器。其提供的FP8性能为
720petaflops,FP4
计算性能为
1440petaflops,可处理多达
27万亿个
AI
LLM参数模型。每台服务器里带有两个
GB200GraceBlackwellSuperchip,这些计算节点带有
1.7TB
的
HBM3E内存、32TB/s
的内存带宽,并且全部采用液冷
MGX封装。
然而由于功耗过大,需要采用液冷,内部采用铜互联形式。资料:
英伟达官网,华西证券研究所242.5深度拆解英伟达
DGXHopper架构零部件价格
英伟达DGXH100零部件价格拆解:
AI服务器中的主要元器件包括
CPU、GPU板组、内存、硬盘、网络接口卡组成,配合电源、主板、机箱、散热系统等基础硬件以提供信息服务。根据SemiAnalysis,AI
服务器(以
NvidiaDGX
H100为例)总成本为
26.9
万美元,其核心组件按
BOM
占比由高到低依次为
GPU板组、SmartNIC、DRAM、CPU、NAND、电源、主板、机箱和散热,BOM
占比分别为
72.5%、4.1%、2.9%、1.3%、0.4%、0.3%、0.2%、0.2%,相较标准
CPU服务器(以
2xIntelSapphireRapidsServer
为例),Nvidia
DGXH100
单机总成本提升
25.7
倍。
英伟达Blackwell架构出世,GB200
NVL72核心零部件升级为最大亮点:我们判断GB
200NVL
72不同于H100等8卡DGX服务器,其零部件价值量占比有望提升,其重点在于CPU、铜连接、液冷模组、电源板块。英伟达
DGXH100BOM成本一览英伟达
DGXH100零部件示意图组件价格(美元)5200占比1.93%72.49%2.92%1.28%4.05%0.21%0.33%0.17%0.45%0.55%15.61%100.00%CPU8GPU+4NVSwitchBaseboard内存DRAM1950007860硬盘NAND3456网卡SmartNIC机箱(外壳、背板、电缆)主板10908563875散热(散热器+风扇)电源4631200组装测试1485Markup42000269010总成本资料:
SemiAnalysis,DCD,华西证券研究所252.6.1
高速互联时代,铜互联价值凸显
GB200发布,铜互联为最大增量之一:
根据GTC大会,GB200
NVL72采用NV
link互联方式,具有5000根NVLink铜缆(合计长度超2英里)。而英伟达自身对于DAC
铜缆的描述为NVIDIA®
Mellanox®LinkX®网
DAC
铜缆是在网交换网络和基于
NVIDIAGPU的系统中创建高速
100G-400G
链路的成本最低的方式。亮点在于成本、功耗、延迟都极低。其端口速度可达到400Gb/s。
DAC高速线缆在短距离信号传输价值凸显:DAC(高速线缆)可直接通过铜电缆传输电信号。无源DAC无需任何信号调节即可实现此目的,通常,DAC电缆用于连接机架内的交换机、服务器和存储设备来进行堆叠。而从功耗来看,其功耗明显小于AOC,传输距离小于7M。有源光缆
(AOC)由两端带有
光收发器的多模光纤电缆组成。
它依靠外部电源来促进信号的转换,从电信号转换到光信号,然后再转换回电信号。
从广义上讲,AOC
电缆主要用于连接位于数据中心内单独机架中的交换机、服务器和存储设备。由于AOC本身进行光与电信号的转换,因此其成本和功耗显著大于DACDAC和AOC的区别DAC铜缆示意图有源光缆AOC示意图DAC<1WAOC1-3W功耗传输距离传输介质传输信号<7M<300M光纤铜缆电信号光信号光纤的价格比铜高,另外A0C两端含有激光器而DAC没有,所以A0C的价格比DAC高很多;价格重量体积资料同样长度下,AOC的体积重量要比DAC的体积重量小很多:
21经济时代网,CSDN,华西证券研究所262.6.2
GB200发布,铜互联为最大增量之一
H100系列中铜互联方式较少:
我们判断,由于H100没有机柜内互联,而是单独配置网络机柜,因此几乎没有短距铜互联,然而连接器依旧作为服务器重要组成部分,我们认为其价值量占比相较于GB200
NVL72相比较低。
GB200
NVL72中铜互联价值凸显:原因在于其短距离更具成本和传输优势,GB200
NVL72具有内部线缆和外部线缆,外部线缆主要负责链接机柜与机柜之间,而内部线缆连接方式呈现多样化。DGXH100
连接器示意图GB200NVL72高速铜缆示意图GB200NVL72高速铜缆示意图资料:
华硕电脑,芯语,华西证券研究所272.7.1
算力在大模型时代迎来爆发,高算力与高功耗相匹配
AI芯片架构升级速度明显加快,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关。AI芯片架构升级速度明显加快,高算力与高功耗相匹配架构型号规格英伟达Volta架构V100英伟达Turing架构T4英伟达Ampere架构V100sPCIeA100A800PCIePCIeSXM2PCIeSXMPCIeSXMNVIDIAAmpereNVIDIAAmpere芯片架构NVIDIAVoltaNVIDIAVoltaNVIDIAVoltaNVIDIATuringNVIDIAAmpere
NVIDIAAmpereNVIDIAAmpere显存显存带宽32GB或16GBHBM2
32GB或16GBHBM232GBHBM21134GB/s8.2TFLOPS16GBGDDR6320GB/S80GBHBM2e1935GB/s80GBHBM2e2039GB/s40GBHBM2
80GBHBM2e1555GB/s
1935GB/s80GBHBM2e2039GB/s900GB/s7TFLOPS900GB/sFP64算力7.8TFLOPS254.4GFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS
9.7TFLOPS19.5TFLOPS
19.5TFLOPS19.5TFLOPS
19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPSFP64TensorCoreFP32算力14TFLOPS15.7TFLOPS125TFLOPS16.4TFLOPS8.1TFLOPS65TFLOPSFP32算力(Tensor)TensorFloat32(TF32)TF32(TensorCore)FP16算力(TensorCore)BFLOAT16(TensorCore)FP8(TensorCore)INT8算力
(TensorCore)CUDA核心数量156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS
156TFLOPS312TFLOPS
312TFLOPS312TFLOPS
312TFLOPS312TFLOPS
312TFLOPS156TFLOPS312TFLOPS312TFLOPS312TFLOPS-112TFLOPS130TFLOPS--624TOPS6912432130TOPS2560320624TOPS624TOPS624TOPS624TOPS51206406912432TensorCores核心数量功耗250瓦300瓦211250瓦70瓦136300瓦400瓦250瓦300瓦542400瓦晶管数量(亿)制成(nm)5427nm12nm12nm7nmNVLink:600GB/sPCIe4.0:64GB/sNVLink:600GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/s互联速度32GB/s300GB/s32GB/s32GB/S282.7.1
算力在大模型时代迎来爆发,高算力与高功耗相匹配
AI芯片架构升级速度明显加快,高算力与高功耗相匹配:从下图可以看到,英伟达GB200单芯片组的功耗为2700W。AI芯片架构升级速度明显加快,高算力与高功耗相匹配架构型号英伟达Hopper架构H800Blackwell架构B200H100PCIeH200SXMGH200B100GB200规格SXMNVLSXMNVIDIAHopperPCIe芯片架构NVIDIAHopper
NVIDIAHopper
NVIDIAHopperNVIDIAHopperNVIDIAHopperNVIDIAHopper+ARMNVDIABlakwellNVDIABlakwellNVDIABlakwell显存显存带宽80GBHBM33.35TB/s34TFLOPS67TFLOPS67TFLOPS80GBHBM2e2TB/s188GBHBM37.8TB/s80GBHBM380GB
HBM32TB/s141GBHBM3e4.8TB/s96GB|144GBHBM3e512GB/s(CPU)34TFLOPS192GB8TB/s192GB8TB/s384GB3.35TB/s1TFLOP16TB/sFP64算力26TFLOPS51TFLOPS51TFLOPS68TFLOPS134TFLOPS134TFLOPS0.8TFLOP0.8TFLOP51TFLOPS34TFLOPS67TFLOPS67TFLOPSFP64TensorCoreFP32算力1TFLOP67TFLOPS30TFLOPS40TFLOPS90TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat32
(TF32)67TFLOPSTF32(TensorCore)494.5TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513
TFLOPS1513TOPS16896989.5TFLOPS
494.5TFLOPS1979TFLOPS
989.5TFLOPS1979TFLOPS
989.5TFLOPS3958
TFLOPS
1979TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513TFLOPS1513TOPS494.5TFLOPS989.5TFLOPS989.5TFLOPS1,979TFLOPS1,979TOPS16896494TFLOPS990TFLOPS990TFLOPS1,979TFLOPS1,979TOPS0.9PFLOPS1.8PFLOPS1.8PFLOPS3.5PFLOPS3.5PFLOPS1.12PFLOPS2.25PFLOPS2.25PFLOPS4.5PFLOPS4.5PFLOPS2.5PFLOPS5PFLOPS5PFLOPS10PFLOPS10PFLOPSFP16算力(TensorCore)
989.5TFLOPSBFLOAT16(TensorCore)
989.5TFLOPSFP8(TensorCore)INT8算力(TensorCore)CUDA
核心数量1979TFLOPS1979TOPS3958TOPS1979
TOPS16896TensorCores核心数量功耗528528528700瓦300-350瓦8002x350-400W
高达700瓦300-350瓦700瓦1000瓦700W1000W2700W晶管数量(亿)制成(nm)8004nm8004nm4nm4nmNVLink:600GB/sPCIeGen5:NVLink:400GB/sPCIe5.0:128GB/sNVIDIA
NVLink®:·900GB/S·PCleGen5:128GB/sNVLink:
NVLink:900GB/sPCIe
600GB/sPCIeGen5:128GB/s
Gen5:128GB/sNVLink:400GB/sPCIe5.0:128GB/s互联速度900GB/sbidirectional
NVLink:1.8TB/sNVLink:1.8TB/sNVLink:2x1.8TB/S128GB/s292.7.3GB200功耗相较H100显著提升,高功耗电源价值凸显
英伟达H100最大功耗为10.2KW:
根据FS社区数据,英伟达DGX
H100的电源规格为最大10.2KW,200-240V3300W,16A,50-60Hz。从下图示意图所示,电源个数为6,我们判断其核心原因是考虑到电源冗余问题。而DGX
H100
GPU数量为8个,H100的功耗为700W,因此我们假设巅峰功耗系数=10200/(700*8)≈1.82。
从英伟达GB200
NVL72示意图所示,包含6个电源架:
根据半导体行业观察资料,可以清晰的看到,GB200
NVL72包含6个电源组,其中三个位于机架顶部,三个位于底部,其中上层电源组包含6个电源模块。根据已知资料,我们大致可以推算出每个电源模块的功耗,GB200单个芯片组功耗为2700W,假设NVL
72电源模块共36个,单个电源模块功耗为2700*36*1.82/36≈5000W。(未考虑电源冗余情况)。
高功率电源价值凸显:根据京东数据,浪潮服务器电源M6
3000W的价格为3899元,M5
550W电源价格为829元。因此,在未考虑电源工艺升级的情况下,我们判断GB200整体电源模块相较于H100价值凸显。英伟达DGXH100
电源示意图GB200NVL72电源示意图302.8.1
液冷已经从“选配”到“必配”,液冷拐点已经到来
AI芯片架构升级速度明显加快,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关。AI芯片架构升级速度明显加快,高算力与高功耗相匹配架构型号规格英伟达Volta架构V100英伟达Turing架构T4英伟达Ampere架构V100sPCIeA100A800PCIePCIeSXM2PCIeSXMPCIeSXMNVIDIAAmpereNVIDIAAmpere芯片架构NVIDIAVoltaNVIDIAVoltaNVIDIAVoltaNVIDIATuringNVIDIAAmpere
NVIDIAAmpereNVIDIAAmpere显存显存带宽32GB或16GBHBM2
32GB或16GBHBM232GBHBM21134GB/s8.2TFLOPS16GBGDDR6320GB/S80GBHBM2e1935GB/s80GBHBM2e2039GB/s40GBHBM2
80GBHBM2e1555GB/s
1935GB/s80GBHBM2e2039GB/s900GB/s7TFLOPS900GB/sFP64算力7.8TFLOPS254.4GFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS
9.7TFLOPS19.5TFLOPS
19.5TFLOPS19.5TFLOPS
19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPSFP64TensorCoreFP32算力14TFLOPS15.7TFLOPS125TFLOPS16.4TFLOPS8.1TFLOPS65TFLOPSFP32算力(Tensor)TensorFloat32(TF32)TF32(TensorCore)FP16算力(TensorCore)BFLOAT16(TensorCore)FP8(TensorCore)INT8算力
(TensorCore)CUDA核心数量156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS
156TFLOPS312TFLOPS
312TFLOPS312TFLOPS
312TFLOPS312TFLOPS
312TFLOPS156TFLOPS312TFLOPS312TFLOPS312TFLOPS-112TFLOPS130TFLOPS--624TOPS6912432130TOPS2560320624TOPS624TOPS624TOPS624TOPS51206406912432TensorCores核心数量功耗250瓦300瓦211250瓦70瓦136300瓦400瓦250瓦300瓦542400瓦晶管数量(亿)制成(nm)5427nm12nm12nm7nmNVLink:600GB/sPCIe4.0:64GB/sNVLink:600GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/s互联速度32GB/s300GB/s32GB/s32GB/S312.8.2
液冷已经从“选配”到“必配”,液冷拐点已经到来
AI芯片架构升级速度明显加快,高算力与高功耗相匹配:风冷的极限芯片散热功率是800W,如下图所示,GH200以及最新款B200、GB200的功耗已经超过风冷极限,H200和B100的功耗已经接近风冷极限。AI芯片架构升级速度明显加快,高算力与高功耗相匹配架构型号英伟达Hopper架构H800Blackwell架构B200H100PCIeH200SXMGH200B100GB200规格SXMNVLSXMNVIDIAHopperPCIe芯片架构NVIDIAHopper
NVIDIAHopper
NVIDIAHopperNVIDIAHopperNVIDIAHopperNVIDIAHopper+ARMNVDIABlakwellNVDIABlakwellNVDIABlakwell显存显存带宽80GBHBM33.35TB/s34TFLOPS67TFLOPS67TFLOPS80GBHBM2e2TB/s188GBHBM37.8TB/s80GBHBM380GB
HBM32TB/s141GBHBM3e4.8TB/s96GB|144GBHBM3e512GB/s(CPU)34TFLOPS192GB8TB/s192GB8TB/s384GB3.35TB/s1TFLOP16TB/sFP64算力26TFLOPS51TFLOPS51TFLOPS68TFLOPS134TFLOPS134TFLOPS0.8TFLOP0.8TFLOP51TFLOPS34TFLOPS67TFLOPS67TFLOPSFP64TensorCoreFP32算力1TFLOP67TFLOPS30TFLOPS40TFLOPS90TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat32
(TF32)67TFLOPSTF32(TensorCore)494.5TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513
TFLOPS1513TOPS16896989.5TFLOPS
494.5TFLOPS1979TFLOPS
989.5TFLOPS1979TFLOPS
989.5TFLOPS3958
TFLOPS
1979TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513TFLOPS1513TOPS494.5TFLOPS989.5TFLOPS989.5TFLOPS1,979TFLOPS1,979TOPS16896494TFLOPS990TFLOPS990TFLOPS1,979TFLOPS1,979TOPS0.9PFLOPS1.8PFLOPS1.8PFLOPS3.5PFLOPS3.5PFLOPS1.12PFLOPS2.25PFLOPS2.25PFLOPS4.5PFLOPS4.5PFLOPS2.5PFLOPS5PFLOPS5PFLOPS10PFLOPS10PFLOPSFP16算力(TensorCore)
989.5TFLOPSBFLOAT16(TensorCore)
989.5TFLOPSFP8(TensorCore)INT8算力(TensorCore)CUDA
核心数量1979TFLOPS1979TOPS3958TOPS1979
TOPS16896TensorCores核心数量功耗528528528700瓦300-350瓦8002x350-400W
高达700瓦300-350瓦700瓦1000瓦700W1000W2700W晶管数量(亿)制成(nm)8004nm8004nm4nm4nmNVLink:600GB/sPCIeGen5:NVLink:400GB/sPCIe5.0:128GB/sNVIDIA
NVLink®:·900GB/S·PCleGen5:128GB/sNVLink:
NVLink:900GB/sPCIe
600GB/sPCIeGen5:128GB/s
Gen5:128GB/sNVLink:400GB/sPCIe5.0:128GB/s互联速度900GB/sbidirectional
NVLink:1.8TB/sNVLink:1.8TB/sNVLink:2x1.8TB/S128GB/s322.8.3
两相液冷的液冷模组相对昂贵,原因是工艺相对复杂
单相液冷的核心在于冷却液没发生相态的变化:
制冷过程:CDU的循环泵推动二次侧的冷却液从IT设备的底部进入,在流过竖直放置于浸没腔中的IT设备时,移走设备热量。随后,吸收了热量并升温的二次侧冷却液从液冷机柜的顶部离开,流向CDU。在CDU中,通过板式热交换器,冷却液将其所携带的热量转移给一次侧的冷却液。然后,已经升温的一次侧冷却液经过冷却塔,将热量释放至大气中,完成整个冷却过程。
两相液冷的核心在于二次侧冷却液在热量传递过程中发生相态转变:传热路径与前者基本相同,区别在于,二次侧冷却液只在浸没腔体内循环,且浸没腔体内部形成了液态和气态两个区域:顶部为气态区,底部为液态区。当冷却液吸收了设备产生的热量后沸腾并转化为高温气态。这些气态冷却液的密度较低,会逐渐上升到浸没腔体的顶部,在那里与顶部的冷凝器进行热交换并冷凝成低温的液态。这些冷却液在重力的作用下重新回到腔体底部,从而完成IT设备的散热过程。
我们判断两相液冷的液冷模组相对昂贵,原因是工艺相对复杂。单相液冷技术原理示意图两相液冷技术原理示意图332.9.1
国产芯片之光:海思昇腾AI芯片,构建算力的第二极
全栈全场景AI芯片,构建智能计算架构核心
昇腾
910
和昇腾
310
两款AI芯片均使用的达芬奇架构,每个
AI核心可以在
1个周期内完成
4096
次
MAC
计算,集成了张量、矢量、标量等多种运算单元,支持多种混合精度计算,支持训练及推理两种场景的数据精度运算。
基于昇腾系列AI处理器和基础软件构建Atlas人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程,可以满足不同场景的大模型计算需求。
的全栈全场景AI解决方案日臻完善。主要基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列芯片、Atlas系列硬件、芯片使能、CANN(异构计算架构)、AI计算框架、应用使能等。
算力是衡量单卡性能的直观指标:参数方面,我们认为昇腾910芯片单卡算力已经可以与英伟达A100相媲美。英伟达与参数比对架构昇腾全栈AI软硬件平台,构筑智能世界的基石算力最大功耗达芬奇架构3DCube技术16TOPS@INT88TOPS@FP16昇腾310昇腾9108W达芬奇架构3DCube技术640320310W300W700WTOPS@INT8
TFLOPS@FP16624
312TOPS@INT8
TFLOPS@FP163958
1979TOPS@INT8
TFLOPS@FP16英伟达
NVIDIA安培
GPUA100架构英伟达H100NVIDIA
HoppeGPU架构342.9.2昇腾芯片,统一达芬奇架构助力AI计算引擎
昇腾AI芯片的计算核心主要由AI
Core构成:
AI
Core采用了达芬奇架构,它包括了三种基础计算资源,矩阵计算单元、向量计算单元和标量计算单元。这三种计算单元分别对应了张量、向量和标量三种常见的计算模式,在实际的计算过程中各司其职,形成了三条独立的执行流水线,在系统软件的统一调度下互相配合达到优化的计算效率,AI
Core中的矩阵计算单元目前可以支持INT8、INT4和FP16的计算;向量计算单元目前可以支持FP16和FP32的计算。我们认为本质上讲昇腾芯片属于专为AI而生的特定域架构芯片。
存储转换单元(MTE)是达芬奇架构的特色:比如通用GPU要通过矩阵计算来实现卷积,首先要通过Im2Col的方法把输入的网络和特征数据重新以一定的格式排列起来,通用GPU通过软件实现,效率较为低下,达芬奇架构采用了一个专用的存储转换单元来完成此过程,可以在较短的时间之内完成整个转置过程,定制化电路模块的设计可以提升AI
Core的执行效率,从而能够实现不间断的卷积计算。基础计算资源,矩阵计算单元、向量计算单元示意图昇腾AI芯片架构图352.9.3HCCS互联技术,实现卡间高速互联
HCCS是自研的高速互联接口,实现高效卡间连接。HCCS是自研的高速互联接口,片内RoCE可用于节点间直接互联。HCCS是HCCL的硬件形态,HCCL提供了深度学习训练场景中服务器间高性能集合通信的功能。
每台设备具备两个HCCS环共8颗处理器(A0~A7)。每个HCCS存在4颗处理器,同一HCCS内处理器可做数据交换,不同HCCS内处理器不能通信。
单个AI处理器提供3条HCCS互连链路,提供最大90GB/s带宽能力。NPU载板由4个AI处理器组成,3条HCCS组成一个4P
Fullmesh互联,4个AI处理器间互联带宽达到30GB/s,双向60GB/s。
我们认为AI大算力集群背景下,单张AI芯片无法完成训练任务,需要联合多张AI芯片,数据传输速率同样重要,以实现卡间高速互联,相较于PCIE模式有显著优势,能有效帮助服务器集群协同训练,从而加速AI的训练。HCCS互联技术可HCCS互联拓扑图(K0-K3为鲲鹏处理器)昇腾AI集群组网要求362.9.4910C敬请期待,Atlas打开国产算力集群想象空间
910C敬请期待:根据集成电路IC消息,推出样机,而到2025年第一季度将实现量产。旗下昇腾910C芯片正处于紧张的测试阶段。昇腾910C芯片预计在今年第四季度昇腾910C芯片作为新一代算力核心,其价值量接近前款昇腾910B芯片的1.5倍。在搭载昇腾910C芯片的服务器中,单台服务器的整体价值将得到大幅提升。此外,我们判断,在国产化大背景下,昇腾910C相关供应链有望快速切入国产化,供应链国产化为大势所趋。发布全新架构AI集群,支持超万亿参数大模型训练:在全联接大会2023上,推出全新架构的昇腾AI计算集群——Atlas900SuperCluster。新集群采用了全新的星河AI智算交换机CloudEngine
XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于1.8万张卡)超大规模无收敛集群组网。其优势显著,新集群同时使用了创新的超节点架构,大大提升了大模型训练能力实现算力的资源统一调度,采用液冷设计。Atlas900
SuperCluster示意图Atlas900
SuperCluster大模型连续训练时长372.10
英伟达宣布AI主权,关注服务器厂商份额变化
英伟达宣布AI主权,OEM厂商更受欢迎:英伟达宣布AI主权,其供应链权力加大,英伟达参与GB200
NVL机柜式设计,因此产业逻辑上更利好OEM厂商,而在英伟达Hopper架构时期,英伟达的做法在于扩大其服务器厂商的供应环节,以方便更好的帮助自身售卖其产品,而此次GB200,系统组装的难度进一步提高,不同于英伟达SXM架构和PCIE的架构,其取消了模组和基板的分开制作环节,而是采用了
ComputeBoard的板子,因此有相关制造能力的OEM厂商更受益。
绑定大型CSP厂商的服务器厂商更有优势:根据我们的判断,大型CSP厂商对GB200的采购保佑积极态度,核心在于数据中心的扩建和GB200本身的高性价比,因此与大型CSP厂商的渠道优势显得尤为重要。此外,英伟达可能开放其GB200的机架设计,从而把权限转移给大型CSP厂商,从而导向服务器厂商,因此,渠道和制造能力缺一不可。
相关服务器供应链份额有望进一步集中:3月14日,鸿海董事长刘扬伟在法说会上提及该公司AI服务器业务表现时表示,今年GPU模组会有超过三位数的年增幅度、AI服务器营收增长预计超过40%,AI服务器产品在整体服务器营收占比也将达到40%以上。核心原因在于鸿海是唯一可以提供AI数据中心全方位解决方案的公司,其掌握了从零部件、模组、整机做到数据中心的垂直整合能力。此外,GB200
供不应求,预计今年鸿海
AI服务器市占率有望达到四成。2021年H1全球AI服务器市场份额(根据)2024年英伟达AI服务器代工市占率预期浪潮信息戴尔HPE20.20%32.60%联想40%13.80%IBM60%新华三思科1%1.20%2.60%3.90%3.90%9.80%Oracle富士通鸿海
其他鸿海股东大会4.80%
6.10%*注:右图382.11英伟达GB200服务器份额结构变化,关注零部件厂商升级趋势
英伟达GB200服务器份额结构变化为亮点,新进供应商为亮点:我们判断GB
200
NVL72不同于H100等8卡DGX服务器,其零部件价值量占比有望提升,其重点在于CPU、铜连接、液冷模组、电源板块。截至
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 11亲情友情(2023初中英语中考时文阅读完型填空任务型阅读)
- 浙江省嘉兴市高三4月模拟测试数学试题
- 安全教育教案 (2)(二)
- 2024年售房合同书310字
- 2024年阿克苏客运资格证仿真试题
- 2024年投标委托书
- 2024年自贡道路旅客运输知识考试题库
- 2024年银行车贷借款合同范本
- 2019年江西省中考满分作文《成功的钥匙》
- 2024年聘用外籍员工劳动合同
- DL∕T 618-2022 气体绝缘金属封闭开关设备现场交接试验规程
- 河北省石家庄2023-2024学年八年级上学期期中数学试题(有答案)
- 强村公司重大事项民主决策实施办法
- 2024民法典知识竞赛题库(含答案)
- JavaWeb程序设计-知到答案、智慧树答案
- 施工组织设计内部审批表
- 2024年《军事理论》考试题库附答案(含各题型)
- 妇科手术的术前准备
- 药物警戒质量管理规范-专业解读课件
- MOOC 大学生创新与创业实践-西南交通大学 中国大学慕课答案
- 三年级上《人、自然、社会》教学计划
评论
0/150
提交评论