版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
证券研究报告证券研究报告|行业深度报告大模大模型时代AI服务器需求提升,算力市场打开长线空间AI算力供应链系列报告大模型训练和推理阶段算力芯片需求量的测算原理,从服务器拆分的角度针对服务器等算力硬件产业链相关标的。口AI大模型通常伴随着计算量和模型数量同步增长,全球算力需求数倍增长。长。我们认为出于商业竞争和国家地区数据安全等角度考虑,未来全球各大口数据中心是未来智算基础保障,AI服务器作为核心设施成长空间可观。服务口AI研究与软硬件生态息息相关,英伟达多层次全面布局提供综合解决方案。种加速库与云服务,最新一代大模型芯片为H100GPU,并提供擅长单线程DGX系统可用于构建AI超级计算机。软件方面推出多种加速库与DGX心或将成为未来核心竞争力保障之一,服务器作为数据中心的核心设备未来险、行业竞争加剧的风险、宏观政策和国化的风险、技术路径变化的风险、供应链受限的风险。T业规模流通市值(亿元)业指数%%7.7对表现(%)0(%)00-10Apr22Aug/22相关报告相关报告曙光初现,自主可控持续加速》-04》2023-03-23、《英伟达GTC2023跟踪报告—鄢凡S1090511060002yanfan@曹辉S1090521060001caohui@告敬请阅读末页的重要说明2 服务器按照外形分类(以浪潮信息为例) 11 图13:全球服务器厂商市场份额(22Q4) 12 敬请阅读末页的重要说明3 TaishanPro为例) 13AINF5468A5GPU服务器为例) 14AI信息(以浪潮NF5468A5GPU服务器为例) 15AI信息(以浪潮NF5468A5GPU服务器为例) 15 A 22 告敬请阅读末页的重要说明41、AI模型分为训练和推理两个过程,GPT模型进步的一个显著特征是参数量大幅提升AI为训练和推理过程,训练奠定模型的性能根基,推理是将已有模型应用到具体场景对相应需求做出反在AI大模型发展过程中,通常伴随着模型参数量增大、训练数据增多的趋势,对于芯片的算力需求持续增长。根据《AI算力集群方案设计与优化》总结的过去4年全球主要NLP(自然语言处理)模型,模型的参数量从ELMo的9400万增长至Megatron-TuringNLG的5300亿,增长了近5600倍。以GPT-1到GPT-3的发展过程为例,2018年6月型,整个模型参数量达到1.17亿,其中预训练数据量达到5GB。GPT-2于2019年2月发布,预训练过程同样是无监督的,采用多任务学习的方式,参数量提升至15亿,预训练数据量提升至40GB。GPT-3于2020年5月发布,通过更为海量的参数来进行训练和学习,参数量进一步提升至1750亿,预训练数据量提升数个数量级至45TB。AI模型的发展在目前阶段来看,更好的性能获取通常意味着更多的参数量和更大的数据集,AI模型的迅猛发展与芯片层面的算力进步密不可分,以GPU为代表的加速芯片快速迭代发展为大模型更替奠定了良好的硬件基础。告敬请阅读末页的重要说明52、全球互联网等大厂和各个国家及地区均有望推出自研大模型巩固核心竞争力aM考虑到大语言模型属于公司未来可能潜在的核心竞争力,预计未来各大公司均有意愿去构建自己专属的大语言模型。ChatGPT家出于自身数据安持续增长。发布主体模型名称发布日期训练规模硬件7d.81TensV28densV100A21LabsJurassic-I-ensYuan1.0-ens微软以及英伟达-ens8080GA100ebGPT------e--AmazonAlexaTM-----vMetaAI以及e-ens-0GA100----------A100ensAscend-----------软-U------mer---腾讯-预计2023年4月---告敬请阅读末页的重要说明63、模型参数量和数量两方面增长带来更多算力需求,远期推理算力需求望超训练需求GPU增多均对于大模型的训练阶段,影响因素主要是模型参数量、训练数据量和芯片算力,预计GPT-3模型训练一次需要几万达到3.14*10^23Flops(floatingpointoperations,浮点运算数)。以目前主流的训练芯片英伟达A100为例进告敬请阅读末页的重要说明7用需求弹性较大、推理端单芯片算力通常较训练端较小等因素影响所致。根据英伟达官网信息,英伟达A30,算IGPU作为实例,核心参数包括使用ChatGPT等大模型的人数、单人访问次数、大模型参数量、推理加速卡的算力,我们认为未来AI大模型或将不仅仅局限在网站浏览器里,以微软Office办公软件为例可知未来有更多应用望直接接入大模型,预计敬请阅读末页的重要说明8训练阶段20232024202520262027模型数量(个)单模型参数量(亿)训练数据集大小(tokens,亿)每个参数每token需要的Flops66666总训练计算量(Flops)E4E42.03E+25E5总训练计算量(PF·天)英伟达A100训练算力(FP16,TFLOPS)单日GPU需求(张)单日服务器需求(台,8路GPU)推理阶段20232024202520262027网站单日访问人数(亿)1369单人平均访问次数峰值访问量(亿人次)单人单次token量单tokenFlops量22222模型参数量(亿)推理计算量(Flops)E350E+24E24英伟达A30推理算力(FP16,TFLOPS)单日GPU需求(张)单日服务器需求(台,4路GPU)总计GPU需求(张)14108133471776081313951412346988单日服务器需求(台,8路GPU)2069754466134559254885440680市场规模测算GPU训练卡市场规模(亿元,A100:7万元/张)GPU推理卡市场规模(亿元,A30:3万元/张)7AI服务器GPU市场规模(亿元)1944067191172训练型AI服务器规模(8*A100型:100万元)推理型AI服务器规模(4*A30型:25万元)AI服务器市场规模(亿元)16135575413412197AI发展的早期阶段以训练能力为核心,在进入应用期后将逐步以推理为核心,未来对推理芯片的需求或将远超对训IDC年中国人工智能服务器工作负载中,用于推理和训练的占比分别为58.5%和敬请阅读末页的重要说明9测52%58%59%52%58%59%60%61%62%62%49%42%42%41%39%38%38%%告敬请阅读末页的重要说明10设施未来占比望逐步增长1、数据中心等产生更多服务器需求,AI服务器出货量占比1%增速超服务器行业整体务构成,其占比分别为70%、20%、10%,服务器在购置预算中的占比最大,凸显数据中心中服务服务器存储软件与服务理部署。据中心、存储、AI加速计算等类型。智慧时代下的业务场景与传统信息化应用相比,对计算增长呈线性增长,但是以云计算、大数据和深度学习为支撑的智慧计算则突破了认知、学习和预测的边界,告敬请阅读末页的重要说明11图9:服务器按照外形分类(以浪潮信息为例)图10:服务器按应用场景分类源:浪潮信息M5产品手册,招商证券资料来源:浪潮信息官网,招商证券atGPT005020222023E2024F2025F2026FMAI告敬请阅读末页的重要说明12ODM浪潮华为戴尔SuperMicroCisco其他联想新华三浪潮新华三戴尔Oracle联想华为其他IBM4%0%6%5%PU -- 资料来源:英伟达官网,招商证券2、服务器演进从以CPU为主逐步到以GPU为核心,大芯片+存储将占据主要价值量IO模组每个插槽采用模块化设计,支持PCIeGen4规格和在线热插拔,FSP卡进行系统管理和监控管理,PSU电,通常CPU和内存条所在距离相对较近,对告敬请阅读末页的重要说明13示意图(以浪潮信息K1PowerE950服务器为例)整理CPU核心,通过CPU搭配多个内存条和存储硬盘的形式来完成大规模数据计算或存储,核roU构成部分示意图(以华为Taishan200Pro服务器为例)AI服务器相较于通用服务器最大的差异在于加入了高算力加速卡(GPU等),可满足AI训练和推理等多种高算力C结构从前面板到后面板依次是磁盘存储区、系统散热区、CPU+内存区、GPU区。相较于通用服务器内部结构,AI敬请阅读末页的重要说明14AI(以浪潮NF5468A5GPU服务器为例)网,招商证券整理若考虑内存和硬盘价值量占比较大,以及实际情况下可能单机会尽量满配GPU数量,预计高性能AI服务器敬请阅读末页的重要说明15AI号、用量、单价和功能信息(以浪潮NF5468A5GPU服务器为例)当前AI加速计算卡除了GPU之外还有部分FPGA产品,FPGA具备低延迟、易烧录等优点,FPGA通常用于推理阶段,关注未来FPGA在大模型领域潜在的渗透率提升空间。目前,我们在AI计算平台使用最广泛的两种加速部件是GPU和FPGA。GPU可适用于具备计算密集、高并行、SIMD(SingleInstructionMultipleData,单指令多数据流)应用等特点的深度学习训练模型领域,并且GPU创建了包含CNN、DNN、RNN、LSTM以及强化学习网络等算法在内的应用加速平台和生态系统。GPU在深度学习算法模型训练上非常高效,但在推理时对于小批量数据,并行计算的优势不能发挥出来。而FPGA同时拥有流水线并行和数据并行,因此处理任务时候延迟更低,同时FPGA是可编程芯片,算法烧录更加灵活,根据浪潮AIHPC公众号预测,未来至少95%的机器学习计算都是用于推断,只有不到5%是用于模型训练,而FPGA正是强在推断,大幅提升推断效率的同时,还能最小限度损失精确性,这正是FPGA的强项。AI号、用量、单价和功能信息(以浪潮NF5468A5GPU服务器为例)网,招商证券整理告敬请阅读末页的重要说明16AI发展和软硬件生态息息相关,英伟达多层次全面布局为国内公1、英伟达利用GPU壮大发展,逐步布局CPU、服务器和各种云服务等软硬件支持公司针对服务器与高效运算、个人与游戏玩家、专业工作站推出Tesla、GeForce、RTX(Quadro)三大产品线。显著优于其他产品系列。例如,根据英伟达官网与Techpowerup网站,定位于个人与游戏玩家的最新一代产品GeForceRTX4090显卡售价13000-16000元,使用24GBGDDR6X显存,带宽1008GB/s,在FP64上提供产品系列推出时间架构制程主要应用领域DataCenterTeslaHopper(H100)2022.3HopperTSMC4nm数据中心TeslaAda(L4,L40)2022.10AdaLovelaceTSMC4nmTeslaAmpere(A100,A800)2020.5-2022.11AmpereTSMC7nm;Samsung8nm(A100与A800产品均采用TSMC7nm)TeslaTuring(T4,T10等)2018.9-2020TuringTSMC12nmTeslaVolta(V100等)2017.6-2019.11VoltaTSMC12nmTeslaPascal(P100等)2016.4-2017.3PascalTSMC16nmGeForceGeForceRTX402022.9-2023AdaLovelaceTSMC4nm游戏娱乐、创作等GeForceRTX30-2022.12AmpereSamsung8nmGeForceRTX20-2021.12TuringTSMC12nmGeForceGTX162019.2-2022.6TuringTSMC12nmRTX/QuadroQuadroAda(RTX6000Ada)2022.12AdaLovelaceTSMC4nm工业设计、高级特效、科学可视化等QuadroAmpere0.10-2022.3AmpereSamsung8nmQuadroTuring2018.8-2021.5TuringTSMC12nmQuadroVolta2018.3VoltaTSMC12nmRTXTitanTITANRTX2018.12TuringTSMC12nm研究、开发、创作Techpowerup:粗体字表示该系列芯片为模型训练芯片)HopperAmpereTuringVolta支持的TensorCore精度FP64、TF32、bfloat16、FP16、FP8FP64、TF32、bfloatFPINTINT1FP16支持的CUDACore精度FP64、TF32、FP16、FP64、TF32、FP16、FP64、FP32、FP16、INT8FP64、FP32、FP16、INT8告敬请阅读末页的重要说明17A0芯片GPU之间的传输速度减少至400GB/s(A100芯片使用NVLink时GPU之间传输速度为H100PCIeA10080GBPCIeA80080GBPCIeV100PCIeP100PCIe16GB发布时间2022.32021.62022.112018.52016.6显存大小80GBHBM2e80GBHBM2e80GBHBM2e32GBHBM216GBHBM2显存带宽2TB/s1935GB/s1935GB/s900GB/s732GB/sFP6426TFLOPS9.7TFLOPS9.7TFLOPS7TFLOPS4.7TFLOPSFP64TensorCore51TFLOPS19.5TFLOPS19.5TFLOPS--FP3251TFLOPS19.5TFLOPS19.5TFLOPS14TFLOPS9.3TFLOPSTensorFloat32756TFLOPS*156TFLOPS|312TFLOPS*156TFLOPS|312TFLOPS*--BFLOAT16TensorCore1513TFLOPS*312TFLOPS|624TFLOPS*312TFLOPS|624TFLOPS*--FP16TensorCore1513TFLOPS*312TFLOPS|624TFLOPS*312TFLOPS|624TFLOPS*--FP8TensorCore3026TFLOPS*----INT8TensorCore3026TOPS*624TOPS|1248TOPS*624TOPS|1248TOPS*--功耗300-350W300W300W250W250WCUDACore145926912691251203584TensorCore456432432640-注:*表示采用稀疏技术)opperSuperchip告敬请阅读末页的重要说明18PU资料来源:英伟达官网,招商证券资料来源:英伟达官网,招商证券eI资料来源:英伟达官网,招商证券资料来源:英伟达官网,招商证券告敬请阅读末页的重要说明19SHARP宽和更低延迟。资料来源:英伟达官网,招商证券AI告敬请阅读末页的重要说明20(4)软件层面:公司提供多种加速库与DGXCloud、AIFoundations云服务2、CUDA架构深度适配各类AI框架,配合硬件基础打造用户高度依赖的研发环境GPUCPUDPUDGX据英伟达官网,ations英伟达的核心竞争力之一在于其CUDA架构,成为当前全球加速计算领域依赖度极高的架构之一,助力英伟达打造告敬请阅读末页的重要说明210%%证券告敬请阅读末页的重要说明221、全球服务器产业链范围广泛提供众多机遇,国内公司在各个细分领域均有布局GPU的业绩表现,以及英伟达产业链相关受益标的。JDM告敬请阅读末页的重要说明232、未来价值量占比最大的是GPU等算力芯片,关注服务器配套的其它电子零部件产品GPUGPU相对激烈,建议关注未来在算力需求大幅营计算设CU统。2010年,在中国科学院和北京市政府共同牵头出资支持下,龙芯开始市场化运作,对龙芯处理器研发成果进行产业告敬请阅读末页的重要说明24公司产品名称制程 (nm)FP32 (TFLOPS)FP16 (TFLOPS)INT16 (TOPS)INT8 (TOPS显存容量 (GB)带宽 (GB/s)功耗 (W)寒武纪MLU370-S474MLU370-X474564MLU370-X87456850MLU290-M57--56MLU270-S4--MLU270-F4--海光信息深算一号(8100)7支持双精度/单精度/半精度浮点数与各种常见整型数1TB/s260-350景嘉微JM72008------JM9----8JM9第二款-512GFLOPS---825.6天数智芯天垓10079550智铠10074--壁仞科技壁仞100P740--450-550壁仞104P7峰值为256TFLOPS(TF32+)、512TFLOPS (BF16)鲲云CAISA8-----星空X3加速卡8---8-星空X9加速卡8---3.6-30沐曦MXN7----燧原科技云燧T20(燧思2.0)-561.6TB/s云燧T21(燧思2.0)-561.6TB/s云燧T10(邃思)0--25云燧T11(邃思)2--云燧i20(邃思)-56云燧i10(邃思)-昆仑芯2代AI芯片7--56-AI加速卡R200(2代)756AI加速卡R200-8F(2代)756AI加速器组R480-X8(2代)756-1代AI芯片--56--K100(1代)-----K200(1代)---56--摩尔线程MTTS80(春晓)7---855MTTS30-2.6---4-0MTTS10-2---2--MTTS50----8-MTTS3000(春晓)7---850MTTS2000(苏堤)--2.4-证券整理务器存储份额主要集中于海外大厂,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版股份质押回购交易合同3篇
- 二零二四二手钢铁材料购买与运输合同3篇
- 二零二五版打印机销售渠道资源整合与共享合同3篇
- 年度聚碳酸酯(PC)及合金市场分析及竞争策略分析报告
- 二零二四年工业自动化设备安装与生产流程优化合同3篇
- 2024-2025学年新教材高中数学第十章复数10.2.2第1课时复数的乘法教师用书教案新人教B版必修第四册
- 二零二五年文秘与档案管理劳动合同2篇
- 二零二五年度网络安全风险评估与防护合同3篇
- 2025年星酒店投资技术服务与酒店客房智能化改造合同3篇
- 二零二五年度特色餐饮店承包经营权转让合同3篇
- 开展防震演练方案及流程
- GB/T 3953-2024电工圆铜线
- 粮油储藏技术规范课件
- 人教版小学数学一年级上册20以内口算天天练试题全套
- 技术服务补充协议范本
- 促进自然分娩资料课件
- 人际风格的类型
- 医院科室宣传方案
- 药物外渗和渗出的预防和处理
- 高压变频器培训教材
- 立式气液分离器计算
评论
0/150
提交评论