




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023-052023-082023-112024-022022023-052023-082023-112024-02202更多作者及其他信息请见文末披露页证券研究报告2024.05.16智算未来系列七:国产云端AI芯片破局,路在何方? 在全球生成式人工智能浪潮带动下,国产大模型也不断取得技术进展,部分企业在能力上已经可以与海外主流模型实现对标。我们看到,国产大模型技术的迭代和访问调用量的增加,对应了训练端更大规模算力硬件集群的采购需求,以及推理端的逐步扩容。受到贸易摩擦影响,海外核心云端AI芯片进入大陆市场受限,国产替代迫切性高。尽管当下国产云端AI芯片在硬件性能、性能、系统生态方面与全球领先水平均存在一定差距,但我们认为国产化窗口期已至,行业有望于年内迎来重要商业化落地转折点。本报告中,我们详细阐述了国产云端AI芯片产品破局之路,希望为投资者提供借鉴价值。理由硬件端来看,我们认为单一GPU性能及卡间互联性能是评价云端AI芯片产品优劣的核心指标。中国大陆产品在单芯片制程、架构优化方面努力追赶,在互联性能方面,各企业能力也得以逐步补齐,但目前国产产品依然与全球领先水平存在2-3年的差距。虽然短期内中国企业单芯片技术能力暂优于互联水平,但我们认为芯片厂商需在二者之间平衡发展,任何的短板都有可能造成导致系统能力提升困难。此外,当前大模型网络结构以Transformer为主导,我们认为网络结构暂时的统一化也为国产后发产品沿定制化路径创新提供了机遇。系统生态来看,我们认为,国产云端AI芯片系统生态的构筑需要经过数个阶段:1)适配算子及主流训练框架;2)建立分布式通信库及分布式计算框架;3)构建推理引擎及相关加速库;4)集群容错机制的实现等。我们认为,系统生态劣势的重要形成原因是开发者数量的劣势,但面临当下云端AI芯片国产化迫切的需求,政府、运营商等客户对国产产品采购、商用案例和及时反馈对于芯片企业研发迭代来说是十分宝贵的经验,能够帮助国产芯片从“能用”走到“好用”。此外,Intel/AMD产品的优异表现为非英伟达产品基于开源模型适配提供了参照,增强了我们对国产产品商业落地的信心。好公司还应具备什么特质?综合来看,我们认为一家AI芯片企业能否成功,除软硬件技术能力外,其产品规划定位、对大客户的策略、供应链和资金管理等综合能力也非常重要,不过度追求一步到位,努力先做到量产出货,把握住2024年商业落地窗口期,或许是未来竞争格局的关注重点。估值与建议维持所覆盖公司投资评级、盈利预测和目标价不变。建议关注企业请见文章第31页。风险贸易摩擦导致供应链风险;行业竞争加剧;研发不及预期。1序言:市场需求旺盛,国产云端AI算力芯片大有可为 4硬件性能:单卡及互联能力需协同发展 7单一GPU:制程和微架构迭代是核心要素 7卡间互联:分布式计算环境下,通讯带宽不断升级大势所趋 14思考:硬件性能端的差距与机会 18系统生态:实现与CUDA对齐并非易事 19系统生态:人工智能模型和底层硬件之间的接口 19思考:系统生态端的差距与机会 28写在最后:除了软硬件能力外,国产云端AI芯片企业发展还需注意什么? 31建议关注公司 32风险提示 34图表1:国内大模型备案数量(23.08-24.03) 4图表2:国内大模型参与者分布(23.08-24.03) 4图表3:国内大模型应用周度访问量 5图表4:智算中心算力已建设及拟建设汇总(截至2024年4月末,单位PFLOPS) 6图表5:运营商算力建设情况及拟投资金额(截至23年末) 6图表6:芯片制程与晶体管数量迭代趋势 7图表7:英伟达GH100GPU微架构图 8图表8:英伟达历代GPU架构演进 9 9图表10:Hopper与Blackwell架构主要产品对比 10图表11:AMDGPU架构演进 11图表12:MI300X与H100部分模型中的推理性能比较 11图表13:MI300X与H100训练性能比较 11图表14:华为昇腾910微架构图 12图表15:寒武纪MLUarch03微架构 13图表16:国产云端AI芯片技术指标与海外产品对比 14图表17:NVLink1.0内部链路图(用于P100GPU卡互连) 15图表18:NVLink5.0技术使得GPU间双向带宽升级至1.8TB/s 15图表19:NVLink和NVSwitch各世代规格参数 15图表20:MLU370-X8中整合了双芯片四芯粒思元370 16图表21:MLU370-X8MLULink4卡桥接拓扑 16图表22:8卡寒武纪MLU370产品在FP32大模型训练性能中相比主流GPU实现加速,多卡互联功不可没 17图表23:总结来看,目前国产AI芯片与全球领先产品差距在2-3年 18图表24:CUDA生态系统组成 19图表25:CUDA用户数持续提升 20图表26:全球兼容CUDA的GPU数量达到数亿级别 202图表27:兼容CUDA的多种方式 21图表28:Pytorch2.0算子数目多达2000+个 23图表29:国产云端AI芯片系统生态构建需关注多个层面的内容 23图表30:华为昇腾AI全栈软硬件平台 24图表31:华为昇腾MindStudio功能框架 25图表32:寒武纪基础软件开发平台 26图表33:摩尔线程软件栈一览 27图表34:昇腾计算产业生态 28图表35:各公司生态与CUDA模块对比 29图表36:单节点训练性能对比(基于MosaicML的MPT开源模型) 29图表37:多节点推理存储带宽利用率对比(基于LLAMA2-70B模型) 30图表38:寒武纪收入拆分 32图表39:寒武纪年度营收及净利润 32图表40:景嘉微收入拆分 33图表41:景嘉微年度营收及净利润 33图表42:芯原股份收入拆分 34图表43:芯原股份年度营收及净利润 34图表44:未上市国产云端AI芯片企业一览表 34图表45:可比公司估值表 3433025(个)25252386022820503025(个)2525238602282050国产大模型数量加速增长,参与者多元。根据国家网信办提供的备案数据,2023年8月至2024年3月末,国内备案大模型总数达到117个,2023年11月至今大模型发布更为密集,剔除2024年2月(受春节假期影响月均备案大模型超过20个。此外,根据网信办数据,国内大模型赛道参与者多元,其中占比最高的为大模型初创企业,此外还有互联网大厂、学校等科研机构、各行业龙头公司如东方财富、OPPO等参与其中。图表1:国内大模型备案数量(23.08-24.03)图表2:国内大模型参与者分布(23.08-24.03)31%备案模型数量26%备案模型数量43%大模型创业企业互联网企业其他机构资料来源:国家互联网信息办公室,中金公司研究部资料来源:国家互联网信息办公室,中金公司研究部国内大模型朝着大参数、长文本、多模态趋势演进,训练端算力需求持续提升。在参数规模方面,我们观察到国产千亿参数规模大模型不断落地,详细来看,今年5月幻方旗下深度求索开源的总参数量为236B的第二代MoE模型DeepSeek-V2,其英文综合能力超越了此前最强的MoE开源模型Mixtral8x22B1;同月,国内AI大模型独角兽零一万物发布千亿参数Yi-Large闭源模型,多项能力评测超越GPT-4、Claude3等同级模型2。在上下文长度方面,国产大模型上下文窗口处理能力不断增强,如今年3月中旬月之暗面宣布其KimiChat助手具备200万字(2KK)上下文处理能力,能够满足多场景文档处理需求,用户数持续提升3。在模态方面,当前国产大模型从文生文模型逐步拓宽至文生图、文生视频等领域,例如文心一言具备文生图、文生视频能力,主要落地在ToB平台“智能云千帆”上4;星火大模型的模态能力则偏重于音频方面,主要落地于教师助手、口语训练等场景5。伴随模型能力提升,国产大模型迎来商业化爆发,推理端需求高增。根据Similarweb提供的数据,今年2月以来Kimi与秘塔等大模型新秀周度访问量出现跃升,受益于强大的文本处理能力,KimiChat在今年3月的访问量达到1219万次,4月日均活跃用户数接近100万人次。高频的访问次数逐步推高推理端算力需求。详见DeepSeek官网/zh详见AI奇点网/news/2237.html详见华尔街见闻/articles/3710863详见百度智能云/doc/WENXINWORKSHOP/index.html详见科大讯飞官网/about-us/news/company-news/7974图表3:国内大模型应用周度访问量—讯飞星火—文心一言—字节豆包—Kimi—天工—秘塔5,000,0004,000,0003,000,0002,000,0001,000,0000资料来源:Similarweb,中金公司研究部伴随模型数量与性能提升,算力需求呈现非线性增长,国产替代需求迫切。我们看到,中国AI大模型市场处于发展早期,新进入者与新产品不断涌入,市场规模持续扩张。同时,ScalingScalingLaw仍在延续,大模型性能表现提升对于算力提出更高需求。此外,多模态与长上下文处理能力需要更大规模的数据量、更为复杂的模型架构。因此国内大模型训练与推理算力需求均呈现非线性增长态势。而当前国内市场国产化率较低,根据华经产研院数据,2022年国内市场中英伟达市占率为85%,国内厂商占比仅为15%,加之受到贸易摩擦影响,海外核心高端AI芯片无法进入大陆市场,国产替代需求迫切性高。各地政府积极发力智算中心建设。2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,计划指出,到2025年,中国算力规模超过300EFLOPS,智能算力占比达到35%。以北京、上海等地为代表的地区纷纷发布智算中心建设规划,加速智算中心布局。例如,今年3月,上海市通信管理局等十一部门研究制定了《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》,其中提到,到2025年,本市智能算力规模超过30EFlops,占比达到总算力的50%以上;今年4月,北京市经济和信息化局和北京市通信管理局联合发布《北京市算力基础设施建设实施方案(2024—2027年)》,其中提到,集中建设一批智算单一大集群,到2025年,本市智算供给规模达到45EFLOPS。对应到全国范围内的智算中心投入力度,根据我们统计,截至2024年4月末,针对已知披露的金额来看,中国地区智算中心的投入约超过1,300亿元,已建成/在建/拟建智算中心算力合计约为225EFLOPS。5[0,500)[500,2000)[2000,5000)[5000,9000)[9000,图表4:智算中心算力已建设及拟建设汇总(截至2024年[0,500)[500,2000)[2000,5000)[5000,9000)[9000,三大运营商抢先争相布局智算中心,23年末智能算力规模达到21.1EFLOPS。详细来看,中国移动强化“N(全国性、区域性智算中心)+X(属地化、定制化边缘智算节点)”多层级、全覆盖智算能力布局,2023年末智能算力达到10.1EFLOPS(FP162024年算力规划投资475亿元,同比增长54.4%;中国电信聚焦全国一体化算力网络枢纽节点区域,加大智算能力建设,2023年智算新增8.1EFLOPS,达到11.0EFLOPS,增幅279.3%,2024年算力规划投资为180亿元,目标是实现智算规模提升10EFLOPS;中国联通则致力于推动“1+N+X”总体智算规划布局,围绕东部智算产业发达区域和西部资源充沛区域推进梯次布局和落地建设。图表5:运营商算力建设情况及拟投资金额(截至23年末)--资料来源:各公司年报,中金公司研究部6硬件性能:单卡及互联能力需协同发展芯片制程通过改变单位面积晶体管密度影响芯片的算力和性能表现。制程原意为单个晶体管的栅极长度,而后伴随技术逐渐逼近物理极限,制程与栅长不再一一对应,成为代表技术迭代的约定俗成的说法。一般而言,制程节点越小,晶体管尺寸越小,芯片制程的迭代意味着单位面积晶体管密度的提升,而后者对于提升芯片性能、降低能耗较为关键。从Volta架构对应的单Die12nm制程与211亿晶体管数量到最新发布的Blackwell架构下单Die台积电4NP制程与1040亿晶体管数量,我们看到,英伟达GPU制程的持续优化有助于其保持产品竞争力。图表6:芯片制程与晶体管数量迭代趋势资料来源:Sun,Yifan,etal."SummarizingCPUandGPUdesigntrendswithproductdata."arXivpreprintarXiv:1911.11313(2019).,中金公司研究部芯片微架构决定了数据计算方式、存储方式及流向,不同微架构设计会对GPU最终性能产生较大影响。我们认为,英伟达持续的架构升级带来了单芯片的性能领先:从最初的Fermi,到Ampere架构,再到Hopper架构,通过引入CUDA统一编程计算平台、GPUBoost动态提速技术、RT核心和Tensor核心等技术,使得公司GPU产品每一阶段的存算性能及能效比均呈现提升,在图形渲染、科学计算和深度学习等领域构筑了产品护城河。我们认为,英伟达能够持续、快速迭代产品的关键在于其过去积累已久的产品研发经验,以及在服务客户过程中对AI运算需求的理解带来的先发优势。7图表7:英伟达GH100GPU微架构图资料来源:NVIDIA官网,中金公司研究部从基本架构上看,除总线和接口部分外,英伟达的GPU主要由多个SM(流处理器)构成。SMSM是GPU中的核心计算单元,每个SM包含多个核心(Core)和线程束(Warp)调度器。核心是SM中的执行单元,负责执行指令和进行数学计算。在NVIDIA的架构中,核心通常指的是CUDA核心,后续为了对深度学习的矩阵运算进行加速,英伟达也引入Tensor核心,适用于AI计算。英伟达GPU微架构升级的思路主要经由以下三个方面:►算力提升:增加CUDA核心数量(或是SM数量的提升),通过提升核心数直接提升计算能力,Hopper架构的SM数量已经增加到144个;►结合对AI模型更深入的理解,微架构的设计更符合AI需求:Tensor核心的出现配套深度神经网络常用的卷积计算;但Tensor核心和CUDA核心并不完全割裂,通过分布式共享►算力的精细化分配:CUDA核心支持INT32,FP32,FP64等不同精度的算力分配更优方案,增加稀疏性可以支持更大规模的计算。Tensor核心结构也不断升级,优化支持的数据精度,增加不同的数据格式,如HopperTensorCore能够应用混合的FP8和FP16精度,以大幅加速Transformer模型的AI计算。总结来看,从2010年的Fermi到2022年Hopper,英伟达GPU产品的迭代与人工智能算法升级演化在时间线上紧密耦合,形成了天然的系统生态加持。我们认为,新架构不能损害原有的生态,因此英伟达GPU在架构升级中,持续保留了可用CUDA统一编程模型抽象并调度的通用计算单元;但在AI计算方面,需要与DSA保持有力竞争,否则可能会面临一定被替代风险,因此公司采取了上述融合性策略。8图表8:英伟达历代GPU架构演进资料来源:NVIDIA官网,中金公司研究部图表9:新一代架构:Blackwell资料来源:NVIDIA官网,中金公司研究部2024年英伟达发布Blackwell新架构。Blackwell架构GPU具有2080亿个晶体管,采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片,通过10TB/s的片间互联技术连接成一块统一的GPU,是公司首次采用双Die架构的产品。BlackwellTransformer引擎利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持4位浮点(FP4)AI。这将内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度。存,远超前代GPUA100/H100的80GB与H200141GB的显存容量,以适应大模型时代大规模数据集与大参数量模型的训练与推理需求;显存带宽方面,Blackwell架构GPU显存带宽高达8TB/s,在前代产品A100(2,039GB/s)、H100(3.35TB/s)与H200(4.8TB/s)等基础上翻了几番,通过对访存密集型算子加速而进一步提升模型训练与推理的速度,顺应张量并行、混合专家模型(MoE)等并行策略对于高带宽、低时延的迫切要求。然而,在GTC2024大会中,英伟达没有更多地介绍Blackwell这一最新架构的微结构变化。随着单一Die上面的规划和持续创新难度不断增加,英伟达似乎正从多Die、多芯片互联和系统方面努力提升整体性能,主力产品也出现多种形式(如下图)。我们认为若单Die微架构微创新趋缓,国产企业则有望加速缩小单芯片差距。另一方面,面对第一梯队竞争对手不断推出9暂无暂无ProcessorCores16896CUDAcores资料来源:NVIDIA官网,中金公司研究部产品,比如AMDMI300系列的威胁,英伟达在芯片设计上需要更多、更快的创新来保持领先暂无暂无ProcessorCores16896CUDAcores资料来源:NVIDIA官网,中金公司研究部图表10:Hopper与Blackwell架构主要产品对比项目H100H200GB200SuperchipGB200NVL72英伟达英伟达72*GPU(Blackwell)+36*CPU(Grace)2024年3月TSMC4NP暂无暂无3,240TFLOPS576TB/s暂无暂无暂无暂无暂无暂无英伟达GPU(Hopper)2023年11月TSMC4N暂无3,958TFLOPS*3,958TFLOPS*1,979TFLOPS*1,979TFLOPS*989TFLOPS*67TFLOPS34TFLOPS67TFLOPS4.8TB/s700W最高7MIGs@16.5GBeachNVIDIANVLink:900GB/sNVIDIAHGX™H200partnerandNVIDIA-CertifiedSystemswith4Add-on英伟达GPU(Hopper)2022年3月TSMC4N暂无3,958TFLOPS3,958(稀疏)TFOPS1,979(稀疏)TFLOPS1,979TFLOPS989TFLOPS67TFLOPS34TFLOPS67TFLOPS80GB3.35TB/s700W最高7MIGs@10GBeachSXMNVLink:900GB/sNVIDIAHGXH100PartnerandNVIDIA-CertifiedSystemswith4with8GPUsAdd-on英伟达2*GPU(Blackwell)+CPU(Grace)2024年3月TSMC4NP暂无暂无90TFLOPS384GBHBM3e16TB/s暂无暂无暂无暂无NVIDIANVLink:3.6TB/s暂无暂无公司架构发布时间制程工艺FP4向量核心FP8/FP6向量核心INT8向量核心FP16向量核心BFLOAT16向量核心TF32向量核心FP32FP64FP64向量核心GPU内存GPU内存带宽解码器最高TDP多实例GPU外形尺寸互联技术服务器平台选项NVIDIAAIEnterpriseAMD将其GPU架构开发分为单独的CDNA和RDNA线路,分别专门用于计算和图形。CDNA主要是删除了对图形的支持指令,专注于通用计算,增加了MatrixCores的支持。CDNA1最重要的特性是引入了对矩阵乘法的支持,矩阵单元包含了专用的ACCVector寄存被多个超级计算机产品所采用。在内存方面,CDNA3时期,RDNA系列的InfinityCache被引入CDNA领域,以缓解带宽问题。此外,AMD将其在CPU领域丰富的Chiplet经验扩展至GPU领域,通过多Die封装缩小与英伟达的差距。基于CDNA2架构的MI200系列芯片采用了业内首创多Die整合封装(MCM),通过2.5DEFB桥接技术在单芯片上集成两个Die,搭配台积电6nm工艺,共拥有580亿个晶体管;基于CDNA3架构的MI300系列同样采用Chiplet设计,通过3D封装技术集成CPU和加速计算单元,增强单芯片扩展性,以缩小与英伟达的差距。在2023年12月AMD举办的“AdvancingAI”活动中,公司正式宣布推出MI300X产品,其性能接近H100,甚至在特定场景下表现出色。根据公司介绍,MI300X采用3D堆叠技术,在单芯片上形成由8颗加速计算单元(XCD)、4个I/ODie(IOD)和8个HBM组成的12颗5nm的Chiplet集成系统,晶体管数量达到1530亿,提供192GB的HBM3内存,分别为H100的1.9/2.6倍。因而在训练性能方面MI300X与H100不相上下,并提供相对具有竞争力的价格/性能。在8v8Server比较中,Llama270B/Bloom176B模型推理速度比H100快40/60%,与H100相比之下MI300X在推理工作负载方面表现也更为出色。我们认为AMD在微架构上的正确调整,是其最新一代MI300系列芯片实现追赶英伟达主流产品性能的关键,对于国产企业来说也具有启示意义。图表11:AMDGPU架构演进资料来源:ChipsandCheese,AMD官网,中金公司研究部图表图表12:MI300X与H100部分模型中的推理性能比较图表13:MI300X与H100训练性能比较资料来源:AMD官网,中金公司研究部资料来源:AMD官网,中金公司研究部当前AI芯片主流框架分化为GPGPU和DSA两条路线。GPGPU为通用处理器,利用GPU的并行处理加速计算,并在GPU的基础上进行改造,使之适合进行部分科学计算和AI计算,通用性更为突出,如上文所述,英伟达和AMD均采用GPGPU路线;DSA(DomainSpecificArchitecture)为领域特定架构,是一种针对特定领域定制的可编程处理器,针对特定场景定制处理引擎以实现更高的性能和效率,软件具备一定可编程性,定制化特征更为突出。在国产AI芯片中,摩尔线程与沐曦是GPGPU路线的代表,华为昇腾系列、寒武纪思元系列则主要为DSA架构。各厂商均自研芯片核心环节,坚持底层创新,取得了一定的技术成果。►华为昇腾NPU:根据华为昇腾官网,昇腾AI系列处理器主要采用自研达芬奇架构,属于DSA芯片。昇腾AI系列处理器的计算核心主要由AICore构成。①在计算方面,AICore主要负责执行标量、向量和张量相关的计算密集型算子,主要包括矩阵计算单元(CubeUnit)、向量计算单元(VectorUnit)和标量计算单元(ScalarUnit)三种计算资源,分别对应张量、向量和标量三种常见的计算模式,在实际的计算过程中形成三条独立的执行流水线,在系统软件的统一调度下互相配合达到优化的计算效率。此外在矩阵计算单元和向量计算单元内部还提供了不同精度、不同类型的计算模式。②在数据传输方面,AICore内部围绕着三种计算资源分布式设置了一系列片上缓冲区,以配合AICore中数据的传输和搬运。为更好的适应不同计算模式下格式、精度和数据排布的需求,这些存储资源的设计架构和组织方式不尽相同。此外,达芬奇架构的特色之一在于输入缓冲区之后设置了一个存储转换单元(MemoryTransferUnit,MTE其主要的目的是为了以较高的效率实现数据格式的转换。将这一步完全固化在硬件电路中,可以在很短的时间之内完成整个转置过程。③在控制单元方面,AICore中的控制单元主要包括系统控制模块、标量指令处理队列、指令发射模块、矩阵运算队列、向量运算队列、存储转换队列和事件同步模块。图表14:华为昇腾910微架构图资料来源:《DaVinci:AScalableArchitectureforNeuralNetworkComputing》,中金公司研究部►寒武纪思元NPU:根据寒武纪官网,寒武纪思元系列NPU主要采用MLUarch系列芯片架构,属于DSA范畴。新一代智能处理器架构为MLUarch03,在计算方面,MLUarch03配备新一代张量运算单元,内置Supercharger模块以提升各类卷积效率,并采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;在片上通讯与缓存方面,MLUarch03带宽与片上共享缓存容量分别是上一代MLUarch02的2倍、2.75倍;在控制单元方面,MLUarch03采用新一代MLUv03指令集,更加完备高效并能够实现向前兼容。基于这一架构推出的最新产品为MLU370系列,采用7nm制程,并且是寒武纪首款采用Chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8是第二代产品思元270算力的2倍。此外,在内存与带宽方面,思元370系列支持LPDDR5内存,内存最高为48GB,内存带宽最高为614.4GB/s,是上一代产品的3倍。图表15:寒武纪MLUarch03微架构►摩尔线程GPU产品:根据摩尔线程官网,摩尔线程的GPU产品基于其自研的MUSA(MooreThreadsUnifiedSystemArchitecture)架构。这一架构融合软硬件设计,包括统一的编程模型、软件运行库、驱动程序框架、指令集架构和芯片架构。此外,MUSA平台扩展性突出,基于MUSA开发的应用具有广泛的可移植性,可同时运行在云端和边缘的众多计算平台之上。基于第三代MUSA架构,摩尔线程推出的最新智算加速卡产品为MTTS4000,共包含8192个MUSA核心(VectorCore以及128个TensorCore,支持FP64、FP32、TF32、FP16、BF16、INT8等主流精度算力,FP32算力为25TFLOPS。单卡支持48GB显存和768GB/s的显存带宽。在卡间互联方面,基于摩尔线程自研MTLink1.0技术和摩尔线程KUAE千卡模型训练平台,MTTS4000能够支持多卡互联。此外,新产品具有多场景能力,可以提供先进的图形渲染能力、视频编解码能力和8KHDR显示能力,还能支持AI计算、图形渲染、多媒体等综合应用场景。►沐曦GPU产品:根据沐曦官网,沐曦的GPU产品同样基于自研的指令集与芯片架构,采用自主研发的GPUIP与兼容主流GPU生态的完整软件栈(MXMACA)。沐曦产品矩阵包括用于AI推理的MXN系列GPU(曦思用于AI训练及通用计算的MXC系列GPU(曦云以及用于图形渲染的MXG系列GPU(曦彩满足数据中心对“高能效”及“高通用性”的算力需求。沐曦首款产品为MXN100,采用7nm制程,INT8算力为160TOPS,FP16算力为80TFLOPS,主要用于AI推理;在AI训练和通用计算方面,沐曦计划推出的产品为MXC500,已经于2022年12月交付流片,计划2024年全面量产。我们看到,经过不断的基于自研架构的技术迭代,国产AI芯片在表观数据方面逐步与国际龙头靠拢,此外,一些芯片厂商也通过Chiplet等先进封装技术赋能,实现单芯片性能的追赶。图表16:国产云端AI芯片技术指标与海外产品对比厂家产品推出时间工艺功耗FP32算力TF32算力FP/BF16算力INT8算力显存容量显存带宽微架构nmWTFLOPSTFLOPSTFLOPSTOPSGBGB/SNVIDIAA100SXM20207nm40019.5156312624802039AmpereNVIDIAH100SXM20224nm700605001204000803072HopperNVIDIAGB20020244nm5000100002000038416000BlackwellAMDMI250X20216nm50095.73833831283200CDNAAMDMI21020226nm30022.645.3181181641638CDNA2AMDMI300X20235nm和6nm750163.4653.71307.42614.91925300CDNA3燧原T20202033.633.6128256321600新一代GCU-CARA架构燧原T2120214040128256321600新一代GCU-CARA架构壁仞壁砺™106B2022300壁立壁仞壁砺™106C2022150壁立摩尔线程MTTS3000202215.232448MUSA寒武纪MLU370-S42021757219224307.2MLUarch03寒武纪MLU370-X42021150249625648307.2MLUarch03寒武纪MLU370-X82022250249625648614.4MLUarch03天数智芯Biglsland20217nm30037147321200BI架构资料来源:各公司官网,Wind,智东西,中金公司研究部当下随着人工智能应用计算量增大,由单芯片逐步转向分布式计算,而多GPU间通信时PCle或存在带宽瓶颈。AI算力的持续增强不仅依靠GPU单卡的性能提升,往往还需要多GPU卡组合。在多GPU系统内部,GPU之间的通信带宽通常在数百GB/s以上,PCIe总线的带宽有限,容易形成传输瓶颈;此外,PCIe无法实现GPU的直接互连,需要通过PCIeSwitch连接,PCIeSwitch内部的数据处理、以及CPU对数据的分发调度均会增加额外的网络延迟,影响系统运行效率,亟需性能更强的专用互连技术。NVLink是专用于英伟达GPU之间的点对点互连协议。英伟达针对异构计算场景于2014年开发了NVLink技术,NVLink实现了GPU之间的直接互连,可扩展服务器内的多GPU输入/输出(I/O提供相较于传统PCIe总线更加快速、更低延迟的系统内互连解决方案。NVLink1.0的双向传输速率为160GB/s,此后NVLink随着GPU体系结构的演进而同步迭代升级。3月19日的GTC2024Keynote上,英伟达发布第五代NVLink高速互连方案,两个B系列GPU芯片间通过18条NVLink5.0链路连接,最高双向总带宽提升至1.8TB/s,较第四代提升一倍,约为x16PCIe5.0链路总带宽的14倍。我们认为,英伟达第五代NVLink技术的推出显著提升GPU间通信效率,有望从C2C互连层面进一步强化其AI芯片集群计算性能,巩固自身产品护城河。 Tx Tx Tx Tx TxTxTx Tx发送端TxTxTxTxTxTxTx接收端P100TLTLPHYPHYPHYPHYNVLinkx4PHYPHYPHYPHY发送端Tx Tx Tx Tx Tx TxTxTx Tx发送端TxTxTxTxTxTxTx接收端P100TLTLPHYPHYPHYPHYNVLinkx4PHYPHYPHYPHY发送端Tx图表17:NVLink1.0内部链路图(用于P100GPU卡互接收端接收端NVLinkNVLink内部电路P100P100注:1)TL指事物层;2)DL指数据链路层资料来源:Nextplatform,中金公司研究部图表18:NVLink5.0技术使得GPU间双向带宽升级至1.8TB/s资料来源:英伟达官网,中金公司研究部除NVLink外,英伟达还拥有自研交换芯片NVSwitch,解决GPU间通讯不均衡问题。在DGXP100架构中,8个GPU通过NVLink形成环状连接,无法完全实现点对点的连接。为了解决上述GPU之间通讯不均衡问题,英伟达引入基于NVLink高级通信能力构建的NVSwitch芯片能够在节点间扩展NVLink,创建无缝、高带宽的多节点GPU集群,实现所有GPU在一个具有全带宽连接的集群中协同工作。GTC2024大会上,英伟达发布新一代NVLinkSwitch:单颗NVSwitch芯片采用台积电4NP制程工艺,支持72个双向200GSerDes端口(应用224GPAM4SerDes技术)。新一代NVLinkSwitch最多可实现576个GPU的互连,大幅扩展了NVLink域,聚合总带宽提升至1PB/s,助力万亿级以上参数量AI大模型释放加速性能。同时,英伟达也通过NVLink-C2C技术将NVLink扩展至封装级,借助先进封装支持芯粒互连,GraceCPU与BlackwellGPU之间支持900GB/s双向带宽的通信。图表19:NVLink和NVSwitch各世代规格参数指标第一代第二代第三代第四代第五代NVLink搭载GPUP100V100A100BlackwellGPU推出时间20142017202020222024单链路双向传输速率(GB/s)20+2025+2525+2525+25-每个GPU的最大链路数46单链路包含SerDes通道数量8842-单通道SerDes传输速率(Gbps)202550-总双向传输速率(GB/s)300600900支持的NVIDIA架构PascalVoltaAmpereHopperBlackwellNVSwitch代际直连或节点中GPU数量NVSwitchGPU之间带宽聚合总带宽NVIDIA架构支持-第一代第二代第三代NVLinkSwitch-最多8个最多8个最多8个最多576个 300GB/s600GB/s900GB/s1800GB/s 2.4TB/s4.8TB/s7.2TB/s1PB/s-VoltaAmpereHopperBlackwell注:“-”表示尚未披露公开信息资料来源:英伟达官网,中金公司研究部借鉴上文中英伟达的产品发展思路来看,我们认为国内云端AI芯片企业仅提升单芯片性能远远不够,在互联通信领域仍需持续耕耘。从技术储备来看,芯片间互联通信能力需要设计厂商对数字逻辑、物理底层实现均有较深的积累,这对国内企业提出了不小的挑战,也不排除存在外购高速接口IP的需求。当下,我们看到国产芯片厂商均基于自身芯片架构发展芯片间高速通讯技术,以增强在分布式计算应用场景中算力硬件系统的性能,如华为昇腾HCCS、寒武纪MLULink、昆仑芯XPULink、摩尔线程MTLink等等。以寒武纪产品为例,根据公司官方公众号披露,公司主力产品MLU370-X8智能加速卡支持MLU-Link多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe4.0的3.1倍,可高效执行多芯多卡训练和分布式推理任务。在寒武纪基础软件平台SDK上实测,多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和寒武纪基础软件平台CNCL通讯库的优化,在8卡环境下达到更优的并行加速比(在Transformer等训练任务中,8卡计算系统的并行性能平均达到350WRTXGPU的155%)。华为产品方面也有相应储备,根据华为云官网披露,一台昇腾AI服务器上搭载8颗NPU芯片,采用片,采用4P*2方式。每4块NPU芯片之间可通过HCCS互联,4块之间可通过PCIeSwitch互联。6HCCS互联的4块NPU芯片较PCIeSwitch互联有更大的带宽,可以针对HCCS做亲和性调度发挥HCCS的带宽优势。其余诸多国内厂商也有上述类似的方案,我们在此不一一列举。整体来看,国内产品卡间互联双向带宽现仅能达到NVLink5.0的10%-30%;但结合算力指标来看,也基本上实现了匹配(我们认为单卡性能较弱的情况下盲目提高图表20:MLU370-X8中整合了双芯片四芯粒思元370图表21:MLU370-X8MLULink4卡桥接拓扑资料来源:寒武纪官方公众号,中金公司研究部资料来源:寒武纪官方公众号,中金公司研究部/ref-cce/category_11.html图表22:8卡寒武纪MLU370产品在FP32大模型训练性能中相比主流GPU实现加速,多卡互联功不可没注:*测试环境为:250WMLU370-X8:NF5468M5/IntelXeonGold5218CPU@2.30GHz/MLU370SDK1.2.0;350WGPU:SupermicroAS-4124GS-TNR/IntelXeonGold6130CPU@2.10GHz/Cuda11.2资料来源:寒武纪官网,中金公司研究部结合NVSwitch产品来看,对于构建向更大规模扩展的算力集群,不仅需要芯片厂商自主定义的片间连接技术,更需要独立的交换芯片做支持。当前除少量在通信领域积累深厚的企业外,自研交换芯片对国产AI算力芯片企业来讲难度较大,以类NVLink方式实现更大互联面临挑战性。但我们也看到,国内不乏一些三方交换芯片供应商业务水平不断精进,有望逐步对AI算力芯片企业行程业务支持和配套。.800GbE.400GbE.AlexNet.300TFLOPS.800GbE.400GbE.AlexNet.300TFLOPSTransformers如上文所述,我们认为从硬件端来看,单一GPU性能及卡间互联性能是评价云端AI芯片产品优劣的核心指标。中国大陆产品在单芯片制程、架构优化方面努力追赶,在互联性能方面,各企业能力也得以逐步补齐。但目前国产产品依然与全球领先水平存在2-3年的差距。虽然短期内中国企业单芯片技术能力暂时优于互联水平,但我们认为芯片厂商需在二者之间平衡发展,任何的短板都有可能造成导致算力系统能力提升困难。我们认为,国产云端AI芯片企业虽作为后发者,依然拥有市场机会。一方面来看,摩尔定律的迭代放缓使得海外龙头企业开发新产品面临更大的挑战,中国企业有望以更快的速度向海外现有产品看齐,但供应链方面存在不确定性;另一方面来看,Transformer作为大模型时代当下主流的网络结构,若该结构在未来长期行之有效,推理侧大量的应用铺开对硬件的成本、能效比会带来更高的诉求,定制化架构芯片有望攫取一定市场份额,对后发企业构成利好。图表23:总结来看,目前国产AI芯片与全球领先产品差距在2-3年.2000TFLOPS系统生态:实现与CUDA对齐并非易事系统生态:人工智能模型和底层硬件之间的接口我们认为,英伟达系统生态的繁荣为其GPU硬件平台提供了强大的竞争护城河。我们总结,英伟达的生态壁垒包括以下几个关键组成部分:►基于高层次抽象,英伟达通过CUDA统一编程平台提供了一套完整的开发工具链,包括编译器、调试器和性能分析工具,以及丰富的库函数(加速算子执行、实现卡间通信为开发者提供了便利,降低使用成本。且CUDA统一编程平台可支持多个操作系统,且支持各类GPU(包括数据中心级产品、消费级产品);全球安装的CUDA兼容的NVIDIAGPU数量已经达到了数亿级别,在AI领域和并行计算形成近乎垄断的生态系统。►由于硬件端AI领域的先发优势,大量的AI深度学习训练开源项目和框架如PyTorch、TensorFlow等与英伟达GPU后端实现了原生适配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端来看,英伟达同样拥有Tensor-RT引擎。总结来说,主流AI软件栈的最佳优化方案均与英伟达CUDA生态及GPU深度耦合。通过日积月累,英伟达硬件环境上的开发者数量众多,有庞大而活跃的社区以及硬件环境上的开发者数量众多,有庞大而活跃的社区以及大量可用的文档、教程、论文,开发人员对CUDA的熟悉程度和专业度更高,导致新人采用CUDA面临的时间成本更低。到2023年底,CUDA软件包已累计下载4800万次,证明其广泛的用户基础和开发者社区的活跃度。►对外部企业、学校、以及不同应用领域均有良好的解决方案,对不同类型客户进行深度绑定服务。图表24:CUDA生态系统组成资料来源:NVIDIA官网,中金公司研究部图表25:CUDA用户数持续提升资料来源:NVIDIA官网,中金公司研究部图表26:全球兼容CUDA的GPU数量达到数亿级别资料来源:NVIDIAGTC2024,中金公司研究部我们看到目前复刻/再造英伟达CUDA生态存在较大的困难,原因在于:1)软件依赖于硬件,硬件本身难以大规模普及。由于生态壁垒,硬件的切换成本被抬高,假如不考虑其他因素,性能高于竞品很多的产品才可能被考虑。而国内GPU与海外龙头对比仍有一定差距。且大量优秀的代码均建立在CUDA基础之上,英伟达CUDA生态先发优势持续明显。2)时间成本。CUDA自建生态发展了十几年,积淀已久,发现和解决了很多问题。英伟达持续的投入研发和精力使整个软件栈变得易用,初创企业短期内难以企及用时间获得的完善度。从中短期的现实角度来看,业内认为兼容CUDA是一条较为容易实现生态建设的路径。13前端GPGPU源代码自研编译器自研编译器2GPGPU二进制文件二进制文件DSA架构硬件类GPGPU架构硬件资料来源:ANANDTECH,中金公司研究部当前市场对CUDA源代码的兼容主要分为两种:1)使用转译层;2)重新编译代码:13前端GPGPU源代码自研编译器自研编译器2GPGPU二进制文件二进制文件DSA架构硬件类GPGPU架构硬件资料来源:ANANDTECH,中金公司研究部当前市场对CUDA源代码的兼容主要分为两种:1)使用转译层;2)重新编译代码:转译层主要指涉及底层代码的二进制转译方式,无需修改已经编译完成的CUDA代码,可以直接反编译为自研GPU的指令,对于无法一一对应的指令,也可以采用多条指令进行替换。这一方法可以做到一边转译一边执行,是在非英伟达硬件上运行CUDA代码最为简便的方式,典型应用包括ZLUDA开源库等。但在2024年3月,英伟达CUDA11.6及更高版本的最终用户许可协议(EULA)新增规定,不允许使用CUDASDK生成的输出的任何部分进行逆向工程、反编译或反汇编,以便将此类输出转换为面向非英伟达平台,严格限制了ZLUDA等转 编程框架(Pytorch/TensorFlow/Caffe…)GPGPU原生源代码DSAGPGPU原生源代码DSA源代码CUDA源代码厂商自研转译工具第三方编译工具第三方编译工具NVCC编译器ZLUDA转译层NVIDIANVIDIAGPU二进制文件NVIDIA硬件译层的使用。重新编译代码则需要构建翻译工具与自身软件生态,通过翻译工具将CUDA源代码翻译为自有代码,通过自有编译器运行于自研GPU上,例如,AMD可以通过Hipify工具将CUDA源代码转为HIP源代码,经过HCC编译器即可运行;Intel则可以通过SYCLomatic工具将90-95%的CUDA代码迁移到SYCL的代码中,其中SYCL是Khronos开发的可跨越多种AI加速器架构的抽象层。国内企业中,摩尔线程、沐曦等GPGPU架构厂商采取了上述模式。然而,重新编译代码仍然意味着对于CUDA生态的强依赖。兼容CUDA在短期内对于其他芯片厂商是占领生态的捷径,但是长期来看,由于CUDA与英伟达硬件深度绑定,且各家芯片架构各有不同,因此通过编译器转换的代码可能无法在自有芯片上运行,或不能达到最优性能,仍需要根据芯片的架构、指令集和存储层级进行针对性调整才能达到最优。以华为、寒武纪为例,二者芯片均为DSA架构,与AMD等GPGPU架构差异较大,因此并不能通过转译CUDA、SYCL等语言的方式兼容主流生态,而需要自下而上自建完整生态。近期,我们看到还有一些专门从事编译器研发的厂商加入这一赛道,例如国内的AI生态软件提供商中科加禾、清程极智,目标是通过软件转译CUDA等源代码,起到上文提及的“翻译工作”的作用,最终实现芯片与语言解耦,以解决当前碎片化的底层芯片生态与上层大模型更新迭代的兼容问题。这一方法同时解决了当前DSA架构芯片无法与CUDA生态兼容的问题。长期来看,为了避免迭代上的被动和兼容带来的问题,自建生态仍是国产云端AI芯片企业需要努力的方向。我们认为整体国产云端AI芯片的生态构建可以被拆分成以下若干环节:►传统主流框架算子适配:在训练端,当下AI训练框架意义重大。AI框架可以将开发者编写的神经网络模型及代码转化成计算图,可供计算机识别并执行,同时可以提供编程接口支持,提供灵活的编程环境和编程体系供开发者接入。而计算图之间经由算子进行连接,因此我们认为单卡对训练框架所包含的算子实现全面支持和跑通是生态兼容的第一步。出于开发成本考量,国产厂商一般选择的方式是先去支持更广泛被使用的算子,而对于小众算子一般会采用主流算子拼接的“兜底策略”实现。算子开发面临着大量的劳动,当下Pytorch2.0版本包含2000+个算子,我们认为相关从零到一的适配可能会等于百人工程师团队1-2年的工作量。在完成适配以后,算子的执行也需要被不断优化,来实现更好的软件到硬件端性能。►构建分布式通信库,兼容或开发并行加速框架:由于大模型的训练需要多硬件协同完成,因此在实际训练模型过程中,除了使用当前Pytorch等主流训练框架外,还需调用并行加速框架如DeepSpeed(微软维护)、Megatron-LM(英伟达维护)等,以实现对数据并行、模型并行、专家并行等多类并行策略;同时,物理通信的实现也要配套硬件的通信库来完成,提供跨机跨卡的通信能力并能根据底层网络特点充分利用网络带宽。►建立集群的容错机制:机器在执行大规模分布式训练任务时候负载重,发生错误概率高。在硬件配套的系统软件端,也要考量硬件发生故障后快速恢复模型训练的能力。短期内通过写checkpoint的方式完成,长期看需学习spark的容错机制,在数据并行的节点间自动容错。►构建推理引擎:在实际应用中,模型的推理阶段同样需要高效的计算支持。与训练时需要大量的零散的小算子所不同、推理情况下多采用大算子。如何进行算子融合、低精度加速、矩阵乘法的张量加速、多卡并行是推理引擎的技术关注重点。我们看到,目前训推一体框架也是国产企业正在尝试的方向,旨意用单一框架去实现对训练、推理的多维度加速。并行加速框架兼容或开发Megatron-LM了deepspeedFastMOE训练/推理框架兼容或开发算子库支持AI编译器通信库支持NCCL编程语言兼容或开发图表28:Pytorch2.0算子数目多达并行加速框架兼容或开发Megatron-LM了deepspeedFastMOE训练/推理框架兼容或开发算子库支持AI编译器通信库支持NCCL编程语言兼容或开发资料来源:Omdia,中金公司研究部图表29:国产云端AI芯片系统生态构建需关注多个层面的内容主要软主要软件生态资料来源:英伟达官网,AMD官网,中金公司研究部各国产云端AI芯片厂商正在加紧推进全栈软件平台建设,举例来看:华为昇腾昇腾AI全栈软硬件平台包括5层,自下而上分别为Atlas系列硬件、异构计算架构、AI框架、应用使能、行业应用,芯片层是昇腾910和昇腾310,异构计算架构CANN对标英伟达CUDA+CuDNN核心软件层。MindStudio是华为面向昇腾AI开发者提供的一站式开发环境和工具集,致力于提供端到端的昇腾AI应用开发解决方案。按照开发场景分类,MindStudio主要包括以下三个工具链:1)算子开发工具:在完备的调试工具和多样的调优数据的帮助下,通过AscendC的多层接口抽象,简化用户编程难度,助力开发者低成本完成高性能算子开发。2)训练开发工具:聚焦用户在模型迁移、模型开发中遇到的痛点问题,提供全流程的工具链。通过提供分析迁移工具、精度调试工具、性能调优工具三大主力工具包,帮助用户解决开发过程中迁移困难、Loss跑飞、性能不达标或劣化等问题,让用户轻松解决精度和性能问3)推理开发工具:作为昇腾统一推理工具库,提供客户一体化开发所需功能,支持一站式调试调优和迁移分析能力,当前包含推理性能测试试调优和迁移分析能力,当前包含推理性能测试-benchmark、一站式调试调优-debug/profile、模型支持度分析-analyze、推理应用迁移分析-transplt以及推理模型转换-convert等核心组件。图表30:华为昇腾AI全栈软硬件平台资料来源:昇腾官网,中金公司研究部图表31:华为昇腾MindStudio功能框架资料来源:资料来源:昇腾官网,中金公司研究部寒武纪从软件功能维度看,寒武纪软件栈分为运行时库、框架、分析工具、BANG语言及工具、算子库、视觉应用工具六部分,运行时库提供底层设备接口支持上层模块,框架部分提供AI算法环境与接口,分析工具为开发者提供调试、调优工具,方便在硬件上优化AI框架及应用,BANG语言及工具提供自定义算子开发能力,算子库中包含CNNL等常见高性能算子,视觉应用工具提供端到端的视觉算法应用开发方案,降低开发视觉应用门槛。MagicMind是面向寒武纪MLU的推理加速引擎。MagicMind可以将更高层级的人工智能框架(TensorFlow、PyTorch、Caffe与ONNX等)的算法模型转换成MagicMind统一计算图表示,并提供端到端的模型优化、代码生成以及推理业务部署能力。借助MagicMind用户仅需投入较少开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。Bang语言是寒武纪人工智能芯片的编程语言,提供异构编程方式,通过抽象寒武纪底层芯片架构,方便开发者编写自定义算子,降低寒武纪芯片使用门槛,满足开发者自定义开发需求,遵从C语言描述规范,简单易用。图表32:寒武纪基础软件开发平台摩尔线程摩尔线程采用双线作战的策略,一方面发展自己MUSA元计算统一系统架构,包括统一的编程模型、软件运行库、驱动程序框架、指令集架构和芯片架构;同时还推出了代码移植工具"MUSIFY",可快速将现有的CUDA程序迁移至MUSA,零成本完成CUDA代码自动移植,相当于手机的“一键迁移”功能,便于开发者使用自身硬件产品。图表33:摩尔线程软件栈一览资料来源:资料来源:摩尔线程官网,中金公司研究部除软件研发之外,国产云端AI芯片厂商也开始将生态建设向更大范围拓展,如打造行业生态合作伙伴,加强原生工程师培养等。以下是华为昇腾、寒武纪等企业生态拓展的案例:昇腾生态伙伴包含整机硬件伙伴、IHV硬件伙伴、应用软件伙伴、一体机解决方案伙伴以及生态运营伙伴五大类。目前围绕昇腾计算体系,华为已在能源、金融、公共、交通、电信、制造、教育等多行业实现应用,提供城市智能中枢、昇腾智巡、昇腾智行、昇腾制造等解决方案。另外,公司还积极拓展高校教学合作计划及初创扶植计划。高校合作方面,华为与国内“双一流”建设高校合作,或校内设有AI学院或研究院、或设有独立的AI相关学科均可以加入AI人才培养计划;而初创扶持计划分为孵化、成长和云腾三个阶段,企业参加该计划后,获得相应的扶持,随着与AtlasAI计算解决方案的进一步深入融合和裁员,进入成长和云腾阶段,获得更高额度的扶持,并且会优先向伙伴和客户推荐销售。图表34:昇腾计算产业生态资料来源:资料来源:《昇腾计算产业发展白皮书》,中金公寒武纪也在积极推进高校合作工作,公司在高校推广开设《智能计算系统》课程,实验环境基于智能处理卡思元270,整套实验在云平台环境完成,学生只需配备有网络环境的电脑即可完成实验。根据公司官网,目前已经有88所高校开设《智能计算系统》课程并纳入培养方案。政府及行业客户合作方面,寒武纪在不断的拓宽潜在市场,加速场景落地。根据公司公告及2023年年报,公司与中国移动通信集团浙江有限公司台州分公司、浙江省公众信息产业有限公司组成联合体,中标“浙东南数字经济产业园数字基础设施提升工程(一期)”项目,同时积极参与台州、沈阳两地的算力基础设施建设项目,以公司的训练整机产品作为核心计算设备,集成配套的软硬件,最终形成智能计算集群系统交付给客户。如上文所述,除了走兼容CUDA路线外,我们认为国产云端AI芯片厂商在自行开发的系统生态方面也取得了十足的进步:1)训练方面来看,从对主流框架的覆盖、算子适配度等方面已完成基础性工作,但部分个例情况仍需优化,导致在客户侧工程落地时会遇到一定问题;在通信库、并行加速框架方面,各厂商努力依照自身硬件特点持续推进深度优化开发。2)推理方面来看,推理加速引擎也初现雏形,但算子融合经验、分布式推理经验方面仍略有欠缺。我们认为,系统生态劣势形成的重要原因是开发者数量的劣势,但面临当下云端AI芯片国产化迫切的需求,政府、运营商等客户可为芯片企业提供难得的商用机会和及时的产品反馈,对于芯片企业研发迭代具有正向作用,能够帮助国产芯片从“能用”走到“好用”。图表35:各公司生态与CUDA模块对比厂商生态cuBLAScuFFTcuRANDcuSolvercuSPARSEcuTENSORNCCLTensorFlowPytorch开发者社区摩尔线程MUSABLASFFTRANDSolverSPARSETENSORMUSA-XCCL√√摩尔线程创新者联盟壁仞科技BIRENSUPABLAS、NN库多卡通讯库√√FlagOpen等开源社区沐曦集成电路MXMACABLAS、NN库√√OpenKylin等开源社区天数智芯DeepSparkBLASFFT√√DeepSpark等开源社区华为昇腾CANNBLAS、NN库HCCL√√昇腾社区寒武纪寒武纪基础软件平台CNNL、CNNL-EXTRA高性能算子库CNCL√√寒武纪开发者社区燧原科技TopsRiderTopsDNNECCL√√OpenCSG等开源社区资料来源:各公司官网,中金公司研究部Intel/AMD的云端算力芯片的优异表现为非英伟达产品基于开源模型适配提供了样本参照,增强了我们对国产产品落地的信心。根据DataBricks的实验结果,在不同参数量的MosaicMLMPT开源模型上,AMDMI250的单卡训练性能(以TFLOP/s/GPU维度考量,下同)已经可以达到A100-40GB版本的85%及A100-80GB版本的77%。IntelGaudi2的单卡训练性能已经实现对A100-40GB/80GB版本的超越。同时DataBricks也指出,经过优化后,8卡LLAMA2-70B模型推理中IntelGaudi2的存储带宽利用率在batchsize为1-256状态下均超过内存容量相近的A100/H100。类比当下非英伟达硬件对主流开源模型的适配结果日益优化,且部分国内大模型客户的技术路径依赖于开源模型二次开发,我们认为国产云端AI芯片同样拥有商业落地机会。同时,我们也认为,未来若Transformer结构持续为大模型的主流网络结构,模型创新、算子变化趋于缓慢,届时系统生态壁垒也会呈现降低,利好后发硬件厂商。图表36:单节点训练性能对比(基于MosaicML的MPT开源模型)资料来源:DataBricks,中金公司研究部图表37:多节点推理存储带宽利用率对比(基于LLAMA2-70B模型)资料来源:DataBricks,中金公司研究部写在最后:除了软硬件能力外,国产云端AI芯片企业发我们看到,除了英伟达、AMD、英特尔WaveComputing提供从数据中心到边缘的系统、芯片、IP、解决方案服务的广泛产品线。他们研发了基于CGRA架构的AI芯片DPU,但由于核心产品性能问题、生态建设困难,同时经历了多次管理层变更,最终在2020年宣布破产。NervanaSystems是一家专注于人工智能(AI)和深度学习技术的公司,2016年被英特尔收购,尽管NervanaSystems在深度学习领域取得了一些进展,但在产品开发和上市方面遇到了挑战。最终,Intel决定停止开发NervanaSpringCrest系列芯片。Mythic是一家美国AI芯片初创企业,Mythic专注于开发模拟AI处理器,其技术基于混合数字/模拟计算,旨在提高深度学习部署的效率,同时显著延长电池寿命。公司在2022年面临财务困难,在22年11月报道现金流紧张,宣布资金告罄。我们认为尽管这些AI芯片初创企业在某些技术指标上非常突出,例如WaveComputing基于dataflowdataflow技术架构的AI芯片DPU,但仍会面临来自市场推广、生态系统建设以及资金筹集等多方面的挑战。综合来看,一家AI芯片企业能否成功需要考验技术能力、市场能力、供应链和资金管理等综合能力,不过度追求一步到位,努力先做到量产出货,把握住2024年商业落地窗口期,或许是未来竞争格局的关注重点。目前在技术及生态被海外龙头垄断的背景下,我们认为国产云端AI芯片企业可考虑:1)产品规划角度。在推理市场先行放量,增强现金流;2)客户策略角度。一是绑定云厂商大客户,提供定制化的服务,同时得到技术反哺升级下一代产品,获得可持续订单;二是绑定运营商或政府端大客户,在智算中心这一关键新兴需求端抢占市场份额,增强市场影响力;3)运营角度。能否拿到关键制造及封装产能(与头部晶圆厂、封装厂的合作关系)、保持高强度研发投入(能否获得持续融资支持)也是公司可持续发展的关键。建议关注公司寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司产品线涵盖云端、边缘端和IP授权及软件几大板块。寒武纪产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。自成立以来,公司快速实现云边端一体的产品布局,先后推出了用于终端场景的寒武纪1A、寒武纪1H、寒武纪1M系列智能处理器;基于思元100、思元270、思元290芯片和思元370的云端智能加速卡系列产品;基于思元220芯片的边缘智能加速卡。根据公司2023年报,其中,寒武纪智能处理器IP产品已集成于超过1亿台智能手机及其他智能终端设备中,思元系列产品也已应用于浪潮、联想等多家服务器厂商的产品中。此外,思元270芯片、思元290芯片还分别获得第六届世界互联网大会、世界人工智能大会颁布的奖项。思元220自发布以来,累计销量突破百万片。公司在多个领域实现突破,公司在多个领域实现突破,在大模型领域,公司与国内头部的算法公司形成了紧密的技术和产品合作。在互联网领域,公司产品在视觉、语音、自然语言等应用场景中持续出货,并在搜索、广告推荐领域与头部互联网企业达成了产品深度适配及优化,产品性能达到客户需求,为后续业务落地奠定了坚实的基础。在金融领域,公司与多家大型银行进行了语言大模型的测试,并正在推动金融领域的应用落地。根据公司2023年报,目前交通银行已选择嵌入公司智能加速卡的GPU服务器为指定选型。在通信运营商行业,寒武纪依托集采入围,继续赋能运营商集团及下属省专公司常用的人工智能业务。寒武纪表示未来将持续助力三大运营商共同赋能更多业务场景的人工智能应用落地,向“AI+”延伸拓展。图表38:寒武纪收入拆分图表39:寒武纪年度营收及净利润700600500400300200(百万元)201920202021
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 双性化教育探讨
- 《数据库原理及MySQL应用(微课版)》课件 第2章关系模型及关系运算
- ICU肺部感染的个案护理
- 学前培训课件模板
- 肿瘤疼痛病人护理措施
- 加强教师继续教育培训更新知识
- 快递公司消防培训课件
- 家政礼仪考试题及答案
- 技术文化考试题及答案
- 机械识图考试题及答案
- 仪器分析智慧树知到答案2024年临沂大学
- 终毛发生中的表观调控机制
- DL∕T 1917-2018 电力用户业扩报装技术规范
- 古建筑测绘智慧树知到期末考试答案章节答案2024年长安大学
- 广东省深圳市宝安区2023-2024学年五年级下学期期末英语试题
- 心力衰竭药物治疗相关高钾血症防治专家共识
- JT-T-496-2018公路地下通信管道高密度聚乙烯硅芯塑料管
- 2-2-1正常新生儿的特点及疾病预防的正常新生儿的特点
- 抚顺三支一扶真题2023
- 青岛版四年级下册科学期末测试试卷
- 01467-土木工程力学(本)-国开机考参考资料
评论
0/150
提交评论