计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-20230918 申万宏源_第1页
计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-20230918 申万宏源_第2页
计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-20230918 申万宏源_第3页
计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-20230918 申万宏源_第4页
计算机行业智联汽车深度三十三暨华为系列深度之六:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾趋势是带宽与扩展性!-20230918 申万宏源_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机计算机行业及产业行业及产业证券研究报告行业研究行业深度证券研究报告2023年09月18日日地有借鉴意义-AIGC系列之八暨华为产业系列之五’2023年3月26日李国盛A0230521080003ligs@杨海晏A0230518070003yanghy@黄忠煌A0230519110001huangzh@王珂A0230521120002wangke@戴文杰A0230522100006daiwj@洪依真A0230519060003hongyz@施鑫展A0230519080002shixz@林起贤A0230519060002lingx@胡雪飞A0230522120002huxf@崔航A0230122070011cuihang@徐平平A0230123060004xupp@liuyang2@本期投资提示:2020上,特斯拉发布FSD《ComputeSolutionforTesla'sFullSelf-Driving最小单元,每1个D1包含354个nodes、每1个Tile包含25个D1、每1个Tray包含6个Tiles,每个机柜包含2组Tray。DojoInterfaceProcessor(DIP)用于HBM内存统,总共需要14160×2=28320个光模块,对应177个机柜中的53100个D1芯片,另地把握,可能会选中了次好的公司,对投资产生不良的结果。结论和投资分析意见原因及逻辑有别于大众的认识1、TeslaDojo:架构/存算一体/扩展性/带宽 1.1Dojo架构和重要问题 6 82.部分流行GPU/NPU/DSA的异同:英伟达/谷歌/昇腾.102.1NvidiaGPU的10年架构趋势 2.2谷歌TPU的五代升级 2.3华为昇腾 3.1与时俱进,适配新AI场景 3.2带宽最大化,延展关键化 4.2光模块估算 图1:Dojo每个计DojoCoreDatapathCPU 7图2:Dojo微观(底层)的D1芯片,有354个处理单元。对称/延展性/片上SRAM大是特色,每个边缘都有高速低功耗Serdes通道(便于传输) 7图3:Dojo微观(第二层),25个D1芯片组成训练瓦片(TrainingTile)。这样每边 7图4:特斯拉的DIP提供协议连接、共享内存,来帮助拓扑结构 8图5:TeslaDojo的数据路由(Routing)也 图6:TPUv4主打扩展性,图中“立体的”计算对部分AI操作提速有利 图7:谷歌TPU的一大要点(可能是后续瓶颈)是互联带宽,尤其存储相关..13图8:谷歌TPU的一大要点(可能是后续瓶颈)是互联带宽,在使用路由/DMA/HBM 13图9:谷歌TPU用脉动阵列的方法支持矩阵乘。图中左侧输入,下方是“脉动后“输出 图10:华为AI解决方案示意图,包括昇腾/ModelArts/MindSpore等..15图11:华为达芬奇架构示意图,可推测与谷歌脉动阵列TPU有相似之处..15图12:TPUV1-V4对AI不同操作的优化 图13:谷歌TPU对矩阵乘积的支持 图14:英伟达TensorCore对矩阵乘法的支持。之前可以看为向量乘法 图16:Dojo的片内、片外、跨芯片带宽数值较大,有明显传输优势。这归因于设计思 图17:支持稀疏核心单元SparseCore对应的快速HBM访问 图18:英伟达InfiniBand和NVLink示意图 图19:AI训练系统中,计算/内存/读写IO的折中 图20:拆解/去集成系统中,计算/内存/读写IO的折中 图22:6个Tile、20个DIP等组成一个Tray单元 图23:每2个Tray构成1个机柜,进而按不同规模组成POD 图24:借助DIP和TTPoE,Dojo系统通过外部400Gb链路和交换机形成组网26表1:华为系列深度报告1-5 6 表3:2010年以来英伟达GPU主要架构可以推测行业趋势:注重互联,对AI支持与时俱进(从CudaCore到TensorCore,增加对INT/BF16等AI新趋势的支持,结 表5:AI计算的进步,体现在数据精度重要性逐渐低于延展性/并发性。因此新型AI处理器(GPU/NPU/DSA等)逐渐出现INT8/TF32/BF16。TeslaDojo还采用了用于较低精度和更高吞吐量的8位CFP8格式,这刺激新型处理器可以持续发展.17斯拉Dojo/英伟达GPU/谷歌TPU/华为昇腾等的异同,并做产业趋势的预测。然后对计表1:华为系列深度报告1-5123452019年8月《开物成务,华为鸿蒙操作系统全景解构》2020年2月《5G全场景,华为新终端与HMS生态解构》2021年6月《万物归一,鸿蒙2.0重构物联世界》2022年7月《鸿蒙3.0:互联到智联,升级到升维》鸿蒙2.0鸿蒙3.0盘古大模型/NNA架构等。在2022年8月hotchips34大会上,特斯拉发布《TheMicroarchitecture下表是Dojo的分层结构示意图。其中每个集群(ExaPOD)包括3000个D1芯片,每个芯片包括354核心。而核心内部反而与传统CPU有类似之处(有解码器Decoder,表2:特斯拉Dojo的分层结构示意图分层名称片上SRAM算力特点内核2GHz主频芯片格点集群10个机柜组成ExaPOD,对应3000个D1芯片图2:Dojo微观(底层)的D1芯片,有354个处理图3:Dojo微观(第二层),25个D1芯片组成训外带宽外带宽都有高速低功耗Serdes通道(便于传输)这可以简化Dojo的AGU和寻址总线。这些权衡可图4:特斯拉的DIP提供协议连接、共享内存,来帮助拓扑结构EdgecommunicationPClelinksb研究第三,正是由于上述存算一体、可扩展性强,因此数据路由(Routing)也很简单便Dojo网络拓扑结构力求简洁。使用平坦的寻址空间,避免虚拟化。编译器需要知道所有数据的放置位置。数据路由也很简单,到达目的地只需跟随行和列到达目的节点即可。为了增加灵活性,每个D1管芯都实现了一个路由表。一旦数据包进入网络或在到达目的地的途中到达新的骰子,它就会参考本地路由表来决定什么是最佳的前进路径。根据安装在路由表中的信息,数据包可以沿着同一行或同一列继续,或者它可以转向以避免拥塞或出现故障的网络组件。还可以设置路由表,将数据包传输到最近的DIP,以利用Z维度快捷方式。2.1NvidiaGPU的10年架构趋势2012年开普勒、2014年麦克斯韦、2016年帕斯卡、2017年伏特、2018年图灵、20201)注重互联;2)对AI支持与时俱进(CudaCoreTensorCoreINTBFAI请务必仔细阅读正文之后的各项信息披露与声明第10页共29页简单金融成就梦想3)注重带宽和扩展性而非核心数量等(例如麦克斯韦比开普勒的SM/SMX数量减少,从图灵架构后SM数量增长也不快)。表32010年以来英伟达GPU主要架构可以推测行业趋势注重互联对AI支持与时俱进(从CudaCore到Tensor每SM128Cuda每SMX192FP32+64Cores+32每SM64CudaSM单元精简(192特点1首个完整GPU首次GPUDirect到128)NVLink第一代特点2共享内存性能双向带宽160Gbps特点3ECCGPUP10056SMHBM中文名伏特图灵安培赫伯128FP32+64Int32+64FP6102核心92SM特点1NVLink第二代NVLink第三代NVLink第四代特点3支持Al运算RTCore第一代RTCore第二代代注6:SMX,可以理解为大号的SM。Kepler中每个SMX单元中的Register较Fermi的SM单元放大一倍注7:浮点精度对应于不同AI训练要点。例如安培架构对稀疏矩阵支持利于CV分割、对象检测、通信编码等。训练/推理任务常用FP16/BF16/TF32/INT8/FP16中的不同种类1024个芯片。TPUv3对AI训练的精度要求支持增加。其在使用16位浮点(bfloat16)与VoltaGPU相当。一些扩展到1024片芯片的应用程序可以获得97%-99%的完美线性如铜绞线)方法连接,但是距离较远的TPU之间(例如在Cube之间的互联)就必须使用图6:TPUv4主打扩展性,图中"立体的"计算对部分AI操作提速有利TPUV52023年8月亮相。2023年8月,谷歌在CloudNext2023大会上,公开了GoogleCloud新款自研AI芯片TPUv5e。图7:谷歌TPU的一大要点(可能是后续瓶颈)是图8:谷歌TPU的一大要点(可能是后续瓶颈)是InterconnectCoreCore向量,下侧通过累加的方式输出矩阵乘积(还包括错误)。中间过程存储局部加法图9:谷歌TPU用脉动阵列的方法支持矩阵乘。图中左侧输入,下方是“脉动后“输出出3)注重扩展性。TPUv4开始,对扩展性大大增强,相应论文的标题描述也是"ReconfigurableSupercomputer"TPUv扩展性,可以有数千个芯片同时加速,从而实现一个为了机器学习模型训练而设计的超级计算机。在谷歌TPUv4的设计中,超级计算机的拓扑结构为:将4x4x4(64)个TPUv4芯片互联在一起形成一个立方体结构(cube),然后再把4x4x4这样的cube用连在一起形成一个总共有4096个TPUv4的超级计算机。华为的AI生态,于2019年8月即已经发布。根据《机器之心》报道,华为轮值董事长徐直军在发布会上表示:华为自2018年10月发布AI战略以来,稳步而有序地推进战场景AI解决方案(Portfolio)的AI昇腾910也是华为"达芬奇架构"最大的一款芯片。去年10月,华为在全联接大会(HC)上宣布了达芬奇计划,其中用于人工智能训练的异腾910芯片格外引人注目。发布会上,华为产品与其他厂商做了典型性能比较。根据《机器之心》,"面向服务器的芯片昇腾(Ascend)910采用7nm制程,而设计功耗为310W,其算力比英伟达TeslaV100还要高出一倍,半精度(FP16)达到了256TeraFLOPS(英伟达TeslaV100为125),整数精度算力(INT8)则为512TeraOPS。此外,华为表示,昇腾910达到图11:华为达芬奇架构示意图,可推测与谷歌脉动阵列TPU有相似之处我们认为,华为昇腾可能与谷歌TPU有类似之处。整体来看,两个缓冲BufferLOA和LOB作为输入,应该是其中一个暂存的是输入变量,另一个暂存的是权重weight。推测红色的Cube模块,应该是类似谷歌TPU脉动阵列的结构,即是一个矩阵乘法累加阵列,计算结果输出存放在另外一个缓冲bufferLOC。VectorUnit,类似一个DSP(数字信号处理器)。这一点应当是区别于TPU的设计,在不增加成本的情况下,尽量增加功能灵活性。我们预计,系统从缓冲bufferLOC中取得乘累加计算结果,然后进行池化pooling/padding、激活、加法等处理。如果还没得到最终结果,就暂时返回存储在bufferLOC。如果得到了最终结果,就传递给UnifiedBuffer。2.4异同根据上述特斯拉Dojo、英伟达GPU、谷歌TPU、华为达芬奇及昇腾的设计:1)都把扩展性放在重要位置。2)都在持续增加AI甚至大模型下特殊操作的支持。例如数据精度TF32/BF16/CFP8(下文有论述),例如矩阵乘法(代替向量乘法),例如Transformer的支持。8是是否否否是是是否否否否是是是是否否否是是是是否否否是是是是否是是是否是否否否否否否否否否否否否TensorCore英伟达伏特Volta否否否是是是否否否TensorCore英伟达图灵TuringTensorCore英伟达安培A100TensorCore英伟达赫伯H100是是是是是是是是是谷歌TPU(V1到V4持续拓展)是一方面,TPU第一版发布于2015-2016年,那么芯片立项大约为2013年。英伟达Pascal架构发布于2016年,特斯拉Dojo发布于2020年。发布前芯片/软件/AI的工业Inference)Transformer28%57%(BERT)(28%)(26%)再例如,谷歌TPU和英伟达伏特(Volta)后的架构都支持张量计算,即直接矩阵乘法,之前流行的操作是“向量乘法”。英伟达Volta架构计算此类计算速度达到12倍,称为第—代TensorCore图13:谷歌TPU对矩阵乘积的支持图14:英伟达TensorCore对矩阵乘法的支持。之再例如,英伟达从安培(Ampere)架构开始支持对稀疏矩阵(SparseMatrix)的支持。其可以充分利用网络权值下的细粒度稀疏优势。相较于稠密数学计算(densemath),最大吞吐量提高了2倍,而且不会牺牲深度学习的矩阵乘法累加任务的精度。测试表明,这种稀疏方法在许多AI任务(包括图像分类、对象检测和语言翻译)中使用,都能保持与使用稠密数学计算相同的精度。该方法还已在卷积神经网络和递归神经网络以及基于注意力机制的transformer上进行了测试。这种稀疏化支持的趋势也得到了谷歌等巨头的印证。稀疏化计算是指在机器学习和深度学习中,对于高维特征向量进行数据压缩和降维处理的一种技术。稀疏化计算可以大幅度减少原始特征空间的维度,从而提高模型的运算效率。2022年6月,谷歌带来最3)TPUV4的内存带宽为1200GB/s,Slice内的片间互连(ICI)通过六个50GB/s链(bank)ConcatUnit(16tiles).请务必仔细阅读正文之后的各项信息披露与声明第21页共29页简单金融成就梦想算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的每个SM的计算核心从128CudaCores优化到64CudaCores。2)英伟达GPU架构从伏特到赫伯是类似的。TensorCore成为核心,但单SM的核心数量从8个下降到4个。只是上述核心数的优化,背后是适配AI场景/新数据精度/2)芯片层面,高速c2c连接方案(如NVLink、CXL等)的推广,是宏观设备/数据3)设备层面,单SoC性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提升;而Nvidia、Google、AMD、AWS等算力大厂InfiniBandOCS1最小计算单元是D1ComputeDie(可对标单个GPUTSMC7nm工艺645mm^2;354个Trainingnodes(训练节点,可大致类比为GPU核心,实际有区别),片上内存SRAM共440MB;算力性能362TFlopsBF16/CFP8,22TFlopsFP32@2GHz),25个D1芯片以5×5矩形阵列的形状通过40个I/ODie相互连接组成一个TrainingTile。2)每个TrainingTile拥有10TBps的内部双向带宽,及36TBps的对外总带宽(43)此外每6个Tile搭配了20张V1DojoInterfaceProcessor(DIP),用于内存扩Tile对应20个DIP卡、每个DIP卡又对应了1个50GBps接口(也就是400Gb的网络接口),即每6个Tile对应了20个400Gb接口,以及总共32×20=640GB的HBMDIP部署在6个Tile组成的阵列的边缘(20个DIP分为4组,每组5个DIP),其3)2个SystemTray组成1个机柜,177个机柜(折合53100个D1Die)组成1个基础的BasePOD;20个BasePOD(折合3540个机柜,或者1062000个D1Die)则图23:每2个Tray构成1个机柜,进而按不同规模组成POD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论