版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
算力网络再讨论!从Dojo架构到算法的硬件延伸——AIGC系列之二十三证券分析师:李国盛A0230521080003ligs@杨海晏A0230518070003黄忠煌A0230519110001林起贤A0230519060002刘洋A0230513050006刘菁菁A0230522080003王珂A0230521120002戴文杰A0230522100006联系人:李国盛ligs@《•与软件和应用层面脱钩。算力网络主线新一阶段的重要机会,应核心关注海外爆款应用或模型侧重大更新(Tesla商400G全光网推进建设、本土模型训练组网等加速,国内市场的高速网络需求AI服务器计算环节、华为产业链以及特斯拉与智能车产业链相关标的应重点关•1)带宽与连接架构是决定算力性能的因素;2)芯片层面的高速chip-to-chip连接方案是高速网络、光通信需求与当前AI算力算法领域其他巨头不同,Tesla的AI方案根植于其能源/车/具身智能等垂直场景,具有独特性和难复•市场对国内算力网络的需求有预期差。我们基的NVLink延伸至设备间互联;Dojo是2Dmesh到3D组网,解决数据存取瓶颈;TPU则明显从算法到硬件矩阵•GPU/DSA、智联汽车、机器人领域一向的风险依然是研究竞争、产业链地位与管理。若难以相对准确地把握,可34.结论、相关标的与风险提示《•2020.08:马斯克推特表示•2023.06:Dojo初步应用输出;官宣23年7月正式推出exaPOD,特斯拉将会在2024年1月前拥有全球top5算力、2024年10月100exaFLOPs算力;2)芯片层面的高速chip-to-chip连接方1.1Dojo:第一性原理是数据存取):1.1Dojo:第一性原理是数据存取););T液冷模组1.1Dojo:第一性原理是数据存取液冷模组核心算力单元18000Amps电源管理资料来源:Tesla,HotChips,《•DIP部署在6个Tile组成的阵列的边缘部以太网交换机连接其他的DIP。资料来源:Tesla,HotChips,《•TeslaTransportProtocol(TTP,类似地可以对应于CXL、NVLink等TTP带宽达到900GBps);•也就是说:每6个Tile对应20个DIP卡、每个DIP卡又对应了1个50GBps接口(也就是400Gb的网络6个Tile、20个DIP等组成一个Tray单《资料来源:TeslaAIDay视频,申万宏源研究1.2网络架构,视角从2D到3D 以及CPU为核心的Host组成1个机柜(最小的集群单元)。Tile通过搭配的DIP和TTPoE对外形成因此每机柜对外的400Gb连接数量为1)1个Dojo机柜:机柜侧的400Gb模块数量为40个,交换机侧配对40个那么Dojo机柜侧的400Gb模块数量为10×40=400个,机柜到L1交换机之间的模块数量是400×2=800•(但由于D1不能等效为GPU的核心,且华为昇腾/英伟达H100/谷歌TPU与特斯拉Dojo的设计思想迥异。这仅证明训练芯片越来越多样化/延展化/适配更多的AI场景,实际上对网络的重视整体利好光模块投入)3)另外Host系统预计也需要若干光模块,通过DojoNetworkInterfaceCard和TTPoE协议进行Host(CPUDRAM)Host(CPUDRAM)Tile900GB/s50GB/s(400Gb/s)Host(CPUDRAM)Host(CPUDRAM)Cabinet101.2网络架构,视角从2D到3DHost(CPUDRAM)Host(CPUDRAM)Tile900GB/s50GB/s(400Gb/s)Host(CPUDRAM)Host(CPUDRAM)Cabinet10Dojo的物理架构,实际上是均一化的算力单元组成的“Seaofnodes”Host(CPUDRAM)Host(CPUDRAM)Cabinet01Host(CPUDRAM)Host(CPUDRAM)Host(CPUDRAM)9TB/s9TB/sHost(CPUDRAM)Host(CPUDRAM)Host(CPUDRAM)资料来源:申万宏源研究SwitchSwitch1.2网络架构,视角从2D到3DSwitchSwitch外部交换机和Host系统辅助数据Ingest和Memory,必要时形成全局3D网络HostSystem(CPUDRAM)资料来源:申万宏源研究《资料来源:HotChips,申万宏源研究注:横轴单位是路径相对长度,纵轴单位是资源利用水平。聚焦在同步(synchronization)、AllRed•Dojo系统的多数数据处理可以在Tile或数个Tiles的层级上完成,因此主要的数据传输通过相邻D1 •而在数据传输路径太长时(例如横跨两个机柜则可以通过外部TTPoE平衡时延和带宽。4.结论、相关标的与风险提示《与当前AI算力算法领域其他巨头不同,Tesla的AI方案根植于其能源/车/具身智能等垂性和难复制性。理由如下:•Tesla场景的独特性也是研发Dojo这款DSA的客观条件(例如公司存量算力资源的较大比例分配于Autolabeling、Occupancynet•Tesla的云与数据中心场景并非业务重心,智能终端才是,因而复杂的大集群并非其算力方案最优解;优化与资源调配的灵活度。•不同处理器的设计架构一般“向后兼容”。英伟达的Hopper(当前H100,H800)仍然与费米架构有亦设计用于大型数据中心。布于2016年;特斯拉Dojo发布于2020年。《我们认为,Dojo最鲜明的设计语言是:标准化、分布式、指向性(专用性)强。极简设计,上文我们提到,Dojo的第一性•片内无HBM;片内SRAM大小类似L2•此外标准化的IC成本也更低,例如•而对比同等功耗/算力水平的方案(例如NvidiaA100微观层面上:首相似之处是都追求更高的互联带宽/更优的时延,提升矩阵乘的性能等,也是行业趋势——网络和算力性能要同步提升。2.1硬件架构,服从于算法设计2010年以来英伟达GPU主要架构可以推测行业趋势:注重互联,对AI支持与时俱进(从CudaCore到TensorCore,增加对INT/BF16等持),注重带宽和扩展性而非核心数量等 SM单元精简(192到128)4TensorCores注2:Nvidia的SM:streamingmultiprocessor。SP(streamingprocessor)是其最基本的处理单元注3:NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。其采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU注4:SFU,特殊函数单元,Specialfuncti注6:SMX,可以理解为大号的SM。Kepler中每个SMX单元中的Register较Fermi的SM单元放大一倍注7:浮点精度对应不同AI训练要点。如安培架构对稀疏矩阵支持利于CV分割、对象检测、通信编码等。训练/推理任务常用FP16/BF16/TF32/INT8资料来源:Nvidia官方网站,NvidiaA100datasheet等,申万宏源研究2.2Dojo的资源池“可编程”•Tesla的训练数据通常是视频,数据加载/视频处理的难度高,不同模型对计算/存储/带宽的要•传统的GPU服务器,最小算力单元的“颗粒度”太高,而“1机8卡”的主流结构使得算力资源的灵活调配存在局限性;而Dojo系统类似“俄罗斯方块”,每个Die、Tile标准化程度高,且“无缝”高资料来源:Tesla,申万宏源研究资料来源:申万宏源研究《谷歌TPU通过脉动网络增强矩阵乘法,解决算力和I/O的瓶颈;其TPU架构也是矩阵乘法优化的体现 SupportforEmbeddings,申万宏源研究资料来源:申万宏源研究2.3提升性能的思路众多,大厂各有异同如果把模型训练类比为一个庞大的流程工业企业,其中有数以万计的车间(处理单元)负责不同工间中有众多工人(计算核心每个车间都有专属的仓库(SRAM)短暂地贮存了不同规模的原材料或半成品(参数、模型、数据等同时工厂层级也有仓库(DRAM)和生产集控中心(Hostsystem)。第1阶段第1阶段第1阶段第1阶段第2阶段第2阶段第2阶段第2阶段第3阶段第3阶段第3阶段第3阶段……2.3提升性能的思路众多,大厂各有异同由于Dojo系统中的每个芯片都可以和相邻芯片进行交互,片上SRAM灵活且相邻单元的片间带宽与时延思路二(Dojo不同车间(D1)相互连通,集控中心(Host)通过几个特定节点(DIP)将材料和生产工具分发至各个车间,车间1的半成品即时流转到下一个车间2进行接下来工序的生产……不“流水线”式的处理流程,在特定规模的任务第1阶段第1阶段第2阶段第3阶段第2阶段第3阶段………………第1阶段第2阶段第3阶段……第1阶段第2阶段第3阶段……视频数据输入(包括加载、解码、增强、矫正、GroundTruth等在内的需求非常多样训练后控制输出。Dojo的分布式流程更切合以上需求。资料来源:申万宏源研究资料来源:HotChips,申万宏源研究资料来源:Nvidia,申万宏源研究《资料来源:Nvidia,申万宏源研究此外,Dojo的CFP精度创新,体现了视觉为主的场景下对精度与速度的取舍。当前常见的AI数据精度例如FP8、FP16、延展性/并发性。•数据精度的要素包括正负号、尾数、指数(科学计数法)等,不同的尾数精准度和指数范围组成了数据的不同精度,同时在矩阵运算时也占用了不同的算力资源。•不同的应用场景,对精度要求差异巨大。例如谷歌通过舍弃FP32部分尾数的方式(软件方式)在TPUv3一代引入BFP16,兼顾了精确度和计算速度。CFP8和CFP16两种可配置精度。在数据的处理,CFP16在很多情况下也可以替代FP32。通过引入一段可以调整的Bias(硬件方式Dojo 的性能得到极大释放。244.结论、相关标的与风险提示3.1谷歌TPU:迭代至v4,ASIC3D组网适配AI需求谷歌自研TPU可追溯至2014年;据谷MachineLearningwithHardwareSupportf案。据历代发布数据:•TPUv1主要用于推理场景,单向架构,发布于2015年;ICILink做芯片互联、分别496Gbps带宽(类似NVLink发布于2017年;资料来源:Google,申万宏源研究25(128个业务端口+8个测试维护端口因此上述48台交换机可用于连接64个block(每个block有64个芯片)(128个业务端口+8个测试维护端口因此上述48台交换机可用于连接64个block(每个block有64个芯片)中的48对光连接。•一个TPUv4板卡有4个芯片,一个TPUv4Pod由4096个芯片(1024个板卡)组成。•一个4x4x4的block有64个芯片(16个板卡,右下图示每个block有6个面(正立方体的6个),相对面的link连接同一台交换机,因此64个芯片的光连接有96/2=48对,对应48台交换机。不同于过去的平面组网,TPUv4组网方式是“3D立方体”组网不同于过去的平面组网,TPUv4组网方式是“3D立方体”组网资料来源:Google,申万宏源研究26资料来源:Google,申万宏源研究273.1谷歌TPU:迭代至v4,ASIC3D组网适配AI需求作用,负责Chip-to-chip互联以及板间互联。•在TPUv4一代,每个芯片对应6路ICILinks,每一路448Gbps带宽,其中2路用于板卡上4个芯片的互联,另外4路则用于对外的3D组网。柜,每个机柜有16组服务器(板卡对应16×4=64个间的互联使用无源铜缆连接;柜、以及光纤与光模块、液冷模块,共同组成了 与网络同行_________ 与网络同行_________MEMS阵列结合光环路器、波分复用光模块实谷歌OCS方案通过MEMS阵列调整光路,灵活配置AI算力资料来源:Google,申万宏源研究28谷歌OCS方案仍然依赖光模块产生光信号、借助光纤进行信 资料来源:Google,申万宏源研究成本、功耗、频谱效率、可扩展性等因素平衡,通信环节需求进一步提升。•与PSM解决方案相比,WDM光学技术最大限度地提高了OCS端口的效率和使用率,单模是OCS技术的兼容性和扩展性所需要的。•此外,光环路器(circulators)被耦合到光模块上,以实现单模双向链路传输,从而为每根光纤和器和光纤组件在很大程度上与数据速率无关,可以用于多代网络和不同速度的互连。而波分复用的单模光模块正在从800G向1.6T演进。谷歌单模WDM光模块迭代路径,当前恰好是800G节点,预计很快导入1.6T迭代至1.6T以上,光通信领域技谷歌单模WDM光模块迭代路径,当前恰好是800G节点,预计很快导入1.6T白皮书,使用单模技术来实现800G-SR8场景(60~100m)互连开始具资料来源:Google,申万宏源研究3020222020图像生成20222020图像生成•星河AI网络方案的亮点体现在(华为公开披露):络实现2250节点(18000张卡)超大规模);AI网络需适应大模型的多模态趋势多模态阶段2023大模型阶段20202021多模态阶段2023大模型阶段2020文字生成资料来源:华为星河AI网络白皮书,申万宏源研究但并不意味着网络需求萎缩;原因是高性价比的RoCE本身也是RMDA网络(内存远程直接访问,也是InfiniBand的基础更利于主流交换机厂商的放量。无需操作系统内核的介入(相比于传统TCP/IP尤其的连接需求。英伟达解决集群性能瓶颈的方式是引入InfiniBand网络,并将C2C场景下应用的NVLink延伸至设备间互联。而未来“普适化”的RoCE网络也是资料来源:华为,申万宏源研究•例如,据紫光股份公众号:“最新发布的析性能3倍提升……网络联接部分,同时支持三400GRoCE解决方案经实际部署和第三方持高效率的AIGC计算的连接。”运营商400G全光网推进建设、本土模型训练组网334.结论、相关标的与风险提示《结论以及国内新一轮的模型与应用开发。我们判断,随着我们认为,硬件架构服从于算法设计。与当前AI算力算法领域其他巨头不同(二)市场对国内算力网络的需求有预期差。网,解决数据存取瓶颈;TPU则明显从算法到硬件矩阵化。结合本土产业实际,未来“普适化”的RoCE等网络以及400G以上速率的光通信是重要方向。资料来源:Tesla,HotChips,申万宏《算力网络与流量环节:中际旭创、新易盛、天孚通信、华工科技、中兴通讯、紫光股份、锐捷网络、源杰科技、盛科通信等。AI服务器计算环节:关注浪潮信息、胜宏科技华为产业链:关注软通动力(大模型+OS+数据库)、华大九天(tmt,EDA)、长电科技(电子,封测)、润达医疗(医疗AI)、赛意信息(MetaERP)、中软国际、广电运通、神州数码等;特斯拉与智能车产业链:关注德赛西威、立讯精密(电子)、双环传动(机械&汽车)、精锻科技、爱柯迪、岱美股份等。GPU/DSA、智联汽车、机器人领域一向的风险依然是研究竞争、产业链地位与管理。若难以相对准确地相关公司估值表预测净利润预测净利润证券简称证券简称中国电信宝信软件紫光股份亿联网络星网锐捷华工科技中际旭创新易盛锐捷网络中国联通收盘价(元)收盘价(元)000938.SZ300628.SZ002396.SZ000988.SZ300308.SZ300502.SZ301165.SZ479.74资料来源:Wind,申万宏源研究注:紫光股份、星网锐捷、中际旭创、新易盛、锐捷网络、中国联通净利润取Wind一致信息披露本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过compliance@索取有关披露资料或登录信息披露栏目查询从业人员资质情况、陈idan证券的投资评级:以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(Buy)增持(Outperform)中性(Neutral)减持(Underperform)行业的投资评级::相对强于市场表现20%以上;:相对强于市场表现520%;:相对市场表现在-5%~+5%之间波动;:相对弱于市场表现5%以下。以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight)中性(Neutral)看淡(Underweight)本报告采用的基准指数证券的投资评级::行业超越整体市场表现;:行业与整体市场表现基本持平;:行业弱于整体市场表现。:沪深300指数以报告日后的6个月内,证券相对于市场基准指数的涨跌幅为标准,定义如下:买入(BUY):增持(Outperform)持有(Hold)减持(Underperform)卖出(SELL)行业的投资评级::股价预计将上涨20%以上;:股价预计将上涨10-20%;:股价变动幅度预计在-10%和+10%之间;:股价预计将下跌10-20%;:股价预计将下跌20%以上。以报告日后的6个月内,行业相对于市场基准指数的涨跌幅为标准,定义如下:看好(Overweight)中性(Neutral)看淡(Underweight)本报告采用的基准指数:行业超越整体市场表现;:行业与整体市场表现基本持平;:行业弱于整体市场表现。:恒生中国企业指数(HSCEI)我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系,如果您对我们的行业分类有兴趣,可以向我们的销售员索取。本报告由上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司,以下简称“本公司”)在中华人民共和国内地(香港、澳门、台湾除外)发布,仅供本公司的客户(包括合格的境外机构投资者等合法合规的客户)使用。本公司不会因接收人收到本报告而视其为客户。有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《情侣恋爱合同协议书 范本完整版》
- 公司项目保密协议书2篇
- 二零二四年度电商产业园知识产权保护协议3篇
- 电信外包工合同
- 大学岗位聘用合同(2篇)
- 合作社成员入股合同(2篇)
- 购销合同违约金责任与损害赔偿
- 贷款合同签订流程
- 政府采购合同的合同解除
- 铁矿粉批发协议
- 校长的课程与学校教学领导力课件
- 加强工程分包管控,提高企业管理水平
- 48个英语音标课件共48张PPT.ppt
- 工业大类由39个变更为41个
- 三年级上册科学素材-复习资料青岛版(六年制)(2019新版)
- 海拔高度与气压、空气密度、重力加速度对照表
- 广西壮族自治区药用植物简介
- 12细胞周期(cellcycles)
- 发明实用新型专利申报技术交底书
- 《气管插管术》PPT课件课件
- 产品试用申请表格
评论
0/150
提交评论