电子设备-电子“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图_第1页
电子设备-电子“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图_第2页
电子设备-电子“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图_第3页
电子设备-电子“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图_第4页
电子设备-电子“AI的裂变时刻”系列报告10:HBM何以成为AI芯片核心升级点?全面理解AI存储路线图_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

/HBM何以成为AI芯片核心升级点?全面理解AI存储路线图请注意,耿正,栾玉民并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。核心观点:如何理解内存系统层级及关键参数?对于单个乃至多个处理器组成的系统而言,内存系统自下而上可以分为单性能存储系统之间的高效、高速、低延时接口风险提示。半导体行业周期性波动风险;人工智能行业发展不及预期风险;新技术进展不及预期风险。报告日期合理价值(元/股)688008.SH688123.SH603986.SH688110.SH600584.SH300476.SZ (一)理解内存系统的层级:从存储单元到内存系统 (一)行业周期波动风险 表2:DDR、LPDDR、GDDR、HBM3E 表5:GeForce4090、H100、B200 一、AI存储路线图:更大容量、更大带宽、更低功耗大模型规模指数级增长,内存带宽和容量需求激增。大模型的参数指数级增长,不一方面,大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升HPC系统计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃至更大规模的大模型。在2026年数据传输速率达到36GT/量超过256GB且数据传输速率为12800MT/s的MRDIMM。对于需要进一后的CXL3.x标准扩展模块带宽超过72GB/s,容量超过256GB。对于低功耗应用,业界将继续使用LPDDR。根据美光的路线9600MT/s数据传输速率的LPDDR5X标准将继续使用一段时间。同时,美光将从2025年开始提供LPCAMM2模组,随后从2026年年中开始提供LPDDR5X-9600本文旨在梳理DDR、LPDDR、GDDR及HBM四类DRAM标准的区别和联系,探讨HPC系统内存设计的内在逻辑,以理解在AI大模型时代,DRAM从芯片到系统层面理器运算和处理的数据。JEDEC定义并开发了标准DDR、移动DDR和图形类别都提供独特的架构功能,旨在最好地满足目标应用程序的要求。宽的通道宽度、更高的密度和不同的形状尺寸;移动DDR使用LPDDR标准,面向移动和汽车这些对规格和功耗非常敏感的领域,提供更窄的通道宽度和多种低功耗应用场景和与之相应的内存系统设计也走向多样化。HBM正在以其高带宽、高密度表1:部分主流服务器处理器内存方案X86\\\\推理\\\\\\\\\\\二、如何理解内存系统层级及关键参数?对于单个乃至多个处理器组成的系统而言,内存系统自下而上封装则一般包括1-2个die。封装好的LPDDR芯片和GDDR芯片直接安装在主板PCBHBM则采用独特的垂直堆叠封装方式,同一封装内的多的TSV(ThroughSiliconVia,硅通孔)互连。封的中介层(Interposer)与处理器通信,其带绝大多数CPU和GPU均配备多个DRAM芯片/DIMM组成的内存系统计和应用的不同,所配置的内存类型、规格选择和配置数量也有所不同,需要和处理器总线宽度、时钟频率等参数相匹配。内存种类、规格和数量的选择直接决定了表2:DDR、LPDDR、GDDR、HBM3E封装形式对比1适的内存系统设计。本章旨在厘清主流DRAM标准中如何理解及计算内容容量和带内存带宽=处理器内存接口总位宽×每秒数据传输次数所不同,但是计算带宽的基本方法是相同的。此外,计算时还需要注意CPU通常搭配DDR或者LPDDR作为内存,GPU搭配GDDR或者HGPU具有比CPU更多的内核,更适合处理并行任务,因此GPU的相比于带宽,内存容量的计算更加直观。对于单个处理器来说,内存总容量(GB)=处理器配置的内存芯片或模组数量并不能随意增加,而受到处理器内存接口和系统 高的数据传输速度,因此图形处理和AI训练等数据密集场景更使用DDR内存,以利用其较低的延迟。三、DDR+LPDDR路线图:面向CPU,构建大能效内存池(一)DDR5带宽和容量提升显著,LPDDRRambus将DDR5相比DDR4的进步总结为七大技术构、通道架构、突发长度、容量密度及智能性。数据传输速率(GT/s)理备,很少出现在服务器中。但是英伟达在GraceCPU选择了LPDDR5X作为内存方每GB成本是DDR5或LPDDR5X的3倍以上。此外,HBM的密度和CoWoS封装的尺我们以NvidiaDGXH100服务器和GH200超级芯片为例分析数据中心CPU的系统。DGXH100系统包括2个8通道Int32个DDR5DIMM,每个DIMM容量为64GB,GraceCPU,8块LPDDR5XDIMM设计占用了很大的服务器内部空间。而LPDDR具有8每通道位宽进,制造成本的增加、邻近效应和存储节点泄漏等问题开始限制DRAM性能的进一多路合并阵列双列直插内存模组)与MRDIMM架构类似,由SKHynix、Intel和Renesas合作开发,利用MCR技术安装在MCRDIMM上的数据缓冲区实现了两个Rank同时运行,MCRDIMM允许一次向CPU传输128字节的数据,而传统DRAM模的第一代产品,MRDIMM(Multi-RankedBufferedDI是一种高带宽的内存模组,通过MDB芯片可以同时访问两个DRAM内存阵列图心备、设备和设备之间的内存存在鸿沟,特别是服务器巨大的内存池和加速器设备之Link)是一种高速互连技术,旨在提供处理器与专用加速器、高性能存储系统之间的高效、高速、低延时接口,以满足资源共享、内存池化和高效运算调度的需求。得CXL3.0设备之间可以构建网络而不局限于CXL2.0的树状结构。络势成为AI大模型训练推理关键此Nvidia在推理产品线L40、L40S、L20等产品中使用GDDR,以获得我们以NvidiaRTX4090、H100、H200为例分析GPU中GDDR、HBM不同标准和代际之间的性能差异。RTX4090配备12颗共24GBGDDR6X,总带宽为高位宽是HBM的核心优势。HBM的高带备HBM3的H100带宽远高于使用GDDR的4090。HBM代际间升级主要体现在数据速率和容量密度。H200配备的HBM3E的位宽仍然表5:GeForce4090、H100、B200显存系数据速率(Gbps)1882单封装容量密度(GB)256显存总线位宽(bit)1了显著的提升。容量的提升主要得益于单个die容量密度的提升和堆叠层数的提升。数据来源:SKHynixonGTC2024,广发证券发展研究中心内存路线图,美光预计将在2026年至2027年间推出容量为36GB至48GB的12层和容量增加到48GB至64GB。五、风险提示(一)行业周期波动风险影响。若市场

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论