




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024年存储芯片航天专题分析:HBM何以成为AI芯片核心升级点_全面理解AI存储路线图一、AI存储路线图:更大容量、更大带宽、更低功耗大模型规模指数级增长,内存带宽和容量需求激增。大模型的参数指数级增长,不仅推升了处理器的算力需求,同时也对与处理器匹配的内存系统提出了更高的要求。一方面,大量模型数据的传输要求更大的内存带宽,以缓解“内存墙”问题,提升HPC系统计算效率;另一方面,内存系统的容量需要大幅拓展,以存储千亿参数乃至更大规模的大模型。根据美光发布的AI内存路线图,AI内存的发展方向主要为带宽、容量、功耗和低碳四个方向。高带宽应用方面,HBM是目前带宽最高的内存标准,12-16层HBM4预计将于2026年推出,将每个堆栈的带宽提高至1.4TB/s以上,容量提升至36-48GB。HBM4E预计将于2028年推出。GDDR作为性价比较高的选项应用于推理、图形等领域,数据传输速率为32GT/s,容量为16-24Gb的GDDR7预计于2024年底推出,并在2026年数据传输速率达到36GT/s。大容量应用方面,为了同步提升容量和性能,美光预计将在2025年提供数据传输速率为8800MT/s的128GB–256GBMCRDIMM模块,然后在2026年或2027年提供容量超过256GB且数据传输速率为12800MT/s的MRDIMM。对于需要进一步扩展内存的设备,CXL2.0扩展模块具有128GB–256GB的容量和高达36GB/s的带宽。随后的CXL3.x标准扩展模块带宽超过72GB/s,容量超过256GB。对于低功耗应用,业界将继续使用LPDDR。根据美光的路线图,具有8533MT/s或9600MT/s数据传输速率的LPDDR5X标准将继续使用一段时间。同时,美光将从2025年开始提供LPCAMM2模组,随后从2026年年中开始提供LPDDR5X-9600LPCAMM模组。本文旨在梳理DDR、LPDDR、GDDR及HBM四类DRAM标准的区别和联系,探讨HPC系统内存设计的内在逻辑,以理解在AI大模型时代,DRAM从芯片到系统层面的发展方向。动态随机存取存储器(DynamicRandomAccessMemory,简称DRAM)在现代计算机、服务器、智能手机和游戏机等各种应用设备中作为主存储器,负责存储处理器运算和处理的数据。JEDEC定义并开发了标准DDR、移动DDR和图形DDR三种DRAM标准类别。三类DDR标准存储数据使用的底层DRAM单元相同,但是每个类别都提供独特的架构功能,旨在最好地满足目标应用程序的要求。标准DDR面向服务器、云计算、网络、笔记本电脑、台式机和消费类应用,支持更宽的通道宽度、更高的密度和不同的形状尺寸;移动DDR使用LPDDR标准,面向移动和汽车这些对规格和功耗非常敏感的领域,提供更窄的通道宽度和多种低功耗运行状态;图形DDR分为GDDR和HBM两类标准,面向需要极高吞吐量的数据密集型应用,例如图形相关应用程序、数据中心加速和AI。应用场景的需求决定内存的选择和升级方向。内存系统是HPC系统最重要的子系统之一。在设计处理器的内存配置时,需要在容量、带宽、延迟、能耗和性价比中做适当的权衡,以匹配处理器芯片的性能和用途。随着AIHPC的持续发展,AI处理器的应用场景和与之相应的内存系统设计也走向多样化。HBM正在以其高带宽、高密度优势成为当前高端AI训练芯片的首选方案,同时DDR、LPDDR、GDDR也有各自的难以替代的应用场景及AI需求下的升级方向。二、如何理解内存系统层级及关键参数?(一)理解内存系统的层级:从存储单元到内存系统对于单个乃至多个处理器组成的系统而言,内存系统自下而上可以分为单元、阵列、die、封装、系统几个层级。从单元到DRAMDie:DRAM的最底层结构是存储单元,每个单元代表1bit数据,由一个存储电荷的电容器和一个负责开关的晶体管组成,即1T1C结构。大量的1T1C单元排列自下而上组成按行(row)和列(column)排列的库(bank)。单个DRAMdie往往包括多个bank。从封装到内存系统:DRAMdie经过后道工艺,制作成封装好的存储芯片。不同的DRAM标准下封装形式各有不同。LPDDR封装内往往包括多个DRAMdie,GDDR封装则一般包括1-2个die。封装好的LPDDR芯片和GDDR芯片直接安装在主板PCB上,通过PCB和处理器通信,某些用于小型系统的DDR芯片也采取这种方式。不同于LPDDR和GDDR,绝大部分DDR内存通过DIMM(Duallinememorymodule,双列直插式内存模块)的形式组织,封装好的DRAM芯片被安装在一个小型PCB电路板上,即DIMM模块,可以直接插入主板上的DIMM插槽,再通过主板PCB和处理器通信。HBM则采用独特的垂直堆叠封装方式,同一封装内的多个die垂直堆叠并通过垂直的TSV(ThroughSiliconVia,硅通孔)互连。封装好的HBM通过CoWoS技术中的中介层(Interposer)与处理器通信,其带宽大大高于其他DRAM类型。绝大多数CPU和GPU均配备多个DRAM芯片/DIMM组成的内存系统。根据处理器设计和应用的不同,所配置的内存类型、规格选择和配置数量也有所不同,需要和处理器总线宽度、时钟频率等参数相匹配。内存种类、规格和数量的选择直接决定了内存系统的总容量和总带宽。(二)理解内存的关键参数:带宽、容量和延迟内存最重要的性能参数是容量、带宽和延迟,同时还需要考虑能耗和性价比。不同类型的DRAM各有优势,在设计处理器系统架构的时候需要针对不同的应用,选择合适的内存系统设计。本章旨在厘清主流DRAM标准中如何理解及计算内容容量和带宽等关键参数,以在后文进一步理解AI处理器设计中的内存选择和演进方向。1.带宽内存带宽是处理器可以从内存中读取数据或将数据存储到内存中的速率,用于衡量内存的吞吐量,以GB/s为单位。对于单个处理器来说,计算其内存带宽的基本公式为:内存带宽=处理器内存接口总位宽×每秒数据传输次数对于不同类型的处理器,所使用的内存类型、相应的参数标注方式和使用的单位有所不同,但是计算带宽的基本方法是相同的。此外,计算时还需要注意数据单位之间的换算(1Byte=8bit)CPU通常搭配DDR或者LPDDR作为内存,GPU搭配GDDR或者HBM作为内存。消费级CPU内存接口一般是单通道或双通道,服务器CPU则可以为4通道或8通道。GPU具有比CPU更多的内核,更适合处理并行任务,因此GPU的内存接口设计一般支持更多的内存传输通道,具有更高的总位宽和带宽。2.容量相比于带宽,内存容量的计算更加直观。对于单个处理器来说,内存总容量(GB)=单封装容量密度(GB/DIMM数或颗粒数)×DIMM数或颗粒数,需要注意的是,每个处理器配置的内存芯片或模组数量并不能随意增加,而受到处理器内存接口和系统物理规格限制。JEDEC规范中,每种容量密度的DRAMdie可以设计为不同的位宽,从而在内存接口总线位宽一定的情况下组成不同容量的内存系统。一般来说,CPU可配置的最大内存容量由CPU内存通道数、适用的内存标准、每个DIMM中可容纳的DRAMdie数量、每个DRAMdie的容量密度决定。GPU可容纳的最大内存容量由GPU总线带宽、适用的内存标准、封装颗粒的容量密度决定。3.延迟内存延迟是发送数据请求到处理器接收到数据之间的时间,决定了处理器等待数据的时间,单位为时钟周期或纳秒。根据Crucial官网,延迟一般分为CAS、tRCD、tRP、tRAS等几个部分。相比于DDR内存,GDDR内存是为了提高带宽而设计的,牺牲了部分延迟来获得更高的数据传输速度,因此图形处理和AI训练等数据密集场景更倾向于使用GDDR以及带宽更高的HBM。而需要进行大量随机数据访问和处理的应用,则可能更倾向于使用DDR内存,以利用其较低的延迟。三、DDR+LPDDR路线图:面向CPU,构建大容量高能效内存池(一)DDR5带宽和容量提升显著,LPDDR成为数据中心CPU新选择DDR是最传统、最主流的DRAM类型。广泛用于PC、服务器、HPC等领域。目前,DDR5是最新一代DDR标准,提供更高的速度、更高的效率和更大的容量。Rambus将DDR5相比DDR4的进步总结为七大技术指标,包括带宽、能耗、电源架构、通道架构、突发长度、容量密度及智能性。LPDDR成为数据中心CPU的新选择。一般来说,LPDDR用于手机、汽车等移动设备,很少出现在服务器中。但是英伟达在GraceCPU选择了LPDDR5X作为内存方案。根据Nvidia官网,其原因是需要在大规模AI和HPC工作负载的带宽、能效、容量和成本之间取得最佳平衡。虽然HBM能够提供大量内存带宽和良好的能效,但其每GB成本是DDR5或LPDDR5X的3倍以上。此外,HBM的密度和CoWoS封装的尺寸也限制了其最大容量。而与更传统的8通道DDR5设计相比,GraceCPULPDDR5X内存子系统的带宽比DDR5系统高53%,并大大提高了功率效率,每GB只需要八分之一的功率。我们以NvidiaDGXH100服务器和GH200超级芯片为例分析数据中心CPU的内存系统。DGXH100系统包括2个8通道IntelXeonPlatinum8480CCPU,共同控制32个DDR5DIMM,每个DIMM容量为64GB,总内存容量为2TB。对于单个XeonCPU来说,内存容量为1TB,内存带宽为307GB/s。GH200系统包括1个32通道GraceCPU,8块LPDDR5X内存通过PCB围绕在GraceCPU周围。GraceCPU具有32个内存通道,配置最大512GBLPDDR5X,最大带宽为546GB/s。可以看出,DDRDIMM内存设计能够为每个处理器配置更大的容量,但是带宽较低,且DIMM设计占用了很大的服务器内部空间。而LPDDR具有带宽和功耗优势,并且通过PCB直接和处理器相连,大大节省了空间,但是总体容量相对较小。(二)DIMM模组架构创新扩展系统容量及带宽,CXL互连协议构建高效内存池MRDIMM/MCRDIMM通过创新模组架构大幅扩展容量及带宽。随着DRAM技术的演进,制造成本的增加、邻近效应和存储节点泄漏等问题开始限制DRAM性能的进一步提升,DRAM芯片本身的性能提升越来越难,从内存模组层面进行性能提升成为新的方向。根据SKHynix官网,MCRDIMM(MultiplexerCombinedRanksDIMMs,多路合并阵列双列直插内存模组)与MRDIMM架构类似,由SKHynix、Intel和Renesas合作开发,利用MCR技术安装在MCRDIMM上的数据缓冲区实现了两个Rank同时运行,MCRDIMM允许一次向CPU传输128字节的数据,而传统DRAM模块通常为64字节。每次发送到CPU的数据量增加,支持至少8Gbps的数据传输速率,是单个DRAM的两倍。根据澜起科技2023年年报,MCRDIMM也可以视为MRDIMM的第一代产品,MRDIMM(Multi-RankedBufferedDIMMs,多级缓冲内存模组)是一种高带宽的内存模组,通过MDB芯片可以同时访问两个DRAM内存阵列(RDIMM只能访问一个),从而实现双倍的带宽。第一代产品可支持8800MT/s速率。CXL技术推动内存池化,构建高效内存池系统。在传统服务器架构中,CPU和设备、设备和设备之间的内存存在鸿沟,特别是服务器巨大的内存池和加速器设备之间,内存的分割造成了巨大浪费。根据Synopsys官网,CXL(ComputeExpressLink)是一种高速互连技术,旨在提供处理器与专用加速器、高性能存储系统之间的高效、高速、低延时接口,以满足资源共享、内存池化和高效运算调度的需求。CXL3.0作为CXL协议的最新版本,于2022年8月发布,拥有更彻底的内存共享机制以及更灵活的连接结构。基于PCIe6.0,CXL3.0传输速度达64GT/s,Fabric功能使得CXL3.0设备之间可以构建网络而不局限于CXL2.0的树状结构。四、GDDR+HBM路线图:面向GPU,HBM高带宽优势成为AI大模型训练推理关键(一)HBM成为AIHPC首选存储方案,GDDR性价比具备优势GDDR是专为图形处理应用设计的高速内存技术,搭配GPU用于图形处理、数据中心加速和AI等需要高带宽数据处理的场景。HBM相比GDDR具有更高的传输带宽、更高的存储密度、更低的功耗以及更小的尺寸。近年来,大部分高端数据中心GPU和ASIC均使用HBM作为内存方案。虽然相比HBM,GDDR的带宽和容量密度均较低,但每GB单价显著低于HBM,因此Nvidia在推理产品线L40、L40S、L20等产品中使用GDDR,以获得更高的性价比。我们以NvidiaRTX4090、H100、H200为例分析GPU中GDDR、HBM不同标准和代际之间的性能差异。RTX4090配备12颗共24GBGDDR6X,总带宽为1008GB/s。H100配备5颗共80GBHBM3,总带宽为670GB/s,计算得到数据速率约为5.2Gbps。H200配备6颗HBM3E,具有更大的141GB内存容量和4.8TB/s带宽。高位宽是HBM的核心优势。HBM的高带宽主要得益于单个HBM封装具有超宽的1024bit位宽,而每个GDDR封装位宽仅为32bit,因此H100的5颗HBM3的总位宽高达5120bit,远高于409012颗GDDR6X的384bit,在数据速率更低的情况下,配备HBM3的H100带宽远高于使用GDDR的4090。HBM代际间升级主要体现在数据速率和容量密度。H200配备的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年醋酸丁酯合作协议书
- 作文学会观察生活
- 2025年压纸轮项目建议书
- 护士入职工作总结
- 三年级数学计算题专项练习及答案
- 2025年绝缘材料:绝缘套管项目合作计划书
- 陕西航空职业技术学院《跆拳道俱乐部》2023-2024学年第一学期期末试卷
- 陕西西安地区八校2025年高三第一次模拟考试数学试题文试题含解析
- 集美大学诚毅学院《三维CAD》2023-2024学年第二学期期末试卷
- 青岛农业大学《环境工程微生物学(全英文)》2023-2024学年第二学期期末试卷
- 2025年上半年甘肃省农垦集团限责任公司人才招聘380人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年危险化学品企业安全生产执法检查重点事项指导目录
- 中考语文文学批注-病句表达欠妥(含答案)
- 15 一分钟(核心素养公开课一等奖创新教案)
- 2025年河南经贸职业学院单招职业技能测试题库完整
- 2024年中国大唐集团科技创新有限公司招聘考试真题
- 《防护服穿脱流程》课件
- 2025年山东省职教高考(车辆维修专业)综合知识高频必练考试题库400题含答
- 春夏季疾病预防
- 二年级课间安全
- 2024年浙江宇翔职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
评论
0/150
提交评论