“芯”前沿系列:AIGC推动存储架构新变革20230815 中金_第1页
“芯”前沿系列:AIGC推动存储架构新变革20230815 中金_第2页
“芯”前沿系列:AIGC推动存储架构新变革20230815 中金_第3页
“芯”前沿系列:AIGC推动存储架构新变革20230815 中金_第4页
“芯”前沿系列:AIGC推动存储架构新变革20230815 中金_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中金-“芯”前沿系列:AIGC推动存储架构新变革原创唐宗其胡炯益等中金点睛2023-08-1507:45发表于北京中中金研究随着AIGC的快速发展,对上游算力系统的要求不断提升。在传统的冯·诺伊曼架构中由于处理器设计以提升速度为主,而存储器设计更注重容量提升和成本优化,导致“存”“算”之间性能错配,产生了阻碍整个算力系统性能发挥的内存瓶颈。为了克服上述的“内存墙”问题,存算一体、内存池化等技术逐步发展。目前在云端算力芯片中HBM已经得到较为广泛的应用,而存算一体、CXL等技术仍然处于发展初期。我们看到全球巨头三星英特尔等厂商在上述领域均积极布局,有望推动产业链生态的快速演进。摘要有效克服“内存墙”瓶颈,存算一体有望成为AI芯片优选架构之一。存算一体技术将数据存储和计算融合在同一个芯片的同一片区域中,解决了冯·诺伊曼架构存算分离的问题。按照计算方式可以分为数字计算和模拟计算,前者有更高的精度而后者有更低的功耗。我们认为存算一体相对于传统计算架构有望实现更高的能效比,更低的时延,适用于人工智能的较多场景,如穿戴设备、移动终端、智能驾驶等,尤其是对及时交互、功耗等有较高要求的边缘侧及端侧应用。AIGC要求高性能显存,HBM目前是主流方案。HBM相较GDDR能够大幅提高显存带宽,目前HBM2E显存带宽已经达到GDDR6的2-3倍。HBM直击“内存墙”痛点,提高GPU计算性能,搭载于NvidiaA100/H100、AMDMI250等中高端数据中心GPU。我们认为随着全球各大厂商入局AIGC应用,AI服务器的快速放量已较为确定,作为存储器中和高性能计算关联度最高的技术之一,HBM市场规模也有望充分受益并实现高速增长。CXL进一步解决“IO墙”问题,国内外厂商争相布局。CXL是一种全新的互联技术标准,其能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求,并且其维护CPU内存空间和连接设备内存之间的一致性。近年来随着元宇宙、人工智能等应用导致数据量呈现快速增长,我们认为CXL提出的内存池化可以节约数据中心的建设成本,有望通过增加内存、容量和带宽,成为相关应用的重要配合性技术,为服务器市场的增长提供支持。目前CXL联盟扩展出超过165个成员,几乎涵盖了所有主要的CPU、GPU、内存、存储和网络设备制造商。根据美光估计2025年CXL相关产品的市场规模可达到20亿美元。风险AIGC下游应用进展不及预期;AI服务器出货量增长不及预期。正文存算一体有望解决“内存墙”瓶颈有效克服冯·诺伊曼架构瓶颈,AI有望成为新驱动冯·诺伊曼架构以计算为中心,存算性能失配导致“内存墙”问题出现。在传统的冯·诺伊曼架构中,计算和存储分离,即在执行运算时计算单元需要从内存中读取数据,在计算单元中将数据处理完成后再传输回存储器。如今随着数据量越发庞大加之AI芯片的加速发展,冯氏架构的问题也逐渐凸显:由于处理器设计以提升速度为主,存储器设计则更注重容量提升和成本优化,导致“存”“算”同时近年来处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右,逐渐导致内存的存取速度的发展滞后于处理器的计算速度的发展,产生了阻碍处理器性能发挥的内存瓶颈,即“内存墙” (MemoryWall)。“内存墙”的存在使得计算机的计算能力增长遇到瓶颈,虽然多核并行加速技术可以提高算力,但存储带宽的限制仍对计算系统的算力提升产生了制约。图表1:冯·诺依曼架构及异构计算架构示意图资料来源:郭昕婕等《存内计算芯片研究进展及应用》(2023年5月),中金公司研究部图表2:存储及算力发展速度存在较大差异存算一体(ComputinginMemory)将存储与计算融合,有望克服“内存墙”问题。存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。根据存储和计算的距离远近,广义的存算一体技术方案可以分为三大类,分别是近存计算(ProcessingNearMemory,PNM)、存内处emoryCIM)。其中,存内计算即狭义的存算一体。存算一体技术将数据存储和计算融合在同一个芯片的同一片区域中,解决了冯·诺伊曼架构存算分离的问题,可以有效解决“内存墙”问题。►近存计算(PNM)通过芯片封装和板卡组装等方式,将存储单元和计算单元集成。因为近存计算的计算操作仍在存储外部,依靠独立的计算单元完成,所以其本质上仍是存算分离。近存计算主要包括存储上移和计算下移两种方式:1)存储上移:即将存储器向处理器靠近,通过增加计算和存储之间的链路数量,提HBM即将数据处理能力卸载至存储器,由近端处理器进行数据处理,降低远端处理器处理数据时由于数据传输造成的成本,典型的方案为可计算存储(CSD)。图表3:高带宽内存方案图表4:可计算存储方案►存内处理(PIM)是指将存和算集成在同一个晶粒中,使存储器本身具备一定计算能力。当前主流的存内处理的方案大多是在DRAM芯片中实现部分数据处理,方案实质是通过在DRAMDie中内置处理单元,提供大吞吐低延迟的片上处理能力。与近存计算一样,由于存内处理的存储器和处理器仍然是互相独立的元件,因此存内处理严格来讲仍然是存算分离的,目前存内处理典型产品形态有HBM-PIM和PIM-DIMM。图表5:基于DRAM的PIM方案实例►存内计算(CIM)即狭义的存算一体,在芯片中不再区分存储单元和计算单元,实现真正的存算融合。存内运算按照计算方式可以分为数字计算和模拟计算,两者在以下方面存在差异:1)架构特性:数字计算是指在存储器内加入逻辑计算电路,使其具备存储及计算能力,并且可以实现同时激活全部存储器阵列;模拟计算则是将模型权重保持在存储器中,将数据输入存储器内部后通过电流或电压实现模拟乘加计算,再将输出数据通过外设电路实现模数转换。与模拟计算相比,数字计算有更好的工艺和电压扩展性,计算误差更低但同时单位面积的功耗较大。2)存储器件及适用的应用场景:目前可用于存算一体的成熟工艺存储器有和FRAM等。模拟存内计算通常使用FLASH、RRAM、PRAM等非易失性介质作为存储器件,能效高,但误差较大,适用于低精度、低功耗计算场景,如端侧可穿戴设备等。而数字存内运算主要以SRAM和RRAM作为存储器件,采用先进逻辑工艺,具有高性能高精度的优势,适用于高精度、功耗不敏感的计算场景,未来可以应用于云边AI场景。图表6:模拟及数字存内计算芯片架构示意图资料来源:FengbinTu《In-MemoryBoothMultiplicationforCloudDeepLearningAcceleration2),中金公司研究部存算一体技术发展已久,近年由于人工智能需求驱动实现了较快发展。存算一体技术最早可以追溯至1969年,斯坦福研究所的WilliamKautz提出了存算一体的概念。1997年加州大学伯克利分校Patterson等人成功把处理器集成在DRAM内存芯片当中,实现智能存算一体的计算架构。但由于芯片设计复杂及成本较高,同时下游没有相应的大数据需求推动,早期的存算一体仅停留在研究阶段,没有得到实际应用。近年来,半导体制造技术有着较快的发展,加之AI、元宇宙等算力密集应用的崛起,为存算一体技术提供了新的制造平台和产业驱动力。图表8:存算一体发展历程下游应用场景丰富,众多厂商争相布局存算一体技术在人工智能场景中拥有优势,国内外厂商大多有所布局。存算一体适用于人工智能的大部分场景,如穿戴设备、移动终端、智能驾驶和数据中心等,按算力大小划分:1)端侧应用场景:相较于传统解决方案,存算一体可以在单位面积下提供更高的算力并耗费更低的功耗,进而延长设备工作时间,符合端侧设备对于运行时间、功耗、成本等方面的需求,因此存算一体在可穿戴设备、摄像头等端侧应用场景有较大发展空间;2)边侧应用场景:边侧计算场景例如智慧港口、车联网等对于时延和散热要求较高,由于存算一体可以提供较传统方案高数倍的算效比,其可以为边缘AI业务提供服务支持;3)云侧应用场景:云侧应用场景有着大算力、高带宽、低功耗等需求特性,而存算一体相较于传统架构能够更好满足相应需求,有望成为云端应用的优选架构之一。目前各厂商在存算一体的布局方向大致可以分为两类:►由于落地性更强,特斯拉、三星、阿里巴巴等拥有丰富生态的大厂以及英特尔,IBM等传统的芯片大厂几乎都在布局近存计算(PNM)。例如2021年初,三星发布基于HBM的新型内存,里面集成了AI处理器,该处理器可以实现高达1.2TFLOPS的计算能力,新型HBM-PIM芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM,可以减轻在内存和处理器之间搬运数据的负担。三星表示新型HBM-PIM芯片,可以提高2倍的系统性能,同时能耗降低了70%以上;而特斯拉在HotChips大会上公开了Dojo(AI训练计算机)所用的D1芯片由台积电制造,其运行在2GHz,拥有巨大的440MBSRAM,是存算一体架构(近存计算)。►国内新兴AI和存储企业则选择了PIM、CIM等“存”“算”距离更近的存算一体技术路线,其主要分为以云和边缘大算力为主及端侧小算力为主两类,以云和边缘大算力为主的企业有亿铸科技、千芯科技、后摩智能、中科声龙,而以端侧小算力为主的企业有闪易半导体、Mythic、知存科技、九天睿芯、恒烁半导体、苹芯科技等。1)知存科技:2020年推出WTM1001智能语音芯片,使用存算一体芯片架构。2022年3月,知存科技旗下存算一体SoC芯片WTM2101正式投入市场,5月正式出货,该芯片采用Flash工艺,处理AI运算时工作功耗最低50uA,峰值算力下功耗低至5mA,适合可穿戴设备中的智能语音和智能健康服务。2023年,知存科技将对WTM2101芯片应用场景进行拓展,从音频领域向健康设备、医疗设备、工业定位等场景扩散。2)九天睿芯:2020年5月完成设计第一颗感存算一体芯片ADA100,并投片试产。ADA100是一款超低功耗低算力传感器处理芯片,等效算力1Gops,应用于可穿戴/ARVR/AIoT设备如无线智能相机门铃、门锁、86开关等智能家居产品。2021年5月,ADA200核心片回片,ADA200是基于最新感存算一体技术架构实现的模数混合AI视觉芯片,相比传统数字芯片,具备更低功耗,以及超高的能效比。2021年7月以后,ADA100/200全面量产。3)恒烁股份:2019年底成功设计出第一版存算一体AI原理验证芯片恒芯1号,在武汉新芯65nmNORFlash制程上流片成功,同时搭建了一套完整的CiNOR存算一体AI推理系统,可实现人脸检测、手写识别和心电图检查(ECG)等多项的系统验证。2023年7月,恒烁股份表示公司的存算一体AI芯片二代将于23年三季度流片[1]。图表9:国内外代表厂商存算一体进展(截至2023年7月)图表10:特斯拉D1芯片核心架构存算一体现处于发展初期,产业链发展空间广阔。存算一体作为底层技术创新,其需要产业上游的支撑及下游应用的匹配。目前存算一体产业链发展还不够完和仿真验证,同时编译器的支持不足。而从产业链下游来看,存算一体芯片可以应用的市场将会从端侧小算力市场如音频类、健康类及低功耗视觉等逐步扩展到无人车、泛机器人、智能驾驶,云计算等大算力领域。根据量子位预测显示,国内存算一体芯片市场规模在2025年有望达到125亿元。HBM助力云端算力芯片加速AI模型演进高带宽小体积等优势提升数据中心GPU中的渗透比率最早期的显卡采用DDRSDRAM(DDR)作为内存。随着显卡技术的不断发展,传统DDRSDRAM(DDR)逐渐难以满足显卡的使用需求。1998年,Samsung推出DDRSGRAM(GDDR)。GDDR基于DDR而来,但针对显卡应用专门设计了工作频率、时钟频率、电压,一般来说GDDR相较于DDR时钟频率更高,发热量更小,以达到更好的工作性能。GDDR是目前应用较为广泛的显存技术。但随着GPGPU的出现,GPU越来越多地被应用于高性能计算,在AI计算领域GDDR也难堪重任,于是人们将目光投向HBM技术。HBM(highbandwidthmemory)指高带宽内存,本身也是SDRAM芯片,核心思想是通过将多颗相关颗粒堆叠封装来提高带宽。显存的重要性能指标有3个:显存频率(800MHz、1,200MHz、1,600MHz、2,200MHz)、显存位宽(32位、64位、128位、256位、512位、1,024位)、显存带宽(显存带宽=显存频率×显存额位宽/8bit)。通过TSV堆栈的方式,HBM能达到更高的I/O数量,使得显存位宽达到1,024位,几乎是GDDR的32倍,显存带宽显著提升,此外还具有更低功耗、更小外形等优势。显存带宽显著提升解决了过去AI计算“内存墙”的问题,HBM逐步提高在中高端数据中心GPU中的渗透比率。图表11:HBMv.s.GDDR(封装形式对比)DDRGDDRHBMHBMEHBMEGDDR的2-3倍。目前HBM3已初步商用,GDDR7标准也将确定,我们预计未来中短期HBM3和GDDR7将成为主流标准,而HBM3在显存带宽方面有望达到GDDR7的4倍。图表12:HBM2Ev.s.GDDR6(技术指标对比)图表13:HBM3v.s.GDDR7(技术指标对比)不过,HBM相较于其他种类的内存也并非没有缺点,成本偏高、频率偏低使得其基本上目前只应用于中高端数据中心GPU及少数ASIC:►缺点#1:缺乏灵活性,HBM与主芯片通常封装在一起,不存在扩容可能。DDR产品形态稳定、标准化程度高,HBM封装的低灵活性对OEM厂商成本带来困难。虽然消费者市场对拓展性要求不高(如IntelLakefield、AppleM1),但目前HBM的成本使之望而却步。►缺点#2:HBM容量偏小,一些高阶的服务器DIMM达到96个,采用128GBRDIMM最多能达到12TB,HBM8层晶粒也不过32GB,再结合成本考虑,更加无法满足数据中心要求。►缺点#3:访问延迟高,HBM的频率低于DDR/GDDR(由TSV封装决定,并行线路多时频率过高会有散热问题),CPU处理的任务具有较大的不可预测性,对延迟的敏感程度较高,而在GPU则对此并不敏感。2015年,HBM技术首次得到商业应用。该年,AMD和SKHynix协作推出了搭配HBM的RadeonR9Fury/FuryX/Nano。2016年前后,Nvidia开始在TeslaP100、TeslaV100中应用HBM显存。经过近几年的探索,HBM技术逐步在中高端GPU得到应用,例如NvidiaA100/100、AMDMI250等产品。图表14:AMD、Nvidia采用HBM显存GPU汇总目前,SKHynix、Samsung等厂商在HBM产业链中承担前道晶圆厂和中道封测厂的角色,台积电等厂商承担后道封测厂的角色。SKHynix、Samsung、台积电三家企业在产业链中最具地位:作为全球最早商业化HBM技术的企业,SKHynix、Samsung具备较强的先发优势,尤其是SKHynix,几乎占据着全球HBM存储颗粒出货量的70%;台积电为Nvidia、AMD提供GPU晶圆代工服务,并在2.5D封装(台积电称为CoWoS封装)领域较早布局,具备一体化优势。AIGC有望推动HBM市场规模高速增长单块显卡模组的显存容量细节可由生产厂家官网披露的Datasheet查询得到,下面我们以Nvidia的A10040GB、A10080GB为例进行说明。►1块NvidiaA10040GB显卡模组中间是一颗A100GPU处理器(采用台积电7nm工艺制造),在处理器的四周围绕着6块HBM2堆栈,主要由SKHynix提供,采取了8Hi(8颗存储颗粒+1颗逻辑颗粒)的堆叠方案,每颗HBM堆栈显存容量为8GB。虽然一块NvidiaA10040GB显卡模组搭配了6块HBM2堆栈,但是在实际工作过程中,通常有1块HBM堆栈处于屏蔽状态,因此显存总量实际为5×8GB=40GB。►NvidiaA10080GB显卡模组相较于NvidiaA10040GB显卡模组的不同之处在于,将6块HBM2堆栈升级成了6块HBM2E堆栈(单堆栈显存由8GB升级为16GB),同样在实际工作过程中,也有1块HBM堆栈处于屏蔽状态,因此×16GB=80GB。diaAGB2022年下半年以来,ChatGPT、AI绘画等应用日益成熟使得全球互联网大厂、AIGC初创企业、行业龙头均在积极布局AIGC领域,加大了对AI服务器的采购,特别是中高端AI服务器的采购,我们认为这将大幅度带动HBM市场规模的提升。我们通过假设推理/训练AI服务器出货量、推理/训练AI服务器HBM渗透率等指标测算得到2023/2024/2025年中高端GPU所带来的HBM(仅存储堆栈)市场规模为4.11/8.63/16.53亿美元。考虑到HBM还能够应用于ASIC认为实际创造的市场规模还将更大。根据SKHynix测算,2025年市场规模有望增长至24.97亿美元。图表17:AI服务器GPU对HBM的拉动CXL:满足高性能异构计算要求的互联方案有望实现算力芯片间的高效互联和内存一致性CXL(ComputeExpressLink)技术可追溯至PCIe(PeripheralComponentInterconnectExpress)技术,为解决“内存墙”和“IO墙”问题提供方案。PCIe是用于连接计算机内部组件的一种标准接口技术,其将电脑内部的所有接口实现了统一,PCIe设备可以通过发起DMA来访问内存,但同时由于主存与设备内存的割裂,导致其延迟较高,产生IO墙问题。即内存墙问题由存算分离的架构产生,而IO墙问题则产生于外部存储。CXL是一种全新的互联技术标准,其能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求,并且其维护CPU内存空间和连接设备内存之间的一致性。CXL协议由汇总到单个链路的三个动态多路通信子协议组成。这些协议分别称为CXL.io、CXL.cache和CXL.memory。CXL设备连接到CXL主机时,通过CXL.io协议进行发现、枚举、配置和管理。CXL.cache允许设备访问主存和CXL.memory协议栈已通过优化实现低延迟。CXL.io协议用于初始化和链接,所以必须获得所有CXL设备的支持,而其他两个协议的不同组合产生了总共三种被定义并受CXL标准支持的独特CXL设备类型。CXL的定义之下,三种不同内存是直接使用CPU内存,其优势在于CPU处理数据时非常快,通常只支持CXL.io和CXL.cache协议;2)既有缓存,也有内存:常见于GPU、AI等应用的内存加速器,支持CXL.io、CXL.cache和CXL.memory三种协议;3)只有内存没有缓存:通常是作为内存缓冲器,常用作内存带宽或者是容量的扩展,它支持CXL.io和CXL.memory两种协议。XLCXL自提出至今已迭代CXL1.0/1.1、2.0和3.0三个版本,有着非常清晰的技术发展路线图。从CXL1.0/1.1发展至CXL3.0,一些特性得以增强,基于PCIe6.0技术的CXL3.0带宽提升了两倍,同时将传输速率提高了一倍,达到了64GT/s,并且没有额外的延迟。同时,从CXL2.0开始,该技术超出了单机的范畴,衍生出了内存池的概念。CXL3.0在内存池以外,还引入了内存共享和内存访问,突破了某一个物理内存只能属于某一台服务器的限制,使得多机同时访问同一内存地址成为可能,进一步增强了CXL的内存一致性。内存池(MemoryPolling)是一种将CXL附加的内存当作可替代资源的功能,可以根据需要灵活地分配和释放到不同的服务器中。内存池化使得系统设计者在获得最佳性能的同时不会过度配置每台服务器。以DRAM为例,计算中心的成本中DRAM占据较高比例,根据微软数据显示,50%的服务器总成本来自DRAM,但在成本较高的同时DRAM的使用效率并不高。如果引入DRAM池于CXL目前已经完全支持池化技术,如果该理念得到广泛应用,内存将成为提高服务器性能的重要手段之一。行业领军厂商积极推动,长期市场空间广阔CXL处于发展前期,龙头厂商推动市场空间有望快速成长。CXL技术需要较多的硬件支持,例如芯片、主板等,同时,在解决延迟问题方面,CXL技术还需要相关软件的支持,当前CXL技术的应用成本及复杂程度还较高。尽管协议推出时间与其他互联技术相比较晚,CXL生态建设处于起步阶段,但有着CPU行业牵头,联合谷歌、微软、HPE、戴尔易安信、思科、Meta和华为成立CXL联盟,推出了基于PCIe5.0的第一版规范。此后,AMD、英伟达、三星、Arm、瑞萨、IBM等头部厂商相继加入。近两年,CXL联盟扩展出超过165个成员,几乎涵盖了所有主要的CPU、GPU、内存、存储和网络设备制造商。根据美光科技在2022年5月召开的投资人说明会资料显示,受异构计算快速发展的驱动,2025年CXL相关产品的市场规模可达到20亿美元。图表21:CXL市场空间展望(亿美元)资料来源:美光2022InvestorDay,中金公司研究部各大厂商积极布局,产业链有望充分收益。一方面,CXL可以通过在CPU、GPU及FPGA等之间建立高速低延迟的互联,以更有效地利用加速器和存储设备,从而带动相关CXL控制器等芯片设计厂商的发展。同时CXL2.0提出的内存池化可以节约数据中心的建设成本,也将带动DRAM的用量。而从下游需求来看,近年来元宇宙、人工智能和大数据服务等导致数据量呈现快速增长,CXL有望通过增加内存、容量和带宽,成为相关应用的重要配合性技术,为服务器厂商等的增长提供支持。目前CXL领域主要厂商及其进展有:1)SK海力士:2022年8月开发出首款基于DDR5DRAM的CXL存储器样品,并表示将扩大CXL存储器生态系统;2022

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论