2024年电子行业专题报告:AI算力的ASIC之路-从以太坊矿机说起_第1页
2024年电子行业专题报告:AI算力的ASIC之路-从以太坊矿机说起_第2页
2024年电子行业专题报告:AI算力的ASIC之路-从以太坊矿机说起_第3页
2024年电子行业专题报告:AI算力的ASIC之路-从以太坊矿机说起_第4页
2024年电子行业专题报告:AI算力的ASIC之路-从以太坊矿机说起_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年电子行业专题报告:AI算力的ASIC之路_从以太坊矿机说起1、投资要件天下芯片大势,通久必专,专久必通。回望近年来芯片发展史,从最早的CPU独霸天下,并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新的一大类芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切。芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。我们复盘矿机发展历史,算法较为简单且完全固定的比特币,在全网算力(矿工需求)的急剧内卷下,产业内较为快速地完成了ASIC对通用芯片的全替代,而一直存在有POW转向POS预期的以太坊,由于客户考虑转向之后ASIC完全失效的风险,因此残值较高的通用性芯片(显卡)一直保持了较高的市占率。因此,客户需求、算法稳定是ASIC放量的两大条件。大模型时代,路线转变之快,需求放量之快,前所未见。正如同任何新爆发的需求一样,通用型芯片成为了开辟道路的急先锋,英伟达通过A100,H100两款产品,满足了AI起量的第一波需求。如今,经过两年发展,全球对于Transformer及其变种认可度越来越高,同时推理,下游应用等需求释放迫在眉睫。我们认为,ASIC将会成为Transformer模式下训练或者下游应用推理算力的有效补充,正如同上几轮芯片周期所经历的一样,通用创造需求,专用满足需求。主流ASIC大模型路线正在逐渐清晰,编译器愈发重要。回顾英伟达的芯片架构发展史,恰是一步步从专用走向通用的最好诠释,从最早的单小核,再到引入TensorCore处理向量与矩阵,结合CUDA生态对于人类海量算法的积累,已然成为了AI的CPU芯片,从量子力学、光线追踪到大模型训练无所不能。大模型时代,随着Transformer及其变种的生态确立,亦或者说,以矩阵乘法为核心的运算方式的确立,主流ASIC得以将通用芯片中的不必要部分去除,保留单纯用于处理矩阵乘法的计算核,同时再利用Wafer-Scaling、近存计算等形式,在一张芯片内,通过更多的乘法单元和存储之间的“流水线式”配合,从而实现了对于该类算法的高效计算。但与此同时,由于需要多个矩阵乘法核、存储之间的相互配合,同时少了对数据预处理的“小核”的帮助,该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的LPU芯片“Groq”的发展历程就可以看出,团队用于软件设计的环节,远长于硬件架构的设计。因此,进入ASIC和推理时代,编译器对于算核的控制能力,编译器的设计能力,将成为行业进入者最大的壁垒。2、ASIC芯片概述2.1什么是ASIC芯片ASIC,全称为ApplicationSpecificIntegratedCircuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门目的或者算法而设计的芯片。ASIC芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌TPU,昇腾910B一类的顶尖AI芯片。ASIC并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为ASIC。当下,ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能。TPU即为谷歌发明的AI处理器,主要支持张量计算,DPU则是用于数据中心内部的加速计算,NPU则是对应了上一轮AI热潮中的CNN神经卷积算法,后来被大量SoC进了边缘设备的处理芯片中。从芯片大类来看,目前人类的芯片可以被分为CPU、GPU、FPGA、ASIC四种大类,其中CPU是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务,GPU则是人类历史上的第一大类“ASIC”芯片,通过大量部署并行计算核,实现了对于异构计算需求的优化。FPGA芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。ASIC则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。2.2芯片大势,通久必专,专久必通从最早的CPU独霸天下,到并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求、探索需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。大模型时代,风来的如此之快,2023年春节之前,业界还在努力优化复杂的CNN算法,追求模型的小而美,之后随着GPT和OPENAI的横空出世,将业界热点算法迅速从CNN转变为Transformer,底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性,对于算力的需求极速释放,2023年来看,唯一能够满足用户这一新需求的依然只有较为通用的英伟达芯片,因此,也在这一年多内造就了英伟达2w亿美金的传奇市值。但天下芯片,通久必专,专久必通,当矩阵乘法这一固定运算占据了大部分的大模型运算需求时,通用芯片中的小核心,甚至是向量计算核心,逐渐成为了功耗、成本和延迟的负担,客户终究不会因为单一的矩阵乘法需求,而为通用性去额外买单。因此,从海外大厂到无数业界大佬的创业公司,纷纷加入了“矩阵乘法”ASIC,又或者是大模型ASIC的创业浪潮中,在下文中,我们将列举两个较为有代表性的ASIC芯片,去看看业界的设计思路与演化方向。3、大模型ASIC的发展路线3.1初步专用化:GPU亦是ASIC从历史来看,我们通过剖析GPU的结构和其与CPU的区别,不难发现,GPU也是某种意义上的ASIC,过去的数据处理任务,通常是单条复杂指令或逻辑运算,但随着图像处理需求的出现,计算过程中往往开始包含大量并行的简单计算,而CPU由于核心数量有限,虽然单核能够处理较为复杂的指令,但面对大量简单计算时,运算时间长的缺点逐渐暴露。所以正如前文所说,CPU作为人类最通用的芯片,带领人类进入并探索了图像时代,紧接着,面对海量释放的AI需求,GPU作为“图像ASIC”横空出世,满足了海量的图像处理需求。进一步探究GPU的发展历程,我们会发现芯片趋势的第二部分,如果说CPU到GPU是我们提到的“通久必专”,那么GPU本身的发展历史则是“专久必通”的最好诠释。在并行计算早期,算法大多数是由简单的加减乘除构成,因此通过在GPU芯片内部署大量的小核来并行计算这些简单算法。但后来,随着并行计算,或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法,GPU本身也从专用芯片,变成了面向并行计算模式或者海量图像需求的“通用芯片”。其中最有意义的事件,也奠定了英伟达如今领先地位的是TensorCore的发明与问世。英伟达在2017年5月发布的Volta架构中引入了第一代TensorCore,为混合精度矩阵乘法提供了突破性的性能,与上一代Pascal相比,用于训练的峰值性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍。这项关键功能使Volta提供了比Pascal高3倍的训练和推理性能。TensorCore又名张量计算核心,简单理解,便是专门用来计算矩阵乘法的一块大核,其具体结构为一个由乘法器和加法器共同构成的立方体。立方体的主要部分为乘法器,最底部一层则为加法器,根据矩阵乘法公式,加法器将上方乘法器的运算结果进行累加,从而快速得出矩阵乘法的结果,这一特殊结构,使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果,优化了许多。TensorCore的问世,也标志着GPU的重心正式从图像训练转向深度学习,通过良好契合矩阵乘法的计算核形式,实现对于卷积或Transformer的性能提升。此外,凭借CUDA生态和无数开发者、使用者的努力,人类历史上的科学计算领域,除了大模型之外,如量子物理、药理学计算、流体物理等等,均得到了英伟达GPU的算力支持,至此,英伟达凭借大小核心的架构,与CUDA生态,成为了图像、科学计算领域的“通用芯片”之王。3.2进一步专用化:以谷歌TPU为例前文提到,随着大模型训练需求的跃升,Transformer算法快速风靡,而海量的需求叠加相对固定的算法,则是ASIC发展的最好土壤。而谷歌TPU,则是率先崭露头角的第一块实际用于大模型训练的芯片结构。谷歌TPU,原理脱胎于脉动整列取数法,脉动整列(SystolicArray)的概念最早在1982年被提出,是一种快速将数据读取至矩阵运算单元的方法,由于当时矩阵运算需求极小,并且仍是CPU为主,并未受到重视。从2016年开始,谷歌开始在其训练芯片TPU上重新引入脉冲阵列概念,经过三年开发,于2019年形成成熟产品,首次通过脉冲阵列读取形式,开辟了除英伟达CU+TU体系外的全新矩阵运算架构。但同时,脉冲阵列由于其特殊的数据填充方式,导致了运算启动速度较慢、处理单元利用率不足等问题。前文提到,英伟达的TensorCore架构,通过乘法器与加法器的3D堆叠,实现了超高的矩阵运算效率,但是在任何TensorCore结构的单元计算的过程中,决定运算效率,或者说是峰值算力的,一方面是TensorCore的大小,即能运行“NxN”的矩阵,N越大,TensorCore的运算能力越强。另一方面,决定TensorCore运算效率的则是需要运算的数字被装填进入TensorCore的时间,“取数时间”与“矩阵大小”共同构成了GPU运算能力的基石。通过英伟达的芯片结构图,我们不难发现,以A100为例,每一个TensorCore(TU),会搭配16个INT32核心,16个FP32核心,8个FP64核心,这些核心又称为CU(计算单元)。在取数的过程中,每一个Cycle内,以INT32精度为例,每一个INT32ALU可以给相对应的TU灌入1个数,则16个ALU,一个cycle可以给TU内灌入16个数。在这里我们先重温一下矩阵乘法公式,从而得出一个矩阵乘法中,需要给TU中灌入多少数字,以一个16x16的举证乘法为例,需要往TU内灌入2*16^3次数,则在16个INT32的ALU努力下,需要512个cycle将TU填满然后再进行运算。而脉冲阵列,则完全抛弃了由CU给TU供应数字的模式,而是直接将两个矩阵用类似于“推”的方法,装载进入TU中进行运算。我们用一个16x16的矩阵乘法为例,来探寻一下,填满整个TU需要多少cycle。假设有一个A矩阵,一个B矩阵,则TU核心就是要计算的乘法矩阵。我们先根据矩阵的乘法公式,把B矩阵的数字调换一下顺序,使得其在推动的过程,符合矩阵乘法公式。第一个cycle,我们将A的第一行与B的第一列往TU内“推”一下,这时候可以看到TU的(1,1)格内同时被填入了a11与b11两个数字,这时TU内的乘法器会把两个数字相乘并将结果放入加法器内。第二个cycle,我们将A的第一行与B的第一列再往TU内推一下,同时也会把A的第二行与B的第二列往TU内推动一格,此时TU内的(1,1)格内的数字换成了A12与B21两个数字,而原有的TU内(1,1)格的数字则被推动,分别进入T(2,1)与T(1,2),同时,这三个TU内的格子分别进行一次乘法计算,然后把结果放入加法器中。如此循环往复至第16个cycle,此时A的第一行与B的第一列已经完全被推入了TU内,则TU的(1,1)格内已经完成了16次乘法运算,并且数据已经完全被存储进加法器中,这个循环内,加法器运算一次,得出AxB的结果矩阵的(1,1)格内的值。第17个循环,此时被推入TU内(1,1)格的数据,已经来自于新的两个矩阵,而TU的(1,2)和TU的(2,1)也将在这个cycle内完成相应的16次乘法与求和,在下一个cycle内,这两个格子也将被用于新的两个矩阵的运算。因此,在连续推入数据的情况下,通过脉冲阵列,将一个16x16的矩阵数据完全导入TU,仅仅需要16个cycle,其从架构层面实现了对英伟达通过FPU与ALU填单个数字进TU的超越,在同等制程下和TU规模下,其潜力上限更高。但由于脉动阵列的一些特性,其在拥有优异的“取数能力”时,也不可避免的会出现一些劣势。第一,GPU遇到的数据往往不是连续的,在数据中断然后重新填入的过程中,脉冲阵列架构的TU内,部分运算单元会处于空转的状态,从而降低了芯片性能的整体利用率。第二,脉动阵列在前几个cycle内,推入的数字较少,因此在数据中断后再次启动时,效率较慢,我们可以形象的理解为“启动慢,极速高”。第三,由于脉动阵列需要CPU直接把矩阵输入至TU的DFF内,因此需要把程序语言转换成矩阵,对于编译器的开发要求极高,这也是限制了脉冲矩阵发展的最主要因素。但随着谷歌对于TPU的不断更新,最新版本已经迭代到了TPUV5e,同时持续的软件投入叠加业内稀疏数据预处理能力的加强,TPU路线已然成为了全球Transformer或是矩阵乘法的主流设计思路,也是英伟达最大的挑战者之一。在了解完了原理之后,我们再来看一下TPU的架构图,从V1到V4的更新,我们也可以看出ASIC芯片的进化思路,英伟达的迭代思路类似,但后续的迭代空间有望更大。从TPUV1到TPUV2的变化最为显著,第一,往MXU内填充数据的存储由DDR变为HBM,第二则是增加了多卡互联的模块,这一层级的架构,对应上述的原理,主要为了优化往MXU内灌数的速度和流程。第三,TPUV2将V1的超大矩阵乘法器一分为二,降低了部分算力的空载时间,同时也降低了编译器的难度(这部分可以看出,ASIC时代,软件会成为瓶颈)。TPUV2基本定型了后续的架构,V3、V4的更新则类似于Wafer-Scaling和制程提升的结果,更高的制程、更大的芯片面积,换来了单芯片上更多的MXU(矩阵乘法)核心。以TPUV4来看,单块芯片包含两个Tensorcore,共计8个MXU,是V2的4倍。总结来看,TPU的横空出世,基本奠定了大模型ASIC的开发方向,即舍弃NV架构中用于进行简单加减乘除计算的小核,单独保留TensorCore进行矩阵乘法运算,在提高芯片效率的同时,也保证了一定的灵活性。TPU由于缺少小核,无法对训练过程中所遇到的带0数据进行提前处理,因此当下更多的被业界认为是一块针对“稀疏数据处理能力”弱化、同时强化了“矩阵乘法能力”的ASIC,并没有针对特定模型做极致定制化,也并非大模型ASIC的终局。3.3极致专用化:以Groq为例上节我们提到,以TPU为代表的芯片,由于需要兼顾训练、不同算法等需求,并没有做到极致面向推理或者是极致“ASIC”化,同一个芯片中单个MXU之间并没有很高效的互动,因此在保留了通用性的同时,也降低了计算效率。我们来看当下较为领先的“推理ASIC”亦或是“LLM专用ASIC”Groq,Groq由谷歌TPU团队成员创立,在经过了几年的默默发展后,最终在2024年2月一鸣惊人,运行在Groq平台上的MetaLlama2模型,实现了领先的推理速度,将大模型的推理速度带到了500Token/s,而GPT-4的输出速度则在40Token/s。为何一张14NM的芯片,能够在推理端打败昂贵的4NM制程H100呢?这其实就是极致ASIC化的必然结果。我们从Groq芯片的架构图中可以看出,除了舍弃掉小核,只保留了矩阵乘法核与向量乘法核外,Groq还创新性的引入了sRAM作为核与核之间互相传递数据的工具,这样MXU就无需频繁与外界的存储进行互动,可以搭建出一条由“矩阵核、向量核、SRAM”三者共同组成的数据处理“流水线”,从而完美契合推理过程,即用先前推理出的Token代入模型,得到下一个Token的过程。但我们需要注意的是,由于Groq的芯片架构定型于四年前,以现在的视角来看,依旧有不少遗憾,第一,sRAM的容量较小,导致需要更多的groq显卡才能完整容纳大模型,第二,由于四年前依旧是CNN卷积计算占据主流,因此Groq有部分面积给了相对没有必要的向量计算核。Groq的成功已经向我们展示了未来推理ASIC的广阔空间,即在MXU堆叠的基础上,通过sRAM、DDR7等等高速存储进行桥接,使得MXU之间能够进行高速率的数据传输,使得推理结果流水线式加工,而不需要像英伟达架构一般,每次推理都需要去HBM中访问一次先前的Token,降低了数据交互密度,使得无论是访存IO,亦或是网络IO都不再成为瓶颈。3.4主要技术趋势总结:Wafer-Scaling+近存计算构建数据流水线我们先来总结一下大模型ASIC发展的道路,核心还是围绕聚焦“矩阵核”,舍弃多余部分来进行,从英伟达GPU到TPU,初步实现了这一步,通过舍弃外围小核,采用全新的填充模式,获得了更高性价比的训练算力。第二部则是串联“矩阵核”,使得数据的处理更加流水线化,这一步也是目前芯片设计趋势中的“StreamingProcessing”概念,进一步降低与外界的数据互动,实现超低延迟的推理,从TPU到Groq,就是此种思路。往后来看,ASIC的发展也将聚焦于两个方向,第一个方向为“Wafer-Scaling”,以SamAltman投资的cerebras为例,即扩大单个芯片面积,实现在单个芯片内装在更多的MXU,也即是矩阵计算核心。这样单次运算能够处理的数据量就更大,是最简单和直接的升级路线。第二个方向即为“近存计算”,Groq给我们具体展示了这一路线,MXU将数据运算后直接转移给相邻的sRAM,由于传输距离短,叠加sRAM天生的高带宽,从而实现了绕过HBM的流水线式加工,我们认为这种通过近计算单元的高速存储,来实现计算单元之间高速沟通的模式,将会是大模型ASIC发展的另一主要方向。4、以矿机为鉴,英伟达与ASIC之争将走向何方?前面提到的两种ASIC代表性芯片,初看会让人觉得,从架构层面,对现有的英伟达体系实现了颠覆,但当下,英伟达的显卡仍然是客户需求的主流,那是什么样的原因造成了这样的反差呢?在接下来的章节,我们将通过对上一轮最激烈的“通用GPUVS专用ASIC”战场——矿机市场进行复盘,来探寻当下和未来,在大模型领域,这种斗争会走向何方。4.1比特币矿机发展史,用何种速度取代CPU比特币的挖矿历史,就是一部最生动的ASIC对于通用芯片的取代过程。在诞生之初,最早的挖矿工具是CPU,2009年1月,中本聪在芬兰赫尔辛基一个小型服务器上挖出了比特币的第一个区块—即创世区块。中本聪所使用的正是CPU服务器。当时由于全网算力很低,因此并行计算能力较弱的CPU也能够参与挖矿,成为了当时矿工的主力机器。2010年以后,随着比特币进一步爆火,全网算力提升,矿工对于算力的需求急剧膨胀。由于比特币采用SHA256加密算法,属于哈希算法,较为简单的算法更加适合GPU所擅长的并行计算,因此在2010年-2012年的时间段内,GPU逐渐取代CPU,来给矿工提供更加强大的算力。同时,由于币价的不断上涨,矿工开始第一次追求专用芯片挖矿,2011年,市面上出现了首台“FPGA”矿机,但由于FPGA的开发难度和性能提升有限,这种方式并未普及。2012年之后,随着比特币算力需求持续井喷,同时比特币发明时就固定了SHA256加密算法,因此全球第一台商用比特币ASIC矿机迅速在中国出现,发明人张楠赓后来成立了全球矿机龙头之一的嘉楠科技。2013年下半年开始,大量ASIC矿机雨后春笋般出现,比特币算力竞争进入ASIC时代,并延续至今,通过芯片制程提升,不断提升性能。时至今日,比特大陆、神马、嘉楠三家中国厂商凭借优秀的迭代和周期管控能力,占领了全球大部分矿机市场。随着专用算法ASIC的普及,GPU这一低效率的工具被迅速取代,目前全球比特币计算几乎全部由ASIC提供。我们可以看到,在比特币挖矿诞生的短短三年内,就快速经历由CPU到GPU,GPU再到ASIC的转变,即使中本聪早在2019年就提议防范GPU挖矿带来的军备竞赛,主张让所有人通过拥有一块CPU就能够参与竞争。但是财帛动人心,暴涨的币价,日益加剧的算力对抗,使得矿工对于算力的需求出现井喷,这点和当下的AI类似。第二是比特币算法简单且固定,对于ASIC的设计过程更加友好,因此行业内部会有无数的新玩家进入,竞争、迭代、繁荣。4.2以太坊矿机发展史,为何一波三折?相比于比特币矿机流畅的换代过程和最终格局,以太坊挖矿算力的发展则显得更加波折。从以太坊2014年发起众筹后,再到2022年9月正式完成POS升级,在8年的POW历史中,直到最后,以太坊专用矿机也并未完成对显卡挖矿的完全取代。我们认为主要有两点原因,第一,以太坊虽然ICO于2014年下半年,但是早期也仅仅被当成是一个创业项目,此后经历了各类网络测试才正式上线,2015年7月30日,随着以太坊第一阶段版本Frontier发布,第一个以太坊区块才被开采出来。因此以太坊初期并未像比特币一样由于币价暴涨,从而引发全网算力暴涨,矿工需求急剧膨胀,因此,参与以太坊挖矿的矿工,大多是利用手头的闲置显卡,也并未有专门的矿机被发明出来,核心还是需求较为疲软。第二则是以太坊在发明之初,就为防止出现类似于BTC一样的恶性算力竞争做足了准备。第一,以太坊虽然一开始采用了使用挖矿算力来维持网络稳定的POW模式,但始终把转向完全无法挖矿的POS模式作为一大愿景,这也对后续希望进入以太坊矿机的投资人构成了显著的限制,没有人希望从事一项随时会失去意义的研发,同时,也没有如此多的矿工敢于购买一台未来会完全失效的ASIC矿机。第三则是以太坊的挖矿算法设计之初,就已经有意识的防范ASIC矿机的出现,以太坊采用的是Ethash加密算法,在挖矿的过程中,需要读取内存。当时计算机每次读取内存的带宽都是有限的,因此也就让以太坊的PoW机制有了“抗ASIC性”。当然后来随着显存读取速度加速提升,英伟达看到了这一点后加速介入了以太坊挖矿市场,这也造就了英伟达在AI前的上一轮辉煌。再到后来,固定的算法无论如何在设计之初对抗ASIC,都不能阻止ASIC矿机的出现,后续国内如比特大陆、芯动等公司都陆续推出了面向ETH的专用矿机,但是由于POS升级始终如一把利剑悬挂在以太坊矿工之上,矿工担心自己的矿机会完全失效,而显卡在停止挖矿后仍有残值,因此以太坊ASIC最终并未占领全部市场。4.3以史为鉴,“算法确定性”和“用户需求”决定ASIC渗透速度对比以太坊矿机的一波三折和比特币矿机的一帆风顺,我们不难发现,ASIC能否迅速完成对于通用芯片的渗透和替换,主要取决于两点,第一,也是最核心的一点,用户的需求,第二,算法的稳定性。我们先来看第一点,比特币起步较早,币价涨幅较快,因此涌现海量的用户算力需求,上文提到,客户需求是芯片厂商的第一目标,因此比特币快速完成了对于通用芯片的淘汰。而以太坊则由于币价的波动,POS的愿景,并没有产生过渡膨胀的用户需求,因此矿机厂商大举进入并持续迭代ETH矿机的意愿不高。我们再来看第二点,算法的确定性,这里要特别强调,算法的确定性,不是算法的难易度。因为一个算法即使再复杂再艰难,只要保持不变,就一定可以开发出专用的ASIC来提高效率,即使复杂如矩阵乘法、CNN卷积算法,也能够拥有相应的ASIC。而算法的不确定性,则是ASIC最大的敌人。ASIC的高性能是以舍弃通用性为代价的,当下全球比特币算力已经进入E时代,而H100仍然停留在P时代,但比特币矿机除了简单的哈希算法外,不能进行任何运算。因此,算法的更换会导致ASIC芯片部分或完全失效,从而导致开发者、使用者承受极大的损失。我们将这两点类比到如今的AI时代。第一,客户需求的问题无需多言,模型的持续内卷,推理需求的箭在弦上,无疑不告诉芯片开发者和芯片使用者,这是一个旺盛的市场,是远超比特币级别的全球趋势,这显然满足了ASIC芯片起量的土壤。第二,算法的稳定性,这一点上,在大模型时代,我们依旧需要观察,当下Transformer算法是绝对的主流,目前新的算法方向也集中在以Transformer为本,去做一些变种,因此,矩阵乘法运算似乎正在慢慢成为大模型时代的主流,ASIC崛起的第二条件似乎也已经具备。但正如同以太坊POW一样,客户也在担心,当Transformer的参数达到顶峰,是不是业界会更加激进的寻找下一代算法,亦或是老旧的卷积算法重出江湖?这一不确定性,也是客户持续衡量是否大量投入ASIC的原因。5、软件将成为算力第三极上文提到,用户需求与算法确定性是矿机时代决定ASIC趋势的两条生命线,但进入大模型时代,或者说AI时代,软件也成为了非常重要的一部分,或者更精细一些,软件一个是决定了用户需求,一个是决定了开发成本。我们先来看用户需求,相比于较为“傻瓜式”的矿机来说,如何调动显卡的算力,如何实现显卡运算单元和指令的契合是一件更加专业的事,以英伟达为例,英伟达的CUDA生态上,积累了无数应用场景的应用经验和过往代码,每一名AI软件工程师从入门,到工作,到创造都在CUDA上进行学习、编程和创作,用户对于软件的依赖也成为了英伟达的壁垒之一。而离开熟悉的软件,进入新的操作环境,无疑会让一部分用户犹豫,这也是为什么软件将会影响用户需求的原因。第二,软件开发门槛。Transformer算法的操作软件,算法库开发相对简单和单一,我们这里更多是指编译器层面。除了最基本的架构设计外,大模型时代,对于控制ASIC芯片内部器件的编译器,设计难度和工作量与日俱增,这也将成为新进入者的门槛。5.1推理时代,更加考验编译器的“流水线”构筑能力编译器负责将指令转化为对于芯片内部器件的控制,上文我们提到,由于现有ASIC结构,跳过了小核心,直接将数据存入乘法器中进行运算,因此对于编译器的指令调度能力提出了极高的要求,谷歌就因为编译器开发难度过大,从而在TPUV2中不得不缩小乘法器体积。再往后看,前文提到,面向LLM推理的专用ASIC芯片,一套计算流程往往需要多个计算核和存储的配合,如何保证这些元器件同时稳定运行,保证计算的确定性,这就需要非常复杂的编译器设计。以Groq为例,其在芯片架构内部,甚至专门增加了用来协调不同计算单元指令流的专用模块,足以见得这项工作之复杂。往后来看,随着Transformer及其变种的持续进化,如何设计出一款优秀的编译器,能够让芯片快速适应新模型以及微调的Transformer算法,将是考验一款ASIC除了架构外最重要的能力。5.2两年硬件,四年软件,编译器和生态将成为进入者最大门槛我们来看Groq团队近年来发布文章的顺序,可以看到,初步的硬件架构在2020年的论文中就已完成,后续至今的四年,团队主要专注于相关编译器和软件生态的研发。可谓是两年做硬件,四年完善软件。由此可见软件的重要性不容小觑。由于第一次引入了“流水线式”的处理理念,Groq的软件语言也更加复杂,需要同时对多个功能单元的指令集进行设计,使用时也需要重新学习,这无疑对于新用户上手来说更加困难。在此之前,许多新的AI芯片公司,希望通过在用户层来模拟“CUDA”系统,然后在软件底层通过转译软件将用户的“CUDA指令”转化为自身产品能理解的指令,帮助用户大幅缩短上手时间,这也是大家所热议的“兼容CUDA”。但近日,根据Tom’sHardware

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论