




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GPU行业研究报告:AI与自动驾驶打造GPU强力增长引擎一、数字经济、AI、智能驾驶视角下看算力需求1.1演变趋势:从通用计算到智能计算,从分散独立到云网边协同宏观角度下,数字经济建设及人工智能发展掀起了新一代算力革命,算力基建成为国家数字化转型和经济发展的重要竞争策略。从1964年戈登·摩尔提出著名的摩尔定律后,CPU性能的发展便遵循这一规律,但目前数字经济与人工智能的高速发展,基于CPU的摩尔定律已经失效,如何突破“算力墙”,满足新时代各种算力需求,成为各国主要的竞争焦点。微观角度下,算力形式逐渐由通用计算过渡为高性能计算,从分散独立的端计算向云网边协同计算演变。当前,常见的高性能计算可以分为科学、工程计算与智能计算;算力资源服务可以分为云计算、混合计算及算力网络。1)科学、工程计算。这类计算主要利用超级计算机实现并行计算,是一种算法优化和硬件集群结合的计算模式。高性能计算由于具有较高的性能、效率及计算精度,可以广泛的用于大规模复杂科学计算,比如工程模拟仿真、航空航天、地震预测等,同时也能支持人工智能、智慧城市等新兴领域。2)智能计算。智能计算以智能芯片为计算算力底座,可以较好的满足AI领域模型训练所需的智能运算需求,因此用于支持专一的人工智能应用场景。基于智能计算搭建的人工智能计算中心,通过将各种交叉技术集成,广泛的应用于智能语音处理、机器视觉、自然语言(文本)处理等不用的领域。3)云计算、混合计算、算力网络属于新型算力资源服务模式。云计算通过WorldWideWeb(万维网)向用户提供包括服务器、存储、数据库等在内的各项计算服务,因为万维网以网页为核心,因此云计算主要面向消费互联网;而算力网络主要以算法及算力协同为核心,通过协同联动云计算、边缘计算、端计算及通信网络,能够实现对复杂计算任务的分解及高效调度。1.2战略地位:算力属于基础设施建设,是智能时代发展的物理承载整体架构层面,算法、算力及数据是实现人工智能的三要素,其中算力是构筑智能时代的物理基础。人工智能离不开算力、算法及数据,其发展需要在建立在庞大的数据集、优秀的深度学习算法及强大的计算能力基础之上,而算力作为底层基础设施,是开启智能时代的关键因素,其核心于智能芯片的技术进步。实际发展层面,全球数据量正以指数级速度增长,“算力荒”问题日益凸显。据IDC数据显示,2018年至2019年全球大数据存储量分别为33ZB、41ZB,而2020年全球数据量达到了60ZB,同比增长46%;庞大的数据集必然依赖强大的数据处理能力,进而要求宏观算力快速发展,NTCysd预计2021-2028年全球算力规模将以超过40%的速度增长,2028年将达到7510EFlops。1.3应用驱动:数字经济搭建整体框架,AI大模型、智能驾驶持续拉升市场方面,数字经济建设、AI大模型、智能驾驶成为开启智能时代的确定性研究方向。其中,数字经济建设搭建数字化布局整体框架,并提供政策支持;AI大模型及智能驾驶率先落地,成为拉动算力需求的核心驱动力。1)全球正加快数字经济建设,算力发展成为主要战略竞争点之一。目前,全球正处于经济数字化转型阶段,据中国信通院发布的《全球数字经济白皮书》显示,数字经济已经成为各国发展GDP的核心战略,具体数据来看,2020年全球47个国家数字经济增加值达到32.6万亿美元,占GDP比重为43.7%,同比名义增长3%。此外,数字经济已经成为我国稳增长促转型的重要引擎,出台多项政策支持算力发展,截至2022年我国数字经济规模已达50.2亿元,数字基础设施规模能级大幅提升,在用数据中心算例总规模超180EFlops,位居世界第二。2)AI大模型的快速扩张是算力需求的关键驱动力。由于AI大模型通常需要在大规模无标注的数据集上进行重复的训练,因此相比于传统的小模型在应用场景上更具有普适性。但与此同时,数据集的快速增长以及模型不断迭代优化使得AI大模型尺寸快速膨胀,GPU算力也遵循着同样的增长规律。据
OpenAI
数据显示,GPT-3175B相比于GPT-3Small,总计算力(Flops)及参数量增长了约1400倍;而据Semianalysis最新分析指出,GPT-4模型尺寸进一步扩张,在其120层模型中总共包含了1.8万亿参数,约GPT-3175B参数量的10倍。3)汽车智能化功能升级,智能驾驶将贡献算力需求的全新增量。汽车正逐渐步入智能化时代,传感器数量的增加及交互能力的提升,将带来数据的几何式增长,这必然要求车端拥有强大的数据分析和处理能力。据华经产业研究院预测,2025年我国L3、L5级别智能驾驶渗透率将分别达到14%、1%,到2030年两者将分别达到40%、12%。而L3级别及以上智能驾驶汽车,不仅需要处理人机交互等指令,还需要与外界环境、云数据中心进行交互。据分析,L3、L5级别智能驾驶算力需求将分别达到30-60TOPS、100TOPS,未来随着智能驾驶汽车渗透率的提升,将会持续带动智能驾驶市场整体算力需求的增加,预计2025、2030年智能驾驶市场算力需求达到1.9万、19万TOPS,2021-2025CAGR达112%。1.4优化路径:提升芯片性能及创新存算架构是研究主流系统算力主要受处理器性能与数据传输能力影响,当数据处理能力与传输能力不匹配时,计算能力由两者中较低者决定。处理性能主要与指令复杂程度、频率、并行度有关,一般来说,指令越复杂、计算频率越高、并行程度越大,处理器性能就越好;而数据传输的能力与处理器内部存算架构有关,在计算机体系里,根据访问延迟及容量大小将存储结构分为寄存器、缓存、内存、外存与远程存储,而这种存算分离的架构形式,通常使得数据传输成为限制系统算力的因素。1)指令的复杂程度。指令系统是连接计算机软件和硬件的桥梁,一般来说,指令的复杂程度于处理器运算性能有关,指令越复杂,其性能就越好。典型的处理器平台大致可以分为CPU、协处理器、GPU、FPGA、DSA、ASIC,其中CPU为通用软件平台,支持包括整形计算类、浮点类、数据传输类、控制类等在内的通用指令,而其余处理器为硬件加速平台,用于执行各类复杂指令。2)计算频率。一般来说,处理器计算的速度于频率呈现正相关关系,计算频率越高,速度越快。以CPU为例,执行一条指令需要依次经过取址、译码、地址生成、取操作数、执行、写回阶段,每个阶段需要消耗一个时钟周期,上个阶段执行完毕后才会进入到下个阶段。在此基础上,时钟周期的设定便取决于各阶段用时最大者,而提高时钟频率大致有两种方法:一是通过超流水线架构提高处理器主频,通过增加多级流水从而细化每个阶段;一是通过优化工艺技术降低各阶段逻辑门处理延迟。3)并行度。并行度是指在计算机体系中,指令并行执行的最大数目,并行度越大,意味着系统能够同时处理更多指令,其运算速度越快。常用的并行设计包括指令并行、处理器核并行、芯片级并行及服务器并行。4)数据传输能力。数据传输能力并不直接影响处理器性能,但复杂的存储分层结构会使得系统功耗、延迟及访问宽带增加,从而限制算力的提升。优秀的计算系统应使得处理器性能与数据传输能力尽可能匹配,以减少“木桶效应”对于算力的限制。目前,数据传输能力的优化方向主要包括近存计算及存算一体化架构。二、算力需求视角下看GPU发展的必然趋势2.1性能:GPU技术发展迅速,高并发计算能力契合算力需求1)横向比较,GPU较CPU而言,更符合深度学习算法的高度并行计算需求。一方面,CPU性能提升已达到瓶颈,与高速增长的算力需求脱节。CPU作为第一代高效计算平台,目前无论从不管是从架构/微架构设计、工艺、多核并行等各种角度出发,其性能都难以提升,2016年之后,CPU性能每年提升仅3.5%。随着数字经济、AI大模型、智能驾驶等算力需求的推动,CPU性能已无法满足上层软件算力需求。另一方面,GPU较CPU具备更多的算术逻辑单元、控制单元与内存缓存,其SIMD架构与深度学习算法需求更吻合。CPU为线程级并行的MIMD架构,其核心少但性能强,可以用来处理复杂的控制逻辑、预测分支、乱序执行、多级流水等,而GPU为数据级并行的SIMD架构,其核心多但性能弱,用于优化具有简单控制逻辑的数据并行任务。而神经网络算法数据要求量大,并行计算程度高,与GPU高并行计算能力、高内存带宽相适配。神经网络的训练环节需要处理大量的数据,并且其结构非常统一,每一层成千上万个相同的人工神经元都在执行相同的计算操作,具有高效并行计算能力与内存带宽的GPU,不仅能够更快的完成数据的读取与写入,还能实行多条指令并行计算。2)纵向比较,GPU架构技术仍在演进,其高性能计算与智能计算能力不断优化GPU最早作为显卡的核心零部件,专用于图形渲染及处理。GPU(GraphicProcessingUnit),即图形处理单元,英伟达公司在1999年发布GeForce256图形处理芯片时首先提出GPU的概念,GeForce256作为专门负责计算机图形显示的计算机零部件,通过T&L及其他多项技术引擎,减少了显卡对于CPU的依赖。GPU组成中通常包含一个显存、一个主频、一个VRAM、一个显存速率以及一个显存位宽。GPU架构迭代频繁,已从从专用图形处理器发展为高效的通用计算平台,向外拓展人工智能计算及高性能计算领域。当GPU引入可编程特性,将图形硬件的流水线作为流处理器来解释,基于GPU的通用计算也开始出现,即GPGPU。英伟达产品在2008-2022年内,架构迭代调整了8次,其在2010年推出具有完整GPU架构的Fermi,在2017年Volta架构中首次推出Tensor内核以支持深度学习算法,而目前Hopper架构的GPU已广泛的应用于AI大模型训练与推理环节。英伟达Tensor核心持续升级,智能计算及高性能计算能力得到不断优化,已成为AI模型推理的关键张量核心。英伟达Tensor核心最初在Volta架构上推出,在后续推出的Turing、Ampere、Hopper上不断优化,Tensor核心能够加速矩阵运算,大幅增加浮点计算吞吐量。具体来看,拥有Tensor核心的V100相比于P100其混合精度运算速度提高了9倍,而英伟达推出的第四代Tensor核心其FP8性能较AmpereFP6提高16倍,而在AI大型语言模型推理方面,性能比Ampere高出30倍。2.2灵活性:GPU可编程优势明显,通用灵活性适配AI应用端拓展GPU拥有相对较优的性能及灵活性。常用的计算平台包括CPU、FPGA、GPU、DSA以及ASIC,一般情况下随着芯片性能的提升,其灵活性会逐渐下降。CPU为软件加速平台,通过标准化的指令集使得CPU平台的硬件实现与软件编程完全解耦,灵活性最高;ASIC为专用集成电路,是一种为专门目的而设计的集成电路,不支持硬件编程,灵活性最差。1)ASIC、DSA设计成本高、周期长,其灵活性难以满足应用层及宏架构趋势的需求。DSA与ASIC属于专用领域定制类型芯片,其中ASIC属于完全定制性化芯片,其晶体管根据算法定制,流片量产后算法便不可编辑;DSA在ASIC基础上回调,保留一定编程能力,但其功能覆盖的领域成具有较大的局限性。ASIC与DSA的通用性是限制其应用的关键因素。首先,通用性限制了ASIC与DSA的应用领域,与芯片高企的研发成本相矛盾。据估计,5nm制程的芯片研发成本已经超5亿美元,高企的研发成本需要具有充分量产能力芯片来摊薄,而ASIC与DSA芯片均为面向特定领域专用芯片,不同领域则面临重新设计的问题,尤其是在AI应用领域,ASIC与DSA的研发周期和成本并不能满足其AI应用及算法迭代优化的速度。其次,专用性使得ASIC与DSA芯片与算力融合的宏架构趋势相矛盾。数字经济的建设需用云、网、边各部分资源协同融合,从而组成庞大的算力网络,然而不同计算引擎、平台、设备以及数据中心的芯片应用场景具有较大的差异,这使得DSA、ASIC芯片难以成为数字经济时代的整体解决方案。2)CUDA、OpenCL技术持续为GPU赋能,GPU性能提升潜力大、应用拓展力强。一方面,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级上册数学教案-7.4分数的初步认识(一)练习十一 |苏教版
- 六年级上册数学教案-6.1 比的认识(一)|北师大版
- 加法运算律教案2024-2025学年数学四年级上册 西师大版
- 2025年转让有限公司股权合同
- 一致行动人协议(2025年版)-@-1
- 一年级上册数学教案-总复习第1课时数与代数(1)∣北师大版
- 河南省三门峡市陕州区三年级英语下学期期中试题(人教PEP版-含答案)
- 《秋词》历年中考古诗欣赏试题汇编(截至2022年)
- 2025年河南省信阳市单招职业适应性测试题库及答案1套
- 2025年湖南铁路科技职业技术学院单招职业技能测试题库参考答案
- 2023智能低压配电箱技术条件
- 加油站地罐交接及容积表关系
- 电信宽带注销委托书
- 新教材人教版高中数学必修第二册全册教案
- 班(组)战斗动作训练教案
- 农产品电商运营-完整全套课件
- 唐河县泌阳凹陷郭桥天然碱矿产资源开采与生态修复方案
- 科研项目汇报ppt
- 建设工程项目法律风险防控培训稿PPT讲座
- “不作为、慢作为、乱作为”自查自纠报告范文(三篇)
- 上海市杨浦区2022届初三中考二模英语试卷+答案
评论
0/150
提交评论