2024年超威半导体研究报告:算力帝国的挑战者_第1页
2024年超威半导体研究报告:算力帝国的挑战者_第2页
2024年超威半导体研究报告:算力帝国的挑战者_第3页
2024年超威半导体研究报告:算力帝国的挑战者_第4页
2024年超威半导体研究报告:算力帝国的挑战者_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年超威半导体研究报告:算力帝国的挑战者1从端到云,AMD拥抱AI浪潮1.1复盘发展历程,AI+强化后发优势AMD成立于1969年,是全球先进的微处理器厂商,产品包含CPU、GPU、FPGA等,业务涵盖数据中心、嵌入式系统、游戏等多个方面。其发展历程主要可分为以下几个阶段:1)(1969-1990)成立初期,产品多为其他厂商的第二供应商:1969年,杰里·桑德斯等员工从仙童半导体离职,创立了AMD。在成立初期,AMD的销售主要来自军工等大企业,当时这些企业对第二供应商有着严格要求,并且对产品质量要求较高,AMD凭借高产品质量获得了这些客户的认可,成为这些客户的第二供应商,典型代表是在1982年,由于IBM希望引入除了Intel以外的第二家CPU供货商,AMD和Intel签署专利交叉授权协议,获得了Intel的X86架构技术授权。2)(1991-2005)自研x86处理器,正式和英特尔展开竞争:1987年,由于市场需求下滑等原因,Intel决定停止对AMD的授权,双方开始长达8年的专利诉讼,到1995年AMD获得了X86架构专利诉讼的胜利。尽管AMD获得了诉讼的胜利,但这8年时间对AMD拖累严重,Intel获得了市场上绝大多数市场份额,AMD决定不再满足于第二供应商的地位。1991年,AMD首次展示Am386处理器,不再作为英特尔的第二来源供应商,正式与英特尔在x86处理器方面展开竞争。3)(2006-2013)引入GPU业务,遭遇发展瓶颈:2006年,AMD收购ATI,获得同时生产高性能GPU和CPU的能力。此后英特尔不断推出新品,在CPU性能上占据优势,AMD在竞争对手的冲击下暂时落后。2012年,AMD开始了Zen微架构的研发。4)(2014-2021)推出Zen架构,重获竞争优势:2014年,苏姿丰博士担任AMD的总裁及CEO。2016年,苏姿丰博士对外展示了Zen架构微处理器。2017年,AMD发布基于Zen架构的Ryzen处理器,弥补了与英特尔的性能差距。2019年,在与台积电合作时推出了7nm先进制程的CPU及GPU。5)(2022至今)提出“AI优先”,快速抢占市场:近年来,AMD在数据中心业务上不断发力,于2022年进行重大战略调整,提出“AI优先”的发展战略;同年,AMD先后收购FPGA厂商赛灵思及DPU新锐Pensando,形成“CPU+GPU+FPGA+DPU”的数据中心芯片布局。2023年,AMD对标英伟达发布了采用CDNA3架构的MI300系列两款产品的相关细节,争夺市场份额。1.2四大业务板块,数据中心开启发力AMD共有数据中心、客户端、游戏及嵌入式四大业务板块。1)数据中心业务:利用CPU、GPU、FPGA、DPU、SoC等芯片产品为客户提供先进的数据中心解决方案。近年来随着AI行业的快速发展,数据中心业务成为公司重点布局方向。2022年公司通过收购赛灵思及Pensando完善数据中心芯片布局,23Q1推出高性能的MI300GPU加速器,对英伟达形成强有力的竞争。2)客户端业务:为笔记本电脑、台式电脑、商业工作站等提供CPU和APU产品。AMD在1000年推出Athlon处理器,进入高端处理器市场,并在2023年推出首个与X86兼容的64位处理器,助力公司市场份额提升。2005-2017年AMD受限于CPU架构,产品与Intel的差距逐渐拉大,而2017年公司推出的第一款Zen架构处理器帮助公司夺回客户端市场份额。3)游戏业务:产品包括台式机和笔记本电脑GPU,游戏机及半定制Soc。2022年AMD发布RadeonRX7900系列显卡,是全球首款采用先进的AMDchiplet设计的游戏显卡。4)嵌入式业务:面向较为广泛的市场,产品包括自适应的SoC及FPGA,嵌入式CPU和GPU等。AMD的嵌入式业务收入主要来自对赛灵思的收购,2022年一季度AMD对赛灵思完成收购,该板块业务的下游市场主要涵盖航空航天、工业、汽车、消费电子、通信和数据中心等。分业务看,游戏业务营收占比较高,数据中心及嵌入式业务营收不断提升。2023年公司数据中心业务营收占比28.64%,客户端业务营收占比20.51%,游戏业务营收占比27.39%,嵌入式业务营收占比23.46%,数据中心业务首超游戏业务成为占比最高的业务板块,客户端营收占比持续下滑。2021-2023年公司数据中心业务营收占比从22.48%提升到28.64%,上升6.16pct;嵌入式业务营收占比从1.50%提升到23.46%,上升21.96pct,数据中心及嵌入式业务重要性不断提升。1.3景气度影响短期业绩,产品组合构筑长期竞争力近年来,数据中心及嵌入式业务成为公司业绩增长的主要驱动力,但由于下游需求波动,公司短期业绩承压。2022和2023年下游市场的需求放缓对公司业绩产生了不利影响。2023年公司实现营收226.8亿美元,同比下降3.90%,实现净利润8.54亿美元,同比下降35.3%。公司业绩下降主要原因为2022和2023年全球PC和数据中心市场需求放缓。展望2024年,全球PC市场有望复苏,且AIPC将带动新一轮的PC换机周期,服务器市场也有望伴随云厂商资本开支的提升回暖。另一方面,当前数据中心在公司业务占比中持续提升,且加速卡持续发力,后续业绩有望实现较快增长。受益于产品结构优化,近年来公司毛利率不断改善。近年来公司不断推出高端处理器产品,带动毛利率持续上升,并于2022年赶超竞争对手英特尔,但仍落后于英伟达。2022年公司毛利率为45.74%,相较2021年下降2.51pcts,主要原因为游戏业务及客户端业务表现不佳;2023公司毛利率为46.14%,同比提升0.4pcts,主要原因是嵌入式及数据中心业务发展带动。2CPU:Zen架构优势凸显,助力AMD崛起2.1Zen架构王者归来2.1.1AMD凭借架构的持续迭代,打入高端CPU市场Zen架构带领AMD进入高端CPU市场,正式与Intel开启竞争。AMD在2017年以前的CPU架构为推土机(Bulldozer)架构系列,该架构在2011年首次发布,并在2012年、2013年以及2015年分别推出了名为打桩机(Piledriver)、压路机(Streamroller)和挖掘机(Excavator)的更新版架构。在推土机架构时代,AMD的CPU和英伟达产品性能相去甚远,采用“价格战”的方式维持市占率,但在2017年Zen架构推出以前,AMD在客户端CPU市场份额仍在逐年下降。Zen架构的推出,使得AMD的CPU性能大幅提升,正式与Intel同台竞技。Zen架构的研发始于2015年,2017年发布首款基于Zen1架构的锐龙一代处理器,采用格罗方德14nm工艺和更加主流的SMT多线程,CCX内有四个x86核心,每个核心都有独立的L1和L2缓存,单个模块共享8MBL3缓存,性能相较上一代产品提升40%。此后AMD稳扎稳打,连续推出后续更新版架构,每一代的产品IPC性能均提升很多。Zen架构相较于上一代推土机架构的提升主要包括性能、吞吐能力、能效三个方面。性能方面,AMD通过增强分支预测,微指令缓存等方式,增强了指令调度窗口、指令分发宽度和执行资源能力,使得CPU的单线程性能大幅提升。吞吐能力方面,Zen架构采用高带宽、低延迟的缓存系统,单个核心缓存带宽最大提升5倍;使用AMDHyperTransport总线技术用于内部核心互联,提升了互联速度。能效方面,Zen架构将制程从此前的28nm升级到14nm,大大降低功耗,并提升了CPU频率。Zen架构不断更新迭代,Chiplet成为设计的重要组成部分。Zen2架构开始,AMD采用Chiplet设计,使用小芯片作为CPU的处理器,每个小芯片都包含多个基于“Zen”的核心,其核心数从2-128不等,为消费者带来前所未有的可扩展性和灵活性。以Zen4架构的锐龙7000系列处理器为例,CPU内部含有两个CCD和一个IOD,最多可以支持16核心,其中CCD为ComputeDie,用于计算;IOD为Input/OutputDie,用于数据的输入和输出,CCD和IOD之间通过InfinityFabric技术实现芯间的高速互联。通过不同的CCD和IOD数量,AMD可以实现不同客户需求的产品部署,例如GenoaEPYC7004服务器的CCD数量达到12个,从而增强了CPU的计算能力。2.1.2AMDCPU产品矩阵根据下游应用,AMD处理器可分为服务器处理器、工作站处理器、PC处理器等多个品类。服务器处理器主要使用霄龙CPU产品,可用于云计算、数据库和数据分析、超融合基础设施和虚拟化、高性能计算等多个领域;工作站处理器主要使用锐龙CPU产品,根据不同应用场景设置锐龙ThreadripperPRO、锐龙Threadripper、锐龙PRO移动处理器三个产品品类;嵌入式处理器主要使用霄龙及锐龙CPU产品,半定制处理器使用ARM多核CPU;PC端主要使用速龙及锐龙CPU产品,具有多个细分产品品类。2.1.3客户端:短暂衰落后重回巅峰2017年以前,AMD在客户端CPU的市场份额呈现逐步下降的态势。2003年AMD推出64位指令集的K8处理器并大获成功,此后的几年时间里面AMD在客户端CPU市场站稳了脚跟。而2011年开始,AMD的推土机(Bulldozer)架构CPU产品发展缓慢,部分代际间的IPC提升不足10%,而竞争对手Intel在2012年推出的第三代酷睿系列处理器已经达到22nm制程,两家厂商之间的性能差距逐步拉大,AMD的市场份额也随之从2011年的20%下降至2017年谷底的8%。Zen架构推出后,AMD在客户端的CPU市场份额快速回升,2023年已达到22.83%。2017年,伴随AMD研发了3年的Zen架构问世,AMD在CPU处理性能上开始快速赶超,同时凭借相较Intel更高的制程,AMD的处理器在功耗、性价比方面均有优异的表现,公司的CPU市场份额也随之快速提升,2023年AMD在客户端CPU的市场份额已达到22.83%,基本达到历史最高水平。2.1.4服务器:推出霄龙系列,AMD强势回归AMD曾中途放弃服务器CPU市场,而LisaSu凭借霄龙处理器,使得AMD在服务器市场强势回归。由于投入过高,投入时间过长以及回报低等问题,AMD在2013年宣布退出服务器市场,AMD在服务器市场的份额也从2006年最高点的14%一路下降至2016年的1%。而2014年伴随LisaSu加入AMD以及Zen架构的开发,2017年AMD发布的第一代EPYC(霄龙)处理器,公司在服务器CPU的市场份额开始快速提升,2021年AMD服务器市场份额已达到15%。尽管受到全球经济下行的冲击,2022年公司市场份额有所回落,2023年公司市场份额再次同比提升2pct,达到14%。目前全球服务器市场基本被AMD和Intel两家公司主导,而凭借霄龙处理器的强劲性能,AMD已经基本在服务器市场站稳脚跟。2.2客户端CPU:7000系列性能强劲,下游市场逐步企稳2.2.1PC端锐龙7000系列处理器持续迭代PC端处理器方面,锐龙7000系列处理器对标英特尔13代酷睿处理器,二者总体性能较为相近,AMD在时钟频率、集成显卡、节能方面具有优势,英特尔在核心数量、性价比方面具有优势。1)核心数量:英特尔第13代酷睿处理器核心数更多,酷睿i9-13900系列处理器核心数可达24个,可以确保CPU的稳健表现。2)缓存:锐龙7000系列的三级缓存较大,最高可达64MB,英特尔第13代酷睿处理器二级缓存为20-32MB,显著高于锐龙7000。3)时钟频率:锐龙7000基础频率为4.5-4.7GHz,显著高于第13代酷睿处理器。4)集成显卡:锐龙7000系列的所有处理器均配备Radeon显卡,第13代酷睿处理器中有3个配备IntelUHDGraphics770显卡。5)热设计功率:第13代酷睿处理器的热设计功率为181-253瓦,压力条件下耗电量比锐龙7000系列更大。6)价格:英特尔13代酷睿处理器价格在294-589美元之间,相比于锐龙7000系列性价比更高。2023年初AMD发布锐龙7000X3D系列台式机处理器,进一步扩充高性能台式处理器产品阵容。据AMD官方披露,锐龙7000X3D处理器相比上一代性能提升14%,具有AMD3DV-Cache技术以及AM5插槽,是世界领先的游戏处理器,并于2023年2月上市。锐龙7000X3D系列产品发布进一步完善公司高性能台式处理器产品矩阵,有利于增强在PC端处理器的竞争力。2.2.2PC市场复苏,客户端业务有望企稳回升PC市场在2022年出现下滑,2Q23开始PC市场逐步回暖。2013-2018年,全球PC年出货量持续下滑,由于居家期间线上办公需求增加,2019-2021年全球PC年出货量有所回暖,从2.61亿台上升至3.39亿台。受全球经济下行影响,2022年全球PC市场出现较大下滑,2022年全球PC出货量下滑至2.83亿台,同比下降16.42%。2023年二季度开始,全球PC市场呈现复苏态势,2Q23-4Q23全球PC销量环比分别增长8.07%,7.76%和-1.41%。伴随生成式人工智能的快速发展,AIPC有望掀起新一轮的PC换机周期,AMD有望充分受益。AMD在CY4Q23客户部门实现收入15亿美元,同比+62%。公司在2024年1月推出了最新一代Ryzen8000系列PC处理器,OEM系统预计将于2024年第二季度上市。展望2024年,得益于AIPC销售的增加,PC市场空间将稳步增长,公司认为客户端业务将实现强劲增长。2.3服务器CPU:霄龙系列的重磅回归2.3.1服务器端第四代霄龙处理器性能强劲服务器处理器方面,公司在数据中心端发力,第四代霄龙处理器性能强劲。2022年,AMD推出第四代霄龙处理器,旨在打造高性能、高效率的数据中心CPU。根据Wccftech统计,SPEC2017整数基准下第四代霄龙处理器有多个产品测试得分在1000以上,显著优于英特尔可比产品至强系列8380及8362处理器;其中霄龙9654处理器测试得分为1550,是英特尔至强系列8380处理器的2.5倍。凭借出色的能效,霄龙四代处理器可帮助企业提升能源使用效率,降低成本。据AMD官方披露,在同时处理1995个虚拟化需求时,平均5台霄龙9654处理器即可满足单个企业的使用需求,而英特尔至强8380处理器则需要15台才能达到同等效果。通过使用霄龙四代处理器,企业可节省许多服务器和电力。2.3.2X86占据主导地位,服务器长期成长空间广阔服务器市场规模呈波动上升趋势,长期市场空间广阔。据IDC统计,2014至2022年全球服务器销售额从509.8亿美元增长至1215.8亿美元。从出货量看,2022年全球服务器出货量为1516.5万台,同比增长12%;据IDC预计,2026年全球服务器出货量达1885.1万台,2021-2026年CAGR达6%。AI带动全球云商资本开支快速提升,服务器市场长期成长空间广阔。3GPU市场地位稳固,数据中心开启发力3.1收购ATI,GPU架构持续升级3.1.1收购ATI,强强联合AMD的GPU业务始于2006年对ATI的收购。此次收购旨在扩大产品组合和技术能力,以提供更全面的计算解决方案。ATI创立于1985年,曾是世界著名的显示芯片生产商。起初ATI仅涉足OEM业务,为IBM等公司制造显示芯片,而后ATI自研出了性能超越IBM显卡的EGA/VGAWonder系列显卡,声名大振,从此在图形领域占据立足之地。21世纪初,图形市场竞争格局有所改变,NVIDIA接替3DFX成为新的领军企业,在此背景下,ATI又推出了Radeon显示核心与之抗衡。2002年ATIRadeon9700的率先推出对NVIDIA造成了打击,这颗芯片支持DirectX9.0,并且从显存宽位、渲染管道等方面都超越了NVIDIA产品。据JonPeddieResearch统计,2006年第一季度ATI在图形芯片市场的占有率为29%,而NIVIDA仅有19%。在收购ATI之前,AMD的业务版图内还没有图形芯片板块,主要向NVIDIA采购图形芯片,而ATI与英特尔的业务关系更为紧密,若英特尔收购ATI,业务单薄的AMD将会面临竞争压力。在2006年7月24日,AMD宣告以54亿美元收购ATI,并于10月25日完成收购,最终收购对价为43亿美元现金加5800万AMD普通股。AMD成为当时唯一一家拥有CPU+GPU技术的公司,并将ATI的Radeon品牌和技术整合到自身产品线中。3.1.2GPU持续架构迭代,性能领先AMDGPU架构保持高速的迭代,以确保产品与时俱进。最初AMD的GPU产品采用Terascale架构,主要用于游戏和多媒体应用。它采用了流处理器(StreamProcessor)的设计,支持高效的并行计算。在2010年代初,为了迎合通用计算GPU的潮流,AMD又推出了GCN架构。GCN架构是一种全新的消费类GPU设计方式,是世界上第一款28nmGPU架构,其中配有32个计算单元(2048个流处理器),每个单元中包含一个标量协处理器。同时,GCN架构中相同空间的容量由26亿个晶体管变为43亿个晶体管(GPU的最基本单元)。相较于前一代Terascale架构,GCN提高了GPU的多线程处理能力,提高了扩展能力和弹性。在此架构下,AMD推出了性能一流的AMDRadeon™HD7000系列显卡产品。在2019年和2020年,AMD相继推出RDNA架构和CDNA架构,以分别支持GPU图形显卡和通用GPU。当前最新的RDNA3架构应用于RadeonRX7900XTX和RadeonRX7900XT显卡。RDNA3架构采用了基于Chiplet设计的MCM策略,这种封装方式提供了更高的灵活性和性能优化。最重要的改进在于RDNA3架构的流处理器采用了双发射设计,这一设计大大地提升了峰值浮点性能,从而实现FP32算力的翻倍效果。此外,RDNA3架构还引入了全新的AI运算单元,每个计算单元配备两个专门的AI运算单元,可提高2.7倍的相关运行效率,为未来在人工智能领域的应用奠定基础。最新的CDNA3架构融合了5nm制程的小芯片、3D芯片堆叠技术、第四代InfinityArchitecture、下一代无限缓存技术以及HBM显存,这些元素被集成在一个封装中。CDNA3是AMDInstinct系列加速器最新产品的专用计算架构,采用先进的封装和小芯片技术。相较于AMDCDNA2架构,预计CDNA3架构在AI训练工作负载上的每瓦性能将提高超过5倍以上。在GPGPU领域,AMD采用了CDNA系列架构(CDNA、CDNA2、CDNA3)。CDNA架构在计算单元方面,分为4个ACE(异步计算单元),每个ACE包含了40个CU(计算单元),共120个CU,7680个流处理器。首个采用CDNA架构的产品是AMDInstinctMI100加速器,它拥有卓越的计算性能和强大的浮点运算能力。CDNA2架构有4个计算引擎CE,每个CE包含28个CU,总共包含了112个物理CU。是为了加速繁重的科学计算工作负载和机器学习的应用,主要应用于AMDInstinctMI200系列加速器。它使用了AMD独特的InfinityFabric来扩展跨封装的on-die模组,以使封装内的每个GCD都可以作为一个GPU使用。CDNA3架构融合了5nm制程的小芯片、3D芯片堆叠技术、第四代InfinityArchitecture、下一代无限缓存技术以及HBM显存,这些元素被集成在一个封装中。CDNA3是AMDInstinct系列加速器最新产品的专用计算架构,采用先进的封装和小芯片技术。相较于AMDCDNA2架构,预计CDNA3架构在AI训练工作负载上的每瓦性能将提高超过5倍以上。这使得MI300能够为AI训练等任务提供更高效的性能。在CDNA架构的基础上,AMD推出了RadeonInstinctAI芯片系列,助力其进军人工智能领域。RadeonInstinct提供AI加速器芯片,用于机器学习、深度学习和高性能计算等任务。这些AI芯片具备强大的并行计算能力,可提供卓越的AI推理和训练性能,有助于加快各种复杂的数据分析和人工智能工作负载。芯片具备强大的并行计算能力,为复杂数据分析和人工智能工作负载提供出色的AI推理和训练性能。它们有助于加快各种复杂任务的处理速度。3.2显卡市场稳步增长,Radeon系列经久不衰3.2.1AMD显卡产品力行业领先由于游戏、专业图形渲染等领域的旺盛需求,图形GPU市场正在稳步发展。随着游戏玩家对游戏画质和图像帧率等要求的不断升级,高性能GPU在特殊渲染算法等性能方面的支持变得至关重要,以满足游戏领域日益增长的技术需求。据Konvoy数据显示,2023年全球游戏市场规模预计为1880亿美元,到2028年将增长至2880亿美元,2023-2028年的CAGR为8.94%,这将持续拉动游戏领域对GPU的市场需求。在专业图形渲染领域,随着设计、动画及虚拟现实行业的迅速崛起,市场对高性能图形GPU的需求持续增长。随着技术的不断进步,图形设计、编辑及渲染软件得以持续优化,并充分利用高性能GPU的强大计算能力。高性能GPU的应用不仅加速了图形渲染速度,还显著提升了渲染质量,确保了高清晰度、多帧率图像的流畅呈现。根据JonPeddieResearch(JPR)报告数据显示,2023年Q3PC使用的GPU出货量(包括集成和独立显卡)为7190万,环比增长16.8%,同比下降5.1%。从长远来看,预计GPU在2022-2026年间将实现4.18%的复合年增长率,预测2026年末将逼近50亿安装基数,未来五年PC中独立显卡的渗透率将达到30%的水平。3.2.2游戏、专业渲染等应用带动显卡市场持续增长AMD深耕图形GPU多年,Radeon品牌系列显卡为其主要的GPU产品线。该产品分为消费类和工作站两个系列,面对不同的消费需求。Radeon显卡分为消费类和工作站两个系列。其中,消费类的Radeon显卡主要面向游戏、娱乐和一般图形处理等应用。它们提供高性能的图形渲染和游戏体验,并支持先进的图形技术,如实时光线追踪和可变刷新率。Radeon显卡采用不同的架构和型号命名,例如RadeonRX7000系列、RX6000系列等。而RadeonPro显卡则专注于专业工作站和创意领域的专业用户,显卡具备强大的计算和图形处理能力。RadeonPro显卡通常拥有更高的计算能力、更大的显存容量以及专业级驱动程序支持。例如RadeonProWX系列。在消费类显卡方面,AMD的主要竞争对象为Nvidia。就AMD的最新消费类芯片RX7900XTX而言,其性能已靠近Nvidia最高端的的芯片RTX4090,两者均代表着当前显卡技术的巅峰水平。RX7900XTX拥有96个光线追踪单元,虽然相比RTX4090的128个光线追踪内核数量较少,但AMD在这款显卡上增加了对DirectXRaytracing和VulkanRaytracing的支持,使其能够在光线追踪游戏中提供不错的性能。相较于RTX40901599美元的建议零售价,定价999美元的RX7900XTX以其合理的价格和稳健的性能表现,尤其是在不以光线追踪为主导的应用场景中,为预算有限的用户提供了高性价比的选择。3.3未来已至,加速卡时代来临3.3.1生成式AI“涌现”,加速卡需求突增近年来生成式AI步入快速发展期。1950年开始生成式AI出现早期萌芽,此后AIGC处于漫长的沉淀积累期,决策式AI占据主流。随着2014年生成式对抗网络等深度学习算法的提出,AIGC步入快速发展期,生成内容的丰富度和精度都有了较大的提升。英伟达CEO黄仁勋在GTC2023大会上将ChatGPT比作AI的“iPhone“时刻,AI时代加速来临,推动生成式AI加速发展。多模态大模型有望带动算力需求的进一步增长。伴随着大模型的主要交互方式从文字升级为图片、音频以及视频,大模型对训练和推理的算力需求将进一步提升。谷歌发布的Gemini模型开启了大模型的多模态时代,2024年2月16日,谷歌发布Gemini1.5,模型能力可以支持100万Token上下文的稳定处理。同一时间,OpenAI发布了sora模型,在文生视频领域获得了重要突破,60秒的视频长度和对真实世界物理引擎的更优理解,有望带动大模型视频生成行业的快速发展。大模型向视频等交互模式的升级有望带动训练侧算力需求的进一步提升,同时这些表现惊人的模型或将加速生成式AI在应用侧的落地,加速推理侧算力需求的增长。英伟达在4Q23业绩交流会上表示,目前来自推理侧的需求占比已经达到40%,伴随模型能力的进一步提升,推理侧算力需求的占比有望持续提升。OpenAI成立于2015年,从非盈利组织逐步转变为商业驱动。公司在2018-2020三年时间内连续推出了GPT-1、GPT-2和GPT-3三款产品,后在2022年底推出ChatGPT,面向公众提供生成式AI服务,引起全球AI浪潮。2023年OpenAI推出万亿参数量级的GPT-4,能力再上一个台阶。2024年2月,公司推出的Sora文生视频模型相较此前的同类型模型有着全方位的能力提升,引发全球轰动。公司计划将在2024年推出GPT-5大模型,预计将达到近百万亿参数的级别,有望进一步提升全球算力需求。谷歌早在2023年2月就推出了对标GPT的Bard大语言模型,此后在2023年5月发布了PaLM2模型。谷歌最重要的大模型产品是在2022年12月推出的Gemini1.0家族,该模型是一款具有突破性意义的多模态AI大模型,可以处理文本、代码、图像、音频、视频,Gemini有三个子模型,其中Nano被用于谷歌的Pixel8Pro智能手机中。2024年2月,谷歌发布了Gemini1.5模型。相较于此前Gemini1.0Pro版本,Gemini1.5pro将上下文处理能提从3.2万Tokens提升至100万以上,处理能力涵盖包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。同月,谷歌又推出了Gemma开源大模型,更加轻量化,保持免费且允许商用。Meta是全球最重要的开源大模型厂商,主要目的为用开源的方式快速搭建自身的生态,从而在未来更方便地获取数据和推广应用。Meta最重要的大模型产品是LLaMa模型家族,众多大模型厂商在LLaMa模型的基础上进行训练和微调,生成自己的大模型。2023年7月,公司推出LLaMa2模型,训练数据集达到2万亿token,涵盖7B、13B和70B三个模型。据Meta,公司计划在2024年7月发布LLaMa3模型,全球开源大模型能力有望全面提升。根据大模型的运算原理,训练和推理所需的算力与模型参数成正比例关系,GPT5有望带动大模型训练和推理需求的进一步增长。此前市场担忧在大模型在参数指数级提升的情况下,模型能力提升的边际效应是否会减弱,甚至停止,而验证的方法就是看2024年将要推出的GPT5的能力是否出现质变。Altman近期在采访中表示,GPT5的能力相较于GPT4将会是一个重大进步,并且他认为目前的大模型能力仍然处于初级阶段,在未来5-10年内,模型的能力提升仍将保持一条陡峭的曲线。伴随十万亿参数量级的GPT5推出,全球最强的大模型能力和参数再上一个台阶,意味着用于训练大模型的算力需求也将随之提升,同时H200、B100等加速卡依次推向市场,或将带动云厂商新一轮的算力军备竞赛。3.3.2云商算力竞赛加速,资本开支快速提升北美云商资本开支在2023年有所下滑,但伴随AI的强势增长,2024年北美云商资本开支有望重回高速增长态势。云厂商目前已成为英伟达下游加速卡最大的需求来源,由于全球经济疲软,2023年云厂商资本开支增速有所放缓,前三季度北美四大云厂商合计资本开支均为负增长,但受益于AI带来加速卡的大量需求,4Q23开始云厂商快速加大资本开支,据Bloomberg,4Q23北美四大云厂商合计资本开支为463.68亿美元,同比增长20.9%,预计2024年四大云商资本开支合计将达到1823.35亿美元,同比增长23.7%。云厂商资本开支中,AI服务器的比重快速提升。例如,Meta此前表示在2024年底将拥有35万张H100,拥有近60万个GPU等效算力,而据Omdia统计,2023年Meta采购H100数量仅为15万张。3.3.3AI持续推进,加速卡市场空间广阔全球生成式AI计算力市场规模高速扩张。据IDC数据显示,全球AI计算市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元。其中,全球生成式AI计算力市场规模2022年仅为8.19亿美元,而到2026年,其规模将扩张至109.88亿美元,年均复合增长率达到91.39%。AI算力市场的扩大将带来大量的AI芯片需求。AI芯片市场规模持续扩大,GPGPU芯片成长空间更为广阔。根据Frost&Sullivan的数据,2021年全球人工智能芯片市场规模为255亿美元。预计从2021年到2026年,全球人工智能芯片市场规模将以29.3%的复合增长率持续增长。到2023年,该市场规模将达到490亿美元;而到2026年,市场规模将增长至920亿美元。3.4MI300系列性能强劲,硬件参数领先AMD于2023年Q2官宣的MI300系列产品引得广泛关注,相较于历代产品在各方面都有了质的提升,有望与行业巨头英伟达旗下高端芯片GraceHopper媲美。在芯片设计方面,MI300基于AID(有源中介层芯片)构建块,采用台积电的N6工艺制造。该芯片配备2个HBM内存控制器、64MB末级附加内存(MALL)无限缓存、36通道xGMI/PCIe/CXL以及AMD片上网络(NOC)。在4个区块配置中,MALL缓存为256MB,而H100为50MB。AID最重要的部分是它在CPU和GPU计算方面是模块化的。AMD和台积电使用混合键合将AID连接到其他小芯片。这种通过铜TSV的连接允许AMD混合并匹配CPU与GPU的最佳比例。MI300的四个AID以超过4.3TB/s的对分带宽相互通信,通过超短距离(USR)物理层实现。每个AID共可以有2个Banff芯片,总共76个CU。MI300的最大XCD/GPU配置将提供304个CU。与具有220CU的AMDMI250X相比提升了近140%。每个AID可以有3个Zen4小芯片,总共24个核心。MI300的最大CCD/CPU配置可提供多达96个核心。在GPU方面,计算小芯片称为XCD,代号为Banff。Banff采用台积电N5工艺技术,尽管仅启用了38个CU,但它总共包含40个计算单元。从架构角度来看,MI300是一款采用先进的CPU+GPU仿生人脑结构的产品。它是AMD首个将Zen4CPU和CNDA3GPU结合的一体化产品,也是市场上首个集成了"CPU+GPU+内存"的产品。MI300采用了3D堆叠技术和Chiplet设计,配备了9个基于5nm制程和4个基于6nm制程的芯片组。在制程方面,MI300与英伟达GraceHopper的4nm制程(实属于台积电5nm体系)相当。它拥有1460亿个晶体管数量,超过了英伟达H100的800亿个和前代产品MI250X的582亿个。其核心架构为AMD的新一代CDNA3架构,具备24个Zen4数据中心CPU核心和128GBHBM3内存,并以8192位宽总线运行。相较于AMDCDNA2架构,预计CDNA3架构在AI训练工作负载上的每瓦性能将提高超过5倍以上,这使得MI300能够为AI训练等任务提供更高效的性能。MI300性能逼近H100。MI300采用了8个HBM3堆栈包围4个象限的硅晶片。新的HBM3的最高速度为5.6GT/s,八个16GB或24GB堆栈形成128GB或192GB统一内存,带宽高达5.6TB/s。与NvidiaH100SXM80GB相比,带宽提高了72%,容量提高了60%至140%。算力方面,MI300X的峰值FP16性能可以达到1331TFLOPS。3.5ROCm生态逐步建立优化3.5.1软件生态至关重要,CUDA较为领先GPU的软件生态主要包括一些开源或专有的平台和工具,它们允许开发者利用GPU进行高效的并行计算。在GPU市场中,成熟的软件生态已成为各厂商之间难以逾越的护城河。相较于不断迭代的微架构技术,生态所带来的用户粘性在长期竞争中显得更为关键。目前英伟达的CUDA、AMD的ROCm、微软的DirectX以及OpenCL、OpenGL、Vulkan等已成为主流的开发平台,为开发者提供高效、便捷的GPU计算解决方案,随着技术的不断发展和应用场景的不断拓宽,这些平台将继续发挥重要作用。CUDA是英伟达于2006年推出的一种异构计算平台,开发人员能够通过CUDA对GPU进行通用计算(GPGPU)的部署。在CUDA编程模型中,Host代表主机部分,主要由CPU和主机内存组成;而Device代表设备部分,主要由GPU和显存构成。Host与Device之间通过PCIExpress总线进行高效的数据传输和通信。这种架构使得CUDA能够充分利用GPU的并行计算能力,实现高性能的并行计算任务。CUDA在Host运行的函数库包括了Libraries、Runtime和Driver三大部分。其中,Libraries通常是一些成熟的高效函数库,RuntimeAPI则简化了应用开发过程,提供了便捷的接口和组件,让开发者能够轻松地调用并自动管理GPU资源。应用程序可以通过调用CUDALibraries或者CUDARuntimeAPI来实现所需功能。效的控制GPU资源的能力。当涉及到Device

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论