电子行业分析_第1页
电子行业分析_第2页
电子行业分析_第3页
电子行业分析_第4页
电子行业分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子行业分析一、需求测算:ChatGPT开启AI奇点,AI服务器需求大幅提升(一)GPT大模型和应用迭代速度加快,日新月异百花齐放ChatGPT是美国OpenAI公司于2022年11月30日发布的基于GPT-3.5大模型的聊天机器人程序,采用自然语言技术,能完成撰写邮件、代码、翻译等任务,开启“AI的iPhone时刻”。2023年1月末,ChatGPT的月活用户突破1亿,成为史上增长最快的消费者应用。2月7日,谷歌发布对话型AI系统Bard迎战ChatGPT。2月8日,微软将ChatGPT接入Bing搜索。3月15日,OpenAI发布了GPT-4,支持多模态输入。3月16日,微软发布了植入GPT-4技术的Copilot,AI助力Office软件生产力大提升。3月16日,百度发布了大模型文心一言,并启动内测。3月20日,阿里达摩院上线“文本生成视频大模型”,目前仅支持英文输入。2023年3月24日,OpenAI发布ChatGPTPlugin,支持第三方插件接入,并同时开源知识库检索插件源代码,“AI的AppStore时刻”到来。3月27日,百度推出“文心千帆”大模型平台,面向客户提供企业级大语言模型服务。3月28日,腾讯AILab发布自研3D游戏场景自动生成解决方案,使用AIGC技术。AI模型的训练和推理:(1)训练是指,通过对海量数据的学习,神经网络找到海量数据集中的给定的输入与结果之间的关系(搭建模型),并最终确定决定该关系的变量中所有参数的权重(Weights)和偏差(Bias)。(2)推理是指,通过使用训练后的模型,把神经网络在训练中学习到的能力(搭建的模型)应用到之后工作中去,例如图片识别、数据分析等。总结来看,生成一个大模型即为训练的过程,而将搭建好的模型于实际应用中使用,则为推理过程。在AIGC大模型的训练和推理过程中,需要大量的高性能计算(HPC)算力支持。(二)模型训练&推理算力需求测算(1)AI大模型在训练阶段算力需求测算。我们以参考NVIDIA发表的文章《EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM》中对不同参数GPT模型算力需求的计算方法及NVIDIAA100在模型训练过程的参数,对以GPT-3.5175B为代表的大模型的训练算力需求进行测算,测算主要基于以下关键假设:①考虑到大模型训练的时间要求,假设模型单次训练时间为30天,即每年可进行约12次训练;②训练阶段每个A100吞吐效率为48%。此外,我们假设每台AI服务器均配有8张A100。由此测算,单个GPT-3.5175B参数量AI大模型训练而新增的NVIDIAA100需求空间为1080个,新增的AI服务器需求为135台。考虑到各大互联网巨头正在/计划训练的模型参数量仍在持续增加,未来模型训练参数量可能达到万亿级别;同时越来越多的互联网公司加入大模型训练的阵营;我们基于以下关键假设,对用于大模型训练的NVIDIAA100、AI服务器的需求做关于模型参数、模型训练个数的敏感型分析。①假设模型单次训练时间为30天;②假设训练阶段每个A100吞吐效率为48~52%。(2)AI大模型在推理阶段算力需求测算。ChatGPT活跃用户数量迅速增加、BING搜索引擎开始接入ChatGPT、百度发布文心一言并启动内测,以GPT为代表的大语言AI模型在文字推理/生成领域的应用加速落地;此外,基于GPT的midjourney展现出较强的图片创作能力,Adobe也发布了可生成图片、视频、声音等内容的模型Firefly,AI模型在多媒体领域的推理/生成应用也在快速发展。考虑到AI模型在文字生成领域应用落地进展较快,我们对这一部分推理算力需求进行测算,基于以下关键假设:①参考谷歌月均搜索次数,假设一个谷歌级应用每日的搜索次数为30亿次;并假设30亿次问答在每日24小时中均匀分布;②假设单次问答总字数为1850字。由此测算,单个应用GPT-3.5175B模型的谷歌级文字推理应用新增的NVIDIAA100需求空间为72万个,新增的AI服务器需求为9万台。(三)算力需求推动AI服务器增长,OMD厂商及相关硬件步入黄金时代AIGC大幅提升HPC算力需求,推动AI服务器增长。AIGC大模型的训练和推理需要大量的高性能计算(HPC)算力支持,对AI服务器需求提升。据Trendforce数据,预估2022年搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,即约14万台。预计2023年出货量年成长可达8%,2022~2026年CAGR达10.8%。根据上文对训练&推理算力需求测算,并以TrendForce数据预估2022年搭载GPGPU的AI服务器出货量14万台为基数,测算训练侧与推理侧AI服务器需求对服务器出货量的拉动。100个175B训练模型对AI服务器出货量的拉动为9.6%,10个使用GPT-3.5175B模型的谷歌级推理应用对全球AI服务器出货量的拉动为643%。ODM厂商重要性日益提升。伴随着AI硬件市场迅速成长,相关服务器ODM厂商重要性日益凸显。英伟达于2017年启动全球顶尖ODM伙伴合作计划,与包括鸿海(富士康)在内的中国台湾服务器设计生产大厂成为合作伙伴,加速应用于AI的各种需求。通过HGX合作伙伴计划,英伟达将提供所有ODM厂商早期使用HGX参考架构、GPU运算技术以及设计准则等资源。利用HGX作为此领域的切入点,ODM伙伴厂商能与英伟达合作加快设计,并针对超大规模数据中心推出各种类型的认证GPU加速系统。英伟达工程师将通过此计划与ODM厂商密切合作,协助缩短从设计到产品部署上市的进程。ODM厂商受益于AI服务器量价齐升,成长空间广阔。依据上文所述,在ChatGPT等新兴AI产品对算力、带宽、GPU、高容量储存、先进散热与节能需求激增的背景下,云计算基础设施作为算力AI服务资源,其重要性日益突显。在出货量将迎来显著提升。而AI服务器内部除了2颗CPU外,一般还要配备4/8颗GPGPU以及一系列的相关配套芯片,AI训练服务器因为其对算力需求更高,单机价格较普通服务器将有较大的提升,通用服务器价格一般为几千美金/台,而主流AI服务器价格多在10-15万美金/台。AI服务器与通用服务器不同,除了2颗CPU外,一般还要配备4/8颗GPGPU。。根据counterpoint的数据,2022年全球服务器市场的收入同比增长17%,达1117亿美元。从市场份额的角度来看,2022年ODM的增长速度比2021年的整体市场高3个百分点,其中工业富联(Foxconn)在ODM厂商中占比最高,占比超过13%,表明转向ODMDirect作为大规模数据中心部署硬件选择这一趋势越发明显。随“算力革命”的加速爆发,在算力需求增长的背景下,作为占比最高的ODM企业,工业富联将依托在云服务器、高性能服务器、AI服务器、边缘服务器及云储存设备等领域的技术和产品积累,以及所拥有的全球顶尖客户群和海量生产数据,深化在算力市场的布局,有望获取更多的AI服务器需求,加速实现价值释放。2017年,英伟达与微软和鸿佰科技(富士康旗下公司)共同发布第一代HGX-1系统,搭载八颗TeslaP100GPU以实现高效AI计算功能。在此之后,公司随英伟达GPU产品升级,持续对HGX系统升级,陆续推出HGX3/HGX4系列产品,其中HGX4运算能力达到HGX1的32倍,可支持高效的平行运算能力,助力行业迎接AI带来的时代改变。AI服务器较内部构造更为复杂,AI服务器内部产品市场空间广阔。以英伟达DGXA100为例,其内部包含了8颗A100GPU、2个64核AMDRomeCPU、2TBRAM、30TBGen4NVMESSD、6个NVIDIANVSwitch以及10个NVIDIAConnext-7200Gb/s网卡。除ODM厂商受益于服务器AI升级,成长空间广阔外,AI服务器内部的算力芯片(GPU等)、连接产品(光模块、PCIeretimer、PCB等)、存储芯片(DRAM、NAND、HBM等)市场规模都有望迎来显著提升。后文中我们将分别对服务器中算、连、存三块核心产品进行分析,并对下游应用领域前景进行展望。二、算力芯片:AI服务器硬件成本的主要构成,海内外大厂积极布局(一)算力芯片是处理训练与推理的核心算力芯片是AI服务器中处理训练与推理的核心。在模型训练和推理的过程中需要大量的计算,其本质是在网络互联层中将大矩阵输入数据和权重相乘,因此主要的计算方式为矩阵计算。在矩阵计算中,每个计算都是独立于其他计算的,因此可以通过并行计算的方法来对计算过程进行加速。由于算力芯片相比于CPU拥有更多独立核心,因此深度学习和神经网络模型在算力芯片的加持下,采用高度并行的方式进行计算,可更高效地完成计算任务。从技术架构来看,算力芯片主要分为GPU、FPGA、ASIC三大类。其中,GPU是较为成熟的通用型人工智能芯片,而FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片。英伟达引领行业技术升级。NVIDIA是GPU的龙头企业,针对高性能计算,英伟达从2016年开始,陆续推出了Pascal、Volta、Turing、Ampere、Hopper五个平台架构。其GPGPU去掉或减弱了GPU的图形显示部分能力,将其余部分全部投入与图形处理无关的通用计算。随着架构持续迭代升级,其算力芯片产品在支持的数据类型、计算能力以及互联带宽等核心参数均有显著提升,对AIGC的发展起到了关键的推动作用。英伟达于2020年和2022年相继推出针对AI、数据分析和HPC应用场景的两款产品:A100和H100。与A100相比,H100的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI功能。具体到性能参数,同为SXM外形规格的H100/A100,半精度浮点算力(FP16tensorcore)分别为989.4/312TFLOPS,互连带宽分别为900/600GB/s。2023年GTC大会上,英伟达针对ChatGPT等大型语言模型的大规模部署,推出了H100NVL,其配备双GPUNVLink,将两张拥有94GBHBM3显存的PCIeH100GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型。与适用于GPT-3的HGXA100相比,一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。(二)如何理解并测算GPU算力以英伟达A100TensorCoreGPGPU为例,其架构中包括以下单元:每个GPU有7个GPC,每个GPC有7个或8个TPC,每个TPC有2个SM,每个GPC最多16个SM,总共108个SM。由多个小核心组成的SM是运算和调度的基本单元,是GPU中处理运算功能的核心。其中,每个SM有64个FP32CUDA核,64个INT32CUDA核,32个FP64CUDA核,以及4个第三代TensorCore。由于TensorCore因为专注于矩阵运算,其矩阵运算能力显著强于CudaCore,可以加速处于深度学习神经网络训练和推理速度,在维持超低精度损失的同时大幅加速推理吞吐效率,因此在模型训练与推理的过程中,TensorCore将是主要的计算内核。而在基于GA100的A100TensorCoreGPU中包括以下单元:每个GPU有7个GPC,每个GPC有7个或8个TPC,每个TPC有2个SM,每个GPC最多16个SM,总共108个SM。由多个小核心组成的SM(StreamingMultiprocessor)是运算和调度的基本单元。每个SM有64个FP32CUDA核,64个INT32CUDA核,32个FP64CUDA核,以及4个第三代TensorCore,是GPU中处理运算功能的核心。CUDACore与TensorCore功能不同。CUDA是英伟达推出的统一计算架构,几乎每款英伟达的GPU都有CUDACore,而TensorCore最早出现于于英伟达2017年发布的Volta架构中,是专为执行张量或矩阵运算而设计的专用执行单元。依据上文所述,矩阵运算是神经网络训练和推理的核心,本质是在网络互联层中将大矩阵输入数据和权重相乘,而TensorCore因为专注于矩阵运算,其矩阵运算能力显著强于CudaCore,可以加速处于深度学习神经网络训练和推理速度,在维持超低精度损失的同时大幅加速推理吞吐效率,因此在模型训练与推理的过程中,TensorCore将是主要的计算内核。GPU峰值算力的测算公式为:峰值计算能力=GPUCore的运行频率*GPUSM数量*单个SM对应的特定数据类型的指令吞吐量*2根据峰值算力测算公式,A100/H100的峰值计算能力如下:(1)TensorCore加速后的FP16峰值算力:A100FP16(TensorCore加速)峰值算力=311,869GFLOPS≈312TFLOPSH100FP16(TensorCore加速)峰值算力:=989,429GFLOPS≈989.4TFLOPS(2)CudaCore下的FP32峰值算力:A100FP32(CudaCore)峰值算力=19,491GFLOPS≈19.5TFLOPSH100FP32(CudaCore)峰值算力=66,908GFLOPS≈66.9TFLOPS峰值算力的变量主要集中在特定数据类型的指令吞吐量上。在上文以英伟达A100、H100白皮书中给到的参数对峰值算力进行计算后,并与英伟达A100/H100GPU的白皮书中披露的峰值算力进行对比,可以发现,该公式计算的结果与英伟达官方披露的性能参数一致。由此可见,GPU峰值算力与主频和硬件配置数量等参数相关。算力需求拉动GPGPU市场规模增长。根据我们第一章的测算:在训练侧,训练一个GPT-3.5175B模型的NVIDIAA100需求为1080个;训练一个万亿参数量AI大模型对A100的需求为8521个。在推理侧,一个谷歌级应用使用GPT-3.5175B进行推理,对NVIDIAA100需求为72万个;一个谷歌级应用使用万亿参数大模型进行推理,对NVIDIAA100需求为378万个。NVIDIA作为GPGPU的龙头企业,其数据中心业务的收入可以有效反映云计算和人工智能领域对具有训练或推理功能的GPU卡的需求。2022年NVIDIA数据中心业务收入达150.10亿美元,同比增长41.50%。我们认为,在AIGC需求持续提升的背景下,以GPGPU为首的算力芯片市场规模将得到显著扩容。三、连接产品:AI服务器中应用广泛,ChatGPT催化迎来量价齐升(一)光芯片/光模块:DGX服务器集群架构催生大量需求光模块/光芯片是服务器集群网络的核心部件。为实现AI大模型训练、科学计算等高算力需求工作,需要使用数百甚至上千个GPU组成的计算单元作为算力基础评估、优化模型的配置和参数。为了使这样一个庞大的计算单元能够有效发挥其效率,需要使用低延迟、高带宽的网络联接各个服务器节点,以满足服务器/GPU间计算、读取存储数据的互联通信需求,同时对整个集群系统进行管理。服务器集群的网络系统包含服务器、网卡、交换机、线缆(包含光模块)等主要硬件。就网络构成来看,网卡搭载于服务器内部,网卡直接与CPU相连或通过PCIeSwitch与GPU相连;一层交换机通过服务器机身的端口与服务器内的网卡相连;线缆用于实现服务器-交换机、交换机-交换机间的连接,如果信息传输以光信号的形式实现,线缆两端均需要搭载光模块。参考从DGX-1到DGXH100的服务器迭代历程,服务器搭载网卡数量、单端口支持最高带宽均呈现出逐代次增加趋势;相应对支持更高传输速率的交换机、更高传输速率的线缆/光模块带来了增量需求。在DGXA100和DGXH100网络集群中主要使用InfiniBand和以太网两类网络。根据服务器工作过程网络的功能,可以分为计算网络、存储网络、In-Band管理网络、Outof-Band管理网络四类。其中计算和存储使用IB网络,In-Band管理和Out-of-Band管理使用以太网。DGXA100服务器集群中单颗A100对应约7颗200G光模块需求。在140台DGXA100组成的DGXA100SuperPOD集群中,考虑计算网络和存储网络需求,共有约4000根IB网络线缆,对应约8000个端口;在全光互联方案中,平均每颗A100对应约7个200G光模块需求,其中计算、存储网络分别对应6.0、1.2个200G光模块需求,合计对应约28个50G光芯片(收发芯片)需求。DGXH100服务器集群中单颗H100对应约1.5颗800G光模块+2颗400G光模块需求。在128台DGXH100组成的DGXH100SuperPOD集群中,考虑计算网络和存储网络需求,平均每颗H100对应约1.5个800G光模块+2个400G光模块需求,约20个100G光芯片(收发芯片)需求。(二)高速接口芯片:高速接口芯片在服务器应用广泛NVLink:实现GPU间高速直联。NVLink是一种GPU之间的直接互联,可扩展服务器内的多GPU输入/输出。2016年,第一代NVLink搭载基于Pascal架构的NvidiaGP100GPU发布,其传输速率可达160GB/s;目前NVLink已迭代至第四代,第四代NVIDIANVLink总带宽为900GB/s,是PCIe5.0带宽的7倍。一代NVLink共有4个链路,单链路传输速率40GB/s;第二代、第三代、第四代NVLink分别有6、12、18个链路,单链路传输速率均为50GB/s。NVLink不仅可实现NVIDIAGPU间互联,也可以实现GPU与CPU之间的互联(CPU需要支持NVLink协议,如IBMPOWER9)。第一至第三代NVLink传输信号为NRZ调制的电信号,第四代NVLink传输信号为PAM4调制电信号;在信号传输过程,由NVLink控制器+PHY构成的组合实现信号的收发控制,其中NVLink控制器按照功能又可分为三层:PL、DL、TL。NVSwitch:实现服务器内更高带宽、更低延迟、更多GPU间通信。NVIDIA在2018GTC大会发布了首款节点交换架构——第一代NVSwitch,其上有18个NVLink端口,在单服务器节点内通过12个NVSwitch可以实现16个V100以NVLink能够达到的最高速度进行多对多GPU通信;基于NVLink+NVSwitch实现服务器节点内16颗V100互联的一台DGX-2与两台通过IB互联的DGX-1(每台内有8个V100)相比,前者AI运算速度是后者的两倍以上。目前NVSwitch已经迭代到第三代,单芯片上共有64个第四代NVLink端口,支持GPU间900GB/s的通信速度,这些通过NVLinkSwitch互联的GPU可用作单个高性能加速器,拥有高达15petaFLOPS的深度学习计算性能。CPU-DRAM间内存接口芯片。内存接口芯片是服务器内存模组的核心逻辑器件,以提升内存数据访问的速度稳定性,满足服务器CPU对内存模组日益增长的高性能及大容量需求。目前行业正从DDR4升级至DDR5。据JEDEC定义,DDR5时代,RCD和DB需支撑的传输速率从3200MT/s提升至DDR5第一子代的4800MT/s,且子代还在继续升级中。此外,DDR5世代还需配置1颗SPD、1颗PMIC和2颗TS等配套芯片,行业迎来量价齐升。澜起科技是目前全球唯二可提供DDR5全套芯片的龙头厂商(其中,SPD与聚辰股份合作提供)。CPU-GPU互联芯片。人工智能、云计算、大数据的快速发展推动服务器对数据传输的速度越来越高,PCIe协议传输速率也快速提升,但主板物理尺寸延展空间有限,信号损耗问题愈发严重,整个链路插损从PCIe3.0的22dB增长到了PCIe5.0标准下的36dB。PCIeRetimer芯片相较于更换更低损耗的PCB板和Redriver芯片等方案,信号恢复能力最强,性价比最高,从而渐成为主流方案。当前,PCIeRetimer芯片已较多应用于AI服务器、SSD扩展卡、Riser卡等典型应用场景。根据AsteraLabs的方案,一台8卡GPU的AI服务器需要8颗PCIe4.0Retimer芯片,本轮AIGC趋势可明显拉动PCIeRetimer的需求。通用服务器方面,据AsteraLabs应用方案来看,Retimer芯片可用在NVMeSSD,NIC,Riser卡等多达8个应用场景使用,单服务器用量不等。但随着PCIe5.0的渗透提升,通用服务器的主板上可有在距离CPU较远的Endpoint间使用PCIeRetimer。我们按照单通用服务器约装配1-2颗PCIeRetimer芯片。价格方面,参考TI和AsteraLabs价格,PCIe4.0Retimer芯片约24美元,PCIe5.0Retimer芯片平均价格约48.5美元,并预计后续价格年降。我们测算出PCIeRetimer芯片市场规模到2026年有望增长至7.27亿美元。(三)PCB:AI服务器需求风起,PCB升级浪潮已至AI服务器高算力需求爆发,推动PCB单机价值量提升。PCB起中继传输的作用,是电子元器件的支撑体,服务器PCB板上通常集成CPU、内存、硬盘、电源、网卡等硬件,AI服务器在以上硬件上有不同程度的增加或升级,同时AI服务器增配4至8颗GPGPU形成GPU模组,带来PCB板单机价值量提升。AI服务器PCB板价值量提升主要来自三方面:(1)PCB板面积增加。AI服务器中除了搭载CPU的主板外,每颗GPU需要分别封装在GPU模块板,并集成到一块主板上,相比传统服务器仅使用一块主板,PCB面积大幅增加。(2)PCB板层数增加。AI服务器相对于传统服务器具有高传输速率、高内存带宽、硬件架构复杂等特征,需要更复杂的走线,因而需要增加PCB层数以加强阻抗控制等性能。(3)PCB用CCL材料标准更高。AI服务器用PCB需要更高的传输速率、更高散热需求、更低损耗等特性,CCL需要具备高速高频低损耗等特质,因此CCL材料等级需要提升,材料的配方以及制作工艺复杂度攀升。服务器用PCB市场规模高速增长。作为承载服务器内各种走线的关键基材,随着服务器性能和算力升级,服务器对PCB板的性能和层数也提出了更高的要求,高层数PCB板的市场份额将继续迅速提升。AI服务器加速普及,预计随着AI服务器出货量以及在服务器中占比中不断提升,且AI服务器中PCB板面积、层数、材料提升促进价值量增长,驱动服务器用PCB量价齐升,市场持续高速增长。根据沪电股份2021年年报数据,服务器与数据存储领域PCB市场规模预计在2026年达到126亿美元,2020年到2026年CAGR为13.5%,高于同期PCB市场整体增速7.7%。四、存储芯片:HBM成高端GPU标配,充分受益于AI服务器需求增长(一)AI服务器需要高带宽支持数据处理量和传输速率大幅提升是AI服务器需要高带宽的主要原因。AI服务器需要在短时间内处理大量数据,包括模型训练数据、模型参数、模型输出等。近年来,人工智能训练能力增长迅速,各种高性能应用不断涌现。根据OpenAI数据,2012-2019年,人工智能训练能力增长30万倍。如ChatGPT基于的GPT3.5大模型的参数量是135B,庞大的数据量需要在高速通道中传输。据美光全球显存业务主管BillRandolph表示,随着数据密集型工作负载和应用程序的增长,以及不断演变的应用场景和新兴业务机会的出现,“很难想象将一个拥有超过13亿个参数的AI模型放入单个GPU(即使32GB内存)中进行处理。”AI服务器需要高带宽的连接和数据处理包括以下几个方面:(1)GPU之间的通信:在大多数深度学习训练中,使用多个GPU并行计算模型。这需要在GPU之间传输数据,以协同工作并加速训练过程。由于GPU计算速度非常快,且数据量极大,因此需要更高效率传输和存储数据。(2)CPU和GPU之间通信:在一些机器学习任务中,CPU负责数据预处理等任务,而GPU负责计算。CPU和GPU之间需要高速的通信连接来传输数据。(3)存储和内存之间通信:在深度学习训练中,需要在存储器和内存之间传输大量数据,以及在内存之间传输模型参数和中间结果。这需要高速的连接来保证数据的及时传输和处理。(4)网络通信:AI服务器还需要处理大量的网络通信,例如从客户端传输训练数据或从云端获取模型更新。这些数据也需要通过高速网络连接传输,以确保及时完成任务。GPU主流存储方案目前主要分两种:(1)GDDR方案:该方案在SoC周围有大量外设。该方案主要通过从GDDR5升级为GDDR6提高带宽,但GDDR如果要增加1GB的带宽将会带来更多的功耗,因此不利于系统性能提升。(2)HBM方案:HBM(全称“3DHighBandwidthMemory”),是一种非常紧凑的内存技术,由多个芯片垂直堆叠而成,每个芯片上都有多个内存通道。HBM可以在很小的物理空间内实现高容量和高带宽的内存,有更多的带宽和更少的物理接口,而物理接口越少,功耗越低。同时还具有低延迟的特点,但相对而言,成本更高。HBM方案目前已演进为较为主流的高性能计算领域扩展高带宽的方案。(二)HBM技术持续演进,已成为高端GPU标配HBM技术向提高存储容量和带宽演进,同时减小功耗和封装尺寸。HBM是目前高端GPU解决高带宽主流方案,AIGC热潮拉动HBM需求增加。AI服务器需要在短时间内处理大量数据,包括模型训练数据、模型参数、模型输出等。这些数据量通常都非常大,对高带宽需求大幅提升。GPU主流存储方案目前主要分GDDR和HBM两种方案。与GDDR方案相比,HBM方案由多个芯片垂直堆叠而成,每个芯片上都有多个内存通道,可以在很小的物理空间内实现高容量和高带宽的内存,有更多的带宽和更少的物理接口,而物理接口越少,功耗越低。同时还具有低延迟的特点,但相对而言,成本更高。HBM升级朝着不断提高存储容量、带宽,减小功耗和封装尺寸方向升级,目前已升级到HBM3。HBM方案最初由英伟达和AMD等半导体公司定义和推动,从最初的1GB存储容量和128GB/s带宽的HBM1发展到目前的24GB存储容量和819GB/s带宽。高速、高带宽的HBM堆栈没有以外部互连线的方式与计算芯片连接,而是通过中间介质层紧凑连接。以HBM2方案为例,相对于GDDR5,HBM2节省了94%的芯片面积。从带宽角度看,一个HBM2堆栈封装的带宽为307Gbyte/s,远高于GDDR5的带宽。HBM的特性相比DDR更适合用于AI领域。HBM能够很好满足针对AI领域内存高带宽、大容量、低功耗的需求,主要体现在:第一,HBM通过TSV和微凸块技术将3D垂直堆叠的DRAM芯片相互连接,突破了现有的性能限制,大大提高了存储容量。第二,HBM具有可扩展更大容量的特性。HBM的单层DRAM芯片容量可扩展;HBM通过4层、8层以至12层堆叠的DRAM芯片,可实现更大的存储容量;HBM可以通过SiP集成多个HBM叠层DRAM芯片,从而实现更大的内存容量。第三,由于采用了TSV和微凸块技术,DRAM裸片与处理器间实现了较短的信号传输路径以及较低的单引脚I/O速度和I/O电压,使HBM具备更好的内存功耗能效特性。第四,在系统集成方面,HBM将原本在PCB板上的DDR内存颗粒和CPU芯片一起全部集成到SiP里,因此HBM在节省产品空间方面也更具优势。在云端高性能服务器领域,HBM已经成为了高端GPU的标配。英伟达从2017年发布的V100起,一直配置最新的HBM技术,如A100使用了HBM2E,H100使用了SK海力士的HBM3。AIGC时代推动HBM需求显著增加。HBM的需求增加不仅体现在单颗GPU需要配置的HBM的Die层数增加,Stack个数增加。也体现在ChatGPT带动的AIGC热潮下,大模型训练需求提升拉动对AI服务器和AI芯片的需求,HBM在2023年来需求明显增加,价格也随之提升。据Omdia在2021年的数据,预计到2025年HBM市场规模将达到约25亿美元。我们认为,随着AIGC产业链在2023年发展持续超预期,拉动对AI服务器需求增加,HBM的市场规模增长或超该预测。(三)产业链上下游大力推进HBM海力士、三星美光等厂商紧跟HBM趋势,已发布多款产品。(1)SK海力士:在HBM领域研发走在了业界前列。2014年SK海力士与AMD联合开发了全球首款硅穿孔HBM产品,其带宽高于GDDR5产品。2022年6月实现HBM3的量产,并向英伟达大量供货,配置在英伟达高性能GPUH100之中。(2)三星:在HBM领域发展较为顺利。于2016年首次量产HBM2产品,同时发布了4GB和8GB的HBM2DRAM。2024年公司预计实现接口速度高达7.2Gbps的HBM3P,预计2025年在新一代面向AI的GPU中见到HBM3P的应用。(3)美光科技:美光科技于2020年7月宣布大规模量产HBM2E,HBM3也仍作为其产品线在持续研发之中。英伟达历代主流训练芯片基本都配置HBM。其2016年发布的首个采用帕斯卡架构的显卡TeslaP100已搭载了HBM2,随后TeslaV100也采用了HBM2;2017年初,英伟达发布的Quadro系列专业卡中的旗舰GP100也采用了HBM2;2021年推出的TeslaA100计算卡也搭载了HBM2E,2022年推出了面向大陆地区的A800,同样也配置HBM2E;2022年推出了市面上最强的面向AI服务器的GPU卡H100,采用的HBM3。五、其他产品:AI服务器需求提升,多相电源供电方案增量显著多相电源产品在AI服务器中单机价值增量显著,GPU升级推动量价齐升。AI服务器与通用服务器主要区别在于AI服务器配备4/8颗GPGPU,以满足高性能计算需求。多相控制器+DrMOS组成的多相电源解决方案是GPU的主流供电形式。我们对8卡AI服务器的多相电源解决方案产品新增需求进行测算,参考NVIDIAV100的多相电源配置,A100至少需要16相电源解决方案(1颗多相控制器+16颗大电流DrMOS的配置),则该AI服务器相较于普通服务器增加了8颗多相控制器、96颗大电流DrMOS需求,参考TI官网产品价格,两种产品价格分别约为7.7美元、2.0美元,则AI服务器单机新增多相电源产品价值量约为254美元;根据MPS数据,单台普通服务器CPU主板电源解决方案(包含多相控制器+DrMOS+POL+EFuse等产品)合计价值量约80美元;因此AI服务器单机多相电源产品价值量相较于普通服务器有数倍提升。英伟达在2023年3月21日的GTC大会发布了应用于大型语言模型部署的H100NVL新产品,具备更高算力的H100GPU为更大规模的AI模型训练提供更强大的算力支持,同时产品升级也伴随功率等级提升,H100SXM产品最大热设计功率(TDP)高达700W,远高于前代次产品A100的300W~400W。高算力GPU产品功率的提升对DrMOS的数量、性能带来了更高需求,服务器领域多相电源产品市场空间也将充分受益于服务器GPU的产品迭代和性能升级。六、下游应用:AIGC赋能千百行业,智能应用蓄势待发(一)内容生产进入AIGC时代,跨模态成为增长点内容生产已经从专业化的PGC到用户生产的UGC,现在已经进入AIGC时代。AIGC技术赋能千行百业,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着传媒、电商、娱乐、影视等领域的内容需求。AIGC不仅意味着AI的角色开始从观察、预测拓展为生成、决策,也意味着AIGC作为一种赋能技术,借助其大模型的跨模态综合能力和内容生产力,将广泛服务于各类终端行业。AIGC尚处于萌芽阶段,有望成为未来关键技术推动力。AIGC从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际工件,可用于多种活动,如创建软件代码、促进药物研发和有针对性的营销等。根据Gartner发布的《2022年新兴技术成熟度》报告显示,生成式AI仍处于技术萌芽期阶段,离技术成熟还需要花费五到十年时间。在这一阶段,生成式AI具有较大的发展潜力,有望成为未来关键技术推动力。Gartner认为生成式人工智能为2022年重要战略趋势,是最引人注目和最强大的人工智能技术之一,到2025年,生成式人工智能将占所有生成数据的10%。技术场景细分多样化,技术原理突破推动规模化应用。AIGC应用技术场景细分领域众多,按照模态区分,可以分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,多点开花。目前已经有较为明确应用的有结构化文本写作、辅助性文本写作、作曲及编曲、图像编辑、视频属性编辑等,非结构化文本写作、创意图像及视频生成、文本到图像和视频的跨模态生成预计会在未来1-2年内实现规模化应用。伴随着有关底层技术原理的不断突破和细化,AIGC将迎来快速发展和广泛应用。使用AIGC不仅可以实现降本增效,更能激发创意,提升内容多样性,降低制作成本。AIGC赋能千行百业,未来需求乐观可期。AIGC作为一种赋能型技术,能在很多行业内找到应用场景的结合点。这台“21世纪的珍妮纺纱机”基于其强大的内容生产能力,将重塑几乎所有行业,带领行业进入新时代。目前在绘画、视频制作、音乐、写作、编程等众多内容生产行业中都有显著的业务需求,在游戏、传媒、电商、娱乐、教育、金融、医疗、药研、工业等多个行业中都有望塑造更多应用场景。(二)安防:AIGC有望与安防紧密结合,驱动泛安防产业智能化升级大语言模型朝着多模态方向发展,多应用场景均开始布局。GPT4.0转向多模态,新增了图像输入,能同时进行文本和视觉处理的多模态大模型已是技术变革方向。与此同时,当前海内外大厂纷纷在更多文字生成、社交娱乐、音视频、办公等领域布局或引入大语言模型的发展,并朝着多模态方向发展。AIGC驱动安防智能化升级,市场潜力逐渐显现。AIGC作为新型的内容生产基础设施对既有的内容生成模式可产生革命式影响,一方面其已在办公、影视、绘画等内容需求丰富的行业取得显著发展,另一方面原本已和AI结合的安防、制造等行业也正在AIGC大潮下朝着更加智能化的方向发展,市场潜力逐渐显现。AIGC有望与安防紧密结合,驱动泛安防产业智能化升级。ChatGPT和AIGC技术的应用,可以帮助安防产品实现更高效的数据处理和管理,大幅提升安防系统的反应速度和处理能力,实现一定程度降本增效,推动智慧安防乃至智能物联网行业发展。近几年,传统安防已通过物联网、云计算、AI等技术升级为智慧安防。据IDC数据,视频监控、人脸识别、智能摄像头等泛安防是中国近年来已部署和计划部署的重点AI领域,也是AI最先商业化的领域之一。随着AIGC时代的来临,智慧安防可进一步升级。具体而言,ChatGPT可以通过分析和处理大量语音、文本和图像数据,帮助识别并分类人、车辆、动物等不同对象,帮助安全系统快速识别异常事件,以及实现更精细化的数据分析和挖掘,进一步提升预测准确率等。同时,ChatGPT的应用还将促进安防与其他相关领域合作,以谷歌和微软等厂商致力于利用神经网络进行机器人控制为例,将视觉数据以及大型语言模型结合起来,也可推动安防机器人的发展。ChatGPT和AIGC技术的应用,可以帮助安防产品实现更高效的数据处理和管理,从而大幅提升安防系统的反应速度和处理能力,有望实现一定程度降本增效,大力推动智慧安防乃至智能物联网行业发展。海康威视和大华股份是智能物联龙头,泛安防产品的AI产业化进展迅速。海康威视近年来积累在CV、AI等底层技术进行泛安防软硬件产品布局,并提供AI开发平台服务。截至2021年年底,海康的AI开发平台服务企业用户超过8000家,生成模型5000个,积累落地项目4000个。此外,继萤石分拆后,子公司海康机器人也申报上市,公司与AI紧密相关的创新智能物联业务进展迅速。大华股份的AI能力的落地一方面体现在端、边、云产品的产业化之中,将AI与公司产品强融合,另一方面体现在将AI与公司产品强融合通过ICC和云睿两大平台,融合数字化生态,推进产业AI化。为完成公司AI基础能力与企业业务的彼此互补,大华也打造了一款低成本、快迭代、低门槛、全协同的一站式人工智能开发平台――DahuaJinn大华巨灵平台,实现组装式算法开发模式,推动感知智能、数据智能、业务智能闭环产业化落地。(三)视觉:AIGC作为生产力工具赋能元宇宙,推动XR设备发展VR(VirtualReality,虚拟现实)是指利用VR设备模拟产生一个三维的虚拟空间,提供视觉、听觉、触觉等感官的模拟,让使用者如同身临其境。简而言之,就是不依赖于使用者自身所处的环境,完全“无中生有”。AR(AugmentedReality,增强现实)是VR技术的延伸,能够把计算机生成的虚拟信息(物体、图片、视频、声音、系统提示信息等)叠加到使用者所在的真实场景中,并与人实现互动,但使用者能区分两者区别。MR(MixedReality,混合现实)是VR向AR技术过渡的产物,将虚拟世界和真实世界合成一个无缝衔接的虚实融合世界,其中的物理实体和数字对象满足真实的三维投影关系。混合现实技术通过在现实环境中引入虚拟场景信息,在现实世界、虚拟世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实感,具有真实性、实时互动性以及构想性等特点。我们认为MR为元宇宙技术升级必经路线,有望成为各科技巨头积极布局的下一代技术。AIGC逐渐实现元宇宙的可扩展性潜力,低成本、高效率地满足VR/AR用户海量内容需求。以AR/VR作为入口,元宇宙极大扩展了人类在虚拟世界的生存空间。但元宇宙中需要大量3D场景构建,高保真3D模型单靠人工设计开发效率低、成本高。AIGC有望成为新的元宇宙内容生成解决方案,利用AI方式生成3D场景将成为未来元宇宙满足海量用户不同需求的解决之道。具体而言,AIGC技术通过提供元宇宙环境生成的基础设施、提供个性化内容体验和交互方式等,更好地满足用户需求。AIGC释放开发人员生产力,为构建沉浸式元宇宙空间环境提供核心基础设施技术。元宇宙可以应用在工作、会议、游戏以及生活社交等活动,因此需要在元宇宙空间中创建丰富的活动对象、建筑和活动环境。但是,在过去,为了构建这些数字环境,需要开发团队半手工地创建每一个部分,用鼠标拖动来放置。而现在AlGC通过实现创建逼真的3D虚拟空间环境、虚拟人物,并且效率和成本可以满足大规模的元宇宙空间环境创建。例如在游戏场景中,未来游戏的剧情、角色、头像、动作等数字原生基本元素都可以用AIGC进行生成,游戏世界地图也能通过AIGC进一步延展,极大程度释放开发人员生产力,用更少的时间编写代码,提升元宇宙建成速度。AIGC为元宇宙用户提供个性化内容体验,吸引更多用户进驻元宇宙。AIGC作为生产力工具,可以满足和填充内容匮乏的虚拟世界,同时赋予用户更多的创作自由。例如,AIGC可以帮助用户将手机拍摄的一系列照片生成可以使用的3D渲染图,帮助用户通过语音文字输入来创建可修改的3D环境。采用这种创造内容的方式,AIGC技术极大地提高元宇宙环境的创作自由,提升个性化体验,未来的元宇宙体验将不再完全由开发人员构建,而是利用AIGC响应用户的输入按需生成。AlGC在元宇宙用户交互界面发挥作用。元宇宙中存在很多类似NPC的智能体为用户提供交互服务,这些智能体可以由AlGC生成并驱动。当用户借助VR/AR设备进入虚拟空间时,ChatGPT可以作为语言模型集成到各种智能体中,充当元宇宙中的虚拟助手或伙伴,执行“智能”动作和更为复杂的任务。2022年5月,Meta宣布“CAIRaoke计划”,“CAIRaok计划”所开发的模型,将允许用户随意地与购买的AI会话助手沟通,用户可以向助手发出简单的语音指令继而创建所需的虚拟现实设置类型。XR市场规模年均复合增速为32.8%,AIGC应用推动硬件端出货量持续增长。根据IDC数据,全球VR/AR市场规模将从2021年43.43亿美元增长至2025年的361.12亿美元,CAGR为69.8%。根据Omdia数据,2023年近眼显示面板出货量有望达到2406万台,同比增长67.3%。随着索尼PSVR2、苹果MR、MetaQuest3、HTC新产品等主要产品的推出,以及AIGC未来在内容端的持续赋能,XR产业有望迎来新一轮增长。1.苹果MR头显发布在即,产业链迎来成长机遇苹果公司全方位应用AI技术,并购增强技术能力。苹果公司在手机、家居、AR等多个板块均应用人工智能技术提供智能化用户体验。包括手机端上AI语音助手Siri帮助用户完成语音控制、信息查询和智能推荐等任务、智能家居产品HomeKit应用了人工智能技术实现了家庭设备的互联互通和智能控制、AR方面增强现实技术平台ARKit,通过机器学习和计算机视觉技术实现了高质量的增强现实体验等。苹果通过收购初创企业持续扩张AI技术能力,特别在面部识别、表情分析、动作捕捉处理、图像视觉等涉及AI+MR应用领域方面,利用并购持续增强技术能力。2010年,苹果收购瑞典面部识别技术公司PolarRose,布局面部识别相关技术。2013年,苹果收购PrimeSense公司,从布局实时3D运动捕捉相关技术。2015年,苹果收购专门从事面部动画和动作捕捉的Faceshift。2016年,苹果收购研发面部表情分析工具的Emotient,该公司通过人工智能及机器学习技术来分析人类表情;2017年,苹果收购从事面部识别技术的网络安全和机器学习公司RealFace,该技术有可能用于未来的增强现实功能。2018年,苹果收购瑞士公司Flashwell,从事AI图像视觉研发。苹果自2015年以来,已收购多家初创企业,持续在AI领域扩张,不断汲取优秀的技术人才。AIGC技术叠加Siri语音助手,有望助力苹果在头显中实现虚拟世界的ChatGPT。2022年苹果首次展示了GAUDIAI用于沉浸式3D场景生成的神经网络AI系统,可以根据文本提示创建3D场景,实现3D场景的AIGC。GAUDI模型通过三个专门的解码器实现3D场景的AIGC:相机姿态解码器对相机可能位置进行预测,并确保3D场景输出的位置有效架构的有效位置;场景解码器负责形成3D的画布来展示物体;辐射场解码器负责渲染绘制后续图像。凭借GAUDIAI系统,苹果正在为渲染3D对象和场景的生成式人工智能系统奠定基础,这一系统可能应用于苹果的XR头显中,实现3D内容生成。进一步地,GAUDI模型有望与Siri结合实现低门槛的3D场景生成功能,据TheInformation报道,苹果MR头显对话式系统与MetaBuilderBot类似,帮助用户利用Siri语音助手,通过与Siri语音交互对虚拟动物设计、场景移动方式等描述以实现三维场景创建,此外系统还可以计算出物理空间中的障碍物,并为虚拟动物附加自然的物理交互。GAUDI与Siri的结合,有望帮助苹果头显中实现虚拟世界的ChatGPT。苹果MR头显产品发布在即,具备四大核心亮点。预计苹果公司首次推出的MR设备将以专业人士和开发者为主要用户,服务于高端市场。根据Metaverse元宇宙,苹果MR头显具备四大亮点,包括一键切换VR/AR模式,可以使产品更好地与现实世界直接结合,为MR内容交互提供更多的空间;眼动追踪及手部追踪功能,能够更好地提升用户体验,突破交互方式;视频会议功能,能在虚拟世界中逼真地渲染用户的面部和全身,增强体验感;外接生产力工具方面,苹果MR头显能够作为连接Mac的外部显示器,并且用户还能在戴上头显之后,使用触控板或者鼠标、物理按键控制设备。根据苹果官网,年度全球开发者大会(WWDC)定档于北京时间2023年6月6日至10日,旨在展示iOS、iPadOS、macOS、watchOS和tvOS的前沿创新。主攻教育、健康、游戏、视听四大应用场景,AppleTV+团队或成内容研发主力。苹果围绕健康、教育、游戏、视听四大场景对其MR内容有所布局,例如开发有助于冥想和锻炼的AR应用程序,让用户在看书的过程中体验到奇幻的环境与现实世界融为一体的感受,让用户处于沙漠或者太空场景中观看视频,创建底层引擎为MR游戏提供支持。根据Metaverse元宇宙,苹果的内容团队由一个代号为Z50的团队研发,规模约为几十人,该团队成员多数都是来自视频、游戏等领域,其主要任务为根据自身过去的流媒体服务AppleTV+中的经验,为MR头显打造内容。彭博社记者MarkGurman报道,苹果正在将自家常用的FaceTime、笔记等软件移植到头显当中,另外它也可以充当Mac设备的“第二屏”。2.Pico背靠字节跳动,有望持续获得AI技术加持字节跳动持续布局AI技术,Pico作为主力终端产品有望充分受益。2021年Pico被字节跳动收购。作为国内顶尖的互联网企业之一,字节跳动2012年发布今日头条,以人工智能推荐算法起家,AI底蕴深厚。2016年,字节跳动人工智能实验室(AILab)成立,成立时聚集马维英、李航、李磊等AI领域超级大牛,为平台持续提供AI技术支持,研究领域涵盖计算机视觉、自然语言处理、机器学习、语音音频处理、数据知识挖掘、计算机图像学等各个领域。此后在各个AI应用领域,字节AI技术研发与应用持续深化;2018年,字节跳动“端上智能计算机视觉算法平台”项目获得CCF科技进步卓越奖;2019年,字节推出头条搜索使用机器学习根据用户行为对搜索结果进行个性化设置、推出剪映利用人工智能赋能视频剪辑自动化视频编辑任务、收购AI游戏技术研发商深极智能,在搜索、视频、游戏等不同方面深化人工智能算法应用;2020年,字节推出重磅产品火山引擎,提供多个领域人工智能开发与运维等服务,并推出切入AI教育硬件领域推出产品大力智能家教灯,通过AI摄像头实现远程作业辅导;2021年,字节推出面向开发人员和企业的AI工具和服务BytePlus,并切入AI+医疗领域,旗下医疗品牌“小荷健康”研发了一款结肠镜AI辅助诊断软件,并与清华大学合作首次提出了神经网络配音器;2022年联合南京大学、清华大学人工智能产业研究院提出AI药物设计方法。在与VR相关的渲染技术、动作捕捉、图像内容生成等人工智能技术上,字节跳动具备强大技术积累,Pico作为字节跳动在VR/AR领域探索的主力产品,有望持续得到字节AI技术加持。Pico利用AI算法赋能虚拟场景生成,为内容提供更强技术支持。2022年,Pico正式推出了官方MRC(MixedRealityCapture,混合现实录制)。对比MetaQuest需要个人电脑以及绿幕背景,Pico利用深度学习抠图模型,将人物从物理环境中抠出并且叠加到虚拟游戏空间中,配合无线投屏技术实现更低门槛、更高质量的MR视频制作。此外,在虚拟演出这一场景中,Pico也开发了针对VR场景的AI灯光变化系统、AI智能音频分析系统等,在旗下VR音乐互动产品BIT-CLUB中运用,呈现超现实的VR电音现场,为用户展现出更为极致的视觉体验。3.Meta在AI领域底蕴深厚,产品配置迭代升级Meta在AI领域研发底蕴深厚,具有世界级话语权。由于社交平台在推荐算法、广告、搜索排名、推荐以及用户数据分析等方面的需要,Meta很早便开始布局人工智能技术。2013年4月成立人工智能研究机构FAIR,FAIR主要成就包括发布开源机器学习框架PyTorch、自然语言处理模型PyText等等。同时,Meta在AI领域通过收购实现技术拓展。2016年Meta收购面部表情分析技术公司FacioMetrics以及聊天机器人开发工具的公司TugboatYards;2017年收购人工智能个人助理应用Ozlo和神经网络初创公司Deeplearning.ai;2018年收购了开发用于理解和总结文本的自然语言处理技术英国初创公司BloomsburyAI:2019年收购开发大脑信号控制计算机技术的CTRLlabs、收购计算机视觉初创公司ScapeTechnologies;2020年收购利用人工智能和机器学习帮助企业管理客户互动的公司Kustomer;2021年收购使用人工智能和机器学习创建交互式游戏体验的公司Unit2Games、收购AI声音识别公司AudioAnalytic。Meta在AI领域并购数量较多,持续在AI技术领域扩张,不断汲取优秀的技术人才。Meta持续探索AI技术,布局AI+VR/AR全面覆盖前沿功能。2021年末Meta将其AI团队合并入负责开发AR/VR产品的Realit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论