Chatgpt带来算力芯片投资机会展望_第1页
Chatgpt带来算力芯片投资机会展望_第2页
Chatgpt带来算力芯片投资机会展望_第3页
Chatgpt带来算力芯片投资机会展望_第4页
Chatgpt带来算力芯片投资机会展望_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3目录一、AIGC引发内容生成范式革命,云端算法向大模型多模态演进二、硬件基础设施为发展基石,算力芯片等环节核心受益三、国产厂商迎来发展窗口期,建议关注各环节龙头厂商四、附录4人工智能落地应用不断增加,AIGC引发范式革命资料来源:腾讯研究院,中信建投云端推理占比逐步提升,AI落地应用数量增加。随着数字经济、元宇宙等概念逐渐兴起,各行业对人工智能开发的需求日益提升,人工智能进入大规模落地应用的关键时期。2022年在云端部署的算力里,推理占算力已经达到了58.5%,训练占算力只有41.5%,预计到2026年,推理占到62.2%,训练占37.8%。一般来讲,应用完成推理之后就可以进行部署,而云端推理占比逐步提升说明,AI落地应用数量正在不断增加,人工智能模型将逐步进入广泛投产模式。AIGC是人工智能成熟度的分水岭,引发范式革命。AI模型可大致分为决策式AI和生成式AI两类,决策式AI根据已有数据进行分析、判断、预测,已经被广泛应用;生成式AI学习归纳已有数据后进行演绎,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。从决策到生成,AI技术与应用迎来跨越发展。内容生产模式从专业生成内容(PGC)和用户生成内容(UGC)逐渐过渡向AIGC阶段,标志着人类第二次脑力效率的飞跃。图表:云端推理占比逐步提升 图表:AIGC引发内容生成范式革命100%90%80%70%60%50%40%30%20%10%0%2020 20212024202520262022 2023训练 推理资料来源:IDC5ChatGPT是AIGC的开山之作,成为人工智能里程碑式产品ChatGPT是OpenAI推出的自然语言处理类(NLP)AIGC应用。Chatgpt横空出世,成为AIGC的开山之作。ChatGPT是美国OpenAI研发的聊天机器人程序,于2022年11月30日发布,是一款人工智能技术驱动的自然语言处理工具,能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。ChatGPT成为人工智能技术在快速发展过程中的里程碑式产品。ChatGPT一经推出便快速获得了全球用户前所未有的广泛参与与认可,推出两个月后月活跃用户规模达到

1

亿人,远超过

Facebook、抖音等成为了过去以来增长速度最快的消费者应用程序。ChatGPT

被视为标志性人工智能生产力工具,甚至被视为第四次工业革命开始的标志。图表:平台突破1亿月度用户所用时间(月) 图表:ChatGPT

原理概览资料来源:UBS,HTI资料来源:OpenAI293041556170789080706050403020100ChatGPTTikTokInstagram

PinterestSpotifyTelegramUberGoogleTranslate6GPT架构快速迭代,参数量与训练数据量提升带来性能飞跃ChatGPT是基于GPT架构开发的对话AI模型,参数量与训练数据量的提升带来性能飞跃。OpenAI早在2018年就已经推出第一代生成式预训练语言模型GPT(Generative

Pre-trained

Transformer),可用于生成文章、代码、机器翻译、问答等各类内容,此后GPT模型快速迭代,并且伴随着参数量的爆炸式增长,从GPT到GPT-3,参数量达到了1750亿,增长了近1500倍,预训练数据量更是从5GB提升到了45TB,

2023年3月推出的多模态大模型GPT-4参数量甚至预测达到100万亿。而随着参数量和预训练数据量的提升,模型的性能实现了飞跃式提升。图表:预训练模型参数规模与所需算力快速增加资料来源:做AI做的事儿,中信建投图表:GPT家族的演进资料来源:架构师技术联盟,中信建投模型发布时间参数量预训练数据量GPT2018.61.17亿约5GBGPT-22019.215亿40GBGPT-32020.51750亿45TBGPT-42023.3未公布未公布GPT-5?十万亿级?GPT-3.5采用海量参数预训练,大模型成为AI发展新范式资料来源:IDC7资料来源:各公司公告,中信建投ChatGPT是基于GPT-3.5微调得到的大型语言模型。GPT-3.5采用深度学习transformer模型,对大规模数据进行预训练,相比于一般的语言模型,参数量大幅提升至1750亿,所需要的算力呈指数级增长。根据OpenAI,GPT-3.5在AzureAI超算基础设施(由V100GPU组成的高宽带集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640个整日)。大模型训练性能突出,各大科技厂商积极布局。预训练大模型基于“预训练+精调”等新开发范式具有良好的通用性和泛化性,可通过零样本、小样本学习获得领先效果,大幅加速人工智能大规模产业化进程。自2020年起,中国的大模型数量骤增,仅2020年到2021年,中国大模型数量就从2个增至21个,和美国量级同等,大幅领先于其他国家。可以预见,以谷歌的BERT、OpenAI的GPT和百度的文心一言为代表的大模型,未来将成为智能化升级中可大规模复用的重要基础设施。图表:深度语言模型的参数数量呈指数级增长 图表:中国大模型生态 图表:国内公司积极布局大模型资料来源:HEITS.DIGITAL公司大模型模型底座NLP大模型CV大模型多模态大模型特色百度文心大模型飞架PaddlePaddle深度学习平台文心NLP大模型(ERNIE3.0)文心CV大模型(VIMER系列)文心跨模态大模型(ERNIE变体)构建了文心大模型层、工具平台层、产品与社区三层体系腾讯混元大模型太极机器学习平台HunYuan-NLPHunYuan-vcrHunYuan

tvr、太极文生图广告类应用表现出色阿里通义大模型M6-OFA通义-AliceMind通义-视觉通义-M6钩建了AI统一底座华为盘古大模型ModelArts盘古NLP大模型盘古CV大模型暂未上线发挥Model-as-a-serviceGPT-4性能升级,多模态加速迈向通用人工智能资料来源:OPEN

AI多模态大模型GPT-4震撼发布,性能实现大幅提升。3月15日,GPT-4正式发布,多模态大模型进化更进一步,其不仅在语言处理能力上提高,如文字输入限制提升至2.5万字,并能够生成歌词、创意文本、实现风格变化,还具备对图像的理解和分析能力,能基于图片进行总结和回答问题。在各种专业和学术基准测试中已做到人类水平的表现,如SAT拿下700分,GRE几乎满分,模拟律师考试GPT4分数占前10%,GPT-3仅为倒数10%。

GPT-4的出现标志着当前已经从语言模型突破走向多模态模型,应用前景广阔。多模态大模型大势所趋,应用场景极大丰富。多模态大模型可整合图像、语音、文本等输入输出方式,实现对多种类型和模态数据的学习、分析及生成,有望极大丰富人机交互场景。可以看到,多模态大模型将充分发挥人工智能创造价值的潜力,赋能各行各业实现降本增效,甚至加速迈向通用人工智能的步伐。图表:GPT-4的图文输入输出相为结合 图表:多模态大模型应用框架8资料来源:AIGC时代的多模态知识工程思考与展望,中信建投9算法向多模态大模型演变带来算力资源消耗快速上升ChatGPT采用大模型算法要求大规模算力等AI基础设施支持。

ChatGPT基于transformer模型,并改进训练算法,一方面采用大量数据信息分析训练,模型参数高达1750亿,另一方面要求海量数据下并行计算的能力,需要消耗巨大的算力才能支持这种大模型的训练和内容生产。具体举例,OpenAI训练使用了10000张英伟达训练卡,而训练1750亿参数的GPT-3,需要一个英伟达V100

GPU计算约355年,且需要增加并行度;此外175B模型需要显存按全精度预估在700GB左右,需要10张左右80GBA100卡。生成式AI主要依赖于人工智能大模型,参数达数十亿至数万亿个,需要庞大的数据集进行训练,致使AI算力的需求也呈现出指数级的增长。图表:ChatGPT等AIGC应用采用大模型算法,需要对应的AI基础设施支持时间机构模型名称模型规模数据规模单块V100计算时间2018.6OpenAlGPT110M4GB3天2018.10谷歌BERT330M16GB50天2019.2OpenAlGPT-21.5B40GB200天2019.7脸书RoBERTa330M160GB3年2019.10谷歌T511B800GB66年2020.6OpenAlGPT-3175B2TB355年图表:预训练模型参数规模与所需算力快速增加资料来源:做AI做的事儿,中信建投资料来源:甲子光年,中信建投算力硬件数据中心AI服务器基础芯片加速芯片CPUGPUFPGAASICNPU应用数据算法数据软件互联网医疗金融制造教育城市人工智能产业链四、附录一、AIGC引发内容生成范式革命,云端算法向大模型多模态演进11目录二、受益环节三、国产厂商迎来发展窗口期,建议关注各环节龙头厂商二、硬件基础设施为发展基石,算力芯片等环节核心受益12AI要求大规模智能算力,硬件基础设施成为发展基石资料来源:IDC资料来源:IDC31.775155.2268427640.7922.81271.402004006008001000120014002019 2020202120222023202420252026以算力芯片为核心的硬件基础设施是AI发展的基石。算力芯片等硬件基础设施是处理数据“燃料”的“发动机”,只有达到一定水平的算力性能才能实现人工智能的训练和推断以及存储、传输等相关配套功能。人工智能的云端训练和推断计算主要基于AI服务器,对算力/存力/运力/散热性能要求更高,带动算力芯片、配套硬件、机箱等设施不断升级。中国智能算力规模正在高速增长,算力芯片等硬件基础设施需求旺盛。根据IDC数据,2021年中国智能算力规模达155.2

每秒百亿亿次浮点运算(EFLOPS),2022年智能算力规模将达到268.0

EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS,2021-2026年复合增长率达52.3%。预计中国人工智能支出中硬件占比将保持最大,未来5年将一直保持65%左右的份额。看好AI大模型训练及推理需求创造的算力芯片等硬件基础设施的增量市场空间。图表:中国智能算力规模及预测,2019-2026 图表:中国人工智能支出中硬件、软件、服务占比及趋势百亿亿次浮点运算/秒(EFLOPS)13算力:CPU不可或缺,CPU+xPU异构方案成为大算力场景标配CPU的性能提升已遭遇瓶颈。过去40年间,在指令集简化、核心数增加、制程微缩、架构改进等技术变革的推动下,CPU的性能已经提升接近5万倍,但不可避免的边际效应递减。在上世纪90年代,CPU性能每年提升52%,性能翻倍只需要1.5年。而从2015年之后,CPU性能每年提升只有3%,需要20年才能性能翻倍。CPU在现代计算系统中仍不可或缺,CPU+xPU的异构方案成为大算力场景标配。CPU受制成本功耗难以匹配AI对算力需求的高速增长,CPU+AI芯片的异构方案应运而生,AI芯片类型包括GPU、FPGA和NPU等。其中,CPU是图灵完备的,可以自主运行,而GPU、FPGA等芯片都是非图灵完备的,都是作为CPU的加速器而存在,因此其他处理芯片的并行计算系统均为CPU+xPU的异构并行。图表:CPU性能提升速度放缓 图表:CPU+AI芯片的异构计算方案资料来源:《A

New

GoldenAge

for

Computer

Architecture》资料来源:华为,中信建投14算力:GPU并行计算优势明显,充分受益于AI算力需求增长GPU削弱控制能力,布局更多计算单元以加强算力。从计算资源占比角度看,CPU包含大量的控制单元和缓存单元,实际运算单元占比较小。GPU则使用大量的运算单元,少量的控制单元和缓存单元。GPU的架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。CPU+GPU是目前最流行的异构计算系统,在HPC、图形图像处理以及AI训练/推理等场景得到广泛应用。根据IDC数据,2021年中国AI芯片市场中,GPU市占率近90%。图表:2021年中国AI芯片市场规模占比资料来源:IDC资料来源:NVIDIA89.0%9.6%1.0%0.4%GPUNPUASICFPGA图表:CPU+GPU异构计算服务器拓扑图表:CPU与GPU架构对比算力:NPU在特定场景下的性能、效率优势明显,推理端应用潜力巨大资料来源:焉知智能汽车,中信建投资料来源:焉知智能汽车,中信建投NPU在人工智能算法上具有较高的运行效率。在CPU与GPU合作时,CPU负责神经网络模型的构建和数据流的传递,GPU只是单纯的并行矩阵乘法和加法运算。在CPU与NPU合作时,CPU将编译好的神经网络模型文件和权重文件交由NPU加载,完成硬件编程,NPU为每层神经元计算结果不用输出到主内存,而是按照神经网络的连接传递到下层神经元继续计算,因此其在运算性能和功耗上都有很大的提升。NPU为特定要求而定制,在功耗、体积方面具有优势,在推理端应用潜力巨大。NPU作为专用定制芯片ASIC的一种,是为实现特定要求而定制的芯片,芯片设计逻辑更为简单。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。未来随着人工智能推理端的发展,NPU应用潜力巨大。图表:CPU与GPU合作工作流程 图表:CPU与NPU合作工作流程9548720050500 1000 1500 2000 2500Samsung

S8(CPU)iphone7

Plus(CPU+GPU)HuaweiKirin

970(CPU+GPU+NPU)ImagesRecognizedPer

Minute16算力:大模型多模态发展,硬件需求从GPU扩展至周边编解码硬件GPT-4升级指引多模态发展方向,音视频编解码模块作为算力补充有望获得重视。GPT-4相比上代版本在语言处理能力上进一步提升的同时,还能支持识别和理解图像,并输出文本内容。展望未来,多模态应当具备三个基本组成部分,第一部分是图像,视频为多帧的图像;第二部分为音频;第三部分为文字。因此,随着多模态的发展,在硬件算力层面,需要面向图像、音频再增加编解码能力的支持,相关的模块包括VPU(Video

Process

Unit)、NPU等。从难度上讲,视频对于算力和IP复杂度的要求最高,其次为音频。资料来源:谷歌,中信建投图表:谷歌VPU内含多颗视频编解码核心图表:麒麟970搭配NPU,在图像识别速度上优于同代竞品资料来源:THE

TECH

REVOLUTIONIST17算力:Chiplet为后摩尔定律时代的创新,为先进制程的高性价比替代方案后摩尔时代Chiplet封装为芯片制造提供了性能与成本平衡的最佳方案,并可大幅提升制造良率。在AIGC对芯片算力持续提出更高需求的同时,芯片厂商在升级迭代产品时也需要考虑技术、成本的综合限制。Chiplet(芯粒)是一种可平衡计算性能与成本,提高设计灵活度,且提升IP模块经济性和复用性的新技术之一。将大芯片拆解成多颗芯粒分别制造,其中异构芯片可以使用针对已实现功能进行成本和性能优化的工艺技术,再辅以2.5D/3D等先进封装技术,有利于提升制造良率与单位体积内晶体管密度。因此近几年全球晶圆制造厂商积极发展先进封装工艺,并且增加2.5D和3D封装的资本开支,在后摩尔定律时代布局Chiplet成为半导体行业发展的必然趋势。资料来源:IPnest图表:基于Chiplet的异构应用处理器图表:Chiplet进行2.5D/3D封装资料来源:芯原股份,中信建投图表:芯片尺寸对良率的影响资料来源:Synopsys算力:评判算力芯片三大核心指标——计算能力、显存、互联带宽计算能力决定运算时间,算力越大完成大模型训练或者推理的时间越短INT8与FP16算力是AI计算中较为重要的评价指标。依照精度差异,算力可从INT8(整数类型)、FP16(半精度)、FP32(单精度)、FP64(双精度)等不同维度对比。与科学计算需求不同,AI应用处理的对象主要是语言、图片或视频,运行低精度甚至整形计算即可完成推理和训练。在AI推理端,8bit已经成熟,以谷歌TPU为代表的商用硬件开始大规模使用;在AI训练端,16bit混合精度逐渐成熟,商用硬件已出现Intel的NNP,NVIDIA的Tensor

core。资料来源:Intel资料来源:《Efficient

Method

and

Hardware

for

Deep

Learning》18图表:低精度为AI计算带来的好处图表:不同精度计算消耗的能量和硅片面积计算精度及操作能量消耗相对值面积消耗相对值8bAdd1116b

Add2232b

Add3416bFP

Add133832bFP

Add301168b

Mult7832b

Mult1039716bFP

Mult374632bFP

Mult12321432bSRAMRead

(8KB)167-32bDRAM

Read21333-低精度带来更少内存减少内存访问更好匹配缓存数据快速搬移更小硅片面积减少晶体管数量减少能耗更高的每秒操作数更快的计算19算力:评判算力芯片三大核心指标——计算能力、显存、互联带宽显存用于存储显卡芯片处理或者即将提取的数据显存容量决定卡的需求数量,

以ChatGPT为例,

假设模型以半精度350GB的模型大小推理的话,需要5张以上80GB

NVIDIA

A100算力卡并行计算以保证时效性;显存带宽决定了卡将数据从显存移动到计算核心的速度。显存的种类对带宽有着明显的影响。常规的GDDR焊接在GPU芯片周边的PCB板上,HBM裸片通过TSV进行堆叠,然后HBM整体与GPU通过中介层互联,因此HBM获得了极高的带宽,并节省了PCB面积。目前,GDDR显存仍是消费级GPU的行业标准,HBM则成为AI

GPU的主流选择。资料来源:AMD图表:GDDR与HBM差异图表:HBM与GDDR性能差异案例资料来源:NVIDIAGPU型号NVIDIA

A30NVIDIA

A10发布时间20212021显存种类HBM2GDDR6容量24GB24GB位宽3072-bit384-bit带宽933

GB/s600

GB/s算力:评判算力芯片三大核心指标——计算能力、显存、互联带宽互联带宽决定多卡互联虚拟化时系统运行效率目前计算卡普遍采用PCIe进行互联,而PCIe互联速度由其代际与结构决定,例如x16

PCIe

4.0单向带宽为32GB/s。NVIDIA为突破限制,自研推出NVLINK技术,4代NVLINK互联带宽已达到900GB/s。A100对华禁售后,NVIDIA推出了A800,主要修改点就是将互联速度由600GB/s下调至400GB/s,单卡性能没有损失,但大规模扩展互联性能将大幅受限。20资料来源:NVDIA资料来源:trentonsystems注:单向带宽数据图表:不同PCIe结构及代际差异图表:NVDIA

NVLINK互联技术图表:A800与A100主要差异体现在互联带宽型号A100(80GB)A100(40GB)A80080GB

PCIe80GB

SXM40GB

PCIe40GB

SXM40GB

PCIe80GB

PCIe80GB

SXM制程7nm7nm算力INT8

Tensor624|1248

TOPS624|1248

TOPSFP16

Tensor312|624TFLOPS312|624

TFLOPS内存种类HBM2eHBM2HBM2e容量(GB)80404080位宽(bit)51205120带宽(TB/s)1.942.041.561.561.561.942.04互联NVLink:

600GB/sNVLink:

400GB/sx16PCIe4.0:

64GB/sx16PCIe4.0:

64GB/s代际发布时间传输速率*带宽

x1带宽x161.020032.5

GT/s250MB/s4GB/s2.020075.0

GT/s500MB/s8GB/s3.020108.0

GT/s1GB/s16GB/s4.0201716

GT/s2GB/s32GB/s5.0201932

GT/s4GB/s64GB/s6.0202164

GT/s8GB/s128GB/s21存力:要求更高的数据读存性能,拉动存储芯片需求2)从存力需求来看,大参数调用及海量数据读存要求更强的存储能力。ChatGPT需要很庞大的通用数据集,作为训练数据的输入,此外训练与推理还需要大参数调用及海量数据读存,数据存储、访问及传输速度对模型的训练及推理效率存在显著影响,因此对应需要相应的存储服务器硬件设施,如温冷存储,数据访问加速,数据湖等;以及对大容量存储的需求,如AI服务器,除了内存需要128GB或更大容量的高性能HBM和高容量服务器DRAM,

还需硬盘去存储大量数据;另外还需要专门面向AI定制的一些存储协议、访问协议。根据IDC数据,存储在高性能/推理型/机器学习型服务器中的占比分别达29%/25%/16%。总体来看,AI服务器有望提高对高带宽内存、企业级SSD的需求,支持服务器与SSD通信的NVMe-oF

协议也有望受益搭载使用。图表:NMVe-oF助力存储与服务器的连接通信资料来源:IDC,DRAMexchage,SIA资料来源:SSDFans20%19%25%8%15%3%10%8%15%28%15%8%23%27%25%67%27%23%25%9%100%90%80%70%60%50%40%30%20%10%0%基础型高性能型推理型机器学习型图表:服务器成本构成其他 storage memory GPU CPU22运力:需要更强的数据传输速率,推动光模块技术升级3)从运力需求来看,AI需要更强的数据传输速率,带动光通信技术升级。无论是部署之后的外部访问,还是内部的数据翻译,都要有非常高速的网络连接线路或者交换机系统。数据中心场景下,光模块主要用于服务器和交换机,以及各交换机之间的连接等,AI对网络速率的需求是目前的10倍以上,将加速高速率光模块产品出货及CPO、硅光等新技术的应用。一方面,高速率光模块将加速上量,根据LightCounting,800G光模块将在23-24年开始规模化部署;另一方面,传统可插拔光模块功耗制约凸显,CPO可以减少约50%的功耗,将有效解决AI对于高速高密度互连传输要求,据LightCounting,到2027年CPO技术在AI集群与HPC渗透率将提升至30%。图表:可插拔和CPO光模块方案对比 图表:光模块的发展趋势和技术路线资料来源:芯东西,中信建投资料来源:51CTO23其他:功耗提升散热需求升级,芯片液冷市场发展潜力巨大4)从功耗与散热来看,AI服务器需要高性能散热系统。AI服务器功耗相对更高,根据《冷板式液冷服务器可靠性白皮书》,2022年英伟达单GPU芯片功耗突破700瓦,

8颗A100

服务器可达6000瓦左右,AI集群算力密度普遍达到50kW/柜。而采用风冷的数据中心通常仅可以解决12kW以内的机柜制冷,因此AI服务器的高能耗对数据中心的散热系统提出了更高的要求。当前主流散热方案正朝芯片级不断演进,芯片级散热方案主要有芯片级液冷技术、相变储热散热技术、蒸发冷却技术等。未来在国内AIGC产业快速发展带动下,AI服务器市场规模有望持续扩大,而芯片级液冷作为极具发展潜力的散热方案之一,其需求有望随之持续增加、规模不断扩大。预计到2025年,国内AI服务器芯片级液冷市场规模有望达到百亿元,行业发展潜力巨大。图表:数据中心冷却方式效果评估表 图表:单机柜功率密度与冷却方式资料来源:赛迪顾问,中信建投资料来源:绿色高能效数据中心散热冷却技术研究现状及发展趋势,中信建投三、国产厂商迎来发展窗口期,建议关注各环节龙头厂商四、附录一、AIGC引发内容生成范式革命,云端算法向大模型多模态演进24目录二、硬件基础设施为发展基石,算力芯片等环节核心受益英伟达、AMD供应受限,国产算力芯片厂商迎来窗口期资料来源:NVIDIA,AMDNVIDIAAMD禁售产品A100H100MI100MI210MI250M250X发布时间2020年11月2022年3月2020年11月2022年3月2021年11月2021年11月架构设计AmpereHopperCDNA2CDNA2CDNA2CDNA2计算单元6912个CUDA内核18432个CUDA内核120个104个208个220个FP3219.5

TFLOPS51/67

TFLOPS23.1

TFLOPS22.6

TFLOPS45.3

TFLOPS47.9

TFLOPSFP16312

TFLOPS1513/1979

TFLOPS184.6

TFLOPS181

TFLOPS362

TFTOPS383

TFLOPSINT8624

TOPS3026/3958

TOPS184.6

TOPS181

TOPS362

TOPS383

TOPS工艺制程7nm4nm7nm6nm6nm6nm显存容量80GB80GB32GB64GB128GB128GB显存带宽2093GB/s3TB/s1.2TB/s1.6

TB/s3.2TB/s3.2TB/s互联NVLink600GB/sx16PCIe4.0:64

GB/sNVLink600/900GB/s

X16PCIe5.0:128GB/sPCIe3.0&

4.0PCIe3.0&

4.0PCIe

4.0PCIe

4.0功耗400W700W300W300W500&5602W5500&560W英伟达、AMD对华供应高端GPU芯片受限。美国对华半导体管制已经从最初针对某些公司扩大到对半导体整个行业的全面限制。2022年8月,英伟达被美国政府要求其停止向中国出口两款用于人工智能的顶级计算芯片,其峰值性能和芯片到芯片的

I/O

性能等于或大于大致相当于

A100的阈值,即A100和H100两款芯片都将受到影响。AMD也同样被要求禁止将其MI100、MI200系列人工智能芯片出口到中国。当前2023年3月1日的延缓期已过,后续将无法向大陆市场出货。国产算力芯片迎来国产替代窗口期。美国对中国半导体产业发展持续打压背景下,英伟达、AMD断供进一步激发算力芯片国产化需求。当前已经涌现出一大批国产算力芯片厂商,寒武纪、龙芯中科相继推出自研GPU,海光信息的DCU(GPGPU)也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。图表:NVIDIA与AMD被限制算力芯片性能情况26寒武纪:国内人工智能芯片领军者寒武纪专注AI领域核心处理器,思元系列智能加速卡持续迭代。寒武纪成立于2016年,致力于打造人工智能领域的核心处理器芯片。寒武纪目前已推出了思元系列智能加速卡,第三代产品思元370基于7nm制程工艺,是寒武纪首款采用chiplet技术的AI芯片,最高算力达到256TOPS(INT8)。思元370还搭载了MLU-Link™多芯互联技术,互联带宽相比PCIe

4.0提升明显。思元590采用全新架构,性能相比在售旗舰有大幅提升。在2022年9月1日举办的WAIC上,寒武纪陈天石博士介绍了全新一代云端智能训练芯片思元590,思元590采用MLUarch05全新架构,实测训练性能较在售旗舰产品有了大幅提升,能提供更大的内存容量和更高的内存带宽,其IO和片间互联接口也较上代实现大幅升级。图表:寒武纪思元系列智能加速卡参数 图表:思元370系列板卡与业内主流GPU性能和能效对比资料来源:寒武纪,中信建投资料来源:寒武纪,中信建投型号思元370系列思元290系列思元270系列MLU370-X8MLU370-X4MLU370-S4MLU290-M5MLU270-S4MLU270-F4架构MLUarch03MLUv02ExtendedMLUv02制程7nm7nm算力INT8256

TOPS256

TOPS192

TOPS512

TOPS128

TOPS128

TOPSFP1696

TFLOPS96

TFLOPS72

TFLOPS显存种类LPDDR5HBM2DDR4容量48GB24GB24GB32GB16GB位宽4096

bit256

bit带宽614.4

GB/s307.2

GB/s307.2

GB/s1.23

TB/s102

GB/s互联MLU-Link聚合带宽:200

GB/s;x16

PCIeGen4:64GB/sx16

PCIeGen4:64

GB/sx16

PCIeGen4:64

GB/sMLU-Link聚合带宽:600

GB/sx16

PCIeGen4:64

GB/s×16PCIeGen.3:32

GB/s功耗250W150W75W350W70w150w27寒武纪:持续完善软件生态,强化核心竞争力寒武纪重视自身软硬件生态建设,为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件。寒武纪的基础系统软件平台主要包括训练软件平台和推理软件平台。训练软件平台支持丰富的图形图像、语音、推荐以及训练任务,同时提供模型快速迁移方法,帮助用户快速完成现有业务模型的迁移。对于推理软件平台,寒武纪新增推理加速引擎MagicMind,在

MLU、GPU、CPU

训练好的算法模型上,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上。图表:寒武纪基础软件平台图表:训练软件平台资料来源:寒武纪,中信建投图表:推理加速引擎MagicMind资料来源:寒武纪,中信建投资料来源:寒武纪,中信建投28寒武纪:与产业端强强联合,促进生态融合应用百度飞桨深度学习平台正加强与主流人工智能芯片厂商联合建设生态。百度飞桨集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,包含完整的开发、训练、推理的端到端深度学习AI模型开发工具链。其中,Paddle

Lite是一个可以在边缘端、移动端和部分服务器端等场景下用于AI模型部署的高性能轻量化推理引擎。典型应用场景包括:智能闸机、智能家居、自动驾驶、AR/VR手机应用等。随着在稳定性、兼容性和成熟度等方面不断升级,百度飞桨越来越重视与硬件厂商,尤其是与主流人工智能芯片厂商联合进行生态建设。寒武纪与百度飞浆完成适配,加速AI多场景落地。2020年4月,思元270与PaddleLite正式完成兼容性适配。2022年12月,思元370系列在与百度飞浆完成II级兼容性测试,兼容性表现良好,整体运行稳定,训练性能可以满足用户的应用需求。寒武纪旗下人工智能芯片与百度飞浆的成功适配标志着寒武纪端云一体的人工智能芯片生态,与百度飞桨代表的深度学习框架生态的成功融合。资料来源:寒武纪,中信建投图表:寒武纪与百度飞桨完成兼容性测试海光信息:深算系列GPGPU提供高性能算力,升级迭代稳步推进图表:海光信息DCU产品形态海光8100芯片数据来源:海光信息招股说明书,中信建投DCU加速卡

深算一号图表:海光信息8100主要规格海光DCU提供高性能算力。海光DCU也属于GPGPU的一种,其构成与CPU类似,结构逻辑相对CPU简单,但计算单元数量较多。海光DCU的主要功能模块包括计算单元、片上网络、高速缓存、各类接口控制器等。海光DCU可为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。一代DCU已实现规模化销售,二代升级规划稳步推进。深算一号DCU产品目前已实现商业化应用。2020年1月,公司启动了第二代DCU深算二号的产品研发工作,研发工作进展正常。图表:海光信息DCU基本组成架构数据来源:海光信息招股说明书,中信建投数据来源:海光信息招股说明书,中信建投海光

8100典型功耗260-350W典型运算类型双精度、单精度、半精度浮点数据和各种常见整型数据计算①60-64

个计算单元(最多

4096

个计算核心)②支持

FP64、FP32、FP16、INT8、INT4内存①4

HBM2

内存通道②最高内存带宽为

1TB/s③最大内存容量为

32GBI/O①

16LanePCIeGen4②

DCU芯片之间高速互连海光信息:类“CUDA”环境降低迁移成本,软硬件生态丰富数据来源:海光信息官网,中信建投海光DCU兼容类“CUDA”环境,方便CUDA用户以较低代价快速迁移。海光DCU协处理器全面兼容ROCm

GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,理论上讲,市场上规模最大的GPGPU开发群体——CUDA用户可用较低代价快速迁移至ROCm平台,有利于海光DCU的市场推广。同时,由于ROCm生态由AMD提出,AMD对ROCm生态的建设与推广也将有助于开发者熟悉海光DCU。海光DCU适配性好,软硬件生态丰富。海光DCU协处理器能够较好地适配国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要部署在服务器集群或数据中心。图表:海光信息提供完善软件栈支持图表:ROCm与CUDA的模块具有高度相似性数据来源:CSDNNVIDIA

CUDAAMD

ROCmCUDA

APIHIP(CUDA

API子集)NVCCHCCCUDA函数库ROC库、HC库ThrustParallel

STLProfilerROCm

profilerCUDA-GDBROCm-GDBNvidia-smirocm-smiDirectGPU

RDMAROCn

RDMATensorRTTensileCUDA-DockerROCm-Docker31龙芯中科:自主架构CPU行业先行者,新品频发加速驱动成长公司系国内稀缺的自主架构CPU引领者,持续构建产业生态。龙芯中科是国内唯一坚持基于自主指令系统构建独立于Wintel体系和AA体系的开放性信息技术体系和产业生态的CPU企业。公司自2020年推出自主研发的全新指令系统LoongArch后,新研的产品均是基于LoongArch指令系统,与下游应用领域加速适配。龙芯中科CPU持续升级,在服务器CPU领域已达到国内领先行列。龙芯中科研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片,依据应用领域的不同可分为工控类芯片和信息化类芯片,其中龙芯3号属于信息化类,面向个人计算机与服务器应用。公司2022年12月宣布32核服务器芯片3D5000初样验证成功,该芯片主频为2.0~2.2GHz,采用Chiplet技术。该芯片面向存储、虚拟化等常用场景,通用性较强。龙芯3D5000的推出,标志着龙芯中科在服务器CPU芯片领域进入国内领先行列。龙芯中科正在进行龙芯3D5000芯片产品化工作,预计将在2023年上半年向产业链伙伴提供样片、样机。图表:龙芯3号系列产品参数资料来源:龙芯中科官网,中信建投型号推出时间主频(GHz)峰值运算速度处理器核内存接口典型功耗主要应用场景龙芯

3A30002017年1.35-1.524GFLOPS@1.5GHz64

位四核处理器,采用全新的LoongArch

指令系统双通道DDR3-160030W@1.5GHz桌面与终端类龙芯

3A40002019年1.8-2.0128GFLOPS@2.2GHz64

位四核处理器,MIPS64兼容;双通道DDR4-2400<30W@1.5GHz<40W@1.8GHz<50W@2.0GHz桌面与终端类龙芯

3A50002021年2.3-2.5160GFLOPS64

位四核处理器,采用全新的LoongArch

指令系统双通道DDR4-320035W@2.5GHz桌面与终端类龙芯

3C5000L2021年2.0-2.2560GFLOPS64

位十六核处理器,采用全新的

LoongArch

指令系统,集成4个3A5000四通道

DDR4-3200130W@2.2GHz服务器类龙芯

3C50002022年2.0-2.2560GFLOPS@2.2GHz64

位十六核处理器,采用全新的LoongArch

指令系统,集成16个高性能LA464核四通道DDR4-3200150W@2.2GHz服务器类龙芯3D50002023年2.0-2.264位三十二核处理器,集成32个高性能LA464核八通道DDR4-3200<130W@2.0GHz,170W@2.2GHz服务器类32龙芯中科:加码GPU自研,有望与CPU形成协同效益公司自研GPU已取得实质进展,未来将持续增长在AI领域的核心竞争力。公司在上市募投项目中规划了高性能通用图形处理器芯片及系统研发项目,总投资金额10.5亿元。公司已在自研GPU上取得了实质进展。桥片7A2000已于2022年正式发布,内部集成了自研统一渲染架构的GPU核,可形成独显方案,极大减低系统成本;通用SoC芯片2K2000于2023年1月流片成功,集成了龙芯自主研发的LG120

GPU核,进一步优化了图形算法和性能。公司正在研发具有高通用性、高可扩展性的GPGPU芯片产品及软硬件体系,将加速对象从单纯的图形渲染扩展到科学计算领域,提升算力密度同时降低单位算力功耗,并在此基础上有效支持视觉、语音、自然语言及传统机器学习等不同类型的人工智能算法。项目建设完成后,将与公司的CPU

产品形成协同效应,进一步提升公司的核心竞争力。图表:龙芯中科上市募投资金规划(万元)资料来源:龙芯中科招股书,中信建投图表:龙芯中科7A2000首次集成自研GPU资料来源:龙芯中科官网,中信建投项目名称项目投资总额拟使用募集资金金额先进制程芯片及产业化项目125,760.45125,760.45高性能通用图形处理器芯片及系统研发项目105,426.45105,426.45补充流动资金120,000.00120,000.00合计351,186.90351,186.9033芯原股份:国内半导体IP龙头,技术储备丰富驱动成长资料来源:IPnest芯原股份IP产品类型丰富,下游应用广泛。芯原股份经过20余年的发展,已拥有6类自主可控的处理器IP,分别为图形处理器IP、神经网络处理器IP、视频处理器IP、数字信号处理器IP、图像信号处理器IP和显示处理器IP。公司IP产品下游应用广泛,包括消费电子、汽车电子、计算机及周边、工业、数据处理、物联网等,主要客户包括成熟的芯片设计公司和IDM、新兴的芯片设计公司,以及系统厂商、大型互联网公司等。芯原股份快速发展,跻身全球前十。从销售规模来看,根据Ipnest数据,IP市场呈现高度集中态势,2021年CR3(ARM、Synopsys和Cadence)份额占比达到65.9%,芯原股份是中国大陆唯一进入全球前十的公司,市场份额1.8%,位列全球第7。图表:芯原股份处理器IP产品 图表:IP核市场竞争格局(百万美元)资料来源:芯原股份,中信建投40.4%19.7%5.8%0.9%1.6%1.6%1.8%2.3%2.5%3.3%20.1%ARMSynopsysCadenceImaginationTechnologiesSSTCeva芯原股份AlphawaveeMemory

TechnologyRambusOthersIP功能典型应用GPUIP专用于绘图运算、图形加速和通用计算工作的数字IP可穿戴和物联网、汽车电子、PC和平板电脑NPUIP专用于加速神经网络运算、机器视觉和机器学习等人工智能应用的数字IP智能监控、智慧家庭、汽车辅助驾驶VPUIP专用于进行视频编解码,并结合视频增强处理和压缩技术的数字IP智能家居、智慧城市、云服务器视频转码DSP

IP专用于将数字信号进行高速实时处理的数字IP无线通讯、高清电视、可穿戴设备ISP

IP专用于对图像传感器的原始数据进行处理以获得优质视觉图像的数字IPAR/VR、智能家居、可穿戴设备DisplayProcessor

IP具备旋转、数据格式转换、HDR

视频处理和高质量视频缩放等显示处理功能可穿戴设备、PC、UHD电视机和投影34Chiplet产业链布局正当时,重点关注各环节龙头厂商Chiplet作为国产芯片弯道超车的重要路线,也成为了国内众厂商的必争之地。目前,国内涉及Chiplet布局的部分代表性企业如下:1)IP厂商-芯原股份:公司是国内领先的一站式芯片定制服务和半导体IP授权服务的企业,IP种类的齐备程度也具有较强竞争力,Chiplet模式具备开发周期短、设计灵活性强、设计成本低等特点,Chiplet的发展演进为IP供应商,尤其是具有芯片设计能力的IP供应商,拓展了商业灵活性和发展空间。2)工艺厂商-长电科技和通富微电:由于chiplet需要完成芯片间的键合与联通,需要在前道晶圆制造环节完成芯片间中介层的制造,长电科技在今年下半年将推出chiplet封装工艺平台XDFOI,布局高性能计算、汽车电子以及传感器应用等领域。通富微电在多芯片组件、集成扇出封装、2.5D/3D等先进封装技术方面的提前布局,可为客户提供多样化的Chiplet封装解决方案,并且已为AMD大规模量产Chiplet产品。3)封装材料-兴森科技:chiplet小芯片需要统一封装在ABF载板上实现板级连接,提升芯片间的信号传递效率,目前ABF载板主要由海外厂商供应为主,建议重点关注国内在ABF大载板领域取得突破性进展的兴森科技和深南电路。4)测试产业-伟测科技:对于构成chiplet芯片组的每一个“小芯片”都需要进行测试从而保证chiplet芯片组的性能和良率,因此部分原来进行抽检的CP测试要进行全部测试。建议重点关注第三方独立芯片测试服务厂商如伟测科技和利扬芯片。同时配套的芯片测试设备的需求将同步提升,建议重点关注测试设备厂商如华峰测控,长川科技图表:Chiplet产业链推荐标的资料来源:公司公告,wind产业链环节证券代码公司名称业务优势IP688521.SH芯原股份IP种类的齐全成都国内第一。代工688981.SH中芯国际大陆最先进代工企业,在TSV技术路线上有先发优势。先进封装600584.SH长电科技以2.5D无TSV为基本技术平台,具备成本优势,可实现2D/2.5D/3D

集成。002156.SZ通富微电晶圆级TSV,利用次微米级interposer

以TSV

将多芯片整合于单一封装。第三方测试688372.SH伟测科技CP测试业务起家,国内独立第三方测试龙头企业。688135.SH利扬芯片手握3nm芯片测试能力,量产测试阶段有序推进。测试设备300604.SZ长川科技测试机分选机齐头并进,核心性能指标上已经接近国外的先进水平。688200.SH华峰测控国产模拟测试机龙头,公司成功切入SoC测试机市场并进入加速放量阶段。封装材料002436.SZ兴森科技IC载板产能持续投入,FCBGA载板先发优势明显。002916.SZ深南电路PCB业务稳健增长,ABF载板项目进展顺利。35PCIe、CXL等高速接口,电源芯片厂商有望间接受益PCIe、CXL等高速接口是区别于传统服务器的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论