版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目
录ChatGPT:生成式AI引爆技术奇点AI+Chiplet:信息革命的基石AI还可以买什么?0102030501ChatGPT:生成式AI引爆技术奇点ChatGPT:生成式AI引爆技术奇点01➢
AIGC全称为AI-Generated
Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic
media,合成式媒体,主要指基于AI生成的文字、图像、音频等➢
2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、、北京大学、百度等参与者的关注点。➢
2022年12月,ChatGPT
3.5令人惊艳的使用体验引爆社会热潮,搜索热度和用户增长都出现了极为明显的提升。➢
目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用于Writesonic、
Conversion.ai、
Snazzy
AI、Copysmith、
Copy.ai、
Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于AI
dungeon等文本具有重要意义的延展应用领域。ChatGPT搜索热度居高不下各应用1亿用户达成时长(月)120100806040200807060504030201009080706050403020100ChatGPT
TikTok
Spotify
TelegramUberGoogleTranslate2022/12/12023/1/12023/2/17日均线2023/3/1ChatGPTSpotifyTikTokInstagramUberPinterestGoogleTranslate搜索热度Telegram资料:Google
Trends,甲子光年,长江证券研究所ChatGPT:生成式AI引爆技术奇点01➢
过去传统的人工智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种用途,比如应用最为广泛的个性化推荐算法。而现在人工智能正在生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。因此,从这个意义上来看,广义的AIGC
可以看作是像人类一样具备生成创造能力的Al技术,即生成式AI它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D
交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现创造新的价值和意义等。因此,AIGC
已经加速成为了AI
领域的新疆域,推动人工智能迎来下一个时代。内容创作模式的四个发展阶段生成式AI技术的成熟应用进程时间表2020年之前202020222023?2025?2030?诈骗垃圾信息识别垂直领域的文案撰写实现可精调(论文等)文本领域代码领域图像领域更长的文本二稿终稿,水平高于人类平均值终稿,水平高于专业写手基础文案撰写初稿翻译基础问答回应根据文本生成终版应用程序,比全职开发者水平更高更长的代码更精确的表达支持更多语种领域更垂直根据文本生成初版应用程序单行代码补足多行代码生成艺术图标摄影终稿,水平高于专职艺术家、设计师等模仿(产品设计、建筑等)终稿(产品设计、建筑等)视频/3D/游戏领域AI版Roblox可依个人梦想定制的游戏与电影视频和3D文件的基础版/初稿3D/视频模型的初步尝试二稿大模型可用情况初步尝试基本实现未来潜力资料:《AIGC发展趋势报告2023》腾讯研究院,长江证券研究所人工智能带来的生产力变革风声已近01➢
追求生产力的提升和生产关系的优化,是人类社会发展的根源动力和核心目标,而生产力升级的最本质目标就是效率提升和成本降低。从人类社会四次工业/科技革命来看,第一次工业革命的核心成果是以蒸汽机为代表的机械替代人力,第二次工业革命是以电力、燃油为代表的能源突破,第三次是以计算机及信息技术为代表的信息结构性变革和自动化生产,其共同的特征就是生产规模的不断扩大、生产方式上科技应用不断地向工业和社会的更高层结构渗透。底层的、低技术含量的、规模庞大的生产模块不断被机器替代,人力生产持续向高层的、复杂的、尖端的生产方式和技术模块演进,是一个不变的趋势。历次工业革命中国人工智能场景发展程度第一次工业革命机械时代第二次工业革命电气时代信息革命信息时代智能革命(进行中)智能时代核心成果标志事件机械织布机、蒸汽机发电机、内燃机计算机、互联网人工智能19世纪70年代:传送带、
20世纪40-90年代:计算机1784年第一台机械织布机
电灯、发电机、内燃机、
、航天技术、原子能(核
高效能运算、智能手机、无线电报
能)、互联网、材料技术网络升级(5G)、物联网、20世纪初:流水线、飞机
、移动终端、移动互联网人工智能1785年蒸汽机、汽车等第一次工业革命的新增工业部门如钢铁、煤炭、机械加工等的发展电力驱动多种工业部分发展手工业发展瓶颈数据在社会中的全面渗透多种科学的理论和应用发展连携提速,科学技术转
在材料等多种基础工业突化为直接生产力的速度加快以法拉第的电磁学为代表学等自然科学积累
的自然科学开始引领工业进步发展基础(技术层面)牛破下算力的指数增长信息传递的广覆盖、高精度、低延迟智能拟人化、计算规模化、数据渗透全面化,智能应用覆盖社会全场景机械制造,人力解放进程
能源升级,机械应用基础
信息处理与传递演进,科意义特征开始夯实技应用指数增长科技革命形态转变,出现较强民用倾向工业革命主要围绕生产工业革命向军事蔓延尖端科技向民用下沉的速度开始加快,尖端、军用科技研究方向外开始出现专业的科技民用化的研究方向智能革命浪卷人类社会全方面蒸汽机、机械使得制造业中工厂开始替代原始私人作坊流水线使得单一工厂生产向产业链分工生产转变资料:IDC,长江证券研究所人工智能三要素逐步成熟,推动行业进入爆发期01➢
AIGC的本质是内容与场景,其发展需要AI与后端基建,算法、算据和算力三要素耦合共振。AIGC的三大发展阶段是:➢
模型赋智阶段(从现实生成数字):AIGC利用AI技术构建模拟现实世界的数字孪生模型;➢
认知交互阶段(从数字生成数字):A能够学习并创作更丰富的内容
;➢
空间赋能阶段(从数字生成现实):AIGC基于物联网,多模态技术获取多维信息,实现更加智能的人与机器互动。➢
市场规模:2021
年,全球人工智能市场收支规模(含硬件、软件及服务)达
850
亿美元。IDC
预测,2022
年该市场规模将同比增长约
20%至1017亿美元,并将于
2025
年突破
2000
亿美元大关,CAGR
达24.5%,显示出强劲的产业化增长势头。2021年,中国人工智能市场收支规模达到
82亿美元,占全球市场规模的9.6%,在全球人工智能产业化地区中仅次于美国及欧盟,位居全球第三。IDC
预测,2022
年该市场规模将同比增长约
24%至
102
亿美元,并将于
2025
年突破
160
亿美元。人工智能三要素逐步成熟,推动行业进入爆发期全球及我国人工智能市场收支规模及预测(亿美元)数据层面标注大数据语料库高精度训练集2500200015001000500投喂计算任务2042训练算力层面算法层面1017核心技术突破多模态认知计算850数据数据巨量化硬件算力-本地化16182102AIGC0实时算力-云计算20212022E全球
中国2025E认知交互力算法跨模态融合算力内容创造力感知+交互数字孪生虚拟现实全息立体应用场景智能交互-边缘计算资料:甲子光年,IDC
Global,IDC
China,上海数字大脑研究院,长江证券研究所大模型参数量快速提升,算力需求大幅增加01➢
大模型主要由各大龙头企业推动,在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。➢
大模型最核心的除了算法外主要是参数的设置,其中参数量(Params)形容模型的大小程度,类似于算法中的空间复杂度,往往参数量越大(复杂程度越高)的神经网络模型对算力的需求程度更高,复杂的神经网络模型的算法参数量约千亿级别甚至万亿级别,与已知应用级别的呈现指数级别的差异。这些模型不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。主要大模型建设情况各大主要模型的参数量巨大厂商预训练模型BERT应用语言理解与生成对话系统参数量(亿)4810-LaMDA谷歌PaLMImagenParti语言理解与生成、推理、代码生成语言理解与图像生成语言理解与图像生产视觉识别54001102006.417017501501228004141750120FlorenceTuring-NLGOPT-1758M2M-100GatoGopherAlphaCodeGPT3微软语言理解、生成语言模型100种语言互译多面手的智能体语言理解与生成代码生成FacebookDeepMindOpen
AI语言理解与生成、推理等图像生成、跨模态检索代码生成CLIP&DALL-ECodex120ChatGPT语言理解与生成、推理等-英伟达
Megatron-Turing
NLGStability
AI
Stable
Diffusion语言理解与生成、推理等5300-语言理解与图像生产资料:StarLab,《AIGC发展趋势报告2023》腾讯研究院,长江证券研究所大模型参数量快速提升,算力需求大幅增加01➢
大模型主要由各大龙头企业推动,在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。➢
大模型最核心的除了算法外主要是参数的设置,其中参数量(Params)形容模型的大小程度,类似于算法中的空间复杂度,往往参数量越大(复杂程度越高)的神经网络模型对算力的需求程度更高,复杂的神经网络模型的算法参数量约千亿级别甚至万亿级别,与已知应用级别的呈现指数级别的差异。这些模型不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlop/s-day的计算资源。大模型的基础是庞大的算力基建2018年后大模型训练算力需求显著提升资料:甲子光年,英伟达,长江证券研究所大模型参数量快速提升,算力需求大幅增加01➢
1、算力总需求量=参数量*词条长度(单个词语计算次数,单精度)*训练词数➢
2、GPU总需求量=算力总需求量/单张加速卡算力/计算用时➢
按照175B的参数规模测算,若训练时长为1个月,则英伟达A100
GPU需要张数超6000张,A100加速卡成本1.56亿美元;若参数量提升至481B,则加速卡成本上升至4.28亿美元;若481B模型的计算时间限制为一周,则仅加速卡成本将达到18.35亿美元。又好(参数量大)、又快(迭代时间短)的需求将大幅推升龙头厂商的硬件军备竞赛。➢
同时,由于22.10的新制裁方案,A100对国内是禁售的,需要申请新的出口许可,因此保质保量的国内供应商是国内龙头厂商正在迫切寻找的。主要大模型算力加速卡需求情况参数量(亿)训练词数
单个词语计算计算用时(h)仅考虑A100GPU成本
A100成本(亿美厂商预训练模型应用总计算量(万亿亿次)
算力(TFLOP/s)GPU需要数量(颗)(亿)次数(亿美元)元)BERT语言理解与生成481030006865819.5720171301.714.28LaMDA对话系统---------PaLM语言理解与生成、推理、代码生成540030006972019.5720192311.924.81谷歌ImagenParti语言理解与图像生成语言理解与图像生产110200300030006619836019.519.57207203927120.040.070.100.18FlorenceTuring-NLGOPT-1758M2M-100Gato视觉识别语言理解、生成语言模型100种语言互译多面手的智能体语言理解与生成代码生成6.41701750150123000300030003000300030003000666666611.52306315027021.65040745.219.519.519.519.519.519.519.572072072072072072072023605623253443997214740.000.060.620.050.001.000.150.010.151.560.130.012.490.37微软FacebookDeep
MindOpenAIGopherAlphaCode2800414GPT3语言理解与生成、推理等175030006315019.572062320.621.56CLIP&DALL-ECodex图像生成、跨模态检索代码生成120120-30003000-66-216216-19.519.5-720720-427427-0.040.04-0.110.11-ChatGPT语言理解与生成、推理等英伟达Megatron-Turing
NLG语言理解与生成、推理等530030006954019.5720188751.894.72StabilityAIStableDiffusion语言理解与图像生产---------资料:《AIGC发展趋势报告2023》腾讯研究院,长江证券研究所(单个词语计算次数即单精度假设为均为6次;算力假设为英伟达Tesla
A100
GPU算力19.5TFLOPS;A100成本为包含8张Tesla
A100及配套芯片,即整机价格)大模型参数量快速提升,算力需求大幅增加01➢
人工智能技术将全面赋能各行各业。预计到2025年,人工智能涉及的场景规模将达到2,081亿美金,并在无人驾驶、智慧金融、智慧医疗、智慧零售、文娱等领域大显身手。人工智能技术对于算力的核心拉动点在于未来各应用场景内单设备芯片算力的增长和人工智能技术的行业渗透率的进一步提升,带动对云计算中心、边缘设备和终端NPU的巨大需求。整体预计在
2030
年,人工智能相关领域对于算力的需求将达到~16,000
EFLOPS,相当于1,600亿颗高通骁龙855内置的人工智能芯片所能提供的算力。大模型的基础是庞大的算力基建仅人工智能相关应用就将带来海量算力需求14001200100080060040020001271.4922.8640.7427268155.247.795.5111.37539.667.980.356.530.311.72019202020212022E2023E2024E2025E2026E中国通用算力规模(EFLOPS)中国智能算力规模(EFLOPS)资料:IDC,《泛在算力:智能社会的基石》,长江证券研究所02AI+Chiplet:信息革命的基石应用-软件-硬件循环向上,AI芯片发展多元变化02AI芯片相关技术关键技术对算力的具体要求资料:《人工智能芯片技术白皮书(2018》清华大学,北京未来芯片技术高精尖创新中心,《泛在算力:智能社会的基石》,长江证券研究所应用-软件-硬件循环向上,AI芯片发展多元变化02中国AI芯片市场规模占比(IDC)AI芯片的目标领域1.0%
0.4%9.6%GPUNPUASICFPGA89.0%主要AI相关芯片的市场规模及增速(百万美元,Gartner)202020212022E2023E2024E2025E2026ECAGR
2021-2026E应用处理器(分立或嵌入式)17,77326,81033,03738,22943,13445,95648,64013%DSPFPGAGPU614326910214398,8971521870216239872%58%21%1152609241442912478658697,23110,55912,166MCU/SoC微处理器191,12840492,107861063,5101562125,8362912867,6694754729,45568375411,36088173%40%59%70%嵌入式微处理器其他ASIC3376841,2882,5354,6606,8959,663资料:Gartner,《人工智能芯片技术白皮书(2018》清华大学,北京未来芯片技术高精尖创新中心,IDC,长江证券研究所(注:Gartner统计AI芯片口径包含服务器以外如AIoT、手机、笔电等应用;IDC口径则以服务器AI相关芯片为主)应用-软件-硬件循环向上,AI芯片发展多元变化02➢
以人工智能芯片为例,目前主要有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以CPU、GPU、FPGA、ASIC为代表。当前阶段,GPU配合CPU是AI芯片的主流,而后随着视觉、语音、深度学习的算法在FPGA以及ASIC芯片上的不断优化,此两者也将逐步占有更多的市场份额,从而与GPU达成长期共存的局面。➢
深度神经网络算法是大型多层的网络模型,典型的有循环神经网络和卷积神经网络,模型单次推断通常需要数十亿甚至上百亿次的运算,对芯片的计算力提出了更高要求,同时对器件的体积、功耗还有一定的约束。四类逻辑芯片特性比较主要AI芯片的功能特性比较GPU通用型好FPGA半定制化好ASIC定制化不好低定制化程度灵活性成本高较高Verilog/VHDL等硬件描述语言,编程语言/架构功耗CUDA、OpenCL等/OpenCL、HLS大较大小峰值计算能力强、产品成
平均性能较高、功耗较低、灵活性
平均性能很强,功耗很低、体积小主要优点熟强效率不高、不可编辑、功
量产单价高、峰值计算能力较强、
前期投入成本高、不可编辑、主要缺点性能功能效率灵活性FPGA
ASIC延迟耗高编程语言难度大研发时间长、技术风险大云端训练、云端推断、终端推主要应用场景代表企业芯片云端训练、云端推断云端推理、终端推断CPUGPU断英伟达Tesla、高通Adreno等谷歌TPU、寒武纪CambriconXilinxVersal、英特尔Arria等等资料:与非网,赛迪智库,长江证券研究所GPU:并行运算带来对AI应用的高度适配02➢
在架构上GPU由数以千计的更小、更高效的核心(类似于CPU中的ALU)组成,这些核心专为同时处理多任务而设计。现在的CPU,一般是多核(multi-core)结构;而
GPU
一般是众核(many-core)结构。➢
为充分利用GPU的计算能力,NVIDIA在2006年推出了CUDA(Computer
Unifie
Device
Architecture,统一计算设备架构)这一编程架构。该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。英伟达在GPU里面增加了Tensor
Core为AI服务,它的并行力度就从基本的数据点进化到以小矩阵快来进行计算。所以Tensor
Core最基本的并行单元是一个4×4的矩阵块,能够在一个时钟周期里面算出一个4×4矩阵和另一个4×4矩阵相乘的结果。原来用数据点来并行的话,它需要16次这样的计算,才能算出一个4×4的矩阵。相比之下Tensor
Core的算力比原来的GPU要高,等价的功耗等比原来GPU的要低,这就是Tensor
Core用来做矩阵一个显著的进化。CPU和GPU架构对比CUDA
Core做卷积(以点为基本粒度进行)资料:《AI芯片设计:原理与实践》(陈巍,2022),汇芯投资,长江证券研究所GPU:并行运算带来对AI应用的高度适配02Ampere架构H100可大幅加速大模型训练时间➢
英伟达Ampere
GA100是迄今为止设计的最大的7nm
GPU。GPU完全针对HPC市场而设计,具有科学研究,人工智能,深度神经网络和AI推理等应用程序。NVIDIA
A100基于7nmAmpere
GA100
GPU,具有6912CUDA
内
核
和
432
Tensor
Core
,540亿个晶体管数,108个流式多处理器。采用第三代NVLINK,GPU和服务器双向带宽为4.8
TB/s,GPU间的
互
连
速
度
为
600
GB/s
。
另
外
,Tesla
A100在5120条内存总线上的HBM2内存可达40GB。从5天加速到19小时(GPT-3,1750亿参数)从7天加速到20小时(MoE,3950亿参数)➢
2022年,NVIDIA推出了具有采用全新Hopper架构的,
800亿个晶体管的H100,这是首款支持Pcle5.0标准的GPU,单个H100就支持40Tb/s的IO带宽。资料:面包板,英伟达,长江证券研究所英伟达:三重壁垒构造AI时代软硬件一体化龙头02AI的核心驱动与英伟达的三重壁垒➢
第一层壁垒:硬件层。GPU奠定图形渲染和AI算力基础,英伟达硬件层的三芯战略已逐步成型:GPU解决AI大规模并行运算痛点,DPU解决AI训练推理中设备网络通信与CPU负荷问题,CPU填上三芯战略最后一块拼图,GPU强耦
合
设
计
构
造
完
整
AI
解
决
方
案
,NVlink+NVSwitch+ConnectX突破芯片直连和设备网络连接限制,GPUDirect
Storage
技术实现高性能存储和数访问CIS、激光、5GGPUDPUCPU视频流、社交媒体……多芯配合算力迭代突破硬件摩尔定律限制数据持续高增,算力需求远超现存三芯战略数据多芯互联瓶颈打开算力上限硬件层软件层NVlinkConnectXCUDA互联网络AI发展关键瓶颈算力、功耗、体积与成本以及如何发挥软硬件强耦合充分发挥硬件优势芯片应用软件➢
第二层壁垒:软件层。CUDA释放GPU潜力引航AI发展DOCA、Omniverse等软件层进一步填充生态,增强AI业对英伟达的粘性。CUDA从底层代码出发发挥GPU并行算
优
势
,
奠
定
近
十
年
人
工
智
能
发
展
基
础
,
DOCABlueField
DPU量身定做软件开发平台,复刻GPU+CUD的强耦合成功路径,Omniverse初试工业共享虚拟空间,从硬件→软件→云上社区,在强劲软硬件基础上打造系统级AI生态圈,NVIDIA
AI
Enterprise加速AI模型开发,未来或有望助力实现以AI开发AIAIDOCA算力下沉应用层提供更完整解决方案OmniverseAI
Enterprise行业应用软件从消费到数据基建再到AI完整领域游戏生产力算法数字孪生应用层数据中心自动驾驶专业视觉算法经历超半世纪发展主流模型逐步成熟元宇宙社会效益➢
第三层壁垒:应用层。游戏显卡、数据中心、自动驾驶、元宇宙先后接力,十年成长曲线浪潮叠加。资料:长江证券研究所景嘉微:构造图形GPU国产化基础02➢
景嘉微在图形处理芯片领域经过多年的技术钻研,成功自主研发了一系列具有自主知识产权的GPU芯片,是公司图形显控模块产品的核心部件并以此在行业内形成了核心技术优势。公司以JM5400研发成功为起点,不断研发更为先进且适用更为广泛的一系列GPU芯片,随着公司JM7200和JM9系列图形处理芯片的成功研发,公司联合国内主要CPU、整机厂商、操作系统、行业应用厂商等开展适配与调试工作,共同构建国产化计算机应用生态,在通用领域成功实现广泛应用。2022年5月,公司JM9系列第二款图形处理芯片成功研发,可以满足地理信息系统、媒体处理、CAD辅助设计、游戏、虚拟化等高性能显示需求和人工智能计算需求,可广泛应用于用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。景嘉微JM9图形显示卡功能参数景嘉微Wind一致预期情况参数指标描述关键指标营业收入(百万)
530.79增长率(%)
33.63归母净利润(百万)175.972019A2020A653.7723.172021A2022E2023E1,776.9254.812024E2,490.3840.15视频解码支持
H.265/H.264/VP9/AVS2/AVS/JPEG/MPEG4
等主流格式;1,093.20
1,147.802D图形生成功能3D图形生成功能像素填充率内核性能总线接口显存带宽显存容量支持
DirectFB
1.7.7;支持
OpenVG1.1
矢量图形加速;67.214.99支持
OpenGL4.0、OpenCL3.0、Vulkan1.1、OpenGLES3.2;8GPixels/s;32
位单精度浮点性能
512GFlops;207.63292.74288.88423.34577.48增长率(%)EPS(摊薄)23.670.5817.990.6940.990.97-1.320.6346.540.9336.411.27内核时钟频率
1GHz(支持动态调频);PCIE
4.0X825.6GB/s8GB基准股本(百万股)301.27ROE(摊薄)(%)
7.46301.258.20301.2410.22455.139.36455.1312.35455.1314.78支持
2路独立的图形显示控制器,支持
2路
HDMI2.0、1
路
eDP1.2、1路
VGA输出;显示接口ROA(%)PE7.037.379.207.979.6211.0789.102.45支持
X86、ARM、MIPS
处理器和
Linux、中标麒麟、银河麒
麟、统信软件、翼辉、天脉等操作系统;˂15W支持平台功耗100.304.24101.435.64156.623.82178.11-135.20121.542.61PEG资料:景嘉微公司公告,Wind,长江证券研究所(注:Wind一致预期数据更新至2023年3月25日)沐曦:顶级团队布局全栈解决方案02➢
沐曦2020年9月成立于上海,拥有技术完备、设计和产业化经验丰富的团队,核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品研发,包括GPU架构定义、GPU
IP设计、GPU
SoC设计及GPU系统解决方案的量产交付全流程。➢
打造全栈GPU芯片产品,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI训练及通用计算,以及MXG系列GPU(曦彩)用于图形渲染,满足数据中心对“高能效”和“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU
IP,拥有完全自主知识产权的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数据中心建设和产业数字化、智能化转型升级的算力基石。曦思N100人工智能推理GPU曦思N100已完成百度飞桨I级兼容性测试资料:沐曦集成官网,长江证券研究所壁仞科技:训推一体化剑指全球龙头02➢
壁仞科技创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA(专用)和计算机体系结构等领域具有深厚的技术积累。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。➢
壁仞科技BR100系列通用GPU芯片针对人工智能(AI)训练、推理,及科学计算等更广泛的通用计算场景开发,主要部署在大型数据中心,依托“壁立仞”原创架构,可提供高能效、高通用性的加速计算算力。BR100系列通用GPU芯片BR100系列产品与英伟达H100、A100产品参数对比BR104-300WPCIeNVIDIA
H100
NVIDIA
H100
NVIDIA
A100BR100-OAMSXM5PClePCle产品形态OAM双FHFL
PClePClePClePCle256
TFLOPS(Tensor
Core)128
TFLOPS(Tensor
Core)FP3260
TFLOPS48
TFLOPS19.5
TFLOPS峰值性能TF32+500
TFLOPS400
TFLOPS156
TFLOPS512
TFLOPS256
TFLOPS512
TFLOPS(TF32)(TF32)(TF32)(TF32)312
TFLOPS(FP16)BF161024
TFLOPS1000
TFLOPS800
TFLOPS1600
TOPSINT82048
TOPS1024
TOPS2000
TOPS624
TOPS显存64GB
HBM2E32GB
HBM2E80GB
HMB380GB
HBM2E
80GB
HBM2EPCle
5.0PCle
5.0接口SXM5900
GB/s700WPCIe
5.0600
GB/s350WPCIe
4.0600
GB/s400W支持CXL
2.0支持CXL
2.0互连带宽512
GB/s500W192
GB/s300W最大热设计功耗(TDP)资料:壁仞科技官网,芯东西,长江证券研究所(注:NVIDIA
H100仅计入未采用稀疏技术的规格)芯原股份:GPU+NPU的IP卖水人02➢
芯原股份自2016年收购图芯美国增加GPU
IP后持续推进在GPU、NPU领域的研发,目前已具备多款3D/2.5D
GPU/GPGPU
IP,是国内GPU
IP的核心供应商之一。芯原Vivante的神经网络处理器
(NPU)
IP是高度可扩展、可编程的计算机视觉和人工智能处理器,支持终端、边缘端及云端设备的人工智能运算升级。Vivante
NPU
IP可满足多种芯片尺寸和功耗预算,是具成本效益的优质神经网络加速引擎解决方案,芯原业界领先的
NPU
在过去几年已经向60多个客户交付,被应用于110多个系统级芯片(SoC)中。➢
2023年3月15日,芯原股份宣布与微软就Windows
10
IoT企业版操作系统开展合作,合作内容涵盖硬件,以及对功能强大的嵌入式平台的长期支持。芯原将利用自身的嵌入式软件设计能力和数十年推出成功产品的经验,使嵌入式应用开发人员和原始设备制造商(OEM)能够基于可信赖的操作系统,使用熟悉的开发和管理工具快速创建、部署和扩展物联网解决方案,并通过微软Azure
IoT将设备无缝连接到云端。➢
值得重视的是,芯原代理了全球高速Serdes
IP的龙头厂商Alphawave在大中华区的销售和芯片定制设计应用,高速Serdes接口或将成为算力以外最为关键的结构。芯原VivanteGPU
IP产品线及其应用芯原VivanteNPUIP产品线及其应用资料:芯原股份官网,长江证券研究所FPGA:AI应用的加速卡02数据中心中FPGA可配合多种芯片实现性能的大幅提升➢
以赛灵思FPGA
ACAP(自适应平台)产品为例,其可以搭配CPU、存储、网络接口等,大幅提升整体性能:网络NIC➢
搭配CPU:传统的数据中心服务器有1个CPU连接网络,通过NIC(网络接口控制器)和PCIe连接到存储设备。搭配Xilinx
Versal
ACAP可会实现速度的巨大提升。以生命科学公司lllumina基因组计算为例,Xilinx的加速组件为其基因组分析应用提速了90倍;使用FPGA数量对QUERYPerformance影响13XPCIe1412108CPU加速效果:1.5X数据包处理吞吐量:3-6X7X64X4➢
搭配存储器:可以加速数据的压缩/解压缩、解密;1X2SSD00124➢
搭配NIC:Smart
NIC可以通过移除恶意数据包提供更好的安全性,并通过将网络堆栈从CPU卸载到Smart
NIC来加速数据包处理。使用基于Xilinx的智能网卡,数据吞吐量加快了3~6倍,CPU利用率提高了1.5倍。相关性能计算加速用于TWITCH
VP9网络直播的视频转码技术用于illumine基因组数据分析用于TEND实时最大似然推理100X30X90XFPGAGPUCPUFPGACPUFPGACPU20X1X1X1X010203040020406080100020406080100资料:与非网,长江证券研究所国产FPGA替代先锋——紫光同创02➢
紫光国微民用可重构系统芯片业务由参股子公司深圳紫光同创电子承担。紫光同创是中国FPGA领导厂商,总投资超过20亿元,主要从事可编程逻辑器件(FPGA、CPLD等)的研发与销售、EDA设计工具的开发,产品覆盖通信、工业控制、视频监控、消费电子、数据中心等应用领域。正积极推进高中低端全系列FPGA产品的研制开发工作。公司研发实力深厚,职工人数超过500人、研发人员占比为85%,拥有专利超300项、核心专利占比超过80%。
紫光同创2020年已实现3.16亿元销售收入,同比大幅增长超210%,未来有望进一步释放公司FPGA产品及IP、软件等解决方案盈利能力。公司还可提供围绕FPGA器件的系统解决方案、板卡外包设计服务以及IP模块解决方案,正在逐步从FPGA产品提供商向提供FPGA平台和系统解决方案的平台型企业发展。紫光同创发展历程紫光同创FPGA开发软件平台资料:紫光同创官网,长江证券研究所边缘计算:云-端-边的下一个发展方向02➢
从性能方面来看,由网络带宽对云端算力的全量发挥的限制和网络时延的影响所带来的算力错配要通过增设边缘端来弥补,因此未来形成“云、边、端”多层级算力部署方案是必然趋势,部分中低功耗的边缘端AI芯片有望成为行业下一个发展的关键趋势,如AI
SoC在智能音箱、智能家居、智能穿戴、智慧安防等领域的应用。网络传输带宽和时延导致算力错配,需要边缘算力支撑资料:《泛在算力:智能社会的基石》,长江证券研究所Chiplet:芯片集成的新形态,规避限制的关键技术02➢目前,主流系统级单芯片(SoC)都是将多个负责不同类型计算任务的计算单元,通过光刻的形式制作到同一块晶圆上。比如,目前旗舰级的智能手机的SoC芯片上,基本都集成了CPU、GPU、DSP、ISP、NPU、Modem等众多的不同功能的计算单元,以及诸多的接口IP,其追求的是高度的集成化,利用先进制程对于所有的单元进行全面的提升,缺点则是设计时间漫长、成本高昂。➢而Chiplet技术是SoC集成发展到一定程度之后的一种新的芯片设计方式,它通过将SoC分成较小的裸片(Die),然后每个单元选择最适合的工艺制程进行制造,再将这些模块化的小芯片(裸片)互联起来,采用新型封装技术,将不同功能不同工艺制造的小芯片封装在一起,成为一个异构集成芯片。基于Chiplet的异构架构应用处理器的示意图Chiplet可灵活实现集成各类功能的芯片设计资料:芯原股份业绩说明会,长江证券研究所Chiplet实现的方式:SIP/2.5D/3D02➢目前来看,可应用于Chiplet的封装解决方案主要是SIP、2.5D和3D封装。其中,2.5D封装技术发展已经非常成熟,并且已经广泛应用于FPGA、CPU、GPU等芯片当中,近年来,随着Chiplet架构的兴起,2.5D封装也成为了Chipet架构产品主要的封装解决方案。其最大特色是采用Interposer
(中介层)做为整合媒介,主要用来做为放置于其上的小芯片们间的通讯互联,以及芯片们与载板间的联结。➢此外,还有HD-FO(Highdensity
Fan-out)封装技术,目前虽仍仅应用在较基础的异质元件整合
(如逻辑IC与HBM的整合),但随技术持续进步搭配其低成本优势,未来可能有机会进一步成为Chiplet采用者的另一封装选择。➢
3D封装能够帮助实现3DIC,即芯粒间的堆叠和高密度互联,可以提供更为灵活的设计选择。但是,3D封装的技术难度也更高,目前主要有英特尔和台积电掌握3D封装技术并有商用。Chiplet实现的主要方式:SIP/2.5D/3D封装芯片内部互联网络是小芯片以外最为重要的组成资料:SiP
与先进封装技术,长江证券研究所下游需求加速扩围,产业链价值重构02➢
早在2014年,国内某核心设计公司与台积电的CoWoS(Chip-on-Wafer-on-Substrate)合作产品已经发布,在2019年推出了基于Chiplet技术的7nm鲲鹏920处理器,Chiplet技术逐步走向成熟。目前,已有AMD、英特尔、台积电为代表的多家集成电路产业链领导厂商先后发布了量产可行的Chiplet解决方案、接口协议或封装技术。其中,AMD、Intel已经率先实现Chiplet量产。Chiplet方案产品梳理图:公司产品概述➢
拓宽下游产业链加速Chiplet生态发展。预计至2024年,全球基于Chiplet的器件市场规模可达到59亿美元左右。高性能服务器/数据中心、自动驾驶、笔记本/台式电脑、高端智能手机等将在未来几年成为Chiplet的主要应用场景,引领该市场增长。每个EPYC处理包括4个Zeppelin
die,使用2D
MCM
(Multi-chip
module)封装。Zeppelin
die
包含2
个core
complex-CCX。单独看,
每个Zeppelin
die都包括单独的memory、IO
complex、infinity
Fabric的控制与接口;从公司层面看,对于研发成本,一个Zeppelin
die可以覆盖服务器和桌面两个市场,收益明显。有一个中央集中式I/O和内存控制器die,而且这个集中IOD仍然有14nm工艺,CCD
仍然保持8个核的设计。8个CCD
die,
一个IOD,最高核数为64个。每个CCD
上的核数可以根据良率变化,每个SKU上的Chiplet数目也可以选择。Ryzen
产品线重用了
EYPC
Rome
的CCD。只是单独配了一个Client
IOD。对于产品线复杂的公司,Chiplet
设计,极好地降低了总研发费用。Stratix
10是Intel第一款使用EMIB的设计,中心是FPGA
die,周围是6个Chiplet。4个高速EPYC(Naples)AMDEPYC(Rome)Ryzen(Matisse)全球基于Chiplet的器件市场规模(分下游应用,百万美元)Altera
Stratix10
FPGA
transceiver
Chiplet
和2个高带宽memory
Chiplet。这6个Chiplet是来自三个不同fab的6个不同工艺Chiplet,证明了不同fab之间的强大互操作性。Lakefield使用3D封装,运用不同核的混合架构和Chiplet
设计,一个compute
die,一个base
die。Lakefield
SoCBase
die主要是I/O
功能,性能不敏感,因此可以用22nm
工艺,而混合了大小CPU
核、IPU、GPUcompute
die,会持续演进,用7-5nm
工艺。IntelEthernet
Switch市场的第一款分离为Chiplet
的设计。Switch
ASIC长期以来都是把模拟和逻辑部分Barefoot
the
Tofino
2
放在一起设计的,模拟部分其实和逻辑部分演进的时间表完全不同。如果是单芯片设计,模拟部分chip7nm+
Chipletswitch
ASIC也不得不随着逻辑部分的工艺演进前进。如果采用Chiplet
分离设计,逻辑部分可采用最新工艺,模拟部分可保留传统工艺。Chiplet带动模拟部分的工艺节省,而且还可以通过不同的Chiplet
配置,来提供不同的SKU。苹果将两枚
M1
Max
芯片通过
Chiplet
技术拼接。M1
Ultra
芯片采用了
UltraFusion
封装架构,通过两枚
M1
Max晶粒的内部互连。架构上,M1
Ultra
采用了
20
核中央处理器,由
16
个高性能核心和
4个高能效核心组成。AppleM1MaxXlinix2011
Virtex-72000T
4个die的Chiplet设计。Marvell
提出Mochi
概念,最大的驱动力是降低成本,模块化芯片设计,像LEGO
那样,提高模块的重用性。借助基本模块的重用,还能在保持灵活性的同时,加快新产品的上市时间。MarvellMochi8个Chiplet
设计,融合了HBM
die,逻辑部分与I/O
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版节能环保设施运营管理合同范本3篇
- 二零二五年汽车租赁公司兼职司机合同3篇
- 二零二五版家居用品寄售代理合同范本3篇
- 二零二五版草原生态补偿机制承包合同3篇
- 二零二五版插画师合作合同范本-漫画创作合作与版权归属协议3篇
- 二零二五版建筑工程施工企业施工许可证注销合同3篇
- 二零二五版安徽农民工就业跟踪服务合同范本3篇
- 2025版块石石材矿山投资合作合同3篇
- 基于2025年度行业标准的招投标实习合同3篇
- 二零二五年金融创新抵押借款合同范本分享3篇
- 蒋诗萌小品《谁杀死了周日》台词完整版
- TB 10010-2008 铁路给水排水设计规范
- 黑色素的合成与美白产品的研究进展
- 建筑史智慧树知到期末考试答案2024年
- 金蓉颗粒-临床用药解读
- 社区健康服务与管理教案
- 2023-2024年家政服务员职业技能培训考试题库(含答案)
- 2023年(中级)电工职业技能鉴定考试题库(必刷500题)
- 藏历新年文化活动的工作方案
- 果酒酿造完整
- 第4章-理想气体的热力过程
评论
0/150
提交评论