计算机行业AIGC系列之七：国产AI芯片的百倍算力需求

上传人：策*** IP属地：山西上传时间：2023-03-25 格式：DOCX 页数：38 大小：410.63KB 积分：19.9 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

计算机03月24日计算机03月24日AIGC系列之七研究！-计算机行业周报日系列之六"2023年3月17日本期投资提示：AI芯片是大模型的基础。AI芯片主要分为训练和推理两类芯片，云和端对训练和推理芯C四大AI芯片技术路线，均围绕打破英伟达CUDA生态垄断展开。英伟达凭借CUDA、cuDNN和TensorRT等软件工具链以及和Tensorflow的深度绑定构筑了极高的生态壁 (从当前主流的A100升级至H100)，仍然需要巨量的额外增量投资。AIAI有成长空间。由于AIGC、类GPT倍算力需求。而英伟达等供给解决需求有瓶颈(根据IDC咨询，GPUBMWWFPTFLops试阶重点推荐：1)直接受益AI芯片需求崛起的寒武纪(思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片)、海光信息(预计2023年底量产的DCU3性能与NVDIAH100性能持平)。2)AI服务器供应商：浪潮信息、中科曙光、中兴通讯(通讯)、工业富联(电子)。TMT领域算力基建逻辑，也建议关注通信、电子相关公司。通信——天孚通信、中际旭创、紫光股份、锐捷网络、新易盛等。此外也持续关注流量基的数据中心等环节供需变化，包括奥飞数据、润泽科技等，以及伴随算力增长的温PCB析师黄忠煌A0230519110001huangzh@洪依真A0230519060003hongyz@李国盛A0230521080003ligs@刘洋A0230513050006liuyang2@人cuihang@必仔细阅读正文之后的各项信息披露与声明行业及产业证券研究报证券研究报告行业深度请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第2页共23页简单金融成就梦想件结论和投资分析意见预计中国互联网大厂即将进入大模型“军备竞赛”期，国产AI芯片需求进入爆发期，带动AI服务器进入快速成长期。原因及逻辑AI芯片+AI服务器，受益于AIGC+类GPT等应用的鲶鱼效应。原有英伟达等供给有限，所以国产AI芯片有理论上的爆发弹性，AI服务器有成长空间。由于AIGC、类GPT有鲶鱼效应，带来约百倍算力需求。而英伟达等供给解决需求有瓶颈(根据IDC咨询，预测2025年AI服务器市场空间仅仅318亿美元，预计21-25年CAGR仅仅19.5%)，因此国产AI芯片在逻辑上有爆发弹性，此外AI服务器也有成长空间。有别于大众的认识市场认为，英伟达GPU生态难以突破，我们认为，国产AIAISC性能在主流大模型算法中已能毕竟英伟达主流GPU计算能力水平。市场认为，国产AIASIC水平竞争格局较差，我们认为，当前AIASIC芯片供应商较多，但主要互联网产商AI芯片采购较为集中。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第3页共23页简单金融成就梦想1.AI芯片：大模型的基础 52.AI芯片四大技术路线，寒武纪复制英伟达 7 3.中国ASIC芯片格局：寒武纪卡位最优 154.AIGC传导至潜在的百倍算力需求！ 17重点关注公司 206.风险提示 21请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第4页共23页简单金融成就梦想图1：云端训练、云端推理、设备端推理三个细分市场的AI芯片竞争格局.......7图2：寒武纪针对原生TensorFlow的修改(深灰色部分) 10图3：寒武纪的端云一体软件栈架构 10图4：AMD的ROCm是和英伟达CUDA对等的智能编程语言 11图5：AMD的HIPify工具可以将英伟达CUDA代码转换为ROCm代码.....11达的CUDA栈 12图7：AMD的ROCm栈 12图8：华为在AI领域全栈自研：从底层芯片到智能编程语言再到深度学习框架14图9：MindSpore和Pytorch结合各类芯片训练速度(单位：张/秒)........14图10：OpenAI首席执行官SamAltman谈ChatGPT每次聊天的成本.......18图11：GPT-3训练成本估算 18图12：主流LLM模型训练成本估算 19图13：LLM训练/推理成本测算框架 19图14：过去5年中，LLM模型参数呈指数增长 20表1：“端-边-云”对AI芯片的算力和功耗、延时性有不同的要求 5表2：国内外主流深度学习框架以及支持的硬件设备 8表3：英伟达发布A800、H800实现向中国合法出口 9表4：英伟达AI推理芯片参数一览 9表5：寒武纪AI芯片性能参数 10表6：谷歌历代推理和训练芯片性能参数 13表7：华为主流推理和训练芯片性能参数 14表8：训练端芯片已有较多参与者 16表9：推理端芯片华为/阿里/寒武纪等布局较早 16表10：重点公司估值表(单位：亿元) 22请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第5页共23页简单金融成就梦想人工智能芯片主要分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练，即在云端将一系列经过标记的数据输入算法模型进行计算，不断调整优化算法参数，直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理，即将在云端训练好的算法模型进行裁剪优化变“轻”之后，进入“实战”阶段，输入数据直接得出准确的识别结果。不同用途(训练or推理)、不同应用场景(端-边-云)对AI芯片有着不同的要求。首先，训练芯片追求的是高计算性能(高吞吐率)、低功耗，但是推理芯片主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。其次，“端-边-云”三个环节对AI芯片的不同要求见下表——其中端和边上进行的大部分是AI“推理”，因此用于端和边的AI芯片性能要求和上述推理芯片一致；大部分的训练过程是在云和数据中心进行，训练过程对时延没有什么要求，因此需要保证AI芯片在尽可能保证较高算力的情况下，功耗尽可能低，另外许多推理过程也是在云端进行。端边云耳机电话智能手机个人电脑网络摄像机IPC边缘服务器数据中心大小推理训练系列20MOPS100GOPS1-10TOPS10-20TOPS10-20TOPS大小推理训练系列1mW10mW1-2W3-10W3-10W10-300W200+W10KB100KB10MB10-100MB10-100MB100+MB300+MB<10ms~10ms10-100ms10-500ms10-500msms~sms~sYYYYYYYNNYYYYYNanoTinyLiteMiniMiniMulti-MiniorMaxMaxorMultiMini目前用于人工智能深度/机器学习的芯片主要有GPU、FPGA、ASIC三类芯片。三类芯片用于深度学习时各有优缺点：(1)通用性：GPU>FPGA>ASIC，通用性越低，代表其适合支持的算法类型约少。(2)性能功耗比：GPU<FPGA<ASIC，性能功耗比越高越好，意味着相同功耗下运算次数越多，训练相同算法所需要的时间越短。在不同的应用场景之下，已经形成了不同的AI芯片竞争格局。1.在云和数据中心AI芯片市场，“训练”和“推理”两个环节都是英伟达GPU一家独大，几乎占据90%以上份额，包括AWS、微软Azure、谷歌云、阿里云、华为云、腾讯云在内的大部分公有云厂商上线的AI加速计算公有云服务绝大部分都是基于英伟达Tesla系列GPU。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第6页共23页简单金融成就梦想 (1)云端训练用的几乎全部是英伟达GPU，公有云厂商中仅谷歌云一家除了提供以英伟达GPU为主的云计算加速服务之外，还推出了基于自研AI芯片TPU的深度学习训练服务； (2)云端推理目前出现了基于GPU、FPGA、ASIC三种不同芯片云计算服务，但是市场份额仍然以英伟达GPU为主，其中AWS、阿里云、腾讯云、华为云等公有云厂商均推出了FPGA加速计算云服务，另外AWS推出了基于自研AI芯片Inferentia的ASIC加速计算服务，华为云推出了基于自研AI芯片昇腾310的ASIC加速计算服务。2.在设备端和边缘计算“推理”市场，各类型芯片各自为阵，尚无绝对优势地位的芯片厂商出现——手机市场以高通、华为、苹果原主控芯片厂商为主，自动驾驶、安防IPC领域英伟达暂时领先。 (1)手机：高通从骁龙820开始，就已经具备第一代人工智能引擎AIEngine；高通从第三代AIEngine开始引入异构计算CPU、GPU和DSP的异构并行计算；目前高通已经迭代至第四代，骁龙855是第一个搭载第四代AIEngine的SoC。华为麒麟970、980分别引入寒武纪IP(1A/1H)，使得手机SoC开始具备AI能力，在2019年6月华为发布麒麟810，华为与寒武纪合作终止，华为采用了自研AI芯片达芬奇架构(华为在2018年推出了达芬奇架构，对标寒武纪智能处理器IP——Cambricon-1A/1H/1M)。苹果2017年发布的A11芯片也具备了AI能力，附带NeuralEngine和开发平台CoreML用于机器学习。 (2)安防IPC：仍然以采用英伟达Jetson系列GPU为主。例如海康采用了英伟达JetsonTX1，大华睿智系列人脸网络摄像机采用的是英伟达TeslaP4GPU。另外国内三大安防厂商也在陆续采用ASIC芯片，例如海康、大华、宇视在前端智能化摄像机中采用Movidious的Myriad系列芯片，大华自研AI芯片用于新款睿智人脸摄像机。 (3)智能驾驶：L3级别以上自动驾驶芯片以英伟达Drive平台为主(包括Xavier和Orin两款SoC)；华为将昇腾310用于自动驾驶域控制器MDC上，2020年已经通过车规级认证；英特尔Mobileye的EyeQ4-5被用在L3-5智能驾驶。但是目前整车厂和Tier1实际采用得最多仍然是以英伟达GPU为主。(在低级别的L1-L2辅助驾驶上，采用的是NXP、瑞萨等厂商的MCU芯片，不涉及深度学习。) (4)智能音箱：目前智能音箱的语音语义识别均在云端完成推理计算，终端上请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第7页共23页简单金融成就梦想图1：云端训练、云端推理、设备端推理三个细分市场的AI芯片竞争格局：雷锋网，申万宏源研究2.AI芯片四大技术路线，寒武纪复制英伟达由于AIGC、类GPT应用有鲶鱼效应，带来约百倍算力需求(下文)。而英伟达等供给解决需求有瓶颈，因此国产AI芯片有逻辑上需求弹性，AI服务器也有空间。根据IDC数据，2021年全球AI服务器市场规模为156亿美元,预计到2025年全球AI服务器市场将达到318亿美元，预计21-25年CAGR仅仅19.5%。AI服务器的增长和规模总额恐怕无法满足类GPT类应用的百倍需求(例如生产地域、供应商产能、工人等限制)，因此AI芯片可能会大量爆发，其次是AI服务器。近期的行业领袖创业潮，会加速这种趋势。2012-2014年AI创业潮，造就2015-2017目前AI芯片主要玩家应对英伟达塑造的AI生态壁垒，选取了不同的商业策略： (1)英伟达AI芯片依然是AI训练和推理最佳选择； (2)寒武纪在走英伟达的路线； (3)AMD在走部分兼容CUDA的路线； (4)谷歌、华为、百度走的是“深度学习框架+AI芯片”自研路线。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第8页共23页简单金融成就梦想2.1英伟达：通用芯片GPU英伟达目前在深度学习训练芯片市场占据绝对垄断地位，凭借的是： (1)CUDA及cuDNN、TensorRT等一系列专为深度学习打造的软件工具链。CUDA是实现CPU和GPU分工的编程工具；cuDNN针对深度学习训练，将深度学习模型中对各层(Layer)的常见的操作(例如卷积convolution、池化pooling)以方便理解和使用的接口暴露给开发人员，从而使得开发人员可以快速搭建training的库；TensorRT针对推理环节，帮助模型自动减值和优化；由于开发者对于这些工具已经非常熟悉，由于学习成本的存在不会轻易迁移； (2)深度学习框架和英伟达AI芯片的高度耦合。由于各家AI芯片厂商编程语言无法兼容，而深度学习框架厂商仅支持一家AI芯片就要投入巨大工程量，因此导致其最终只选择市占率最大的1-2家进行深度支持，英伟达在AI训练和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒。学习框架时间TensorfloTensorflowFacFacebook2015年22016年2016年CPU/GPU(英伟达CUDA)/TPU(谷歌)CPUCPU/GPU(英伟达CUDA)CPU/GPU(英伟达CUDA+AMDROCm)/昆仑XPU(百度)/海光DCU昇腾PaddlePaddle(飞桨)Jittor(计图)2020年CPU/GPU(英伟达CUDA)/寒武纪Mindspore2020年CPU/GPU(英伟达CUDA)/华为昇腾MegEngine(天元)2020年CPU(ARM+x86)/GPU(英伟达CUDA)英伟达高性能训练和推理芯片产品主要包括V100、A100、H100以及3月21日GTC2023发布的H100NVL(2张H100通过外部接口以600GB/s的速度连接，每张卡显存为94GB合计为188GB)，预计2024年将推出基于下代Blackwell架构的B100产品。除上文提到的软件及生态壁垒外，英伟达芯片的主要优势在于大片上内存、高显存带宽以及片间互联方案。大片上内存是支撑最高达上千亿参数(GPT-31750亿、GPT-3.52000亿)的大模型在芯片上运行的必需，高显存带宽能够实现更高的数据传输速率从而减少训练时间、提升效率；NVSwitch片间互联方案则大大提升多GPU互联的运行效率，由于大模型的训练对算力要求非常高，chatGPT模型训练一次消耗算力达3640p，需要上万张A100芯片支持，英伟达NVSwitch能够实现高速多对多全GPU通信，能够更大程度发挥GPU集群的算力潜力。22年9月起，美国禁止峰值性能等于或大于A100阈值的英伟达芯片向中国出口，合法版本A800、H800已在国内应用。由于中国高性能计算市场对英伟达来说是一个不可放请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第9页共23页简单金融成就梦想弃的巨大市场，英伟达分别于22年11月、23年3月发布A100、H100的“阉割”版本A800、H800，通过降低数据传输速率(显存带宽)至400GB/s、450GB/s避开美国限制，从而合法出口到中国，根据CEO黄仁勋在GTC2023演讲，H800已在国内BAT的云计算NVL700W功700W96GBHBM3e7.8TB/sAA00300WBs202022年12月2TFLOPSTF7nm销售700WGBHBM3TB/s20222022年3月4000TFOPs60TFLOPs4nm许可AA00400W440GBHBM220202020年5月624TFOPS/1248TFLOPS*7nm可V100(NVLiV100(NVLi300W332/16GB2nm销售V100(PCIEV100(PCIE)250W332/16GB900GB/sl2nm销售V100V100S250W332GB月2nm销售70W320+2018年3月S2nm销售上市时间上市时间2023年下半年(预计)FPFP162×990TFLOPSFP322×67FPFP642×344952495FPFP64Tensor2×64CoreTFLOPS？工艺4nm中国供应情况还未发行型号A8nm制程8nm4nmx4x8nm制程8nm4nmx4x250W7nm4nmTOPS300W330TOPS|661299.3TOPS|F|FP16Tensor125TFLOPS||TFLOPS*300W300W显4个16G显4个16G的24GBHBM2显存、48GB显存，696GB/s带纠错码的48GB4*200GB4*200GB/s带宽¥24,150¥32,430GDDR¥36,570¥52,440售价¥36,570¥52,440e请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第10页共23页简单金融成就梦想2.2寒武纪：复制英伟达成长之路我们认为寒武纪芯片硬件性能相比于英伟达还有追赶空间，上层软件堆栈与英伟达相似，全自研不是兼容路线；不同之处在于寒武纪需要自己对原生深度学习框架进行修改以支持思元芯片，而英伟达有谷歌原厂支持。硬件方面，从一些表观的性能参数对比来看，寒武纪训练芯片思元290和英伟达A100、昇腾910相比性能还有追赶的空间。软件方面，寒武纪是自己对原生的Tensorflow和Pytorch深度学习框架去针对自己的思元芯片去做修改而非像华为一样自研深度学习框架去进行优化，也不想英伟达一样因为芯片市占率高，有Pytorch/Tensorflow原厂去做GPU算子的优化和设备的支持。另外寒武纪相比英伟达的算子库丰富程度以及软件工具链的完善程度还有一定差距，需要时间去追赶。型号型号思元590发布年份2023年元元3702021年arch77nm256TOPS(INT8)775W元2902021年77nm512TOPS(INT8)TOPSINT)64TOPS(CINT32)3350W--元2702019年T770W思思元1002018年32TOPS(INT8)16TOPS16TOPS(FP16)775W元2202019年算8TOPS(INT8)44TOPS(INT16)-94.8mm2架构性能77nmTFLOSFP)功耗功耗350-550W芯芯片面积800mm2图2：寒武纪针对原生TensorFlow的修改(深灰色部分)请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第11页共23页简单金融成就梦想AMD：部分兼容英伟达CUDAAMD选择了部分兼容英伟达CUDA，借力英伟达生态的路线。AMD在2016年全球超算大会上推出了ROCm，也就是对标英伟达CUDA一样的智能编程语言，ROCm软件堆栈的结构设计与CUDA相似度很高；对标英伟达深度学习库cuDNN，AMD推出了MIOpen；对标英伟达深度学习推理框架TensorRT，AMD推出了Tensile；对标英伟达编译器NVCC，AMD推出了HCC。ROCm中包含的HIPify工具，可以把CUDA代码一键转换成ROCm栈的API，减少用户移植成本。我们认为走兼容英伟达CUDA的路线其难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容。(1)迭代永远慢一步：英伟达GPU在微架构和指令集上迭代很快，在上层软件堆栈上很多地方也要做相应的功能更新；但是AMD不可能知道英伟达的产品路线图，软件更新永远会慢英伟达一步(例如AMD有可能刚宣布支持了CUDA11，但是英伟达已经推出CUDA12了)。(2)难以完全兼容反而会增加开发者的工作量：像CUDA这样的大型软件本身架构很复杂，AMD需要投入大量人力物力用几年甚至十几年才能追赶上；因为难免存在功能差异，如果兼容做不好反而会影响性能(虽然99%相似了，但是解决剩下来的1%不同之处可能会消耗开发者99%的时间)。程语言图5：AMD的HIPify工具可以将英伟达CUDA代码转换为ROCm代码请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第12页共23页简单金融成就梦想谷歌凭借Tensorflow去做TPU相对而言不存在太多生态壁垒问题，但是仍然无法撼动英伟达，我们认为其原因在于TPU本身性能还有进一步提升空间以及过于专用的问题。理论上谷歌凭借Tensorflow在深度学习框架领域实现了垄断地位，是具备绝对的生态掌控力的，会投入大量的Tensorflow工程师针对自家TPU去做支持和优化，因此TPU去挑战英伟达GPU其实不存在所谓生态壁垒的问题。但是自谷歌自2016年推出第一代TPUv1至今已经到第四代TPUv4(2021年5月发布)，仍然无法从英伟达手中抢走明显份额，其原因主要在于TPU本身性能相比于英伟达同时期GPU而言还有一定差距，另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好： (1)谷歌在芯片设计上的实力和英伟达相比还有一定差距，谷歌在TPU论文中也明确提到由于项目时间比较紧，所以很多优化只能放弃。从性能参数来看谷歌TPUv2和英伟达同年推出的V100相比，性能功耗比、显存带宽等指标有着明着差距，即使是谷歌在2018年推出了第三代TPU，其性能(FP32)、功耗等指标仍然和英伟达V100相比存在一定差 (2)谷歌采用的是传统脉动阵列机架构，芯片设计上过于专用。TPU的主要创新在于片上内存、脉动式内存访问、8位低精度运算。脉动阵列机做卷积时效果不错，但是做其他类型神经网络运算效果不是很好，在一定程度上牺牲了通用性来换取特定场景的高性能。TPU在芯片设计上只能完成“乘+加+乘+加......”规则的运算，无法高效实现“复数乘法、求倒、求平方根倒数”等常见算法。现在AI芯片的行业趋势是：GPU在通用性的基础上逐渐增加专用计算单元；而类似TPU的ASIC芯片在专用性的基础上逐渐增加通用计算单元——两类芯片有逐渐收敛的趋势。英伟达在用于深度学习领域的GPU上的设计思路是“在通用的基础上增加专用运算单元”，例如在Volta架构上开始增加TensorCore(专门用于深度学习加速)、在Turing架构上开始增加RTCore(专门用于光线追踪加速)，牺牲通用性为特殊的计算或者算法实现特殊架构的硬件以达到更快的速度。而AI芯片一开始走专用路线，但是现在在专用性之请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第13页共23页简单金融成就梦想年份2021年份2021年*7nm(估计)外也在架构设计上也增加了通用计算单元(例如谷歌TPUv1主要是矩阵乘法运算单元占了24%芯片面积，但是TPUv2也开始增加浮点ALU做SIMD)。2016年28nm9292TOPS(INT8)23TOPS(INT16)2017年训练20nm(估计)4545TOPS(FP16)3TOPS(FP32)2018年训练16nm/12nm(估计)123123TOPS(FP16)4TOPS(FP32)500500W(估计)详详450W648280W75W331华为在2019年8月发布的昇腾910与英伟达在2020年5月发布的A100性能相当，但是我们认为华为的主要问题在于不具备深度学习框架生态掌控力。即使其芯片性能与英伟达水平差不多，但是由于Tensorflow/Pytorch两大主流深度学习训练框架没有基于华为昇腾910做特定的优化，所以算法结合上述两大训练框架在昇腾910上实际跑出来的性能其实不如英伟达A100；目前仅华为自研的深度学习框架MindSpore对昇腾910和昇腾310做了特别优化，由于华为MindSpore大部分精力都是放在对昇腾芯片的算子支持和优化上，对英伟达GPU的支持还不够(见下图，英伟达的GTX2080Ti结合MindSpore的训练速度明显不如GTX2080Ti结合Pytorch1.5的训练速度)，所以只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。上述我们提到要想在深度学习训练框架要想打破Tensorflow和Pytorch的垄断必须要靠原始创新，而目前包括华为MindSpore在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。Caffe之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从0到1的过程，Tensorflow之所以可以取代Caffe是因为解决了其不够灵活、不能自动求导、对非计算机视觉任务支持不好等问题，Pytorch之所以明显抢夺Tensorflow的份额是因为Pytorch引入了动态图解决了Tensorflow是静态图设计调试困难的问题。但是目前国产的三个深度学习框架百度PaddlePaddle、旷视Megengine、华为MindSpore还没有完美解决开发者在用Tensorflow和Pytorch所遇到的痛点。我们认为Tensorflow和Pytorch目前共同的痛点在于对海量算子和各种AI芯片支持的难度，华为正在探索靠AI编译器的技术来解决上述问题，但是目前编译技术仍然还达不到人工优化的效果。华为全面布局了三个层次的AI编译器，包括图灵完备的图层IR设计、使用poly技术的图算融合/算子自动生成技术(以TVM编译器的设计思想推出算子开发工具TBE来解决算子开发自动优化的问题)。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第14页共23页简单金融成就梦想年份年份9106102020年(研发中)2019年奇7nm2019年奇7nm640TOPS(INT8)320TOPS(FP16)310W456--100+TOPS(INT8)50+TOPS(FP16)算奇-6TOPS(INT8)-8TOPS(FP16)W--------AI能编程语言再到深度学习框架图9：MindSpore和Pytorch结合各类芯片训练速度(单位：张/秒)请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第15页共23页简单金融成就梦想算力精度门槛下，ASIC和GPGPU是最适合大模型的架构。大模型云端训练多数情况下都在FP32计算精度上，推理端则以FP16和混合精度为主。算力越强，模型效率越高。FPGA和GPU对比，虽然FPGA吞吐率、性能功耗比优于GPU，但是FPGA存在两个天然缺陷，FPGA只适合做定点运算，不适合做浮点运算，如果用来做浮点运算耗费逻辑很大，而且有些FPGA不能直接对浮点数进行操作的，只能采用定点数进行数值运算。其二，FPGA可以理解成某种“芯片半成品”，需要开发人员做大量二次开发设计芯片，因此开发使用门槛较高。ASIC和GPU则能够满足大模型的入门门槛。国内视角下，华为、百度昆仑芯、阿里、寒武纪、海光信息及一众初创企业(燧原、天数、壁仞、沐曦)均推出云端训练和推理芯片。架构选择上，华为、百度、阿里、寒武纪选择ASIC路线。华为、百度、阿里自家业务场景对AI芯片存在天然需求，选择ASIC在量产制造供应链上的难度显著低于GPU。初创企业则押注通用型GPGPU架构，壁仞、沐曦等初创企业多创立于2018年前后，团队一般来自出走英伟达、AMD的技术专家，因此技术路线多选择他们所熟悉的通用型GPU。AI大模型让ASIC和GPU之间的边界愈发模糊，国内GPU初创企业或在竞争中落后。英伟达在过去很长的一段时间内坚持用统一的硬件，即通用型GPU同时支持DeepLearning和图像需求。但高性能计算迭代到H100产品后，其计算卡和图像卡分开，在技术路线上也愈发靠近ASIC。初创企业为了实现通用性，选择了在芯片设计和制造供应链存在较多困难的GPU路线，暂未推出真正具备量产成熟度的产品。国产ASIC厂商中，寒武纪是为数不多能够较为开放支持中游AI算法和模型商。1)华为选择部署端到端的完整生态，例如使用昇腾910必须搭配华为的大模型支持框架MindSpore、盘古大模型。第三方开源模型无法在华为上运行，若要运营必须依赖华为提供的工具做深度定制和优化，开放程度低。2)阿里在该方面的定位是系统集成商和服务商，运用自身芯片产品搭建加速平台3)百度昆仑芯主要在自身智算集群和服务器上用，以及国内企业、研究所、政府中使用。且由于百度自身AI算法商的商业定位，与其他AI厂商之间存在竞争关系，昆仑芯未必能够在其他AI算法商中铺开。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第16页共23页简单金融成就梦想INT8(TOPS)62429106403207nm纪元2903350WGBHBMssGB22021年5151277nm技元570350-550W2023年7nmBR100300W32GB819GB/s2567nm号300W32GB300GB/s256300300332GB512GB/s月202021年8月25622564m77nm纪等布局较早理S)242310WWLPDDR4x2*64bit@37332019年8纪80022019年9月8282075WGBGB2018年5月27070W2019年6月37075W24GBLPDDR5月7nm英伟达A800、H800对国产厂商存在一定的威胁，但在大模型趋势下，英伟达的优势有所弱化。过去，机器学习训练时间的主导因素是计算时间，等待矩阵乘法，通过张量核心和降低浮点精度，这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在NvidiaA100GPU，如果不进行大量优化，A100往往具有非常低的FLOPS利用率。而800系列降低了数据传输速率，弱化了英伟达高算力的优势。此外，大模型AI芯片更需要片间互联、HBM，英伟达CUDA这种标准化平台的优势同样有所弱化。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第17页共23页简单金融成就梦想寒武纪的优势在于各种深度学习框架，合作经验丰富。寒武纪思元系列产品适配TensorFlow、Pytorch、Caffe深度学习框架。2019年开始适配海康，峰值时刻合作开发团队有70-80人(公司派出20-30人)，思元290与商汤在CV层面深度合作，NLP领域在讯飞、百度语音都有出货。寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片。目前华为昇腾910性能超越英伟达V100，但未达到A100水平，壁仞科技7nm通用GPU芯片BR100称其可与被禁售的英伟达H100一较高下，但尚未量产上市。寒武纪思源590芯片面积800mm^2，和A100一样。内存带宽2.7T，是A1001.8T的1.5倍。HBM2使用海力士，功耗达350W-550W，FP32算力到80TFLops，目前已经客户送样测试阶段，在高性能国产AI芯片中进程最快，最有机会承接国内AI算法商对英伟达A100、H100的4.AIGC传导至潜在的百倍算力需求！当前市场关注AIGC所拉动的增量算力需求及相应投资机会。此前我们指出，AI必然伴随海量计算，算力是完成数据运算的基础，chatGPT一共有1750亿个参数，训练过程中消耗大量算力，其训练模型中就已导入至少1万颗英伟达GPU。AI发展的基础是算力提升，AI应用的拓展反向推动算力基建的部署。此前ChatGPT宣布因满负荷运行暂停服务，算力基建部署值得关注。推理侧，ChatGPT海量的访问需求带来了巨大的计算成本。我们根据公开数据对此进行估计：根据OpenAI首席执行官SamAltman提供的信息，ChatGPT单次聊天的成本约为0.01美元。ChatGPT目前有超过2000万日活且在持续上行，假设未来日活数量达到5000万、平均每个日活进行10条对话，则每日消耗的成本为500万美元，推测其中大部分为AI服务器成本(折旧、维护等)及对应的电费。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第18页共23页简单金融成就梦想图10：OpenAI首席执行官SamAltman谈ChatGPT每次聊天的成本训练侧，由于大型语言模型(LLM)参数量极高，训练成本与参数量正相关，因此大模型路线势必带动大量额外的算力需求。参考海外最新研究《TheEconomicsofLargeLanguageModels》1，可以有如下估计：每个token(1000token约等于750个单词)的训练成本通常约为6N(而推理成本约为2N)，其中N是LLM的参数数量；假设在训练过程中，模型的FLOPS利用率为46.2%，与在TPUv4芯片上进行训练的PaLM模型(拥有5400亿参数)一致；1750亿参数模型的GPT-3是在3000亿token上进行训练的，成本参考谷歌在GCPTPUv4芯片上训练PaLM模型。计算结果：GPT-3训练成本为140万美元左右。GPT练成本估算将上述计算框架应用于其他的LLM模型中，可以估算出对应的训练成本。其中参数量最大的谷歌PaLM模型，训练成本超过1000万美元。models请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第19页共23页简单金融成就梦想考虑到未来LLM不断升级演进，训练/推理成本将持续上行。相应的成本估算框架如下图所示。可见成本与模型参数数量、模型训练数据集大小、Cost/FLOP效率成正比，并与计算资源和硬件利用率成反比。：LLM训练/推理成本测算框架超越“安迪-比尔”定律2的算力需求爆发！模型参数量每年10倍增长，即使AI芯片的性能提升仍然遵从摩尔定律3，计算资源仍然可能难以满足需求。过去5年中，LLM模型参数呈现指数增长态势。2018年，OpenAI推出了1.17亿参数的GPT-1，谷歌推出了3亿参数的BERT；接下来的两年(2019、2020年)，OpenAI陆续推出参数更大的迭代版本GPT-2、GPT-3，前者有15亿参数，后者有1750亿参数。GPT-4参数量高达100万亿，是GPT-3的500倍以上！即使考虑到AI芯片能力的提升(从当前主流的A100升级至H100)，仍然需要巨量的额外增量投资。请务必仔细阅读正文之后的各项信息披露与声明请务必仔细阅读正文之后的各项信息披露与声明第20页共23页简单金融成就梦想5.重点关注公司目前，国内BAT、字节、京东等大厂均投入AIGC大模型研发，模型的应用场景也从文字对话进一步扩展至绘画、视频等。多玩家、多场景、丰富的下游应用带来百倍的增量AI算力需求，算力基建直接受益！计算机行业核心关注AI芯片、服务器等环节。AI芯片建议关注：寒武纪：寒武纪思元系列产品适配TensorFlow、Pytorch、Caffe深度学习框架。2019年开始适配海康，峰值时刻合作开发团队有70-80人(公司派出20-30人)，思元290与商汤在CV层面深度合作，NLP领域在讯飞、百度语音都有出货。寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片。海光信息：作为AI服务器中的核心，海光的DCU是GPGPU的一种。根据公司公开发布会，海光DCU同时支持全精度和半精度训练，有稀缺性。预计2023年底量产的DCU3性能与NVDIAH100性能持平。已量产的DCU2约等于70%NVDIAA100，双方在模拟效率和精度都处于同一代际。算力需求提升叠加国产替代要求，共同构成催化。AI服务器建议关注：浪潮信息：国内最大的AI、边缘和云服务器供货商，根据IDC数据，浪潮AI服务器出货量基本占据国内一半的市场份额，并且多年稳定。chatGPT为代表的AIGC大模型风靡，对于算力的要求会明显提升，AI服务器作为算力的基础、核心基建，深度受益。浪潮信息的主要客户也是互联网和A

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机行业AIGC系列之七：国产AI芯片的百倍算力需求

文档简介

温馨提示

最新文档

评论

计算机行业AIGC系列之七：国产AI芯片的百倍算力需求

文档简介

温馨提示

最新文档

评论

相关文档