计算机行业专题报告:大模型推理算力知多少_第1页
计算机行业专题报告:大模型推理算力知多少_第2页
计算机行业专题报告:大模型推理算力知多少_第3页
计算机行业专题报告:大模型推理算力知多少_第4页
计算机行业专题报告:大模型推理算力知多少_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机/行业专题报告/2023.08.23投资评级投资评级:看好(维持)计算机沪深3003%分析师杨烨yangye01@分析师罗云扬yyctseccom23-08-172.《智能驾驶研究框架:(一)总章》2023-08-123.《券商信创已至深水区,AI赋能提质-08-07核心核心观点❖Transformer生成为访存密集型任务,显存及其带宽限制算力利用。Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,实际产业中,会将已经计算过的量(K、V值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于访存。量优化技术以克服GPU利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。GPTA算,若以GPT-3.5当前的流量情况以及token生成速度,大约需要5万张左右的A100才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。❖英伟达L40s开启降本第一步,应用有望加速落地。L40s在特定场景下性价比超越A100,供货周期较短。我们认为,L40s的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H系列仍具有不可代替的能力,L40s的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H系列芯片又仍将需求旺盛。❖风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。谨请参阅尾页重要声明及财通证券股票和行业评级标准2 1.1Transformer生成为访存密集型任务,显存带宽是产业发展瓶颈 3 OPS s n 谨请参阅尾页重要声明及财通证券股票和行业评级标准31推理算力成本高企,大模型应用落地受钳制Transformer生成为访存密集型任务,显存带宽是产业发展瓶颈Transformer是自回归模型,推理过程中涉及多轮重复计算。根据Openai的《ScalingLawsforNeuralLanguageModels》,Transformer模型针对每一个输入token而Transformer作为自回归en免重复计算,具体流程如下。WhilegEnd,就会退出循环,本次生成推理过程结束。谨请参阅尾页重要声明及财通证券股票和行业评级标准4KV型本身生成模式,每生成一个token,都需ansformer谨请参阅尾页重要声明及财通证券股票和行业评级标准5需求,更重要的瓶颈在于显存带宽。图4.英伟达各类芯片“计算访存比”V100A100SXMVL芯片“计算访存比”70945上将优化方案分为三类:进行精、减枝、)等。量,但也会对模型本身的效果造成影响,而其他优化技术亦存在一定瓶颈。谨请参阅尾页重要声明及财通证券股票和行业评级标准6izeQPSQueriespersecond,每秒可承受并发量)的增加,但时延(平均每个请求完成时间)亦显著n谨请参阅尾页重要声明及财通证券股票和行业评级标准7型应用发展前景广阔。数据来源:OpenAI,财通证券研究所图8.高昂算力成本限制应用落地 算力成本高昂被被迫模型精简模型精简限制流量用户体验受影响用户体验受影响大大规模应用落地时间拉长2英伟达L40s开启算力降本第一步,静待花开2.1FLOPS视角下,或大幅低估算力需求用推理算力需求公式,或造成芯片需求量的估算存在较多问题。根据上文token数量” 阶段),然后进入重复多次(while循环)的Generation过程,两个阶段的所需计“算力利用率”。谨请参阅尾页重要声明及财通证券股票和行业评级标准8模型端推理算力消耗888881248844公式推理算力消耗=2*参数量*token数F的算力消耗(TFLOPs)-仅计算输出2*175B*D.644.8G得出的算力消耗(TFLOPs)-计算输入+输出2*175B*E47.695.2H时(秒)49924159的:"算力利用率”仅计算输出时"算力利用率"F/K0.2%0.3%5%8%计算输入+输出时"算力利用率"G/K2.7%4.9%5%GPU的利用率的成本是阻碍应用大规模落地的主要因素之一。谨请参阅尾页重要声明及财通证券股票和行业评级标准9注A:模型参数量(亿个)B问量(亿次)C:平均每次使用时间(分钟)D:平均实时并发(万个)Etokens输出(个)F倍数以及显存预留等因素G利用率"H:所需算力储备(FLOPS)ADE*F)/G假设精度1.55TFLOPS0^12FLOPSH/312TFLOPSTFLOPSFLOPSH1248TFLOPS19TFLOPS=10^12FLOPSH/2496TFLOPS 谨请参阅尾页重要声明及财通证券股票和行业评级标准10s3投资建议AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,建议关注金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。AI在B端加速落地,具备细分行业数据与客户资源卡位的企业有望优先受益,建议关注恒生电子、拓尔思、税友股份等。算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:浪潮信息、中科曙光、优刻得、紫光股份、海光信息、寒武纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技术优势的星环科技等。谨请参阅尾页重要声明及财通证券股票和行业评级标准114风险提示P观察。谨请参阅尾页重要声明及财通证券股票和行业评级标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论