计算机-ChatGPT技术演进及研究框架_第1页
计算机-ChatGPT技术演进及研究框架_第2页
计算机-ChatGPT技术演进及研究框架_第3页
计算机-ChatGPT技术演进及研究框架_第4页
计算机-ChatGPT技术演进及研究框架_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告行业动态报告ChatGPTChatGPT技术演进及研究框架yanguicheng@yufangbo@发布日期:2023年3月3日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。观点观点:Transformer模型融合了词向量、注意力机制和预训练模式的诸多优势,其出现标志着深度学习进入大模型时代。OpenAI推出基Transformer反馈强化学习的ChatGPT以其强大的语义理解和生成能力引爆了市场。技术侧重点理解大模型训练中的核心四要素:模型进入巨量化参数时代,模型算力需求迈上新台阶。相关投资机遇中,AI应用落地情况。une。练算估算单次训练租用云服务器的成本是328万美金。大模型在商业化落地之后,大量的客户访问还会带来不菲的运行成本,近期ChatGPT官网每日访客数量接近5000万,估算云上月租金576万美元/每月,头部企业开发大模型竞争力更强。AInAI二、训练好大模型的要素三、算力需求的展望四、投资逻辑梳理1.1早期自然语言处理(NLP):基于规则方法/统计方法•第一阶段(1950s-1980s)基于规则的方法:基于语言学家制定的规则完成相关任务。在对于训练数据的依赖•第二阶段(1980s-2000s)基于统计的方法:将语言问题转化为概率问题进行模型构建。优点:数据驱动;相较于规则模型泛化能力强语言规则(例):“from”总是指某些东西最初来自哪里,所以我ORIGIN“to”总是指某些东西的去向是哪里,所以用NATION1.2四大核心进展推动神经网络方法在NLP领域发展•第三阶段(2000s至今):基于神经网络的方法逐步发展并得到大幅提升泛化能力更强,逐步挖掘语言知识缺点:数据需求大(质量/数量),训练成本高;可解释性有限•核心进展:1)词向量的应用明确了训练目标,构建起语义信息和数据之间的桥梁2)LSTM/注意力机制增强上下文理解能力,提高语义信息学习能力3)Transformer推动串行走向并行优化计算结构,大幅提升算法和语言模型的训练速度4)预训练明确了训练思路,解决了数据量不足的问题,降低了模型应用的门槛•我们认为以上核心进展,推动了自然语言理解走向大模型,推动了语义理解和生成的大幅提高,并在更多场景落地应用。图表:基于神经网络的自然语言处理重要算法时间轴语言模型语言模型rmerERTTword2vecword2vecword2vec模型示意图LSTM模型示意图Transformer模型示意图GPT模型示意图语义关系的词组具有相似的向量关系例:国家和首都的关系(红框)形容词比较级之间的关系(蓝框)•词向量(wordembedding)在早期的神经网络语言模型中便已经出现,但一直没有受到重视和关注,语义关系的词组具有相似的向量关系例:国家和首都的关系(红框)形容词比较级之间的关系(蓝框)•词向量的重要意义:1)通过数学方法表征了语义信息(例如:通过余弦相似度计算单词相关性)2)相较于过去的方法(独热编码)其表征词汇的矩阵大小被有效控制。•Word2Vec中词向量的缺陷:缺少对于上下文文本的分析,一词多义问题成为当时限制模型语言分析能力的一大障碍。•我们认为,词向量的应用,让NLP领域的神经网络训练的训练目标变得明确,为后续模型的发展奠定了基础。图表:利用Word2Vec产生单词对应的词向量图表:Word2Vec产生的词向量能够反映单词之间的语义关系(二维)1.4RNN/LSTM/ELMO:逐步强化模型分析上下文能力右向的红色箭头表示当前时刻的输出参与下一时刻的计算遗忘门:决定向下传递中需要保留的内容Xt为当前时刻的输入ht为当前时刻的输出•RNN(循环神经网络)解决了短程时序依赖问题右向的红色箭头表示当前时刻的输出参与下一时刻的计算遗忘门:决定向下传递中需要保留的内容Xt为当前时刻的输入ht为当前时刻的输出•LSTM(长短期记忆)部分解决了长程时序依赖问题:LSTM引入了“遗忘”的结构,在信息传递过程中改善了“信息过长,信息丢失”的问题,进而使得模型可以学到相对远距离的信息。但其效果依然有限,串行计算也显著影响了训练效率。•ELMO完善了上下文时序依赖问题:采用双向LSTM结构,同时学习上下文信息。•我们认为,LSTM/ELMO强化了模型分析上下文的能力,进而增强了模型的语义理解能力,较好解决了一词多义问题。个过程便是短程依赖;文本内容的学习便是长程依赖。绿绿色部分相当于RNN结构的ALanguageUnderstanding1.5注意力机制增强语义关联,赋予模型并行运算能力•核心思路:从文本中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略不重要的信息。•实现方法:单独计算目标单词和全文所有单词的“重要性”,进而理解单词和句子在语境中的含义。•重要意义:1)解决了“信息过长,信息丢失”问题:任意位置词向量可关联计算,一次性获得局部和全局信息的关联。2)拥有并行能力:每个单词词向量的计算不依赖于前个单词词向量,可实现并行计算。3)赋予了词向量新的内涵:提供了一些可解释性(句法层面的特征),如句子结构中主语和谓语之间的关系•缺陷:对序列中的位置信息缺少考虑(后续通过在词向量中加入位置信息解决)•变种:Self-Attention、MaskedSelf-Attention、Multi-HeadSelf-Attention等图表:注意力机制获得的单词间重要性关系(SelfMaskedAttention)ention词语而言重要的信息ntion个单词而言重要的信息tention信息的重要性,不考adAttention含义重要的信息,再“组合”起来示重要性越强;例如对于第四句The词用的是SelfMaskedtion门槛•预训练模型原理:对于语言/图像处理而言,其浅层特征是通用的:底层网络参数在面对不同任务时均可以复用。但随着网络层数增加,越深层的特征与具体任务的相关性便越强。例如人、车、大象图像的浅层特征都是线条和轮廓。因此在模型浅层部分通过海量数据的预训练(Pre-training),再根据具体下游场景训练深层特征做微调(Fine-tuning)。•我们认为,预训练的应用是具有跨时代意义的。一方面其解决了因神经网络日益复杂而带来的数据需求日益增加的问题。另一方面,基于海量数据预训练后的模型,下游具体任务的训练速度被大大加快,准确度也进一步提高。图图表:预训练模型:基础知识学习+具体任务学习游任务的训练速度法律文书知识英文小说创作小说知识PreTraining•Transformer模型的核心结构是:编码器(encoder)-解码器(decoder)•工作原理:对于Transformer最初应用的翻译任务而言,其过程为输入文本通过encoder编码,经过多层注意力增强机制提取特征后,学习并理解语句含义转为词向量,再由decoder解码,基于前文词向量生成文本,完成翻译任务。•共同点:encoder和decoder都采取了多层多头注意力进行特征提取和学习,能够深入挖掘文本的语义关联信息•差异点:encoder:同时对上下文进行理解,有更强的语言理解能力。decoder:使用多头掩码注意力机制,将输入文本当前词以后的单词掩盖(masked)进行训练,这与语言生成过程逻辑一致(由前往后逐词生成,下一个单词只与前文信息相关),因此decoder拥有更强的文本生成能力。图表:Transformer模型结构资料来源:Attentionisallyouneed,中信建投1.8基于Transformer,BERT&GPT分别采取了不同的策略•GPT:建立在TransformerDecoder的基础上、具有良好的自然语言生成能力,然而当前词的语义只能由其前序词决定,因此在语义理解上不足。一定程度上牺牲语义理解能力,换取更强的生成能力。BERTTransformerEncoder虽然使用双向编码让BERT文本生成能力被削弱,•二者均采用预训练方法:第一阶段使用大规模无标签语料训练基础语言模型。第二阶段根据指定任务的少量带标签数据进行微调训练。•我们认为:1.Transformer创新性架构设计为后续的语言模型奠定基础,开启了预训练大语言模型的时代。•2.谷歌和OpenAI引领大模型发展:谷歌和OpenAI先后于2018年提出基于Encoder的BERT和基于Decoder的GPT。谷歌在3年后加入OpenAIDecoderOpenAI极强的ChatGPT,引领全行业。BERTGPT图表:Google和OpenAI在语言模型中的发展时间线资料来源:BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,公司官网,中信建投1.9GPT1-3:不断发掘模型容量和数据量增加带来的性能提升•GPT-1使用了BooksCorpus数据集,这个数据集包含7,000本没有发布的书籍。1.数据集拥有更长的上下文依赖关系,使得模型能学得更长期的依赖关系;2.这些书籍因为没有发布,所以很难在下游数据集上见到,更能验证模型的泛化能力。•GPT-2的文章取自于Reddit上高赞的文章,命名为WebText。数据集共有约800万篇文章,累计体积约40G。为了避免和测试集的冲48/1600,滑动窗口大小为1024(一次性对于上下文的1024个单词进行关联语义挖掘)。•GPT-3共训练了5个不同的语料,分别是低质量的CommonCrawl,高质量的WebText2,Books1,Books2和Wikipedia。GPT-3采用r•我们认为,在Transformer模型的广泛应用中,参数量和预训练数据量的提升,快速提升了模型的表现能力。千亿级参数量的模图表:GPT系列模型的参数量与数据量不断提升模型发布时间参数量预训练数据量0GBGPT-35TB1.10GPT1-3:针对下游任务输入的不断革新•GPT1-3的下游任务训练方法:GPT-1:针对不同下游任务,通过特殊格式的少量标注数据集进行训练(提供特殊格式的例子)。GPT-2:zero-shot,完全不提供例子,直接使用自然语言描述问题(taskdescription),但实际效果有限。GPTzeroshotoneshotfewshot型完成相应的下游任务。图表:GPT-1对于不同下游任务的训练数据格式图表:GPT3采用的zero-shot/one-shot/few-shot方法(左)与对应性能(右)的强化学习•基于人类反馈的强化学习(RLHF)的强化学习1.使用人工标注形成标准答案:在ChatGPT的兄弟版本InstructGPT中,40位人工标注员针对一个详细说明了下游任务的数据集,完成了13000个问答,基于这些这些问答组成的训练数据来调整模型。2.训练一个奖励模型:针对模型给出的相同问题的多个回答,然后人工给这些问答对按一些标准(可读性、无害、正确性等)进行排序,训练一个奖励模型/偏好模型来打分(rewardmodel)。3.持续更新网络参数,在奖励模型的激励下使模型生成的答案不断趋近于定义的标准答案。图表:InstructGPT引入人类反馈的强化学习示意图图表:ChatGPT能力的来源 存储知识的能力大语言模型中的海量参数 遵循不同指令的能力广泛的指令学习资料来源:Traininglanguagemodelstofollowinstructionswithhumanfeedback,"HowdoesGPTObtainitsAbility?TracingEmergentAbilitiesofLanguageModelstotheirSources",中信建投1.12ChatGPT与Bard对比GPTGPT包含1750亿个参数量,预训练数据量为45TB。•在训练方式上,ChatGPT在GPT-3基础上加入了人类反馈强化学习(RLHF),采用人工标注的方式将自然语言和强化学习结合起来,升了模型的效率和学习能力。•在数据集上,虽然原始LaMDA预训练数据量不如GPT-3,但Bard数据更新且与谷歌搜索引擎集成后能访问大量数据,在获取信息的 atGPT21年及以前的数据库服务有免费的也有付费计划选项更改谷歌设置即可获得BardAI搜索,有比ChatGPT更新的数据服务是免费的阶段资料来源:谷歌,微软,中信建投•微软发布多模态大型语言模型(MLLM)KOSMOS-1。其基于Transformer模型,不但可以完成文本学习、指令遵循、上下文学习、文本生成等任务,还能够将文本以外的模态(如视觉图像、语音)嵌入到模型中,进而完成多模态的下游任务。研究证明,在多个下游任务中,该模型具有非常优异的性能。•其训练数据集包括文本语料库、图像-字幕对、图像和文本交叉数据集;模型的参数总量为16亿。•重要意义:多模态感知是实现通用人工智能的重要条件,多模态技术的发展将进一步增强人工智能的知识获取能力和高价值场景应•我们认为,多模态大语言模型蕴含着更广泛的应用场景和更高的商业价值,将成为未来人工智能行业发展重要的竞争赛道,多模态技术的成熟也将进一步加速人工智能技术在不同场景的落地应用。图表:KOSMOS-1在视觉问答方面的测试样例图表:KOSMOS-1在图像对话/逻辑问答方面的测试样例1.14预训练自然语言大模型学术研究情况•预训练自然语言的大模型相关研究得到爆发式发展。2017年Transformer模型诞生之后,随即被应用到自然语言、视觉识别等诸多领域,2018年自然语言预训练大模型的概念逐渐兴起,通过在webofscience上检索pre-trainedlanguagemodel(PLM),我们发现自2018年之后,预训练大模型得到了学术圈的广泛研究,相关学术论文数量也呈现爆发式增长。•2022年大部分企业都加大了自然语言大模型的研发力度。通过对相关企业的文献数量研究,我们能够窥测到:微软、谷歌在自然语言大模型领域进入较早且持续投入较大。整体来看,大部分企业在2022年都加快了自然语言模型的研发进程,在ChatGPT爆图:大模型的相关学术研究论文数量图:不同企业的大模型学术论文的发表频次0015712018201920202021202220238642020182019202020212022微软华为阿里巴巴谷歌百度脸书IBM二、训练好大模型的要素三、算力需求的展望四、投资逻辑梳理型的参数增加到一定程度,模型性能会有一些突破性,参数量保持相同型的参数增加到一定程度,模型性能会有一些突破性,参数量保持相同的数据集会对模型预训练产生较好的性能提升。batchsize难度可以提升模型性能。PromptFinetune表现参数型训练与模型稀疏性是提升训练效率的三种方式 与模型稀疏性是提升训练效率的三种方式2.1大模型与小模型界定•大模型,又称为基础模型或者大规模预训练模型,是“大算力+强算法”结合的产物,大模型是人工智能发展的趋势和未来。•大模型的一般训练过程:数据获取-数据清洗-大模型训练-下游适配-终端应用•大模型与小模型没有非常清晰的界定,站在当前时点来看,大模型一般具备如下特征:参数量(十亿量级)和训练数据量(GB以上)巨大,一般采用transformer架构;采用预训练模式,在通用数据集上进行预训练,而不是直接在特定数据集进行特定任务的训练;具备迁移学习能力,迁移学习的思想是将从一项任务(例如,图像中的对象识别)中学到的“知识”应用到另一项任务(例如,视频中的行为识别)中,在Zero/One-shot中具有较好的表现,即训练样本很少或者没有的情况下,仍有较好性能。模型的训练过程依赖云端设备,无法在离线个人终端上实现;数据获取数据清洗大模型训练下游适配终端应用资料来源:OntheOpportunitiesandRisksofFoundationModels,中信建投2.2大模型与小模型建模过程的差异性•在训练步骤方面。大模型的训练过程主要包含如下步骤:数据获取→数据清洗→大模型训练→下游适配→终端应用,小模型的训练过程主要包含如下几个步骤:任务制定→数据获取→数据清洗→模型训练→模型调试→终端应用。训练过程的差异性主要存在于以下两个步骤中:•在数据获取环节方面,大模型的训练文本一般是通用数据集,其训练文本并未针对特定领域进行筛选。小模型的训练过程中首先制定任务目标,针对特定目标搜选训练数据集,适用于监督学习的数据集同时需要标注员进行人工标注。•在训练模式方面,大模型一般采用预训练模式,训练过程中并未针对下游特定任务,训练之后需要fine-tune(微调)去在下游应用领域适用。小模型在训练时包含特定任务,训练结束后经过一定的参数微调,便可应用到下游领域。图表:BERT模型的预训练过程和下游任务微调•模型参数量对大模型的性能有重要影响,大模型的性能往往随着模型参数量的增加而上升,多数是可以预见的,模型性能通常是依靠知识和简单的文本操作来提高。大模型还存在一种不可预见现象,被称为大模型的突现能力(emergentabilitiesorbreakthroughness),指在特定任务中,伴随着模型参数量的增加,会发生一些不存在于小模型的现象,这种现象不能简单通过推断小模型的性能改进进行预测,约有5%的大模型任务会出现大模型的突现能力。的层数增加到48层,GPT-3则为96层。此外,增加模型中词向量长度,放大每层网络中的构件大小等均能提升模型效果。图表:随着参数量上升大模型性能具有突破性资料来源:EmergentAbilitiesofLargeLanguageModels,Quantifyingandextrapolatingthecapabilitiesoflanguagemodels,中信建投2.4语言模型对训练数据量提出更高需求•在大模型中,模型参数量大小和训练数据量应该以大致相同的速度增长。的问题:DeepMind的最新论文中审视了当前的模型发展,发现普遍存模型的大小与训练数据量不匹配。因为在过去,业界普遍认为大模型表现和参数量高度相关。但在实际训练中,算力是对模型最大的制约因素,模型参数不可能无限增长。•参数量与数据量应匹配:在算力资源有限情况下,如何匹配模型参数量和数据量使得模型表现达到最优,是非常重要的问题。•DeepMind最新的研究成果表明:对于固定的算力资源,模型参数大小和训练数据的大小是对应的。1)OpenAI过去的工作发现,模型的尺寸应该会比训练数据大小的增加更快。DeepMind现,模型的尺寸和训练数据的数量应该以大致相同的速度增长。在最优性能曲线(右下图三条直线)中:DeepMind的Chinchilla(700亿)模型,利用原先4倍的训练数据量,获得了参数量和性能的最优匹配。可以看到Gopher(2800亿)、GPT-3(1750亿)、MT-NLG(5300亿)等模型的训练量明显不足,造成了对算力的浪费。图表:DeepMind训练大模型的参数图表:DeepMind发现很多大模型参数量应该有所降低ModelSize(#Parameters)LaMDA300BillionJurassic300BillionGopher280Billion300BillionTNLGB530Billion270BillionChinchilla70Billion资料来源:TrainingCompute-OptimalLargeLanguageModel,StateofAI2022,中信建投setCNNDMsetCNNDMSQnADEnDeEnF19.2480.8826.9839.82ered19.1478.7826.5539.341wslike19.2380.3926.7539.9019.3181.4226.8039.7419.3181.2926.9439.69TBC19.2882.0826.7739.63•对于大型语言模型而言,数据质量可能更为重要。数据质量包括数据准确度、信息含量以及数据类型的多样性等。•多年前谷歌提出的T5预训练模型,使用其专门构造的C4数据集(ColossalCleanCrawledCorpus),该数据集是从CommonCrawl网站上抓取数百个千兆字节干净的英文文本,从而使得模型训练后,性能有较好的表现。据集包括CommonCrawl在内的五类数据,但该模型并非根据数据量大小赋予同比例权重,而是将质量较高的维基百科数据在训练数据量占比。•阿伯丁大学等相关学者(资料来源2)对训练数据集进行了估算,结论到2026年左右,高质量的NLP数据将会用光,低质量NLP数据会在2030到2050年用光,而低质量图像数据会在2030到2060年用光。 图表:T5模型C4数据集表现(前四类数据集是C4或者基于C4的变体)图表:GPT-3数据集etngmixselapsedwhenainingforBtokensnCrawlfilteredbillion资料来源:1.ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformer,2.Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning,3.LanguageModelsareFew-ShotLearners,中信建投2.6大模型需要更充分的预训练•大模型预训练阶段主要通过在一定程度上增大batchSize(每一组数据的大小)和步长(在数据上移动的长度)实现。•典型的增大batchsize与步长的模型是BERT的改进版本RoBERTa。RoBERTa是稳健优化的BERT方法,使用动态掩码、更大的batchsize以及字节对编码等进行优化。•RoBERTa在BERT的基础上,通过增大batchsize(8K)和步长(100K->300K->500K),使得BERT得到充分训练,极大提升了原图表:RoBERTa模型使用大的batchSize和增加训练步数不同数据集的准确率不同数据集的准确率mooKsWIKI93.6/87.3additionaldata(§3.2)4.0/87.7pretrainlonger4.4/88.7pretrainevenlonger.4ooKsWIKIrge90.9/81.8ooKsWIKI94.0/87.8additionaldata94.5/88.8资料来源:RoBERTa:ARobustlyOptimizedBERTPretrainingApproach,中信建投2.7增加预训练任务的难度•大模型在进行预测之前需要进行预训练,如果预训练任务越有难度,则预训练模型则越能高效率学习知识,则最终模型能有更好的性能表现。以BERT为例,BERT有两个预训练任务,分别是单词级的MASK语言模型和句子级的下一句预测NSP模型。•MASK模型随机选取一部分单词进行屏蔽,要求模型对屏蔽词作出预测。MASK任务中,相较于简单屏蔽一个独立的单词,通过屏蔽连续的单词片段,对模型要求更高,训练效果也最好。•NSP的主要目的是判断两个句子之间的连贯性,正例由两个连续句子构成,负例的两个句子顺序则是随机的,不具备上下文关系,NSP将连贯性预测和主题预测进行了合并,只需要模型预测句子是否主题相似即可,任务比较简单。在BERT模型的改进版ALBERT中,用SOP代替了NSP,将两个连续出现的句子构造成正例,负例则将连续的句子调换语序,需要模型预测两个句子出现顺序是否正确,模型复杂度增加,但同时模型学到了更多知识,取得了比较好的训练效果。 utsPrefixlanguagemodelingankyouforinvitingmetoyourpartylastweek.Thankyou<M><M>metoyourpartyappleweek.fllingpartymeforyourto.lastfunyouinvitingweekThanktyleThankyou<M><M>metoyourparty<M>week.lid.noisE,replacespansThankyou<X>metoyourparty<Y>week.Xforinviting<Y>last<Z>lidnoisedroptokensThankyoumetoyourpartyweek.nvitinglastandomspansThankyou<X>to<Y>week.Xforinvitingme<Y>yourpartylast<Z>资料来源:ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformer,中信建投2.8Fine-tune、Prompt提高模型下游任务表现Finetune用效果。但存大量的主干参数的数据且需要大量训练数据,成本较高;另一方面,在上下游任务目标差异大时,微调难以解决问题;同时,不改变大部分参数,只针对输出部分进行调整,会导致过拟合问题。•Prompt方法主要通过改造下游任务的模板来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果。最大的优点是零/小样本,解决了Fine-tune最大的痛点。Prompt的设计分为模板设计、答案搜索和答案映射三步。•Prompt模板的设计方法主要分为人工构建模板、离散模板和连续模板三种。其中,人工构建的模板具有直观、高效的特点,但是对专业知识的要求较低,但是在部分任务上性能不佳;连续模板在部分场景下性能超过Fine-tune,但是训练时间长、收敛速度慢,与预训练数据可能出现过耦合。 图表:连续Propmt和Fine-tune调优效果对比图表:离散Propmt和Fine-tune调优效果对比资料来源:Prefix-Tuning:OptimizingContinuousPromptsforGeneration,Autoprompt:Elicitingknowledgefromlanguagemodelswithautomaticallygeneratedprompts,中信建投2.9并行计算、显存优化与模型稀疏性提升训练效率•并行计算、显存优化与模型稀疏性设计是提升大模型训练效率的三种技术。•并行计算通过使用多张显卡训练模型,将任务进行拆解,分配给不同的处理器进行处理,可以提高模型的训练效率。根据不同的维度,分为数据并行、流水线并行、张量并行三种。数据并行是将相同模型权重复制到多个设备,并将一部分数据分配给每个设备同时处理;流水线并行是一种通过将模型并行与数据流水线相结合来加速神经网络训练的方法,核心思想在于模型按层分割成若干块,每块都交给一个设备;张量并行是将一个张量沿特定维度分成若干部分在不同的设备上分别计算。•显存优化技术能够降低显存占用,提高GPU利用率,与并行计算相结合,节约模型训练的成本,实现在单GPU上训练大模型,包括激活检查点(ActivationCheckpointing)、混合精度训练(MixPrecisionTraining)以及零冗余优化器(ZeroRedundancyOptimizer)•模型稀疏性指的是模型具有非常大的容量,但只有模型的用于给定的任务、样本或标记的某些部分被激活。模型稀疏设计的优点在激活整个模型,通过子模型处理不同类的任务,同时共享一部分模型。子模型扩大了模型的容量,但是实际计算成本不图表:并行策略图表:零冗余优化器优化过程图表:专家混合模型(MoE)是典型的模型稀疏性方法二、训练好大模型的要素三、算力需求的展望四、投资逻辑梳理3.1人工智能模型不同时段的算力需求人工智能模型的算力需求大致可以分为三个阶段:2010-2015年,深度学习模型在传统的自然语言、计算机视觉等领域开始战胜支持向量机等算法,深度学习模型开始成为主流算法,随着神经网络的层数和参数量的提升,算力需求的增长速度也显著加快,大致每6个月翻一倍。2016年之后,人工智能模型开始进入巨量参数时代,算力需求显著提升。根据英伟达的算力统计显示,自2017年之后,以Transformer模型为基础架构的大模型算力需求提升大致是每2年提升275倍。图表:AI模型的算力需求逐步提升图表:Transformer模型的算力需求显著高于其他模型3.2预训练自然语言模型对算力提出更高需求•随着大规模预训练自然语言模型的提出,模型的训练过程中提出了更高的算力要求。预训练模型通过无需人工标注的大规模文本库进行高算力的预先训练,得到通用的语言模型和表现形式,再经过特定应用环境对预训练模型进行微调,从而在各种下游应用领域得到目标任务的快速收敛和准确率提升。预训练模型在训练过程中不针对下游任务进行训练,模型的泛化学习能力使其具备广泛的下游适应能力,泛化学习能力与模型的参数量密切相关,因而参数巨量化成为预训练模型的典型特征。同时随着训练数据量的显著提升,预训练模型的训练过程中对算力提出了更高的要求。 图表:大规模自然语言模型的参数量和算力需求图表:训练大规模自然语言模型的算力需求型算力需求(PF-s力需求(flops)参数量(百万)训练数据量(百万tokens)算力需求(每参数·每文本)T5-SmallE03E00E03E1E13T5-3BE+213E02E2236E0E2066.93E+01.26E+216mallE0E06umE00E06ge6E1E16GPTBE01.77E+216GPTB6BE2E26TBE03E236资料来源:LanguageModelsareFew-ShotLearners,中信建投GLMGLM(130B)3.3超大规模自然语言模型的算力需求迈上新台阶•预训练自然语言模型进入千亿参数时代,模型训练算力迈上新台阶。自GPT-3模型之后,大规模的自然语言模型进入了千亿参数时代,2021年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。GPT-3模型参数量为1750亿,训练算力需求为3.14E+23flops,当前各种预训练语言模型还在快速的更新迭代,不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。 GPT-NeoX(20B)GPT-35B)GPT-j(6B)MegatronTuring-NLG(137B)Pan-Gu(200B)Pan-Gu(200B)FLAN(137B)OPT(175B)BLOOMB)Aug2022chatGPTJune2020ofAIReport,中信建投May2021Aug2021Sep2021HyperCLOVA(204B)Yuan1.0(246B)LaMDA(280B)May2022PaLM(540B)Nov20223.4大模型的算力需求主要来自三个环节•大模型的算力需求主要来自于三个环节:预训练得到大模型的训练环节。该环节中,算力呈现海量需求且集中训练的特点,大模型通常在数天到数周内在云端完成训练。适应下游领域时进一步fine-tune环节。算力需求取决于模型的泛化能力以及下游任务的难度情况。大模型日常运行时的推理环节。该环节中,算力取决于模型的参数量和用户调用量,需求在模型商业化后持续存在且波动较大。 数据获取数据清洗GPT模型训练商业应用Finetune资料来源:中信建投3.5英伟达显卡是AI模型算力的主流选择•英伟达显卡是AI模型中最常用的算力芯片。英伟达显卡凭借较高的灵活性和成熟的软件生态,成为当前AI模型的主流选择,根据学术论文的统计结果,英伟达显卡使用的频次是•英伟达显卡实现人工智能算力的显著提升。从V100-A100-H100的发展路径来看,英伟达显卡实现了FP64、FP32算力能力的持续提升,AI模型的训练速度稳步加快,通过引入FP16、INT8Tensorcore,实现推理能力的显著提升,单位能耗下的训练和推理能力也实现稳步提升。 图表:不同AI芯片在人工智能论文中的出现频次图表:英伟达不同GPGPU的性能参数比对A00A00V0FP64(TFlops)349.79.77.8FP32(TFlops)FP16Tensorcore(TFlops)INT8Tensorcore(TFlops)GPU显存(GB)GPU带宽(GB/s)互连(GB/s)功耗(W)发发布时间3.6AI服务器专注实现人工智能加速•随着AI算力的需求提升,衍生出专注人工智能加速的AI服务器。在小模型时代,AI模型的训练和推理算力需求相对较小,依赖个人终端就可以实现。随着模型参数的逐渐提升,AI模型开始依赖云端算力,云服务器承载了主要的算力需求。当前,AI算力在数据中心的占比进一步提升,衍生出了更加专业化的AI服务器。•以GPU为主的AI服务器实现人工智能的算力加速。AI服务器多采用异构架构,其中以2CPU+8GPU最为常见,AI服务器具有性能优越、擅长并行计算、高带宽、散热能力强等优点。图表:传统云服务器与AI服务器图表:云服务器与AI服务器的差异传统云服务器2CPU资料来源:浪潮信息,英伟达,中信建投AI服务器AICPUGPU侧重串行计算侧重并行计算、通信3.7ChatGPT类大模型的训练成本估算AI模型的训练算力与模型参数量、训练数据量有关:•ChatGPT模型训练的算力需求为3.14e+23FLOPs。•模型的有效算力利用率为21.3%(GPT-3训练效率)。•英伟达DGXA100服务器单精度2496TFLOP/s=2.50e+15FLOPs,训练时需要在DGXA100服务器上总训练时长164060小时(单个A100训练150年)。按照云服务器平均运行成本估算,DGXA100服务器的小时租金是20美元,估算单次训练租用云服务器的成本是328万美金。•其中只考虑了单模型的单次训练服务器租金,大模型训练次数可能不止一次且存在其他研发费用没有计入其中。 A金比对服务器164060ops3.8ChatGPT类大模型的运行成本估算模型的运行成本与模型参数量、用户调用次数有关:•750字(1ktoken=750字)文字生成的算力需求(以FLOPs为指标)约为N其中N为模型参数数量,生成750字消耗算力350TFLOPs。•根据Similarweb数据,近期chatGPT官网吸引的每日访客数量接近5000万。每小时平均访问人数约210万人,假定高峰时期同时在线人数450万人,一小时内每人问6个问题,每个问题回答60字。•用户高峰时期的每小时算力需求:4500000*350*6*60/750=7.56E+8TFlops,考虑模型的有效算力利用率为21.3%,需要400台A100服务器(3200块英伟达A100芯片)支撑,400台服务器在云上月租金576万美元/每月。 图表:ChatGPT官网的日均访问量(百万人次)006万美元/月务器算力:2496TFlops二、训练好大模型的要素三、算力需求的展望四、投资逻辑梳理现状市场特点发展趋势1)预训练模型迭代对于算力提出更高要求,只有少数头能够负担起高昂的训练成本2)高质量的海量数据成为大语言模型充分训练的重要数据和数据处理相关公司将在产业中变得更加现状市场特点发展趋势1)预训练模型迭代对于算力提出更高要求,只有少数头能够负担起高昂的训练成本2)高质量的海量数据成为大语言模型充分训练的重要数据和数据处理相关公司将在产业中变得更加3)大模型训练的训练对企业协作提出更高要求,人工技术提供商和算力提供商协同合作,来完成大规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论