信息技术行业大模型技术进化论系列二:性能进阶的GPT2与GPT3_第1页
信息技术行业大模型技术进化论系列二:性能进阶的GPT2与GPT3_第2页
信息技术行业大模型技术进化论系列二:性能进阶的GPT2与GPT3_第3页
信息技术行业大模型技术进化论系列二:性能进阶的GPT2与GPT3_第4页
信息技术行业大模型技术进化论系列二:性能进阶的GPT2与GPT3_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分析师及联系人SACS0030004后评级说明和重要声明OpenAI于2019年推出了GPT-2,于2020年推出了GPT-3。GPT-2与GPT-3沿袭了初代力上升,所以省略了调参步骤;3)小样本学习(fewshotlearning)能力迅速提高。带来性能提升在自然语言处理任务上的性能相对于初代GPT有了明显提升,可以较好的实现文本生成、文GPT-3在大多数任务中的表现超过了绝大多数的当时存在的经过小样本学习的最先进的模型 GPTGPT化能力,在提高训练数据T本学习的性能与样本几乎成正比;当样本数超过10时,性能增长的边际变化下降,逐渐趋于GPTGPT以商业化落地的阶段,业界OpenAIGPT如今浪潮之巅的ChatGPT。后评级说明和重要声明-20投资评级看好丨维持 术沪深300指数%%2022/42022/82022/122023/4研究•《商汤推出日日新,大算力+大装置共筑繁华未•《阿里通义千问邀测,风好正是扬帆时》2023-04-•《Meta发布SAM,CV领域迎来GPT时刻》2023-04-10行业研究|专题报告3/3/14 图1:Attention机制给不同的词赋予不同的权重 4 T GPT 6图7:GPT-2(1542M)在9个任务上的表现都超越了初代GPT(117M) 7图8:GPT-2模型文本总结任务的性能在参数量提升后稍有下滑 7图9:初代GPT与BERT通过无监督预训练+调参来得到最终模型 8 图13:如果将大模型的调参和小样本学习类比成考试 9GPT-3性能会随着可学样本数量提高而提高 10 图17:GPT-2的性能稍弱于BERT 11图18:当任务数据规模提高后,GPT-2的性能可以追上BERT 11BERTRoERTaGPT-2与GPT-3 11BERTGPT式的影响 12T 4/4/14GPTGPT-3有哪些技术突破?《大模型技术演进系列一》报告,我们比较了初代GPT与BERT两类大模型的技术路线,得出了初代GPT采用的Decoder架构+自回归的训练模式更有发展前景的习方法进行。任意两个位置之间的距离缩小为一个常量,并且在处理序列数据时对相关部分进下文关注。Attention资料来源:Github,长江证券研究所资料来源:Github,长江证券研究所➢Decoder架构与自回归训练模式:此外,GPT-2与GPT-3同样采用了大模型kedselfAttention5/5/14无标注数据 (7000本书)无标注数据 (40GBReddit网站资料)练无标注数据 (45TB多种来源数据)搭建初代GPT模型12层Decoder512Token长度搭建GPT-3模型9无标注数据 (7000本书)无标注数据 (40GBReddit网站资料)练无标注数据 (45TB多种来源数据)搭建初代GPT模型12层Decoder512Token长度搭建GPT-3模型96层Decoder2048Token长度无目的性预训练无目的性预训练得到1.17亿参数的GPT-1性能弱、泛化能力弱得到1750亿参数的GPT-3性能强、泛化能力强监督数据调参泛化能力强,所以省略了调参步骤出现AI任务出现AI任务将大模用于N型直接LP任务通过小样本学习提升性能习勉强完成任务基本完成任务较好完成任务tionMaskedselfAttention资料来源:Github,长江证券研究所升;3)小样本学习(fewshotlearning)能力T搭搭建GPT-2模型48层Decoder1024Token长度无无目的性预训练得到15.4亿参数的GPT-2性能中等、泛化能力中等泛化能力以省略了调参步骤出现AI任务将大模用于N直接LP任务资料来源:机器之心,Sigmoid,lambdalab,长江证券研究所6/6/14升RedditGPT的10TBGPT系列大模型技术突破参数(亿)大小类型本学习能力Corpus低低层DecoderGBeddit中低DecoderTBooksWikipedia高高资料来源:机器之心,Sigmoid,lambdalab,长江证券研究所GPT-2与GPT-3的Token长度从初代GPT的512上涨到1024和2048。大模型的Token长度与每次可输入的文本长短有直接联系,长度升级使得GPT大模型处理长文1400词(1Token≈0.7单词)。GPTGPT不断提升。在训练资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所T资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所7/7/14语言任务上,结果证明GPT-2在8项任务上的表现远超当时最先进的自然语言处理模得它在自然语言处理任务上的性能相对于初代GPT有了明显提升,可以较好的实现文图7:GPT-2(1542M)在9个任务上的表现都超越了初代GPT(117M)资料来源:《LanguageModelsareUnsupervisedMultitaskLearners》OpenAI,长江证券研究所SOTAGPT多复杂的NLPSOTA卷问答、模式解析、机器翻译等。当GPT-2的参数量从7.62亿上升到15.4亿,模型性能反而略微下滑。出现这一结果资料来源:《LanguageModelsareUnsupervisedMultitaskLearners》OpenAI,长江证券研究所GPTBERTNLP务中比较主流的模式是预训练+调参。这种模式。GPTBERT模型预训练+调参=目标模型大规模无标注数据模型预训练 (Pre-training)泛用性增强任务特定训练数据模型微调 (Fine-tuning)根据场景调整数据最终模型得到特定所需资料来源:清华NLP团队,openBMB,长江证券研究所高泛化能力允许oqT-S与oqT-t大模型都省略了调参步骤。GPT-2论文标题为reUnsupervisedMultitaskLearnersGPTTGPTGPT-3抛弃调资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所oqTSGPT之后虽然在大部分任务中已经有oqT-t通过小样本学习提高模型泛化能力。GPT-3大模型不再去追求极致的不需要任个任务。9/9/14小样本学习不复习,简单浏览考题流程简单但性能不如调参小样本学习不复习,简单浏览考题流程简单但性能不如调参资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所资料来源:斯坦福AI实验室,长江证券研究所调参调参考考前认真复习性性能较高但流程复杂资料来源:长江证券研究所GPTGPT的结果来看,对于1750亿的10/10/14资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所T-13亿之间,模型无样本学习的表现反而高于小样本学习。通俗来讲:小参数量的大模资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所资料来源:《LanguageModelsareFew-ShotLearners》OpenAI,长江证券研究所性能提升,但市场表现不及预期GPTGPT。11/11/14资料来源:《iReason:MultimodalCommonsenseReasoningusingVideosandNaturalLanguagewithInterpretability》Chadhaetal.,长江证券研究所RT资料来源:《AStudyonPrompt-basedFew-ShotLearningMethodsforBeliefStateTrackinginTask-orientedDialogSystems》Sahaetal.,长江证券研究所为了解决GPT-3性能不足的问题,OpenAI在2023年推出了根据GPT-3调参的ChatGPT了Decoder架构与训练模式带来的问题,越过了文本推理与文本资料来源:Paperwithcode,长江证券研究所12/12/14资料来源:长江证券研究所13/13/14风险提示AI型创新伴随参数量及模态的增速能力天花板尚未达到,但模型效果本身仍存瓶颈及问题,倘若AI技术发展不及预期,投入厂商仍然存在2、下游应用需求不及预期,人工智能本质是通过供给创新催生需求扩容,目前大模型行业研究|专题报告14/14/142个月内行业股票指数的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评平公司评级报告发布日后的12个月内公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为:相关证券市场代表性指数说明:A股市场以沪深300指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数 (针对做市转让标的)为基准;香港市场以恒生指数为基准。AddAdd区淮海路88号长江证券大厦37楼P.C/(430015)Add/深圳市福田区中心四路1号嘉里建设广场3期36楼P.C/(518048)Add/浦东新区世纪大道1198号世纪汇广场一座29层P.C/(200122)Add/西城区金融街33号通泰大厦15层P.C/(100032)作者具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度,独立、客观地出具本报告。分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点。作者所得报酬的任何部分不曾与,不与,也不将与本报告中的具体推荐意见或观点而有直接或间接联系,特此声明。长江证券股份有限公司具有证券投资咨询业务资格,经营证券业务许可证编号:10060000。本报告仅限中国大陆地区发行,仅供长江证券股份有限公司(以下简称:本公司)的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告的信息均来源于公开资料,本公司

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论