大语言模型的能力边界与发展思考 2024_第1页
大语言模型的能力边界与发展思考 2024_第2页
大语言模型的能力边界与发展思考 2024_第3页
大语言模型的能力边界与发展思考 2024_第4页
大语言模型的能力边界与发展思考 2024_第5页
已阅读5页,还剩193页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

12024年--大模型落地总是“差一口气”2024年--大模型落地总是“差一口气”2024年--大模型落地总是“差一口气”2024年--大模型落地总是“差一口气”2024年--大模型落地总是“差一口气”2024年--大模型落地总是“差一口气”语言模型无法进行逆向知识搜索,除非知识以逆序测试准确率为38.0%,相比GPT-4API同时期各种脑洞大开的“飞行器”同时期各种脑洞大开的“飞行器”莱特兄弟认为困扰航空先驱们的飞行难题有三点:机翼、发动机以及),基于展弦比知识和更精确的斯密顿系数,莱特兄弟设计了他们 语言模型的核心任务始终是生成一个“合理的延续”,即根据个符合人类书写习惯的下一个合理内容。所谓“合理”,是指根据数奖励函数奖励函数强化学习explainthemoonlandingtoexplainthemoonlandingto6yearoldsWritesomethingaboutfrogexplainthemoonlandingto6yearolds数千亿单词百万各任务用户指令十万各任务数千亿单词百万各任务用户指令十万各任务用户指令ABCD基础大模型大模型SomepeoplewenttotheABCD基础大模型大模型SomepeoplewenttotheMoon标注人员对答案质量进标注人员对答案质量进行排序Onceuponatime…C>A>B=D有监督微调大模型奖励函数C>A>B=D有监督微调大模型奖励函数奖励函数rk月级别训练时间天级别训练时间月级别训练时间天级别训练时间天级别训练时间预训练阶段有监督微调奖励函数强化学习explainthemoonlandingto6yearoldsWritesomethingaboutfrogexplainthemoonlandingto6yearoldsWritesomethingaboutfrog十万各任务用户指令数千亿单词百万各任务用户指令十万各任务用户指令Bexplainthemoonlandingto6yearoldsA标注人员对答案质量进行排序标注人员对答案质量进行排序OnceOnceuponatime…有监督微调大模型奖励函数C>A>B=D有监督微调大模型奖励函数C>A>B=D4.什么才是高质量的SFTrk4.什么才是高质量的SFTrk Wikipediavs.CommonCr4.经过足够的训练模型可以达到2bit/参数的知识存储理想输出:复旦大学现有4个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区,邯郸校区与新江湾校区都位于杨浦区,枫林校区位于徐理想输出:从森林里走出一只可爱的小熊,它叫贝利。贝利一直对大海充满好奇,于是他决定去海滩看看。他跳跃着穿过河流和草地,终于来到了一片美丽的海滩。贝利兴奋地跑着,感受着海风的清凉。突然,他注意到海滩上有一只憨态可掬的海豹,名叫萨米。萨米正在玩耍,好像是在找贝利这样的新朋友。贝利好奇地走过去,和萨米打了个招呼。萨米非常友好 4.什么才是高质量SFT训练数据? •使用了ENTITYQUESTIONS,包含24个不同话题知识的问答数据集并将剩余12个话题的测试集作为领域外测试集Dtest−ood板补全机制,根据其知识记忆水平将训练和测试集板补全机制,根据其知识记忆水平将训练和测试集 •使用不同记忆水平的训练数据Dtrain−i的来分析每个LLM•将训练数据划分为六个不同的数据量级别,从60个样•实验结果表明,经过SFT后,仅需60个训练样本就足•无论基础模型或记忆水平如何,LLMs在使用较少训练样本时的表现优于使用960个或全部样本。大多数模型 •无论使用何种数据进行微调,LLMs始终对预训练期间•在特定记忆水平的数据上进行训练能够提升LLMs在该SFT •在SFT阶段仅需60条数据就能激活预训练时编码的知识,使LLMs能够有效•使用不同知识记忆层次的数据进行SFT,对LLMs的表现有显著并且有规律 不同的SFT能力在任务格式和数据 当SFT数据从100K提升到3M时,大部 有限。说明少量样本微调就帮助大模型完成1.所有的“能力”都需要精心设计训练数据,没有所谓的“涌现”4.训练数据会影响模型参数,导致表示和知识 “考试作弊设备在哪买”指令微调模型强化学习模型 标注者拒绝的回答:为考试复习确实很有挑战性,但有几种有效的策略可以帮助你高效地学习。首先,重要的是将你需要学习的材料分解成小部分,并集中精力彻底学习每一部分。此外,有帮助的是每天留出充足的时间进行学习,并定期复习材料。高效学习还包括避免干扰和保持充分休息,因为这些因素可以降低 语言模型无法进行逆向知识搜索,除非知识以逆序GPT3经过充分调整,在特定任务数据上达到了一定的问题规模。蓝色区域表示分布内 探索探索HTTPHTTPAGENTGYMEnvClientsReasoningandActingInstruction:FindmeapillowwithblueAGENTGYMEnvClientsReasoningandActingInstruction:Findmeapillowwithblueand…Thought:IthinkIshouldsearchforpillows…Action:search[pillow]Observation:Results:2.BehavioralCloneEmbodiedBabyAI3.Exploring&LearningExplorationEvolveFeedbackMAZE/WordleAgentEvolImitationBaseAcademiaMovie/Sheet PerformanceCodeBIRD-SQLMulti-TasksGeneralData1.DataPrepare4.Multi-taskEvaluationGeneralDomainChatInstruction:Hello!CanyoutranslatethisintoChineseforme?Response:Sure!Here'sthetranslation…HTTPHTTPBabyAIAlfWorldToolUsingMovieWeatherBIRD-SQLMAZE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论