通信-“合成数据+强化学习”：大模型进化的新范式

上传人：策*** IP属地：山西上传时间：2024-09-20 格式：DOCX 页数：28 大小：939.61KB 积分：19.9 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

请仔细阅读本报告末页声明证券研究报告|行业深度当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。o1亮点一：或为OpenAI新模型“Orin”生成合成数据。据TheInformation，o1或为OpenAI新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude3.5Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。o1亮点二：“合成数据+强化学习”，o1或确认大模型进化新范式。市场认为，ScalingLaw（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据OpenAI工程师JasonWei，o1使用了强化学习（RL）做思维链（ChainofThought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即ScalingLaw可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL指模型A生成推理结果后，由模型B给推理结果打分，帮助模型A不断调整参数、迭代、进化，分成RLAIF（基于AI反馈的强化学习）和RLHF（基于人类反馈的强化学习）多种，后者曾因被用于ChatGPT而名声大噪。我们认为，o1系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于AI反馈的强化学习）逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择，相较于RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIF或许也是o1在代码、数学等问题上表现更好的原因。投资建议：根据OpenAI，o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让o1表现更好，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理ScalingLaw仍将利好算力板块。建议关注：1）光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2）液冷服务商：英维克；3）PCB服务商：沪电股份等；4）AIDC：润泽风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。行业走势10% 2% -6%-14%-22%10% 2% -6%-14%-22%-30%2023-092024-012024-052024-09作者相关研究P.2请仔细阅读本报告末页声明 3 3 4 6 6 6 6 6 6 7 7 7 8 9 11 11 133.3微软Orca-3：智能体框架AgentIn 14 16图表1：OpenAIo1在不同领域的得分情况 3图表2：OpenAIo1相较gpt4o的多维度性能提升 3图表3：OpenAIo1-preview的API定价 4图表4：OpenAIo1-mini的API定价 4图表5：Claude3.5Sonnet在多项测试中的表现优于GPT4o 5 8图表7：ICD策略应用前后不同模型的TruthfulQA变化 8图表8：Nemotron-4340B模型应用路径 9 9 9 10 10 12图表14：Llama3.1405B与其他模型的人工测评结果 12图表15：Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比 13图表16：Nemotron-4340B与Llama-3-70b等模型在各任务表现对比 14 14 15 15图表20：数学任务中Orca-3和其他模型的表现对比 15更好 16图表22：英伟达科学家JimFan图示o1推理ScalingLaw 17P.3请仔细阅读本报告末页声明部思维链，在解决科学、数学、代码等类问题上的表现比之前的模型更好。类博士水平，其强大的逻辑能力使o1相较于gpt4o有着多图表1：OpenAIo1在不同领域的得分情况资料来源：OpenAI，国盛证券研究所图表2：OpenAIo1相较gpt4o的多维度性能提升资料来源：OpenAI，国盛证券研究所出token60美元，o1-mini相对便宜，每P.4请仔细阅读本报告末页声明图表3：OpenAIo1-preview的API定价资料来源：OpenAI，国盛证券研究所图表4：OpenAIo1-mini的API定价资料来源：OpenAI，国盛证券研究所TheInformation认为，草莓就是之前的Q-Star，尤其体现在数学解题、解字谜、代码生成等复智能体创企MinionAI首席执行官AlexGraveley认为，使用OpenAI草莓模型生成更高质量的训练数据可以帮助OpenAI减少其模型产生的P.5请仔细阅读本报告末页声明图表5：Claude3.5Sonnet在多项测试中的表现优于GPT4o资料来源：TechCrunch，国盛证券研究所P.6请仔细阅读本报告末页声明生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性，但不包含相同信息。对于语言模型来说，虽然要生成高质量的合成文本存在一定难度，但通过优化现有数据、从多模态数据中学习等策略，或许能够大幅合成数据的使用率逐渐上升，与传统数据相比优势表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。与传统数据相比，合成数据具有明显的优势。数据的成本来自于采集和标注，在这两部分，合成数据都有显著的优势。相对于真实数据低效的收集方式，合成数据可以定向生成场景，让每一个字节的数据都是有价值的。不需要大量的数据采集团队，也不需要大规模的数据回传系统和数据筛选系统，合成数据从生产开始就根据模型训练的需求出发，大部分产出都可以直接使用，也就降低了数据采集成本。在标注成本方面，合成数据也有较大优势。第一批专门提供合成数据服务的公司之一—标记成本是6美元，而合成数据的成本只有6美分。一些特定情况或数据在真实世界中难以观测，如罕见病或极端天气等。合成数据可以设计比真实数据集更广泛的情况，对Corne多样性，确保在处理边缘案例时也有良好性能，提升模型泛化能力。根据行业和数据类型的不同，企业在处理敏感数据时可能会面临数据安全挑战，引起对于隐私问题的担忧。例如在医疗行业，患者数据通常包括个人健康信息。而合成数据可以减轻对这类问题的担忧，因为它能够在不暴露私有或敏感数据的情况下显示相同的统计相关信息。以医学研究创建的合成数据为例，它保持与原始数据集相同的生物学特征和遗传标记百分比，但所有姓名、地址和其他个人患者信息都是虚假的。WalboP.7请仔细阅读本报告末页声明使用合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题的有效手段，为什觉（大模型产生的响应不准确或捏造信息）等问题仍可能会给数据集引入噪声。而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型，会无法泛化到现实世界合成数据的占比越大，自然语言理解能力就越不容易提升。的“人性”，以至于基于合成数据训练的大模型并不足以达到通用人工智能（Artificial道的领域，却无法揭示初始数据集中不存在的领域，它的边界就是初始数据集的边界。人员需将生成的数据进行清洗和格式化，去除重复内容、修正格式错误，以确保它们符多少时间并未公布。因此，尽管合成数据确实会比真实数据更便宜，但剔除不合格的合成数据到底需要花费多少成本还是未知数。合成数据多次迭代后会使大模型崩溃。根据在这种现象下，随着每次模型数据的反馈迭代，大模型的性能逐渐下降，直到拟合的模大模型的幻觉属性可能会对合成数据引入噪声。苏州大学计算机科学能研究所与腾讯人工智能实验室在论文《通过诱导幻觉缓解大型语言模型的幻觉》中提效减轻大模型的幻觉。P.8请仔细阅读本报告末页声明资料来源：苏州大学计算机科学与技术学院人工智能研究所，腾讯人工智能实验室，国盛证券研究所TruthfulQA文章中提到的“诱导-对比解码”方法可以有效地提高不同模别在（一种基于歧的的幻觉评估基准）上实现TruthfulQA图表7：ICD策略应用前后不同模型的TruthfulQA变化资料来源：苏州大学计算机科学与技术学院人工智能研究所，腾讯人工智能实验室，国盛证券研究所数据的质量。Nemotron-4340B根据五个属性对回答进行评分：有用性、正确性、连贯此外研究人员还可以结合他们的专有数据和包含的HelpSteer2数据集来定制Nemotron-P.9请仔细阅读本报告末页声明图表8：Nemotron-4340B模型应用路径资料来源：NVIDIA官网，国盛证券研究所斯坦福大学和麻省理工的一项研究表明，在原始真实数据旁边积累连续几代的合成数据可以避免模型崩溃，并且此结论适用于各种大小模型、体系结构和超参数（机器学习中图表9：数据在模型拟合迭代替换资料来源：《IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatingRealandSyntheticData》（MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai国盛证券研究所图表10：数据在模型拟合迭代积累资料来源：《IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatingRealandSyntheticData》（MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai国盛证券研究所测试误差波动较小，并且有一个有限的上界，波动幅度与迭代次数无关，这意味着模型P.10请仔细阅读本报告末页声明图表11：数据在模型拟合迭代替换的损失变化资料来源：《IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatingRealandSyntheticData》（MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai国盛证券研究所图表12：数据在模型拟合迭代积累的损失变化资料来源：《IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatingRealandSyntheticData》（MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai国盛证券研究所P.11请仔细阅读本报告末页声明对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于AI反馈的强化学习）类标注较少，适合代码、数学等有客观评价标准的领域。我们注意到除了上文提到的Claude3.5Sonnet，已经有多个领先大模型不仅数据，还将其进一步用于RLAIF（基于AI反馈的强化学习并取得了亮眼表现。我们性、控制性和最先进的功能，可与GPT-改进和训练更小的模型，以及模型提炼——这是开源软件从未达到过的能力。模型称为自我奖励语言模型（Self-RewardingLanguag成训练数据，并评估这些数据的质量，然后用这些数据来自己训练自己。的具体操作是先基于少量人工标注数据预训练一个初始模型，然后再让初始模型基于问自己生成的回复打分，并根据打分形成新的训练数据，从而继续训练模型。该过程是迭代的，在每次迭代中模型的遵循指）能力和打分能力都会提升。P.12请仔细阅读本报告末页声明图表13：自我奖励语言模型训练原理资料来源：arxiv，国盛证券研究所型进行了比较。实验评估结果表明，Llama3.140在现实场景中，Llama3.1405B进行了与人工评估的比较，其总体表现优于GPT-4o和Claude3.5Sonnet。比也具有竞争力。图表14：Llama3.1405B与其他模型的人工测评结果资料来源：澎湃新闻，国盛证券研究所P.13请仔细阅读本报告末页声明图表15：Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比资料来源：澎湃新闻，国盛证券研究所为开发人员提供了一种免费、可扩展的方式来生成合成数据，从而帮助人们构建强大的色，还通过生成高质量合成数据，降低了大模型训练成本。其中Instruct模型创建了多样化的合成数据，模仿了现实世具体来说：Nemotron-4340BBas媲美。而Nemotron-4340BInstruct，在指）跟随和聊天能力方面也超越了相应的指）P.14请仔细阅读本报告末页声明图表16：Nemotron-4340B与Llama-3-70b等模型在各任务表现对比资料来源：英伟达，国盛证券研究所图表17：Nemotron-4340BInstruct与其他知名模型在硬基准测试中的表现对比资料来源：英伟达，国盛证券研究所为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合借助智能体框架，对训练模型进行生成式教学。微软团队在<AgentInstruct:TowardGenerativeTeachingwithAgenticFlows>论文中提到“生成换成一种中间形式，这种形式简化了后续步骤中针对具体目标创建指）的过程。在种子内容，创造出多样化的指）。该阶段的目标是生成一系列具有挑战性且多样的任务，从而让模型在训练过程中接触到尽可能多的不同类型的任务。P.15请仔细阅读本报告末页声明图表18：Orca-3和其他模型在各任务中表现对比资料来源：微软，国盛证券研究所就阅读理解任务来说，通过使用AgentI图表19：阅读理解任务中Orca-3和其他模型的表现对比资料来源：微软，国盛证券研究所图表20：数学任务中Orca-3和其他模型的表现对比资料来源：微软，国盛证券研究所P.16请仔细阅读本报告末页声明能力）可以不止出现在训练阶段，也出现在推理阶段。更多”有助于让o1表现更好，这正是推理ScalingLaw。仍在提高，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型前期海外宏观的冲击及英伟达新品推迟的影响下，板块已有所回调，随着半年报业绩落图表21：o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好资料来源：OpenAI，国盛证券研究所P.17请仔细阅读本报告末页声明图表22：英伟达科学家JimFan图示o1推理ScalingLaw资料来源：JimFan，国盛证券研究所进一步验证；强化学习和思维链（CoT）有效性有待进P.18请仔细阅读本报告末页声明免责声明国盛证券有限责任公司（以下简称“本公司”）具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而的其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料，但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断，可能会随时调整。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态，对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正，但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用，不构成任何投资、法律、会计或税务的最终操作建议，本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。投资者应当充分考虑自身特定状况，并完整理解和使用本报告内容，不应的本报告为做出投资决策的唯一因素。投资者应注意，在法律许可的情况下，本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易，也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

通信-“合成数据+强化学习”：大模型进化的新范式

文档简介

温馨提示

最新文档

评论

通信-“合成数据+强化学习”：大模型进化的新范式

文档简介

温馨提示

最新文档

评论

相关文档