Kimi+K1.5：使⽤LLMS扩展强化学习

上传人：1*** IP属地：山西上传时间：2025-02-17 格式：DOCX 页数：50 大小：763.48KB 积分：19.9 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

KIMIK1.5:使⽤LLMS扩展强化学习KIMIK1.5技术报告Kimi团队受到可⽤训练数据量的限制。扩展强化学习（RL）为⼈⼯智能的持续改进开辟了新的⽅向，⼤型语⾔模型（LLMs）通过学习探索奖励来扩展其训练数据，有望实现规模化。然⽽，先前发表的⼯作未能取得竞争性成果。鉴于此，我们报告了Kimik1.5的训练实践，这是我们最新的使⽤强化学习训练的多模态LLM，包括其强化学习训练技术、多模态数据配⽅和基础设施优化。⻓⽂本上下⽂扩展和改进的策略优化⽅法是我们⽅法的关键组成部分，它建⽴了⼀个简约⽽有效的RL框架，不依赖于蒙特卡洛树搜索、价值函数和进程奖励模型等更复杂的技术。值得注意的是，我们的系统在多个基准测试和模态中实现了最新的推理性能——如在AIME上为77.5，在MATH500上为96.2，在Codeforces上为94百分位，在MathVista上为74.9——匹配了OpenAI的o1。此外，我们提出了有效的⻓2短⽅法，使⽤⻓-CoT技术改进短-CoT模型，实现了最新的短-CoT推理结果——如在AIME上60.8，在MATH500上94.6，在LiveCodeBench上47.3——明显优于现有的短-CoT模型，如GPT-4o和ClaudeSonnet3.5（最⾼达+550%）。OpenAIo1QwQ-32B预览OpenAIo1-mini视觉74.9MathVista(Pass@1)MMMU(Pass@1)数学96.294.8OpenAIo1QwQ-32B预览OpenAIo1-mini视觉74.9MathVista(Pass@1)MMMU(Pass@1)数学96.294.8AIME2024(Pass@1)MATH500(EM)代码代码62.540.6LiveCodeBenchv5Codeforces(Percentile)图1：Kimik1.5long-CoT结果Kimik1.5TECHNICALREPORT2 Kimik1.5短-CoTOpenAI4oClaude3.5SonnetQwen2-VLLLaMA-3.1405B-Inst.DeepSeekV3Qwen2.572B-Inst.視覺數學代碼視覺數學图2：Kimik1.5短期-CoT结果在⽐例缩放模型参数和数据⼤⼩的上下⽂下，已经研究了使⽤下⼀个标记预测进⾏语⾔模型预训练的扩展定律。这导致了智能的持续改进。(Kaplan等，2020;Hoffmann等，2022)然⽽，这种⽅法受到可⽤⾼质量训练数据量的限制(Villalobos等，2024;Muennighoff等，2023)。在本报告中，我们介绍了Kimik1.5的训练配⽅，这是我们最新的使⽤强化学习(RL)训练的多模式LLM。⽬标是探索持续扩展的可能新轴。使⽤LLM进⾏RL，模型可以通过奖励来探索学习，因此不受现有静态数据集的限制。关于k1.5设计和训练的⼏个关键要点•⻓上下⽂缩放。我们将RL的上下⽂窗⼝扩展到128k，并观察到随着上下⽂⻓度的增加，性能持续改进的情况。我们⽅法背后的⼀个关键思想是使⽤部分回合来提⾼训练效率，即通过重复使⽤⼤块先前轨迹来抽样新的轨迹，避免了从头开始重新⽣成新轨迹的成本。我们的观察将上下⽂⻓度确定为RL与LLM持续扩展的关键维度。•改进的策略优化。我们推导出具有⻓CoT的RL的公式，并采⽤在线镜像下降的变体进⾏稳健的策略优化。通过我们的有效抽样策略、⻓度惩罚和数据配⽅的优化，进⼀步改进了这⼀算法。•简单框架。⻓上下⽂缩放，结合改进的策略优化⽅法，建⽴了⼀个简单的RL框架，⽤于与LLM学习。由于我们能够扩展上下⽂⻓度，学到的CoTs表现出规划、反思和修正的特性。增加上下⽂⻓度会增加搜索步数。因此，我们展⽰了可以在不依赖于诸如蒙特卡罗树搜索、价值函数和过程奖励模型等更复杂技术的情况下实现强⼤的性能。•多模态。我们的模型是在⽂本和视觉数据上联合训练的，具有同时推理这两种模态的能⼒此外，我们提出了有效的⻓2短⽅法，利⽤⻓-CoT技术改进短-CoT模型。具体来说,我们的⽅法包括使⽤⻓-CoT激活和模型合并来应⽤⻓度惩罚。我们的⻓-CoT版本在多个基准和模态上实现了最先进的推理性能，例如在AIME上达到77.5，在MATH500上达到96.2,在Codeforces的94百分位，MathVista上达到74.9，与OpenAI的o1相匹配。我们的模型还实现了最先进的短-CoT推理结果，如在AIME上达到60.8，在MATH500上达到94.6，在LiveCodeBench上达到47.3，远远超过现有的短-CoT模型，如GPT-4o和ClaudeSonnet3.5，差距可⾼达550%。结果请参⻅图1和图2。Kimik1.5TECHNICALREPORT32⽅法：使⽤LLMs的强化学习Kimik1.5的开发包括⼏个阶段：预训练，普通监督微调（SFT），⻓期监督微调和强化学习（RL）。本报告侧重于RL，从强化学习提⽰集策划概述（第2.1节）和⻓期监督微调（第2.2节）开始，然后深⼊讨论RL训练策略（第2.3节）。关于预训练和普通监督微调的更多细节可在第2.5节中找到。2.1强化学习提⽰集策划通过我们的初步实验，我们发现强化学习提⽰集的质量和多样性在确保强化学习的有效性⽅⾯发挥着关键作⽤。⼀个构建良好的提⽰集不仅可以指导模型进⾏稳健的推理，还可以减轻奖励欺骗和过度拟合表⾯模式的⻛险。具体来说，三个关键属性定义了⼀个⾼质量的强化学习提⽰集:•⼴泛覆盖：提⽰应跨越各种学科，如STEM，编码和⼀般推理，以增强模型的适应性，并确保在不同领域具有⼴泛适⽤性。•平衡难度：提⽰集应包括⼀系列易，适中和困难问题，以促进渐进式学习，防⽌对特定复杂性⽔平过度拟合。•准确的评估性：提⽰应允许验证者进⾏客观和可靠的评估，确保基于正确推理⽽不是表⾯模式或随机猜测来衡量模型的表现。为了在提⽰集中实现多样化的覆盖范围，我们采⽤⾃动过滤器来选择需要丰富推理并且易于评估的问题。我们的数据集包括来⾃各种领域的问题，如STEM领域、竞赛和⼀般推理任务，涵盖了纯⽂本和图像⽂本问答数据。此外，我们开发了⼀个标记系统，将提⽰按领域和学科进⾏分类，确保在不同学科领域间保持平衡的代表性（M.Li等，2023年；W.Liu等，2023年）。我们采⽤基于模型的⽅法，利⽤模型⾃⾝的能⼒⾃适应评估每个提⽰的难度。具体⽽⾔，对于每个提⽰，⼀个SFT模型使⽤相对较⾼的采样温度⽣成⼗次答案。然后计算通过率并将其⽤作提⽰难度的代理——通过率越低，难度越⼤。这种⽅法使难度评估与模型固有能⼒保持⼀致，对于RL训练⾮常有效。通过利⽤这种⽅法，我们可以预先过滤掉⼤多数琐碎的情况，并在RL训练期间轻松探索不同的采样策略。为了避免潜在的奖励破解（Everitt等，2021年；Pan等，2022年），我们需要确保每个提⽰的推理过程和最终答案都能被准确验证。经验观察揭⽰，⼀些复杂的推理问题可能有相对简单和容易猜测的答案，导致虚假的正⾯验证——模型通过不正确的推理过程达到正确答案。为了解决这个问题，我们排除了容易发⽣此类错误的问题，例如多项选择、正确/错误和基于证据的问题。此外，对于⼀般问答任务，我们提出了⼀种简单但有效的⽅法来识别和移除易于破解的提⽰。具体来说，我们提⽰模型在没有任何CoT推理步骤的情况下猜测潜在答案。如果模型在N次尝试内预测正确答案，则认为该提⽰太容易破解并将其移除。我们发现将N=8可以移除⼤多数容易破解的提⽰。未来研究仍然是进⼀步发展更先进验证模型的⼀个⽅向。2.2⻓CoT监督微调通过精⼼设计的RL提⽰集，我们采⽤提⽰⼯程来构建⼀个⼩但⾼质量的⻓CoT热⾝数据集，其中包含⽂本和图像输⼊的经过准确验证的推理路径。这种⽅法类似于拒绝抽样（RS），但侧重于通过提⽰⼯程⽣成⻓CoT推理路径。最终得到的热⾝数据集旨在涵盖那些对类⼈类推理⾄关重要的关键认知过程，⽐如规划，模型在执⾏前系统地概述步骤；评估，涉及对中间步骤的关键评估；反思，使模型能够重新考虑和完善其⽅法;以及探索，⿎励考虑替代解决⽅案。通过在这个热⾝数据集上进⾏轻量级的SFT，我们有效地让模型内化这些推理策略。因此，微调后的⻓CoT模型展现出更好的能⼒，⽣成更详细和逻辑连贯的回答，从⽽提⾼了其在各种推理任务中的性能。Kimik1.5TECHNICALREPORT42.3强化学习2.3.1问题设定给定训练数据集D={(xi,y)}ni=1，其中包含问题xi和相应的实际答案yi，我们的⽬标是训练⼀个策略模型πθ来准确解决测试问题。在复杂推理的背景下，问题x到解答y的映射并不是微不⾜道的。为了应对这⼀挑战，思维链（CoT）⽅法提议使⽤⼀系列中间步骤z=(z1,z2,...,zm)来连接x和y，其中每个zi都是⼀系列连贯的令牌，作为解决问题的重要中间步骤（J.Wei等，2022年）。解决问题x时，思维ztπθ(·|x,z1,...,zt−1)会被⾃回归采样，然后得到最终答案yπθ(·|x,z1,...,zm)。我们⽤y,zπθ表⽰这⼀采样过程。需要注意的是，思维和最终答案都被采样为语⾔序列。为了进⼀步增强模型的推理能⼒，在推理时采⽤了规划算法来探索各种思维过程，⽣成更优越的CoT（Yao等，2024年；Y.Wu等，2024年；Snell等，2024年）。这些⽅法的核⼼⻅解是明确构建⼀个受价值估计指导的思维搜索树。ztπθ(·|x,z1,...,zt−1)⾃回归采样，随后得出最终答案yπθ(·|x,z1,...,zm)。我们使⽤y,zπθ来表⽰这⼀采样过程。请注意，这⾥提到的思考过程和最终答案都是作为语⾔序列进⾏采样的。为进⼀步增强模型的推理能⼒，我们使⽤规划算法来探索各种思考过程，从⽽在推理时⽣成改进的CoT(Yao等,2024;Y.Wu等,2024;Snell等,2024)。这些⽅法的核⼼洞察⼒在于通过价值估计来明确构建思考过程的搜索树。这使模型能够探索思维过程的多样化延续，或者在遇到死胡同时回溯以调查新的⽅向。更详细地说，让T成为⼀个搜索树，其中每个节点代表⼀个部分解s=(x,z1:|s|).这⾥s包含问题x和⼀系列思考z1:|s|=(z1,...,z|s|)，导致到达该节点，其中|s|表⽰序列中的思考数量。规划算法使⽤评论家模型v来提供反馈v(x,z1:|s|)，帮助评估解决问题的当前进展，并识别现有部分解决⽅案中的任何错误。我们指出，反馈可以由辨别分数或语⾔序列(L.Zhangetal.2024)提供。在T中为所有s提供反馈的指导下，规划算法选择最有前景的节点以扩展，从⽽增⻓搜索树。上述过程反复进⾏，直到得出完整解。我们还可以从算法⻆度考虑规划算法。给定在第t次迭代时可⽤的过去搜索历史(s1,v(s1),...,st−1,v(st−1))，规划算法A迭代确定下⼀个搜索⽅向A(st|s1,v(s1),...,st−1,v(st−1))并为当前搜索进度提供反馈A(v(st)|s1,v(s1),...,st)。由于思考和反馈都可以看作是中间推理步骤，并且这些组件都可以表⽰为⼀系列语⾔标记，我们使⽤z替代s,v来简化符号。因此，我们将规划算法视为直接作⽤于⼀系列推理步骤A(·|z1,z2,...)的映射。在这个框架中，规划算法使⽤的存储在搜索树中的所有信息被扁平化为提供给算法的全⽂背景。这提供了⼀个有趣的视⻆来⽣成⾼质量的CoT：与明确构建搜索树和实施规划算法不同，我们可能训练⼀个模型来近似这个过程。在这⾥，思考数量(即语⾔标记)作为传统分配给规划算法的计算预算的类⽐。⻓上下⽂窗⼝的最新进展在训练和测试阶段都促进了⽆缝可伸缩性。如果可⾏，这种⽅法使模型能够通过⾃回归预测直接在推理空间上运⾏隐式搜索。因此，模型不仅学会解决⼀组训练问题，还能有效地解决单个问题，从⽽实现对未⻅测试问题的改进泛化能⼒。因此，我们考虑通过强化学习(RL)训练模型⽣成CoT（OpenAI2024）。令r为⼀个奖励模型，根据基本真相y，通过赋予⼀个值r(x,y,y)∈{0,1}来证明对于给定问题x的提议答案y的正确性,直接由预定义的标准或规则确定奖励的可验证问题。例如，在编码问题中，我们评估答案是否通过了测试⽤例。对于具有⾃由形式基本真相的问题，我们训练奖励模型r(x,y,y)，预测答案是否符合基本真相。给定问题x，模型πθ通过采样过程⽣成CoT和最终答案zπθ(·|x),yπθ(·|x,z)。⽣成的CoT的质量通过其是否能导致正确的最终答案来评估。在总结中，我们考虑以下⽬标来优化策略θE(x,y)D,(y,z)πθ[r(x,y,y)](1)通过扩⼤RL训练规模，我们旨在训练⼀个模型，充分利⽤简单基于提⽰的CoT和增强规划的CoT的优势。该模型在推理过程中仍会⾃回归抽样语⾔序列，从⽽避免了部署过程中⾼级规划算法所需的复杂并⾏化。然⽽，与简单基于提⽰的⽅法的⼀个关键区别在于，该模型不仅仅是遵循⼀系列推理步骤。相反，它还应该通过利⽤整个探索思路集合作为上下⽂信息，学习关键的规划技能，包括错误识别、回溯和解决⽅案优化。Kimik1.5TECHNICALREPORT52.3.2政策优化我们应⽤在线政策镜像下降的变体作为我们的训练算法(Abbasi-Yadkori等⼈2019年;Mei等⼈2019年;Tomar等⼈2020年)。该算法进⾏迭代。在第i次迭代中，我们将当前模型πθi作为参考模型，优化以下相对熵正则化的政策优化问题。最⼤θ[E(x,y)DE(y,z)πθ[r(x,y,y)]−τKL(πθ(x)||πθi(x))],其中τ>0是控制正则化程度的参数。该⽬标有⼀个封闭形式的解∑这⾥Z=∑y′,z′πθi(yπ(y,z|x)=πθi(y,z|x)exp(r(x,y,y)/τ)/Z′,z′|x)exp(r(x,y′,y)/τ)是标准化因⼦。取两边的对数，我们对于任意的(y,z)都有以下约束被满⾜，这使我们能够在优化过程中利⽤离线数据这激励以下的替代损失L(θ)=E(x,y)DE(y,z)πθir(x,y,y)−τlogZ−τlogπθ(y,z|x)πθi(y,z|x)为了近似τlogZ，我们使⽤样本(y1,z1),...,(yk,zk)πθi：τlogZ≈τlog∑kj=1exp(r(x,yj,y*)/τ我们还发现使⽤采样奖励r的经验均值r=mean(r(x,y1,y*),...,r(x,yk,*y))会产⽣有效实⽤结果。因为τlogZ在τ→∞时接近πθi下的预期奖励，所以这是合理的。最后，我们通过取替代损失的梯度来总结我们的学习算法。对于每个问题x，使⽤参考策略πθi抽取k个响应，梯度由j=1对于熟悉策略梯度⽅法的⼈来说，这个梯度类似于使⽤采样奖励均值作为基线的策略梯度(2)，但存在⼀些主要区别，即响应是从πθi中采样⽽不是on-policy，并且应⽤了l2-正则化。因此，我们可以将其视为通常的on-policy正则化策略梯度算法向off-policy情况的⾃然延伸。我们从D中抽样⼀批问题，并更新参数到θi+1，随后这些参数作为下⼀次迭代的参考策略。由于每次迭代考虑到由于参考策略的更改⽽导致的不同优化问题，我们还在每次迭代开始时重新设置优化器。假设zt+1直接导致正确答案，⽽z′t+1包含⼀些错误。如果存在⼀个oracle值函数，将指出zt+1相对于z'保留了更⾼的价值t+1.根据标准信⽤分配原则，选择z't+1将受到惩罚，因为相对于当前政策，它具有负⾯优势。然⽽，探索z't+1对于训练模型⽣成较⻓的CoT⾮常有价值。通过使⽤从⻓CoT中得出的最终答案作为奖励信号，模型可以学习从选择z'开始的试错模式键2.3.3⻓度惩罚2.3.3⻓度惩罚我们观察到⼀种过度思考的现象，在强化学习训练过程中，模型的响应⻓度明显增加。尽管这会导致更好的性能，但过⻓的推理过程在训练和推理过程中成本⾼昂，并且⼈们通常不喜欢过度思考。为了解决这个问题，我们引⼊了⻓度奖励来限制令牌⻓度的快速增⻓，从⽽提⾼模型的令牌效率。给定k个抽样响应Kimik1.5TECHNICALREPORT6（y1，z1...yk，zk）的问题x的真实答案为y，让len(i)表⽰（yi，zi）的⻓度，min_len=minilen(i)，max_len=maxilen(i)。如果max_len=min_len，则对所有响应设置⻓度奖励为零，因为它们具有相同的⻓度。否则，⻓度奖励由{len_reward(i)=λ如果r(x,yi,y)=1,其中λ=0.5-len(i)-min_lenmin(0,λ)如果r(x,yi,y)=0max_len-min_len.实质上，我们促进正确响应中的较短回答，惩罚较⻓回答，同时明确惩罚带有不正确答案的⻓回答。然后将基于⻓度的奖励添加到具有加权参数的原始奖励中。在我们的初步实验中，⻓度惩罚可能会在初始阶段减慢训练速度。为了缓解这个问题，我们建议在训练过程中逐渐启⽤⻓度惩罚。具体⽽⾔，我们采⽤标准的策略优化⽽没有⻓度惩罚，然后在训练的其余部分使⽤恒定的⻓度惩罚。2.3.4采样策略尽管强化学习算法本⾝具有相对良好的采样特性（难题提供较⼤的梯度），但它们的训练效率受到限制。因此，⼀些明确定义的先前采样⽅法可能会产⽣潜在的更⼤性能提升。我们利⽤多个信号进⼀步改进采样策略。⾸先，我们收集的强化学习训练数据⾃然带有不同的困难标签。例如，⼀道数学竞赛题⽐⼀道⼩学数学题更困难。其次，由于强化学习训练过程多次对同⼀问题进⾏采样，我们还可以跟踪每个单独问题的成功率作为困难度的度量。我们提出了两种采样⽅法来利⽤这些先验信息以提⾼训练效率。课程采样我们从训练简单的任务开始，逐渐过渡到更具挑战性的任务。由于初始的强化学习模型性能有限,将有限的计算资源⽤于⾮常困难的问题通常只会产⽣很少的正确样本，导致训练效率降低。同时，我们收集的数据⾃然包含年级和困难度标签，使基于困难度的采样成为提⾼训练效率的直观有效⽅法。优先采样除了课程采样以外，我们使⽤优先采样策略专注于模型表现较差的问题。我们跟踪每个问题i的成功率si，并按⽐例对问题进⾏采样，使得成功率较低的问题获得较⾼的采样概率。这将引导模型的努⼒集中在最薄弱的领域，实现更快的学习和更好的整体性能。通过动态调整si值，使成功率较低的问题获得更⾼的采样概率。这将引导模型将精⼒集中在最薄弱的领域，加快学习速度，提⾼整体性能。2.3.5关于训练配⽅的更多细节编码测试⽤例⽣成由于许多⽹络编码问题没有提供测试⽤例，我们设计了⼀种⽅法来⾃动⽣成作为奖励训练我们的模型与强化学习的测试⽤例。我们的重点主要是不需要特殊评判的问题。我们还假设这些问题的正确解决⽅案可⽤，以便我们可以利⽤解决⽅案⽣成更⾼质量的测试⽤例。我们利⽤⼴泛认可的测试⽤例⽣成库CYaRon1来增强我们的⽅法。我们使⽤我们的基本Kimik1.5根据问题描述⽣成测试⽤例。将CYaRon的使⽤说明和问题描述作为⽣成器的输⼊。对于每个问题，我们⾸先使⽤⽣成器⽣成50个测试⽤例，同时为每个测试⽤例随机抽取10份正确的提交。我们对提交进⾏测试。如果⾄少有7份提交结果匹配，则测试⽤例被视为有效。经过此轮筛选后，我们获得⼀组筛选后的测试⽤例。如果⾄少有9份提交经过全部筛选后通过整组测试⽤例，问题及其关联的筛选测试⽤例将添加到我们的训练集中。从1,000个在线⽐赛问题的样本中统计，⼤约有614个问题不需要特殊评审。我们开发了463个测试⽤例⽣成器，产⽣⾄少40个有效测试⽤例，使得我们的训练集中包含了323个问题。数学奖励建模数学解决⽅案评估中的⼀个挑战是，不同的书⾯形式可以表⽰相同的基本答案。例如，a2−4和(a+2)(a-2)可能都是同⼀个问题的有效解决⽅案。我们采⽤了两种⽅法来提⾼奖励模型的评分准确性:1.经典RM:我们从InstructGPT（Ouyang等⼈，2022年）的⽅法中汲取灵感，实现了⼀个基于价值头的奖励模型，并收集了约800k个数据点进⾏微调。该模型最终收集了约800k个数据点进⾏微调。该模型最终达到了Kimik1.5TECHNICALREPORT7将“问题”、“参考答案”和“回答”作为输⼊，并输出⼀个标量，指⽰回答是否正确。具有思维链（CoT）推理的增强可以在某些任务上明显优于传统⽅法，特别是在需要微妙的正确性标准的任务上，⽐如数学。因此，我们收集了⼤约800k个带有CoT标签的⽰例数据集，对Kimi模型进⾏了微调。基于传统RM相同的输⼊，思维链⽅法明确⽣成⼀种逐步推理过程，然后以JSON格式提供最终的正确性判断，从⽽实现更稳健和可解释的奖励信号。在我们的⼿动抽查中，经典RM的准确率约为84.4，⽽线性思维RM达到了98.5的准确率。在RL训练过程中,我们采⽤了线性思维RM以确保更准确的反馈。视觉数据为了提升模型的实际图像推理能⼒，并实现视觉输⼊与⼤型语⾔模型（LLM）之间更有效的对⻬，我们的视觉强化学习（VisionRL）数据主要来⾃三个不同类别：真实世界数据、合成视觉推理数据和⽂本渲染数据。1.真实世界数据涵盖了各个年级科学问题的范围，需要理解图形、位置猜测任务、数据分析等要求视觉感知和推理的任务，包括理解复杂图表等各种类型的数据。这些数据集提⾼了模型在真实场景下进⾏视觉推2.合成视觉推理数据是⼈⼯⽣成的，包括为改进特定视觉推理技能⽽创建的程序化图像和场景，例如理解空间关系、⼏何模式和物体交互。这些合成数据集为测试模型的视觉推理能⼒提供了受控环境，并提供了⽆穷⽆尽的训练⽰例。3.⽂本渲染数据是通过将⽂本内容转换为视觉格式创建的，使模型在处理不同模态下的基于⽂本查询时能够保持⼀致性。通过将⽂本⽂档、代码⽚段和结构化数据转换为图像，我们确保模型⽆论输⼊是纯⽂本还是⽂本渲染为图像（如截图或照⽚）都能提供⼀致的响应。这也有助于增强模型处理⽂本密集图像时的能⼒。每种类型的数据在构建综合的视觉语⾔模型⽅⾯都是⾄关重要的，可以有效地管理各种实际应⽤，并确保跨各种输⼊模态时性能⼀致。2.4⻓2短：短CoT模型的上下⽂压缩尽管⻓CoT模型表现出⾊，但与标准短CoTLLM相⽐，它消耗更多测试时间标记。然⽽，可以将⻓CoT模型中的思考先验知识转移到短CoT模型中，以便即使在有限的测试时间标记预算下也能提⾼性能。我们提出了⼏种解决这个⻓2短问题的⽅法，包括模型合并（Yang等⼈，2024年），最短拒绝采样，DPO（Rafailov等⼈2024年），以及⻓2短RL。以下详细描述了这些⽅法:模型合并模型合并在保持泛化能⼒⽅⾯被发现是有⽤的。我们还发现，在合并⻓cot模型和短cot模型时，它在改进标记效率⽅⾯⾮常有效。该⽅法将⼀个⻓cot模型与⼀个较短模型结合起来，以获得⼀个新模型⽽⽆需训练。具体来说，我们通过简单地平均它们的权重来合并这两个模型。最短拒绝采样我们观察到我们的模型对于同⼀问题⽣成具有很⼤⻓度变化的响应。基于此，我们设计了最短拒绝采样⽅法。这种⽅法对同⼀问题进⾏n次采样（在我们的实验中，n=8），并选择最短的正确响应进⾏监督微调。DPO与最短拒绝采样类似，我们利⽤⻓CoT模型⽣成多个响应样本。选择最短的正确解作为正样本，⽽较⻓的响应则作为负样本，包括错误的较⻓响应和正确的较⻓响应（⽐所选正样本⻓1.5倍的响应）。这些正负对形成了⽤于DPO训练的成对偏好数据。Kimik1.5TECHNICALREPORT8⻓2短RL在标准RL训练阶段之后，我们选择⼀个在性能和令牌效率之间提供最佳平衡的模型作为基础模型,并进⾏单独的⻓到短RL训练阶段。在第⼆阶段中，我们应⽤了第2.3.3节中介绍的⻓度惩罚，并显著减⼩最⼤推出⻓度，以进⼀步惩罚超出所需⻓度的响应，同时可能进⾏校正。2.5其他训练细节2.5.1预训练Kimik1.5基础模型在多样性⾼质量的多模态语料库上进⾏训练。语⾔数据涵盖英语、中⽂、代码、数学推理和知识等五个领域。多模态数据包括字幕、图像-⽂本交叉、OCR、知识和问答数据集，使我们的模型能够获得视觉-语⾔能⼒。严格的质量控制确保总体预训练数据集的相关性、多样性和平衡。我们的预训练分为三个阶段:(1)视觉-语⾔预训练，建⽴强⼤的语⾔基础，随后逐渐进⾏多模态集成；(2)冷却，利⽤策划和合成数据巩固能⼒，特别是针对推理和基于知识的任务；(3)⻓上下⽂激活，将序列处理扩展到131,072个标记。有关我们预训练⼯作的更多细节，请参阅附录B。2.5.2传统监督微调我们创建了覆盖多个领域的⾹草SFT语料库。对于⾮推理任务，包括问答、写作和⽂本处理，我们⾸先通过⼈⼯注释构建种⼦数据集。这个种⼦数据集⽤于训练种⼦模型。随后，我们收集各种提⽰并使⽤种⼦模型为每个提⽰⽣成多个响应。注释员然后对这些响应进⾏排名，并调整排名靠前的响应以⽣成最终版本。对于数学和编码问题等推理任务，其中基于规则的验证和基于奖励建模的准确性和效率优于⼈类判断，我们利⽤拒绝抽样来扩展SFT数据集。我们创建了覆盖多个领域的传统SFT语料库。对于⾮推理任务，包括问答、写作和⽂本处理，我们通过⼈⼯注释⾸先构建种⼦数据集。这个种⼦数据集⽤于训练⼀个种⼦模型。随后，我们收集各种提⽰并使⽤种⼦模型为每个提⽰⽣成多个响应。注释者然后对这些响应进⾏排名，并优化排名靠前的响应以⽣成最终版本。对于像数学和编码问题这样的推理任务，其中基于规则和基于奖励建模的验证⽐⼈类判断更准确和有效，我们利⽤拒绝抽样来扩展SFT数据集。我们⾸先在32k标记的序列⻓度上训练模型1轮，然后在128k标记的序列⻓度上进⾏另⼀轮。在第⼀阶段(32k)中，学习率从2×10^(-5)衰减到2×10^(-6)，然后在第⼆阶段(128k)中重新升温到1×10^(-5)，最后衰减到1×10^(-6)。为了提⾼训练效率，我们将多个训练⽰例打包到每个单个训练序列中。训练员⼯策略模型训练员⼯策略模型模型重量梯度更新展开式⼯⼈重量梯度更新展开式⼯⼈训练数据主控展开轨迹训练数据主控展开轨迹奖励模型奖励模型代码数学评估请求重放缓冲区重放缓冲区权重流数据流展开⼯作⼈员展开⼯作⼈员图3：⼤规模强化学习训练系统LLMKimik1.5TECHNICALREPORT92.6.1针对LLM的⼤规模强化学习训练系统在⼈⼯智能领域，强化学习（RL）已经成为⼤型语⾔模型（LLMs）的关键训练⽅法，从其在掌握复杂游戏如围棋、星际争霸II和Dota2⽅⾯的成功中吸取灵感，通过AlphaGo（Silver等⼈，2017）、AlphaStar(Vinyals等⼈，2019）和OpenAIDotaFive（Berner等⼈，2019）等系统。继承这⼀传统，Kimik1.5系统采⽤了⼀个迭代同步的强化学习框架，经过精⼼设计来通过持续学习和适应来增强模型的推理能⼒。这⼀系统的⼀个关键创新是引⼊部分展开技术，旨在优化处理复杂推理轨迹。如图3a所⽰的RL训练系统通过⼀个迭代同步⽅法运⾏，每个迭代包括⼀个展开阶段和⼀个训练阶段。在展开阶段，由中央主控制的展开⼯作者通过与模型交互⽣成展开轨迹，产⽣对各种输⼊的响应序列。这些轨迹然后存储在回放缓冲区中，确保通过破坏时间相关性为训练提供多样化且⽆偏⻅的数据集。在随后的训练阶段，训练⼯作者访问这些经验来更新模型的权重。这⼀循环过程使模型可以不断地从其⾏动中学习，随着时间的推移调整其策略以提升性能。中央主控充当中央指挥官，管理展开⼯作者、训练⼯作者、评估以奖励模型和回放缓冲区之间的数据流和通信。它确保系统协调运作，平衡负载并促进有效的数据处理。训练⼯作者访问这些展开轨迹，⽆论是在单个迭代中完成还是分布在多个迭代中，以计算梯度更新，优化模型的参数并增强其性能。这⼀过程由奖励模型监督，评估模型输出的质量并提供必要的反馈来引导训练过程。奖励模型的评估在确定模型策略的有效性和引导模型朝着最佳性能⽅向⽅⾯尤为关键。此外，系统还整合了⼀个代码执⾏服务，专⻔设计⽤于处理与代码相关的问题并对奖励模型⾄关重要。该服务在实际编码场景中评估模型的输出，确保模型的学习与现实世界的编程挑战密切相关。通过将模型的解决⽅案与实际代码执⾏进⾏验证，这种反馈循环对于改进模型策略并提⾼其在与代码相关任务中的性能⾄关重要。2.6.2⻓CoT强化学习的部分展开我们⼯作的主要思想之⼀是扩展⻓上下⽂强化学习训练。部分展开是⼀种有效应对处理⻓CoT特征挑战的关键技术，通过管理⻓短轨迹的展开来设定固定的输出标记预算，限制每个展开轨迹的⻓度。如果在展开阶段轨迹超过标记限制，未完成部分将保存到回放缓冲区，并在下⼀次迭代中继续。确保没有单个冗⻓轨迹垄断系统资源。此外，由于展开⼯作者是异步运⾏的，当⼀些⼯作者参与⻓轨迹时，其他⼈可以独⽴处理新的、较短的展开任务。异步操作通过确保所有展开⼯作者都积极参与训练过程来最⼤限度地提⾼计算效率，从⽽优化系统的如图3b所⽰，部分展开系统通过将⻓回复分段到迭代过程中（从迭代n-m到迭代n）来运作。回放缓冲区充当⼀个中央存储机制，维护这些回复⽚段，仅当前迭代（迭代n）需要按政策计算。之前的⽚段（从迭代n-m到n-1）可以从缓冲区中⾼效地重复使⽤，消除了重复展开的需求。这种分段⽅法显著减少了计算开销：系统逐增地处理和存储⽚段，⽽不是⼀次性展开整个回复，使得可以⽣成更⻓的回复同时保持快速迭代时间。在训练过程中，可以排除某些⽚段不参与损失计算，进⼀步优化学习过程，使整个系统既⾼效⼜可扩展。部分展开的实施还提供了重复检测。系统识别⽣成内容中的重复序列并及早终⽌它们，减少不必要的计算同时保持输出质量。检测到的重复内容可以被赋予额外的惩罚，有效地阻⽌在提⽰集中⽣成冗余内容。2.6.3训练和推断的混合部署强化学习训练过程包括以下阶段：Kimik1.5TECHNICALREPORT梅格特隆侧⻋vLLM侧⻋列⻋卸载更新权重启动vLLM检查点引擎装载展开终⽌虚拟开始转换HF等待展开共享梅格特隆侧⻋vLLM侧⻋列⻋卸载更新权重启动vLLM检查点引擎装载展开终⽌虚拟开始转换HF等待展开共享内存终⽌vLLM注册碎⽚更新权重检查点引擎其他的PodsRDMApodetcd图4：混合部署框架•训练阶段：⼀开始，Megatron（Shoeybi等⼈，2020）和vLLM（Kwon等⼈，2023）在单独的容器内执⾏，由⼀个称为检查点引擎（2.6.3节）的垫⽚进程封装。Megatron开始训练过程。训练完成后，Megatron卸载GPU内存并准备将当前权重转移到vLLM•推理阶段：在梅加特隆的卸载之后，vLLM使⽤虚拟模型权重开始，并通过Mooncake从梅加特隆最新传输的权重更新它们（Qin等⼈，2024年）。在部署完成后，检查点引擎将停⽌所有vLLM进程。•后续训练阶段：⼀旦分配给vLLM的内存被释放，梅加特隆将加载内存并启动另⼀轮训练。我们发现现有的作品难以同时⽀持以下所有特征。•复杂的并⾏策略：梅加特隆可能具有不同的并⾏策略，梅加特隆中分布在⼏个节点的训练权重可能很难与vLLM共享。•最⼩化空闲GPU资源：对于On-PolicyRL，最近的作品如SGLang（L.Zheng等⼈，2024年）和vLLM在训练过程中可能保留⼀些GPU，这反⽽可能导致空闲的训练GPU。在训练和推理之间共享相同的设备将更⾼效。•动态缩放能⼒：在某些情况下，通过增加推理节点数量并保持训练过程不变，可以实现显著的加速。我们的系统在需要时能够⾼效利⽤空闲GPU节点。如图4所⽰，我们在Megatron和vLLM之上实现了这种混合部署框架（第2.6.3节），从训练到推断阶段不到⼀分钟，反之亦然约⼗秒钟。混合部署策略我们提出了⼀种⽤于训练和推断任务的混合部署策略，利⽤KubernetesSidecar容器共享所有可⽤的GPU，将两个⼯作负载放置在⼀个Pod中。这种策略的主要优势包括：•它促进了有效的资源共享和管理，防⽌当训练节点和推断节点部署在不同节点上时，训练节点等待推断节点⽽空转。•利⽤不同的部署图像，训练和推断可以独⽴迭代，以获得更好的性能。•该架构不仅限于vLLM，其他框架也可以⽅便地集成进来。检查点引擎检查点引擎负责管理vLLM进程的⽣命周期，提供HTTPAPI来触发vLLM的各种操作。为了整体⼀致性和可靠性，我们利⽤由etcd服务管理的全局元数据系统来⼴播操作和状态。Kimik1.5TECHNICALREPORT由于CUDA图形、NCCL缓冲区和NVIDIA驱动程序，通过vLLM卸载GPU内存完全可能具有挑战性。为了最⼤限度减少对vLLM的修改，我们在需要时终⽌并重新启动它，以获得更好的GPU利⽤率和容错能⼒。Megatron中的⼯作程序将拥有的检查点转换为共享内存中的HuggingFace格式。此转换还考虑了PipelineParallelism和ExpertParallelism，以便这些检查点中仅保留TensorParallelism。随后，共享内存中的检查点被分成分⽚并在全局元数据系统中进⾏注册。我们使⽤Mooncake通过RDMA在对等节点之间传输检查点。需要对vLLM进⾏⼀些修改以加载权重⽂件并执⾏张量并⾏转换。2.6.4代码沙箱我们开发的沙箱是⼀个安全环境，⽤于执⾏⽤⼾提交的代码，优化了代码执⾏和代码基准评估。通过动态切换容器镜像，沙箱⽀持通过MultiPL-E（Cassano，Gouwar，D.Nguyen，S.Nguyen等⼈。2023年DMOJJudgeServer2，Lean，JupyterNotebook和其他镜像实现不同的⽤例。对于编码任务中的RL，沙箱通过提供⼀致且可重复的评估机制来确保培训数据判断的可靠性。其反馈系统⽀持多阶段评估，如代码执⾏反馈和仓库级别编辑，同时保持统⼀的上下⽂，以确保跨编程语⾔的公平和公正的基准⽐较。我们将服务部署在Kubernetes上，以获得可伸缩性和弹性，并通过HTTP端点将其暴露以进⾏外部集成。Kubernetes的功能，如⾃动重启和滚动更新，确保可⽤性和容错能⼒。为了优化性能并⽀持RL环境，我们将⼏种技术整合到代码执⾏服务中，以增强效率、速度和可靠性。这些技术包括:•使⽤Crun:我们使⽤crun作为容器运⾏时，⽽不是Docker，⼤⼤减少了容器启动时间。•CgroupReusing:我们预先为容器使⽤创建cgroups，在⾼并发场景中这是⾄关重要的，因为为每个容器创建和销毁cgroups沙箱沙箱0.04⽅法容器Docker沙盒(a)容器启动时间(b这些优化提⾼了RL执⾏效率，为评估由RL⽣成的代码提供了⼀致且可靠的环境，对于迭代训练和模型改进⾄关重要。3.1评估由于k1.5是⼀种多模态模型，我们对不同类型的基准进⾏了全⾯评估。详细的评估设置可以在附录C中找到。我们的基准主要包括以下三个类别：•⽂本基准：MMLU(Hendrycks等⼈，2020)，IF-Eval(J.Zhou等⼈，2023)，CLUEWSC(L.Xu等⼈，2020)C-EVAL（⻩等⼈，2023年）•推理基准：HumanEval-Mul，LiveCodeBench（Jain等⼈，2024年），Codeforces，AIME2024，MATH-500（Lightman等⼈，2023年）•视觉基准：MMMU（岳、倪等⼈，2024年），MATH-Vision（王等⼈，2024年），MathVista（陆等⼈，2023年）Kimik1.5TECHNICALREPORT3.2主要结果K1.5⻓距离-CoT模型Kimik1.5⻓距离-CoT模型的性能⻅表2。通过⻓距离-CoT监督微调（⻅第2.2节）和视觉⽂本联合强化学习（讨论于第2.3节），该模型的⻓期推理能⼒得到显著增强。测试时计算规模进⼀步增强了其性能，使模型能够在各种模态下实现最先进的结果。我们的评估显⽰，模型在推理、理解和综合信息⽅⾯在扩展语境下都有显著改进，代表了多模态⼈⼯智能能⼒的进步。K1.5短距离-CoT模型Kimik1.5短距离-CoT模型的性能⻅表3。该模型集成了多种技术，包括传统的监督微调（⻅第2.5.2节）、强化学习（在第2.3节中探讨）和⻓到短的蒸馏（在第2.4节中概述）。结果表明，k1.5短距离-CoT模型在多项任务中提供了竞争⼒或优越的表现，与领先的开源和专有模型相⽐。这些任务包括⽂本、视觉和推理挑战，在⾃然语⾔理解、数学、编码和逻辑推理⽅⾯显⽰出明显优势。基准（度量）仅语⾔模型预览OpenAIo1-mini视觉语⾔模型QVQ-72BOpenAIKimi推理MATH-500(EM)AIME2024（通过@1）Codeforces（百分位）LiveCodeBench(Pass@90.650.090.063.6 94.896.262.5VisionMathVista-Test(通过@--MMMU-Val(通过@1)35.9-38.6表2：Kimik1.5⻓CoT和旗舰开源和专有模型的性能。QMMLU(EM)IF-Eval（提⽰严格）CLUEWSC(EM)C-Eval(EM) MATH-500(EM) --9.3 - 表3：Kimik1.5短路传输和旗舰开源和专有模型的性能。VLM模型性能来源于OpenCompass基准平台(/)。3.3⻓上下⽂缩放我们采⽤中等规模模型来研究带有LLMs的RL的缩放特性。图5展⽰了在数学提⽰集上训练的⼩型模型变体在训练迭代中训练精度和响应⻓度的演变。随着训练的进⾏，我们观察到响应⻓度和性能精度同时增加。值得注意的是，更具挑战性的基准展⽰出响应⻓度的急剧增加，这表明模型学会为复杂问题⽣成更复杂的解决⽅案。图6显⽰了模型之间的很强的相关性Kimik1.5TECHNICALREPORT输出上下⽂⻓度及其问题解决能⼒。我们最终运⾏的k1.5规模扩展到128k上下⽂⻓度，并观察到在困难推理基准上持续改进。图5：随着训练迭代次数的增加，训练精度和⻓度的变化。请注意，上⾯的得分来⾃于⼀个内部规模远⼩于k1.5⻓视觉语境模型的⻓滑动平均模型。阴影区域代表响应⻓度的95%百分位数。3.4⻓2短我们将提出的⻓2短RL算法与第2.4节中介绍的DPO、最短拒绝抽样和模型合并⽅法进⾏⽐较，重点关注⻓2短问题的标记效率（X.Chen等⼈，2024），特别是获得的⻓通模型如何有益于短模型。在图7中，k1.5-long代表我们选择的⽤于⻓2短训练的⻓通模型。k1.5-shortw/rl指的是使⽤⻓2短RL训练获得的短模型。k1.5-shortw/dpo表⽰通过DPO训练改善标记效率的短模型。k1.5-shortw/merge代表模型合并后的模型，⽽k1.5-shortw/merge+rs表⽰将最短拒绝抽样应⽤于合并模型后获得的短模型。k1.5-shortest代表我们在⻓2短训练过程中获得的最短模型。如图7所⽰，与其他⽅法（如DPO和模型合并）相⽐，提出的⻓2短RL算法表现出最⾼的标记效率。值得注意的是，k1.5系列中的所有模型（⽤橙⾊标记)在标记效率⽅⾯均优于其他模型（⽤蓝⾊标记）。例如，k1.5-shortw/rl在AIME2024上实现了60.8的Pass@1分数（平均8次运⾏），⽽平均仅利⽤3,272个标记。同样，k1.5-shortest在MATH500上取得了88.2的Pass@1分数，同时消耗的标记数量与其他短模型⼤致相类似地，k1.5-shortest在MATH500上获得88.2的Pass@1分数，同时消耗的令牌数量与其他短模型⼤致相同Kimik1.5TECHNICALREPORT图6：模型性能随响应⻓度增加⽽提⾼AIME2024MATH500k1.5-longw/rlk1.5-shortAIME2024MATH500k1.5-longw/rlk1.5-shortk1.5-shortk1.5-shortk1.5-shortw/dpok1.5-shortw/合并+rsk1.5-shortw/合并deepseek-v3k1.5-shortw/dpo60k1.5-shortw/合并+rsdeepseek-v3k1.5-shortest50k1.5-shortw/合并k1.5-shortestk1.5-shortestqwen25-72B-inst克劳德3.5令牌⻓度qwen25-72B-instClaude3.5令牌⻓度图7：Long2Short性能。所有的k1.5系列相⽐其他模型表现出更好的令牌效率3.5消融研究模型规模和上下⽂⻓度的扩展我们的主要贡献在于将RL应⽤于增强模型⽣成扩展CoT的能⼒，从⽽提⾼其推理能⼒。⼀个⾃然的问题是：这与简单增加模型⼤⼩有何不同？为了展⽰我们⽅法的有效性，我们训练了两个使⽤相同数据集的不同⼤⼩模型，并记录了RL训练期间所有检查点的评估结果和平均推理⻓度。这些结果显⽰在图8中。值得注意的是，尽管较⼤的模型最初表现优于较⼩的模型，但通过RL优化更⻓的CoTs，较⼩的模型可以达到可⽐较的性能。然⽽，⼀般来说，较⼤模型显⽰⽐较较⼩模型更好的令牌效率。这也表明，如果⼀个⼈追求最佳的性能，扩⼤较⼤模型的上下⽂⻓度具有更⾼的上限，更具令牌效率。但是,如果测试时计算有预算限制，训练更⼤上下⽂⻓度的较⼩模型可能是可iable的解决⽅案。使⽤负梯度的影响我们研究了在我们的设置中使⽤ReST（Gulcehre等⼈2013）作为策略优化算法的有效性。ReST与其他基于RL的⽅法之间的主要区别包括Kimik1.5TECHNICALREPORT我们的⽅法是通过从当前模型中采样最佳响应来迭代地完善模型，⽽不对不正确的响应施加负梯度。如图10所⽰，相较于ReST，我们的⽅法在样本复杂性上表现出更强的优势，表明负梯度的引⼊显著增强了模型在⽣成⻓CoT⽅⾯的效率。我们的⽅法不仅提⾼了推理质量，还优化了训练过程，在使⽤更少训练样本的情况下实现了强⼤性能。这⼀发现表明，在我们的情境中，选择合适的策略优化算法⾄关重要，因为ReST和其他基于RL的⽅法之间的性能差距在其他领域并不那么明显（Gulcehre等⼈，2023年）。因此，我们的结果突显了选择合适的优化策略以最⼤程度地提⾼⽣成⻓CoT的效果的重要性。采样策略我们进⼀步展⽰了我们课程采样策略的有效性，该策略在第2.3.4节中介绍。我们的训练数据集D包含了各种难度⽔平的问题。通过我们的课程采样⽅法，我们⾸先将D⽤于热⾝阶段，然后专注于训练模型的困难问题。这种⽅法与采⽤统⼀采样策略⽽不进⾏任何课程调整的基准⽅法进⾏⽐较。如图9所⽰，我们的结果清楚地表明，所提出的课程采样⽅法明显增强了性能。这种提升可以归因于该⽅法逐渐挑战模型的能⼒，使其在处理复杂问题时逐渐形成更强⼤的理解和能⼒。通过在最初的⼀般介绍后专注于更困难的问题上进⾏培训，模型能够更好地加强其推理和问题解决能⼒。图8：不同模型⼤⼩的模型性能与响应⻓度图9：课程学习⽅法对模型性能的分析我们展⽰了k1.5的训练配⽅和系统设计，这是我们最新的多模式LLM，通过RL进⾏训练。我们从实践中提炼出的⼀个关键⻅解是，上下⽂⻓度的扩展对LLM的持续改进⾄关重要。我们采⽤了优化的学习算法和基础架构优化，如部分展开,以实现⾼效的⻓上下⽂RL训练。如何进⼀步提⾼⻓上下⽂RL训练的效率和可扩展性仍然是未来的⼀个重要问题。Kimik1.5TECHNICALREPORT图10：使⽤ReST进⾏策略优化对⽐。我们另⼀个贡献是结合技术，实现优化策略。具体来说，我们通过使⽤LLMs制定⻓CoTRL，并导出⼀种⽤于鲁棒优化的在线镜像下降的变体。我们还尝试了采样策略、⻓度惩罚以及优化数据配⽅，以取得强⼤的RL性能。我们展⽰了即使不使⽤更复杂的技术，如蒙特卡洛树搜索，价值函数和处理奖励模型，也可以通过⻓上下⽂缩放和改进策略优化实现强⼤性能。在未来，研究如何改进学分分配和减少反复思考⽽不损害模型的探索能⼒也将是⼀个有趣的课题。我们还发现了⻓短⽅法的潜⼒。这些⽅法很⼤程度上改善了短CoT模型的性能。此外，可以将⻓短⽅法与⻓CoTRL迭代结合以进⼀步提⾼记号效率，并从给定的上下⽂⻓度预算中提取最佳性能。Abbasi-Yadkori,Yasin等。“Politex:利⽤专家预测进⾏策略迭代的遗憾界限”。⻅：国际机器学习会议。PMLR.2019,pp.3692‒3702.Ahmadian,Arash等。“回归基础：重新审视从⼈类反馈中学习的强化样式优化llms”.在:arXiv预印本arXiv:2402.14740(2024)Ankner,Zachary等⼈。Critique-out-Loud奖励模型。2024年。arXiv:2408.11791[cs.LG]。⽹址:https://arxiv.Berner,Christopher等⼈。Dota2withlargescaledeepreinforcementlearning。在:arXiv预印本arXiv:1912.06680Kimik1.5TECHNICALREPORTCassano,Federico,JohnGouwar,DanielNguyen,SyDuyNguyen,等。“MultiPL-E：⼀种可扩展和可伸缩的神经代码⽣成基准⽅法”。在：ArXiv（2022年）。⽹址：/abs/2208Cassano,Federico,JohnGouwar,DanielNguyen,SydneyNguyen,等。“MultiPL-E：⼀种可扩展和多语⾔基准⽅法⽤于神经代码⽣成基准的⽅法”。在：IEEE软件⼯程交易49.7（2023年），第3675-3691DOI：10.1109/TSE.2023.3Chen,Jianlv等。“Bgem3-embedding：通过⾃我知识蒸馏进⾏多语⾔，多功能，多粒度⽂本嵌⼊”。在：arXiv预印本arXiv:2402.03216（2024年）Chen,Xingyu等。“不要为2+3=过多地进⾏思考？关于o1-LikeLLMs的过度思考”。在：arXiv预印本arXiv:2412.21187（2024年）Everitt,Tometal.RewardTamperingProblemsandSolutionsinReinforcementLearning:ACausalInfluenceDiagram观点。2021.arXiv:1908.04734[cs.AI].URL:/abs/1908.04734.Gadre,SamirYitzhaketal.“Datacomp:Insearchofthenextgenerationofmultimodaldatasets”。在：神经信息处理系统36(2024)。Grattafiori,Aaronetal.TheLlama3HerdofModels.2024.arXiv:2407.21783[cs.AI]。URL:https://arxiv。Gulcehre,Caglaretal.“Reinforcedself-training(rest)forlanguagemodeling”。在：arXiv预印本arXiv:2308.08998Hendrycks,Danetal.“MeasuringMassiveMultitaskLanguageUnderstanding”。在：ArXivabs/2009.03300(2020)。URL:/abs/2009.03300。Hoffmann,Jordan等⼈。训练计算最优⼤语⾔模型。2022年。arXiv:2203.15556[cs.CL]。⽹址:/abs/2203.15556。Huang,Yuzhen等⼈。“C-Eval:⽤于基础模型的多层多学科中⽂评估套件”。在:ArXivabs/2305.08322(2023)。⽹址:/abs/2305.08322。Jaech,Aaron等⼈。“Openaio1系统卡⽚”。在:arXiv预印本arXiv:2412.16720(2024)。Jain,Naman等⼈。“LiveCodeBench:⽤于代码的⼤型语⾔模型的全⾯和⽆污染评估”。在:ArXivabs/2403.07974(2024)。⽹址:/abs/2403.07974。Joulin,Armand等⼈。“⽤于⾼效⽂本分类的⼀揽⼦技巧”。在:arXiv预印本arXiv:1607.01759(2016)。Kaplan,Jared等⼈。神经语⾔模型的扩展定律。2020年。arXiv:2001.08361[cs.LG]。⽹址:https:Kool,Wouter,HerkevanHoof,和MaxWelling。"购买4份增强样本，免费获取基准线！"。在:(2019)Kwon,Woosuk等⼈。"使⽤PagedAttention实现⼤型语⾔模型服务的⾼效内存管理"。在:第29届操作系统原则ACMSIGOPS研讨会论⽂集。2023年.Laurençon,Hugo等⼈。"Obelics：⼀个开放的⽹络规模筛选的交错图像⽂档数据集"。在：进展在神经信息处理系统36中。(2024)Li,Jeffrey等⼈。"Datacomp-lm：寻找语⾔模型下⼀代训练集"。在：arXiv预印本arXiv:2406.11794(2024)Li,Ming等⼈。"从数量到质量：通过⾃我指导数据选择来提升llm性能以进⾏指导调整"。在：arXiv预印本arXiv:2308.12032(2023)Li,Raymond等⼈。StarCoder:愿源与你同在！2023年。arXiv:2305.06161[cs.CL]。URL:https///abs/2305.06161Lightman,Hunter等。“让我们逐步验证”。在：arXiv预印本arXiv:2305.20050（2023）Liu,Wei等。“什么使数据对⻬良好？对指导中⾃动数据选择的全⾯研究调整”。在：arXiv预印本arXiv:2312.15685（2023）Lozhkov,Anton等。StarCoder2和TheStackv2：下⼀代。2024.arXiv:2402.19173[cs.SE].URL:/abs/2402.19173Lu,Pan等。“Mathvista：在视觉背景中评估基础模型的数学推理”。在：arXiv预印本arXiv:2310.02255（2023）McAleese,Nat等。LLMCritics帮助捕获LLMBugs。2024.arXiv:2407.00215[cs.SE].URL:https://arxiv.Mei,Jincheng等。“关于策略优化中基于原则的熵探索”。在：第28届国际会议⼈⼯智能联合会议。2019,pp.3130‒3136。Muennighoff,Niklas等⼈。扩展数据受限语⾔模型。2023。arXiv:2305.16264[cs.CL]。⽹址：/abs/2305.16264。Nachum,Ofir等。“弥合值与基于策略的强化学习之间的差距”。在：神经信息处理系统30(2017)。OpenAI。“学习如何⽤LLMs推理”。在：(2024)。⽹址：/index/learning-to-reason-with-llms/。Kimik1.5TECHNICALREPORT欧阳隆等⼈。《通过⼈类反馈训练语⾔模型遵循指令》。在：神经信息处理系统的进展35（2022年），第27730-27744⻚。Pan，Alexander，KushBhatia和JacobSteinhardt。《奖励误差的效应：映射和减轻不对⻬模型》。在：国际学习表⽰会议。2022。⽹址：https://openreview。Paster，Keiran等⼈。《Openwebmath：⼀个⾼质量数学⽹络⽂本的开放数据集》。在：arXiv预印本arXiv:2310.06786（2023年）。Penedo，Guilherme等⼈。《fineweb数据集：为规模化的最好⽂本数据⽽脱壳⽹⻚》。在：arXiv预印本Paster,Keiran等⼈。“Openwebmath：⾼质量数学⽹络⽂本的开放数据集”。在：arXiv预印本arXiv:2310.06786（2023）Penedo,Guilherme等⼈。“Fineweb数据集：为⼤规模最优⽂本数据提供最纯净的⽹络”。在：arXiv预印本arXiv:2406.17557（2024年）。秦若愚等⼈。Mooncake：⾯向LLM服务的KVCache-centric分布架构。2024。arXiv:2407。00079[cs.DC].⽹址:/abs/2407.00079Rafailov,Rafael等⼈。“直接偏好优化：您的语⾔模型实际上是⼀个奖励模型”。在：进展在神经信息处理系统36(2024)中Schuhmann,Christoph等⼈。“Laion-5b：⽤于训练下⼀代图像⽂本模型的开放⼤规模数据集”。在：进展在神经信息处理系统35(2022)，⻚码25278‒25294Shoeybi,Mohammad等⼈。Megatron-LM：使⽤模型并⾏训练数⼗亿参数语⾔模型2020.arXiv:1909.08053[cs.CL].⽹址:/abs/1909.08053Silver,David等⼈。“⽆需⼈类知识掌握围棋”。在：《⾃然》550.7676(2017)，⻚码354‒359Snell,Charlie等⼈。“在测试时⾼效地扩展llm计算⽐缩放模型参数更有效”。在：arXiv预印本arXiv:2408.03314(2024)Su,Dan等⼈。“Nemotron-CC：将CommonCrawl转化为⼀个精细的⻓视野预训练数据集”。在:arXiv预印本arXiv:2412.02595（2024年）Su,Jianlin等⼈。“Roformer：带有旋转位置嵌⼊的增强transformer”。在Neurocomputing568（2024年）Team,Gemini等⼈。Gemini：⼀系列⾼能⼒多模型。2024年。arXiv:2312.11805[cs.CL]URL:/abs/2312.11805Tomar,Manan等⼈。“Mirrordescent策略优化”。在arXiv预印本arXiv:2005.09814（2020年）I.Guyon等⼈。第30卷。CurranAssociates,Inc.，2017年。⽹址:https://proceedings.neurips.cc/paper_files/paper/2017/Villalobos,Pablo等⼈。我们会⽤尽数据吗？基于⼈类⽣成的数据对LLM扩展的限制。2024年。arXiv:2211.04325[cs.LG].⽹址:/abs/2211.04325Vinyals,Oriol等⼈。"使⽤多智能体强化学习在星际争霸II中达到⼤师级⽔平"。发表于:nature575.7782Wang,Ke等⼈。"⽤数学视觉数据集衡量多模式数学推理"。发表于:arXiv预印本arXiv:2402.14804(2024)Wei,Haoran等⼈。"通⽤OCR理论:通过统⼀端到端模型⾛向OCR-2.0"。发表于:arXiv预印本arXiv:2409.01704(2024)Wei,Jason等⼈。"思维链引导在⼤型语⾔模型中唤起推理"。发表于:神经信息加⼯进展35(2022),⻚码:24824‒24837Wu,Yangzhen等⼈。"推理规模定律:计算最优推理的实证分析解决问题Wu,Yangzhen等⼈。“推断缩放定律：问题求解的计算最优推断的经验分析使⽤语⾔模型”。在:arXiv预印本arXiv:2408.00724(2024)Xu,Liang等⼈。“CLUE:⼀个中⽂语⾔理解评估基准”。在:国际计算语⾔学会议。2020计算语⾔学.2020.⽹址:/abs/2004.05986Yang,Enneng等⼈。“llms、mllms及其他模型的合并：⽅法、理论、应⽤和机会”。在:arXiv预印本arXiv:2408.07666(2024)Yao,Shunyu等⼈。“思维之树：与⼤型语⾔模型的有意识问题解决”。在:神经进展信息处理系统36(2024)Yue,Xiang,YuanshengNi等⼈。“Mmmu：⼀个⼤规模多学科多模式理解和推理专家agi的基准”。在:IEEE/CVF计算机视觉和模式识别会议岳翔，徐兴伟等。“猛犸：通过混合指导调优构建数学通⽤模型”。在:arXiv预印本arXiv:2309.05653（2023)张伦俊等。“⽣成验证器：奖励建模作为下⼀个令牌预测，2024”。在：URLhttps://arxiv.郑联旻等⼈。SGLang：结构化语⾔模型程序的⾼效执⾏。2024.arXiv:2312.07104[cs.AI].URL:/abs/2312.07104.周杰夫等。“⼤型语⾔模型的指令遵循评估”。在：ArXivabs/2311.07911(2023)URL:/abs/2311.07911.Kimik1.5TECHNICALREPORT朱婉蓉等⼈。“多模态c4：⼀亿规模的图像与⽂本交织语料库”。在：Advancesin神经信息处理系统36（2024年）。Kimik1.5TECHNICALREPORTA贡献研究与发展杜安刚⾼博⾮冼博威蒋昌久陈诚李诚陈庄杜崇化廖*德豪张恩铭袁恩哲路洪松赖国坤郭海清朱晗丁浩郝⻁郝扬郝张昊天姚昊天赵郝宇路⾼洪成袁欢郑华斌刘京源苏建林王建州张津严俊杰史⽴东于⻰辉董梦楠张昊⻢宁尘*潘祺玮龚曲城⻙舒鹏ShaoweiLiuTaoJiangWeiminXiongWeiranHeWeihaoGao*⻩伟晓吴

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Kimi+K1.5：使⽤LLMS扩展强化学习

文档简介

温馨提示

最新文档

评论

相关文档