ReSearch：通过强化学习让大型语言模型（LLMs）学习推理与搜索

上传人：策*** IP属地：山西上传时间：2025-04-10 格式：DOCX 页数：26 大小：186.03KB 积分：15 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ReSearch：通过强化学习让大型语言模型（LLMs）MingyangChen1,TianpengLi1,HaozeSun1,YijieZhou1,ChenzhengZhu1,HaofenWang2,JeffZ.Pan3,WenZhang4,HuajunChen4,FanYang1*,ZenanZhou1,WeipengChen11BaichuanInc.2TongjiUniversity3TheUniversityofEdinburgh4ZhejiangUniversity{chenmingyang,yangfan}@/Agent-RL/ReSearchAbstract大型语言模型（LLMs）在推理方面表现出了卓越的能力，这一点从OpenAI-o1和DeepSeek-R1的成功中得到了体现。然而，将推理与外部搜索过程相结合仍然具有挑战性，特别是对于需要多个检索步骤的复杂多跳问题。我们提出了ReSearch，一个新颖的框架，通过强化学习训练LLMs进行Re推理与Search搜索，而不使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的组成部分，搜索的时机和方法受基于文本的思考指导，搜索结果随后影响进一步的推理。我们在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型上训练了ReSearch并进行了一系列广泛实验。尽管我们的模型只在单个数据集上进行了训练，但它们在各种基准测试中表现出了强大的泛化能力。分析表明，在强化学习过程中，ReSearch自然地激发出了高级推理能力，如反思和自我校正。1Introduction近年来，大型语言模型（LLMs）在各种任务上展示了卓越的性能[1,4,9,27]。除了利用在预训练期间习得的内部知识外，LLMs还能够使用外部工具，尤其是搜索引擎，来检索事实性和时效性信息，从而减轻幻觉实例[3,10,14,17]。这种能力，通常被称为检索增强生成（RAG在最近的研究文献中受到了广泛的探讨[2,5,26,30]。尽管RAG的效果显著，但设计适用于复杂现实世界问题的健壮的多步骤RAG策略仍然是一个重大挑战。这尤其关键，因为许多现实世界问题本质上复杂，需要多步骤的推理[15,21,23]。过去一年，LLMs在推理能力上取得了显著进展，特别是在生成最终输出之前的链式推理[25,29]。这一进步以OpenAI-o1[12]和DeepSeek-R1[4]的成功为例。这些发展强调了测试时扩展在推理中的重要性，使LLMs能够将复杂问题分解为可管理的中间步骤[11,19]。这种推理能力对于RAG的有效性也至关重要，特别是在处理需要多个检索步骤的复杂问题时。然而，训练LLMs进行交互式推理以及信息检索仍然为研究界提供了一个开放的挑战。现有的大部分多步骤RAG方法依赖于手动设计的提示或启发式方法，这些方法不仅劳动密集，而 *Correspondingauthor2ReSearch-ReSearch-Qwen-32B-InstructReSearch-Qwen-32BIter-RetGenNaiveGeneration54.254.454.454.249.636.835.233.432.030.630.631.932.232.030.630.629.527.922.4HotpotQA图1:ReSearch和基线在基准测试中的性能。LLLLM-as-a-Judge(%)且在处理更复杂问题时缺乏可扩展性[13,15,21]。此外，在多步骤RAG框架中标记推理步骤通常是不切实际的，因为相关的成本和时间限制。强化学习（RL）已成为一种无需关于推理步骤的监督数据即可增强推理能力的有希望的方法[4,16]。这种方法具有训练大型语言模型（LLM）仅基于来自最终结果的简单奖励信号展示推理技能的潜力。最近在基于强化学习的大型语言模型训练方面的进展，已经在复杂推理任务中显示出显著的改进，其中模型通过尝试和错误而不是明确指导来学习将问题分解成可管理的步骤。如DeepSeek-R1等模型已经证明，基于规则的奖励函数可以有效地指导大型语言模型自主发展复杂的推理模式。尽管取得了这些成功，但当前方法主要关注增强内部推理能力，而对如何有效地将这种推理过程与外部知识检索结合起来进行了有限的探索。在本文中，我们提出了一种通过强化学习训练大型语言模型进行推理和搜索的新框架，我们称之为ReSearch。该框架中的推理链不仅由文本思考组成（即，由<think></think>包围如DeepSeek-R1，还包括搜索查询（即，由<search></search>包围）和检索结果（即，由<result></result>包围）。我们将搜索操作视为链式推理过程的一部分，搜索操作将与基于文本的思考相互作用。具体来说，何时以及如何执行搜索将由之前的基于文本的思考指导，而搜索结果将影响后续的基于文本的思考。在框架中，我们不提供任何关于推理步骤的监督数据供大型语言模型模仿，而是利用强化学习（即，GRPO）激励大型语言模型进行带有搜索的推理。我们从零开始在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)上训练ReSearch，并在需要多步推理和多次信息检索的多跳问答基准测试上进行广泛实验。我们训练的模型在基线之上显示出显著的绝对改进，范围从8.9%到22.4%。此外，我们的训练仅在特定的训练集上进行，训练出的模型在多个基准测试上进行评估，展示了我们框架的泛化性。我们的贡献如下：•通过强调推理与搜索之间的交互，我们提出了一个新颖的框架ReSearch，它使用强化学习从零开始训练LLM以搜索进行推理，而不依赖任何关于推理步骤的监督数据。•我们在不同规模的模型上训练ReSearch，并在多跳问答基准测试上进行广泛实验，展示了这个框架的有效性。训练出的模型显示出显著的泛化性和在更现实场景中的潜力。3•通过分析训练过程，我们证明了ReSearch可以有效地逐步自我激发搜索的推理能力，并且诸如反思和自我纠正之类的推理能力可以在不依赖任何预定义启发式方法的情况下得到2MethodA1A2ReferenceModelT2GroupComputationRewardCalculationAGTGAdvantageReward从OpenAI-o1和DeepSeek-R1在学习推理方面的成功中汲取灵感，我们将搜索操作融入推理过程中，并使用强化学习（即GRPO）从头开始训练LLM，而不依赖任何关于推理链的标记示ReSearch的训练细节，深入研究GRPO的细节以及在强化学习过程中如何进行带有搜索最后，我们介绍了奖励建模，用于指导强化学习的优化(§??）。A1A2ReferenceModelT2GroupComputationRewardCalculationAGTGAdvantageRewardy2Questiony1y2QuestionLLMLLMPolicySearchYGRollout<result>Citibankwasfoundedin<result>Citibankwasfoundedin1812asthe……</result>InputQuestionWhowaspresidentoftheUnitedStatesintheyearthatCitibankwasfounded?<think>Toanswerthisquestion…</think><search>WhenwasCitibank…</search><result>Citibankwasfounded…</result><think>Now,Ineedtoﬁndout…</think><search>Whowasthe…</search><result>President…</result><answer>ThepresidentoftheUnitedStatesintheyearthatCitibankwasfoundedwas\[\boxed{JamesMadison}\]</answer>OutputRollout2233LLMLLMPolicySearch<think>Toanswerthisquestion,<think>Toanswerthisquestion,Ineed……IwillstartbysearchingforthefoundingyearofCitibank.</think><search>whenwasCitibankfounded</search>1GeneratetillsearchoreosRetrievesearchresultConcatthencontinue221313图2:ReSearch的训练概述。（a）GRPO管道。（b）回放生成过程的细节。2.1ReinforcementLearning在处理需要检索的复杂多步骤任务（即多步骤RAG）时，推理对于指导多个检索（即搜索）操作至关重要，主要是在何时以及如何执行搜索。收集带有搜索的标记推理数据以监督微调LLM以模仿如何结合搜索进行推理是具有挑战性的。幸运的是，强化学习已经在训练LLM进行推理方面显示出令人印象深刻的表现，它可以在没有任何监督数据的情况下激发LLM的推理能力。总的来说，这里强化学习背后的主要思想是采样多个推理-搜索链（即rollouts并优化策略（即LLMs以最大化生成带有更高奖励的rollouts的概率，如图2所示。组相对策略优化具体来说，在这项工作中，我们使用组相对策略优化（GRPO）作为学习算法，该算法从一个rollouts组估计基线，而不是在近端策略优化（PPO）中训练一个单独的评估模型。给定一个现有策略πθold和一个参考策略πθref，基于G个rolloutsτ={yi4对于每个输入x∼D，GRPO的目标是通过最大化以下目标来优化策略πθ:J(θ)=Ex~D,{yi}~πθold(·|x)其中Ai=(ri−mean({rjj是当前组中第i个回滚的归一化优势，ϵ是剪辑比例，β是KL损失系数。此外，为了防止策略偏离原始参考策略LLMs过多，目标函数中增加了一个KL散度惩罚。GRPO的示意图如图2(a)所示。带有搜索的回滚与仅包含基于文本的推理的传统回滚相比，ReSearch中的回滚还包含搜索查询和检索结果。我们使用<search>和</search>来包含搜索查询，使用<result>和</result>来包含检索结果，并在稍后将在§??介绍的提示模板中描述此类指令。回滚过程是如图2(b)所描述的基于文本的推理、搜索查询和检索结果之间的迭代过程。具体来说，当生成过程遇到</search>标签时，最后<search>和当前</search>标签之间的查询将用作搜索查询来检索相关事实信息，检索结果将被<result>和</result>标签包含。然后，现有的回滚与检索结果拼接后，将被用作下一次生成的输入，以迭代生成后续响应，直到生成过程遇到句尾（eos）标签（即，Qwen-2.5模型中的<endoftext>或<im_end>）。检索结果遮蔽在原始的GRPO中，损失是通过整个回放过程中生成的所有标记来计算的。然而，在ReSearch中，回放包含了检索结果，这些结果不是由训练策略生成的，而是由搜索环境检索得到的。因此，我们在损失计算中遮蔽了检索结果，以避免训练策略偏向于检索结果。也就是说，在计算方程1时，我们只考虑基于文本的思维和搜索查询中的标记，并忽略检索结果中的标记。2.2TrainingTemplate由于我们通过识别定义的特殊标签（例如，在</search>处停止并将控制权转移至搜索环境）来编排推出过程，因此对于策略LLM来说，按照定义的格式生成输出至关重要。为了指导LLM理解这种推出格式——特别是表示调用搜索操作时使用的标签——我们创建了两个提示模板：一个用于基础（即预训练）模型，另一个用于指令微调模型。如表1所示，受到DeepSeek-R1的启发，这些模板被设计得简单明了，确保模型在强化学习过程中能够自然地发展。具体来说，对于基础模型，这个填充了特定用户问题的模板将直接作为LLM的输入。对于指令微调模型，其提示模板作为系统提示，与指令微调LLM的相应聊天模板结合2.3RewardModeling在ReSearch的强化学习过程中，没有监督推理数据，我们仅使用简单的奖励来指导LLM的优化。实验证明，仅基于规则的奖励函数足以成功激发LLM的搜索推理能力。我们的奖励函数包括以下两部分：答案奖励和格式奖励。•答案奖励：我们通过F1分数计算最终答案\boxed{}与真实答案之间的正确性。•格式奖励：我们检查rollout是否正确遵循我们在提示模板中定义的格式，主要检查标签的正确性和答案中\boxed{}的存在。5表1:训练基础模型和指令微调模型时的提示模板。对于基础模型，prompt将被替换为实际的问题。对于指令微调模型，此模板被用作系统提示。PromptTemplateForBaseModelAconversationbetweenUserandAssistant.Theuserasksaquestion,andtheassistantsolvesit.Theassistantﬁrstthinksaboutthereasoningprocessinthemindandthenprovidestheuserwiththeanswer.Duringthinking,theassistantcaninvokethewikipediasearchtooltosearchforfactinformationaboutspeciﬁctopicsifneeded.Thereasoningprocessandanswerareen-closedwithin<think></think>and<answer></answer>tagsrespectively,andthesearchqueryandresultareenclosedwithin<search></search>and<result></result>tagsre-spectively.Forexample,<think>Thisisthereasoningprocess.</think><search>searchqueryhere</search><result>searchresulthere</result><think>Thisisthereason-ingprocess.</think><answer>Theﬁnalansweris\boxed{answerhere}</answer>.Inthelastpartoftheanswer,theﬁnalexactanswerisenclosedwithin\boxed{}withlatexformat.User:prompt.Assistant:SystemPromptTemplateForInstruction-TunedModelYouareahelpfulassistantthatcansolvethegivenquestionstepbystepwiththehelpofthewikipediasearchtool.Givenaquestion,youneedtoﬁrstthinkaboutthereasoningprocessinthemindandthenprovidetheanswer.Duringthinking,youcaninvokethewikipediasearchtooltosearchforfactinformationaboutspeciﬁctopicsifneeded.Therea-soningprocessandanswerareenclosedwithin<think></think>and<answer></answer>tagsrespectively,andthesearchqueryandresultareenclosedwithin<search></search>and<result></result>tagsrespectively.Forexample,<think>Thisisthereasoningprocess.</think><search>searchqueryhere</search><result>searchresulthere</result><think>Thisisthereasoningprocess.</think><answer>Theﬁnalansweris\boxed{answerhere}</answer>.Inthelastpartoftheanswer,theﬁnalexactanswerisenclosedwithin\boxed{}withlatexformat.具体来说，对于一个rollout的最终奖励：('f1(apred,agt),r={'0.1,iff1scoreisnot0iff1scoreis0andformatiscorrectiff1scoreis0andformatisincorrect(2)其中apred是\boxed{}中的最终答案，agt是真实答案，f1(apred,agt)是apred和agt之间的F13Experiments3.1ExperimentSetup为了评估ReSearch的有效性，我们在需要多步骤推理和多次信息检索的多跳问答基准测试上进行了大量实验。我们的ReSearch是从Qwen2.5-7B、Qwen2.5-7B-Instruct、Qwen2.5-32B和Qwen2.5-32B-Instruct[27]训练而来的。在训练过程中，我们仅使用MuSiQue[20]训练集中的数据，因为它包含了多种类型的多跳问题，并通过细致的质量控制构建而成。6基准测试我们在多跳问答任务上使用了四个标准基准，包括HotpotQA[28]、2WikiMulti-HopQA[6]、MuSiQue[20]和Bamboogle[13]。具体来说，HotpotQA、2WikiMultiHopQA和MuSiQue是通过不同的多跳挖掘策略与众人协作，在维基百科或维基数据[22]上构建的，而Bamboogle是一个手动构建的数据集，包含2跳问题，所有问题都足够困难，以至于无法被流行的互联网搜索引擎回答。我们在HotpotQA、2WikiMultiHopQA和MuSiQue的完整开发集以及Bamboogle的测试集上进行了评估，分别包括7405、12576、2417、125个样本。请注意，我们丢弃了HotpotQA、2WikiMultiHopQA和MuSiQue原始数据集中的上下文文档，仅使用问题和答案对进行评估。我们使用基于维基百科的开放式检索环境来检索所有数据集的背景知识，我们将在后面介绍。基线对比我们首先将ReSearch与两个简单基线进行对比：(1)无RAG：使用对应的指令微调模型直接生成答案，而不进行任何RAG，以及(2)简单RAG：一种基于检索的简单设置，将检索结果与问题连接起来，然后直接生成答案。此外，我们还考虑了两种专注于改进多步骤RAG的方法：(3)Iter-RetGen[15]：一种以迭代方式结合检索和生成的方法，以及(4)IRCoT[21]：一种交错方法，其中检索和思维链（CoT）相互引导。由于这些方法是基于提示的，我们使用与我们的ReSearch相同大小的指令微调模型来实现它们，以便进行公平比较。评价指标为了评估最终答案的正确性，我们首先使用精确匹配（EM即如果预测结果与真实答案完全匹配，则认为预测是正确的。然而，在我们的设置中，这种精确匹配过于严格，因为检索环境是开放的，结果是使用自然语言描述的。因此，我们还考虑了使用LLM作为评判者（LJ）进行自动评估，其中我们使用我们定义的评判提示和gpt-4o-mini来评分最终答案的正确性。评判提示显示在附录??中。实现细节我们在Qwen2.5-7B、Qwen2.5-7B-Instruct、Qwen2.5-32B和Qwen2.5-32B-Instruct上进行训练和评估。强化学习框架基于verl[18]构建。我们仅使用MuSiQue的训练集（19938个样本）进行训练，训练轮次为2轮。检索环境基于FlashRAG[7]，这是RAG研究的标准工具包。我们使用E5-base-v2[24]作为检索器，以及2018年12月的Wikipedia数据作为知识库[8]。所有的语料索引和嵌入已由FlashRAG预处理。在训练和评估过程中的展开（rollout）阶段，我们对每个查询检索前5个结果。对于基线方法，我们使用FlashRAG中的实现。关于模型训练的详细信息，请参考附录??。3.2MainResults基线和ReSearch的主要结果展示在表2中，我们分别展示了基于不同大小的LLM的方法。从主要结果中，我们可以得出以下观察：EffectivenessofReSearch与所有基线相比，ReSearch在所有基准测试中都实现了显著的改进，这证明了我们提出的框架的有效性。具体来说，在所有基准测试中，ReSearch对比最佳基线在精确匹配上的平均改进为15.81%，在LLM-as-a-judge上的平均改进为17.56%，对于具有7B参数的Qwen2.5模型。对于具有32B参数的Qwen2.5模型，平均改进为14.82%在精确匹配上和15.46%在LLM-as-a-judge上。Comparisonbetweenbaseandinstruction-tunedmodels我们分别从具有7B和32B参数的基线和指令微调模型中训练ReSearch，并注意到它们都是从头开始使用强化学习进行训练，没有进行任何有监督的微调。从结果中，我们可以观察到从指令微调模型训练可以进一步改进ReSearch的性能。这种观察在所有基准测试和模型大小上是一致的。7GeneralizationAbility在强化学习过程中，ReSearch学习了与搜索进行推理的能力，这种能力独立于特定的知识或多跳模式，并且这种能力是可泛化的。我们的模型ReSearch只训练在MuSiQue数据集的训练集上，但从结果中，我们可以观察到它可以泛化到具有不同问题类型和结构的其他基准测试，这证明了ReSearch的泛化能力。表2:精确匹配（EM，%）和LLM作为裁判（LJ，%）在多跳问答基准测试中的结果。最佳结果以粗体突出显示，基线中的最佳结果被划下划线。ModelHotpotQAEMLJ2WikiEMLJMuSiQueEMLJBamboogleEMLJQwen2.5-7B(-Instruct)NaiveGeneration30.6425.7627.873.7622.40NaiveRAG31.9049.5925.7829.526.2120.8032.00Iter-RetGen34.3652.2227.9231.868.6921.6035.20IRCoT30.3352.0621.5730.656.9924.8036.80ReSearch-Qwen-7B40.5760.2644.6750.0621.6832.1943.2054.40ReSearch-Qwen-7B-Instruct43.5263.6247.5954.2222.3033.4342.4054.40Qwen2.5-32B(-Instruct)NaiveGeneration24.6338.2627.2329.686.1229.60NaiveRAG36.4655.7330.3834.879.2723.2040.80Iter-RetGen39.8158.8033.6438.2220.1129.6044.80IRCoT28.4455.4429.507.8231.2047.20ReSearch-Qwen-32B42.7764.2738.5245.5926.4037.5754.4066.40ReSearch-Qwen-32B-Instruct46.7367.7044.9050.3026.4038.5656.8067.203.3FurtherAnalysis我们在本节中研究训练ReSearch期间的重要指标。具体来说，训练过程中的响应长度和搜索操作次数分别显示在图3中。训练奖励和验证奖励的曲线显示在图4中。验证是在MuSiQue数据集的开发集的一部分上进行的，该部分包含100个随机样本，并且在训练的每10步进行一次。图3:训练期间响应长度和搜索操作次数。响应长度我们定义响应长度为模型输出的总token数，不包括检索结果，这可以解释为推理的测试时间成本。从图3中的前两个图中可以明显看出，响应长度在整个训练过程中一般呈增加趋势。对于7B和32B参数的模型，指令微调模型相较于基础模型的响应长度更长。8此外，对于32B模型，响应长度在训练的前20步中最初是减少的，然后在大约第60步后又开始增加。这种行为可能是由于32B模型具有更多的内在知识，最初生成的响应更长，且不使用检索。然而，在训练早期接收到来自奖励信号的指导后，它们开始更频繁地利用搜索，从而减少对生成知识的依赖。搜索操作次数我们还在训练过程中统计了一个rollout中的平均搜索操作次数，这在图3的最后两个图中显示。如图所示，搜索操作的次数在训练过程中呈现出一致的增长趋势。这种趋势表明，对于复杂的多跳问题，模型逐渐学会使用搜索多次迭代地检索相关信息。训练和验证奖励我们在图4中展示了ReSearch在强化学习过程中的训练和验证奖励。在前20个训练步骤中，奖励急剧增加，然后逐渐增加。对于7B和32B模型，冷启动奖励在指令微调模型中更高。对于7B模型，基础模型和指令微调模型的奖励最终收敛到相似的水平，而对于32B模型，指令微调模型的训练奖励高于基础模型。3.4CaseStudy为了更直观地理解ReSearch的效用，我们在表3中展示了一个案例研究。这个案例来自于Qwen2.5-32B-Instruct模型的强化学习过程。其中被<think>和</think>、<search>和</search>、以及<answer>和</answer>包围的文本是由模型生成的，而被<result>和</result>包围的文本是从检索环境中检索到的。为了清晰起见，我们使用"......"来表示检索结果的截断。从这个案例中，我们可以看到模型能够有效地分解复杂问题，并在<think>和</think>内进行推理。这种推理过程对于指导何时以及搜索什么内容至关重要，并以多步骤的方式引导得出最终答案。自我引发反思此外，我们还在模型响应中观察到了反思现象。如表3中第二步骤的思考所示，模型表示"我犯了一个错误"，认识到之前的搜索查询未能检索到有用的信息。然后在第三步骤的思考中，模型通过生成更有效的搜索查询来获取相关信息，从而纠正自己。请注意，这种反思能力并没有在提示模板中显式地训练或设计，而是模型在强化学习过程中自然引发4Conclusion在本文中，我们介绍了ReSearch，一种新颖的框架，通过强化学习训练LLM进行推理和搜索，无需对推理步骤进行任何监督数据。我们的方法将搜索操作作为推理链的有机组成部分，其中基于文本的思维指导何时以及如何执行搜索，搜索结果随后影响进一步的推理。通过在多个多跳问答基准上进行大量实验，我们证明了ReSearch在基线方法上取得了显著改进。结果也表明该框架在更现实场景中的潜力。对训练过程的分析显示，ReSearch能够自然地激发高级推理能力，如反思和自我纠正，而无需依赖预定义的启发式方法。这项工作突显了通过9表3:對於培訓期間進行的ReSearch的案例研究。Question:Whowonthe2018presidentialelectioninthecountrywherethepoliticalpartyofMartínRamírezPechoperates?Answer:AndrésManuelLópezObrador<think>Toﬁndtheanswer,IﬁrstneedtodeterminethecountryinwhichMartínRamírezPech’spoliticalpartyoperates.Iwillsearchfor"MartínRamírezPech"toﬁndoutthisinfor-mation.</think><search>MartínRamírezPech</search><result>"MartínRamírez",MartínRamírezMartínRamírez(January30,1895-February17,1963)was......\n"MartínRamírez",and$134,500inNewYorkin2011.MartínRamírezMartínRamírez(January30,1895-......\n"MartínRamírez",includingbrownpaperbags,scrapsofexamining-tablepaper,andbookpages......</result><think>ItappearsthatImadeamistakeinmysearchquery.Insteadofsearchingfor"MartínRamírezPech",theresultsareshowinginformationaboutadifferent"MartínRamírez".Toﬁndouttherightinformation,IneedtolookforMartínRamírezPechspeciﬁcallyandthepoliticalpartyassociatedwithhim.Iwillmodifythesearchqueryto"MartínRamírezPechpoliticalparty"forthecorrectinformation.</think><search>MartínRamírezPechpoliticalparty</search><result>"CuauhtémocBlanco",ofMorelos.Inthe2015legislativeelections,hewoninacloselycontestedelection......\n"LaborParty(Mexico)",forPTand75deputiesand16senatorsforthePES.Thealliancehasreceived......\n"GracoRamírez",GracoRamírezGracoLuisRamírezGarridoAbreu(born26June1949,inVillahermosa,Tabasco)isaMexican......</result><think>Now,weseethatMartínRamírezPechisassociatedwiththepoliticalpartyknownastheLaborParty(PT)inMexico.Inowneedtocontinuethislineofreasoningtoﬁndoutwhowonthepresidentialelectionin2018inMexico.</think><search>2018Mexicanpresidentialelection</search><result>"2018Mexicangeneralelection",(INE)ofﬁciallydeclaredthenewprocessun-derwayon8September2017.ThepresidentialelectionwaswonbyAndrésManuelLópezObradorof......\n"2018Mexicangeneralelection",irregularitiesincludingreportsofvote-buying,spendingbeyondlegalcampaign......\n"2018Mexicangeneralelection",2018Mex-icangeneralelectionGeneralelectionswereheldinMexicoon1July2018......</result><think>Accordingtothesearchresults,the2018MexicanpresidentialelectionwaswonbyAndrésManuelLópezObradorasthecandidatefortheNationalRegenerationMovement(MORENA).</think><answer>Theﬁnalansweris\boxed{AndrésManuelLópezObrador}</answer>强化学习整合推理和搜索操作的有效性，为开发更加强大和可靠的大型语言模型（LLM）系统以处理复杂的多跳任务提供了有前景的方向。未来的工作可以探讨将这种方法扩展到更多样化的领域，并将除了搜索以外的其他类型工具纳入其中，以进一步增强LLM的推理能力。参考文献[1]Anthropic.Claude3.7sonnetandclaudecode,2025.URL/news/claude-3-7-sonnet.[2]AkariAsai,ZeqiuWu,YizhongWang,AvirupSil,andHannanehHajishirzi.Self-rag:Learn-ingtoretrieve,generate,andcritiquethroughself-reﬂection.InICLR.OpenR,2024.[3]MingyangChen,HaozeSun,TianpengLi,FanYang,HaoLiang,KeerLu,BinCui,WentaoZhang,ZenanZhou,andWeipengChen.Facilitatingmulti-turnfunctioncallingforllmsviacompositionalinstructiontuning.CoRR,abs/2410.12952,2024.[4]DeepSeek-AI,DayaGuo,DejianYang,HaoweiZhang,JunxiaoSong,RuoyuZhang,RunxinXu,QihaoZhu,ShirongMa,PeiyiWang,XiaoBi,XiaokangZhang,XingkaiYu,YuWu,Z.F.Wu,ZhibinGou,ZhihongShao,ZhuoshuLi,ZiyiGao,AixinLiu,BingXue,BingxuanWang,BochaoWu,BeiFeng,ChengdaLu,ChenggangZhao,ChengqiDeng,ChenyuZhang,ChongRuan,DamaiDai,DeliChen,DongjieJi,ErhangLi,FangyunLin,FucongDai,FuliLuo,GuangboHao,GuantingChen,GuoweiLi,H.Zhang,HanBao,HanweiXu,HaochengWang,HonghuiDing,HuajianXin,HuazuoGao,HuiQu,HuiLi,JianzhongGuo,JiashiLi,JiaweiWang,JingchangChen,JingyangYuan,JunjieQiu,JunlongLi,J.L.Cai,JiaqiNi,JianLiang,JinChen,KaiDong,KaiHu,KaigeGao,KangGuan,KexinHuang,KuaiYu,LeanWang,LecongZhang,LiangZhao,LitongWang,LiyueZhang,LeiXu,LeyiXia,MingchuanZhang,MinghuaZhang,MinghuiTang,MengLi,MiaojunWang,MingmingLi,NingTian,PanpanHuang,PengZhang,QianchengWang,QinyuChen,QiushiDu,RuiqiGe,RuisongZhang,RuizhePan,RunjiWang,R.J.Chen,R.L.Jin,RuyiChen,ShanghaoLu,ShangyanZhou,ShanhuangChen,ShengfengYe,ShiyuWang,ShuipingYu,ShunfengZhou,ShutingPan,andS.S.Li.Deepseek-r1:Incentivizingreasoningcapabilityinllmsviareinforcementlearning.CoRR,abs/2501.12948,2025.[5]YunfanGao,YunXiong,XinyuGao,KangxiangJia,JinliuPan,YuxiBi,YiDai,JiaweiSun,QianyuGuo,MengWang,andHaofenWang.Retrieval-augmentedgenerationforlargelan-guagemodels:Asurvey.CoRR,abs/2312.10997,2023.[6]XanhHo,Anh-KhoaDuongNguyen,SakuSugawara,andAkikoAizawa.ConstructingAmulti-hopQAdatasetforcomprehensiveevaluationofreasoningsteps.InCOLING,pages6609–6625.InternationalCommitteeonComputationalLinguistics,2020.[7]JiajieJin,YutaoZhu,XinyuYang,ChenghaoZhang,andZhichengDou.Flashrag:Amodulartoolkitforefﬁcientretrieval-augmentedgenerationresearch.CoRR,abs/2405.13576,2024.[8]VladimirKarpukhin,BarlasOguz,SewonMin,PatrickS.H.Lewis,LedellWu,SergeyEdunov,DanqiChen,andWen-tauYih.Densepassageretrievalforopen-domainquestionan-swering.InEMNLP(1),pages6769–6781.AssociationforComputationalLinguistics,2020.[9]MinganLin,FanYang,YanjunShen,HaozeSun,TianpengLi,TaoZhang,ChenzhengZhu,TaoZhang,MiaoZheng,XuLi,YijieZhou,MingyangChen,YanzhaoQin,YouquanLi,HaoLiang,FeiLi,YadongLi,MangWang,GuoshengDong,KunFang,JianhuaXu,BinCui,WentaoZhang,ZenanZhou,andWeipengChen.Baichuanalignmenttechnicalreport.CoRR,abs/2410.14940,2024.[10]ChangMa,JunleiZhang,ZhihaoZhu,ChengYang,YujiuYang,YaohuiJin,ZhenzhongLan,LingpengKong,andJunxianHe.Agentboard:Ananalyticalevaluationboardofmulti-turnLLMagents.InNeurIPS,2024.[11]NiklasMuennighoff,ZitongYang,WeijiaShi,XiangLisaLi,LiFei-Fei,HannanehHajishirzi,LukeZettlemoyer,PercyLiang,EmmanuelJ.Candès,andTatsunoriHashimoto.s1:Simpletest-timescaling.CoRR,abs/2501.19393,2025.[12]OpenAI.LearningtoreasonwithLLMs,2024.URL/index/learning-to-reason-with-llms.[13]OﬁrPress,MuruZhang,SewonMin,LudwigSchmidt,NoahA.Smith,andMikeLewis.Mea-suringandnarrowingthecompositionalitygapinlanguagemodels.InEMNLP(Findings),pages5687–5711.AssociationforComputationalLinguistics,2023.[14]TimoSchick,JaneDwivedi-Yu,RobertoDessì,RobertaRaileanu,MariaLomeli,EricHambro,LukeZettlemoyer,NicolaCancedda,andThomasScialom.Toolformer:Languagemodelscanteachthemselvestousetools.InNeurIPS,2023.[15]ZhihongShao,YeyunGong,YelongShen,MinlieHuang,NanDuan,andWeizhuChen.En-hancingretrieval-augmentedlargelanguagemodelswithiterativeretrieval-generationsynergy.InEMNLP(Findings),pages9248–9274.AssociationforComputationalLinguistics,2023.[16]ZhihongShao,PeiyiWang,QihaoZhu,RunxinXu,JunxiaoSong,MingchuanZhang,Y.K.Li,Y.Wu,andDayaGuo.Deepseekmath:Pushingthelimitsofmathematicalreasoninginopenlanguagemodels.CoRR,abs/2402.03300,2024.[17]YongliangShen,KaitaoSong,XuTan,DongshengLi,WeimingLu,andYuetingZhuang.Hugginggpt:SolvingAItaskswithchatgptanditsfriendsinhuggingface.InNeurIPS,2023.[18]GuangmingSheng,ChiZhang,ZilingfengYe,XibinWu,WangZhang,RuZhang,YanghuaPeng,HaibinLin,andChuanWu.Hybridﬂow:AﬂexibleandefﬁcientRLHFframework.CoRR,abs/2409.19256,2024.[19]CharlieSnell,JaehoonLee,KelvinXu,andAviralKumar.ScalingLLMtest-timecomputeoptimallycanbemoreeffectivethanscalingmodelparameters.CoRR,abs/2408.03314,2024.[20]HarshTrivedi,NiranjanBalasubramanian,TusharKhot,andAshishSabharwal.Musique:Multihopquestionsviasingle-hopquestioncomposition.Trans.Assoc.Comput.Linguistics,10:539–554,2022.[21]HarshTrivedi,NiranjanBalasubramanian,TusharKhot,andAshishSabharwal.Interleavingretrievalwithchain-of-thoughtreasoningforknowledge-intensivemulti-stepquestions.InACL(1),pages10014–10037.AssociationforComputationalLinguistics,2023.[22]DennyVrandecicandMarkusKrötzsch.Wikidata:afreecollaborativeknowledgebase.Com-mun.ACM,57(10):78–85,2014.[23]JunjieWang,MingyangChen,BinbinHu,DanYang,ZiqiLiu,YueShen,PengWei,ZhiqiangZhang,JinjieGu,JunZhou,JeffZ.Pan,WenZhang,andHuajunChen.Learningtoplanforretrieval-augmentedlargelanguagemodelsfromknowledgegraphs.InEMNLP(Findings),pages7813–7835.AssociationforComputationalLinguistics,2024.[24]LiangWang,NanYang,XiaolongHuang,BinxingJiao,LinjunYang,DaxinJiang,RanganMajumder,andFuruWei.Textembeddingsbyweakly-supervisedcontrastivepre-training.CoRR,abs/2212.03533,2022.[25]JasonWei,XuezhiWang,DaleSchuurmans,MaartenBosma,BrianIchter,FeiXia,EdH.Chi,QuocV.Le,andDennyZhou.Chain-of-thoughtpromptingelicitsreasoninginlargelanguagemodels.InNeurIPS,2022.[26]Shi-QiYan,Jia-ChenGu,YunZhu,andZhen-HuaLing.Correctiveretrievalaugmentedgen-eration.CoRR,abs/2401.15884,2024.[27]AnYang,BaosongYang,BeichenZhang,BinyuanHui,BoZheng,BowenYu,ChengyuanLi,DayihengLiu,FeiHuang,HaoranWei,HuanLin,JianYang,JianhongTu,JianweiZhang,JianxinYang,JiaxiYa

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

ReSearch：通过强化学习让大型语言模型（LLMs）学习推理与搜索

文档简介

温馨提示

最新文档

评论

ReSearch：通过强化学习让大型语言模型（LLMs） 学习推理与搜索

文档简介

温馨提示

最新文档

评论

相关文档

ReSearch：通过强化学习让大型语言模型（LLMs）学习推理与搜索