计算机-DeepSeek R1深度解析及算力影响几何

上传人：策*** IP属地：山西上传时间：2025-02-10 格式：DOCX 页数：71 大小：2.50MB 积分：19.9 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

发布日期：2025年2月3日本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。n核心观点：Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练，证明了大语言模型仅通过强化学习也可以有强大的推nDeepseek发布深度推理能力模型，性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练，模型效果逼近OpenAIo1模型，证明了大语言模型仅通过RL，无SFT，大模型也可以有强大的推理能力。但是R1-Zero也存在可读性差和语言混合的问题，在进一步的优化过程中，DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型，主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段，R1在推理任务上表现出色，特别是在AIME2024、MATH-500和Codeforces等任务上，取得了与OpenAI-o1-1217相媲美甚至超越的成绩。n国产模型迈向深度推理，策略创新百花齐放。在DeepseekR1-Zero模型中，采用的强化学习策略是GRPO策略，取消价值网络，采用分组相对奖励，专门优化数学推理任务，减少计算资源消耗；KIMIDPO和long2shortRL策略实现短链推理；Qwen2.5扩大监督微调数据范围以及两阶段强化学习，增强模型处理能力。nDeepSeekR1通过较少算力实现高性能模型表现，主要原因是DeepSeekR1实现算法、框架和硬件的优化协同。DeepSeekR1在诸多维度上进行了大量优化，算法层面引入专家混合模型、多头隐式注意力、多token预测，框架层面实现FP8混合精度训练，硬件层面采用优化的流水线并行策略，同时高效配置专家分发与跨节点通信，实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段，算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧，通过大量协同优化，DeepSeekR1在特定发展阶段通过较少算力实现高性能模型表现，算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scalinglaw正逐步迈向更广阔的空间，在深度推理的阶段，模型的未来算力需求依然会呈现爆发式上涨，充足的算力需求对于人工智能模型的性能进步依然至关重要。国内模型深度推理发展现状4低算力需求缘起及长期算力观点20相关问答案例27风险提示33国内模型深度推理发展现状4nDeepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。nR1-Zero的训练，证明了仅通过RL，无SFT，大模型也可以有强大的推理能力。在AIME2024上，R1-Zero的pass@1指标从15.6%提升至71.0%，经过投票策略（majorityvoting）后更是提升到了86.7%，与OpenAI-o1-0912相当。架构思路：没有任何SFT数据的情况下，通过纯粹的强化学习。算法应用：直接在DeepSeek-V3-Base模型上应用GRPO算法进行强化学习训练。奖励机制：使用基于规则的奖励机制，包括准确性奖励和格式奖励，来指导模型的学习。训练模板：采用了简洁的训练模板，要求模型首先输出推理过程（置于标签内），然后给出最终答案（置于标签内）。资料来源：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning，中信建投n为了解决R1-Zero可读性差和语言混合的问题，构建了R1。n架构思路：在DeepSeek-V3-Base模型的基础上，经历两次微调和两次强化学习得到R1模型。nStep1.冷启动阶段：使用数千个高质量的长Cot人工标注样本对DeepSeek-V3-Base模型进行微调，作为强化学习的初始模型。nStep2.面向推理的强化学习：在冷启动阶段之后，R1采用了与R1-Zero类似的强化学习训练，但针对推理任务进行了特别优化。为了解决训练过程中可能出现的语言混杂问题，R1引入了语言一致性奖励，该奖励根据CoT中目标语言单词的比例来计算。nStep3.拒绝采样与监督微调：当面向推理的强化学习收敛后，R1利用训练好的RL模型进行拒绝采样，生成新的SFT数据。nStep4.面向全场景的强化学习：在收集了新的SFT数据后，R1会进行第二阶段的强化学习训练，这一次，训练的目标不再局限于推理任务，而是涵盖了所有类型的任务。此外，R1采用了不同的奖励信号和提示分布，针对不同的任务类型进行了优化。采样监督微调资料来源：DeepSeek，huggingface，中信建投nR1在推理任务上表现出色，特别是在AIME2024（美国数学邀请赛）、MATH-500（数学竞赛题）和Codeforces（编程竞赛）等任务上，取得了与OpenAI-o1-1217相媲美甚至超越的成绩。在MMLU（90.8%）、MMLU-Pro（84.0%）和GPQADiamond（71.5%）等知识密集型任务基准测试中，性能显著超越了DeepSeek-V3模型。在针对长上下文理解能力的FRAMES数据集上，R1的准确率达到了82.5%，优于DeepSeek-V3模型。在开放式问答任务AlpacaEval2.0和Arena-Hard基准测试中，R1分别取得了87.6%的LC-winrate和92.3%的GPT-4-1106评分，展现了其在开放式问答领域的强大能力。资料来源：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning，中信建投nDeepSeek团队进一步探索了将R1的推理能力蒸馏到更小的模型中的可能性。他们使用R1生成的800K数据，对Qwen和Llama系列的多个小模型(1.5B、7B、8B、14B、32B、70B)进行了微调。经过R1蒸馏的小模型，在推理能力上得到了显著提升，甚至超越了在这些小模型上直接进行强化学习的效果。n推理成本来看，R1模型价格只有OpenAIo1模型的几十分之一。训练成本来看，DeepSeek-V3在一个配备2048个NVIDIAH800GPU的集群上进行训练，预训练阶段在不到两个月内完成，并消耗了2664KGPU小时，总训练成本为557.6万美元。资料来源：DeepSeek，DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning，中信建投nDeepSeek中强化学习的核心策略是GRPO策略，GRPO是PPO的改进版本，专门优化数学推理任务，减少计算资源消耗。nGRPO关键改进：取消价值网络，降低计算资源。PPO需要一个额外的价值网络来估计优势，但GRPO直接用样本组的平均奖励作为基线。这样，GRPO不需要额外训练价值网络，减少GPU计算成本。采用分组相对奖励，GRPO用多个样本的奖励来计算相对优势，而不是用价值网络估计优势。即时奖励折扣因子累计奖励平均奖励标准差奖励9资料来源：DeepSeek，DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning，中信建投n2025年1月20日，kimi1.5版本模型发布，这是继2024年11月发布k0-math数学模型，12月发布k1视觉思考模型之后，Kimin从基准测试成绩看，k1.5多模态思考模型实现了SOTA（stn在short-CoT模式下，Kimik1.5的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考SOTA模型GPT-4on在long-CoT模式下，Kimik1.5的数学、代码、多模态推理能力，也达到长思考SOTA模型OpenAIo1正式版的水平。这资料来源：Kimik1.5:ScalingReinforcementLearningwithLLMs，中信建投n1）长上下文扩展：通过将RL的上下文窗口扩展到128k，Kimik1.5能够处理更长的文本序列，从而在多个任务上提升性能。在推理过程n2）改进的策略优化：采用在线镜像下降法的变体进行策略优化，并结合有效的采样策略、长度惩罚和数据配方优化，进一步提升了模n3）简化的RL框架：通过长上下文扩展和改进的策略优化，Kimik1.5建立了一个简化的RL学习框架，使得模型能够在不依赖复杂技术的n4）多模态处理能力：Kimik1.5能够同时处理文本和视觉数据，展现了在多模态数据上进行联合推理的能力。（对比DeepseekR1仅为资料来源：Kimik1.5:ScalingReinforcementLearningwithLLMs，中信建投nKimik1.5的推理框架分为核心几块：1）Rollout模块：理解为推理过程中的试错者和推演者，不断推演不同可能性，从而找到最优解。可以想象成一群工人在生产线上进行实际的操作记录下每一步的结果。根据当前的模型权重生成一系n2）主管（Master）模块：理解为指挥中心。负责协调和管理整个训练过程，接收来自Rollout模块的轨迹数据，评估模型的表现，并向TrainerWorkers发送训练数据。主管还负责管理ReplayBn3）训练模块：负责根据Rollout模块提供的数据来训练模型。使用策略模型（PolicyModel）和参考模型（ReferenceModel）来计算梯度更新（gradientupdate），从而优化模型的nPartialRollout创新：在Rollout模块的推理中，不需要每次都从头开始，可以从缓冲区中读取之前的轨迹后继续推理。类似于1）下棋中，每次只需要思考最关键的步骤，而不用思考前面简单的步骤。2）设计方案时，可以复资料来源：Kimik1.5:ScalingReinforcementLearningwithLLMs，中信建投n尽管长链推理模型能够实现强大的性能，但消耗tokens更多。通过将长链推理模型的思维先验转移到短链推理模型中，从而在有限算力下提高性能。kimi1.5提出了几种解决长链到短链（long2short）问题的方法，包括模型合并、最短拒绝采n1）模型合并：通过平均长链推理模型和短链推理模型的权重，合并两个模型，提高令牌效率。2）最短拒绝采样：对同一个问题进行多次采样，选择最短的正确响应进行微调。3）DPO：利用长链推理模型生成的多个响应样本，构建正负样本对进行训练。4）long2shortRL：在标准RL训练后，选择一个性能和效率平衡的模型，应用长度惩罚并减少最大展开长度，进一步优化短链推理模型。nlong2shortRL：在标准的RL后，再加一个长度RL，从而选出所有正确答案中，思考步数最短的，进而优化算力。鼓励在相同在强化学习中，模型会生成多个响应（responses每个响应都有一个长度。为了鼓励模型生成更短的响应，同时惩罚过长的响应，引入了长度奖励机制。这个机制通过计算每个响应的长度奖励，将其添加到原始奖励中，从而影响模型的训练过程。资料来源：Kimik1.5:ScalingReinforcementLearningwithLLMs，中信建投阿里千问发布Qwen2.5系列模型，性能水平顶尖n2024年09月19日，阿里发布Qwen2.5系列，包括0.5B，1.5B，3B，7B，14B，32B以及72B，以及专门针对编程的Qwen2.5-Coder和数学的Qwen2.5-Math模型。Qwen2.5所有系列模型都在18Ttokens的数据集上进行了预训练，相较于Qwen2，Qwen2.5获得了更多的知识（MMLU：85+），并在编程和数学方面有了大幅提升。n用于编程的Qwen2.5-Coder和用于数学的Qwen2.5-Math，相比其前身CodeQwen1.5和Qwen2-Math有了实质性的改进：Qwen2.5-Coder在包含5.5Ttokens编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时，Qwen2.5-Math支持中文和英文，并整合了多种推理方法，包括CoT（ChainofThought）、PoT（ProgramofThought）和TIR（Tool-IntegratedReasoning）。ModelsLayersContext/GenerationLength0.5B24Yes32K/8KApache2.028Yes32K/8KApache2.03B36Yes32K/8K7B2828/4NoApache2.04840/8NoApache2.032B6440/8NoApache2.072B8064/8NoQwenQwen2.5预训练阶段构建了更高质量数据集及专门的上下文训练方式n在预训练方面，Qwen2.5通过多种方式，进行高质量数据集构建，例如更好的数据过滤：引入Qwen2-Instruct模型对数据进行把关，不仅大幅提升了高质量训练数据的留存比例，还能更高效地筛除多语种低质样本。此外还使用Qwen2.5-Math和Qwen2.5-Coder的训练数据、借助Qwen2-72B-Instruct与Qwen2Math-72B-Instruct模型催生高质量合成数据以及启用Qwen2-Instruct模型对不同领域的内容进行分类梳理与均衡调配。Qwen2.5将高质量的预训练数据集从之前的7万亿个token扩展到了18万亿个token。n预训练上下文方面，通过两阶段调节上下文长度，进而达到最优训练效果。Qwen2.5还采用了YARN和双块注意力DCA，实现了序列长度容量四倍的飞跃式增长，使得Qwen2.5-Turbo能够从容处理多达100万个token的序列，而其他模型也具备处理多达131072个token序列的能力。使用Qwen2进行数据过滤，大幅度提高高质量训使用Qwen2进行数据过滤，大幅度提高高质量训练数据留存比合并了来自Qwen2.5-Math和Qwen合并了来自Qwen2.5-Math和Qwen2.5-Coder的训练数据度除Qwen2.5-Turbo之外的全部模型变体，其上下文长度会从4,096延展至32,768。与此同时，借助ABF技术，将RoPE（位置编码旋转）的基频从10,000提升到1,000,000。借助借助Qwen2-72B-Instruct与Qwen2Math-72B-Instruct模型催生高质量合成数据启用Qwen2-启用Qwen2-Instruct模型对不同领域的内容进行分类梳理与均衡调配。针对Qwen2.5-Turbo，训练期间推行渐进式上下文长度扩展策略，分四个阶段逐步推进：先是32,768个token，接着拓展至65,536，继而达到131,072，最终定格在262,144，且RoPE基频高达10,000,000。通过扩大监督微调数据范围以及两阶段强化学习，增强模型处理能力nQwen2.5监督微调通过多种方式，在长序列生成、数学问题解决、编码、指令遵循、结构化数据理解、逻辑推理、跨语言迁移和强大的系统指令等领域进行了微调数据覆盖，构建了一个包含超过100万个SFT示例的数据集，解决了先前模型在以上关键领域显示的局限性。n强化学习阶段，采用两阶段强化学习：离线RL和在线RL。离线RL：主要针对推理、事实性和遵循指令等领域的能力开发。在线RL：在线强化学习阶段利用奖励模型检测输出质量细微差别的能力，包括真实性、有用性、简洁性、相关性、无害性和去偏差。增强方式长序列生成采用反向翻译技术从预训练语料库中生成长文本数据的查询，数学建模和带注释的答案作为指导。指令遵循结构化数据理解开发了一个全面的结构化理解数据集。逻辑推理跨语言迁移采用翻译模型将指令从高资源语言转换为各种低资源语言。强大的系统指令构建了数百个通用系统提示。采用了专用的评论家模型和多智能体协作评分系统。在线强化学习阶段利用奖励模型检测输出质量细微在线强化学习阶段利用奖励模型检测输出质量细微差别的能力，包括真实性、有用性、简洁性、相关性、无害性和去偏差。↓开发对奖励模型评估具有挑战性的能力，例如推理、事实性和遵循指令。通过对训练数据的精心构建和验证，确保离线强化学习信号既可 Qwen2.5-1M和Qwen2.5VL发布，进一步拓展Qwen2.5家族系列n阿里千问发布Qwen2.5-1M，通过逐步拓展上下文训练长度、长度外推和稀疏注意力机制等方式，将开源Qwen模型的上下文扩展到1M长度，在处理长文本任务中都已经实现稳定超越GPT-4o-mini。阿里千问还通过分块预填充、集成长度外推方案、稀疏性优化等优化，将处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。n阿里Qwen开源全新的视觉模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。 Qwen2.5-Max上线，性能超越DeepSeekV3n阿里千问发布大规模MoE模型Qwen2.5-Max，在超过20万亿个token上进行预训练，并使用精选的监督微调(SFT)和从人类反馈中强化学习(RLHF)方法进行了进一步的后训练。通过在包括MMLU-Pro（通过大学级问题测试知识）、LiveCodeBench（评估编码能力）、LiveBench（全面测试一般能力）和Arena-Hard（近似人类偏好）上进行测试，Qwen2.5-Max在大多数基准测试中都表现出了显著的优势，性能全面超越DeepSeekV3。nQwen2.5-max多模态能力方面，在联网搜索、代码、游戏制作方面均有较好表现。 nOpenAIo1模型可能采用PRM过程打分策略和蒙特卡洛搜索实现深度推理。n选择：从根节点开始，算法根据特定策略浏览有希望的子节点，直到到达叶节点为止。n扩展：在叶子节点处，除非它代表了博弈的终结状态，否则会添加一个或多个可行的新子节点，以说明未来可能采取的行动。n模拟或评估：从新添加的节点开始，算法进行随机模拟--通常称为“滚动”--通过任意选择棋步直到博弈结束，从而评估节点的潜力。n反向传播：模拟后，结果（胜、负或和）会传播回根节点，更新每个遍历节点的统计数据（如胜、负），为未来决策提供依据。19资料来源：深度学习自然语言处理，UnderstandingTransformerReasoningCapabilitiesviaGraphAlgorithms，Deepmind，中信建投低算力需求缘起及长期算力观点20nDeepSeekMoE在专家模型的设计上引入了共享专家+路由专家的架构，并采用无辅助损失的负载均衡策略，使得计算资源分配更加高效。DeepSeekMoE由256个路由专家组成，每个token在路由过程中会选择8个专家，其中共享专家始终被选中，其余7个专家通过门控机制选择。DeepSeek-V3共包含671B个参数，其中每个token激活37B个参数，训练数据量为14.8Ttoken。同时额外引入了一种无辅助损失的负载平衡策略以减轻因确保负载平衡而导致的性能下降。nDeepseekV2模型参数量达到236B，同时由于模型小专家混合的特性，模型每个token在推理时的激活参数为21B，可以实现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面，相比V1的稠密模型，V2模型节约了42.5%的训练成本，减少了推理时93.3%的KV-cache显存占用，将生成的吞吐量也提升到了原来的5.76倍。 21资料来源：DeepSeek-V3TechnicalReport，DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel，中信建投nDeepseek提出了一种用FP8训练的混合精度框架。在不同计算步骤中使用FP8、BF16、FP32三种不同的数值格式，以在计算效率和数值稳定性之间取得平衡。大多数计算密集型操作以FP8进行，与线性算子相关的所有三个核心计算内核操作，即Fprop（前向传播）、Dgrad（激活反向传播）和Wgrad（权重反向传播）均以FP8执行，而少数关键操作则策略性地保持其原始数据格式例如嵌入模块、输出头、MoE门控模块、归一化算子和注意力算子，以平衡训练效率和数值稳定性。n为了实现混合精度FP8训练，deepseek引入了多种策略来提升低精度训练的准确性，其中包括细粒度量化、提高累加精度、尾数优先于指数、在线量化等策略。细粒度量化的办法帮助FP8精度实现训练，传统的方法基于整个张量进行缩放，而细粒度量化则采用更小的分组单位，使得量化过程能够更好地适应离群值，从而提高训练的稳定性和精度。原始矩阵传统方法量化结果原始矩阵细粒度量化结果2*2block采用不同的权重细粒度量化结果资料来源：DeepSeek-V3TechnicalReport，中信建投低成本缘由三：流水线并行策略提升训练效率nDeepSeek-V3采用了16路管道并行（PP）、跨越8个节点的64路专家并行（EP）以及ZeRO-1数据并行（DP）。nDualPipe是一种新型的流水线并行方法，旨在减少计算和通信之间的等待时间，提高训练效率。传统流水线并行方法的计算和通信比率通常接近1:1，这意味着一半的时间可能被通信占据，导致GPU资源利用率低下。DualPipe通过计算-通信重叠来隐藏通信开销，使得模型在大规模分布式环境下的训练更加高效。在DualPipe中，前向传播的计算任务和反向传播的计算任务被重新排序，使它们能够互相重叠。具体来说，DualPipe将前向传播和反向传播的不同计算阶段重新排列，并手动调整GPU计算单元在通信和计算之间的分配比例。 Dualpipe策略传统策略资料来源：DeepSeek-V3TechnicalReport，中信建投nDeepseek高效配置专家分发与跨节点通信，实现最优效率。跨节点的GPU通过InfiniBand（IB）完全互连，节点内的通信则通过NVLink处理。NVLink提供160GB/s的带宽，大约是IB（50GB/s）的3.2倍。为了有效利用IB和NVLink的不同带宽，将每个token分发的节点数限制为最多4个，从而减少IB流量。具体而言每个token可以高效地选择每个节点平均3.2个专家，而不会产生NVLink的额外开销。nDeepseek采用了定制的PTX（并行线程执行）指令，并自动调整通信块大小，这显著减少了L2缓存的使用和对其他SM的干扰。在模型训练的分发和合并过程中，通过warp专业化技术，并将20个SM划分为10个通信通道，实现了最佳的计算和通信资源配比。专家一专家四专家一专家四专家二专家五专家二专家五专家三专家六专家三专家六资料来源：中信建投nDeepSeek-V3通过多token预测（MTP）技术不仅预测下一个token，还预测接下来的2个token，第二个token预测的接受率在不同生成主题中介于85%到90%之间。n一方面，多token预测目标增加了训练信号的密度，可能提高数据效率。另一方面，多token预测可能使模型能够预先规划其表示，以更好地预测未来token。 25资料来源：DeepSeek-V3TechnicalReport，中信建投nDeepSeekR1模型整体效果优异，同时训练和推理算力需求较低，主要原因是DeepSeekR1实现了算法、框架和硬件的优化协同，在诸多维度上进行了大量优化，算法层面引入专家混合模型、多头隐式注意力、多token预测，框架层面实现FP8混合精度训练，硬件层面采用优化的流水线并行策略，同时高效配置专家分发与跨节点通信，实现最优效率配置。n当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段，算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧，通过大量协同优化，DeepSeekR1在特定发展阶段通过较少算力实现高性能模型表现，算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scalinglaw正逐步迈向更广阔的空间，在深度推理的阶段，模型的未来算力需求依然会呈现爆发式上涨，充足的算力需求对于人工智能模型的性能进步依然至关重要。资料来源：英伟达，OpenAI，中信建投资料来源：英伟达，OpenAI，中信建投相关问答案例27模型案例对比——开关控制灯泡问题n开关控制灯泡问题：两个房子互为隔壁，一个房子中的三个开关控制另一个房子的三盏灯。你只能各进入这二个房子一次，怎么来判断哪个开关控制哪盖灯?•Kimi1.5•DeepseekR1•Qwen2.5先在第一个房子里，依次打1.操作开关：首先，进入装有三个开关的房这是一个经典的灯泡—开关散开开关1，保持几分钟后关-进入开关房，打开开子。假设这三个开关分别为A、热逻辑问题，常见的解决方法掉；接着打开开关2，保持关A并保持足够时间B和C。然后，打开开关A和B，是利用灯泡“加热和”的时间几分钟后关掉；最后打开开并保持开关C关闭。在等待期间，差相互区分。具体步骤关3，保持几分钟后关掉。不要立即进入另一个房子，确1.先打开开关A一段时间，这样，每个开关都会在灯上-关闭开关A，立即打保给灯泡足够的时间变热。时2.到时间后，关闭开关A，并留下不同的状态。然后，我开开关B，然后离开开间到了之后，进入装有灯泡的且打开开关B，保持开关C关闭进入第二个房子，检查每盏房子。通过这种方法，你可以灯的状态。如果一盏灯是亮2.观察灯房：准确地确定每个开关对应的是3.做完上述操作后，离开“切的，那它就是由最后一个被-亮的灯：对应开关B哪盏灯。具体来说，亮着且热换所在的房间”打开的开关控制的；如果一（当前开启的开关）。的灯对应的是第一个被单独测试的开关（本例中为了说明设正在点亮的灯泡就是由开关B那它就是由之前被打开的开为B，但实际上你需要根据实际控制的；已经熄灭但仍然热的关控制的；如果一盏灯是暗打开后关闭，余温尚情况判断），热但熄灭的灯对灯泡就是由开关A控制的；既的且摸起来是凉的，那它就应于中间被关闭的开关（A不亮也不热的灯泡就是由开关是由第一个被打开的开关控而冷且熄灭的灯则是从未被打C控制。这样，就在只进入灯未操作的开关C。资料来源：DeepSeek，通义千问，Kimi，OpenAI，中信建投模型案例对比——囚犯抓豆子博弈n囚犯抓豆子博弈：5个“囚犯”分别按1～5号在装有100颗绿豆的麻袋里抓绿豆，规定每人至少抓一颗，而抓的最多和最少的人将被处死，若有重复的情况，则也算最大或最小，一并处死。他们之间不能交流，但在抓的时候，可以摸出剩下的豆子数。原则：100颗不必都分完；他们的原则是优先保命，再去多杀人；他们都足够聪明。最后，谁能活下来？但在没有沟通的情况下，最合理但在没有沟通的情况下，最合理和安全的做法可能是：1号：选择一个保守的数量，如20颗，因为2号：看到1号的选择后，选择比20稍少的数量，例如19颗。3号：看到前两者的行动后，可能会选选择17颗。5号：最后，他将看到前面的所有选择，并选择一个保证他不成为最大或最小的数目。在这种情况下，每个人的策略都将依赖于之前人的选择，而最终结果将是每个人都选择了不同的数量，但差距不大，因此理论上，所以，我的结论是，最终可能会有几个人活下来，具体是谁取决于他们选择的豆子数，但因为每个人都很聪明，所以他们都会尽量避免成为最大或最小的那个，从而保命。最终，可能有几个人活在“先保命、再多杀人的共同理性与不能直接沟通的条件下，这个问1号、4号、5号被处死。最常见、最稳妥的结论就是：1号和5号必死，4号也大概率跟随死，只有2号和3号才能找到一个安全且让别人去死”括第2号，具体分析如下：逆向推理：从最后一位（5号）开始，每位囚犯会），号抓20颗（剩余593号抓19颗（剩），），），），3、4号通过选择20、19、18颗，避端值。5号因剩余豆子数限制，无法逃脱最小值的命运。1号主动选择略高于资料来源：DeepSeek，通义千问，Kimi，OpenAI，中信建投模型案例对比——逻辑谜题n逻辑谜题：两个同学被老师出了一个题目，在限定时间，谁能够成功猜到是哪个日期会有奖励。首先老师给出了十个日期：5月16、5月17、5月19、6月15、6月18、7月14、7月16、8月14、8月15、8月17，然后告诉了A月份，告诉了B几号。老师知道他们不会将知道的告诉对方。限定时间准备到了的时候，A大笑说：“反正我是猜不出来，因为我很确定你也猜不出来”。突然b站起来开了门跑了出去，A才恍然大悟“我也猜出来了”，但是已经晚了。请问日期是多少?•GPT-o1这是一个著名的“猜测日期•GPT-o1这是一个著名的“猜测日期”类逻辑题，常被称为“谢丽尔的生日”变体。给出了10个可能的日期：>5月16日、5月17日、5月19日>6月15日、6月18日>7月14日、7月16日>8月14日、8月15日、8月17日老师告“我肯定猜不出来，而且我也确定你（B）猜不出来。”2.B听完后说：“现在我知道是哪一天了。”3.A又说：“我现答案是7月16日。•DeepseekR1（19、18）唯一，若B知道这些日数，可直接确定月份。因此，A的月份不可能是5月或6月。A知道月份是7月或8月，但无法确定具体日期。B根据A的陈述，知A的月份为7月或8月。A的最终确认：若B猜出的是7月16日：A知道月份是7月，剩余日期为14和16。因B已确定，故排猜出的是8月15或17日，A无法唯一确定（因8月仍有多个可能）。因此，唯一符合逻辑的是7月16日。•qwen2.5A说的这句话意味着A知道的月份中包含的所有日子都不是唯一的（即在其他月份也出现否则如果A知道的月份中的某天是独一无二的（比如只有某个月有这个日期），那么A不能确定地说B不知道答案。由于B能够确定具体日期，所以B知道的日期只能是16日或17日。而A听到B的回答后也明白了日期，说明A知道的月份里只剩下一种可能性。如果我们看剩下的日期，5月有两个可能（16日和17日），而7月只有一个16日。因此，A能明确知•Kimi1.5A说他猜不出来，而且确定B也猜不出来。这意味着A知道的月份里，所有的日期都不是唯一的。A知道的月份只能是7月或8月。B听到A的话后，突然逃了出去。这说明B根据A的话，猜出了日期。所以，B知道的日期只能是16、15或17中的一个。因为16只有7月有，15和17只有8月有。B听到A的话后，突然逃了出去，说明B确定了具体是哪一天。因此，日期应该是7月16、8月15或8月17中的一个。最终答案是：7月16、8月15或8月17中的一个。资料来源：DeepSeek，通义千问，Kimi，OpenAI，中信建投模型案例对比——盲人分袜n盲人分袜：有两位盲人，他们都各自买了两对黑袜和两对白袜，八对袜子的布质、大小完全相同，而每对袜子都有一张商标纸连着。两位盲人不小心将八对袜子混在一起。他们每人怎样才能分别取回两对黑袜和两对白袜呢？给出一种“给出一种“经典拆对-重组”的方法来解决这个“不可能”的难题。其要点是：虽然两个盲人都看不见颜色，但每个“对”袜子上都带有一份可以摸到的商标纸上，让他们在操作时始终知道“哪只袜子到底和哪只图案对应”。通过把几对袜子拆开、打乱、重新安装，并按一定规则交换，最后便可保证每个人都拿回“2对黑袜+2”对白袜”（当然，不一定是自己理解的那几对，但数量和颜色都对）被拆散。这样，每个组都将包含4对袜子。因为总共有8对袜子，分为两组后，每一组自然就会有4对两位盲人各自取四对袜子（共八对将每对袜子拆开成单只。每人获得八只袜子（四黑四白），随机重新配对后，必然形成两对黑袜和两对白答案：每位盲人各取四对袜子，拆开后重新随机配对，每人即可得到两对黑袜和两资料来源：DeepSeek，通义千问，Kimi，OpenAI，中信建投模型案例对比——数字推理n数字推理：2，1，32，249。幂次数列，1的1次方+1，2的2次方-3，3的3次方+5，4的4次方-7，依次类推，下位数字为5的5次方+9，即3134。•DeepseekR•DeepseekR1递推规律：n=1:2=2^1n=2:1=1^1n=3:32=2^5n=4:249=3^5+6n=5:4^5+12=1024+12=1036答案：括号内应填1036。•qwen2.5直接从这些数字中找到一个明显的数学规律可能不容易，因此我们可以尝试不同的方法来解析这个序列。一种常见的策略是考虑数字是否可以通过某种运算或者公式从它们的位置（即在序列中的索引）计算得出。……但在实际情况下，如果这是一个逻辑推理题，最可能的情况是设计者期望我们发现一个特定但不我们无法提供一个确切的答案。如果你有更多的上下文或者是这个序列属于某一类特殊数列，请提供更多信息以便于更准确地解答。•GPT-o1•第1项：11+1=21^1+1=211+1=2•第2项：22-3=4-3=12^2-3=4-3=122-3=4-3=1•第3项：33+5=二十七+5=三十二3^3+5=27+5=3233+5=二十七+5=三十二•第4项：44-7=256-7=2494^4-7=256-7=24944-7=256-7=249可以看出，“奇数项”为nn+（2n-1）n^n+(2n-1)nn+（2n-1“偶nn-（2n-1）n^n-（2n-1）nn-（2n-1）因此。55+（2×5-1）t55+×5-1）=3125+9=3134。所以中间的数字是3134。•Kimi1.5计算差值->计算第二次差值->计算第三次差值->假设多项式->建立方程组->从方程1中减去方程2->从方程2中减去方程3->从方程3中减去方程4->从方程A中减去方程B->从方程B中减去方程C->从方程D中减去方程E->将a代入方程D->将a和b代入方程A->将a、b和c代入方程1->多项式为:f(5)=806资料来源：DeepSeek，通义千问，Kimi，OpenAI，中信建投风险提示33风险提示大模型技术发展不及预期：大模型属于先进AI算法，若后续大模型算法更新迭代效果不及预期，则会影响大模型演进及拓展，进而会影响其商业化落地等；商业化落地不及预期：大模型的商业落地模式在业界中普遍处于探索阶段，用户对于大模型的接受程度和商业化变现能力可能不及预期；算力基础设施支持不及预期：美国制裁中国高科技企业，对中国形成芯片、算力的封锁，大语言模型训练过程中需要大量算力资源，需要关注中美关系带来的算力的压力；政策监管力度不及预期：大语言模型带来新的网络生态

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机-DeepSeek R1深度解析及算力影响几何

文档简介

温馨提示

最新文档

评论

相关文档