![2025大语言模型科普报告_第1页](http://file4.renrendoc.com/view11/M02/30/1C/wKhkGWeuHcqAFzdTAAA3Zc3dCs8286.jpg)
![2025大语言模型科普报告_第2页](http://file4.renrendoc.com/view11/M02/30/1C/wKhkGWeuHcqAFzdTAAA3Zc3dCs82862.jpg)
![2025大语言模型科普报告_第3页](http://file4.renrendoc.com/view11/M02/30/1C/wKhkGWeuHcqAFzdTAAA3Zc3dCs82863.jpg)
![2025大语言模型科普报告_第4页](http://file4.renrendoc.com/view11/M02/30/1C/wKhkGWeuHcqAFzdTAAA3Zc3dCs82864.jpg)
![2025大语言模型科普报告_第5页](http://file4.renrendoc.com/view11/M02/30/1C/wKhkGWeuHcqAFzdTAAA3Zc3dCs82865.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
12、对于常⽤的基础的概念(不低于80个)benchmark参考最新的deepseekR1技术报告中涉及的,以及OpenAIo1模型、o3mini模型中出现的benchmark,如GPQA4OpenAIo1、OpenAIo3-mini、Gemini2.0Pro、Claude3.5sonnet、Llama3、DeepSeekR1、KimiK1.5等) ,优化、训练⽅法)还是更偏向科普性(⽤benchmark详尽度:是否需要具体的数值⽐较(如模型在不同好的,我将撰写⼀份详细的⼤语⾔模型科普报告,涵盖其发展历史、基础概念、benchmark评价指\h⼤语⾔模型(LLM,LargeLanguageModel)的兴起可以追溯到早期的语⾔模型研究。最初的语⾔模型使⽤统计⽅法,如1990年代IBM的统计翻译模型和n-gram模型等\h\h。随着神经⽹络的发展,语⾔模型逐渐采⽤神经⽹络架构。2017年⾕歌在NeurIPS⼤会上提出了⾰命性的Transformer(Transformerarchitecture) 利⽤(Self-Attention)\h\h\h\h2019年的GPT-2因其⽣成⽂本的能⼒过于逼真,⼀度被OpenAI认为可能被滥⽤⽽暂缓公开全部模 \h\h\h⽤⽣成能⼒的⼤模 \h\h \h \h\h \h。各⼤公司和研究组织也相继发布更强⼤的模型(详⻅后⽂⼤语⾔模型通过(NeuralNetwork)LLMTransformerTransformer(Attention制让模型在预训练时学会词语之间的关联。LLM的训练通常分两步:⾸先进⾏(Pre-training),即在海量⽂本语料上进⾏⾃监督学习——模型通过\h \hGPT(MaskedLM)\h \h型,使其适应实际应⽤。这包括传统的有监督微调,以及近年来常⽤的**指令微调(Instructiontuning)⼈类反馈强化学习(Backpropagation)梯度下降(GradientDescent)**优化海量参数,使预测结果与训练⽬标(⼀个词或被遮蔽词)80个相关基础术语,每个术语附有中⽂解释和\h\h是现代⼤模型的核⼼架 ⽤于理解类任务(如BERT)模型⽣成的前⽂来预测下⼀个token,GPT⽅法。BERT\h \h明确的⽬标信号。微调阶段若有⼈⼯标注的数据(如问答对、翻译对等(RLHF,ReinforcementLearningfromHumanFeedback):⼀种微调技庞⼤,来⾃⽹络抓取的⽂本(⽹⻚、书籍、维基百科等本、CommonCrawl语料等被⽤于预训练。下游任务也有专的数据集⽤于微调和评估(如LLM型内部隐式进⾏的,也可以通过提⽰让模型显式输出。CoTLLM理解新任务并产⽣良好结果的能⼒。GPT-3展⽰了惊⼈的少样本学习能⼒,提⽰中的⽰例使模话或⽂本⻓度。上下⽂窗⼝通常⽤token数量衡量,如GPT-3为2048tokens,GPT-4可达32k,好的提⽰设计(PromptEngineering)可以引导模型产⽣所需格式和内容的输出。(oolUse):指模型调⽤外部⼯具或API数学运算、调⽤搜索引擎获取实时信息等。⾼级LLM可以被设计成与插件集成,从⽽查询数据库、执⾏代码等。型的⽅法。⼤模型作为“教师”,⼩模型作为“学⽣”\h \h\h专家擅⻓不同类型的数 。输⼊通过⼀个控⽹络路由到不同专家,只激活⼀部分专\h\h \h\h\h 提升了模型复杂推理和规划的能⼒。OpenAI的o3模型采⽤了模拟推理机制,实现私有的“链\h\h思考”过程,从⽽在解决复杂问题时表现更 \h\h ,Claude3.5拥有 \h\h\h \hCodex、CodeLlama等)能将问题描述转换成可执⾏的代码。HumanEval等基准专⽤于评\h\h\h典型如Meta的Llama系列(在许可证下开放模型权重 、Bloom等。开源模型\h ⽐较不同模型的能⼒(详⻅下节。模型开发者常以各种Benchmark (AGI,ArtificialGeneralIntelligence):⼀种理论上的⼈⼯智能,能胜任⼈类能 预训练可看作隐式的多任务学习(学习了语⾔建模、知识记忆等多⽅⾯任务 BERT(BidirectionalEncoderRepresentationsfromTransformers):⾕歌在2018年发布 ((Benchmarks)。这些Benchmark是预先构建的标准测 类⽔平,标志着模型对基础NLP\h\h\hMMU(MassiveMultitaskLanguageUnderstanding):综合性知识测评基准,涵盖57个学科的考试题,难度相当于⼤学本科⽔平。⽤于测试模型的⼴泛知识和理解能⼒ 。例GP-4o在MMU上得分88.7,⾼于GP-4的86.5 。⼀些新模型(如\h\h\h在该基准上取得领先,体现其多领域知识掌握程 \h含更⾼难度的问题,⽤于进⼀步区分顶尖模型的知识极 \h为。BIG-bench旨在探测模型的综合AI包含中⼩学科学考试题,考查常识推理;另⼀种是FrançoisChollet提出的**ARC-**AGICorpus\h\h因为题⽬经过对抗过滤,“表⾯模式”难以奏效,需依赖常识和推理。LLM在HellaSwag\hTruthfulQA:由817道开放问答题组成,专测试模型回答是否且不受训练中常⻅谣⾔误 \h\h多步推理和精确计算,是模型的⼀⼤挑战。最新模型(如DeepSeek-R1和Kimik1.5)\h\h \hKimik1.5在MATH-500题集上达到90%以上的⾼准确 。数学基准能够检验模型的:如HumanEval和Codeforces。HumanEval\h满⾜特定功能要求的Python代码,其通过测试⽤例的百分⽐作为得分。Claude3.5等模型在 \h\h \h\h \h\h\h\h \h ,\h\h\h \h\h。⽬前OpenAI的o1、Anthropic的Claude3.5等顶级模型在Diamond集上的正确 \h上述Benchmarks各有侧重:有的考查语⾔理解与常识(GLUE/HELLASwag,(MMU、推理深度(GPA、数学编程能⼒(MTH/HumanEval)或真实性(ruthfulA者通过在这些Benchmark上的测试,了解模型⻓短板,推动模型朝着更全⾯智能的⽅向改进。需要注意的是,Benchmark分数虽可⽐较模型优劣,但在此我们不聚焦具体分数⾼低,⽽是介绍这些评测的内容和意义。vs.⼀⽅⾯,有许多,其架构、训练数据甚⾄权重参数都公开透户可以下载运⾏、⾃⾏微调甚⾄修改。这促进了研究⺠主化,例如Meta将Llama3免费开放给开发者使⽤,⼤⼤降低了使⽤槛,被视为“⼲扰”竞争对⼿收费模式、推动AI普惠\h \h\h。开源模型的设计思路通常追求⾼效和可复现,⽐如Llama3使⽤了分层的预训练⽅案,并提供多种参数规模(从数⼗亿到数百亿)供不同需求使\h \h\h的训练策略,以追求性能最⼤化。开源与闭源模型在架构上的另⼀个区别是:开源模型除了开源/样的技能,例如⾕歌的Palm和后续的Gemini据称集成了强化学习、视觉-语⾔融合等多种技术,⼒图打造“通才”模型。也有模型专注于的提升,例如OpenAI的o系列模型(o1、o3)强调增强模型的逻辑思考过程,采⽤了(SimulatedReasoning)\h“”\h\hGoogleGemini2.0“Flash\h\h\h混合(MoE)中出现的如深度推理,有的⾯向特定应⽤(如超⻓⽂本、多模态⼤语⾔模型主要采⽤进⾏预训练,具体可以是⾃回归或填空式的训练⽬”⽆论哪种预训练⽅式,本质都是利⽤海量未标注⽂本,让模型学习语⾔模式和知识。这属于范式,使模型具备通⽤语⾔能⼒。预训练完成后,还会进⾏和。监督微调近年来更强调对模型进⾏,即使⽤⼈类编写的⼤量问答对话、指令执⾏⽰例来微调模型在此基础上,领先的对话模型还采⽤RLHF进⼀步打磨。具体做法是:先由\h\h \h\h\h\h \h\h 再加上群体策略优化(GRPO)算法,DeepSeek-R1成功实现了主要依赖RL来增强推理能⼒的训练 。总结来说,⼤模型训练通常是“⾃监督预训练+有监督/指令微调\h\h \h\h由于LLM参数极其庞⼤,训练和微调的计算成本惊⼈,因此诞⽣了许多\h\h。这些⼩矩阵的秩很低,因此参数量和所需算⼒远⼩于全量微调。\h\h⽤很少的计算资源,在保持预训练模型知识的同时快速微调出新能 。许多开源模(如Llama、GPT-J等)都⽀持LoRA微调,⼤⼤降低了社区复⽤⼤模型的槛。另⼀类重要技术\h\h\h\h⽹络的形 。每次仅激活与输⼊最相关的少数专家,⽽⾮让所有参数都参与计 \h, \h\hSparseMixtureofExpert就是MoE成功应⽤的例⼦。⼀些开源模型(如DeepSeek-V3)也采⽤了\h。除了微调和架构,本⾝的改进也不可忽视。为训练稳定,⼤模型常使⽤⾃适应优化⼤模型在推理阶段的加速同样⾄关重要,直接影响实际应⽤的速度和成本。常⽤的加速⼿段之⼀是。除了上述量化和蒸馏,另⼀种是(Pruning),即删除对最终结型,⽐如⼀些研究对GPT类模型剪枝30%参数⽽性能基本不变。也是重要⽅向,即通过底层实现改进提⾼计算效率。例如⾃注意⼒计算可⽤更⾼效的算法(如FlashAttention)实现,以减少显存访问和计算冗余,从⽽加速数倍。⼜如针对Transformer结构的深度,提出的(Recompute)GPU—最后,随着模型规模增⻓,的作⽤愈发突出。除了GPU,GoogleTPU、亚⻢逊速单元,专加速MoE模型的专家路由计算。再如⼤显存硬件允许将模型完全放⼊内存,避免频繁的数据交换延迟。综合运⽤这些技术,当前已经可以在消费级硬件上以量化4-bit2024近年涌现了许多新的⼤语⾔模型,下⾯介绍⼏款在2024\h \h\h\h \hTurbo有明显优势\hEN.WIKIPEDIA.ORG。GPT-4o⽀持50\h\h\h\h \h\h\h⾯树⽴了⾏业新标 。主要应⽤场景包括对话问答、多语⾔客服、语⾳助⼿和\h\h\h。在Benchmark上,OpenAI的o1与同时期其他领先模型(如Claude3.5、 \h\h\h\h\h\h\h\h\h (SimulatedReasoning)**机制,使模型在回答前可以进⾏内部的“思考和规划” 能⼒,因⽽在许多推理密集型Benchmark上超越了规模更⼤的上⼀代模型。例如在AIME2024 \h\h\h\h\h\h\h 景,例如实时客服机器⼈、教育辅导系统等。它也通过ChatGPT界⾯和OpenAIAPI提供服务,\h\hGemini2.0Pro:Google在继PaLM2和初代Gemini之后的新⼀代通⽤⼤模型。据报道,模型。Gemini2.0Pro是多模态模型,融合了语⾔、视觉和⼯具调⽤能⼒。它采⽤了Google深厚的搜索和知识图谱积累,擅⻓实时信息获取和知识问答。据Helicone透露,Gemini2.0引⼊了类似OpenAI模拟推理的“FlashThinking”技术,以增强模型的逐步推理和计划能⼒\h。这意味着Gemini2.0Pro率。技术创新上,Gemini2.0Pro据传在架构上结合了Transformer⽤⼤规模多语⾔、多模态数据进⾏训练,使其具有能⼒和解成⼦任务并逐⼀完成。凭借GoogleTPUv5集群的强⼤算⼒⽀持,Gemini2.0的训练规模空级版Bard聊天助⼿、GoogleDocs中的AI助⼿等,以及云端VertexAI提供的模型服务。Gemini2.0Pro被视为Google冲击AI领军地位的⼒作,在多模态推理、多步骤问题解决上代表\h\h\h。Claude3.5Sonnet显著提⾼了智能⽔平,被Anthropic称为“⾏业智能的新标杆\h\h。相较之前的Claude3\h\h(GPQA 。\h (约相当于15万字,可\h\h\h时,它的响应速度是上⼀代Claude3Opus的两倍 \h\h\h⾃然语⾔描述⾃主编写、调试和执⾏代 前,不仅能看图识别,还能解读复杂图表,甚⾄从模糊照⽚中准确提取⽂\h\h。Claude3.5Sonnet提供免费⽹⻚版体验,并可通过API调⽤,定价与中等规模模型相当,但提供了接近顶尖模型的能 \h\h\h综合分析的领域(如物流、⾦融票据处理 。Claude3.5Sonnet以⾼效率、⾼\h下⽂和多模态著称,是2024\h4⽉⾸先发布8B和70B\h\h\h。与前代相⽐,Llama3在训练数据和架构上都做了改进,⽀持更多语⾔和编码,适\h\h——这被认为是迄今最⼤规模的开源模型之⼀,展⽰了Meta在开源领域的野 \hLlama3\h\h 。这使得Llama3直接服务数亿⽤户,成为真正⼤规模落地的开源模型。技术创新⽅⾯,Llama3在预训练阶段引⼊了更多⾼质量数据,尤其是代码和\hFlashAttention、⾼效并⾏等,使得405B模型的训练成为可能。Llama3延续了开源可商⽤的许可证策略,开发者可以在其上微调开发⾃有应⽤,这也催⽣了⼤量Llama3的变体和细化版本⼈、⽂本⽣成⼯具、多语⾔翻译和垂直领域知识问答等。作为开源领域的领头⽺,Llama3证明\h⼈注⽬之处在于其和。据技术报告,R1在许多Benchmark上达到或\h\h \h\h\h\h \h\h\h \h \h\h\h\h \h\h\h\h。DeepSeek-R1的主要应⽤场景包括学术研究(\h答、⾼级编程助⼿(在代码挑战上表现优异、以及需要严谨逐步推理的业务场景(\h \h\h\h \h
。Kimik1.5是⼀款,免费向公众提供使⽤,并提供⽹⻚版聊\h 。它有⼏个显著特点:⾸先是——Kimik1.5⽀持128Ktokens的上下⽂窗⼝ ,能⼀次处理海
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级读书日活动方案6篇
- 2024-2025学年四川省江油市太白中学高一上学期12月月考历史试卷
- 2025年工程项目策划安全生产合作协议书
- 2025年自动抄表系统项目立项申请报告模范
- 2025年工程机械部件项目立项申请报告模范
- 2025年众筹平台项目融资合同
- 2025年养殖园区合作经营合作协议书
- 2025年农村邮政服务合同样本
- 2025年不锈钢产品质量保证合同
- 2025年麦田房产策划交易保证金协议书
- 电器整机新产品设计DFM检查表范例
- 桩基础工程文件归档内容及顺序表
- 第四单元细胞的物质输入和输出(单元教学设计)高一生物(人教版2019必修1)
- 《公路路基路面现场测试规程》(3450-2019)
- 不同产地半夏总生物碱含量测定
- 2023年新疆中考数学试卷真题及答案
- 生物必修2教学进度表
- 对北京古建筑天坛的调查报告
- 2023国民阅读时间报告
- 四川省成都市武侯区2022-2023学年七年级下学期期末英语试卷(含答案)
- GB/T 42595-2023承压设备修理基本要求
评论
0/150
提交评论