




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学DS系列专题主讲人:朱强浙江大学计算机科学与技术学院人工智能省部共建协同创新中心(浙江大学)/zhuqDeepSeek技术溯源及前沿探索1Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体2Language
Modeling对于任意的词序列,计算出这个序列是一句话的概率我们每天都和语言模型打交道:I
saw
a
catI
saw
a
cat
on
the
chairI
saw
a
cat
running
after
adogI
saw
a
cat
in
my
dreamI
saw
a
cacar语言模型:终极目标3Sheismymom1
0
0
00
1
0
00
0
1
00
0
0
1One-hot
Encoding只有一个1,其余均为0One-hot
Encoding有什么缺点吗?4编码:让计算机理解人类语言语言模型:基本任务…游泳
飞翔0.99
0.99
0.05
0.10.99
0.05
0.93
0.09…0.02
0.01
0.99
0.98…0.98
0.02
0.940.3…鲸鱼海豚鹦鹉企鹅Word
Embedding用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义20维的向量用one-hot和word
embedding的方法分别可以表示多少单词?编码:让计算机理解人类语言5Word
Embedding结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料(1)
(2)
(3)
(4)A
bottle
of
tezgüino
is
on
the
table.Everyone
likes
tezgüino.Tezgüino
makes
you
drunk.We
make
tezgüino
out
of
corn.A
bottleof
is
on
the
table.Everyone
likes
.
makes
you
drunk.We
make
out
of
corn.1
1
1
11
0
0
00
1
0
11
1
1
0tezgüinomotor
oiltortillaswine两行内容十分相近两个单词含义相近编码:让计算机理解人类语言6基于统计的N-gram
(
1970
after)语言模型:技术演化Before:P(小)·
P(猫|小)·
P(抓|小猫)·
P(老|小猫抓)·
P(鼠|小猫抓老)gram:P(小)·
P(猫|小)·
P(抓|猫)·
P(老|抓)·
P(鼠|老)gram:P(小)·
P(猫|小)·
P(抓|小猫)·
P(老|猫抓)·
P(鼠|抓老)基于神经网络的LSTM/GRU(2000
after)Transformer
(2017
after)7常见的深度学习模型框架,可用于解决Seq2Seq问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)EncoderDecoder我很聪明!I
am
pretty
smart!隐空间RepresentationEncoder-Decoder8Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体910Transformer:理论架构创新自注意力机制:支持并行计算/全局上下文的理解能力多头注意力:从多个角度捕捉复杂的语义关系前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性大型语言模型简史2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformerGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1/cf2SudS8x8F0v/article/details/145695146OpenAI-o3DecoderAttention
Is
All
You
NeedEncoderNIPS
2017,引用量15万+引入全新注意力机制,改变了深度学习模型的处理方式11Transformer:大模型的技术基座Transformer:(自)注意力机制在理解语言任务时,Attention机制本质上是捕捉单词间的关系She
is
eating
a
green
apple.中国南北
饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花123
The
animal
didn't
cross
the
street
because
it
was
too
tired/wide1213Transformer:(自)注意力机制ImageSketchGradient在理解图像任务时,Attention机制本质上是一种图像特征抽取14Transformer:训练机制场景:你在图书馆想找一本关于“机器学习基础”的书Query:描述要找的书(精准的需求描述)Key:书的索引编号(高效的书籍定位)Value:内容的抽取(由目标任务驱动)https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism大型语言模型简史预训练时代:大力出奇迹(“暴力美学”)BERT:Bidirectional
Encoder
Representations
TransformersGPT:
Generative
Pertained
Transformer自监督算法:MLM/NTP/MAE解决海量数据标注问题2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o315BERTOct2018RepresentatioGPTJun2018Generation16The
LLM
Era
–
Paradigm
Shift
in
MachineLearningBERT
–
2018DistilBERT
–2019RoBERTa
–2019ALBERT
–
2019ELECTRA
–2020ReDperBeEseRnTtat–io20n20…GPT
–
2018GPT-2
–
2019GPT-3
–
2020GPT-Neo
–
2021GPT-3.5
(ChatGPT)
–2022LLaMA
–
2023GPT-4
–
2023…Generation17T5
–
2019BART
–
2019mT5
–
2021…The
LLM
Era
–
Paradigm
Shift
in
MachineLearning自监督学习(语言)Masked
Langauge
Modeling(MLM)
模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’原话:
一辆
列车
缓慢 行驶
在
崎岖
的
山路上移除单词:
一辆
列车
行驶
在
崎岖
的
山路上预测填空:
一辆
列车
缓慢 行驶
在
崎岖
的
山路上1819自监督学习(图像)Masked
AutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。遮盖图像重建图像/pdf/2111.06377数据是燃料、模型是引擎、算力是加速器数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。MCP神经元PerceptronDNN神经网络早期前向神经网络seq2seq序列学习循环神经网络RNNLSTMWord2vec词向量单词之间关联关系TransformerSelf-supervisedPromptFine-tune语言大模型
LLM人类反馈强化学习(InstructGPT)CodeX(CoT,120亿参数)引入Self-attentionChatGPT训练transformer
的通用之力20大模型
Large
Model大语言模型(LLM)Large
Language
ModelBERT系列GPT系列
3.5/4GPT-4oDeepseek-v3科学计算模型
Science
Model多模态大模型(LMM)Large
Multimodal
ModelDDPMSAM交互式DemoSoraDALLE·3
inChatGPTAlpha系列AlphaStar魔兽争霸气象大模型药物分子预测PanguLMMidjourneyGoogle
Bard文心一言AlphaGo围棋AlphaFold蛋白质预测GPT-o1/o3Deepseek-R1机理技术产品21大模型脉络22群雄(中美)争霸OpenAI最新15页报告:DeepSeek缩小中美AI差距A
Survey
on
Large
LanguageModels
with
some
Insights
on
their
Capabilities
andLimitations23闭源vs开源国际企业微软投资OpenAI的GPT-4.0系列闭源自研开源小模型Phi-3
Mini开源亚马逊自研Titan系列闭源投资Anthropic的Claude
3.5系列闭源谷歌Gemini系列闭源Gemma系列开源METALlama3系列开源Mistral
AIMistral-Large闭源Mistral-Medium开源中国企业阿里通义千问2.5系列基础模型、行业模型开源Qwen
0.5b-110b系列开源模型开源华为盘古系列闭源腾讯混元基础模型、行业模型闭源混元开源模型开源百度文心一言4.0模型闭源DeepSeek以一己之力改变了开源和闭源的力量对比:从6~12个月的代差缩短到1~3个月2412层,每层12个注意头GPT-2做了以下改进:增加到4
8层,使用1600维向量进行词嵌入;将层归一化移动到每个子块的输入,并在最终的自注意块后增加一层归一化;修改初始化的残差层权重,缩放为原来的1/�,其中,�是残差层的数量;特征向量维数从768扩展到1600,词表扩大到
50257。GPT-3做了以下优化:增加到96层,每层有96个注意头;单词嵌入大小从1600增加到12888;上下文窗口大小从
GPT-2的1024增加到
2048,并采用交替密度和局部带状稀疏注意模式。ChatGPT基于GPT-3.5:1.ChatGPT使用来自人类反馈的强化学习进行训练;2.通过近端策略优化算法进行微调,为信任域策略优化算法带来成本效益。模型发布时间参数量预训练数据量GPT-12018年6月1.17亿约5GBGPT-22019年2月15亿40GGPT-32020年5月1750亿45TBChatGPT2022年11月千亿级?百T级?摩尔定律(大模型时代)DeepSeek通过大幅提升模型训练、推理效率,缓解(???)了算力需求?Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体25大型语言模型简史GPT-3:语言模型的转折点大语言模型:1750亿参数涌现能力:随着模型规模增大而出现的新能力生成/创造:Artificial
Intelligence
(人工=>艺术)2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o326大型语言模型简史ChatGPT:人工智能的IPHONE时刻2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o327OpenAI技术白皮书GPT-3
SeriesGPT-3.5
SeriesTraining
oncodeLarge-scale
language
model
pretrainingGPT-3
InitialLM
+
code
trainingthen
instruction
tuningCode-davinci-002RLHFInstruction
tuningCodex
InitialCode-davinci-001Code-cushman-001InstructGPT
InitialInstruct-davinci-betaText-davinci-001Text-davinci-002RLHFChatGPTText-davinci-003Davinci28Large-scale
language
model
pretrainingTraining
oncodeGPT-3
Initial
Instruction
tuningGPT-3
Series
Codex
Initial
Davinci
InstructGPT
Initial
Code-davinci-001
Instruct-davinci-beta
Code-cushman-001
Text-davinci-001LM
+
code
trainingthen
instruction
tuningCode-davinci-002GPT-3.5
SeriesRLHF
Text-davinci-002
RLHFText-davinci-003
ChatGPTGPT-3
Initial初代GPT-3展示了三个重要能力(来自于大规模的预训练)语言生成:来自语言建模的训练目标(说人话)世界知识:来自3000亿单词的训练语料库(百晓生)上下文学习:上下文学习可以泛化,仍然难以溯源(触类旁通)初代GPT-3表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力29GPT3
InitialLarge-scale
language
model
pretrainingTraining
oncodeGPT-3
Initial
Instruction
tuningGPT-3
Series
Codex
Initial
Davinci
InstructGPT
Initial
Code-davinci-001
Instruct-davinci-beta
Code-cushman-001
Text-davinci-001LM
+
code
trainingthen
instruction
tuningCode-davinci-002GPT-3.5
SeriesRLHF
Text-davinci-002
RLHFText-davinci-003
ChatGPTCodex
InitialInstructGPT
Initial2020-2021年,OpenAI投入了大量的精力通过代码训练和指令微调来增强GPT-3。使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调将GPT-3.5的分化到不同的技能树(数学家/程序员/…)30Codex
+
InstructLarge-scale
language
model
pretrainingTraining
oncodeGPT-3
Initial
Instruction
tuningGPT-3
Series
Codex
Initial
Davinci
InstructGPT
Initial
Code-davinci-001
Instruct-davinci-beta
Code-cushman-001
Text-davinci-001LM
+
code
trainingthen
instruction
tuningCode-davinci-002GPT-3.5
SeriesRLHF
Text-davinci-002
RLHFText-davinci-003
ChatGPTCode-davinci-0021)指令微调不会为模型注入新的能力(解锁能力)
2)指令微调牺牲性能换取与人类对齐(“对齐税”)31GPT3.5Large-scale
language
model
pretrainingTraining
oncodeGPT-3
Initial
Instruction
tuningGPT-3
Series
Codex
Initial
Davinci
InstructGPT
Initial
Code-davinci-001
Instruct-davinci-beta
Code-cushman-001
Text-davinci-001LM
+
code
trainingthen
instruction
tuningCode-davinci-002GPT-3.5
SeriesRLHF
Text-davinci-002
RLHFText-davinci-003
ChatGPTRLHFRLHF2022.11RLHF
(基于人类反馈的强化学习的指令微调)触发的能力:翔实的回应公正的回应拒绝不当问题拒绝其知识范围之外的问题32ChatGPT(技术到产品)大型语言模型简史多模态模型:连接文本、图像及其他开源:Meta的LLaMA系列(普惠学术领域)GPT-4v:视觉遇见语言(跨模态)GPT-4o:全模态前沿(交互能力)2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o333GPT-4可提供多模态能力zero-shot及few-shot的能力GPT-4逻辑推理能力的飞跃GPT-4的安全性已经大幅提升更强的专属能力(如编程)处理其它语言的能力处理更长序列的能力GPT-4v(听、说
看)2023.0634多模态输入输出(交互能力)响应速度(接近人类响应)数学推理、编程等能力提升非英文文本性能大幅提升视觉和音频理解能力成本优势GPT-4o(文科博士生)352024.06推理能力大幅提升:数学和编程能力爆表更像人类一样思考:全新安全训练方法&更强的“越狱”抵抗力GPT-o1(理科博士生)362024.09Outline一、语言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能体37大型语言模型简史推理模型:从「生成」到「推理」的重心转变OpenAI-o1/o3:推理能力的一大飞跃DeepSeek-V3/R1:专家模型、强化学习,开源,效率2017201820182019201920202021
202220222023
20232024202420242025JUNJUNOCTFEBOCTMAYSEP
MARNOVFEB
MARMARAPRDECJAN1958TransformersGPTBERTGPT-2T5GPT-3FLANGPT-3.5InstrutGPTChatGPTLLaMAGPT-4GPT-4oLLaMA-3.1405BOpenAI-o1DeepSeek-V3DeepSeek-R1OpenAI-o33839DeepSeek-V3Base
(671B/37B激活)阶段1:有监督微调SFT强化学习GRPO(规则奖励)+语言一致性奖励阶段2的模型生成推理SFT数据推理数据(60w样本)冷启动阶段(DeepSeek-R1-Zero生成少量推理数据)DeepSeek-V3SFT数据DeepSeek-V3Base
(671B/37B激活)COTPrompting非推理数据(20w样本)数据合并(80w样本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT(2epochs)DeepSeek-R1-Distill阶段3:SFT(2
epcohs)阶段4:全场景强化学习DeepSeek-R1基于规则奖励的大规模强化学习阶段2:基于规则奖励的强化学习模型蒸馏(Distillation)DeepSeek模型并非是颠覆性基础理论创新(Transformer-based),其对算法、模型和系统等进行的系统级协同工程创新,打破了大语言模型以大算力为核心的预期天花板,为受限资源下探索通用人工智能开辟了新的道路。DeepSeek
技术全景图DeepSeekStep
1:
DeepSeek-V3BaseStep
2:
DeepSeek-R1-ZeroStep
3:
DeepSeek-R1Step
4:
DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型DS-V3对标GPT-4o(文科博士生):混合专家模型:V3基座模型总共有6710亿参数,但是每次
token仅激活8个专家、370亿参数(~5.5%)。极致的工程优化:多头潜在注意力机制(MLA),使用FP8混合精度,DualPipe算法提升训练效率,将训练效率优化到极致,显存占用为其他模型的5%-13%。DeepSeek
技术揭秘动态路由机制和专家共享机制DeepSeekStep
1:
DeepSeek-V3
BaseStep
2:
DeepSeek-R1-ZeroStep
3:
DeepSeek-R1Step
4:
DeepSeek-R1-Distill40基础生成模型推理模型初试推理横型大成R1蒸馏小模型DeepSeek
技术揭秘赋予DeepSeek-V3最基础的推理能力:R1-Zero使用DeepSeek-V3-Base作为基础模型,直接使用GRPO
进行强化学习来提升模型的推理性能:准确度奖励(Accuracy
rewards)格式奖励(
Format
rewards
)人工标注奖励模型奖励规则SFTRLHFGRPO0
或1引入人类偏好数据将知识抽象为奖励规则通过标注将知识显示化数据驱动+知识引导DeepSeekStep
1:
DeepSeek-V3BaseStep
2:
DeepSeek-R1-ZeroStep
3:
DeepSeek-R1Step
4:
DeepSeek-R1-Distill41基础生成模型推理模型初试推理横型大成R1蒸馏小模型DeepSeek
技术揭秘DeepSeek-V3Base
(671B/37B激活)阶段1:有监督微调SFT强化学习GRPO(规则奖励)+语言一致性奖励阶段2:模型生成推理SFT数据推理数据(60w样本)冷启动阶段(DeepSeek-R1-Zero生成少量推理数据)DeepSeek-V3SFT数据DeepSeek-V3Base
(671B/37B激活)COTPrompting非推理数据(20w样本)数据合并(80w样本)DeepSeek-R1-ZeroQwen2.5-14BLlama3.3-70B-Qwen2.5-32BLlama3.1-8BInstruct……SFT(2epochs)DeepSeek-R1-Distill阶段3:SFT(2
epcohs)阶段4:全场景强化学习DeepSeek-R1基于规则奖励的大规模强化学习阶段2:基于规则奖励的强化学习模型蒸馏(Distillation)DS-R1对标OpenAI-o1(理科博士生):阶段1:DeepSeek-R1-Zero生成少量推理数据+SFT=>为V3植入初步推理能力(冷启动)阶段2:根据规则奖励直接进行强化学习(GRPO)训练=>提升推理能力(多轮迭代,获取大量推理数据)阶段3:迭代生成推理/非推理样本微调=>增强全场景能力阶段4:全场景强化学习=>人类偏好对齐(RLHF)DeepSeekStep
1:
DeepSeek-V3BaseStep
2:
DeepSeek-R1-ZeroStep
3:
DeepSeek-R1Step
4:
DeepSeek-R1-Distill42基础生成模型推理模型初试推理横型大成R1蒸馏小模型DeepSeek
技术揭秘DeepSeek-R1-Distill模型:基于各个低参数量通用模型(千问、Llama等)使用DeepSeek-R1同款数据微调大幅提升低参数量模型性能知识蒸馏:老师教学生:“解题思路”,不仅给答案(硬标签),还教“为什么”(软标签)模型瘦身:大幅压缩参数(如671亿→7亿参数),手机也能跑AIDeepSeekStep
1:
DeepSeek-V3BaseStep
2:
DeepSeek-R1-ZeroStep
3:
DeepSeek-R1Step
4:
DeepSeek-R1-Distill43基础生成模型推理模型初试推理横型大成R1蒸馏小模型大模型应用层垂直应用教育医疗法律制造……客服服务(智能客服)OA类(WIKI等)数据经营分析运营工具(产品、渠道)GPT
Agent(基于Prompt的应用,AutoGPT,AgentGPT等)大模型应用开发框架(Langchain)大模型精调训练数据管理与生成精调pipeline基础架构及模型部署GPT4(公有云)LLMA(开源)Stable
Diffusion基础模型应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人股份转让的合同范例二零二五年
- 合同担保的含义和类型
- 二零二五版办公用品采购协议合同
- 厨房安全生产课件
- 肾造瘘管的护理要点
- 南通岩棉夹芯板施工方案
- 礼仪培训动画
- 电机临时用电施工方案
- 天棚维修施工方案
- 网页广告协议书与羊角大椒干购销合同9篇
- (一模)桂林市、来宾市2025届高考第一次跨市联合模拟考试生物试卷(含答案详解)
- 电缆沟、电缆管、电缆井专项施工方案
- 2024年公务员考试中财务知识的考察试题及答案
- 治理盐碱可行性报告
- 《人工智能技术基础》课件-第六章 知识图谱
- 2025年山东省济南市市中区中考物理一模试卷(无答案)
- (三模)吉林市2025届高三第三次模拟测试 英语试卷(含答案详解)
- DL∕T 1751-2017 燃气-蒸汽联合循环机组余热锅炉运行规程
- 呼吸内科利用品管圈PDCA循环提高患者对无创呼吸机的有效使用率
- IPC6012C培训
- 出境领队服务程序与规范(共36页).ppt
评论
0/150
提交评论