【浙江大学】DS系列专题:DeepSeek技术溯源及前沿探索_第1页
【浙江大学】DS系列专题:DeepSeek技术溯源及前沿探索_第2页
【浙江大学】DS系列专题:DeepSeek技术溯源及前沿探索_第3页
【浙江大学】DS系列专题:DeepSeek技术溯源及前沿探索_第4页
【浙江大学】DS系列专题:DeepSeek技术溯源及前沿探索_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1DeepSeek技术溯源及前沿探索主讲人:

朱强浙江大学计算机科学与技术学院浙江大学人工智能教育教学研究中心浙江大学人工智能浙江大学DS系列专题研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心

、DeepSeek

、新一代智能体

、ChatGPT浙江大学人工智能教育教学研究中心浙江大学人工智能 一

、语言模型

、Transformer研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心Outline2Language

Modeling对于任意的词序列,

计算出这个序列是一句话的概率我们每天都和语言模型打交道:I

saw

a

cat

in

my

dreamI

saw

a

cacar

I

saw

a

cat

I

saw

a

cat

onthe

chairI

saw

a

cat

running

after

a

dog浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

语言模型:

终极目标教育教学研究中心浙江大学人工智能教育教学研究中心31000编码:

让计算机理解人类语言01000001

0

0

1

0

只有一个1,

其余均为0 One-hot

Encoding有什么缺点吗?One-hot

Encoding浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人She

语言模型:

基本任务is教育教学研究中心浙江大学人工智能教育教学研究中心mommy4Word

Embedding用一个低维的词向量表示一个词能使距离相近的向量对应的物体有相近的含义游泳

飞翔鲸鱼

0.990.990.050.1

…海豚

0.990.050.93

0.09…鹦鹉

0.020.010.990.98…企鹅

0.980.020.940.3…

20维的向量用one-hot和word

embedding的方法分别可以表示多少单词?浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

编码:

让计算机理解人类语言教育教学研究中心浙江大学人工智能教育教学研究中心5 tezgüino

motor

oil

tortillas

wine(1)(2)

(3)

(4)1111100001011110两行内容十分相近两个单词含义相近浙江大学人工智能教育教学研究中心浙江大学人工智能Word

Embedding结合句子语境我们可以猜测:tezgüino是一种由玉米制作的酒精类饮料A

bottle

of

tezgüino

is

on

the

table.Everyone

likestezgüino.Tezgüino

makesyou

drunk.We

maketezgüino

out

of

corn.(1)A

bottle

of

_______

is

on

the

table.(2)

Everyone

likes

_______.(3)_______

makes

you

drunk.(4)We

make

_______

out

of

corn.研究中心浙江大学人工智能教育教学研究中心浙江大学人

编码:

让计算机理解人类语言教育教学研究中心浙江大学人工智能教育教学研究中心6

Transformer

(2017

after)Before:

P(小)·

P

(猫|小)

·

P

(抓|小猫)

·

P

(老|小猫抓)

·

P

(鼠|小

猫抓老)2-gram:

P(小)·

P

(猫|小)

·

P

(抓|猫)

·

P

(老|抓)

·

P

(鼠|老)3-gram:

P(小)·

P

(猫|小)

·

P

(抓|小猫)

·

P

(老|猫抓)

·

P

(鼠|抓老)浙江大学人工智能教育教学研究中心浙江大学人工智能

语言模型:

技术演化

基于统计的N-gram(1970

after

基于神经网络的LSTM/GRU

(2000

after)研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心7 Encoder-Decoder常见的深度学习模型框架,可用于解决Seq2Seq

问题I

am

pretty

smart!隐Encoder

间Decoder我

!Representation可以根据任务选择不同的编码器和解码器(

LSTM/GRU/Transformer

)浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心8

、Transformer

、ChatGPT

、DeepSeek 一

、语言模型

、新一代智能体浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心Outline92019OCT2021SEP2023MAR2023FEB2020MAY2022NOV2024MAR2022MAROT5LLaMAGPT-3FLANGPT-4LLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3.5

InstrutGPTChatGPTTransformer:

理论架构创新•

自注意力机制:

支持并行计算/全局上下文的理解能力•多头注意力:

从多个角度捕捉复杂的语义关系•前馈网络/位置编码/层归一化:

解决了传统模型的诸多局限性10https://blog.csdn.net/cf2SudS8x8F0v/article/details/1456951462025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人2018OCT2019FEB2018JUN

大型语言模型简史GPTBERTGPT-2教育教学研究中心浙江大学人工智能教育教学研究中心TransformerDeepSeek-R12024DEC2017JUN2024APRAttention

IsAllYou

NeedNIPS

2017,

引用量15万+引入全新注意力机制,

改变了深度学习模型的处理方式DecoderEncoder浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人 Transformer

:大模型的技术基座教育教学研究中心浙江大学人工智能教育教学研究中心11中国南北

饮食文化存在差异,

豆花有南甜北咸之分

。南方人一般喜欢

吃甜豆花She

is

eating

a

green

apple.The

animal

didn't

crossthe

street

because

itwastootired/wide Transformer

:

(自)

注意力机制在理解语言任务时,Attention机制本质上是捕捉单词间的关系浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人32教育教学研究中心浙江大学人工智能教育教学研究中心112 Transformer

:

(自)

注意力机制在理解图像任务时,Attention机制本质上是一种图像特征抽取Image

Sketch

Gradient

13浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心场景:

你在图书馆想找一本关于“机器学习基础

”的书https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanismKey:书的索引编号(高效的书籍定位)Query:描述要找的

书(精准的需求描述)Value:

内容的抽取(

由目标任务驱动)浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人 Transformer

:训练机制教育教学研究中心浙江大学人工智能教育教学研究中心14GPT-3FLANLLaMAChatGPTGPT-4GPT-3.5

InstrutGPTLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3预训练时代:

大力出奇迹(

“暴力美学

”)•BERT:

Bidirectional

Encoder

RepresentationsTransformers•GPT:

Generative

Pertained

Transformer•

自监督算法:

MLM/NTP/MAE解决海量数据标注问题2025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能2019OCT2020MAY2021SEP2023MAR2022MAR2024MAR2022NOV2023FEBOT5研究中心浙江大学人工智能教育教学研究中心浙江大学人2018OCT

大型语言模型简史2019FEB2018JUNGPT-2BERTGPT教育教学研究中心浙江大学人工智能教育教学研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR15GPT

Jun2018Generation浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人The

LLM

Era–

ParadigmShift

in

MachineLearningBERT

Oct2018Representatio教育教学研究中心浙江大学人工智能教育教学研究中心16T5–

2019BART–

2019mT5–

2021…GenerationGPT–

2018GPT-2

2019GPT-3

2020GPT-Neo

2021GPT-3.5(ChatGPT)–2022LLaMA

–2023GPT-4

2023…浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人RepresentatioThe

LLM

Era–

ParadigmShift

in

MachineLearningBERT–

2018DistilBERT

–2019RoBERTa

–2019ALBERT–

2019ELECTRA

–2020教育教学研究中心浙江大学人工智能教育教学研究中心20n20…17原话:

一辆列车

缓慢

行驶

崎岖

的山路上移除单词:

一辆列车

行驶

崎岖

的山路上预测填空:

一辆列车缓慢行驶在

崎岖

的山路上Masked

Langauge

Modeling(MLM)

模型会不断地在句子中‘挖去

’一个单词,根据剩下单词的上下文来填空,

即预测最合适的‘填空词

’出现的概率,这一过程为‘

自监督学习

’浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

自监督学习(语言)教育教学研究中心浙江大学人工智能教育教学研究中心18MaskedAutoEncoders(MAE)

通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,

常用于计算机视觉任务。https://arxiv.org/pdf/2111.06377重建图像浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

自监督学习(图像)教育教学研究中心浙江大学人工智能教育教学研究中心遮盖图像19Self-supervisedPromptFine-tuneTransformer

训练transformer

的通用之力数据是燃料

、模型是引擎

、算力是加速器引入Self-attention单词之间关联关系seq2seq序列学习

循环神经网络语言大模型

LLMn数据:训练中使用了45TB数据

、近

1万亿个单词(约1351万本牛津词典所包含单词数量)

以及数十亿行源代码。n模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后

,叠加高度将超过上海中心大厦632米高度。n算力:

ChatGPT的训练门槛是1万张英伟达V100芯片

、约10亿人民币。n大数据

、大模型

、大算力下以“共生则关联

”原则实现了统计关联关系的挖掘

。人类反馈强化学习(InstructGPT

)CodeX(

CoT,

120亿参数)浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人Word2vec词向量l

MCP神经元l

Perceptronl

DNN神经网络早期前向神经网络RNNLSTMll教育教学研究中心浙江大学人工智能教育教学研究中心ChatGPT20大语言模型(LLM)Large

Language

Model大模型Large

Model多模态大模型(

LMM)Large

Multi

modal

Model科学计算模型

Science

ModelBERT系列GPT系列3.5/4DDPMSAMAlpha系列PanguLMGoogle

Bard文心一言GPT-4oDeepseek-v3DALLE

·3

inChatGPTMidjourneySora交互式DemoGPT-o1/o3Deepseek-R1AlphaStar魔兽争霸药物分子预测AlphaGo

围棋气象大模型浙江大学人工智能教育教学研究中心浙江大学人工智能产品研究中心浙江大学人工智能教育教学研究中心浙江大学人

大模型脉络教育教学研究中心浙江大学人工智能教育教学研究中心AlphaFold

蛋白质预测技术机理21OpenAI最新15页报告:

DeepSeek缩小中美AI差距ASurveyon

Large

LanguageModels

with

some

Insightson

their

Capabilities

andLimitations浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

群雄(中美)

争霸教育教学研究中心浙江大学人工智能教育教学研究中心22DeepSeek以一己之力改变了开源和闭源的力量对比:

从6~12个月的代差缩短到1~3个月国际企业微软投资OpenAI的GPT-4.0系列闭源自研开源小模型Phi-3

Mini开源亚马逊自研Titan系列闭源投资Anthropic的Claude

3.5系列闭源谷歌Gemini系列闭源Gemma系列开源METALlama3系列开源Mistral

AIMistral-Large闭源Mistral-Medium开源中国企业阿里通义千问2.5系列基础模型

、行业模型开源Qwen0.5b-110b系列开源模型开源华为盘古系列闭源腾讯混元基础模型

、行业模型闭源混元开源模型开源百度文心一言4.0模型闭源浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

闭源vs

开源教育教学研究中心浙江大学人工智能教育教学研究中心23GPT-3做了以下优化:1.增加到96层,每层有96个注意头;2.单词嵌入大小从1600

增加到12888;3.

上下文窗

口大小从GPT-2

的1024增加到

2048,

并采用交替密度

和局部带状稀疏注意模式

。GPT-2做了以下改进:1.增

加到48层

使

用1600维向量进行词嵌入;2.

将层归一化移动到每个子块的输入

,并在最终

的自注意块后增加一层归

一化;3.修改初始化的残差

层权

来的1/N,其中,

N是残差层的

数量;4.特征向量维数从768扩展到1600

词表扩大到

50257

。模型发布时间参数量预训练数据量GPT-12018年6月1.17亿约5GBGPT-22019年2月15亿40GGPT-32020年5月1750亿45TBChatGPT2022年11月千亿级?百T级?ChatGPT基于GPT-3.5:1.ChatGPT使用来自人

类反馈的强化学习进行训

练;2.通过近端策略优化算法进行微调

,为信任域策

略优化算法带来成本效益

。DeepSeek通过大幅提升模型训练

、推理效率,

缓解(???)了算力需求?浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人GP-2(201S)

摩尔定律(大模型时代)12层,每层12个注意头GP-3

2020)教育教学研究中心浙江大学人工智能教育教学研究中心24

、ChatGPT

、DeepSeek

、Transformer 一

、语言模型

、新一代智能体浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心Outline252020MAY2023MAR2023FEB2021SEP2022NOV2019OCT2022MAR2024MARChatGPTGPT-4GPT-3.5

InstrutGPTLLaMAGPT-3OT5FLANLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3:

语言模型的转折点•

大语言模型:

1750亿参数•涌现能力

随着模型规模增大而出现的新能力•生成/创造:

Artificial

Intelligence(人工

=>

艺术)2025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人2018OCT2018JUN

大型语言模型简史2019FEBGPTBERTGPT-2教育教学研究中心浙江大学人工智能教育教学研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR26GPT-3LLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-4LLaMAFLANGPT-3.5

InstrutGPTChatGPTChatGPT:

人工智能的IPHONE时刻2025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能2023FEB2019OCT2024MAR2021SEP2020MAY2022MAR2022NOV2023MAROT5研究中心浙江大学人工智能教育教学研究中心浙江大学人GPTBERTGPT-2

大型语言模型简史2018OCT2019FEB2018JUN教育教学研究中心浙江大学人工智能教育教学研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR27GPT-3SeriesGPT-3.5SeriesInstruct-davinci-betaText-davinci-001Code-davinci-001Code-cushman-001

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

Initial

LM+codetrainingthen

instructiontuningCode-davinci-002RLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPT浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人 OpenAI技术白皮书教育教学研究中心浙江大学人工智能教育教学研究中心28RLHFInstructiontuningTrainingon

code

Large-scale

language

model

pretrainingRLHF

Text-davinci-002GPT-3

InitialC

dDavinciI

i

i

lText-davinci-003

ChatGPT初代

GPT-3

展示了三个重要能力(来自于大规模的预训练)l

语言生成:来自语言建模的训练目标(说人话)l

世界知识:来自

3000亿单词的训练语料库(百晓生)l

上下文学习:

上下文学习可以泛化,仍然难以溯源(触类旁通)初代

GPT-3表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现

”能力浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

GPT3

InitialGPT-3.5Series教育教学研究中心浙江大学人工智能教育教学研究中心29

Large-scale

language

GPT-3

Initial

Davincimodel

pretrainingInstructiontuningTrainingon

codeCode-davinci-001Instruct-davinci-betaRLHFCodex

InitialRLHF

Text-davinci-0022020

-

2021

年,

OpenAI

投入了大量的精力通过代码训练和指令微调来

增强

GPT-3

。使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调将

GPT-3.5

的分化到不同的技能树(数学家/程序员/…)InstructGPT

InitialText-davinci-003

ChatGPT浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人GPT-3SeriesGPT-3.5Series Codex+

Instruct教育教学研究中心浙江大学人工智能教育教学研究中心30RLHFRLHF

Text-davinci-002

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

InitialCode-davinci-001Instruct-davinci-beta

LM+codetrainingthen

instructiontuning1

)指令微调不会为模型注入新的能力(解锁能力)2)

指令微调牺牲性能换取与人类对齐(

“对齐税

”)Code-davinci-002Text-davinci-003

ChatGPT浙江大学人工智能教育教学研究中心浙江大学人工智能GPT-3SeriesGPT-3.5Series研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心

GPT3.531GPT-3SeriesGPT-3.5Series

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

InitialuningF

Text-davinci-002Text-davinci-003

ChatGPT2022.11RLHF(基于人类反馈的强化学习的指令微调)

触发的能力:l

翔实的回应l

公正的回应l

拒绝不当问题l

拒绝其知识范围之外的问题RLHFRLHF浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

ChatGPT

(技术到产品)教育教学研究中心浙江大学人工智能教育教学研究中心322023FEB2022NOV2024MAR2023MARGPT-3OT5LLaMAGPT-4FLANLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3.5

InstrutGPTChatGPT多模态模型:

连接文本

、图像及其他•开源:

Meta的LLaMA系列(普惠学术领域)•GPT-4v:

视觉遇见语言(跨模态)•GPT-4o:

全模态前沿(交互能力)2025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能2021SEP2019OCT2022MAR2020MAY研究中心浙江大学人工智能教育教学研究中心浙江大学人2018JUN

大型语言模型简史GPT-2BERTGPT2019FEB2018OCT教育教学研究中心浙江大学人工智能教育教学研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR332023.06

GPT-4可提供多模态能力

zero-shot及few-shot的能力

GPT-4逻辑推理能力的飞跃

GPT-4的安全性已经大幅提升

更强的专属能力(如编程)

处理其它语言的能力

处理更长序列的能力浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

GPT-4v

(听

、说看)教育教学研究中心浙江大学人工智能教育教学研究中心342024.06

多模态输入输出(交互能力)

响应速度(接近人类响应)

数学推理

、编程等能力提升

非英文文本性能大幅提升

视觉和音频理解能力

成本优势浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

GPT-4o(文科博士生)教育教学研究中心浙江大学人工智能教育教学研究中心352024.09

推理能力大幅提升:

数学和编程能力爆表

更像人类一样思考:

全新安全训练方法

&

更强的“越狱

”抵抗力浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

GPT-o1(理科博士生)教育教学研究中心浙江大学人工智能教育教学研究中心36

、ChatGPT 一

、语言模型

、DeepSeek

、Transformer

、新一代智能体浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心Outline372019OCT2020MAY2024MAR2022NOV2023FEB2022MAR2023MAR2021SEPGPT-3OT5FLANGPT-3.5

InstrutGPTChatGPTLLaMALLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-4推理模型:

从「生成」

到「推理」

的重心转变•OpenAI-o1/o3:

推理能力的一大飞跃•DeepSeek-V3/R1:

专家模型

、强化学习,

开源,

效率2025JAN浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人2018OCT

大型语言模型简史2019FEB2018JUNBERTGPT-2GPT教育教学研究中心浙江大学人工智能教育教学研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR38基础生成模型推理模型初试推理横型大成R1蒸馏小模型+语言一致性奖励阶段2的模型生成

推理SFT数据DeepSeek模型并非是颠覆性基础理论创新(

Transformer-based)

其对算法

、模型和系统等进

行的系统级协同工程创新,

打破了大语言模型以大算力

为核心的预期天花板,

为受限资源下探索通用人工智能

开辟了新的道路

。强化学习GRPO(规则奖励)Step2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill阶段1:有监督微调

SFT基于规则奖励的大规模强化学习冷启动阶段(

DeepSeek-R1-Zero生成少量推理数据)Qwen2.5-14B

Qwen2.5-32BLlama3.3-70B-

Instruct推理数据(

60w样本)SFT

(2

epochs)…DeepSeek-V3

Base(671B/37B激活)COTPrompting非推理数据(

20w样本)DeepSeek-R1-

ZeroDeepSeek-R1-

Distill模型蒸馏(

Distillation)Llama3.1-

8B数据合并(

80w样本)浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人DeepSeek技术全景图Step

1:

DeepSeek-V3

Base教育教学研究中心浙江大学人工智能教育教学研究中心阶段2:基于规则奖励的强化学习DeepSeek-V3

SFT数据DeepSeek-V3

Base(671B/37B激活)阶段4:全场景强化学习DeepSeek阶段3:SFT(2epcohs)DeepSeek-R1Step

1:

DeepSeek-V3

BaseStep2:

DeepSeek-R1-Zero基础生成模型推理模型初试推理横型大成R1蒸馏小模型动态路由机制和专家共享机制DS-V3对标GPT-4o(文科博士生):n混合专家模型:V3基座模型总共有6710亿参数,但是每次

token仅激活8个专家

、370亿参数(

~5.5%)

。n极致的工程优化:

多头潜在注意力机制(MLA),使用FP8混合精

度,

Dual

Pipe算法提升训练效率,将训练效率优化到极致

,显存占用为其他模型的5%-13%

。Step4:

DeepSeek-R1-DistillStep3:

DeepSeek-R1浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

DeepSeek技术揭秘教育教学研究中心浙江大学人工智能教育教学研究中心40Step2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step

1:

DeepSeek-V3

Base基础生成模型推理模型初试推理横型大成R1蒸馏小模型Step4:

DeepSeek-R1-Distill赋予DeepSeek-V3最基础的推理能力:R1-Zero使用DeepSeek-V3-Base作为基础模型,直接使用

GRPO进行强化学

习来提升模型的推理性能:n准确度奖励(Accuracyrewards)n格式奖励

Format

rewards

)SFTRLHF引入人类偏好数据GRPO将知识抽象为奖励规则通过标注将知识显示化人工标注奖励模型0

1奖励规则数据驱动+知识引导浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

DeepSeek技术揭秘教育教学研究中心浙江大学人工智能教育教学研究中心

DeepSeek

41基础生成模型推理模型初试推理横型大成R1蒸馏小模型Step3:

DeepSeek-R1Step2:

DeepSeek-R1-

ZeroStep

1:

DeepSeek-V3

BaseStep4:

DeepSeek-R1-DistillDeepSeek-V3Base(671B/37B激活)阶段1:有监督微调

SFT基于规则奖励的大规模强化学习+语言一致性奖励阶段2:模型生成推理SFT数据DS-R1对标OpenAI-o1(理科博士生):n阶段1:

DeepSeek-R1-Zero生成少量推理数据+SFT=>为

V3植入初步推理能力(冷启动)n阶段2:根据规则奖励直接进行强化学习(

GRPO)训练=>

提升推理能力(多轮迭代

,获取大量推理数据)n阶段3:迭代生成推理/非推理样本微调=>增强全场景能力n阶段4:全场景强化学习=>人类偏好对齐

(RLHF)强化学习GRPO(规则奖励)推理数据(

60w样本)Qwen2.5-14B

Qwen2.5-32BLlama3.3-70B-

InstructSFT

(2

epochs)非推理数据(

20w样本)DeepSeek-V3

Base(671B/37B激活)COTPromptingLlama3.1-8B数据合并(

80w样本)DeepSeek-R1-

ZeroDeepSeek-R1-

模型蒸馏Distill

(Distillation)浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人

DeepSeek技术揭秘教育教学研究中心浙江大学人工智能教育教学研究中心阶段2:基于规则奖励的强化学习DeepSeek-V3

SFT数据

DeepSeek

阶段3:SFT(2epcohs)阶段4:全场

景强化学习冷启动阶段(

DeepSeek-R1-Zero生成少量推理数据)DeepSeek-R142

DeepSeek技术揭秘Step

1:

DeepSeek-V3

BaseStep2:

DeepSeek-R1-

Zero

DeepSeek

基础生成模型推理模型初试推理横型大成R1蒸馏小模型Step4:

DeepSeek-R1-DistillDeepSeek-R1-Distill模型:(

1

)基于各个低参数量通用模型(千问

、Llama等)(

2

)使用DeepSeek-R1同款数据微调(3)大幅提升低参数量模型性能知识蒸馏:•老师教学生:“解题思路”,不仅给答案(硬标签),还教“为什么”(软标签)•模型瘦身

:大幅压缩参数(如671亿→7亿参数)

,手机也能跑AI浙江大学人工智能教育教学研究中心浙江大学人工智能Step3:

DeepSeek-R1研究中心浙江大学人工智能教育教学研究中心浙江大学人教育教学研究中心浙江大学人工智能教育教学研究中心43教育客服服务(智能客服)医疗法律OA类(

WIKI等)数据经营分析GPTAgent(基于Prompt的应用,AutoGPT,AgentGPT等)训练数据

管理与生成大模型精调GPT4(公有云)LLMA(开源)

Stable

Diffusion大模型应用开发框架(

Langchain

)精调pipeline DeepSeek带来的全栈影响

运营工具(产品

、渠道)基础架构及

模型部署基础模型应用支持微调插件嵌入浙江大学人工智能教育教学研究中心浙江大学人工智能研究中心浙江大学人工智能教育教学研究中心浙江大学人垂直

应用通用类大模型应用层大模型中间层基础模型层教育教学研究中心浙江大学人工智能教育教学研究中心制造44

、Transformer

、ChatGPT

、DeepSeek 一

、语言模型

、新一代智能体浙江大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论