DeepSeek基础知识手册_第1页
DeepSeek基础知识手册_第2页
DeepSeek基础知识手册_第3页
DeepSeek基础知识手册_第4页
DeepSeek基础知识手册_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CÏï'NTENTSDeepSeeDeepSeeDeepSeeDeepSee*y•,PARTDeepSeek@ÿț@Șğźğ,什么是DeepSeek-

DeepSeek

公司:杭州深度求索人工智能基础技术研究有限公司。-DeepSeek

大模型:DeepSeek

公司推出的一系列大模型的统称。DeepSeek

的背景知识DeepSeek

公司-成立时间:2023年7月;-

创始人:

梁文峰(

幻方量化的联合创始人);-所在城市:浙江省杭州市拱墅区;-公司口号:探索未至之境;技术的研发和应用;-公司业务方向:专注于通用人工智能

(AGI)-

“杭州六小龙”之一;-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。DeepSeek

的背景知识梁文峰-

出生年份:1985年;-籍贯:广东省湛江市吴川市覃巴镇米历岭村;学历背景:2002年,考入浙江大学电子工程系电子信息工程专业;2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位;工作背景:2008年,开始带领团队使用机器学习等技术探索量化交易;2015年,创立了幻方科技(杭州幻方科技有限公司);2019年,其资金管理规模突破百亿元;2023年7月,幻方量化宣布成立大模型公司DeepSeek, 进入通用人工智能

(AGI) 领域。DeepSeek

的背景知识DeepSeek

大模型发布时间表-2024年01月05日,正式发布首个大模型DeepSeek LLM;-2024年01月25日,正式发布DeepSeek-Coder, 由一系列代码语言模型组成;-2024年02月05日,正式发布DeepSeek-Math, 以

DeepSeek-Coder V1.57b为基础;-2024年03月11日,正式发布DeepSeek-VL, 是一个开源的视觉-语言

(VL)

模型;-2024年05月07日,正式发布第二代开源MoE

模型DeepSeek-V2;-2024年06月17日,正式发布DeepSeek-Coder-V2,

支持的编程语言从86种扩展到338种;-2024年09月06日,合并DeepSeek-Coder-V2

和DeepSeek-V2-Chat

两个模型,升级推出DeepSeek-V2.5;-2024年11月20日,正式发布DeepSeek-R1-Lite预览版;-2024年12月13日,正式发布DeepSeek-VL2,用于高级多模态理解的专家混合视觉语言模型;-2024年12月26日,正式发布DeepSeek-V3, 并同步开源模型权重;-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero, 并同步开源模型权重。DeepSeek

的背景知识掀起本次DeepSeek热潮的,主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroDeepSeek的背景知识PARTDeepSeek@ț§IgțȘ„•<.,DeepSeek-V3 的基本情况-DeepSeek-V3

是一款高性能、低成本的开源通用语言模型。-

:高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。- 设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。参

:共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。训

:总计278.8万H800

GPU小时

(Meta

的Llama3.1需要3080万GPU小时)。假设每小时2美元,费用约557.6万美元(约为GPT-4的二十分之一)。价

:模型API服务定价为每百万输入tokens

0.5元(

缓存命中)

/

2

元(

缓存未命中)

,

每百万输出tokens

8元。在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。DeepSeek 的技术特点DeepSeek-V3

的性能表现-

在数学推理

(GSM8K)、

代码生成

(HumanEval)、

常识推理

(MMLU)

等基准测试中达到领先水平。-在公开评测集(如

MMLU、BBH、DROP)

中表现优异,尤其在复杂推理任务上接近或超越GPT-4

Turbo等顶尖模型。-多项评测成绩超越了Qwen2.5-72B 和

Llama-3.1-405BGPT-40

以及Claude-3.5-Sonnet不相上下。-

在知识类任务

(

MMLU,

MMLU-

Pro,

GPQA,

SimpleQA)此前表现最好的模型Claude-3.5-Sonnet-1022(Anthropic等其它开源模型,并在性能上和世界顶尖的闭源模型上的水平相比前代DeepSeek-V2.5显著提升,接近公司于2

0

2

4

年1

0

月发布)

。-通过算法和工程上的创新,将生成吐字速度从20TPS(Transactions

Per

Second每秒完成的事务数量)大幅提高至60TPS,

相比V2.5

模型实现了3倍的提升,可以带来更加流畅的使用体验。DeepSeek 的技术特点DeepSeek-V3 的技术特点采

了多头潜在注意力

(MLA)

和DeepSeekMoE

架构,实现高效推理,提升成本效益。开创了

种无辅助损失

(auxiliary-loss-free)

策略用于负载平衡,并设置了多token预测训练目标,以提升性能。-在训练效率上,运用了FP8

混合精度训练,让显存得到了优化,极大提升了计算性能与训练稳定性。-支持千卡级训练,满足超大规模集群分布式训练需求。采用DualPipe

(双向流水线)算法和通信优化,实现计算-通信近乎完全重叠。-训练分为三个阶段:预训练

(Pre-Training)、

长上下文扩展

(Long

Context

Extension)

和后训练

(Post-Training)。-推理环节通过独特的P/D分离策略和NanoFlow

的双流推理模式,提升了系统的资源利用率。DeepSeek的技术特点DeepSeek@)gI)t¿¿„•*.,o %@@?g

Ï@,<,@@RÏjj

(MoE)OOOOOOOOOutputÜddenh,RouterTop-fftRoutedExpertShared

ExpertOOOOOOOOinputHidden

u\%@

:

DeepSeekt

QDeepSeek@}gI)t(g„•*.,a %@@gt—@§$@]gfg@3g

(MLA)Mi.A‹^1.°.Iñ03tBZA

(%B.°.i3dW'*iZ/3d7)ZPOIt4tIñB2iZtZ8IZA.OutputHiddenu,

oooo@@ CachedDuring

InferenceooooIVtulti-Head

AtténtionLatentcK*@

@

-

@i

iOO OO Latent

c,’InputHidden

h‹

OOOO OOOO@U@

:

DeepSeekj

@a

DeepSeek@ØI}č@,•ÿo %@@Ø

@Ø@@@I}

(MTP)@: DeepSeekìŚQ关键技术——FP8

精度训练-DeepSeek-V3

将大部分计算密集型操作(如矩阵乘法)使用FP8

精度进行,同时保留一些关键操作(如嵌入层、输出头、归一化操作等)的高精度

(BF16

FP32), 以确保训练的数值稳定性。-在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法,成功实现了高效的

FP8精度训练。-FP8

精度训练不仅显著提高了训练速度和效率,还保持了模型的高性能。DeepSeek 的技术特点DeepSeek

的技术特点关键技术——双向流水线

(DualPipe)核

的GPU上

线

处理

。具

线

(micro-batches), 从

资源

。DeepSeek

的技术特点关键技术——跨节点通信技术-通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未来硬件设计的建议,显著提高了跨节点通信的效率。-不仅减少了通信开销,还提高了整体训练效率,为大规模分布式训练提供了强大的支持。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情况-DeepSeek-R1 和DeepSeek-R1-Zero 都是开源推理大模型。-

两者均基于DeepSeek-V3

的混合专家

(MoE)

架构,总参数量为6710亿,但每个推理请求仅激活约10

的参数以降低计算成本。主

:R1-Zero:

完全依赖强化学习

(Reinforcement

Learning,RL)训练,跳过监督微调

(Supervised

Fine-Tuning,SFT),

通过组相对策略优化(Group

Relative

Policy

Optimization,GRPO)算法和组内竞争机制优化推理能力,主要目的是探索和验证纯RL

的可行性和潜力。R1-Zero除了证明纯强化学习的有效性,亦有“顿悟”现象的出现,即在模型自发的推理策略博弈中学习到的新的、更有效的推理策略。

R1:

在R1-Zero基础上引入冷启动数据和多阶段优化,结合监督微调

(SFT)

与强化学习

(RL),

提升输出的可读性和稳定性,优化输出质量,对性能和实用性进行平衡,适用于实际场景。DeepSeek 的技术特点精调(监督学习)跳过了监督微调

(SFT)

的过程,直接将强化学习

(RL)

应用于基础模型,从而发展出DeepSeek-R1-Zero

(会推理,且出现“顿悟时刻”)但R1

Zero有些"毛病",比如可读性差、语言混合等,所以团队开始探索R1为了解决R1-Zero的“毛病”,DeepSeek

团队加了两招:冷启动数据:

先给DeepSeek

V3

Base模型看几千条人工写的高质量推理示例(比如详细的解题步骤),让它“开窍”;多阶段训练:先用冷启动数据微调模型,再用强化学习进一步优化,最后结合其他任务的数据(比如写作、翻译)再训练,让模型既聪明又“

会说人话”

。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情况DeepSeek

V3 BaseDeepSeekR1

ZeroDeepSeek R1DeepSeek 的技术特点图片来源:《DeepSeek自学手册》精调(强化学习)R1R1-Zero主要特点在R1-Zero基础上引入冷启动数据和多阶段优化,结合监督微调(SFT)与强化学习(

RL)完全依赖强化学习(RL)训练,跳过监督微调(SFT)推理能力稳定且全面潜力大但波动性强可读性语言流畅、结构清晰语言混杂、重复率高泛化性覆盖通用任务(问答、写作等)局限于数学、代码等强验证领域训练效率冷启动加速训练,避免局部最优收敛时间长(无先验引导)应用场景实际场景技术验证DeepSeek 的技术特点DeepSeek-R1

和DeepSeek-R1-Zero

的对比DeepSeek-R1OpenAl

o1AIME

202479.8%79.2%MATH-50097.3%96.4%Codeforces20292061MMLU90.8%91.8%DeepSeek-R1

的性能表现-DeepSeek-R1

作为开源模型,在数学、代码、自然语言推理等任务上,性能能够比肩OpenAl01

正式版。-在国外大模型排名榜Chatbot

Arena上

,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAl

的ChatGPT-40

最新版并列,并在风格控制类模型

(StyleCtrl) 分类中与OpenAl

的01模型并列第一。DeepSeek 的技术特点基准测试成绩对比DeepSeek-R1 的技术特点强

:DeepSeek-R1的训练方法是最大亮点。通过重新设计训练流程、以少量SFT数据+多轮RL强化学习的办法(基础模型

→RL→微调迭代),既提高了模型准确性,也显著降低了内存占用和计算开销。奖励机制设计:

DeepSeek-R1采用了准确性奖励、格式奖励、语言一致性奖励等机制,确保了模型在推理任务中的高效性和可读性。训练模板与结构化输出:DeepSeek-R1

采用“思考-回答”双阶段训练模板,模型需先展示推理过程,再提供最终答案,推理过程可追踪,为奖励计算提供了明确基准。蒸馏技术:DeepSeek-R1

遵循MIT

License,允许用户通过蒸馏技术借助R1训练其他模型。

DeepSeek-R1

系列提供1.5B至70B

参数蒸馏版本,其中7B模型经INT4

量化后仅需2-4GB

存储,完美适配终端设备内存限制。DeepSeek

在开源R1-Zero和R1两个660B模型的同时,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上可以对标OpenAl

01-mini。-

链(CoT,Chain

of

Thought)

输出:DeepSeek-R1

的动态思维链,支持数万字级内部推理过程,解决复杂问题时能自主拆解步骤并验证逻辑,输出可解释性更强的结果。DeepSeek-R1

通过API对用户开放思维链输出。DeepSeek的技术特点DeepSeek@@I)?@,•go %@@&—••@@@@ (Knowledge

Distillation)- \I'eZ&?—f4'8":/&5ñ+MIL (bib\ZE) as0i%Ys€'J•9tBI8rI9tL(?1tBB›

BB:It.* " J J •DeepSeek 的技术特点总结——DeepSeek大模型的核心特点高性能+

低成本+

开源+

国产PARTDeepSeekîËñŽ@åËśé市场反馈-

1月27日,

DeepSeek

引发了股票市场的剧烈波动。Al概念股大跌,欧美科技股市值蒸发1.2万亿美元,欧美芯片制造商以及为Al和数据中心供电的全产业链公司齐跌。其中,英伟达收盘暴跌16.97,市值一个交易日蒸发5926.58亿美元(约合人民币4.3万亿元),规模创美股史上最大。截止1月31日,

DeepSeek

App上线仅21天,日活跃用户DAU2215万,达ChatGPT日活用户的41

.

6

,

超过豆包(

1695

万)。截至2月2日,

DeepSeek App迅速攀升至140个国家的苹果App

Store下载排行榜首位,并在美国的Android

Play

Store中同样占据榜首位置。DeepSeek

造成的影响大佬表态美国总统特朗普:

DeepSeek给我们(科技)行业敲响了警钟,我们应为了赢得胜利而努力竞争。微

软CEO

纳德拉:在财报电话会议上称DeepSeek

“有一些真的创新”,并透露R1

模型已经可以通过微软的Al平台获取。-MetaCEO 扎克伯格:Meta将DeepSeek视为竞争对手并正在学习。-ASML

CEO:DeepSeek这样的低成本模型将带来更多而非更少的Al芯片需求。-Anthropic 创始人:DeepSeek-V3是真正的创新所在。-人工智能专家吴恩达:中美AlI差距正在迅速缩小。-OpenAI CEO

山姆奥特曼:“在开源上,OpenAl

站在了历史的错误一方”。《黑神话:悟空》的制作人冯骥:这是一项“国运级别的科技成果”。DeepSeek

造成的影响重要影响1:改变了Al技术的发展方向-DeepSeek

通过算法创新和系统工程优化,实现了与国际顶尖模型相当的性能,同时大幅降低了训练成本。-算力至上的传统认知被彻底打破。训练Al大模型,并不只有算力堆砌这一条路。-算法创新的重要性提升,不再仅仅聚焦于算力创新和数据创新。-通过算法的优化,可以实现AI平权。DeepSeek

造成的影响重要影响2:改变了全球Al进展的格局-DeepSeek 大模型的出现,对美国的人工智能领导地位构成威胁,不仅引发了OpenAl

、Meta

谷歌等众多大模型厂商恐慌,还引发了英伟达等Al芯片企业的股价大跌。-DeepSeek 表明中国与美国在AI大模型领域的差距正在快速缩小,甚至在某些方面实现了超越。-DeepSeek

大幅提升了国产AI产业链(芯片、终端、大模型、应用)的信心。-DeepSeek-DeepSeek进一步引发了资本市场对中国科技力量的重新评估,也影响了对中概股的重新估值。的成功,对其它发展中国家也有鼓舞作用,有助于Al全球化普及和应用。DeepSeek

造成的影响重要影响3:全面加速Al端侧应用的落地-大模型的价格正在快速下降,极大推动了AI在端侧的应用普及。-Al 推理首次真正突破硬件限制,部署成本从高端GPU

扩展至消费级GPU。-大模型开始具有低参数量的特征,加上蒸馏技术的崛起,为本地化部署到Al终端运行提供了可能。-本地部署为用户提供了更高的灵活性和隐私保护,尤其适合对数据安全有较高要求的场景,有利于Al的进一步普及。-算力需求会从预训练端转移到推理端。推理需求的持续增长,会带动端侧Al算力芯片、终端等产业的增长浪潮。-Al

端侧应用普及,会进一步推动各行各业的效率提升,加速催生了新的商业模式和产业形态。-垂直行业模型有可能迎来一波发展高潮。DeepSeek

造成的影响重要影响4:对Al算力供给关系造成冲击-

短期来看,

市场和公众普遍认为DeepSeek

的出现,

降低了Al大模型对智算算力的需求(

英伟达股价下跌的原因)。-

但事实上,

从长期来看,

根据杰文斯Jevons悖论(

第一次工业革命期间,

蒸汽机效率的提升,

使得市场上煤炭的消耗总量反而增加了),整个社会随着Al应用的加速普及,对算力的总需求反而会增加。DeepSeek

造成的影响DeepSeek造成的影响重要影响5:引领开源力量的大跨步发展-DeepSeek

是开源大模型的一次重大胜利。-DeepSeek

的成功,吸引了大量开发者参与改进和研究,推动了开源社区的发展。-DeekSeek

对闭源模型市场形成了冲击,迫使闭源厂商降低价格或提升性能以维持市场份额。云厂商全面接入DeepSeek-华为云:2月1日,华为云联合硅基流动首发并上线基于昇腾云服务的

DeepSeek R1N3推理服务。-腾讯云:2月3日,腾讯云宣布

DeepSeek-R1

大模型一键部署至腾讯云

[HAI,

高性能应用服务」上。阿里云:2月3日,阿里云宣布阿里云PAI

Model

Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。-百度智能云:2月3日,百度智能云宣布百度智能云千帆平台已正式上架

DeepSeek-R1

DeepSeek-V3

模型。火山引擎:2月4日,支持V3/R1等不同尺寸的DeepSeek

开源模型,可在火山引擎机器学习平台veMLP

中部署,也可在火山方舟中调用。-金山云:2月8日,已正式发布基于DeepSeek-R1 蒸馏模型的多种镜像服务,用户可在公有云

GPU

云服务器、GPU 裸金属服务器分别搭建推理服务。微

软Azure:1 月29日,,微软也宣布DeepSeek R1已

在Azure

Al

Foundry和

GitHub

上提供,开发者将很快就能在Copilot+PC

上本地运行

DeepSeek的

R1

精简模型,以及在Windows

上庞大的GPU

生态系统中运行。亚马

逊AWS:1 月30日,亚马逊表示,

DeepSeek-R1模型现在已可以在AmazonWebServices

上使用。DeepSeek

造成的影响运营商全面接入DeepSeek中

:天翼云自研“息壤”智算平台完成国产算力与DeepSeek-R1N3

系列大模型的深度适配优化,成为国内首家实现DeepSeek

模型全栈国产化推理服务落地的运营商级云平台;中

:移动云全面上线DeepSeek,

全版本覆盖、全尺寸适配、全功能畅用。现已全面兼容DeepSeek

所有主流版本,灵活应对多样化业务场景需求;中

:联通云与DeepSeek

实现多场景深度对接。联通云已基于“星罗”平台实现多规格DeepSeek-R1模型适配,并在全国270多个骨干云池预部署,接入多种产品场景。DeepSeek

造成的影响生态链适配-

目前已有多家国产Al算力厂商宣布适配DeepSeek,

比如华为昇腾、壁仞科技、天数智芯、摩尔线程、沐曦等。-2月4日,天数智芯与Gitee

Al联合发布消息,在双方的高效协作下,仅用时一天,便成功完成了与DeepSeekR1的适配工作,并且已正式上线多款大模型服务。-2月4日,华为表示,潞晨科技携手昇腾,联合发布基于昇腾算力的DeepSeek R1系列推理API及云镜像服务。-2月6日,吉利汽车与DeepSeek完成模型融合,计划通过蒸馏训练优化车载Al功能(如意图理解、主动服务等),并计划在智能座舱、自动驾驶等领域应用。-2月7日,岚图汽车则宣布首款量产车型“知音”将搭载DeepSeek

模型,支持Al多语义指令识别等功能。-2月16日,百度搜索和文心智能体平台宣布将全面接入DeepSeek

和文心大模型最新的深度搜索功能。-2月17日,有媒体发现,微信已为搜索功能接入DeepSeek-R1

模型,处于小范围灰度测试中。一....DeepSeek

造成的影响PARTDeepSeek@@@ŒïŽDeepSeek 的使用入口-官

方官

:/官

方API平台:/-第三

方各大应用商店,下载官方App第三方工具接入-

自己搭建部署私有化部署(本地部署)DeepSeek

的使用方法DeepSeek@@@/2@o

DeepSeek- @@: DeepSeek@AI@@@@,

DRAG

(@@@@

)

.

@

DeepSeek

@gg@

tEIi2

IIEsa

(xxezo24Y7» zêtass«nsa1sygrna2a«r°aa.@@

DeepSeek,

@@gJ{

!场景细分场景再细分场景文本生成文本创作文章写作、诗歌创作,文案生成,剧本设计.....摘要与改写生成论文摘要,外文翻译

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论