




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2核心观点从kimi(月之暗面)到智谱,从豆包(字节)到DeepSeek,中国基础大模型一直处于快速演进之中,演进的主旋律则体现为性能提升和成本降低,与计算机历史上PC、互联网的发展逻辑类似。我们总结了以下三个关键词:关键词1:低成本。与暴力美学的大模型相对应的就是高成本,动则数百上千万元的成本投入在很大程度上制约了下游需求的释放,在中国当前的宏观环境下这种挑战更为明显。DeepSeek带来的成本指数级下降,将会大大加速AI应用的落地进程。关键词2:开源。伴随闭源基础大模型能力不断提升之后,是否会向上侵蚀应用市场成为了市场的一种担忧。而开源体系大大降低这种可能:1)开源体系需要生态繁荣,基模厂商与应用厂商是合作关系;2)对于应用厂商而言,开源大模型的可获得性、可把握性更强,更容易基于此构建自己的垂直模型和能力。关键词3:中国。中国具有广阔的应用场景,但一方面接入海外OpenAI模型存在一定的障碍,另一方面中国的基础大模型能力存在差距。DeepSeek缩小了这种能力差距,一定程度上补齐了中国AI应用的底座短板。3目录CCONTECONTENTS1Big
Picture:从基础模型的能力上限和应用成本谈起4图表:AI应用分析框架资料来源:应用的分析框架:能力上限与应用成本共同决定应用场景◼
AI随模型能力的提升和应用成本的降低,共同解锁更多应用场景。技术-能力上限曲线价格-应用成本曲线模型能力上限模型定价应用场景随模型能力提升和成本降低而不断解锁;DeepSeek的低成本+强能力将解锁更多应用场景;……对话场景;
AI搜索; 营销智能客服;
AI代码; 医疗…… …… 法律5图表:R1在各项任务中的表现资料来源:
DeepSeek-R1:
Incentivizing Reasoning Capability
in LLMsviaReinforcement
Learning,图表:DeepSeek
V3和其他模型的表现对比资料来源:DeepSeek-V3
Technical
Report,能力上限之一:DeepSeek系列模型拥有比肩GPT-4o、Claude3.5和o1的能力◼
DeepSeek
V3再次展现出能力上限突破,在MMLU、MATH
500等任务中均表现除了优于GPT-4o和Claude-3.5-Sonnet的SOTA能力。其发布的推理模型DeepSeek-R1在数学、编程等推理任务中接近或达到了o1的水平。图表:随步数提升R1-Zero的AIME任务准确度资料来源:DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
viaReinforcement
Learning,能力上限之二:后训练阶段大规模应用强化学习,表现推理能力扩展◼
DeepSeek模型在Post-Train阶段大规模应用了强化学习方法。R1使用了冷启动微调+强化学习方法,R1-Zero版本模型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和long-CoT能力涌现等)。图表:深度思考能力提升资料来源:DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
viaReinforcement
Learning,DeepSeek-R1-Zero的能力随步数提升DeepSeek-R1-Zero自然涌现long-CoT能力6资料来源:DeepSeek-R1:
Incentivizing
Reasoning
Capability
in
LLMs
via
Reinforcement
Learning,能力上限之二:纯强化学习的R1-Zero展现出“Aha
Moment”能力涌现◼
RL下模型展现出了自主开发先进问题解决策略的行为:1)模型表现出了“Aha
moment”,突然学会更有效的推理方式,也增加了推理复杂度;2)模型在训练过程中出现了Reflection能力,能够重新评估初始方法来学习为问题分配更多的思考时间。虽然应用纯强化学习方法的R1-Zero在稳定性、可读性上仍有差距(存在多语言混杂生成现象),但AhaMoment、Reflection等能力的出现展现出了纯强化学习方法的巨大潜力。图表:训练过程中R1-Zero表现出的Aha
Moment7图表:Janus-Pro多模态理解和视觉生成表现能力上限之三:开源Janus-Pro模型,图像生成和多模态理解能力大幅提升Janus-Pro
结合了优化的训练策略,扩展了训练数据集和模型规模。通过这些改进,Janus-Pro
在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。作为在GenEval等评测中超越DALL-E
3和Stable
Diffusion
3-Medium的开源模型,Janus-Pro也展现出了更多应用潜力。资料来源:Janus-Pro:
Unified
Multimodal
UnderstandingandGeneration
with
Data
and
Model
Scaling,8应用成本之一:极致优化的工程化方法,大幅降低训推成本◼
DeepSeek在训练阶段采用了多种方法降低训练成本,并保证模型的良好表现。1)冷启动:构建并收集少量
Long-CoT
数据来微调模型,而非单纯运用大规模RLHF或RL,很好地平衡了性能和成本;2)MLA(多头潜在注意力机制)的优化:降低了键值量缓存需求,减少算力压力;后续的ALFS(无辅助损失负载均衡策略)方法:能让MoE的专家在偏好值和工作量上达成平衡状态,当负载比较大的时候能够转移到其他专家上,加强了模型整体性能的负载均衡与稳定性。图表:DeepSeek-R1训练过程资料来源:木尧,9图表:闭源模型与开源模型的差距正在缩小图表:DeepSeek-R1
api价格与o1对比应用成本之二:低推理成本+开源,api成本仅为o1几十分之一对V3进行蒸馏的R1在数学、代码能力上再次显著提升。MoE架构的R1模型共有671B规模,激活后的参数量为37B,部署时能够大大节省推理成本。DeepSeek开源了模型,API的调用价格也大幅低于OpenAI。以Output
API价格为例,DeepSeek-R1大约是OpenAI的3.7%。以R1为代表的优秀开源模型的能力也离闭源模型越来越近。DeepSeek-R1的Output
API价格约为o1的3.7%资料来源:DeepSeek,资料来源:Epoch
AI,10图表:各模型微调示例数与准确度对比图表:s1表现出的Test
time
Scaling应用成本之三:蒸馏小型模型展现Test-time
Scaling,有极高应用潜力通过将DeepSeek-R1的推理能力蒸馏到更小的模型中,较小的模型也能具备强大的推理能力。DeepSeek开源了从15
亿到700亿参数的R1蒸馏版本。这些模型基于Qwen和Llama等架构蒸馏,表明复杂的推理能力可以被封装在更小、更高效的模型中。从论文结论看,蒸馏比单独依赖强化学习训练更为高效,且蒸馏与强化学习的结合可以进一步提升模型性能。2025年2月,科学家李飞飞团队带领以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型,也展现了蒸馏模型应用的更多应用潜力。S1仅使用1000个微调示例就达到了类似r1的准确度资料来源:s1:
Simple
test-time
scaling,资料来源:s1:
Simple
test-time
scaling,11模型展现出随推理时间增加准确度增加的Test
time
Scaling12目录CCONTECONTENTS2应用场景:通用+行业场景不断解锁,关注B端SaaS落地+AI安全13图表:2022-2027自动化市场规模预测($B)资料来源:IDC,图表:Service
as
a
Software面向的市场规模资料来源:Sequoia
Capital,理解应用层公司的价值创造:取代人力,瞄向万亿级别的服务市场应用层AI公司不仅是基础模型之上的前端界面,而是拥有复杂的认知架构的应用产品。通常包括多个基础模型,上面有某种路由机制,用于检索增强生成(RAG)的向量和
/
或图数据库,合规性和安全性防护手段,以及模仿人类在工作流程中进行推理思考方式的应用逻辑。借助Agent,应用层软件公司能够将服务转化为软件(Service-as-a-Software)。这意味着应用的目标市场不是软件市场,而是以万亿美元计的服务市场。而随着基础模型推理成本快速下降和性能提升,这种应用的价值创造增速将远超传统软件模式。070605040302010202320242022Labor-c2025
2026
2027System-centric
automation图表:办公软件类别占比情况(截至2024年4月)资料来源:头豹研究院,通用场景之一:生产力工具对应生成能力,AI加速渗透◼
生产力工具能够较好嵌入和应用大模型的生成能力,将最先受益于模型能力上限提升和成本下降。如以Office365Copilot、WPS
AI为代表的AI+办公软件和以Midjourney、Sora为代表的多模态生成模型正在加速渗透。据智联招聘调研,2025年春招首周约60%职场人已经在工作中使用AI工具,明显高于去年同期的44%。39%21%4%13%AI+文字处理AI+通讯协作类AI+演示协作类AI+数据处理类AI+项目管理类14图表:用户对Github
Copilot的评价资料来源:Github,通用场景之二:AICoding大幅提升编程效率,用户数快速上升Cursor是AI驱动的代码编辑器,能够无缝与VS
Code集成。通过先提供新用户2000次代码免费生成功能,再转化付费的方式,目前Cursor已经拥有超过36万名个人开发者。个人用户每月支付20-40美元,平均合同价值为276美元,ARR从$1M到$100M仅用了不到两年时间。Github
Copilot发布以来,帮助开发人员将Coding速度提高55%。随用户数超过1.5亿,GitHub也宣布将开设免费的GitHubCopilot服务,并将服务集成到了新版的VS
Code中。新用户也可拥有每月2000
次代码补全和50条聊天消息的免费额度。图表:各公司ARR增速与时间的关系资料来源:SACRA,Spearhead,7.90%0%0%10%50.90%50%40%29.70%30%20%11.50%60%极其有用有用稍微有用完全无用用户比例15通用场景之三:AI搜索以Overviews形式落地,Perplexity
AI等SaaS公司崛起AI搜索已经能够为用户提供精确的信息来源,大幅提升搜索效率。Google等搜索引擎提供了AIOverviews功能,通过综合来自多个来源的信息以提供更全面的摘要。这种方法让用户更广泛地了解搜索结果,无需点击多个链接。AI搜索公司Perplexity以对话形式为用户提供搜索的答案,每月处理约4亿次搜索查询。公司估值实现了24年初的5.2亿美元到年底90亿美元的快速增长。AI搜索也将赋能私域数据搜索。据Hebbia,Google仅索引了全球4%的数据。大部分的私有数据,如企业ERP、CRM或者OA系统中的各种数据未得到充分利用。图表:Perplexity
AI的估值增长(单位:$billion) 图表:Google
Overviews示意1098765432102024年1月 2024年4月 2024年6月 2024资料来源:Google,资料来源:Crunchbase,Bloomberg,Datawrapper,16图表:营销人员对GenAI带来ROI的定义资料来源:Statista,通用场景之四:AI营销重构传统营销模式,降本增效潜力初显AI营销通过数据智能、自动化和个性化技术,正在重构传统营销模式,成为企业降本增效、提升客户体验的核心工具。IDC预计GenAI在未来五年内将营销生产力提高40%以上的潜力。
Applovin提供了提升ARPDAU、增加广告库存、获取App用户和增加应用内购买。未来GenAI有望直接生成广告并创造收入。据Accenture的预测,到2029年30%的社交媒体广告,将由AI自动生成。51%50%47%46%42%40%30%20%10%0%50%60%效率改善客户关系有效的数据分析提高财务收益准确的预测图表:Applovin扩大受众群体增收的途径资料来源:Applovin,17图表:SAP
Joule
Agent平台通用场景之五:AI
+
ERP
/HR等企业SaaS场景◼
AI能够赋能B端SaaS软件,在企业通用领域提供AI能力。AI+ERP(如SAP、金蝶)产品能够实现对财务和运营数据的分析跟踪;AI+HR(如北森)产品能够赋能人力资源管理,在AI面试等场景实现降本增效。图表:北森AI面试降低成本资料来源:SAP,资料来源:北森,1819资料来源:LeewayHertz,行业场景之一:医疗行业诊断/治疗跟踪、行政任务的各类流程自动化◼
AI在医疗领域的应用涉及各部门的优化与效率提升。1)诊断辅助和医学图像分析:人工智能代理使用深度学习算法分析医学图像,以协助放射科医生检测异常并做出准确诊断;2)个性化治疗计划和预测分析:AI代理使用患者数据和医学文献制定针对个人患者需求和病史的个性化治疗计划;预测分析模型可预测疾病进展和治疗结果;3)药物发现和开发:人工智能代理通过分析大量数据集来识别潜在的候选药物、预测疗效并优化临床试验流程,从而加快药物发现;4)虚拟健康助手和患者监测:人工智能虚拟健康助手为患者提供实时指导、健康建议和提醒。人工智能代理还可以实现远程患者监测,以便尽早发现健康问题并采取主动干预措施;5)行政任务自动化:
AI代理自动执行行政任务,例如预约安排、医疗转录和计费流程,以简化医疗保健运营并减轻行政负担。图表:AI
Agent在医疗领域的功能资料来源:LeewayHertz,行业场景之二:法律行业取证、尽调、诉讼支持等各类流程自动化◼
AI在法律行业已经渗透至各工作流程中。可以参与的过程包括:1)电子取证与调查,涉及大量电子数据的识别、收集和分析,加速过程;2)合同审查与尽职调查,自动化和增强劳动密集型的合同审查和尽职调查流程;3)诉讼支持,自动化大量文档的处理;图表:AI法律工作流应用20行业场景之三:多模态突破大幅增强人形机器人泛化能力资料来源:甲子光年,多模型大模型为具身智能发展打开空间。
“具身智能(EmbodiedAI)”指有物理载体的智能体,在与物理世界的交互过程中,通过感知、控制和自主学习来积累知识和技能,形成智能并影响物理世界的能力。人工智能算法的发展,尤其是多模态大模型技术的突破性进展,将显著加速机器人产业的发展,提升机器人的智能水平,使得机器人能够自主进行判断和识别,执行复杂的多阶段语义推理任务,不仅提高了机器人的泛化能力,也快速推动了人形机器人通往量产的进程。图表:具身智能的不同阶段及意义 图表:大模型与Agent技术是机器人产业突破临界点的关键资料来源:甲子光年,21资料来源:鉴智机器人、◼
自动驾驶将是通用机器人的最先落地场景。在CVPR
2023会议上,特斯拉公司介绍了他们研发的“通用世界模型”。该模型具备强大的功能,能够对未来事件进行有效预测,并且可以通过人为干预进行控制。此外,它能够以多种形式输出结果,极大地便利了仿真实验的开展,为科研和技术创新提供了新的可能。随着通用世界模型的成熟和落地,未来智能汽车也将成为一个通用的端侧智能体,自动驾驶或将成为通用机器人的最先落地场景。图表:汽车由专用智能向通用智能发展行业场景之三:通用具身智能场景中,智能驾驶将最先落地22资料来源:Microsoft,AI安全:与技术进步相伴相生,永不过时的话题DeepSeek遭受了大规模恶意攻击,引发了AI安全的关注。1月28日,DeepSeek官网服务状态页面显示:近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式。DeepSeek面临的核心网络安全事件可能包括数据泄露、越狱攻击和DDoS等。我们认为,AI的部署和应用必然诞生新的安全问题,但另一方面AI技术的突破也可促进主动防御技术创新、数据隐私与合规增强、身份认证和访问控制升级与安全响应效率提升。图表:微软概括的AI安全体系23投资建议我们认为当下时点需要重视AI应用,中国AI应用有望迎来数年的黄金发展期。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西安邮电大学《美术鉴赏与批评》2023-2024学年第二学期期末试卷
- 浙江理工大学《木材工业自动化》2023-2024学年第二学期期末试卷
- 南昌大学共青学院《免疫学与病原生物学》2023-2024学年第二学期期末试卷
- 抚顺师范高等专科学校《品牌形象专项设计一》2023-2024学年第二学期期末试卷
- 证券从业资格证券投资顾问胜任能力考试证券投资顾问业务真题1
- 山东劳动职业技术学院《智能车辆环境感知技术》2023-2024学年第二学期期末试卷
- 2025辽宁省安全员B证(项目经理)考试题库
- 湖南冶金职业技术学院《企业生产与技术管理》2023-2024学年第二学期期末试卷
- 2025年陕西省建筑安全员-B证(项目经理)考试题库
- 湖南电气职业技术学院《面向数据科学的语言》2023-2024学年第二学期期末试卷
- 抽水蓄能辅助洞室施工方案
- 数据结构英文教学课件:chapter7 Searching
- 护理核心制度及重点环节-PPT课件
- 夹套管现场施工方法
- 部编版语文五年级下册形近字组词参考
- 第三章走向混沌的道路
- 化探野外工作方法及要求
- 2006年事业单位工资改革工资标准表及套改表2
- 江苏省特种设备安全条例2021
- 青岛海洋地质研究所公开招聘面试答辩PPT课件
- 常见导管的固定与维护PPT课件
评论
0/150
提交评论