版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度分析|计算机证券研究报告计算机行业比较试用DeepSeek看模型走向应用的新迹象度求索公司上线DeepSeek-V3系列模型首个版本,较前代模型DeepSeek-V2.5有显著提升。为了深入探索该模型的能力,我们采用了高效的负载均衡策略、FP8混合精度训练框法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。用的DeepSeekMoE是通过参考了各术的发展提供了重要启发,未来或将从依赖大规模通用模型转向发展行业评级前次评级报告日期买入2024-12-29-11%-11%-22%-34%24% 计算机沪深300分析师:刘雪fliuxuefeng@分析师:周hzhouyuan@请注意,周源并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。计算机行业:主题趋势轮动抢跑背景下的更多选择方向计算机行业:券商新一代核心交易系统招标打破僵局计算机行业:鸿蒙生态构建、代表性行业规模测算及推进节奏判断联系人:戴亚aiyamin@识别风险,发现价值请务必阅读末页的免责声明重点公û估|ܯ务V÷表股票简ùw盘ÿ报^å期Ï级\vÿ|ÿ元/股ĀÛ武纪-U--紫Y股份浪潮ïoÑ山办公第四范__----O兴科技星ÿ科技-U---数据g源ÿWind1广发证券发展研~中ß备ìÿ表中估|g标k照最新w盘ÿ计ÿ识别风险,发现价值请务必阅读末页的免责声明 (二)模型兼具低成本与高性能的特点 (三)针对程序开发场景,DEEPSEEK生成内容更符合开发者要求 (四)DEEPSEEK生成文本的质量符合行业平 三、数据与算法仍有潜力可待挖掘,算力依 识别风险,发现价值请务必阅读末页的免责声明 图4:MMLUReduxZeroEval 图7:豆包大模型回答空间理解和推理问题结果 图9:通义千问大模型回答空间理解和推理问题结果 图12:豆包大模型回答密文解码问题的结果 图14:通义千问大模型回答密文解码问题的结果 图17:豆包大模型回答空间几何问题的结果 图18:豆包大模型回答空间几何问题的结果 图20:通义千问大模型回答空间几何问题的结果 图23:豆包大模型回答数学计算问题的结果 图24:豆包大模型回答数学计算问题的结果 图26:通义千问大模型回答数学计算问题的结果 图29:豆包大模型代码生成的结果 图31:通义千问大模型代码生成的结果 图32:通义千问大模型代码生成的结果 图37:豆包大模型实现网页开发功能的程序开发过程 图38:豆包大模型实现网页开发功能的程序开发过程 图39:豆包大模型实现网页开发功能的程序开发过程 识别风险,发现价值请务必阅读末页的免责声明图40:豆包大模型实现网页开发功能的程序开发过程 图43:通义千问大模型实现网页开发功能的程序开发过程 图44:通义千问大模型实现网页开发功能的程序开发过程 图46:豆包大模型文字创作生成结果 图48:通义千问大模型文字创作生成结果 图49:通义千问大模型文字创作生成结果 图52:豆包大模型在求职场景的文本生成结果 图55:通义千问大模型在求职场景的文本生成结果 图56:通义千问大模型在求职场景的文本生成结果 识别风险,发现价值请务必阅读末页的免责声明一、DeepSeek-V3上线,模型性能提升较快在14.8Ttoken上进行了预训练,但当前版本暂不支持多模态输入输出。(一)沿用前代MLA+MoE架构,训练成本大幅降低DeepSeek-V2的MLA(多头潜在注意力)和自研DeepSe降低推理过程中的kv缓存开销,而MoE可以通过动态选择并激活部分专家来降低计算开销。DeepSeek-V3通过专用和共享专家,能够显著提升模型的稀疏程度(总参数量除以激活参数量)。相比DeepSeek-V2的236B总参数(21B激活参数),V3更引入了256个专家,总参数量达到671B,而激活参数量仅仅增加到372.采用多token预测训练目标,提升评估基准的整体性能。数据来源:DeepSeek-V3TechnicalReport,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明降低了训练成本,能够在不增加额外开销的情况下进一步扩大模型规模。费18万H800GPU小时,在配备2048卡个H3.7天,整个预训练阶段总计花费266.4万GPU小时。外加扩展上下文长度所需的假设H800GPU的租用价格是每小时2美数据来源:DeepSeek-V3TechnicalReport,广发证券发展研究中心(二)模型兼具低成本与高性能的特点SimpleQA)上的表现较前代模型DeepSeek-V2.5有显著提升,接近当前最优模型Claude-3.5-Sonnet-1022。而在算法类代码任务(如C识别风险,发现价值请务必阅读末页的免责声明数据来源:DeepSeek-V3TechnicalReport,广发证券发展研究中心在生成速度方面,通过算法优化和工程创新,D存命中)/2元(缓存未命中),每百万输出tokens8元,相较于DeepSeek-V2的输入与输出价格分别为1元/百万tokens和2元/百万tokens,有所提升。但与GPT、图4:MMLUReduxZeroEval得分VS输入API价格(•/1MTo数据来源:DeepSeek官微,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明二、DeepSeekV3大模型测评为了深入探索该模型的能力,我们向DeepSeek提出了8个问题,将代码、文本等各方面能力,具体问题分别是:(1)我的住处在城市和农场之间,农场在城市和机场之间,所以农场到我的“VGhpcyBpcyBhlG5ldyBsYXJnZSBsYW5ndWFnZSBtb2RbA==”“VGhlIE1vZGVsIHRyYWluZWQgd2l0aCByZWluZmIHRvIHBlcmZvcm0gY29tcGxleCByZWFzb25pbmc=”柱体在水平面上的正投影和侧投影,并计算这些投影的面积。请详细解释你的推理年低15个百分点。问两年考核结果均为优的人数至少为多少人?类别筛选商品。请使用Python和Flask框架编写一个简单的WebAPI,该API能够接收HTTPGET请求,并根据查询参数返回符合条件的你的教育背景、相关经验和个人优势,并表达你对该公司和实习职位的兴趣。识别风险,发现价值请务必阅读末页的免责声明(一)DeepSeek密文解码推理能力突出,但空间推理能力弱于豆包大模间理解和推理能力。DeepSeek和通义千问大模型根据文字描述推断出“城市误的,因为空间位置的分布应该在二维平面上进行比较,而不是单一维度的比较大反映其充分理解二维平面空间的能力。数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明数据来源:豆包官网,广发证券发展研究中心数据来源:月之暗面官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明数据来源:通义千问官网,广发证券发展研究中心文解码能力。4个大模型都理解了示例中的编码方式是采用Base64的方法。但是最终仅DeepSeek大模型对于密文解码后得到了正确文本“TheModeltrainedwith正确答案较为接近;而豆包和Kimi大模型解码后的结果与正确答案相差较大。数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明þ12ÿ豆包大模ß回答密文ë码问题öÿÿ数据g源ÿ豆包官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明数据来源:月之暗面官网,广发证券发展研究中心数据来源:通义千问官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明(二)DeepSeek空间几何和数学计算能力行业平均水平相当计算能力。从测试的结果来看,DeepSeek、Kimi和通义千问给出了详细的计算过程,并且计算所得结果都是正确的,但并未执行用户提出的指令“画出圆柱体在水据并计算具体案例。豆包大模型在回答过程中画出了圆柱体的正投影和侧投影,但计算圆柱体正投影的的答案出现了错误。数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明þ17ÿ豆包大模ß回答空间几__问题öÿÿ数据g源ÿ豆包Û网,广发证券发展研~中ßþ18ÿ豆包大模ß回答空间几__问题öÿÿ数据g源ÿ豆包Û网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明þ19ÿKimi大模ß回答空间几__问题öÿÿ数据g源ÿ月之暗面官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明数据来源:通义千问官网,广发证券发展研究中心通义千问数学计算能力略差于其余3个大模型。问题(4)是考察大模型数学计算能识别风险,发现价值请务必阅读末页的免责声明数据来源:DeepSeek官网,广发证券发展研究中心图23:豆包大模型回答数学计算问题的结果数据来源:豆包官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心图24:豆包大模型回答数学计算问题的结果数据来源:豆包官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明þ25ÿKimi大模ß回答数学计ÿ问题öÿÿ数据g源ÿ月之暗面官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明þ26ÿ通O千问大模ß回答数学计ÿ问题öÿÿ数据g源ÿ通义千问官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明(三)针对程序开发场景,DeepSeek生成内容更符合开发者要求DeepSeek和通义千问大模型会对每一段代码进行注释,并且在最后还会解释算法数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明þ29ÿ豆包大模ß代码生röÿÿ数据g源ÿ豆包官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明þ30ÿKimi大模ß代码生röÿÿ数据g源ÿ月之暗面官网,广发证券发展研~中ßþ31ÿ通O千问大模ß代码生röÿÿ数据g源ÿ通O千问Û网,广发证券发展研~中ßþ32ÿ通O千问大模ß代码生röÿÿ数据g源ÿ通O千问Û网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明实现最终功能的过程中,DeepSeek和豆包大模型会对实现程序开发每一个步骤进行详细的引导和解释,更加便于用户的理解。而Kimi和通义千问仅给出了实现程序的代码,对于每一步实现的过程以及原理解释较少。数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明图37:豆包大模型实现网页开发功能的程序开发过程数据来源:豆包官网,广发证券发展研究中心图39:豆包大模型实现网页开发功能的程序开发过程数据来源:豆包官网,广发证券发展研究中心图38:豆包大模型实现网页开发功能的程序开发过程数据来源:豆包官网,广发证券发展研究中心图40:豆包大模型实现网页开发功能的程序开发过程数据来源:豆包官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明数据来源:月之暗面官网,广发证券发展研究中心图43:通义千问大模型实现网页开发功能的程序开发数据来源:通义千问官网,广发证券发展研究中心数据来源:月之暗面官网,广发证券发展研究中心图44:通义千问大模型实现网页开发功能的程序开发数据来源:通义千问官网,广发证券发展研究中心(四)DeepSeek生成文本的质量符合行业平均水平观、气候特点以及人们的生活状态等。在生识别风险,发现价值请务必阅读末页的免责声明þ45ÿDeepSeek大模ß文字创__生rÿÿ数据g源ÿDeepSeek官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明þ46ÿ豆包大模ß文字创__生rÿÿ数据g源ÿ豆包官网,广发证券发展研~中ßþ47ÿKimi大模ß文字创__生rÿÿ数据g源ÿ月之暗面官网,广发证券发展研~中ß识别风险,发现价值请务必阅读末页的免责声明数据来源:通义千问官网,广发证券发展研究中心数据来源:通义千问官网,广发证券发展研究中心求描述教育背景、相关经验和个人优势等,并且针对未提供的信息留有空白给用户自行修改。虽然,通义千问生成的文本内容长职场景中,过于冗长的描述不太符合职场书信往来内容简洁的要求。数据来源:DeepSeek官网,广发证券发展研究中心数据来源:DeepSeek官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明数据来源:豆包官网,广发证券发展研究中心数据来源:月之暗面官网,广发证券发展研究中心数据来源:月之暗面官网,广发证券发展研究中心识别风险,发现价值请务必阅读末页的免责声明数据来源:通义千问官网,广发证券发展研究中心数据来源:通义千问官网,广发证券发展研究中心解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面,DeepSeek并未展现出明显优于其他大模识别风险,发现价值请务必阅读末页的免责声明三1数据与ÿ法Ï有潜力可待挖掘,ÿ力依旧O可或缺ÿ一Ā数据与ÿ法Ï有潜力可待挖掘在ÿ法方面,DeepSeek-V3ö主要亮点包含ÿ(1)多专ÿ混\÷构ÿMoEĀ优化ÿ采用DeepSeekMoE÷构,使用更细þ度ö专ÿÜ共ï专ÿ,通过辅û无损y负载均衡策略,ó高计ÿ效÷2(2)多}潜在ì意力机制ÿMLAĀÿß用MLA÷构,ûì意力¿|进行低秩联\Û缩,减少ëv时ö¿|缓存,同时û查ë__进行低秩Û缩,降低训练时öï活内存,在保持g能ö同时ó高了ëvÜ训练效÷2(3)多î牌预oÿMTPĀ目标ÿ设置MTP目标,k展预o范ör多n未gî牌,增强模ßö预o能力2(4)高效ö训练框÷设计ÿ通过DualPipeÿ法ßó高效流水ÿ并行,通过重叠计ÿÜ通ï¶ÿó高训练效÷2同时UV{用InfiniBandÿIBĀÜNVLink~ÿ,优化内存占用2(5)FP8混\精度训练框÷ÿó出ÿ于FP8数据格__ö细þ度混\精度训练框÷,通过V组量化1ó高累积精度{策略,在保证训练稳定gö同时ó高训练效÷,首次在超大规模模ß上验证了FP8训练ö有效g2在数据方面,DeepSeek-V3使用了14.8T高质量Ü多样化ö训练数据2y据DeepSeek-V3技o报^,þ比DeepSeek-V2,DeepSeek-V3ó升了数学Ü编程样本ö比例,并k大了中英语言之外ö多语言覆盖范ö,优化数据处v流程以减少冗余并确保语ý库ö多样gÜ完整g,同时,采用了文档s包方法以维护数据完整g2DeepSeek-V3通过数据与ÿ法^面ö优化,大幅ó升ÿ力{用效÷,ßó了协同效应2在大规模MoE模ßö训练中,DeepSeek-V3采用了高效ö负载均衡策略1FP8混\精度训练框÷以Û通ï优化{一系W优化措施,~×降低了训练r本,以Û通过优化MoE专ÿ调度1引入冗余专ÿ策略1以Û通过ÿ上O文蒸馏ó升ëvg能2证明了模ß效ÿO仅依赖于ÿ力÷入,即使在|件Í源有Öö情况O,依托数据与ÿ法^面ö优化创新,Ïw可以高效{用ÿ力,ßó较}ö模ß效ÿ2ÿ二Āÿ力oAI大模ßö发展动力,依旧O可或缺DeepSeek-V3通过高质量数据以Ûÿ法优化取ß了较}ö模ß效ÿ,但ÿ力oo让这些数据Üÿ法发挥__用öÍ源__óÿ1.从训练r本g看,y据DeepSeek-V3技o报^,整n预训练¶ÿ总计³费266.4OGPU小时2外òk展上O文ÿ度所需ö11.9OGPU小时Ü^训练耗费ö5000识别风险,发现价值请务必阅读末页的免责声明2.从部署门槛来看,一个完整的DeepSeek-V3部署单元便需要消耗数百块H800,对于硬件设施的要求较高。练过程中的各类问题。第二,DeepSeek-V3采kv缓存开销,其训练方法在特定方向的选择也使得其算力算力依然是推动大模型发展的核心驱动力。与其他同规模模型(如Llama3405B速发展,应用推理驱动算力需求增长的因素也有望得到增强。尤其在实际应用中,阶段的商业化探索方向。DeepSeek-V3为未来大模型技术的发展提供了重要启发,未来或将从依赖大规模通用模型转向发展一些更具特色、成本更低的模型,这些模型可能更适合具体应用场景,随着这些特色模型的不断成熟,AI商业化的边际成本有望降低,将迎来更广阔的应用前景。识别风险,发现价值请务必阅读末页的免责声明四、风险提示(一)AI大模型技术追赶和竞争加剧的风险DeepSeek采用的MLA和MoE架构的训练方法为其他大模型开发提供了技术参考。国内AI大模型或集合自身特点,加强对数据利用和模型优化的效率。技术的追赶或(二)由于下游生态和使用环境的差异,商业化成功有不确定性AI大模型技术发展时间较短,目前仍处于商业化模式的探索阶段。由于下游生态和使用环境的差异,商业化成功有不确定性。(三)AI生成内容存在知识版权纠纷的风险AI大模型生成的文字内容版权归属,目前我国并未出台相关法律法规进行明确清晰的界定。AI大模型生成内容若涉及版权纠纷,或给研发团队带来一定法律风险和不识别风险,发现价值请务必阅读末页的免责声明广发计算机行业研究小组刘雪峰:首席分析师,东南大学工学士,中国人民大学经济学硕士,1997年起先后在数家IT行业跨国公司从事技术、运营与全球项目管理工作。2010年就职于招商证券研究发展中心负责计算机组行业研究工作,2014年加入广发证券发展研究中吴祖鹏:资深分析师,中南大学材料工程学士,复旦大学经济学硕士,曾先后任职于华泰证券、华西证券,2021年加入广发证券发展研究中心。李婉云:资深分析师,西南财经大学金融学硕士,2022年加入广发证券发展研究中心。周源:资深分析师,慕尼黑工业大学硕士,2021年加入广发证券,曾任职于TUMCREATE自动驾驶科技公司,负责大数据相王钰翔:研究员,哥伦比亚大学运筹学硕士,2024年加入广发证券发展研究中心。戴亚敏:研究员,北京大学金融硕士,2024年加入广发证券发展研究中心。广发证券—行业投资评级说明持有:预期未来12个月内,股价相对大盘的变动幅度介于-10%~+10%。广发证券—公司投资评级说明增持:持有:卖出:联系我们预期未来12个月内,股价表现强于大盘5%-15%。预期未来12个月内,股价表现弱于大盘5%以上。广州市深圳市北京市上海市香港地址广州市天河区马场路深圳市福田区益田路北京市西城区月坛北上海市浦东新区南泉香港湾仔骆克道8126号广发证券大厦6001号太平金融大街2号月坛大厦18北路429号泰康保险号广发大厦27楼47楼厦31层层大厦37楼邮政编码510627518026100045200120-客服邮箱gfzqyf@法律主体声明本报告由广发证券股份有限公司或其关联机构制作,广发证券股份有限公司及其关联机构以下统称为“广发证券”。本报告的分销依据不同国家、地区的法律、法规和监管要求由广发证券于该国家或地区的具有相关合法合规经营资质的子公司/经营机构完成。广发证券股份有限公司具备中国证监会批复的证券投资咨询业务资格,接受中国证监会监管,负责本报告于中国(港澳台地区除外)的分广发证券(香港)经纪有限公司具备香港证监会批复的就证券提供意见(4号牌照)的牌照,接受香港证监会监管,负责本报告于中国香港地区的分销。本报告署名研究人员所持中国证券业协会注册分析师资质信息和香港证监会批复的牌照信息已于署名研究人员姓名处披露。重要声明识别风险,发现价值请务必阅读末页的免责声明广发证券股份有限公司及其关联机构可能与本报告中提及的公司寻求或正在建立业务关系,因此,投资者应当考虑广发证券股份有限公司及其关联机构因可能存在的潜在利益冲突而对本报告的独立性产生影响。投资者不应仅依据本报告内容作出任何投资决策。投资者应自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失的书面或者口头承诺均为无效。本报告署名研究人员、联系人(以下均简称“研究人员”)针对本报告中相关公司或证券的研究分析内容,在此声明:(1)本报告的全部分析结论、研究观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年秋九年级历史上册 第2单元 古代欧洲文明 第4课 希腊城邦和亚历山大帝国教学实录 新人教版
- 2024-2025学年新教材高中物理 第七章 3 万有引力理论的成就(1)教学实录 新人教版必修2
- 2024七年级英语下册 Unit 8 Summer Holiday Is Coming Lesson 48 Li Ming's Summer Holiday教学实录(新版)冀教版
- 个人求职信15篇
- 公司员工离职申请(15篇)
- 湖北省随州市部分高中联考协作体2024-2025学年高三上学期12月联考生物试卷含答案
- 教师感恩的演讲稿6篇
- 有关教育的名词解释
- 银行结算账户管理办法
- 关于小学学校工作总结范文锦集十篇
- 美容皮肤科培训课件
- 《传染病及预防》教学设计
- 高中研究性课题报告环境保护
- 天津市西青区2023-2024学年八年级上学期期末数学达标卷(含答案)
- 社会心理学理论考试试题及答案
- 国开2023秋《电子商务概论》实践任务B2B电子商务网站调研报告参考答案
- 国家开放大学《个人理财》形考任务1-4
- 【瑞幸咖啡财务分析报告(附财务报表)5300字(论文)】
- 过敏性鼻炎-疾病研究白皮书
- 幼儿园学前教育五以内的数字比大小练习题
- 垃圾自动分拣机构plc控制毕业论文
评论
0/150
提交评论