版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
证券研究报告
行业动态研究国内外大模型发展情况梳理发布日期:2024年5月15日摘要
核心观点:2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、讯飞星火、清华智谱ChatGLM4、商汤“日日新SenseNova5.0”整体表现逼近GPT-4,开源模型快速进步,文生视频、文生音乐等多模态也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。
国外大模型持续领跑,闭源、开源、端侧模型异彩纷呈。国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模型,以及专注端侧应用的轻量模型。国外基础模型能力持续提升,闭源模型中巨头各显其才。GPT-4性能卓越,始终处于领跑地位,GPT-4o模型实现端到端信息处理,人机交互体验大幅提升;Claude
3后起之秀,整体性能十分强劲;原生多模态大模型Gemini,多模态能力、跨模态能力取得突破。开源模型领域中,LLama2模型塑造了庞大的开源模型家族,LLama3能力大幅提升;Mixtral
8x7B为开源领域引入专家混合技术,成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡,Phi-3、Gemma2实现轻量级模型的小而美。国外闭源模型有望迎来突破,我们预期GPT-5或于近期发布,性能改进超预期。
国内大模型进入性能提升的关键时期,模型应用逐步铺开。2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差无几。百度文心大模型4.0整体性能优异,成为首个国内面向C端收费的大模型产品;科大讯飞星火大模型V3.5性能逼近GPT-4,6月27日模型即将再度更新;清华智谱ChatGLM4基础模型性能强劲,大模型生态全面对标OpenAI;商汤“日日新SenseNova5.0”大模型,其主流客观评测指标达到或超越GPT-4
Turbo。开源模型阵营中,存在通义千问、百川智能实力强劲的竞争对手。多模态模型中,国产大模型同样进展不断,国产文生视频大模型Vidu发布,对标Sora持续迭代;昆仑万维发布文生音乐大模型天工Skymusic,整体表现不输Suno。国内大模型网页流量和应用下载量节节攀升,安卓应用商店中豆包累计下载1.47亿,讯飞星火累计下载1.06亿,大模型已经成为日常生活中的重要助手。
风险提示:大模型技术发展不及预期、商业化落地不及预期、算力基础设施支持不及预期、政策监管力度不及预期、数据数量与数据质量不及预期。第一章第二章第三章第四章第五章国外基础模型发展情况国内基础模型发展情况国内多模态模型相关进展国内模型流量及应用下载量情况风险提示420343740第一章国外基础模型发展情况4GPT-4从“百科全书”逐步成为文理通吃的“专家”
相较于过去的GPT系列模型,GPT-4在多应用领域成为专家,包括为机器学习模型评判标准和为人类设计的专业测试。
在为机器学习模型设计的传统基准上,GPT-4的表现大大优于了目前的最好的语言模型,以及大多数SOTA模型。相较于GPT-3.5以及当前最好的语言模型,GPT-4在机器学习模型学术基准数据集上的表现实现了全面突破,在7项数据集中的测试均优于当前最优的语言模型。在MMLU数据集中,GPT-4不仅在英语语言上的性能实现了突破,在其他语言方面的表现也优于现在的语言模型。在为人类设计的各种专业测试和学术基准数据集中,GPT-4展现出媲美甚至优于人类的水平。图:GPT-4在MMLU不同语言上的性能图:GPT-4在人类专业测试中的表现GPT-3.5在英语语言上MMLU任务的性能5:OpenAI,中信建投资料:OpenAI,中信建投资料GPT-4再度升级成为超级统一智能体
2023年11月7日,OpenAI开发者大会再度升级GPT-4整体功能,为GPT-4引入了新的模型选择器。之前
GPT-4
的工作模式是四个独立的功能(一个对话窗口内只能使用其中一个特性):图像上传
+
GPT-4、插件
+
GPT-4、代码运行器
+文件上传
+
GPT-4、图像生成
+
GPT-4。这次更新使其变成了:GPT-4
+
图像上传
+
代码运行器
+
文件上传
+
图像生成,GPT4自动选择使用接入互联网、进行数据分析、图像生成等诸多功能,GPT-4具备了规划和工具选择的能力,GPT-4真正进化为了一个“理解一切,处理一切,生成一切”的超级统一智能体。
向着更便宜、更好用的方向去发展,并构建可定制、可销售的生态:1)自定义Chatgpt,二次开发自由度更高,并且上线GPT
Store,定制个人GPT也可实现销售;2)gpt4
–turbo:发布了性能更强的GPT-4
Turbo模型,在上下文对话长度等6方面进行了升级;3)更快、更便宜;4)发布assistant
api,降低开发者难度,对开发者更友好。图:GPT页面简化图:利用GPT-4搜索飓风数据并生成飓风图像GPT具备了选择工具的能力互联网搜索飓风数据用DALL·E
3生成飓风图像资料:OpenAI,中信建投资料:OpenAI,中信建投GPT4o实现端到端信息处理,人机交互体验显著提升
GPT-4o:GPT-4omni是跨文本、视觉和音频端到端训练的新模型,所有输入和输出都由同一个神经网络处理。
GPT-4o模型性能在GPT-4基础上再度升级。在英语文本和代码基准测试中,GPT-4o的性能与GPT-4
Turbo不相上下;在语音翻译任务上,GPT-4o强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型;在视觉理解上,也再次反超GPT-4
Turbo、Gemini
1.0
Ultra与Claude
Opus。
GPT-4o免费向所有人提供,GPT-4o模型API同步放出,可以部署各种下游应用程序上。同时API的性能也有所改进,相比GPT-4
Turbo推理速度提升2倍,消息限制提高五倍,而且价格还会降低50%。图:GPT-4o文本性能测试结果图:GPT-4o视觉性能测试结果7资料:OpenAI,中信建投资料:OpenAI,中信建投GPT4o实现端到端信息处理,人机交互体验显著提升
传统模型中实现语音交互中需要三个独立模块:一个简单模型将音频转录成文本、GPT-3.5或GPT-4接收文本并输出文本、第三个简单模型将文本转换回音频,GPT-4o采用端到端模型训练跨越文本、视觉和音频,实现所有信息的处理。
在GPT-4o发布之前,通过语音模式(Voice
Mode)与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,相应速度大幅提升,与人类在对话中的反应速度一致。发布会上展示了视频实时互动解方程,桌面版ChatGPT秒解代码难题,实时对话等一些列交互过程。
OpenAI发布了ChatGPT的桌面版本,桌面版具有全新的用户界面,可以很轻易地和工作流融为一体。图:桌面版GPT-4o解读屏幕信息图:GPT-4o全新的呼叫窗口8资料:OpenAI,中信建投资料:OpenAI,中信建投Claude3:Anthropic推出的第三代大模型
2024年3月4日,人工智能创业公司
Anthropic
宣布推出其突破性的
Claude
3
系列模型,该系列大型语言模型
(LLM)在各种认知任务上树立了新的性能标杆。Claude
3
系列包含三个子模型,分别为
Claude
3
Haiku、Claude
3
Sonnet和
Claude3Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。
最智能的Claude
3
Opus在大多数常见评估基准上表现均十分优异,包括本科水平专业知识(MMLU)、研究生水平专业推理(GPQA)、基础数学(GSM8K)等。Claude3Opus在复杂任务上表现出接近人类水平的理解力和流畅性。图:Claude3模型家族图:
Claude3相关评测结果资料:Anthropic
,中信建投资料:Anthropic
,中信建投Claude3:Anthropic推出的第三代大模型
Claude
3系列模型还具备与其他领先模型相当的视觉能力。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。其中
Claude
3Opus在某些类别上甚至超越了
GPT-4V和
Gemini1.0Ultra。
Claude
3系列模型在发布时将提供20万token的上下文窗口,并且这三个模型都能够接受超过100万token的输入,Anthropic未来可能会增加对更大上下文窗口的支持。在“大海捞针”测试中,Claude
3
Opus不仅实现了近乎完美的回忆能力,准确率超过99%,而且在某些情况下,它甚至通过识别出“针”句子似乎是被人为插入到原始文本中的,指出了评估本身的局限性。图:Claude3视觉测试中的表现图:Claude3大海捞针测试结果资料:Anthropic,中信建投资料:Anthropic
,中信建投原生多模态大模型Gemini
Gemini是一个由Google开发的具有高度能力的多模态模型家族,开发者训练Gemini模型共同处理图像、音频、视频和文本数据,目的是构建一个在各个模态上都有强大泛化能力,同时在每个领域都具有尖端理解和推理性能的模型。
Gemini从模型架构设计开始就采用原生多模态结构,意味着它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
目前,Gemini提供了不同的尺寸版本。分别是:Gemini
Ultra:规模最大、能力最强,用于处理高度复杂的任务;Gemini
Pro:在各种任务上扩展的最佳模型;Gemini
Nano:用于端侧(on-device)任务的最高效模型;Gemini
Flash:适用于高频和高效任务的轻量级模型。图:Gemini模型家族的不同版本图:Gemini模型家族的不同版本表现11资料:Google,中信建投资料:Google,中信建投大规模训练使得Gemini在多领域取得最先进状态
Gemini在大规模语言建模、图像理解、音频处理和视频理解等领域都取得了最先进的状态。它还依赖于序列模型、基于神经网络的深度学习的大量工作、机器学习分布式系统的工作,这些工作使得大规模训练成为可能。
编程是大模型衡量能力的重要维度,Gemini
Ultra在编程方面也表现出色。基于Gemini,谷歌还推出了更先进的编程系统AlphaCode
2。AlphaCode
2能理解、解释并生成
Python、Java、C++
和
Go
等编程语言的高质量代码,还擅长解决一些超出编程范围、涉及复杂数学和理论计算机科学的编程竞赛问题。
除了文本之外,Gemini
Ultra在具有挑战性的多模态推理任务上也取得了显著的进展。例如,在最近的MMMU基准测试上,该基准测试涵盖有关需要多学科知识并进行深思熟虑的图像的多学科任务问题,Gemini
Ultra取得了新的最先进得分62.4%,比以前最好的模型提高了5个百分点以上。图:Gemini文本推理能力图:Gemini多模态推理能力12资料:Google,中信建投资料:Google,中信建投Gemini1.5Pro:上下文窗口最长的基础模型
谷歌在5月15日的开发者大会上宣布升级Gemini1.5
Pro模型,将上下文窗口从当前100万tokens增加到200万。
Gemini
1.5
Pro引入了高达200万token的上下文窗口长度——这是迄今为止任何大型基础模型中最长的上下文窗口(模型可理解的信息量)。它实现了跨模态的长上下文检索任务的完美召回,解锁了准确处理大规模文档、数千行代码、数小时音频、视频等的能力,Gemini
1.5
Pro能够同时处理
2小时的视频、22小时的音频、6万多行代码或140多万字。
升级后的Gemini
1.5
Pro,在多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。用户可以通过GeminiAdvanced订阅服务体验最新的Gemini1.5Pro,支持超过150个国家的35种语言。图:Gemini1.5
Pro超长的上下文窗口长度图:GeminiAdvanced订阅服务处理任务13资料:Google,中信建投资料:Google,中信建投LLama2模型塑造开源生态
META通过开源LLaMa等大模型,引领大模型开源生态。2023年2月25日,Meta官网公布了一个新的大型语言模型LLaMA(Large
Language
Model
Meta
AI),LLaMA-13B在大多数基准测试中,参数仅为GPT-3十分之一,但性能优于GPT-3(175B),而且能跑在单个GPU上。
2023年7月19日,Meta
发布了免费商用版开源大模型LLaMA2,各个企业能够以相对低廉的价格在该模型上开发应用,为客户提供自主的大模型。Meta与微软达成合作,联手推动AI应用的商业化落地。Meta正式开源了LLaMA
2版本,可免费用于商业用途,微软宣布携手。最新版本的模型将在微软的Azure和Windows平台上线并开源,用户可以在云服务中使用Llama
2作为基础模型,快速构建适用于自身业务的专用大模型。图:Llama模型家族图:Llama、LLama2相关评测资料:META,中信建投资料:META,中信建投LLama3领跑开源大模型阵营
目前开源的Meta
Llama
3具有8B和70B参数,推理、代码生成和指令等能力相较于LLama2有大幅改进,LLama3是目前8B和70B量级上最好的模型。
Llama
3在超过15T
token的数据集上进行了预训练,比Llama
2使用的数据集大七倍。
405B大参数版本模型还在训练中,年内即将发布。大参数LLama3在两个2.4万张GPU的超大集群中训练,训练效率大幅提升。在接下来的几个月中,预计将推出新功能(如多模态)、更长的上下文窗口、更多不同大小版本的模型和更强的性能。图:LLama3评测结果图:仍然在训练中的LLama3
400B资料:META,中信建投资料:META,中信建投MOE开源代表:Mixtral8x7B
Mixtral
8x7B
是法国人工智能初创公司
Mistral
AI
全新发布的
MoE
模型,MoE
是
Mixture-of-Experts的简称,具体的实现就是将
Transformer
中的前馈神经网络层换成
MoE
前馈神经网络层,其他部分保持不变。在训练过程中,Mixtral
8x7B采用了
8个专家协同工作,而在推理阶段,则仅需激活其中的
2个专家。
MoE平衡了模型的复杂度和推理成本,即使在拥有庞大模型参数的情况下,也能保证高效的推理性能,使得
MoE模型在保持强大功能的同时,也具备了更优的实用性和经济性。Mixtral
8x7B推理过程中只激活13B神经元参数,但是在大多数基准测试中都优于
Llama
270B和
GPT-3.5,实现了性能和效率的平衡。图:
Mixtral8x7B中的MoE设计图:
Mixtral8x7B模型测试结果资料:
Mistral
AI
,中信建投资料:
Mistral
AI
,中信建投端侧模型一览:小语言模型Phi-3
Phi-3是微软研究院推出的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时,通过优化训练数据集和算法,实现了与大型模型相媲美的语言理解和推理能力,超小的参数规模适合在智能手机等本地设备上运行。
phi-3-mini
是一个在
3.3
万亿个
token
上训练的
38
亿参数语言模型。测试表明,phi-3-mini
的整体性能可与Mixtral
8x7B
等模型相媲美。phi-3-mini使用Int
4的数据格式时,大致占用1.8GB内存。图:Phi-3在端侧运行图:仍然在训练中的LLama3
400B资料:微软,中信建投资料:微软,中信建投端侧模型一览:Google轻量级开源模型Gemma
Gemma是由Google
AI开源的一系列轻量级模型,于
2024
年
2
月
21
日发布,这些模型易于访问且高效,使
AI
开发更容易为广大用户所接受。5月15日Google开发者大会上,Google再度发布其升级版本Gemma
2。
Gemma模型家族采用与Gemini模型相同的技术架构。Gemma是基于文本训练的,它在文本摘要、问答和推理等任务中表现出色。在270亿个参数下,Gemma
2的性能与Llama
370B相当,尺寸不到一半。
Google同时发布开源视觉语言模型PaliGemma,可以完成各类视觉语言任务,包括图像和短视频字幕、视觉问题回答、理解图像中的文本、对象检测和对象分割等。图:Gemma评测结果图:Gemma2评测结果资料:Google
AI,中信建投资料:Google
AI,中信建投GPT-5性能改进超预期,已开启红队测试
Sam
Altman曾在OpenAI开发者大会上表示GPT-5将在“大多数你想要构建的事情”上都能够胜任。Altman近期透露的关键信息包括:如果GPT-4目前解决了人类任务的10%,
GPT-5应该是15%或者20%
,我们远没有达到曲线的顶部。不应低估
GPT-5
性能改进的幅度,这可能会超出预期。Runway
CEO兼AI投资人Siqi
Chen称,GPT-5
已经在推理方面取得了意想不到的阶跃函数增益。
GPT-5的训练于2023年启动,据相关信息称2023年底或正式结束训练。近期用户收到红队测试邮件,依照惯例,红队测试预计将会持续
90-120天。红队测试后,GPT-5或将正式发布。图:推特中关于GPT-5的相关信息19资料:Twitter,中信建投第二章国内基础模型发展情况20国内大模型发展情况
2022年11月30日,OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进入加速成长期,在过去一年中取得了实质性的突破。国内大模型的发展大致可以分为三个阶段,即准备期(2022.12-2023.02)、成长期(2023.02-2023.23)、爆发期(2023.12-)。图:国内大模型发展历程资料:SuperCLUE,中信建投国内大模型分布情况图:国内大模型分布情况资料:SuperCLUE,中信建投国内大模型快速逼近GPT-4
国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差无几。5-6月,国内多家大模型将迎来版本更新,今年年中是国内大模型的关键赛点,预期我们将见到部分头部大模型整体能力上超越GPT-4。图:国内大模型发展趋势资料:SuperCLUE,中信建投国内大模型能力测试
客观评价大模型能力存在一定的难度,不同的模型测试可能考察了模型不同维度的能力,因而模型之间的性能比较在不同测试中可能表现不一致,同时大模型的每次响应同样存在不确定性,增加了大模型的测试难度。
结合不同机构的第三方测试,我们大致可以知晓模型之间的性能差异。GPT-4展现出强大的语言理解、生成和推理能力,在各类测试中均保持领先地位。各类评测中模型表现可能略有不同,但是国内第一梯队的大模型整体能力目前已经快速逼近GPT-4。国内大模型发展迅速,与GPT-4差距快速缩小,第一梯队的头部大模型例如ChatGLM4、百度文心一言4.0、讯飞星火V3.5整体表现已经接近GPT-4,在中文领域,国内部分模型表现已经可以比肩GPT-4。图:国内外大模型SuperClue评测结果图:大模型SuperBench评测结果-语义理解能力图:OpenCompass
2.0测试结果资料:SuperCLUE,《superbench大模型综合能力测评报告》,上海AI实验室,中信建投百度文心一言4.0
11月1日,百度正式上线文心一言专业版,技术持续升级。文心一言大模型专业版基于公司最新自研的文心大模型4.0,与原有的3.5版本相比,具有以下优势:1)更强的模型能力和图片生成能力。根据测试,文心大模型4.0版本在理解、生成、逻辑、记忆四大功能上都有明显提升,具有显著优化的模型性能。2)支持接入丰富的API插件,可以实现撰写代码、润色文案、设计与绘图等多种功能。
文心一言成为首个国内面向C端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费模式。单独订阅模式下,会员月付59.9元,选择连续包月可以享受49.9元的优惠价格;该模式下会员可以使用文心一言大模型3.5和4.0两个版本,而非会员只可使用免费的文心大模型3.5版本。联合模式下,用户月付99元,可以同时具有单独订阅模式的全部功能,并获得文心一格白银会员资格,享受AI修图改图等功能。图:百度文心一言会员订购费用图:百度文心大模型4.0性能全面提升资料:百度,中信建投资料:百度,中信建投25科大讯飞星火大模型V3.5
1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。讯飞发布基于首个全国产算力训练的讯飞星火V3.5,七大核心能力全面提升,语言理解、数学能力、语音交互能力超过
GPT-4
Turbo,代码达到
GPT-4
Turbo
96%,多模态理解达到GPT-4V
91%。
4月26日,讯飞星火大模型V3.5春季上新,发布长文本、长图文、长语音大模型。不仅可以快速学习各种的海量文本、图文资料、会议录音,还能够针对多种多样的行业场景给出专业、准确回答。此外,星火语音大模型本次更新还包括多情感超拟人合成功能,具备情绪表达能力,并推出一句话声音复刻功能。
讯飞正式启动对标GPT-4的大模型训练,2024年上半年对标GPT-4,要走独立的技术路线和产业方向,形成完整产业生态。图:讯飞星火大模型V3.5图:讯飞星火大模型长文本能力升级26资料:讯飞,中信建投资料:讯飞,中信建投清华智谱ChatGLM4
1月16日,2024年度技术开放日Zhipu
DevDay,智谱AI发布了新一代基座大模型GLM-4。在大规模多任务语言理解评测中,GLM-4的表现明显优于GPT-3.5,其平均得分已经达到了GPT-4的95%水平,在某些特定任务上甚至表现相当;
GLM-4具备强大的多模态能力:文生图和多模态理解能力得到增强,CogView3在文生图多个评测指标上,相比DALLE3约在91.4%-99.3%的水平之间。
GLM-4推出的All
Tools能力:GLM-4能自主理解和执行复杂任务,调用浏览器、代码解释器等完成复杂工作。
个性化智能体功能:用户可以通过智谱官网轻松创建属于自己的GLM智能体,实现大模型开发定制。图:ChatGLM4模型性能测试结果图:ChatGLM3提供更丰富的模型尺寸27资料:智谱清言,中信建投资料:智谱清言,中信建投商汤日日新SenseNova5.0
4月23日,商汤科技在技术交流日上发布全新升级的“日日新SenseNova5.0”大模型,其主流客观评测指标达到或超越GPT-4
Turbo。日日新5.0模型能力提升一方面得益于采用混合专家架构(MoE),激活少量参数就能完成推理,且推理时上下文窗口高达200K左右;另一方面来自海量的训练数据,其训练数据超过10TB
tokens、覆盖了数千亿量级的逻辑型合成思维链数据。
商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分居首位,在多个知名多模态榜单MathVista、AI2D、ChartQA、TextVQA、
DocVQA、MMMU均取得优异成绩。图:日日新5.0BenchMark成绩图:日日新5.0多模态测试结果28资料:商汤,中信建投资料:商汤,中信建投百川智能Baichuan
1月29日,百川智能发布超千亿参数的大语言模型
Baichuan
3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan
3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了
Baichuan
3在自然语言处理和代码生成领域的强大实力。
Baichuan
2是百川智能推出的开源大语言模型,采用2.6万亿Tokens的高质量语料训练。Baichuan
2在多个权威的中文、英文和多语言的通用、领域
benchmark
上取得同尺寸最佳的效果。包含7B、13B的
Base和Chat版本,并提供了Chat版本的4bits量化。图:Baichuan3测试结果图:Baichuan
2
13B模型测试结果资料:baichuan,中信建投资料:baichuan,中信建投通义千问Qwen打造丰富的开源大模型矩阵
通义千问2023年4月问世以来,专注于基础模型的技术研发,从初代模型升级至2.5版本。相比上一版本,2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力持续领先。
今年2月初,通义千问团队推出开源模型系列Qwen1.5,随后在不到3个月的时间连续开出8款大语言模型,模型参数规模涵盖5亿、18亿、40亿、70亿、140亿、320亿、720亿、1100亿,打造了丰富的开源模型矩阵。能力最强的Qwen1.5-110B在MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能,基础能力可与Meta的Llama-3-70B模型相媲美。图:通义千问开源大模型家族图:通义千问大模型测试结果资料:通义千问,中信建投资料:通义千问,中信建投字节跳动“豆包”大模型
5月15日,字节跳动正式对外发布豆包大模型,豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型模型等,这些模型已接入抖音、番茄小说、飞书、巨量引擎等50余个业务。
豆包主力模型定价0.0008元/千Tokens,一元钱能买到豆包主力模型的125万Tokens,约200万汉字,极具价格竞争力。
苹果APP
Store和各大安卓应用市场,豆包APP的下载量在AIGC类应用中排名第一,豆包上已有超过800万个智能体被创建,月度活跃用户达到2600万。图:豆包大模型家族图:豆包模型中的各类AI智能体资料:字节跳动,中信建投资料:字节跳动,中信建投月之暗面Kimi智能助手上下文长度突破200万字
Moonshot
AI提供超长记忆AI助手Kimi。23年10月,月之暗面推出可支持20万字无损上下文长度的智能助手Kimi,具备显著的中文优势,能够为用户提供智能搜索、回答问题、速读文件、整理资料、激发灵感、辅助创作等服务,上下文长度可以达到Claude
100k的2.5倍、GPT-4-32k的8倍。
Kimi智能助手使用方便,新版Kimi与之前版本相比在相同设备和成本的情况下模型响应速度提升了3倍左右。
Kimi推出应用商店Kimi+。首批上线共5大类23个Kimi+,覆盖了很多常用的场景。五大类主要包括官方推荐、办公提效、辅助写作、社交娱乐、生活实用,不同的Kimi+
可以用来解决不同的问题,包括写提示词、写文章、搜索资源等等。图:Kimi长文本压力测试结果表现优异图:官方推荐的Kimi+资料:Moonshot
AI,36氪,中信建投资料:Moonshot
AI,中信建投Deepseek-V2具备较强的推理成本优势
深度求索Deepseek发布了v2版本的模型,沿袭了Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。Deepseek对模型进行了完全的mit协议开源,可以商用。
Deepseek
V2模型参数量达到236B,同时由于模型小专家混合的特性,模型每个token在推理时的激活参数为21B,可以实现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比V1的稠密模型,V2模型节约了42.5%的训练成本,减少了推理时93.3%的
KV-cache
显存占用,将生成的吞吐量也提升到了原来的5.76倍。
Deepseek-V2在众多开源模型中表现仅次于70B
的
LLaMA3,超过了他们此前发布的V1代67B的非MoE模型。图:Deepseek中的创新MLA机制图:Deepseek的API价格具备显著优势33资料:arxiv,中信建投资料:Deepseek,中信建投第三章国内多模态模型相关进展34国产文生视频大模型Vidu发布,对标Sora持续迭代
国产文生视频大模型Vidu正式发布,实现重大技术突破。4月27日,国产AI视频大模型Vidu发布。Vidu是由清华大学和生数科技联合开发的中国首个长时长、高一致性、高动态性视频大模型。它不仅能够精确模拟现实世界的物理特性,还具备强大的创新能力。Vidu能够制作出具有多个镜头视角的视频内容,并且在不同镜头之间保持高度的时空连贯性。目前Vidu能够实现一键生成长达16秒、1080P高分辨率的高清视频。
Vidu采用独创U-ViT架构,正在加速迭代。Vidu采用了一种独创的架构——U-ViT,该架构融合了Diffusion技术和Transformer技术。其核心技术U-ViT架构由团队于2022年9月提出,其Diffusion与Transformer融
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【初三化学人教版】7.2.1燃料的合理利用与开发
- 【初三化学人教版】3.3元素
- 妇科围手术期的预见性护理
- 湖北大学知行学院《投资学》2022-2023学年第一学期期末试卷
- 湖北大学知行学院《构成基础》2021-2022学年第一学期期末试卷
- 《太阳图说智盈》课件
- 2024房屋建筑抗震加固工程施工合同示本
- 2024项目居间合同协议书范本
- 2024租房合同范本房东版
- 孕34周先兆早产的护理
- 数学教材的多模态教学设计与评价
- 《上海奉贤区S村非机动车停放管理的调查报告》4200字
- 常用信纸打印模板
- 基于多模态数据智能分析的非小细胞肺癌识别
- 工笔画教案(上)
- 6.1 模型或原型的特性与作用 课件【知识精研精讲】高中通用技术苏教版(2019)必修《技术与设计1》
- 基于真实情境的小学劳动教育项目化学习 论文
- GJB9001C-2017版内审检查表
- 梗阻性黄疸护理查房课件
- 提高人工气道气囊管理正确率品管圈汇报书ppt模板
- (新平台)国家开放大学《农村社会学》形考任务1-4参考答案
评论
0/150
提交评论