版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机行业大模型市场分析大模型概述:具备强大生成能力,训练趋于标准化概述:通用大模型带来强大生成能力,追求高泛化能力大模型可以高质量完成自然语言理解和生成任务。大模型主要指大语言模型(LargeLanguageModel,LLM),是一种基于大量数据学习完成文本识别、总结、翻译、预测和生成等人物的深度学习算法。当前大语言模型底层基于Transformer框架,利用大量文本数据进行预训练,可以按用户需求高质量完成自然语言理解或生成任务,应用于机器翻译、文本摘要、内容创作、逻辑推理等诸多场景。随着技术发展,大模型逐步超越大语言模型范畴,输入输出上逐渐涵盖音频、图像、视频等模态,形成具备多模态能力的大模型。通用大模型以通用人工智能(AGI)为最终目标,追求模型效果的高泛化能力。过去几年,大模型领域主要针对通用大模型投入研发,涌现出GPT、Llama、PaLM等代表模型。通用大模型要求模型可以在不进行重新训练的情况下,在大多数场景下理解用户提出的非结构化提示词,并基于需求理解实现稳定且正确的文本生成。通用大模型最终目标为通用人工智能(AGI),亦称强AI,及人工智能可以单独完成人类可以完成的所有任务,该目标要求模型具有高场景泛化能力,对新样本具有完全适应能力。对泛化能力的追求在通用大模型的训练数据和模型特点上得以体现。1)训练数据覆盖面扩大。过去几年,大模型预训练数据涵盖的行业快速增加,2019年,谷歌基于互联网数据集C4推出T5模型;2023年Meta发布开源通用大模型LLaMA,其预训练数据集以C4和其他互联网数据为基础,包含,维基百科、GitHub代码、书籍、专业论文等数据。预训练数据范围扩大有利于模型能力覆盖更多场景,提升模型通用能力。2)训练数据分布上,通用语言文本占比较高,行业专业知识占比较低。通用大模型预训练数据集以互联网数据、书籍等通用语言文本为基础,结合部分历史、地理等通识类学科知识,行业专业知识占比较少,最大程度保证模型通用语言能力提升。以LLaMA的预训练数据集为例,高专业度ArXiv论文数据占比2.5%,StackExchange专业行业问答数据占比2%,通用知识类文本占比超过95%。3)模型设计上,通用大模型参数和训练数据规模快速增长,模型以大体量承载大知识量,让模型“学习”并“记忆”尽可能多的知识。根据semianalysis的数据,OpenAI的GPT-4模型参数规模约为1.8万亿,为GPT-3(1750亿)的十倍以上;GPT-4训练数据规模约20万亿Token,为GPT-3(5000亿Token)的40倍,模型参数和预训练数据规模保持高速增长,带来模型效果快速增强,根据OpenAI官方数据,GPT-4较GPT3.5在回答真实性方面提升约40%,并且生成不符合价值观答案的概率减少82%。通用大模型采用多数据集验证,取得优秀成绩。通用大模型通常以多领域、多层次的数据集综合衡量模型效果,并不追求在单一数据集上的极致表现。根据OpenAI的GPT-4技术报告,模型评价利用学术测试集MMLU、科学测试集ARC、日常对话测试集HellaSwag、Python测试集HumanEval等,以7大数据集全面覆盖多学科、多学段、多场景的生成能力,力求全面综合评价模型整体表现。与之相对的是,小模型由于应用场景相对单一,模型目标性更强,普遍采用单一测试集,例如CV领域知名的ILSVRC挑战赛便长期采用ImageNet数据集,其子集ImageNet1K(ILSVRC2012)长期被用于各论文的模型效果评价。长期使用单一数据集带来时效性较差、评价指标相对单一的问题。通用大模型以“预训练+微调”的模式加持应用场景。预训练阶段模型学习大量无标注文本数据,使其模仿人类语言构成的训练数据集,进而具备各场景通用的生成能力;微调阶段模型学习小规模行业专业知识,利用有标注的专业数据集针对模型输出层参数进行调整,强化模型对特定领域的生成能力。“预训练+微调”的模式可以低成本提升模型在特定行业领域的表现能力,成为长期伴随深度模型行业应用的通用模式。根据AI创业公司Cohere最新论文,在极限条件下只更新0.32%的模型参数就可以实现模型微调,充分发挥通用大模型的通用性,极大降低大模型行业应用成本。但由于微调改变的参数量小,只能采用针对细分场景下特定功能进行针对性微调,导致单模型只能有效应对单一场景。模型训练:流程逐步趋于标准化,数据需求持续提升大模型训练可划分两大阶段,流程趋于标准化。大模型训练大致可分为通用能力培养和行业能力提升两大阶段。其中通用能力培养主要包括无监督预训练、价值观对齐等核心训练步骤,全面提升模型通用能力;行业能力培养主要包括有监督微调、行业预训练、偏好对齐等训练流程,主要针对特定应用场景和行业需求进行模型优化。1)训练数据:分词技术影响模型效果,训练数据规模应与模型参数规模相适应数据以语义单元为单位输入模型,分词技术影响模型效果。语义单元(Token)是数据输入大模型的最小单位,分词技术和向量化属模型核心技术。分词(Tokenization)是自然语言处理领域的常用技术,指将完整的文本信息切分为语义单元(Token)并将其进行数值化作为模型输入。当前以Sub-word为单位进行分词是最常用的方式,而具体的分词方式例如BPE、WordPiece、UniLM等技术,以及语义信息的向量化技术均会对模型输入产生直接影响。当前语义单元是计量大模型训练数据量的单位,对于训练数据集规模的描述在2020年左右经历了从储存空间(GB、TB)到Token数量的转变。训练数据规模应与模型参数规模相适应,大量模型数据规模不足的问题。2022年9月,DeepMind提出ChinchillaScalingLaws,提出了最优的模型规模-数据规模匹配方案,其研究认为单个参数需要20个左右的Token进行训练,并且模型规模越大,单个参数所需的数据Token越多。在Chinchillalaw之前,行业遵循OpenAI提出的KaplanScalinglaw,及单个参数需要1.7个Token投入训练。以GPT-3为代表,2022年之前的大模型主要依据Kaplanlaw确定训练数据的规模,存在模型参数量大但训练数据不充分的问题。根据semianalysis的数据,OpenAI的GPT-4模型参数规模约为1.8万亿,训练数据规模约20万亿Token,较GPT-3更趋近Chinchilla定律但数据规模仍有不足。2)模型设计:参数量、规模持续增长带来模型效果提升AI大模型参数量快速增长,规模快速扩大表现出涌现能力。2018年发布的GPT-1和BERT模型参数量大约为1亿,2020年发布的GPT-3模型参数规模为1750亿,2023年推出的GPT-4和Gemini模型规模已经达到万亿水平,大模型参数规模持续高速增长。涌现指大模型规模达到一定程度时在特定任务上的表现显著提升。涌现能力并非人为设计和构建的,是大模型作为端到端模型可解释度较低的情况下,对于大模型具有一定思维能力的概括性描述。3)模型预训练:自监督预训练成为行业标配预训练强调训练模型的通用能力,自监督预训练(self-supervisedpre-training)推动模型发展。通过预训练得到通用大模型(GPT-4、PaLM2)。预训练及在应用场景未知的情况下,让模型自主学习通用表征以尽可能满足更多场景的应用需求。大语言模型数据规模极大,数据标注成本极高,自监督预训练模式无需数据标注,有力支持大模型训练数据规模的快速增长。4)模型价值观对齐:价值观注入保证模型输出符合道德人伦模型价值观对齐主要目标是确保模型输出结果符合社会道德和法律约束。模型对齐是近年来研究者开始关注的一项议题。由于大模型内部可解释度低,训练后的模型难以保证输出结果符合社会道德和法律约束,因此需要额外训练和外部风控机制进一步约束模型行为。OpenAI公司2022年成立了专门的对齐团队,并提出InstructGPT模型,利用人类反馈学习(RHLF)和对应的奖励模型增强模型对齐效果。根据OpenAI公司CEOSamAltman发言,GPT-4模型从最初完成预训练到最终完成模型对齐共耗时8个月,模型对齐工作成为大模型训练中不可忽视的一项重要内容,也是耗时较长的工序之一。5)大模型行业化:基于通用大模型形成垂类模型主要有三种方式。三种方式可以在单一模型上同时使用以最大程度提升模型效果。1)行业数据预训练:利用大量无标注行业数据对模型整体进行预训练。行业知识大量注入模型使得经过行业预训练的模型获得单行业能力提升,可有效降低模型在特定行业内的幻觉问题,同时最大程度保留模型的通用能力,维持模型的基本泛化性能,因此备受青睐。但该方法数据需求大,同时消耗较多算力资源,适合在特定有大量数据积累的行业使用。2)模型对齐:利用RLHF机制人工介入对模型进行微调。模型较微调而言更加温和,可以在提升模型特定行业表现的同时,维持模型通用能力,但同样无法杜绝模型出现幻觉问题。同时模型对其安全性较强,人工介入保证模型输出符合法律、道德等约束,同时保证模型各领域的能力平衡,但需要大量人工成本和较长训练时间,往往作为模型训练的最后步骤。3)模型有监督微调:利用少量有标注的行业数据对模型靠近输出侧的部分参数进行微调。微调可以利用少量参数显著提升模型在特定行业上的表现,同时算力成本只相当于通用大模型预训练的1%左右,但该方法会牺牲模型通用能力,严重加剧模型在其他领域的幻觉问题。海外厂商:OpenAI领先通用大模型,Google和Anthropic形成第二梯队1)OpenAI:通用大模型的领跑者坚持长期投入,引领本轮大模型技术发展。OpenAI公司成立于2016年,早期专注于自然语言处理赛道开发可商用的AI聊天机器人,如今公司核心宗旨为实现安全的通用人工智能(AGI),致力于提供通用能力更强的大模型。GPT(GenerativePre-trainedTransformer)最早可以追溯到2018年OpenAI发布GPT-1,此后随着模型迭代,GPT模型能力不断提升。最新的GPT-4与GPT-3的模型规模相当(1750亿),但通过更多的数据和计算资源投入实现进一步发展。GPT-4支持多模态,可以理解复杂概念,并在语言以外的数学、医学、法律的多学科上表现出与人类相近的能力。GPT-4Turbo以更低价格提供更强能力,多模态接口全面开放。较原版GPT-4,GPT-4Turbo本次主要获得五大更新:1)上下文能力增强,模型上下文窗口从32K提升到128K,相当于单次可输入超过300页的英文文本;2)模型知识更新,外界知识从2021年9月更新到2023年4月;3)调用优化,推出JSON模式优化API多任务调用效率,模型格式化输出能力提升;4)单价降低,输入定价0.01美元/Token,较原版便宜3倍,输出定价0.03美元/Token,较原版便宜2倍;5)速度提升,Token输出限制速率提升一倍,用户可自主申请提速。同时,OpenAI在GPT-4Turbo上开放图像输入,定价视图片尺寸而定,1080x1080图像输入定价0.00765美元。图像模型DALL·E3和文转声模型TTS通过单独API开放给用户。在模型能力提升、多模态能力加持、服务价格降低等多重因素共同作用下,GPT-4流量或将迎来全新增长。2)Google:技术积累深厚,逐步实现追赶Google在自然语言处理领域有深厚技术积累。2017年谷歌公司发表论文AttentionisAllYouNeed(AshishVaswani,NoamShazeer,NikiParmar等),开启Transformer框架下的大模型时代。公司在三条技术路线均有布局,有大量自研模型发布。2017-2021年,由于自身核心搜索引擎业务影响,谷歌大力投入自然语言理解而非生成能力研发,因此Google在BERT路线和T5路线上投入大量研究力量,导致公司在GPT路线上落后于OpenAI。2022年,谷歌先后推出1370亿参数的LaMDA和5400亿参数的PaLM模型,但模型效果并未超越1750亿参数的GPT-3。2023年5月,公司推出对标GPT-4的PaLM2模型,成为当前可以与OpenAI正面竞争的主要公司。谷歌官方发布公司迄今为止规模最大、能力最强的Gemini大模型。12月6日,谷歌发布Gemini模型,按不同模型规模包括GeminiUltra、GeminiPro、GeminiNano三个版本。根据官方测试数据,模型文本能力出众,在特定测试方法下,性能最优的Ultra模型在MMLU测试集上以90.0%的高分,成为历史上第一个超越人类专家的模型。Gemini采用“原生多模态”架构,具备强大多模态能力和图文结合的逻辑推理能力,在数学、物理等学科问题上表现优秀,可以基于视觉和文本提出具有一定创新性的观点。针对Gemini定制版,谷歌推出AlphaCode2,性能超过85%的人类程序员。同时谷歌同步发布TPUv5e,较TPUv4性价比提升2.3倍,采用全新计算芯片的Gemini模型,较前代PaLM模型运行速度更快、更便宜。3)Anthropic:核心团队来自OpenAI,注重模型安全注重模型安全问题,公司快速发展。创始人Anthropic是由OpenAI前研发副总裁DarioAmodei带领其团队成员于2021年成立的公司,对高级人工智能安全问题的保持高度关注。过去两年,公司相继得到Google和Amazon投资,并获得超过50亿美元融资。2023年3月15日,公司发布类ChatGPT产品Claude,模型整体能力达到ChatGPT同等能力。积极探索新技术应用。在Claude模型训练中,Anthropic提出CAI机制及模型排序代替人工排序的RLHF以提升训练效率,同时推测其通过为底层Transformer增加Memory模块使模型记忆力为ChatGPT的三倍。公司未来计划构建名为“Claude-Next”的前沿模型,比目前最强大的AI(GPT-4)还要强大10倍,需要在未来18个月内投入10亿美元。4)Meta:开源模型领导者,积极探索多元技术目前采取低成本开源策略,与闭源大模型形成差异化竞争。2023年7月19日,Meta正式发布可商用开源大语言模型Llama2,成为开源模型标杆。根据Llama2技术报告(HugoTouvron,LouisMartin,KevinStone等),和初代Llama相比,Llama2最大模型参数规模从650亿提升到700亿,训练数据提升40%达到2万亿,模型效果明显优于其他开源模型,是目前能力较强的开源大语言模型,但由于模型规模较小等原因,和GPT-4等闭源模型相比仍有差距。低成本的大模型能力是Llama2打造自身生态的最大优势,主要反映在:1)Llama作为开源模型支持免费商用,极大降低企业模型调用成本。2)模型参数量较小,最小具有70亿参数版本,形成垂域过程中需要的行业数据量较小,适合数据量小、数据质量欠佳的行业应用,数据成本更为可控。探索多元大模型技术发展路线。Meta首席科学家、图灵奖得主YannLeCun作为人工智能行业权威专家,并不满足于GPT路线下的大模型架构,并基于类人人工智能模型提出了“世界模型”框架。目前部分模组得以发布(I-JEPA),但相关框架在现行技术水平下仍然缺乏足够可行性。大模型技术:形成三大技术路线,GPT路线得到认可底层技术:自注意力机制为Transformer带来优秀性能Transformer的出现从根本上颠覆了NLP领域生态,成为大语言模型发展的基石。2017年,谷歌提出Transformer框架,底层为自注意力机制(Self-attention)。引入自注意力机制的Transformer彻底解决了远距离信息丢失和并行计算问题,当前Transformer架构已经成为自然语言处理(NLP)领域的统一研究范式:1)模型训练中一次性输入全部序列统一求解,远距离信息被包含在同一次模型运算当中,解决了远距离信息丢失问题;2)Transformer不具备时序特征,训练运算没有关联性,可以有效支持并行计算。高并行效率赋予了模型更强的拓展性,为参数规模快速提升提供了条件。模型技术:基于Transformer形成三大主流技术路线,GPT路线脱颖而出以Transformer为基础,业界形成三大主流技术路线:编码器路线、解码器-编码器路线、解码器路线。1)编码器路线(Encoder-Only)只利用Transformer的解码器,侧重理解任务。BERT模型采用双向自编码算法,模型Mask设计使运算输入包括目标词的前文和后文内容。因为利用了前后文推测目标词,模型预测稳定、表现良好,同等参数规模下,BERT类模型效果往往优于其他路线。2)编码器-解码器路线(Encoder-Decoder)同时利用编码器和解码器,侧重转换任务。该路线在BERT模型基础上增加了一组与编码器大小相似的解码器。其编码器部分采用与BERT相同的双向自编码策略加强理解,而在解码器部分采用了GPT的自回归策略方便生成。模型初步具备统一的多任务能力,以单一模型完成大部分自然语言处理任务,编码器-解码器形成的理解+生成结构使得模型擅长翻译等转换类任务。3)解码器路线(Decoder-Only)只利用编码器部分,侧重生成任务。该路线只采用解码器部分,利用大参数规模和大规模预训练强化模型的通用能力。优秀的生成能力带来的应用前景,该路线已经获得了行业的广泛认可。编码器路线:BERT初步展现大模型能力2018年,Google发布基于Transformer的BERT模型,拥有3.4亿参数,采用双向预训练+FineTuning(微调)的训练模式。模型一经推出便在11个NLP任务上超越当时最高水平,在部分场景上表现追平人类。BERT的出现让人们看到了Transformer框架的价值和自然语言理解的无限可能,互联网厂商相继建设人工智能研究部门,大模型发展进入快车道。BERT路线(编码器路线)只使用Transformer中的编码器部分,采用双向自编码算法,及模型Mask设计使运算输入包括目标词的前文和后文内容。该设计的不足是模型计算需要后文内容,因此无法进行生成式任务,只适用于自然语言理解(NLU)任务。但优势是因为利用了前后文推测目标词,模型预测稳定且效率较高,小参数规模下BERT类模型效果往往优于其他路线。编码器-解码器路线:T5模型探索多任务能力2019年,T5模型发布并提出一个统一框架,将所有NLP任务均转化为Text2text的文本任务,及利用文本生成文本的任务。基于统一的任务框架,所有任务均可以使用相同的训练目标函数和推理解码过程,模型初步具备了统一的多任务能力,探索了大模型的通用能力。模型在聚焦自然语言理解(NLU)任务的同时,具备一定自然语言生成(NLG)能力。T5路线模型是在BERT模型基础上增加了一组与编码器大小相似的解码器,使得模型在利用编码器理解输入的基础上具备一定利用解码器输出的能力。其编码器部分采用与BERT相同的双向自编码策略加强理解,而在解码器部分采用了GPT的自回归策略方便生成。模型在翻译等任务重表现良好,但生成能力不足。解码器路线:生成能力优势明显,已经成为行业共识以GPT为代表的解码器路线早期专注自然语言生成(NLG)领域。2018年,OpenAI推出了GPT模型,舍弃了Transformer中的编码器,只利用解码器部分强化生成能力。初代GPT模型依然采用了类BERT的多任务微调模式,有多个模型适配不同任务需求。2019年,GPT-2的发布奠定了解码器路线无监督预训练和通用模型的基调,解决了零次学习(zero-shot)的问题,使得单一模型可以适用所有任务。GPT-2和T5相比,在不损失模型生成能力的前提下,去除解码器极大降低了模型规模和训练难度。2020年,GPT-3发布并展现的强大生成能力,成果得到业界广泛认可,各大公司开始跟进解码器路线模型研发,2021年Deepmind推出Gopher,2022年Google推出LaMDA。GPT(解码器)路线采用单向信息传递和自回归特征。模型训练阶段,GPT路线模型利用解码器的Mask结构屏蔽目标词后方的内容,保证信息的单向传递,只学习利用目标词左侧(前侧)内容进行目标词预测;推理阶段,模型从左到右进行单向生成,同样保持单向信息传递。与之对应的是,解码器(BERT)路线采用双向信息传递,训练和推理中模型可以利用全部文本信息;解码器-编码器(T5)路线采用部分单向信息传递,编码器中的输出序列及解码器中前面的文本会参与后方目标的注意力计算。GPT路线模型擅长生成,强大能力在考试和测评中得到体现。单向生成符合人类正常思维逻辑,人类正常表达方式及为根据前文思考后文,从前到后顺序思考。与BERT根据前后文“填空”的方式相比,自回归模型更像“写作”,生成模式完全符合上述人类思考逻辑。该逻辑全面融入训练和推理流程,因此模型输出文本质量高,语言流畅。2023年3月,OpenAI最新模型GPT-4模拟考试中表现优异,在环境科学、历史、生物等学科考试中已经可以取得前10%分位的成绩,在其他大量学科上达到前20%分位。GPT路线代表模型GPT-4、Claude、PaLM、Llama等更是长期位于模型能力榜单前列,展现强大理解和生成能力。未来展望:当前大模型与AGI仍有差距,多模态成为重要途径通用人工智能(AGI)具备人类级别智能。作为强人工智能的典型代表,未来通用人工智能(AGI)系统将具备达到或超过人类的智能,具有高度自主性,可以独立完成大量工作,因此可以规模化实现人力替代,进而推动社会生产力全面提升。当前主流公司对于通用人工智能的探索持续从未止步,OpenAI将构建安全、符合共同利益的AGI系统作为企业核心使命;谷歌DeepMind研究团队发布AGI的5级分级定义,并认为当前主流大模型只达到1级水平。当前主流大语言模型和AGI之间仍有较大差距。GPT路线构建的大语言模型已展现出强大的自然语言理解和生成能力,但参考Deepmind、OpenAI、Meta等公司对于AGI能力的定义,我们认为当前大语言模型在各维度上距离AGI仍有较大差距,主要体现在性能和通用性、认知能力、工具使用能力、创作能力等方面。多模态能力提升模型各维度能力,推动大模型走向AGI。当前大模型主要指大语言模型(LLM),输入输出均已文本形式进行,而多模态大模型(MLLM)则可以输入或输出文本及其他模态,包括图像、视频、音频、数据库等。多模态能力全面提升模型各维度能力,成大语言模型走向AGI的重要途径。1)性能和通用性:多模态能力突破文本对模型训练的限制,保障模型效果快速提升。大模型多模态能力可以打破训练上对文本信息的完全依赖,通过图片以更加直观的方式学习更多知识,提升模型训练效果。根据论文信息(Huang,Z.,Bianchi,F.,Yuksekgonul,M.etal.Avisual–languagefoundationmodelforpathologyimageanalysisusingmedicalTwitter.NatMed29,2307–2316(2023).),斯坦福大学团队融合多模态病理图片、专业知识、社交网络等数据,构建了OpenPath数据库并训练PLIP模型。新模型在诊断效率提升和医学教育等领域具有潜在应用空间,展现了多模态数据对于模型训练的重要价值。此外,大模型学习文本以外的知识对于打破文本规模对模型规模限制具有重要意义,根据未尽研究数据,当前高质量语言数据总存量约9万亿个单词,年化增长率为4%-5%,明显慢于模型规模增长速度,最早2026年就会出现因文本量不足导致的模型规模扩增放缓,突破文本规模对模型规模的限制对于大模型未来的持续增长具有重要意义。2)认知能力:多模态协同实现精准认知,推理能力显著提升。大模型直接扩展多模态认知渠道,实现从文本单维度认知到多维度混合认知的转变,可以利用多信息理解用户需求。根据麦拉宾法则,面对面沟通时的信息表达中视觉信息占比达到55%,其次是语音语调的38%;而根据中科院数据显示,对于一个正常人,视觉信息占全部感觉信息的70%以上。只利用文本的大语言模型存在信息利用效率过低的问题,拥有听觉和视觉的大模型可以捕捉更多外界信息,实现对环境和用户需求的精准认知,可以实现基于外部环境、用户情绪、问题语境等要素的实时输出优化。同时,利用大模型多模态能力的融合复杂信息,可以形成更加有效推理和相对复杂的思维链,如利用图片里的物体位置、状态、关系等信息,结合用户文本输入实现综合判断,进行准确的推理和分析。3)工具使用:多模态能力支持更多工具调用,同时提升能力和效果。当前大模型输出仍存在常识性错误,反映对以搜索工具为代表的外部工具使用能力不足。结合多模态能力的大模型可以使用更多工具提升模型效果,如利用代码解释器(CodeInterpreter)实现网页上的数据分析,通过类似CLIP的图文模型进行跨模态搜索。更强的工具使用能力有利于大模型接入外部模块化工具,提升模型输出效率;另一方面,随着工具集扩展,模型工具学习方案不断丰富,模型输出准确性和时效性有望进一步提升。4)创作能力:多模态输入提升模型“创作”空间,艺术创作能力得到行业权威认可。在以图灵测试为代表的现行AI标准下,类人的行为和更高的回答正确率即为智能,因此大模型训练以正确模仿人类为主要目标,更倾向于输出“学习过的”答案。GPT-4模型发布之初就强调模型拥有写小说的能力,但高质量生成需要人工限定主题、框架、背景、思想等各要素,并且尚未出现获得广泛认可的作品,大语言模型的创作能力相对有限。多模态的引入和融合,让模型的模仿维度更加多元和随机,实现类似联想的创作能力。2021年,OpenAI发布DaLL·E模型,模型生成的牛油果椅子图片,因多元的设计风格、优秀的元素融合获得广泛关注,视觉大模型初步展现创作能力。2022年9月,由Midjourney生成的作品在美国科罗拉多州博览会的艺术比赛中获得了第一名,展现模型具备更高维度的联想和元素组合能力,进而实现一定的“原创”功能。多模态:视觉能力为核心,能力升级带动应用落地概述:语音和视觉能力先行,模型效果全面提升语音和视觉能力先行,视觉能力为核心。当前模态主要包括图像、视频、音频、代码、标准数据库等,多模态大模型进展主要围绕语音和视觉任务,其中语音任务和文本任务本质上相通,有成熟开源技术方案,门槛相对较低;而视觉任务主要涵盖视觉理解和视觉生成,由于信息复杂度高、利用难度较大,并且对模型感知能力和应用开发潜力提升具有重要价值,成为当前多模态大模型发展的核心方向。OpenAI和谷歌引领基于大语言模型的多模态能力探索OpenAI引领行业发展,ChatGPT-4V展现强大能力。根据官方技术文档,OpenAI于2022年完成GPT-4V版本(视频版本)的模型训练;2023年3月,GPT-4模型发布会上展示了模型的图像输入处理能力,并与移动应用BeMyEyes合作落地图像处理能力,但始终未在官方ChatGPT产品中开放语音输入以外的多模态能力。2023年9月25日,OpenAI正式发布ChatGPT-4V(ision)版本,ChatGPT新增图片输入和语音输出能力,多模态能力正式融入ChatGPT。本次更新显示GPT-4多模态能力已经成熟,新能力有望加速落地。逐步拥有“视觉”和“听觉”的大模型有潜力在更多场景下获得应用,未来随着软硬件革新,大模型有望支持“触觉”、“嗅觉”等全新模态,应用场景将实现加速扩展。谷歌发布原生多模态大模型Gemini,实现对GPT-4V的技术追赶。Gemini采用“原生多模态”架构,文本和视觉等输入在统一模型架构下参与预训练,各模态之间的结合更加流畅。推理能力方面,模型在数学、物理等学科问题上表现优秀,可以对解题过程的进行步骤拆分,并可以针对任一步骤单独提问。同时模型具备支持多模态的复杂推理能力,可以理解视觉信息,可以基于视觉和文本提出具有一定创新性的观点。语音能力:STT+TTS+GPT便捷实现语音对话,优化人机交互体验语音转文字模型(Speech-To-Text,STT)技术成熟度高,难构成行业壁垒。语音识别技术历史悠久,最早可以追溯到1952年,成熟度相对较高,并已融入各类日常场景。最近几年技术层面逐步从统计模型和走向端到端的深度模型,底层架构逐步从小模型走向大模型。在多模态大模型系统中,STT模型将语音转换为特定模式的文本文件,并直接输入模型。以OpenAI推出的Whisper模型为代表,模型底层使用Transformer的编码器解码器架构,可以将音频信息直接转化成包含提示词的标准化Token,基于68万小时的对话学习,较主流小模型可以将错误率降低50%左右。Meta推出MMS,谷歌推出AudioPaLM模型,均采用Transformer架构实现端到端的STT模型。文本转语音(Text-To-Speech,TTS)模型是实现大模型语音能力的核心技术,差异主要体现在音色和情感方面。TTS模型同样具有悠久技术历史。过去几年,TTS模型和STT模型在技术层面同步发展,实现从HMM-GMM为基础的概率统计模型走向Transformer基础的端到端大模型的技术转变,形成Tacotron2、Fastspeech等代表模型。技术进展下,TTS模型语音合成效果有明显提升,可以模拟真人的语气、情感和停顿,音色更加贴近真人,可以实现高质量流畅合成。由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异,底层模型设计也不尽相同,当前主流TTS模型合成效果存在明显差异,对于用户的使用体验影响较大。STT+TTS+GPT模式成为实现大模型语音对话的主流,技术门槛相对较低。通过构建STT+TTS+GPT的模式,可以便捷实现基于大语言模型的语言对话,为大模型增加音频模态。在该模式下,STT、TTS、LLM模型均为独立模块,可以实现低成本替换,因此在应用开发层面可进行灵活组合。当前市面主流对话助手的语音功能均以此方式实现,以ChatGPT语音功能为例,采用Whisper+GPT-4+OpenAI自研TTS模型的组合,实现优秀语音对话效果。考虑到STT和TTS模型均有成熟开源解决方案,大模型实现语音模态兼容技术门槛相对较低。ChatGPT最新更新TTS模型带来接近人类的对话体验。本次更新前,ChatGPT只支持基于Whisper模型的语音输入,更新后的ChatGPT可以将语音作为输出模态,用户可直接进行语音问答对话。OpenAI为新场景开发了全新的TTS模型,提供五种逼真的输出音色,每种声音都基于真人录制音源,拥有独特的音调和字符。依托GPT-4强大的文本生成能力,结合高质量和流畅度的语音生成技术,ChatGPT可以为用户提供逼真的对话体验。相关技术有望进一步落地智能客服、语言学习等领域,颠覆用户的AI对话体验。视觉能力:形成两大主流路线,图文融合带动应用场景全面扩展传统计算机视觉(CV)技术储备有助于构建视觉认知模型。计算机视觉(CV)长期以来是人工智能的核心领域之一,过去十年围绕卷积神经网络实现快速发展。近年来部分CV模型采用Transformer架构,对于大模型时代的视觉系统构建实现技术积累。传统CV模型受限规模等原因,主要解决单一场景问题,具备独立的视觉信息处理能力。与传统CV模型不同,大模型时代的视觉系统主要围绕提升模型整体的通用能力,以理解和认知视觉信息为核心,和文本等模态有机结合满足多模态任务的需求,但底层技术存在共通之处,传统CV领域的Transformer技术经验积累对于构建大模型视觉系统具有重要价值。目前在底层架构设计上主要形成两大技术路线:1)模块化设计:模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大,当前大模型千亿规模统一处理所有模态信息具有较大难度。因此,设计上可以分别针对文本和模型等模态分别进行模型训练,并通过系统优化实现各模型的结合。以GPT-4V(ision)版本为例,其视觉方案以大语言模型GPT-4为核心,图像认知能力上或采用与OpenAI2021年发布的CLIP模型类似的方案,未来有望基于DALL·E3模型融合图像输出能力,形成完整的视觉多模态系统。模块化设计提升系统灵活性,带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大,训练和推理相对独立,模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。性能上,各个模块可以针对特定任务单独优化,更容易在各子任务上实现高性能;性价比上,把各模态的需求分割成多模块,并进行分开训练的模式,降低了单次训练的模型规模,显著降低算力需求;灵活性上,各模块可进行单独替换,也可以基于任务需求进行模块增减,同时大模型系统可以快速接入第三方服务,多维度实现更加灵活的解决方案。2)一体化(原生多模态)设计:原生多模态设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别Token化,并直接输入统一的大模型。12月6日,谷歌发布Gemini模型,作为第一款“原生多模态”大模型,文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。根据官方技术文档,模型可以实现图文结合的理解和推理,目前在数学和物理等领域有所进展,体现了模型的复杂问题拆解能力,对于扩展应用领域以及提升输出准确性有较大价值。原生多模态设计实现更强图文结合效果,但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化,把图文结合当成一项任务直接进行学习,而不是通过系统层面基于人为规则制定的融合和调优。因此,采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合,例如谷歌Gemini模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。但同时为了容纳多模态的处理能力,模型单次参与推理的参数较多,训练数据的多样性和规模也相应提升,将显著提升模型训练和推理成本。图像生成模型主要采用扩散模型架构,各产品存在显著差异。潜在扩散模型(LatentDiffusionmodel)是Transformer大模型在图像领域的特化应用,通过图片噪点生成的方式学习大量图片,并通过逆向去噪方式实现图片生成,成为图片生成领域的主流技术路径。与文本生成注重正确性相比,图片生成需求更加多元,各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解,并生成高质量的、具备一定艺术风格的图像。代表产品有主打低门槛高质量生成的Midjourney,打造开源生态实现工业级定制的StableDiffusion,结合ChatGPT实现便捷化使用的DALL·E3等。视频生成是图像生成在时间轴上的延续,视频与图像生成底层不存在技术壁垒。与图像生成类似,当前视频生成同样通过扩散模型实现,根据RunwayGen1模型论文(PatrickEsser,JohnathanChiu,ParmidaAtighehchian等),在文生视频流程中,模型首先通过DALL·E、StableDiffusion的文生图模型实现高质量图片生成,引入带有时间轴的预训练图像模型,并在图像和是视频上做联合训练,从而将扩散模型从图像扩展到视频生成领域。因此视频和图像生成底层不存在技术壁垒,核心能力在于如何更好的处理视频的流畅性和艺术表达,提升视频生成的长度限制。目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计,视频生成领域热度明显高于视频编辑和理解。目前视频生成代表产品包括Pika、NeverEnds、Runway等,参考微信公众号AIPioneer的测试,相关产品在动画生成上效果出色。大模型融合视觉能力可更好支持理解和生成任务,能力升级带动应用场景扩展。1)对视觉信息的准确理解:视觉问答、组合式问答等任务多模态大模型提升对视觉信息的理解能力和逻辑能力,实现更加有效的用户反馈。视觉问答(VQA)要求模型根据图片、视频等视觉信息回答以文本形式提出的事实性问题,而组合式问答更注重模型的推理能力,要求模型判断非视觉关系并执行推理。与纯视觉模型相比,拥有视觉能力的大模型在相关任务处理能力上有显著提升。由于大模型拥有庞大的知识储备,可以结合图像外知识进行详细解释,对于传统VQA模型只基于单图的问答进行了有效扩展和延伸,极大丰富了技术的应用场景。同时,大模型具有图文结合能力、逻辑能力和复杂问题的拆解能力,有助于模型更好的理解用户复杂需求,回答更抽象的问题,高质量完成类似组合式问答的逻辑任务。能力得到第三方验证,有望重塑安防等领域。根据论文YunxinLi,LongyueWang,BaotianHu等发表的论文AComprehensiveEvaluationofGPT-4VonKnowledge-IntensiveVisualQuestionAnswering显示,GPT-4V在VQA等问答任务评估中表现优异,主要体现在有机结合图片信息和外部知识,并可以为答案提供完整且正确的逻辑解释。未来随着模型效果提升,对于视觉信息的准确理解和逻辑建构能力有望广泛赋能数据统计、自动筛查、视觉助理、智能助手等领域,实现各行业应用落地。例如在智能安防领域,可广泛应用于监测、巡检等场景,实现实时快速筛查和安全预警;落地智能助手领域帮助视觉受损人群理解环境情况等。2)视觉生成能力:文生图、文生视频等任务开拓全新图片与视频生成,持续发掘新概念和新产品。大语言模型对用户需求的准确理解,结合模型的多模态处理能力,形成强大视觉生成能力,包括文生图、文生视频、图生图等产品,并围绕生成能力产生图片和视频编辑、图片扩展和优化等功能。相关能力落地各类创意工具,将实现个人生产能力和效率的全面提升。Adobe推出的Firefly工具包,基于大模型多模态能力实现了文字和图像之间的高效交互,发布生成填色、重新上色、3D互动式生成、图像扩展等智能编辑功能。Pikalabs发布了全新的文生视频产品Pika1.0,仅凭一句话就可以生成3D动画、动漫、卡通、电影等各种风格的视频,实现高质量、低门槛的视频生成。代码生成:代码大模型快速发展,国产厂商位于第一梯队通过大语言模型微调构建代码大模型,正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码,作用于开发领域提升程序员工作效率。由于代码标准化程度高、容错低,和自然语言差异较大,普遍采取基于语言模型使用代码数据进行微调的方式,构建专用的代码大模型,这样既可以保留模型对用户输入的高理解能力,又可以将输出严格限制为代码格式。过去几年,代码大模型围绕提升变成正确率不断升级,最新基于GPT-4构建的代码大模型在HumanEval测试级上单次正确率可以达到82%。此外,代码与其他模态的互动与融合也是主要进展方向之一,谷歌最新Gemini模型演示了基于文字和图像生成代码的能力,展现相关技术的巨大潜力。国际巨头加速布局,国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发,模型能力屡创新高。3月,OpenAI基于GPT-4推出代码模型,官方技术公告显示模型在HumanEval测试集上的正确率为67%。9月,Meta发布基于Llama2的开源代码大模型CodeLlama,在HuggingFace平台测评中一度超越GPT-4等主流代码模型,占据榜首位置。12月,Google基于Gemini模型推出AlphaCode2,性能超过85%的人类程序员,将加持Gemini模型定制版。国产厂商中,根据论文ASurveyonLanguageModelsforCode(ZibinZheng,KaiwenNing,YanlinWang等),蚂蚁集团的开源代码大模型CodeFuse和华为代码大模型PanGu-Coder2性能优异,位列行业第一梯队。短期展望:国外大模型加强多模态支持,国产大模型加速追赶海外通用大模型更新有望加强的多模态能力支持。根据谷歌官网,目前GeminiPro模型已经接入Bard并开放API使用,但能力更强的GeminiUltra模型预计将在明年年初接入BardAdvanced,正式开启商业化进程。根据OpenAICEOSamAltman透露,公司和微软已开始合作开发GPT-5模型。Anthropic曾在提出2-3年实现AGI的目标,考虑到多模态能力对AGI的重要作用,公司多模态大模型或将于近期推出。海外高质量源生多模态大模型技术和商业化进程保持高速推进,推动行业保持高速发展。借鉴海外成熟经验,国产多模态大模型加速追赶。GPT-4V(ision)和Gemini大模型的成功为多模态大模型的技术路径提供参考,国产多模态大模型进展有望逐步加速。金山软件与华中科技大学联合推出高性能多模态大模型Monkey,可对图形进行深入问答交流和精确描述,根据测试,模型在18个数据集中表现出色,在图像描述、视觉问答和文本密集的问答任务上显现优势。考虑到国产厂商在CV、语音合成等任务上具有一定积累,大语言模型能力持续提升,我们认为国产多模态大模型有望加速。行业落地:大模型赋能千行百业,应用市场蓬勃发展落地机遇:大模型赋能千行百业,整体市场空间广阔大模型能力赋能千行百业,打造繁荣模型生态。当前大模型已经展现强大文本生成能力和通用性,在办公、企业管理、金融、教育等领域逐步落地应用。未来,大模型对图像的识别、理解、总结和推理能力将不断提升,模型可以把图像、视频、文本等信息有机结合,更智能的认知和回应用户诉求,促进模型融入千行百业,实现规模化落地应用,形成围绕大模型的繁荣生态。公有云和私有部署模式共同推进,探索多样化商业模式公有云模式下MaaS模式值得期待,采用“订阅+流量”的收费模式。MaaS(ModelasaService)是一种新的商业模式,将模型作为基础设施部署在公有云端,为下游用户提供模型使用和基于模型的功能开发支持。行业大模型可利用MaaS模式广泛加持各场景,实现模型生态的快速发展。采用MaaS模式的行业大模型主要采取“订阅+流量”收费模式,用户通过基础订阅获取模型能力接入,同时基于用户模型流量使用情况确定模型服务价格。私有化部署模型通过项目制收费,满足客户定制化需求。考虑到模型规模和算力限制,大模型难以实现终端部署,以私有云模式进行分层部署将是实现模型应用的主要模式。各公司基于经营管理、市场定位、历史文化等方面的考量,容易形成差异化的市场理解,进而提出不同的模型需求。定制化模型带来更高的开发成本和更长的交付周期,更适用于拥有深刻行业理解的行业龙头和超大型公司。生成式AI整体市场空间广阔,有望超过2000亿元。根据technavio数据,全球生成式AI市场规模有望从2022年的112亿美元增长到2027年的459亿美元,2022-2027年CAGR为32.65%,其中2023年将实现31.65%的增速;根据前瞻产业研究院的数据,2022年我国生成式AI市场规模约660亿元,预计2020~2025年复合增速将达到84%,行业整体处于高速增长通道。在大模型的催化下,生成式AI市场规模有望在中短期保持高速成长,2025年有望超过2000亿元,大模型行业未来发展前景广阔。办公:模型落地核心场景,打造智能办公助理四大特征共同作用下,办公软件成大模型应用落地的核心场景之一。1)应用场景扎实:办公场景关系连接多、信息含量高、时效性强;2)效率提升明确:AI+办公软件在AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)等方向将带来效率提升;3)功能演进清晰:伴随扩大测试范围以及正式推向客户,功能有望结合反馈进行快速演进;4)商业落地加速:海外Microsoft365Copilot计划将以30美元/月提供,E3、E5、商业标准版和商业高级版收费为36/57/12.5/22美元/月,国内WPSAI已经开启公测。模型能力限制下,短期以场景化点工具结合为主。由于当前模型通用能力无法覆盖所有场景,办公软件AI产品短期需结合场景进行优化,以点工具集合的形式实现完善模型产品矩阵。以WPSAI为例,公司或将右边栏的对话框化整为零,如在表格中的不同位置提示对应生成函数、处理数据、分析数据等不同功能;同时针对特定场景,公司基于开源底座7B、13B等小模型,以Copilot场景中的表格函数生成为例,大模型在相关领域效果较差,公司自研小模型实现低成本且高效的表格函数生成。多模态能力结合打造办公场景下的智能助理。微软全新打造Microsoft365Chat,结合电子邮件、会议、聊天、文档以及网络数据等多模态信息,Microsoft365Chat对用户工作需求和习惯形成深刻理解,可以在用户的文件中快速找到所需要的内容并将其与群体内容相连接,还可以写战略文件、预定商旅、收发电子邮件,全面扮演办公场景下的智能助理角色。我们认为,伴随大模型应用的逐步深入,智能助理或是公司在生成式AI方向上的潜在布局选择之一,即将当前的AIGC、Copilot、Insight三大战略方向统一为全面的智能助理。教育:全面引领教学变革,海外产品落地获得认可应用上形成“教、管、学、考”四大场景,融入具体的教育应用环节。其中“学”和“考”针对学生,大模型的生成能力融入线下和线上,促进学生教学提质增效,以数据驱动科学备考和科学练习,学生在学习过程中使用大模型技术,能够提高学习效率。“教”和“管”主要针对教育者,行业大模型可以利用数据整合能力实现科学的教师和学生评价管理体系,利用大模型工具学习能力和知识整合能力实现高效备课,将有效减少教师的工作量,并实现更好地因材施教。Duolingo和Khanmigo实现大模型线上辅助教学,取得良好市场反馈。Khanmigo为KhanAcademy推出的针对专业教育的模型产品,可以充当学生的虚拟导师解释概念、提供提示、检查答案,并通过个性化教学和自适应辅导的模增强学生对知识的掌握程度。作为语言教育软件,Duolingo在最新“Max订阅方案”中推出两项基于GPT-4的设计的教辅功能,分别是答案解释(ExplainmyAnswer)和角色扮演。在答案解释功能中,模型可以对用户个性错误加以解释,以提升学习效果;角色扮演中,用户可以在AI设计的一系列语境中扮演各种角色,通过语言时间来深层激发“内在学习(implicitlearning)”,挑语言学习效率。根据多邻国公司财报,23Q2月活用户达7410万,同比增长50%;日活用户数2140万,同比增长62
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郑州西亚斯学院《文学概论》2021-2022学年第一学期期末试卷
- 基于色度图的水质预测研究
- 化肥农资购销协议范本
- 水电安装劳务分包合同书
- 公园景观维修工程招标启事
- 品质保证书品质追求顾客满意
- 2024年度物业维修服务深度合作协议
- 天然石材翻新养护
- 2024年度电梯临时使用及维护保养协议
- 违法建筑拆迁处理
- 2024年海南乐东县乐供“菜篮子”发展有限公司招聘笔试参考题库含答案解析
- 保安市场行业市场现状分析及对策
- JGJT280-2012 中小学校体育设施技术规程
- 幼儿园大班健康领域指南目标
- 大型机械设备安全操作培训
- 管道阀门更换施工方案
- 人教版小学数学三年级上册周长【全国一等奖】
- 幼儿园小班音乐游戏活动《小老虎吃糖》教学设计【含教学反思】
- 新时代中小学思政课一体化建设探究
- 《物流机械设备》课件
- 《拼多多运营方案》课件
评论
0/150
提交评论