计算机行业市场前景及投资研究报告:大模型范式变革、开源闭源_第1页
计算机行业市场前景及投资研究报告:大模型范式变革、开源闭源_第2页
计算机行业市场前景及投资研究报告:大模型范式变革、开源闭源_第3页
计算机行业市场前景及投资研究报告:大模型范式变革、开源闭源_第4页
计算机行业市场前景及投资研究报告:大模型范式变革、开源闭源_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

%%%%01

大模型驱动AI研发范式变革02

大模型会完全取代小模型吗?目

录03

如何看待开源与闭源之争?%%3%%%%%01大模型驱动AI研发范式变革4%%%%AI研发范式发展的核心目的是通过标准化解决成本困境01

复盘AI研发范式发展,其主要经历三大阶段:(1)第一阶段范式:从头开始训练模型——AI应用企业做大需要=海量数据(各行各业)+大算力基础+AI人才团队,无法产生规模效应(2)第二阶段范式:预训练+微调训练的迁移学习——从相似性出发,寻找部分领域共性,迁移学习实现基座部分领域重复利用,AI应用企业做大需要=海量数据(部分行业)+一定算力基础+AI人才团队(3)第三阶段范式:基础大模型+提示学习——基座模型能力得到绝对突破,走向AGI,通过应用提示实现差别,AI应用企业做大只需了解产业专属promptAI研发范式的改变主要于新技术的突破,核心目的是实现基座模型标准化和泛化后的降本,从而实现商业化落地资料:北京智源%%5%%%%%01

新范式下AI公司有望迎来商业模式及竞争格局双突破

大模型驱动AI范式进入新一轮变革,有望迎来商业模式跃升及产业格局变化从AI研发范式来看,产业的话语权逐渐由应用端走向研发端,即改变了之前完全由客户定夺市场(项目制考虑单一任务投入人力、算力、周期计算项目金额)转向由技术定义市场(MAAS,客户无法估测基础模型摊薄成本,基座模型大力投入限制参与玩家,话语权降低)AI商业模式有望从项目制主打应用落地走向订阅制MAAS主打基础模型技术支持,产业话语权提升的带来产业链核心价值的聚集另一方面,由于基座模型需要大量基础资源(数据+算力+人才)的消耗,提升了进入门槛,模型能力成为核心判定指标,行业格局有望从分散走向集中商业模式及竞争格局有望实现双突破互联网互联网教育教育金融政务等金融政务等各行各业*各种场景(无法泛化)=N个专属模型各行各业*各种场景(大模型泛化)=基座模型+微调新产业分工出现:AI研发底层基座技术提供方+AI应用落地企业(企业本各细分领域的AI应用解决方案厂商,缺少规模效应导致玩家数量众多身或者落地服务提供商)应用落地服基座模型提供商21务提供商玩家6玩家3玩家1玩家5基座模型提……玩家走向集中玩家2供商1应用落地服务提供商n基座模型提供商3玩家4玩家N….资料:长江证券研究所。6%%%%02大模型会完全取代小模型吗?%%7%%%%%02

“垂类中小模型+迁移学习”、“大模型+”将长期共存

原因一:模型能力尚存局限性——目前靠“大模型+提示学习”在产业中落地仍困难重重,技术天花板尚未达到突破期

现阶段大模型产业落地范式=基础模型预训练+微调+指令微调,该范式本质是运用了模型涌现的思维链能力

目前ChatGPT使用效果为当前国内外模型应用的天花板,尚未达到可以通过提示学习进入各行各业,效果受限于模型规模及数据质量ChatGPT是在GPT-3的基础上多轮微调+指令调参指得到,尚不具备专业能力Prompt实施仍局限性:整体效果劣于微调,模型规模小时更加明显GPT-3解决align问题基于人类反馈指令微调2020GPT-3系列SFT+RLHFCodexInstructGPT2021-2022初代Codex基于120亿参数GPT-3模型在Github代码数据上微调2022二代CodexCode-davinci-002

增加代码数据做预训练有监督指令微调侧重于代码能力2022.04-2022.07在二代Codex基础上做有监督指令微调侧重于文本能力GPT-3.5系列Text-davinci-0022022.05-2022.06Text-davinci-003ChatGPT2022.112022.11经过RLHF训练的InstructGPT公开NLP任务效果更好使用对话数据进行强化学习指令微调建模对话历史的能力显著提升资料:notion,《The

Power

ofScale

for

Parameter-Efficient

Prompt

Tuning》Brian

Lester等著,长江证券研究所。8%%%%02

“垂类中小模型+迁移学习”、“大模型+”将长期共存

原因二:大模型应用成本较高,可用场景需要拥有较大规模高质量数据集,算力、基础设施、数据规模三大核心要素影响模型选择

大模型成本包括:训练数据的准备、训练过程、测试评测三大部分。每一部分包括在该部分所需要的人力成本、计算成本等;不包括:可以分摊到多个大模型训练的成本项,例如工具的开发、新算法的研发等,模型的开发成本十分高昂。中文高质量数据集仍十分稀缺(100万条Common

Crawl网页数据站源IP数量分布及占比)LLM模型开发成本估算,数据+训练+评测成本都很高昂国家或地区美国数量106465892452215781184482占比41.20%22.80%17.50%6.11%日本中国大陆中国香港南非4.58%中国台湾新加坡其他1.87%1460.56%1392258425.39%合计100.00%智源Aquila天鹰语言模型与训练数据集分布:百亿通用模型需要的数据量已经巨大资料:2023年北京智源大会,长江证券研究所。%%9%%%%%02

“垂类中小模型+迁移学习”、“大模型+”将长期共存

原因三:模型精确度仍有提升空间,对于真值更加重要的场景,可解释性及准确性为首要核心考量LLM模型发展仍具有很多挑战GPT-4的幻觉现象资料:《Challenges

and

Applications

of

Large

Language

Models》Jean

Kaddourα等著,长江证券研究所。10%%%%02

“垂类中小模型+迁移学习”、“大模型+”将长期共存

“垂类中小模型+迁移学习”“大模型+”将长期共存,根本是场景匹配度与成本

“大模型+”将更多聚焦提升通用能力水平,有望质变改变用户体验,适合通用+泛化性强的场景,例如个人生活助手、流量入口等现阶段,小模型与大模型结合使用将具备更好效果小模型

+

迁移学习+

提示/指令微调大模型低

参数+低通用性大参数

高通用性+目标领域的知识在基础大模型中,提示/指令微调仅仅是对“告知”模型该如何完成一种任务

——

Superficial

Alignment

Hypothesis目标领域的知识主要通过迁移学习过程中的微调训练获得。所以,需要确保迁移学习过程中的微调数据足以覆盖所有知识/认知场景。高精度+限定场景通用

泛化性强+适合对精度要求高,但对泛化能力要求低的窄域场景(如工业质检、医疗影像分析)适合对泛化、通用能力要求高的广域场景,但精度要求不高。低成本+低时延成本与时延不敏感适合成本要求低、时延要求高的场景(如自动驾驶、工业智能控制)适合成本要求不敏感、时延要求不敏感的场景大模型可以作为教师模型加快模如何选择模型尺寸、把大模型资料:北京智源人工智能研究院,文汇报社,长江证券研究所。%%11%%%%%02

关注具备模型构建能力+垂类场景数据掌控能力的优势厂商

大模型范式的出现本质上是降低了AI应用的进入壁垒,并且对于所有厂商有益

现存基座模型的能力尚未发生继GPT-3.5问世后的新一轮质变,原有AI公司长期积累的渠道及赛道优势仍存,其中凭借赛道优势能够掌握垂类场景数据的厂商值得关注

尽管AI应用厂商可以凭借接入第三方大模型降低落地壁垒,但同时能力迭代及原有技术优势将会受限,因此具备模型构建能力的厂商有望抢先卡位,获得先发带来的品牌优势及用户粘性AI研发范式的改变降低了AI应用进入的壁垒,数据的稀缺性和模型构建能力成为核心竞争要素资料:北京智源人工智能研究院,文汇报社,长江证券研究所。12%%%%03如何看待开源与闭源之争?%%13%%%%%03

开源模型和闭源模型之争可以转换为场景之争OpenAI-GPT-4AI21-Jurassic-2Anthropic-Claude清华大学-Chat

GLMGoogle-Flan

UL2Google-BardMeta-LLaMA开源闭源2023Meta-OPT-IMLAnthropic-LM

v4-s3Meta-Galactica清华大学-GLMOpenAI-ChatGPTHuggingFace-BLOOMZGoogle-FlanPaLMGoogle-Flan

T5Yandex-YaLMEleutherAI-SparrowHuggingFace-BLOOMGoogle-MinervaAI21百度微软2Google-UL2HuggingFace-Tk1111333开源闭源Meta-OPTGoogle-PaLMEleutherAI-GPT-NeoXDeepmindDeepmind-ChinchillaGoogle-LaMDAOpenAI-InstructGPTAnthropicEleutherAIGoogle-ST-Moe百度-ERNIE

3.02022

HuggingFaceOpenAI5Deepmind-GopherAnthropic-LM25OpenAI-CodeXGoogle-GLaMMeta7微软-MT-NLGGoogle87EleutherAI-GPT-JAI21-Jurassic-1EleutherAI-GPT-NeoGoogle-Switch2021HuggingFace-T0OpenAI-GPT-3微软-DeBERTaGoogle-mT5Standford-ELECTRA2020Meta-ALBERTHuggingFace-DistillBERTGoogle-T5Meta-BARTGoogle-XLNeTOpenAI-GPT-2Meta-RoBERTa百度-ERNIE20192018Google-BertOpenAI-GPT-1Encode

DecoderAllen

AI

-

ELMoFastTextGLoVeWord2Vec资料:《Harnessing

thePower

of

LLMs

inPractice:

ASurvey

on

ChatGPT

andBeyond》,

Yangetal.,长江证券研究所。14%%%%03

闭源模型聚焦提升模型能力天花板的突破,在通用+泛用性的场景中更具优势

闭源模型核心是追逐能力的里程碑,模型体验感佳,迭代速度更快,在面向公众,通用+泛用性强的场景中更具优势

目前闭源模型主力厂商为OpenAI及Google,双方均聚焦模型能力的边界持续探索,成为行业应用落地的标杆。其中OpenAI率先实现C端落地的商业模式,并且率先解决了模型架构设计、调参方式及多模态的探索。Google紧随其后奋起直追,多聚焦于具身智能的多模态模型,有望争取新一轮里程碑机遇。对于闭源厂商来说,就如同手机行业的苹果,其闭源属性助力其在模型工程化落地过程中形成的经验壁垒及技术壁垒的构建,有望率先享受技术进步带来的红利。OpenAI持续推进模型能力及应用方式的探索Google继Palm-E后推出RT-2架构,可实现直接控制机器人资料:GPT-4

Technical

Report,OpenAI,《RT-2:

Vision-Language-Action

Models

Transfer

WebKnowledge

toRobotic

Control》Anthony

Brohan等著,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论