从ChatGPT看生成式人工智能AIGC产业机遇与落地场景_第1页
从ChatGPT看生成式人工智能AIGC产业机遇与落地场景_第2页
从ChatGPT看生成式人工智能AIGC产业机遇与落地场景_第3页
从ChatGPT看生成式人工智能AIGC产业机遇与落地场景_第4页
从ChatGPT看生成式人工智能AIGC产业机遇与落地场景_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

▍报告缘起Chat-GT自推出以来表现优异展现出了相比于前代更好的对话能力与上下文的逻辑一致性。OI团队最新公布的语言模型Cha-GT于2年1月0日向社区发布测试,并立即收到了良好的反馈。从测试反馈的结果看,相比于前一代的G-3,C-GT以对话为载体,可以回答多种多样的日常问题,对于多轮对话历史的记忆能力和篇幅增强与G-3等大模型相比Cha-GT回答更全面可以多角度全方位进行回答和阐述相较以往的大模型知识被挖掘得更充分此外ChaGT增加了过滤处理制以解决I伦理问题,针对不适当的提问和请求,它可以做出拒绝和“圆滑”的回复。图:tPT相比于代回更加灵,更近人反应tGT图:面对有人类理的题tGPT会进拒绝tGTChat-GT的强势出圈成为了对人工智能中短期内的产业化方向一系列探索的催化剂。从对Cha-GT的测试结果来看,Cha-GT开始能在大范围、细粒度问题上给出普遍稳妥的答案并根据上下文形成有一定的逻辑性的创造性回答。它降低了人类学习成本和节省时间成本,可以满足人类大部分日常需求,比如快速为人类改写确定目标的文字、大篇幅续写和生成小说快速定位代码的g等这些小功能在中短期内有望快速被初公司产业化以极低的成本表现出比此前更优越的性能本篇报告就将从Cha-GT背后的技术逻辑出发,分析本轮人工智能浪潮可能的产业化方向。图:各时间点所应的I能以及所产生应用品 资料来:红投资▍技术逻辑:基于人类反馈学习进行额外训练,给出ransformer未来的发展方向Chat-GT继承了InstuctGT基于G-3之上的创新,即人类反馈强化学习与奖励模型取得了良好的效果。OpnAI团队从G-5系列中的一个模型进行微调,使用与InstructGT相同的方法人类反馈强化学习(RLHF)训练该模型并对数据收集设相对做了优化。从此前公布的兄弟模型Instruct-GT的论文来看,Cha-GT的模型构建主要分为三部分:使用有监督学习方式基于GT3.5微调训练一个初始模型训练数据约为2w~3w量级(根据兄弟模型InstructGT的训练数据量级估算。OpI请来了约0人的标注师团队,由标注师分别扮演用户和聊天机器人产生人工精标的多轮对话数据这种标注的训练数据虽然数据量不大,但质量和多样性非常高,且都是来自真实世界数据。随后模型随机抽取一大批rompt,使用第一阶段微调模型,产生多个不同回答。标注人员对这些个结果排序并按照个人的对回答完成度的偏好形成训练数据对之后使用prwseloss来训练奖励模型可以预测出标注者更喜欢哪个输出在不断比较中给出相对精确的奖励值这一步使得Cha-GT从命令驱动转向了意图驱动。在这个过程中训练数据不需过多维持在万量级即可因为它不需要穷尽所有的问题,只要告诉模型人类的喜好,强化模型意图驱动的能力就行。使用O强化学习策略来微调第一阶段的模型。随机抽取新的rmp,用第阶段的ReardModel给产生的回答打分。这个分数即回答的整体reard,进而将此reward回传,由此产生的策略梯度可以更新O模型参数。整个过程迭代数次直到模收敛O模型可以在多个训练步骤实现小批量的更新其实现简单易于理解性能稳定、能同时处理离散连续动作空间问题、利于大规模训练。图:IstctT的技术逻:F的主要改变于人监督与调整的奖模型 OChat-GT成功使用小训练样本完成了与G-3相当甚至更好的效果突显数据质量的重要性Cha-GT的兄弟模型InstructGT仅仅使用了精选的3亿参(对比G-3的千亿级别参数就完成了与G-3结果相当甚至更好的回复质量从论文给出的四个数据集测试可以看出在其中两个数据集InstructGT就完成了明显超越G-3回复质量的结果。因此,我们推测InstuctGT的兄弟模型C-GT也使用了小量级的数据样本取得了如此出色的结(Cha-GT不同于InstructGT建立于G-5系列的一个模型上,数据量应大于InstructGT但仍小于G-处于百亿级别Cha-GT的成功向我们展现了目前我们所看到的rasfomer模型们的潜力尚未被完全开发,如何更好的精选优数据将成为下一步的课题之一。图:RlToxcty数据集keod 图:TrutfuQA数据集keod .4.3.2.1.2.9.8.7

GT 有监督微调 IttGT

.5.4.5.3.5.2.5.1.50

GT 有监督微调 IttGTOI 注纵轴为与真实答案的最大相似度

OI 注纵轴为与真实答案的最大相似度图:Haucnation数据集keod 图:Custmerssstatpropriate数据集keood.5.4.5.3.5.2.5.1.50

GT 有监督微调 IttGT

.2.9.8.6.4.2.8.8.6

GT 有监督微调 IttGTOI 注纵轴为与真实答案的最大相似度

OpI 注纵轴为与真实答案的最大相似度Chat-GT的成功是在前期大量坚实的工作基础上实现的不是横空出世的技跨越这些进步主要来自于数学层面上的优化带来的结果匹配精准度提高而并非算法真为I带来了创造性与完整的逻辑性也不是能够从训练的数据中学习到新的知识它“锁(uock)和挖掘GT3学到的海量数据中的知识和能力,但这些仅通过快速的-cotext的方式较难获得InstuctGT找到了一种面向主观任务来挖掘GT3强大语言能力的方式。因此从这样的底层技术逻辑出发,我们能迅速找到中短期内适合的产业化方向:一个真正全方位的智能内容生成助手。图:tPT的代码成 tGT▍产业影响:成本下降高质量数据加速底层应用落地回顾过去近十年间I产业链的发展史,我们可以简单分为以下几个阶段:.小模型(5年前)I擅长特定领域的分析任务(如语义理解等,但通用型任务的完成情况很差。硬算力不够导致重新训练成本过高数据来源过于稀少难以提升到更高精确度整体表达力与人类相差较远。.大模型(-2022年)rafomer模型的出现,使得文字、语音、图像识别、语言理解等领域达到了超越人类的水平但同时也极大得增加了模型的体积只有拥有强大算力支撑的科技巨头才能力训练rafomer模型。图:52年间深度学模型体不断大 tfdAII兼顾经济性与可使用性(22-2024年)Chat-GT的成功证明了两点单纯扩大模型参数并非唯一出路让模型在早期开放给大众测试并收集人类反馈数据更有利于模型迭代之前两个阶段人工智能的展更多体现在基于规模的技术突破如-0年用于模型训练的计算量增长了6个数量级同时随着规模的增大输出结果的质量亦迎来质变,在语言文字书写图像识别等领域皆表现出超越人类的水平。但在实用层面由于所需要的算力巨大,往往需要特殊的GU配置,同时训练过程相对封闭,大多数人并无法使用,因此技术无法被多数人触达。而人工智能的第三个阶段,随着更新的技术更优的算法更大的模型出现,算力的成本越来越低使得模型训练与运行所需成本持续下降而算法从封闭测试到开放测试开源的逐渐普及,亦降低了使用门槛。由此人工智能无论在经济性与可获得性上都达到了支持普及的水平。图:加入了人反馈骤后大模型代速将远以往模型开放、快速迭代(4以后)得益于IGC基础设施可获得性的逐步提高平台层变得更加稳固算力成本持续下探,模型逐渐趋于开源与免费,应用层爆发式发展的节点正在靠近。正如GS技术的及打开了导航市场,我们认为IGC整体产业链从底层硬件到中层技术再到产品思维的熟正在催生新的杀手级应用。图:未来可能现的手级用及其应的前模型资料来:红投资▍应用场景:实现GC到IGC的助推器Chat-GT的出现所带来的内容生成能力将会为当今从用户创作(G)到I创作(IGC的转型提供关键的辅助支持目前我们正经历从Wb.0开始向We30转型的启航阶段在过去五年我们已经看到内容创造从专业创(FC转型为了用户创(UGC在UGC阶段,随着消费者定制化需求越来越高,消费者本身亦参与内容的生产,并伴随着互联网的兴起智能手机的普及ouFacebook等平台涌现UGC成为了内容生产的主流模式而在不远的将来I协助内容生(IUGC与I创(IGC将为我们提供更低的创作门槛以及更丰富的创作思路在这两个阶段中内容生产主体从人类本身开始向人工智能迁移主要区别体现在内容的生产效率知识图谱的多样性以及提供更加动态且可交互的内容上人脑只能基于自己的知识图谱进行少数方向的信息处理,而I能从更庞大的知识体系中进行多个方向的处理,进而提供更多的创作思路。Garnr预计,到5年,生成式人工智能将占所有生成数据的%。图:内容生成四个段 资料来:虎网结合Cha-GT的底层技术逻辑我们认为Cha-GT中短期内产业化的方向主要分为四大板块:Chat-GT对于文字模态的IGC应用具有重要意义,在归纳性的文字类工作中展现出了极其优异的表现其中在Cha-GT的帮助下传统的文字类工作中的一些方向会涉及到交互的全面改革,比如机器翻译不再是传统的文本输入-实时翻译,而是随时以助手问答的形式出现。甚至给出一个大概笼统的中文意思让机器给出对应英文中短期内Cha-GT能在办公辅助类工具中迅速落地,例如会议总结、文件翻译、例行报告等提升办公效率并节省人力成本。目前已有的初创公司如Jasp,主打文字生成相关服务于2年0月9日宣布完成5亿美元的A轮融资估值达到5亿美元该公司针对不同应用场景提供不同类型的服务如社交媒体、广告文章、邮件等不同类型的文生成。图:Jsr采用SS模式档位定价 sr官网代码开发相关的工作更加规整也非常适合I辅助生成。1年中与Gthb、微软合作上线的Coplot是目前最成熟的I代码补全工具,根据Gthb数据,测试一年来已有0万用户这些用户编写的代码中%是由Coplot自动生成而截至2年月,Copot已经融资0万美元。Cha-GT在目前测试中表现出的代码生成能力相比于Copot更加灵活,可以独立完成一些小功能的编写,但综合看目前版本的Ca-GT自代码生成中欠缺一些底层的稳定性。在进行针对性的优化后基于新GT模型的I码辅助工具也有望在中短期内落地。图:ilt目前主要开发提供纠与修建议ilt图像生成领域成为了2年下半年一级市场公司布局的热点,随着Dall2的热度,在商稿方面用I取代人类画手的思路基本明确。1年OpenI推出的初代图像生成Dae模型就是基于GT之上,而Dae2则转向投入了扩散模型的怀抱并取得了更的效果。GT模型在图像生成领域目前效果略逊于扩散模型,但扩散模型可以利用Cha-GT生成较佳的romp对于IGC内容和日趋火热的艺术创作提供强大的文字形态的动力。表:国内流I绘画软件产品名称 所属公司文心一格 百度集团万兴I绘画 万兴科技n 毛线球技清墨社区 映刻科技无界版图 超节点息科技ZO.AI 感知阶数字技TIAT 退格数科技盗梦师 西湖心科技各司官,Chat-GT将在智能客服类工作中找到适合自己的位置根据模型现有的完成度,在垂直行业针对性的做人工反馈训练,Cha-GT就可以落地为智能客服产品,在C场景中率先应用。对比现有的智能客服,Cha-GT支撑的客服将在灵活性与人性化服务方面有显著的进步根据GrndiewResearch的报告全球I市场在2年达到了亿美元该机构预计到0年将达到8亿美元对应2年-0年CGR为%。而根据CanmReserch1年的调查数据显示,美国%的客户联络中心在未来三年内部署人工智能,%的客户服务互动已经实现自动化,该机构预计到3年将增长至%。图:全球I客服市空间速(十美元) 市场规模 oY8765432102 E E E E E E E

GViewsc(含预测)近两年国内一级市场中也涌现了大量智能客服公司基于模型之上做针对性的产业优化将节省大量成本。据市场研究机构沙利文发布的《1年中国智能客服市场报告》显示,0年中国智能客服行业投融资事件有3件,投资总金额为4亿元,同比增长%另外1年上半年中国智能客服投融资事件有3件投资金额达4亿元,C轮至D轮融资事件占比高达%从投融资轮次来看1年上半年C轮至D轮投融资事件最为活跃可见各细分赛道企业渐趋成熟其中智齿科技来也科技乐言科技、Udesk、晓多科技、小能科技等智能客服厂商,颇受资本市场青睐。▍风险因素I核心技术发展不及预期风险科技领域政策监管持续收紧风险全球宏观经济复不及预期风险宏观经济波动导致欧美企业T支出不及预期风险全球云计算市场发展及预期风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。▍投资建议Cha-GT模型的亮眼表现的背后是研究者在rafomer模型前进的道路上发现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论