计算机行业:一致性模型、Auto-GPT、Meta动画制作等动态跟踪_第1页
计算机行业:一致性模型、Auto-GPT、Meta动画制作等动态跟踪_第2页
计算机行业:一致性模型、Auto-GPT、Meta动画制作等动态跟踪_第3页
计算机行业:一致性模型、Auto-GPT、Meta动画制作等动态跟踪_第4页
计算机行业:一致性模型、Auto-GPT、Meta动画制作等动态跟踪_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告行业动态报告一一致性模型、Auto-GPT、Meta动画制作等动态跟踪yanguicheng@jinge@yufangbo@发布日期:2023年4月15日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。观点•核心观点:近期AI领域热度持续升高,各个AI巨头持续推出各种重磅模型,其中包括微软旗下DeepSpeed持续深耕模型训练优化策划,推出DeepSpeed-Chat,加速RLHF训练过程,进一步强化大模型的生态优势;以基于GPT-4的Auto-GPT为代表,引发AI代理热潮,向AGI更近一OpenAI像生成领域将比肩甚至超越扩散模型;Meta又迎来开源,发布动画制作算法与数据集;Google:采•Deepspeed组织推出一款大模型系统DeepSpeed-Chat,高效实现大模型的基于人类反馈强化学习(RLHF)微调训练。减少了大模型的RLHF训练的时间与金钱成本,削减了自然语言大模型的微调门槛,降低了大模型在垂直领域的应用难度,进一步提高了中小厂商对其大模好度、依赖度,实现大模型生态上的自我反哺。•以Auto-GPT为代表的AI-代理正引起注意,Auto-GPT通过接入互联网、包含内存管理、使用GPT-4接口等,拥有非常好的内容生成、逻辑思考能力,甚至还能自己进行代码优化,Auto-GPT、AgentGPT和BabyAGI一并成为AI代理风口下的主力军,探索AI边界,AGI(通用人工智•OpenAI近期提出了“一致性模型”支持一步式图像生成,相比扩散模型,无需多轮迭代便可快速生成图像,具备稳定且高效的特点,成为新在图像生成领域将比肩甚至超越扩散模型。•Meta开源其动画制作算法,其中包含人物检测、掩码分割、姿态估计/操控以及制作动画等过程,除此之外,Meta还开源了一个包含近的草稿画数据集。•Google提出一种方法,采用Self-Debugging方法,通过少量示范来教会大型语言模型进行橡皮鸭调试,提升了生成代码的准确性。•Amazon推出Titan模型,包括生成式大语言模型与文本嵌入大语言模型,Amazon同时推出Bedrock生成式AI平台,Bedrock允许用户通过AIAWSRLHFGPTAIDeepSpeed针对深度学习模型训练进行优化•DeepSpeed是微软的分布式训练框架,针对深度学习模型训练进行优化。目前LLM(大语言模型)处于快速发展阶段,可以从多个阶段出发对LLM的训练过程进行优化:1、选用高性能的AI计算芯片;2、通过分布式引擎降低单体算力需求;3、选用合适的•DeepSpeed主要工作围绕模型训练优化展开,DeepSpeed主要从三个维度出发优化深度学习模型。在训练过程中提升模型的训练效率、降低训练难度;在推理过程中,采用各类并行技术和通信优化等技术提升推理效率;同时提供灵活的压缩技术,压缩模型的尺寸同时降低压缩成本。图表:大模型训练过程中的不同层级的优化图表:DeepSpeed模型训练的优化策略硬件DeepSpeed-chat实现高效的基于人类反馈强化学习训练•DeepSpeed-chat是deepspeed组织推出的针对大规模语言模型实现高效的基于人类反馈强化学习(RLHF)训练的系统,可以对HFInstructGPTRLHF•步骤1:监督微调(SFT)——使用精选的人类回答来微调预训练的语言模型以应对各种查询;•步骤2:奖励模型微调——使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比SFT小的)奖励模RW;ProximalPolicyOptimizationPPORWSFT图表:DeepSpeed-chat实现高效的RLHF训练图表:InstructGPT中基于人类反馈的强化学习机制DeepSpeedHybridEngine优化RLHF训练过程•在RLHF的前两步训练过程中,通过ZeRO的内存管理优化和并行策略的灵活组合实现训练提速。•在RLHF的第三步训练过程中,模型的迭代首先需要通过模型推理得到问题答复,由奖励模型判断之后反馈监督微调模型,实现模型参数的更新。模型的推理与训练在第三个RLHF训练阶段相互混合,降低了模型的训练速度。DeepSpeed-chat通过将模型的训练和推理功能整合为一个混合引擎(HybridEngine),从而实现RLHF第三步的高速训练。混合引擎中针对模型的推理和训练分别实现了优化,同时实现了模型训练和推理过程的无缝切换。 图表:DeepSpeedhybridengine大幅提升RLHF训练速度图表:RLHF训练的吞吐量和拓展性显著提升DeepSpeed-chat提升RLHF训练的吞吐量和拓展性•DeepSpeed-chat大幅提升RLHF训练的吞吐速度。通过DeepSpeed的高性能推理内核,DeepSpeedHybridEngine在RHLF第三阶段耗时降低为HuggingFace的1/9,Colossal-AI的1/15,得益于HybridEngine训练和推理过程的高效整合,DeepSpeed-chat推理过程中的等待时延显著降低,大幅提升整个RLHF训练的吞吐速度。•DeepSpeed-chat具备优秀的模型可拓展性。Colossal-AI可以在单个GPU上运行最大1.3B的模型,在单个A10040G节点上运行6.7B的模型,而DeepSpeed-HE可以在相同的硬件上分别运行6.5B和50B的模型,实现高达7.5倍的提升。同时,DeepSeed-RLHF在多达64个GPU的集群上实现了良好的整体扩展。DeepSpeed-chat大幅降低第三阶段RHLF时延图表:RHLF的可扩展性测试著降低DeepSpeed-chat预计将显著提升LLM的人机对话表现•DeepSpeed-chat助力LLM使用RLHF进行预训练,使用该工具预训练后的模型性能表现预计较为出色。•以ColossalChat为例,ColossalChat基于LLaMA模型,并使用基于人工反馈的强化学习后训练出来的模型,包括完整的RLHF过程来复刻类似ChatGPT优化训练过程。ColossalChat的双语数据集包括10万个中英文问答对,该数据集是从社交媒体平台上的真实问题场景中收集和清理的。在经过RLHF微调训练后,ColossalChat只需要不到100亿个参数就可以达到与ChatGPT和GPT-3.5相当的效果。•根据ColossalChat成功的案例,我们预测,在DeepSpeed-chat加持下,其他LLM在使用RLHF后也将展现出良好的人机对话表现。ColossalChat集流程DeepSpeed-chat对产业的影响几何•DeepSpeed-chat降低大模型的RLHF训练的时间和金钱成本。DeepSpeed-HE比现有系统快15倍以上,降低了RLHF训练的时间和金钱成本。例如,DeepSpeed-HE在Azure云上只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个OPT-30B模型。这两种训练分别花费不到300美元和600美元。•DeepSpeed-chat降低了自然语言大模型的微调门槛,实现大模型生态上的自我反哺。目前DeepSpeed-chat只支持OpenAI和Meta旗下的部分模型做快速的RLHF训练,未来还将支持Meta的LLaMa模型,并未在广义的LLM模型上实现RLHF训练。我们认为,DeepSpeed-chat开源旨在降低大模型的微调门槛,让大模型更容易实现在垂直领域的微调,进一步提高中小厂商对其大模型的友好度、依赖度,从而实现生态上的自我反哺。 图表:不同模型在DeepSpeed-chat上的RLHF训练成本图表:当前DeepSpeed-chat支持的大语言模型ilyptneoxtjptneoptangeB6BB6B1B-2.7BB.5Bb16BDeepSpeed提供全方位的大规模自然语言模型优化技术•DeepSpeed团体还提供了一系列工具和技术,来提升大型深度学习模型在训练阶段以及推理阶段的效率,包括算法、技术及数据三DeepSpeedMII模型、VL-MoE大模型等在提高大模型的训练速度的同时,降低了推理成本。在技术层面,采用张量并行、分布用户策略将大模型的训练过程分布在多个GPU和机器上,从而可以训练更大的模型,提升模型训练能力。在数据层面,推出的DeepSpeedDataEfficiency可更好地利用数据,提搞训练效率。 RLHFGPTAIAutoGPT是基于GPT-4的自主人工智能体•Auto-GPT是一个开源的Python应用程序,以GPT-4为驱动,允许人工智能“自主”行动,无需用户提示每个动作。用户可以为Auto-GPT制定一个总体目标,并逐步采取自主行动来实现该目标。该程序可接入互联网并完全独立地在电脑上执行操作,无需在每一步都进行人工提示。•该模型具有多个全新特征,包括接入互联网进行信息搜集、长期和短期内存管理、基于GPT-4生成文本、可访问流行的网站和平AutoGPT工作原理•AutoGPT是以GPT4为基础的“自主”人工智能,使用GPT-4来生成、确定优先级和执行任务,使用插件进行互联网浏览和其他访问。同时AutoGPT可使用外部内存来跟踪它正在做的事情并提供上下文,并评估其情况,针对评估结果生成新任务或自我纠正,并将新任务添加到队列中,然后确定优先级。经过多轮信息搜集及评估,即可在无人干预的条件下完成任务。借助长短期内存管AutoGPT面上最好的5双防水鞋AutoGPT在内容生成方面表现优秀•AutoGPT借助GTP-4及互联网接口,拥有优秀的内容生成能力。在给定目标下,AutoGPT基于GPT-4制定问题解决方案,后对互联网上搜集的信息内容进行真实性评估,在一系列筛选、评估、更新迭代后,即可汇总完成任务。在文本内容生成质量方面,AutoGPT生成的文本结构清晰、信息全面、逻辑通顺。 提出目标AutoGPT应用及用户增长趋势•AutoGPT作为一个拥有长短期记忆的人工智能体,有多个应用场景,包括内容生成、网站创建及维护、市场研究和分析、营销以及聊天机器人开发等需要持续更新的任务。随着AutoGPT的不断更新和升级,其将在市场营销、金融、医疗健康、电子商务等领域有着更广泛的应用。•AutoGPT自2023年3月30日发布以来,已经受到各方的广泛关注。截至2023年4月14日,AutoGPTGithub库已被复制6500余次,被收藏48,800余次。AutoGPT开展电子商务图表:AutoGPTGithubRepo页面AgentGPT和BabyAGI•AgentGPT是在AutoGPT基础上创建的可在浏览器中组装、配置和部署自主AI智能体项目。AgentGPT在用户输入AI名称和任务后,能够自主思考要完成的任务、执行任务并从结果中学习,试图达成目标。截至2023年4月14日,AgentGPTGithub库已经被8300余人收藏。•BabayAGI是基于GPT-4的强化学习人工智能体项目。该模型从婴儿认知发展中吸取灵感,以促进强化学习、语言和认知发展等各个领域的提升。BabyAGI集成GPT-4、矢量搜索平台Pinecone以及LangChain框架,可在模拟环境中训练和评估各种人工智能代理,执行复杂任务。•以AutoGPT、AgentGPT和BabyAGI为代表的模型正引发一轮AI代理热潮,不断探索AI能力边界。GIRLHFGPTAI图像生成领域常见抗式生成网络和扩散模型•在图像生成领域,过去常见的模型有对抗式生成网络(GAN)和扩散模型(diffusionmodels)。•对抗式生成(GAN)网络包括两部分,一个生成器和一个判别器。生成器负责生成类似输入数据的新内容,判别器是将生成的输出与真实数据区分开来,这两个部分在GAN网络反馈循环中相互博弈不断迭代,导致生成输出的真实性逐渐增加。•扩散模型(DiffusionModel)提升了图像生成的多样性。扩散模型的概念最早在2015年提出,2020年提出利用扩散模型的子类别DDPM(去噪扩散概率模型)进行图像生成。其灵感来自非平衡热力学,模型定义了一个扩散步骤的马尔可夫链,在正向扩散过程中,将随机噪声添加到数据中,然后学习反向扩散过程,从噪声中构建所需的数据样本。网络模型GAN示意图资料来源:ResearchGate,DiffusionModels:AComprehensiveSurveyofMethodsandApplications,中信建投OpenAI的“一致性模型”成为新晋的图像生成模型•对抗式生成网络和扩散模型各有优缺点,对抗式生成网络依赖生成器与对抗器相互博弈,具有一步生成的优势,但是模型稳定性相对较差;扩散模型图像生成过程需要反复迭代,生成图像的创意性较强但是生成速度相对较慢。•OpenAI近期提出了ConsistencyModels模型具备无需对抗且可以快速生成的特点,成为新晋的优秀图像生成模型。ConsistencyModels建立在连续时间扩散模型中概率流的常微分方程(ODE)之上。给定一个将数据平滑地转换为噪声的PFODE,一致性模型可以在任何时间步将任意点映射成轨迹的初始点从而实现生成式建模。ConsistencyModels支持单步生成,无需像扩散模型那样反复迭代,极大加速了图片的生成过程。:ODE将任意点映射到轨迹的初始点资料来源:ConsistencyModels,中信建投ConsistencyModels在图像生成任务重表现优异•ConsistencyModels在低像素还原任务、掩盖图像还原任务、色彩还原任务中均表现优异。 图表:大模型训练过程中的不同层级的优化els资料来源:ConsistencyModels,中信建投lsRLHFGPTAIGoogle通过Self-Debugging实现代码的生成迭代•当前自然语言模型已经具备了一定的代码生成能力,但是代码的正确率仍有待提升。近期,Google发布了一篇“TeachingLargeLanguageModelstoSelf-Debug”文章,提出了一种Self-Debugging的方法,通过少量示范来教会大型语言模型进行橡皮鸭调试,提升了生成代码的正确性。•在调试过程中,模型首先根据目标任务生成新的代码,执行相应的代码,同时生成相应的代码解释,代码的执行结果和代码解释共同构成反馈信息,反馈信息返回模型实现模型迭代。 图表:大模型进行self-debug的迭代流程资料来源:TeachingLargeLanguageModelstoSelf-Debug,中信建投Self-Debugging显著提升代码的准确度•Self-Debugging显著提升了代码的正确度。在具体的代码翻译测试中,目标任务将C++代码翻译为python代码,Codex已经达到了当前最好的基准。引入Self-Debugging迭代,通常经历三轮完整的调试周期后,Self-Debugging便可以将代码的准确度提升到较高水准,代码准确度同时随着训练样本数据量提升而提升。•在不同难度任务中,Self-Debugging均实现了准确度的提升,尤其是在高难度的任务中,代码准确度实现了9%的准确度提升。资料来源:TeachingLargeLanguageModelstoSelf-Debug,中信建投RLHFGPTAIMeta开源animateddrawingsMeta80,000张带注释的草稿画数据集。•动画绘制程序包括:人物检测、掩码分割、姿态估计/操控以及制作动画。•对于人物检测与姿态估计,作者使用现有CV模型(MaskR-CNN)检测图像中的人物和关节,并将这些模型进行微调后用于儿童绘画;对于图像分割,作者提出了直接的基于图像处理的方法,相比直接从微调人物检测模型获得分割掩码更加有用准确;在制作动画步骤中,作者利用儿童绘图中常见的扭曲视角 (twistedperspective)将动作捕捉数据重新定位到人物身上。•作者从用户端收集了178,166张符合要求的儿童手绘图并进行了开源。 wings资料来源:《AMethodforAnimatingChildren’sDrawingsoftheHumanFigure》,中信建投•第一步,对图像中的物体进行检测。作者所使用的是MaskR-CNN模型,该模型主干是ResNet-50+FPN。•第二步,使用MS-COCO数据集进行预训练,但因为MS-COCO数据集是真实世界的图像,并非是儿童绘画,因此,作者对模型进行了微调,包括权重设计、损失函数、梯度下降优化、使用OpenMMLab检测箱进行训练等等。图像检测步骤需要8个TeslaV100-SXM2GPU的服务器进行预训练。 图表:直接使用MaskR-CNN检测会出错,微调后,准确率提高资料来源:《AMethodforAnimatingChildren’sDrawingsoftheHumanFigure》,中信建投第一行左图:直接使用MaskR-CNN;第一行右图,进行微体•儿童绘图中,图像分割是一个非常困难的操作(与真实图像有较大差距),虽然目标检测过程中会预测一个分割掩码,但质•1、将图像大小调整为400像素宽,并保持纵横比不变;•2、将图像转成黑白的,并执行自适应阈值处理,阈值是相邻8个像素值的高斯加权减去一个常数;•3、为图像的边缘进行填充,确保任何封闭的前景像素组都是实行的且不包含漏洞。图表:基于图像处理和MaskR-CNN提取掩码效果比较姿态估计•第三布,进行姿态估计,为了让绘图上的人物执行复杂动作,需要了解人物的比例和姿势。作者假设MS-COCO这个数据集的每张图像使用17个关键点,然后作者使用姿势估计模型来预测这些关键点的位置。•使用了在ImageNet预训练的ResNet50作为骨干,使用自上而下的基于热图的关键点头进行姿势估计(人体姿态估计的一种方法),然后经过一些参数的初始化,使用OpenMMLab姿态工具箱进行训练,直到收敛。 资料来源:《AMethodforAnimatingChildren’sDrawingsoftheHumanFigure》,中信建投动画生成•最后一步是动画生成,首先基于掩码使用Delaunay三角剖析算法生成网格;并使用预测的关节位置,为人物创建骨架,通过旋转就被创作出来。后续作者还有一些创作上的优化,在 图表:给定预测的关节关键点,为人物生成骨骼装置并产生重新定位姿势资料来源:《AMethodforAnimatingChildren’sDrawingsoftheHumanFigure》,中信建投Meta创立用户操作网页进行数据集收集•Meta建立了一个网页,让用户可以上传儿童绘图、切割图像、检测关节位置、创作动画等。•用户可以选择是否将上传的图像共享给Meta,Meta后续也会对这些图像进行过滤,确保图像是符合Meta要求的。 资料来源:《AMethodforAnimatingChildren’sDrawingsoftheHumanFigure》,中信建投RLHFGPTAI利用基础模型加速多种基础模型选择私有数据训练AWS工具拓利用基础模型加速多种基础模型选择私有数据训练AWS工具拓展•AmazonBedrock是亚马逊推出的生成式AI应用平台,此服务允许用户通过API访问来自亚马逊内部及多个创业公司的各类模型。Bedrock是客户使用基础模型构建和扩展生成式AI应用程序的最简单方法,为所有开发者降低使用门槛。•Bedrock有着广泛的应用场景,包括文本生成、聊天对话、搜索引擎、段落总结、图像生成和定制化服务。•Bedrock有多个全新特征,包括使用基础模型加速、多种大模型选择、自有数据训练基础模型、利用AWS等工具构建安全可靠的生成式AI。聊聊天机器人个性化订制文本总结文本生成图像生成搜索资料来源:亚马逊,中信建投Bedrock定制化模型•Bedrock为用户提供了丰富的基础模型选择。该平台不仅可通过API访问亚马逊Titan基础模型,也可通过API访问来自AI21Labs、•利用Bedrock人工智能平台,客户可以极容易地定制模型。用户无需标注大量数据,仅向模型展示几个标注好的数据,bedrock就可以针对特定任务微调模型。资料来源:亚马逊,中信建投几个最佳自动为时尚生成专属社广告和产品Bedrock可利用AWS工具进行丰富拓展•AmazonWebServices(AWS)是亚马逊推出的全球最全面、应用最广泛的云平台之一。该平台通过全球数据中心提供超过200项功能齐全的服务,帮助客户降低成本、提高敏捷性并加速创新。其应用领域包括市场营销、航空航天、农业、金融、制造业、教育、能源等。•Bedrock开放外部拓展,用户可接入亚马逊云服务推出的AWS工具和功能访问从文本到图像的一系列强大的基础模型,以及最新发布的AmazonTitan基础模型,来构建可靠且安全的生成式AI应用程序。图表:AmazonWebServices(AWS)业务构成容器网页及移动端程序无服务器机器学习资料来源:亚马逊,中信建投Titan大语言基础模型(FM)•Titan模型是亚马逊发布的高性能基础模型(FM)。未来将推出两个不同的Titan模型。第一个是针对总结、文本生成(如原创博客)、分类、开放式问答和信息提取等任务的生成式大语言模型。第二个是文本嵌入(embeddings)大语言模型,能够将文本输入(字词、短语甚至是大篇幅文章)翻译成包含语义的数字表达(即embeddings嵌入编码)。•Titan模型已在大型数据集上进行了预训练。私人订制化训练时,无需注释大量数据。•该模型的主要应用场景为:自动化自然语言任务,比如总结和文本生成;提高搜索精确度并提升个性化推荐;识别有害、不良内容以促进AI良性发展。自动化自然语言任自动化自然语言任务提高搜索精确度并提升个性化推荐识别有害内容(仇恨语言、暴力)资料来源:亚马逊,中信建投风险提示•人工智能模型技术发展不及预期:人工智能模型属于先进AI算法,若后续算法更新迭代效果不及预期,则会影响人工智能模型演进及拓展,进而会影响其商业化落地等;•算法隐私问题:人工智能在进行预训练过程中,使用了大量数据,其中会涉及相关隐私问题;•应用不及预期:人工智能算法与相关应用落地之间还存在一定距离,需要注意应用落地不及预期风险。•算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,人工智能模型训练过程中需要大量算力资源,需要关注中美关系带来的中国算力的压力;•数据数量与数据质量不及预期:人工智能模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影模型效果;•伦理冲突风险:人工智能模型将进一步推动人工智能迈向通用型人工智能,人工智

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论