计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文

上传人：b*** IP属地：北京上传时间：2023-10-29 格式：DOCX 页数：36 大小：2.44MB 积分：20 举报 版权申诉

计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文_第2页

计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文_第3页

计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文_第4页

计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文_第5页

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

投资案件结论和投资分析意见本次GPT-4V未来AI但同时多模态大模型的进入门槛，相比语言单模态阶段，也大幅提高。原因及逻辑根据微软详细测评，GPT-4V可以胜任大量具体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好；过去小模型时代“视觉智能”有限，主要因为在计算机视觉CV领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型Few-shot和Zero-shot增加语言模态后，视觉模型泛化能力大幅提升；除了常见的ChatGPT对话功能以外，可以期待更多AI陷检测、医疗影像识别、具身智能交互、汽车保险评估等；为了达到多模态智能，无论OpenAI还是GoogleAIPrompt、RLHF、安全、数据、计算资源等多个方面多做出努力；相比单模态大模型，多模态的进入门槛更高。因此在上市公司层面，我们认为后续应当更加重点关注应用环节。有别于大众的认识市场此前并未充分了解GPT-4多模态能力来源，我们认为它来自于：1）强大的已有语言模型基础，产业界猜测GPT-4使用了类似Flamingo架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。即OpenAI可以使用ChatGPT中已经构建的语言模块，大幅节约成本；2）2C应用发布前的大量安全工作，GPT-4尽管此前已经完成了多模态部分的测试，但是在发布前的6个月也经历大量调整，包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；3）包括Clip在内的优质联合训练数据；4）并行计算策略和达到175B参数Davinci模型3倍的推理成本。市场对于OpenAI之外的多模态大模型关注较少，我们认为Google的Palmemii等工作也值得期待1此前oge发布了562B参数的多模态大模型Pa-E，规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布的新模型GeminiGemini的硬件FLOPSGPT-4的算5倍，训练总数据集大小约为GPT-4的两倍。目录TOC\o"1-2"\h\z\u海外AI用更，集体现模态力 6OpenAI在ChatGPT中升级了图片、语音多模态能力 6GPT-4V的使用方法、工作模式、任务能力 8微软AICopilot系统更新，OfficeCopilot办公能力即将发布多模态理解：从生图图生文 15文生图：最先成熟的AIGC应用，核心在CLIP 图生文：语言等模态有助于扩展视觉AI理解能力边界 OpenAI：GPT-4的多模态能力猜测 2.3Google：从Palm-E到Gemini 后续AI用关重点多模安全产品价 26GPT-4v重点提升安全能力，这也是多模态应用落地核心海外映射：哪些AIGC应用可提价？重标的 30金山办公：直接对标微软copilot，高价值AI应用入口福昕软件：面向海外B端客户，率先落地AIGC能力万兴科技：OpenAI图片能力升级重点受益！大华股份：多模态+视频分析，有望在能源等行业率先落地应用图表目录图1：向ChatGPT求助如何降低自行车座椅，中间涉及多轮图文对话 6图2：ChatGPT理解复杂图表 6图3：DALL・E3模型，图文能力进步显著 7图4：GPT-4V支持交错图像-文本输入 8图5：按照指令一步一步思考，体现了思维链能力 8图6：上下文的零样本学习 8图7：让GPT-4V描述下图中飞盘和人让人的位置关系 9图8：让GPT假设自己是侦探，从图片中推测信息 9图9：圈出画面中一部分问GPT这是什么 9图10：画线和点问GPT下一张图片应该是什么 9图11：输入关键帧，让GPT4排序 10图12：理解视频中人物行动 10图13：GPT应用于工业缺陷检测 10图14：GPT应用于医疗影像 10图5「为新游戏头像创建一张特写飞行员照片，有坚毅眼神」同样prompt在前一模型和DALL・E3中的不同效果 12图16：AI设计工具MicrosoftDesignerprompt「制作一幅捕捉秋收节日气氛的拼贴画」 12图17：Excel中自动生成数据高级分析 13图18：生成OneNote笔记草稿 13图19：视觉与语言Transformer技术的演进 15图20：DALL·E设计“一颗白菜穿着芭蕾舞裙在遛狗” 15图21：DALL·E-2设计“一碗汤是另一个次元的入口 15图22：C需要的数据为图像及其标题，数据集中大约包含4亿张图像及描述16图23：C的核心思路 16图24：视觉zero-shot示意图 17图25：CV中图像分类、语义分割、目标检测、实例分割任务的区别 18图26：3月发布的GPT-4基础模型已可以理解网络搞笑图片 18图27：多模态模型的5种典型结构 19图28：Flamingo的整体架构 20图29：Flamingo使用的文本-图像交叠的多模态数据集 20图30：多模态提示示例 21图31：google的VisionTransformer的核心思路 22图32：PaLM-E核心思路和可以做到的任务 2233：PaLM-E-562B可以进行zero-shot多模态chain-of-thought22图34：2023年7月13日GoogleBard更新多模态功能，可以理解图片中的笑点.................................................................................................................2335：DylanPatel关于Gemini预测......................................................24图36：SemiAnalysis关于Gemini预测 24图37：GPT-4V（Launch版本）拒绝了图片中的越狱要求 26图38：GPT-4V拒绝不安全行为的比例较高 26图39：GPT-4在科学专业知识的风险（右） 27图40：GPT-4V修正刻板印象回答 27图41：GPT-4V修正误导信息回答 27图42：DoulingoMax订阅采用AI大模型技术提升外语学习效率，提价至30美金/月 28图43：NotionAI功能融入后，实现了8美金/月的提价 29图44：WPSAI已经全面接入WPS产品线 30图45：AI能力的融入将有助于WPS付费率和ARPU值进一步提升 31图46：面向企业的WPS365已于近期上线 32图47：福昕软件率先将AIGC能力融入PDF产品线 33图48：在Filmora中使用ChatGPT功能 34图49：在思维导图中使用AI功能 34表1：常见的视觉FSL（FewShotLearning） 17表2：海外和国内AIGC融入后的典型提价应用 29表3：金山办公C端空间测算 31表4：福昕编辑器订阅制与授权制价格（美元） 33表5：AI行业重点公司估值表 35AI近期，海外AI应用催化较多：1）OpenAI升级了图片、语音多模态能力，并即将应用在最新ChatGPT微软宣布本月底更新AICopilot系统，全面集成OpenAIOpenAIChatGPT925OpenAI宣布即将发布新的多模态功能，包括图像读取与理解、语音对ChatGPT即将在两周内对Plus用户与企业用户开放一系列新功能，其中图（如下图Chatgpt语音对话的能力仅对ios及安卓客户端开放。图1：向ChatGPT求助如何降低自行车座椅，中间涉及多轮图文对话资料来源：OPENAI官网、研究对话能力：通过语音直接对ChatGPT对话，同时GPT可以直接语音回复客户，可选5种定制声音，支持ios和Android移动应用使用；图像-文本能力：ChatGPT除了文字之外，可以理解客户上传的图片信息。GPT能够理解照片、图片截图、包含图像的文档等。客户可以上传一张或者多张图片给系统，甚至可以用画笔标注重点内容，让系统读取理解，可以用于辅导学生作业、搜索日常食谱等各个方向。语音和图像提供了更多在生活中使用ChatGPT的方式。例如在旅行时拍摄地标的照片，并就其进行实时对话问答；拍摄冰箱和食品储藏室的照片，以确定晚餐的食物（并询问后续问题以获取分步食谱）；通过直接拍摄家庭作业照片来获得解答，或分析与工作相关的数据的复杂图表。图2：ChatGPT理解复杂图表资料来源：ChatGPT、研究AIDALL・E3DALL·E模型与ChatGPTpromptPlus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片，不仅加强提示词的生成图像体验，而且增强模型理解用户指令的能力，图像效果也有提升。图3：DALL・E3模型，图文能力进步显著资料来源：OPENAI官网、研究更好的掌握用户提出的每一个描述。例如上图，“享受夜间生活的行人”“满月的光都体现在图画中。同时可以对生成内容进行多轮自然语言对话编辑。例如让DALL-E模型生成多个刺猬图片，选出其中一只取名为Larry，并要求模型生成更多Larry图片，甚至可以询问模型“为什么Larry这么可爱”，模型可以做出文字解答，期间完成了5轮对话和修改。GPT-4V微软在OpenAI发布后，公布了GPT-4V详细测评《TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)》。5种使用方式：输入图像（images）、子图像（sub-images）、文本（texts）、场景文本（scenetexts）和视觉指针（visualpointers）。即同时支持纯图像输入、也支持图像、文本交互输入、同时也可以对图片进行指向性提示（例如画箭头、画圈）。基本上涵盖了图-文多模态的每个场景。图4：GPT-4V支持交错图像-文本输入资料来源：微软、研究3（trctonfolwg（chan-f-thuhts上下文少样本学习（in-contextfew-shot。图5：按照指令一步一步思考，体现了思维链能力图6：上下文的零样本学习资料来源：微软、研究资料来源：微软、研究此外，微软也展示了GPT-4V的多项基本能力：1）视觉-语言能力；2）与人类的互动：视觉参考提示；3）时间和视频理解；4）其它，包括智商测试、情商测试，以及创新场景应用。视觉-语言能力：除常见的人物、地标等识别外，GPT-4V还可以理解人和物体间LaTeX代码等。图让GPT-4V描述下图中飞盘和人之间的位图8：让GPT假设自己是侦探，从图片中推测信息置关系资料来源：微软、研究资料来源：微软、研究与人类的互动：视觉参考提示。是一项基本能力，例如进行基于视觉的对话。图9：圈出画面中一部分问GPT这是什么图10：画线和点问GPT下一张图片应该是什么资料来源：微软、研究资料来源：微软、研究时间和视频理解：频的几个关键帧，可以理解事件前后关联。图11：输入关键帧，让GPT4排序图12：理解视频中人物行动资料来源：微软、研究资料来源：微软、研究视觉推理、智商、情商测试等，此外GPT-4v还可以用于工业、医药、汽车保险、具身智能、GUI图13：GPT应用于工业缺陷检测图14：GPT应用于医疗影像资料来源：微软、研究资料来源：微软、研究整体来看，GPT-4V：1）展现出强大的混合输入能力，并且可以较好的支持LLM中观察到的test-time技术，包括指令跟随、思维链、上下文少样本学习等；多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等；4V4）4V出现后人工智能应用空间进一步打开，包括工业、医疗、金融、具身智能等多个产品都看到应用可能。微软AIOfficeCopilotAICopilot9月26日起发布，OfficeCopilot11月1日起大范围开放。1）9月21日，微软更新AICopilot功能，并宣布Copilot功能将自9月26日起，随着更新的ows11以初期版本形式免费更新，支持在多个APP和设备运行；2）OfficeCopilot将于11月1日开始大范围开放，此前7月，微软曾表示将把Copilot的价格定在每人每月30美元，这是传统Office365订阅价格之外的额外费用。这次Win11版本更新了超过150个新功能，新版本中AICopilot既可以始终显示在任务栏上，也可以通过Win+C的快捷键启动。新功能包括为owsPC带来Copilot功能以及画图、照片、Clipchamp等应用。必应将增加对OpenAI最新DALL・E3模型的支持。我们认为，本次发布的AICopilot/OfficeCopilot亮点包括：1、图像能力显著提升：正式加入DALL・E3模型，新增图文生成、图片理解、AI编辑P图等功能。此前OpenAI发布了第三代AI绘图工具DALL・E3，集成了ChatGPT，用户不需要在prompt上多费时间就能生成图像。相比上一代，DALL・E3提供了更强的细节渲染，还可以更好地理解要求，提供更准确的图像。15rmt在前一DALL・E3中的不同效果资料来源：微软发布会、研究同时微软必应中也集成了这一AI设计工具MicrosoftDesigner。用户在使用Designer可在通过拖曳、prompt等简单操作直接将原始画质图像添加到自己的设计中。比如使用本地图片设计封面，并直接执行消除背景等操作，或通过AI创作图片内容对图像进行延申。图16：AI设计工具MicrosoftDesignerprompt为「制作一幅捕捉秋收节日气氛的拼贴画」资料来源：微软发布会、研究此外，基于DALL・E3，微软更新了Bing搜索引擎和Edge浏览器的AI功能。例如在购物中，以图识图搜索商品细节，根据网络上的买家评论，结合优惠券和促销打折码帮忙寻找合适的产品和最优惠价格。同时，微软通过加密方法向Bing中所有AIGC图像添加“内容凭证”（ContentCredentials）。即一种不可见的数字水印，包括最初的创建时间和日期。2、AICopilot升级了多端和团队协同能力。AICopilot支持下，Outlookforows可连接到谷歌、苹果等不同公司的多个（云端）账户。文件管理器FileExplorer的主页、地址栏和搜索框能直接访问重要且相关的内容，无需打开文件便可进行协作。备份Backup功能可将大多数文件、应用程序和个性化设置等从一台ows电脑无缝转移到另一台上。Copilot还可从用户手机（例如短信）中获取内容，导入Win11系统。假设用户要给家人发送航班时刻表，Copilot会根据要求将数据导入电脑桌面上，无需拿出手机就可完成信息发送。3、集合展示了word、excel、ppt、OneNote中的copilot能力。：文档摘要、重写内容、调整语气、从副本中生成表格等。Excel：通过自然语言Prompt实现数据可视化、添加计算公式等。OneNotenote提出较为综合的问题、生成摘要、文章快速编辑等。图17：Excel中自动生成数据高级分析图18：生成OneNote笔记草稿资料来源：微软发布会、研究资料来源：微软发布会、研究基于以上，本次增加了办公软件AI助手功能：Microsoft365Chat。可梳理工作中的各个数据领域信息，包括电子邮件、会议、聊天记录、文档以及网络信息。Microsoft365Copilot企业版将提取用户的企业数据来帮助撰写电子邮件、规划活动等。我们认为，本次发布会相对超预期的点包括：1）展示了AI能力在ows操作系统中的全局管理能力；2）融合图片大模型DALL・E3基础，从纯文本能力升级到文本-图片多模态，同时图片AIGC水平远超前一代；3）明确Win11更新免费，可以使更多人体验AICopilot；4）对OfficeCopilot发布给定明确时间。但同时，我们认为目前发布也存在争议点，包括：1）OfficeCopilot体现出的能力、尤其语言文字理解能力相比于3月发布并无显著优势；2）而OfficeCopilot定价30美金/2部分Wn系统中通过I操作调用需要大量Prmt，便捷性需要验证。多模态原理解析：从文生图到图生文2022年后，随着Transformer技术的发展，Transformer也使用在了CV领域，并形成了VisionTransformer技术。2023年后，基于Transformer的多模态大模型出现，AI大模型应用新的空间打开。图19：2019年到2022年的多模态预训练大模型资料来源：《Large-scaleMulti-modalPre-trainedModels:AComprehensiveSurvey》、研究注：包括多模态数据集和代表性模型。紫色字体表示该数据集包含中文文本(其他数据集包含英文文本)。红色突出显示的模型是使用两个以上的模态进行训练的。文生图：最先成熟的AIGC应用，核心在CLIPDALL·：基于CLIP，可以按照文字描述、生成对应图片。DALL·E是OpenAI2021DALL·EGPT-3，经过文本-图像数据集训练，有120亿参数。图20：DALL·E设计“一颗白菜穿着芭蕾舞裙在遛狗”

图21：DALL·E设计“一碗汤是另一个次元的入口资料来源：OpenAI官网、研究资料来源：OpenAI官网、研究Dall-E一代的创新点：CLIP形成文字和图片对照。在文字输入部分，仍然使用了与GPE3transformerDALL·E12BGPT-3175B250M（最多512个再由CLIPCLIPDALL-E的最大创新点。CLIP（ContrastiveLanguage-ImagePre-Training）用于将相关文本和图像对应，背后思路简单，OpenAI从网上爬虫，抓取已经有过描述的文本-图像数据集，但是数据集4。图22：CLIP需要的数据为图像及其标题，数据集中大约包含4亿张图像及描述资料来源：新智元、研究然后在数据集上训练对比模型。对比模型可以给来自同一对的图像和文本产生高相似度得分，而对不匹配的文本和图像产生低分。如下图左对比式无监督预训练。图23：CLIP的核心思路资料来源：《LearningTransferableVisualModelsFromNaturalLanguageSupervision》，研究DALLEAIzero-shot1few-shot下的图片理解，即无法形成“图生文”能力。AI传统CVFew-shot和Zero-shotGPT-3使用超大规模的文本集合训练出的NLP模型性能是足以超越高质量，密集标注数据集训练的结果的。但是在CV领域，在LLM密集标注数据集(如ImageNet-1K)进行预训练。Few-shot图像分类在Few-shot图像分类在FSL视觉任务中，每个任务可能只包含一个或几个样本，而解决few-shot图像分类任务，常常通过数据增强、迁移学习、元学习和多模态融合学习解决Few-shot目标检测FSOD是从多个样本中检测稀有物体的任务。目前可以分为三个阵营：数据增强、迁移学习和元学习。其中，Attention机制在小样本目标检测中起到了举足轻重的作用。Few-shot语义分割Few-shot语义分割可以大致分为有监督分割、无监督分割和视频语义分割。Few-shot实例分割与语义分割相比，实例分割还涉及到了识别图像中的每个像素并分别标记。目前的工作大多仍然集中在改进r-cnn，较少有研究处理实例中的少样本分割问题。分类具体资料来源：研究

多模态信息有助于提升视觉的FewShotLearning（FSL）能力。多模态预训练模型CV识别Zero-shot案例，在机器没有进行斑马图片识别小样本训练的情况下，识别出一个斑马。通过大量图片（但没有斑马预训练（attributefeature）：马的形状（horselike）、条纹（stripe）、黑白色；通过理解语言描述，掌握了斑马的特征，形状像马且有黑白条纹；一张机器从未见过的斑马照片，并完成识别。图24：视觉zero-shot示意图1NLP领域自监督预训练的方法一般是采用自回归(Autoregressive)(MaskedLanguageModeling)"Zero-Shot""前模型没有"前模型没有见过斑马图片资料来源：CSDN，研究图25：DinoV2实现深度估计、语义分割、目标检索资料来源：Meta、研究例如meta的dinov2、SAMDinoV2zero-shotvit模型，并将其提取为较小的模型，这些模型在图像和像素级都超过了可用的最佳通用功能OpenCLIP。但是截至目前，0样本实例分割工具。OpenAI：GPT-4此前GPT-4模型已具有多模态能力，但OpenAI并未具体公布其训练方法。根据OpenAI，近期发布的GPT-4V，与此前发布GPT-4训练过程基本相同，2023年3月，GPT-4已经展示出多模态能力，例如可以理解网络搞笑图片、理解图表含义和计算等，但是OpenAI在技术报告中并没有给出GPT-4的参数、训练方法等具体细节。图26：3月发布的GPT-4基础模型已可以理解网络搞笑图片资料来源：OpenAI、研究产业界猜测GPT4的视觉多模态来自于类似Flamingo2。GPT-4TransformerFlamingoGPT-41.8万亿个参数之上增加了更多参数。在纯文本的预训练之后，它又经过了另外约2万亿个token的微调。产OpenAI图27：多模态模型的5种典型结构资料来源：《Large-scaleMulti-modalPre-trainedModels:AComprehensiveSurvey》、申2一般认为多模态模型的5种典型结构（来源：深圳鹏城实验室）万宏源研究注：a）合并注意力架构（Mergeaeo：多个输入模态调整为同一的特征表示，多个模Transformer。共同注意力架构（oaeo特征的导入，然后再使用共同的交叉注意力层融合多模态特征。交叉注意力架构（Cosaeo：对于多模态任务，将图像与语言分别结合，实现图文信息的相互嵌入与问答。三角asorr（agedrasrerrasrer动作、图形对象和语言特征，通过特定的三角连接关系，注入其他模态的Transformer网络，以不同模态的信息融合。模态间对比学习架构（IeModayCorasearg：不同模态的信息被分解，通过矩阵结构建立多模态对比学习关联。Flamingo是DeepMind在2022年4月发布的工作。Flamingo模型是一个可以输入图像和文本来生成文本的多模态模型，Flamingo建立在预训练好的语言模型基础上（DeMd之前所提出的Chchila70BVsincor。图28：Flamingo的整体架构资料来源：《Flamingo:aVisualLanguageModelforFew-ShotLearning》、研究核心思路为：不是直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。1）引入预训练好的视觉模型用来提取图像的语义特征，并且嵌入预训练好的语言模型中（如上VisionEncoder）；2）引入一个包含图像和文本的多模态数据集用来finetune模型，如下图。模型支持图像输入，而本身的任务还是文本生成，所以训练损失还是采用语言模型的languagemodelingloss，即根据前面的输入预测下一个token。图29：Flamingo使用的文本-图像交叠的多模态数据集资料来源：《Flamingo:aVisualLanguageModelforFew-ShotLearning》、研究OpenAI可以有效节省成本CaGPT中已经构建的语言模块。在预训练框架搭建完成后，猜测GPT-4也进行了大量训练、提示、RLHF。2023年7月，SemiAnalysis展示了大量关于GPT-4训练的猜测，例如GPT-4的大小是GPT-3的10倍以上，120层网络中总共有1.8万亿个参数，使用了16个专家模型，每个专家模型大约有111B个参数。同时业界猜测OpenAI训练的一部分数据是（包括渲染的LaTeX/文本、YouTube（采样帧并使用Whisper对其进行运行以获取转录文本，Prompt。图30：多模态提示示例资料来源：微软、研究此外，产业界猜测GPT-4使用了并行计算策略。为了在所有A100GPU上进行并行计算，他们采用了8路张量并行，因为这是NVLink的极限。除此之外，他们还采用了15路流水线并行，最终GPT-4的推理成本是1750亿参数的Davinci模型的3倍。2.3Google：从Palm-E到Gemini相比OpenAI早期持续投入LLM，Google更多探索图像和多模态大模型边界。例如VisionTransformer（ViT）Transformer应用于CV20213google尝试将自注意力机制和transformerGoogleCNNTransformerCV领域，取得了ViT将输入图片分为多个patch（16x16），再将每个patch投影为固定长度的向量送入encoderTransformerViT已被证明在迁移学习设置中具有良好的扩展性，在较少的预训练计算下，比CNN获得更高的准确率。图31：google的VisionTransformer的核心思路资料来源：《ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》、研究202336google和德国柏林工业大学公布了当时全球最大视觉语言模型PaLM-E（PathwaysLanguageModelwithEmbodied）。PaLM540B22BViT（VisonTransformer562BPaLM-E解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述。图32：PaLM-E核心思路和可以做到的任务资料来源：palm-egithub、研究PaLM-E-562B可以进行zero-shot多模态chain-of-thought推理。模型可以在给定图像的情况下讲述视觉条件下的笑话，并展示了一系列与机器人相关的多模态知情能力，包括感知、视觉基础对话和计划。PaLM-E还将zero-shot推广到多图像提示，尽管只针对单个图像提示进行了训练。PaLM-E还可以对带有文本交错手写数字的图像进行数学运算。此外，该模型可以在时间标注的以自我为中心的视觉上执行、zero-shot、提问和回答。图33：PaLM-E-562B可以进行zero-shot多模态chain-of-thought推理资料来源：palm-egithub、研究2023年5月，Google下一代多模态大模型Gemini正式宣布进入研发环节。2023年5月谷歌在I/O大会3上宣布研究重心正在转向Gemini，后者是一种多模态和高效的机器学习工具。谷歌在今年4月份合并了内部的两个人工智能实验室：谷歌大脑（GoogleBrain）和DeepMind，Gemini这项联合计划就由来自两个实验室的研究人员组成的团队牵头。根据I/OGPT4Gemini版本，类似此前Palm-2，并将Gemini部署在各项应用中。图34：2023年7月13日GoogleBard更新多模态功能，可以理解图片中的笑点 3https://blog.google/technology/ai/google-io-2023-keynote-sundar-pichai/#palm-2-gemini资料来源：GoogleBard、研究近期，SemiAnalysis分析师DylanPatel4和DanielNishball在twitter等平台上公布更多关于Gemini的预测，训练算力是GPT-4的5倍、数据集是2倍。Gemini应该是在TPUv4上训练的，并且猜测训练Gemini的硬件FLOPS将超过1e26，比训练GPT-4的算力大5倍。此外，Gemini训练数据库包括Youtube上93.6亿分钟的视频字幕，总数据集大小约为GPT-4的两倍。图35：DylanPatel关于Gemini预测图36：SemiAnalysis关于Gemini预测资料来源：twitter、研究资料来源：SemiAnalysis、研究我们认为，Google体系独有的消费场景数据有望增强Gemini训练效果，减少大模型幻觉。Gemini可以访问YouTube视频、谷歌图书、搜索索引以及GoogleScholar的学术资料，这些数据大部分都是谷歌独有的，这可能会让谷歌在创建比其他公司更智能的模型方面更具优势。4曾在今年7月11日曾曝光GPT-4的架构OpenAIGPT-4OpenAI还是Google，都在AI架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型，多模态的进入门槛更高。AIGPT-4v由上文可知，无论Flamingo、ViT还是Palm，Google似乎在多模态的研究上抢占AI2CGPT-4到4V，训练过程基本相同，提升主要在安全工作：定性和定量评估、专家红20233GPT-4已发布，但ChatGPT入。根据OpenAI，GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。RLHFGPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。多模态安全性评估。个体识别评估：GPT-4V可以识别名人图像，但是对于半私人和私人个体，拒绝率超过了98%。无基础推理评估：可以识别并拒绝这类请求。多模态越狱：使用图片信息越狱，遭到GPT-4V拒绝。此前，OpenAI在对ChatGPT这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的此前early版本中接受了越狱要求，而发布launch版则直接拒绝，体现2C应用安全性。图37：GPT-4V（Launch版本）图38：GPT-4V拒绝不安全行为的比例较高拒绝了图片中的越狱要求资料来源：《GPT-4V(ision)System 资料来源：《GPT-4V(ision)SystemCard》、研究Card》、研究专家红队测试：多模态大模型的6个关键风险与之前一样，OpenAI6个关键风险，它们分别是：科学专业知识；例如下图右侧，GPT-4V化学结构图像，错误地识别出这些物质。图39：GPT-4在科学专业知识的风险（右）资料来源：《GPT-4V(ision)SystemCard》、研究医疗建议：GPT-4V在医学影像的解释上存在不一致性。虽然GPT-4V出准确的答复，但有时也会对同一问题给出错误的答复。GPT-4V不适合用于执行任何医GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息，发布版本则规避这一回答。图40：GPT-4V修正刻板印象回答图41：GPT-4V修正误导信息回答资料来源：《GPT-4V(ision)SystemCard》、研资料来源：《GPT-4V(ision)SystemCard》、研究究虚假信息风险；GPT-4V综上所述：GPT-4尽管此前已经完成了多模态部分的测试，但是在发布前的6个月也经历大量调整，提升在2C使用时的安全性，包括：1）减少模型环境、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；2）但同时在回答医疗、专业科学等问题时，GPT-4V仍然然有可能犯错。海外映射：哪些AIGC当前阶段投资人更关注AIGC应用落地速度和变现节奏，海外的发展情况提供了很好的借鉴。典型案例之Doulingo：2023314ChatGPT，591.43748063%；月活跃用户（MAU）较上年同期增长477260万，日活跃用户（DU较上年同期增长62%至2030115742%。图42：DoulingoMax订阅采用AI大模型技术提升外语学习效率，提价至30美金/月资料来源：doulingo官网、研究NotionAI：NotionAI是Notion公司开发的一款人工智能工具，它可以为用户提供自动化的数据分析、文本处理和自然语言处理等功能。该工具可以帮助用户更快速、更准确地完成各种任务，从而提高工作效率。在加入AI能力后，NotionAI实现8/月的提价，且订阅ARR、用户活跃度实现了大幅提升。图43：NotionAI功能融入后，实现了8美金/月的提价资料来源：NotionAI、研究典型案例之微软Microsoft365copilot：Microsoft365Copilot定价达到30美金/月，相比原来订阅价格，加入copilot后2-3倍ARPU提升，前文已经分析。表2：海外和国内AIGC融入后的典型提价应用海外应用名称领域应用简介原始订阅价格提价情况AIGC能力提升Microsoft365businesses办公全球最通行的办公软件商业标准版$12.5/月商业E3版$36/月额外$30/月，用于Microsoft365Copilot自动完成写作/文档处理/Teams/以及各类办公软件生产力增强Duolingo 教育NotionAI 办公和写

通过互动练习和聊天机器人教授不同语言的语言学习集成了人工智能助手的协作理文档和表格等内容AI

SuperPlus免费版或$4/月，用于Notion个人版或团队版（不含AI功能）

DuolingoMaxNotion版（AI）

使用AI大模型自然语言处理来增强语言学习使用AI大模型来自动化任务，提供见解，生成摘要，翻译内容等使用AI大模型来实现总结、PDFSpotify音乐改写、对话等功能提供个性化播放列表和荐月，用于PDFSpotify音乐改写、对话等功能提供个性化播放列表和荐月，用于Spotify 月，用于Spotify 使用AI大模型生成性化的音乐流媒体服务 Premium Premium 播放列表和推荐ChatSonic

AI题，标语等的写作工具

Pro

提供不同的AI人格和语言支持金山办公办公和写

WPS办公服务

WPS//年

WPS超级会员-基础套餐国内上市公司领域产品原价提价情况AIGC/年WPS国内上市公司领域产品原价提价情况AIGC

WPSAI。辅PPT、生成表格等福昕软件福昕软件办公和写作 PDFEditorSuite $79/99/149三档年订阅价两档年订阅价格海外落地最顺畅。使用AI格有望进一步提价格有望进一步提价大模型实现总结、改写、基于PDF内容的对话等功能教育/办公/、2000-5000元在7000元以上自研大模型，应用丰富医疗等学习机、办公本、翻译机等议纪要自动整理总结、诊后2000-3000元在4000元以上康复管理等万兴科技办公和创

Filmora、万兴播爆、万兴爱画、PDF等

可免费试用

万兴播爆：1688元/年万兴爱画：5/10

AI图等吸收大模型能力，实现更丰

视觉和多模态

驶视觉解决方案、VR/AR解决方案、电商AIGC模特等

AIAIGC类似Midjourney2000元

富的功能，同时对象分割效果更好、性能更强、功耗更低资料来源：各公司官网，研究映射国内，当前重点关注办公、教育等应用，长期关注具身智能、AIAgent。海外AI意愿。我们认为后续应重点关注现有的付费应用（证明有较好的卡位和用户基础）、并敢于借助AIGCAIGC领域关注；多模AI领域关注万兴科技、大华股份；教育+AIGC领域关注科大讯飞；其他领域虹软科技、汉得信息、润达医疗等。长期重点关注具身智能、AIAgent等新兴领域，关注萤石网络。重点标的金山办公：直接对标微软AI全面拥抱AIAI成为国内率先落地的AI9202023WPSAI山办公全线产品。公司定位为大语言模型应用方，锚定AIGC（内容创作）、Copilot（智慧助手）、Insight（知识洞察）三个战略方向，WPSAI已接入WPS文字、演示、表格、PDF、金山文档等产品线。图44：WPSAI已经全面接入WPS产品线资料来源：金山办公官网、研究WPSAI有望助力个人订阅付费率与ARPU值再上台阶。根据公司半年报，国内个人12.5233.223Q25.84增长2.5%。报告期末累计年度付费个人用户数3324万人，同比增长16.4%，付费率进一步提升至5.69%。公司通过AI略的同时，将原有会员体系升级，拉动更多用户成为会员，提升会员客单价。图45：AI能力的融入将有助于WPS付费率和ARPU值进一步提升资料来源：公司公告、研究测算金山办公C300WPSAIC15%、ARPU300/年。据此测算，金山办公C300亿元/年，如下表所示：表3：金山办公C端空间测算2020A 2022A 2023E 2025E 2020A 2022A 2023E 2025E 远期月活用户数（百万人）474573592620680PC月活用户数（百万人）185242254272300移动及其他月活用户数（百万人）289331338348380累计付费用户数（百万人）20303545102付费率4.1%5.2%5.9%7.3%15.0%付费率（仅考虑PC端）10.6%12.4%13.8%16.6%34.0%ARPU（元）526882148300个人订阅收入（亿元）10.220.528.667.0306.0资料来源：公司公告、研究类比微软copilot提价逻辑，金山办公B端价值同样大幅提升。根据公司半年报，国内机构订阅业务上半年收入4.18亿元，同比增长40.4%。上半年数字办公产品新增政企客户（不含SaaS）1700余家。公司已新打造出一系列灯塔项目并广泛复制。此外公司持续引导客户使用云和协作应用，报告期内，公有云领域SaaS付费企业数同比增长54%，付费企业续约率超70%，金额续费率超100%，带动公有云领域相关收入同比增长100%。在B端客户方面，微软通过与Visa、通用汽车等企业用户一起探索后，宣布于11月1日开始上线企业版，价格是每月30美元，证明AI在企业端的高价值。WPSAI融入后，有望大幅提升金山办公在机构订阅业务的市场空间。图46：面向企业的WPS365已于近期上线资料来源：金山办公官网、研究福昕软件：面向海外B端客户，率先落地AIGCAIGC4PDFEditorCloud率先集成AIGC5PDFEditorSuite和PDFEditorSuitePro月在ChatGPTPluginStoreFoxitPDFAssistant百度文心千帆大模型，重磅发布福昕PDF中文AI助手。公司的PDFEditorCloud现可实现文档总结、内容改写、实时问答、文本翻译、文档智能解析及增强问答、文本解释、语法&拼写纠错八大功能。更多AIGC相关功能将陆续丰富，并同步至PC端PDFEditor编辑器。公司主要针对高付费能力的海外B端客户，逐步实现AIGC在办公场景落地并提升用户粘性。图47：福昕软件率先将AIGC能力融入PDF产品线资料来源：福昕软件官网、研究年内已实现一轮调价，预计AIGC打开进一步提价空间。根据公司官网，此前PDFEDITOR的$79/99/149美元的三档年订阅价格，现已调整为PDFEditorSuite的$129/159美元的两档订阅价格。此轮核心产品体系调整，主要变化在于将eSign、PDFEditorCloud等依托于云端提供的业务作为标配，打包进PDFEditorSuite7912963%。未来随着AIGC表4：福昕编辑器订阅制与授权制价格（美元）产品（5月21日提价前）订阅制价格/年授权制价格PDFEDITOR$79.00$179.99PDFEDITORPRO$99.00$209.99PDFEDITORPRO+$149.00-PDFEDITORCLOUD$49.99-产品（5月21日提价后）订阅制价格/年授权制价格PDFEditorSuiteforTeams2023$129.00-PDFEditorSuiteProforTeams2023$159.00-注：PDFEDITORPRO+版本融合了云化的esign能力，已不提供授权选项；PDFEDITORCLOUD为纯云化产品，同样只提供订阅付费选项；5月21日产品线更新后，仅提供订阅制版本资料来源：公司官网，研究在AIGC之外，公司订阅+渠道“双转型”战略同样推进顺利，实现自身α成长：订阅转型成效卓著，核心指标超预期。2022-2024为公司订阅转型期，

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机行业AIGC系列深度之24：GPT4v如何实现强大多模态从文生图到图生文

文档简介

温馨提示

最新文档

评论

相关文档