计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点

上传人：策*** IP属地：山西上传时间：2024-09-06 格式：DOCX 页数：73 大小：5.45MB 积分：19.9 举报 版权申诉

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点_第2页

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点_第3页

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点_第4页

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点_第5页

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

行业专题报告|计算机证券研究报告交互型多模态大模型是指跨越单一模态的限制，支持文本、音频、图像、视频等模态任意组合的输入输出，能做出实时的、“类人”的理解和反馈，可以跟人无缝交流的大模型，目前最具代表性的是OpenAI的GPT-4o。特点如下：1）原生多模态：跨文本、视频和音频等模态端到端训练的大模型，所有输入和输出都由同一神经网络处理。2）快速响应：能做到极低延迟，响应速度比肩人类，且可以做到对话随时打断。现在GPT-4o能在短至232毫秒、平均320毫秒的时间内响应音频输入，而过去GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。3）情感表达：回复有“人味”，情绪饱满，会带来极强的交互沉浸感。4）记忆：能回忆并联系此前“看”到的信息做出回答，而不是仅仅依靠当前输入。交互型多模态大模型成本将降至几何？大模型降本趋势显著。8月，OpenAI发布更强且更具性价比的GPT-4o新版本，相比5月版本价格下降超40%至$4/100万tokens。按照这个趋势，我们预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降，每百万tokens的推理成本或将在两年内降至美分量级。交互型多模态大模型进展如何？OpenAI与谷歌双巨头抢滩，分别发布GPT-4o和AI智能体项目ProjectAstra，Meta也于2024年5月发布具有原生多模态特性的Chameleon-34B。国内的大模型多处于语音交互阶段，商汤领衔发布流式多模态交互大模型“日日新5o”，智谱面向C端开放“视频通话”功能。为什么交互型多模态大模型有望带来应用的爆发？1）人类生活在一个由多种模态信息构成的世界，会同时收到多个互补的、融合的、不同模态的感官输入，多模态更符合人类感知周边、探索世界的方式。2）应用是连接人类意图与信息及技术实现的媒介，其本质是交互。我们认为从PC互联网时代，到移动互联网时代，再到现在的AI时代，应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中，性能提高固然重要，但交互的升级也同样具有重大价值，交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。交互型多模态大模型会带来怎样的应用？我们将交互型多模态大模型的应用分为：1）数字智能，大模型提供软件形式的服务，主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2）具身智能，需要硬件支持来实现三维空间内的运动行为，如人形机器人、智能家居、智能座舱等。交互型多模态大模型商业模式展望：1）聊天助手APP。2）作为基础模型接入各类应用。3）与终端OS深度融合成为AI时代的“超级入口”。相关标的梳理：1）交互型多模态大模型：商汤-W、云从科技-UW；2）数字智能应用：金山办公、科大讯飞、虹软科技、美图公司；3）具身智能应用：海康威视、大华股份；4）算力：寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。风险提示：AI技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。超配henghongda@16621642550lukexin@计算机：科技自主的道路是星辰大海—计算计算机：美股软件股目前的估值和股价表现—计算机行业周观点第22期2024-08-25一、什么是交互型多模态大模型？ 41.1交互型多模态大模型应具备什么特点？ 41.2交互型多模态大模型成本将降至几何？ 8二、交互型多模态大模型进展如何？ 2.1海外：OpenAI与谷歌双巨头抢滩 2.2国内：大模型多处于语音交互阶段，商汤智谱领衔升级视频交互功能三、为什么交互型多模态大模型有望带来应用的爆发？ 3.1视觉是获取外部信息最主要的途径，多模态更符合人类感知的方式 3.2应用发展的核心就是人机交互模式的升级四、交互型多模态大模型会带来怎样的应用？ 4.1交互型多模态大模型在“数字智能”中的应用 4.1.1教育 4.1.2编程 224.1.3医疗健康 234.1.4办公 254.1.5游戏 264.1.6情感陪伴 284.2交互型多模态大模型在“具身智能”领域应用 294.2.1人形机器人 294.2.2智能座舱 304.2.3智能家居 32五、交互型多模态大模型未来形态 355.1交互先行，端侧AI发展有望加速 355.2交互型多模态大模型商业模式 36六、相关标的梳理 38七、风险提示 38图1：GPT-4o能听出用户呼吸急促，并将其形象比喻成吸尘器，然后给出建议 4图2：用户写字表白，GPT-4o能快速识别字迹并高兴地感谢用户，输出时语气带着笑意 4图3：过去ChatGPT实现语音互动的三个步骤 5图4：谷歌Gemini具有原生多模态特性 5图5：Gemini多模态能力使用案例 5图6：Chameleon的模型结构与训练方法 6图7：GPT-4o响应速度提升 7图8：GPT-4o与人交流时会开一些合理的玩笑，如它会说“我今天要请客了” 7图9：ProjectAstra记住了曾经“看”到过的眼镜和苹果 8图10：OpenAI大模型的降本历程 9图11：GPT-4omini在基准测试中表现较好 9图12：GPT-4omini具有高性价比 9图13：GPT-4o新版本价格相比3个月前下降超40% 图14：GPT-4o在多语言识别方面与Whisper-v3对比图15：GPT4o音频翻译基准测试表现图16：GPT-4o发布后ChatGPT移动端APP的收入高增图17：谷歌展示AI智能体项目ProjectAstra 图20：日日新5o分析建筑环境及天气图21：日日新5o识别书籍并提供更多信息图22：日日新5o识别绘制的简笔画表情并分析情绪图23：用户可以用清言APP视频通话功能和AI玩“你画我猜”的游戏图24：清言APP视频通话功能可以辅助用户读论文图25：国内大模型聊天助手语音交互界面图26：多模态更符合人类与外界交互的方式图27：人机交互过程图28：人机交互的变革图29：人机交互将向最简单的形态发展图30：现代教育的特征与AIGC技术吻合图31：大模型拓展了AI技术在教育领域的应用场景 20图32：Duolingomax功能 20图33：GPT-4o在KhanAcademy上完成数学题辅导 21图34：GPT4o通过视频完成数学问题辅导 21图35：GPT-4o识别物体并输出西班牙语 21图36：GPT4o模拟面试 21图37：AGI完全体与教育畅想 22图38：GPT4o代码能力演示 23图39：远程协作平台Multi 23图40：GPT-4o与Bemyeyes结合为盲人提供实时助手 24图41：AIGC贯穿医疗全流程 25图42：GPT4o当会议助手 26图43：GPT-4V可以基于游戏画面生成用户行为预测以及NPC行为建议 27图44：GPT4o唱生日快乐歌 28图45：Figure01背后的大模型技术 30图46：智能座舱多种交互方式 31图47：智能座舱多维度信息的融合 31图48：绝影FlexInterface生成个性化交互界面 32图49：生成式AI赋能智能家居的价值 33图50：萤石AI技术策略 33图51：萤石蓝海大模型 34图52：演示元萝卜光翼灯使用方言回答问题 34图53：元萝卜光翼灯产品 34图54：前OpenAI高管AndrejKarpathy对LLMOS的构想 35图55：Copilot读取PC屏幕内容，辅助用户完成《我的世界》相关任务 36图56：AIAgent帮用户规划旅行、购票、更新日历等 37图57：“PC互联网时代-移动互联网时代-AI时代”入口演进 37表1：OpenAI在医疗健康领域的应用实践 24表2：部分游戏公司的AI布局动作 27表3：智能座舱Agent场景 31一、什么是交互型多模态大模型？交互型多模态大模型是指跨越单一模态的限制，支持文本、音频、图像、视频等各种模也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音交互型多模态大模型的核心在于其极强的多模态理解与生成能力，即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联，从而更好地理解用户意图、实现接近人类的复杂情境理解和反应，然后生成自然流畅、富有情感的语音输出，使机器的反馈听起来像人类，增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式，甚至它能感受到用户的呼吸节奏；而输出时，它能模仿人类的情感状态如喜悦、悲伤或愤怒等，然后通过调整语调、节奏和音量来表达相应的情绪，使交互资料来源：OpenAI2024春季发布会、西部证券研发中心资料来源：OpenAI2024春季发布会、西部证券研发中心1）原生多模态：跨文本、视频和音频等模态端到端训练的大模型，所有输入和输出都最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势，即这三个模型中最关键的大模型在处理时会丢失大量信息，大模型无法直接观察用户的语气、停顿、音调、背景音等等，而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要，尤其是在需要高度情境感原生多模态的GPT-4o则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中，这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时，它们的内部表征是非常相似的。在生成阶段，模型可以更加灵活地利用统一的表征进行不同模态的生成。资料来源：X（@DrJimFan）、腾讯科技微信公众号、西部证券研发中心进行预训练，并利用额外的多模态数据进行微调以提升有效性，包括图像、图表、截图、PDF和视频等，并能产生文本和图像输出，所以Gemini可以泛化并无缝理解分析不同模态信息组合起来的输入，并输出多张图像与到用户输入的示例和问题，示例内容是当给定蓝色和黄色两种颜色毛线团时，可以织成蓝猫和黄耳朵的蓝狗。随后，Gemini被要求利用两种新颜色的毛线团——粉色生成富有创意的建议。最后，Gemini回答可以制作一个果核为粉色的牛油果，或制作一只耳朵为粉色的绿兔子，并附上了非常贴合回资料来源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部证券研发中心资料来源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部证券研发中心能够对任意混合模态文档进行推理以及生成。Chameleon的核心在于其完全token-based的架构，图像和文本都被表示为一组离散的tokens，这种设计允许模型资料来源：《Chameleon:Mixed-ModalEarly-FusionFoundationModels》、西部证券研发中心2）快速响应：大模型能做到极低延迟，响应速度比肩人类，且可以做到对话随时打断。频输入，与人类在对话中的反应速度一致，且可以随时打断，要等待用户说完一句话才能完成整句识别；识别完成后，将整句话输入到后续的大模型中生成回复；再之后才能调用语音合成模型来成到一个模型中，各部分之间的依赖性降低，因为模型内部表征已经融合在一起，所以可以更快地开始生成语音输出，而不必等待前面的所有信息都处简单来说，端到端大模型一般采用流式输入的方式，即在接收到部分信息时就开始处理；同时，随着对话继续进行，模型将不断地吸收新的信息，对回复进行实时调整。这种设计让大模型具备了边听边说的能力，即在用户讲话的过程中就开始准备回应，一旦用户暂停，模型可以立即给出反馈。这种机制极大地减少了响应延迟，使交互变得更加自然流畅，同时也支持用户在任何时候打断模型，因为模型总是保持着对当前对话状态的最响应速度（秒）6543210资料来源：新智元微信公众号、OpenAI2024春季发布会、西部证券研发中心随着用户的情绪激动起来，语气中充满了细节。在发布会上，当测试者要求GPT-4o用“最戏剧性”的方式去讲故事的时候，它表现得很像话剧演员，能给故事各个情节配上合适的情绪；而在用户要求以歌声结束这个故事时，GP在探讨大模型发展及影响时，我们往往倾向于聚焦技术层面的突破、性能的提升，然而AI除了提供实用的知识价值之外，还能够为用户带来另一种更为微妙但却至关重要的价值——情感价值。用户与技术之间的关系不仅仅只有单纯的信息层面的连接，还有情感层面的连接。对于许多用户来说，他们期望的不仅仅是高效的数据处理和信息检索，更资料来源：OpenAI、腾讯科技公众号、西部证券研发中心交互型多模态大模型在此方面展现出巨大的潜力，它能够通过细微的个性化调整，让用户体验到被理解和关怀的感觉，从而在用户心中建立起更强的情感纽带，我们认为这对增强用户粘性具有不可忽视的作用。用户会开始依赖大模型，因为它不仅能够快速收集整理信息，更重要的是它能够在关键时刻给予用户情感上的支持。这种情感上的联结，会让用户对AI产品的满意度和忠诚度显著提高，从而促进AI技术在的演示视频中，Astra展示了其对周围环境的快速理解和响应能力，如识别并涉及到，但摄像头扫过的时候Astra曾“看”到过眼镜，并且以视觉的形式“记”住了，闪而过的，但ProjectAstra可以通资料来源：谷歌I/O2024大会、西部证券研发中心不同语言。目前，GPT-4omini现已作为文本和视觉模型在AssistantsAPI、Chat资料来源：OpenAI、钛媒体微信公众号、西部证券研发中心和编程任务、多模态推理等测试上的表现比较出色，得分优于GeminiFlash、Claude资料来源：OpenAI、APPSO微信公众号、西部证券研发中心资料来源：ArtificialAnlys、APPSO微信公众号、西部证券研发中心跃居首位。在价格方面，GPT-4o-2024-08-06的输入和输出价格相比前一个版本分别下资料来源：OpenAI、量子位微信公众号、西部证券研发中心音翻译方面取得了新的SOTA水平，并且在MLS基准测试中优于Whisper-v3。管OpenAI表示GPT-4o将免费提供给用户，但这一承诺尚未扩展到移动版APP上ChatGPT周度收入（万美元）0资料来源：SensorTower、西部证券研发中心语音输入组合到事件时间线中并缓存此信息以进行有效调用，从而更快地处理信息。而交互中数据或信息以连续流动的方式被处理和响应，而不是以离散的、批量的步骤进行，重要特征在于即时性和连续性，需要系统立即处理输入数据并作出响应，而不是等待数5.5采用的是混合端边云协同专家架构，可以最大限度发挥云边端协同，降低推合成的思维链数据，语言理解和交互能力全面升级。编程等多个维度较上个版本具有较大的提升，尤其是在数学推理（+31.5%）、英文理解行流畅的视频交互——能听、能说、能看、无延时，能通过摄像头+语音实现和用户的实时交互，并获知用户所在的真实场景下的各种状态信息，打日日新5o能实现较为自然流畅的交互，信息，对镜头识别的内容进行科普介绍，例如在演示中日日新5o识别出演示者给出的书籍名称，且能对其内容做简介。此外，日日新5o还可以识别演示者绘制的简笔画形状和户开放，同时开放外部申请。清言视频通话功能跨越文本、音频和视频等模态，并具备实时推理的能力。用户打开清言的视频通话窗口，即可与它进行流畅通话，即便频繁打断，它也能迅速反应。且打开摄像头，清言也可以“看”到的外界画面，同时可以听懂资料来源：智谱微信公众号、西部证券研发中心资料来源：智谱微信公众号、西部证券研发中心音转文字、大模型生成文字回答、最后文字转语音来实现，所以交互并不流畅，且延时较长；此外，大模型语音回答内容较为机械和模式化，同时无法通过对话打断回答，必资料来源：豆包APP、文心一言APP、通义千问APP、西部证券研发中心三、为什么交互型多模态大模型有望带来应用的爆发？模态是指承载信息的模式或方式，不同类别的信息来源或形式都可以称为一种模态。模态基于人的感官可分为听觉、视觉、嗅觉、味觉、触觉，基于信息传递的媒介可分为图像、语音、视频、文本等，除此之外还有传感器的模态数据，如雷达、红外、GPS、加人类在进化过程中形成了以视觉为主的感知系统，我们获得的外界信息绝大部分来自视觉。从感知偏好来看，人类大脑对视觉信息的处理能力尤为强大，能够迅速捕捉并解析复杂的图像和视频中的细节，所以在自然交流和信息传播中，视觉内容是极其高效和直观的载体。从信息传达角度，图片和视频相比纯文本，往往能承载更丰富、更密集的信息，一个画面能够捕捉并传达多层次的细节和情感，远超于文字所能描述的内容，这些都能极大地增强信息的表达力和理解深度。在这个由多种模态信息构成的世界，会同时收到多个互补的、融合的、不同模态的感官输入，多模态更符合人类感知周边、探索世界的方式。多模态理解大模型可以让用户使用文本、图像、声音、视频、传感等多种数据类型与终端进行交流，大大拓展了用户同终端的交互形式。多模态生成大模型能够生成各种跨媒体内容，为用户提供更为直观的信息表达，从而实现更加高效丰富的沟通体验，其实这也为更多样性的终端硬件形态如资料来源：华为《AI终端白皮书》、西部证券研发中心多模态交互效果，是迈向这一目标的重要一步。因为从理解用户的角度来看，首先通过结合语音和视频分析，AI可以更好地理解用户的意图和情绪，例如当用户语调轻快，但其面部表情很凝重时，AI需要综合判断来确定最合适的回应，而这种复杂情境下的理解它可能会学习到这些手势的含义，并在未来类似的情境中快速做出合适的回应。应用是连接人类意图与信息及技术实现的媒介，其本质是交互——用户通过应用表达需求，应用通过寻找信息和调用相应技术来理解和实现用户的意图，形成一个闭环的交互过程。应用作为一个中介，不仅仅是一个静态的工具，而是一个动态的、可以交互的系统，它需要接收、处理用户输入，并与后端技术（如数据库等）进行交互，最终给出用设计、流畅的操作逻辑、及时的反馈机制，搭建了人与数字世界交互的我们平时通过点击、说话等方式将大脑中的信息指令通过鼠标、键盘、触摸屏等媒介，传递到硬件系统再到软件系统，然后软件系统进行处理。后续处理结果会通过显示器、资料来源：机器之心、维基百科、西部证券研发中心过往每一次人机交互的重大革新都孕育了行业巨头，并深刻改变了人们的生活方式和商业格局。1940-1960年代，早期的计算机通过穿孔纸向计算机输入指令，有孔为1，无孔为0，经过光电输入机将数据输入计算机。由于需要输入二进制的机器语言，计算机在这个阶段只被少数专家应用于专业领域。地简化了用户与计算机之间的交互，不再需要复杂的命令行输入，而是通过直观的图标、菜单和鼠标点击来操作。这一革新不仅让个人电脑变得更加用户友好，也催生了微软这用户界面设计的范式。2007年，苹果公司推出了第一代iPhone，凭借其革命性的触摸屏和多点触控技术，重新定义了手机，也开创了移动互联网时代，带动了App经资料来源：虎嗅网、网易、西部证券研发中心整理绘制软件行业》的文章，并称“AIAgent不仅会改变每个人与计算机的交互方式，还将颠覆软件行业，引领我们从键入命令到点击图标以来计算机领域最大的革命”。他认为：AIAgent将成为下一个平台。未来用户只需用日常语言告诉设备想要做什么，基于获取的信息和对用户生活的丰富了解，软件能够做出个性化的回应。在不久的将来，任何网民就是人机交互的不断进化与深化。人机交互的核心点之一为信息传递，从外设主导到触控技术，再到自然语言处理，人机交互的发展一直在努力简化信息传递过程，使其更加直观、自然和无缝。每一次技术迭代都致力于减少用户与技术之间的隔阂，让信息的交出现，简化信息传递过程，用户可以通过点击图标、拖放文件、使用下拉菜单等方式进行操作，无需记住复杂的命令序列。这一转变极大地降低了学习门槛，使得信息传递过程更加直观和用户友好。但用户仍需要学习并遵循特定的应用界面布局、菜单结构和操作规则来实现需求。随着移动互联网时代的到来，多点触控技术成为主流。用户可以直接在屏幕上通过触摸、滑动、捏合等手势来操作，这一方式更接近于人类在现实生活中的交互习惯。触控技术使得信息传递无需通过额外的物理设备，减少了中间环节，用户可以直接与内容互动，信息传递过程变得更加快速、高效和自然。例如，智能手机和平板电脑上的多点触控操作，让用户可以轻松放大图片、翻页阅读、播放音乐等，无需复杂的按键组合，信息传递的效率和设备易用性大大提高。然而，尽管触摸屏简化了一些操作步骤，但用户仍然需要理解和记忆各形式发展，具体为以语音交互为主的包含语音、手势、触感和空间计算等在内的全理解、多任务学习、生成能力、知识整合和有显著提升，从而增强了推理“程序性知识”的能力，让大模型在处理复杂问题、提供智能服务方面具有显著优势。终端本身就融合了多种感知通道，录音机、摄像头等传感器作为重要输入源提供多维数据，且不同于传统的关键词匹配，大模型结合上下文进行分析，这意味着它可以在连续的对话中保持话题连贯、把握整体脉络，这让大模型对用户意图拥有较强的理解能力。同时，大模型在回答时能从知识库中提炼出有价值的信息，并能够根据用户的具体需求和上下文背景，提供定制化的答案或建议；且当大模型与应用深度结合之后，它根据用户的指令或需求，自动调用相应的应用程序、服务或界面等。命令，而是直接用自然语言与设备沟通。不再受限于固定的界面规则的交互将变得资料来源：极客公园微信公众号、西部证券研发中心整理绘制所以在大模型迭代过程中，性能提高固然重要，但交互的升级也同样具有重大价值，商演进。过往的应用设计理念都是希望人去学习软件或机器设备的交互界面。AI时代，设计理念走向了一个全新的方向，就是让软件系统或设备来理解人。这个变化意味着用户不应该去参加使用培训，甚至也不需要产品说明书，通过多模态（文字，图片，语音，视频，气味等）的交互方式，产品会主动理解使用者的意图和需求。大模型的终极形态，是让人机交互进化到最原始、最简单的形态，在未来和电脑、手机槛，所以交互型多模态大模型带来的这种更加直观、傻瓜的交互，有望带来大模型应用四、交互型多模态大模型会带来怎样的应用？来提供服务，即可简单理解为大模型通过手机、电脑等终端以智能助手形式直接与用户互动，提供软件形式的服务。具身智能则与物理环境交互，需要硬件支持来实现三维空间内的运动行为，其中人形机器人是其代表，在应用领域方面，具身智能已经渗透到机规模化和标准化是现代教育的特征——基于社会分工的逻辑，旨在为社会各行各业的发展培养可用之才。与此相对应的，便是分专业的学科式架构、分级分班的规模化教学。AIGC技术应用下，大规模的通用数据与教育各学科的垂类数据并存，通识教育和专业教育所需的内容均可满足。同时，AIGC资源不像教师资源具有时空上的独占性，有望实现大规模的个性化教学。而在交互方式上，口语面授是主流的、学生习以为常的教学交互方式，而AIGC技术的独特之处也在于多轮自然语言交互能力，有来有回的问答式相比于知识的单向灌输，更接近孔子《论语》的对话体教学，也更接近苏格拉底的启发式对话教学模式。在判别式AI技术下，学生在口语练习时常常存个性化不足等问题。AIGC技术应用后，大模型参数的扩大、预原本单向播报和简单问答的功能进一步拓展了多轮对话、逻辑推理、上下文理解能力。其次，基于新数据生成而非识别分类的逻辑，AIGC产品可应对的场景和任务泛，可以满足用户对细分场景的需求。而交互能力的升级，会让教学时的对话过程更加流畅，从而提高对话效率和质量。资料来源：艾瑞咨询《2024年AIGC+教育行业报告》、西部证券研发中心的创新。KhanAcademy推出了KhanmigoA供即时反馈。ExplainMyAnswer功能则在用户语法有望大幅提高，我们认为GPT-4o的实时互动能力对于教育领域尤其关键，能够适应学生多样化需求，使学习过程更加生动，互动更流畅，教学更具针对性，用户的学习兴趣资料来源：Duolingo官网、西部证券研发中心GPT-4o的图像处理能力也在教育领域得到了有效应用。在OpenAI春季发布会演示中，面对实验者提出的线性代数题目"3x+1=4"，GPT-4o展现了其引导解题的能力，只提供解题思路而不直接给出答案，帮助测试者独立解决了问题。交互型多模态大模型还可以作为语言学习与职业技能提升的先进工具，其功能涵盖了多语言翻译、模拟面试等多个方面，随时随地为用户提供辅导。凭借图像识别技术与多种语言储备，交互型多模态大模型可以帮助用户在日常生活中学习外语，高效便捷且增强了语言学习的互动性和趣味性。同时，GPT-4o的同声传译功能打破了语言障碍，促进了全球范围内的沟通与交流。此外，通过模拟面试场景，它帮助用户磨练面试技巧，提高职业竞争力。ChatGPT版本，旨在协助学校负责任地部署人工智能技术。该版本包含了最新的GPT-4o模型，支持跨文本、音频和视觉的推理，并具备强大的管理控制助教、交通管理系统和新闻制作项目，展现了AI在提升教学、研社区战略减少药物过量致死、沃顿商学院用其加深学生学习反思、ASU开发语言学习伙大模型、多模态交互、Agent规划和具身智能行动的融合，将解决个性化教学、数据分析、课件生成、作业批改等问题，同时，具身智能机器人能够在物理世界中与学生建立情感联结，起到教学陪伴与激励作用。AIGC技术的外化与硬件化，是技术发展的必经之路。通过软件与硬件的结合，AIGC技术将更好地发挥其在教育领域的优势，为学生提供更加丰富、个性化的学习体验。AI工具正在被软件开发人员广泛采用。2023年的一项针对软件开发人员使用AI工具AI编程助手正迅速成为全球软件开发的关键力量，国内外企业均在这一领域取得了显著进展。国外起步较早，以微软和OpenAI合作推出的GitHubCopilot为代表，通过深度学习技术，为编程人员提供高效的代码生成与补全服务，确立了其在智能研发工具中的领先地位。国内虽然起步稍晚，但紧随其后，随着2023年大模型技术的突破，国内头部AI企业如阿里巴巴、科大讯飞和百度，纷纷推出了基于自家大模型的编码助手产品，展现了在AI领域的快速创新和应用能力。GPT-4o在代码优化领域的应用表现卓越，它能读懂电脑屏幕，能够深入分析代码，然后用自然语言实时指导用户进行代码调整，大幅帮助用户提升开发效率和质量。在科技活动VivaTech的现场演示中，OpenAI的开发者体验负责人RomainHuet使用GPT-4o加持的ChatGPTMac版演示了代码阅读、debug和优化等过程。Huet首先让ChatGPT描述了一段代码的功能，该代码是用于渲染Discover卡片组件的React组件，数据来源于trips.json文件。随后，Huet请求ChatGPT帮助提高页面的响应性。ChatGPT建议使用TailwindCSS的响应式设计特性，根据屏幕大小调整网格列数，并提供了具体的设置方法。Huet询问了具体的属性设置，ChatGPT给出了详细的指导，包括如何根据不同屏幕尺寸设置列数。最后，GPT-4o利用其多模态能力，亲自检查并确认了改动的有效性。整个演示展示了GPT-4o在编码问题上的强大实时处理能力，以及其生成文本的速度优势，相较于GPT-4Turbo有显著提升。既整合技术也整合员工，被收购初创公司的成员将在交易完成后加入OpenAI。Multi成立于2019年，公司主要产品是多人协作应用程序，允许团队成员共控制等，优势在于代码协作。Multi支持最多10人同时跨屏幕协作，通过独立光标，可以对已打开的应用程序进行绘制和标注，甚至将各自不同的应用程序视图融合成一个共资料来源：腾讯科技微信公众号、西部证券研发中心OpenAI与BeMyEyes合作，为视障人士提供实时视觉辅助，GPT-4o成为盲人的“眼睛”。在OpenAI给出的示例中，GPT-4o给一位视障人士讲解了建筑物和国旗上的国徽，描述了湖边鸭子的活动，展示了AI在辅助视障人士感知世界方面的潜力；最后，GPT-4o还帮助盲人成功坐上了回家的出租车。用实践。从提高工作效率到改善患者体验，再到提供个性化服务和降低成本等，人工智表1：OpenAI在医疗健康领域的应用实践健康和健身科技健康平台健康保险加速开发拯救生命的治疗方法。现了医患对话的自动转录与电子病历的生成，提升了数据质量和工作效率。同传。此外，GPT-4还支持自动生成出院报告，减轻了医护人员的文书负担。在疫情期间，这一系统已连接200多家医院，持续提供专业医疗服务，增强了医未来AIGC将贯穿医疗服务全流程。AIGC能够更好地处理包括文本、图像、声音在内的多种数据类型，适用于不同的医疗场景，例如可以快速生成医疗报告、病例摘要等文本内容提高医生的工作效率。并且利用出色的语言能力，整合和分析大量医学文献和临床数据，为医生提供决策支持。生成易懂的医疗健康教育内容，帮助患者更好地理解疾病和治疗方案等。资料来源：甲子光年《2024年中国AIGC行业应用价值研究报告》、西部证券研发中心我们认为交互型多模态大模型的集成有望为患者提供更加个性化、高效和针对性的医疗健康相关服务，可能将在这几个方面发挥较大的作用：1）智能导诊助手：通过自然语言交互理解患者的症状描述，推荐合适的科室和医生，并协助完成在线预约；同时，可以分析患者的面部表情和语气，判断情绪状态，提供适当的心理安抚。2）健康顾问：可以给用户提供疾病信息、药物用法、饮食建议等，同时可以通过多模态交互全方位了解用户健康状态，然后提供准确、及时的健康指导。而针对需要物理治疗或康复训练的用户，健康顾问可以利用虚拟现实技术，提供定制化康复计划，监测患者的运动执行情况，及时调整训练强度，确保康复过程的安全和有效。3）情感支持助手：识别普通用户情绪变化，提供适时的情感支持和心理辅导。而面对患者，除了倾听、鼓励和建议，还可以再必要时引导患者联系心理健康专家，帮助其应对精神健康挑战。4）无障碍导航助手：利用语音指令和实时位置数据，为视障用户提供清晰的路线指导，避开障碍物，确保安全地到达目的地。它还可以集成交通信息，提供更全面的出行解决方案。5）远程监护助手：适用于老年人或慢性病患者，可以远程监控状态和生命体征（如心率、血氧水平）等，并在检测到异常时立即通知医生或家属。AI未来将成为关键的生产力工具，有望深度融入办公场景。微软和领英的《2024WorkTrendIndexAnnualReport》报告显示，全球员工不仅期望在工作中应用AI，而且愿意主动采用AI来提升个人职业发展。AI的普及正打破职业发展的限制，同时，高级AI用户的出现预示着未来工作的新趋势。交互型多模态大模型能够充当会议助手，记录并总结要点，且可以区分参会人声音。当进行视频会议时，它能够全面记录并整理视频会议内容，自动生成包含重点标记的会议记录，同时记住各个参会人的观点。它还能在讨论中提供即时回顾，帮助参与者迅速找回被打断前的讨论点和重点内容，确保会议的流畅性和信息的准确性。2023年，AI已成为游戏工作室工作流程中的常规部分，62%的工作室利用AI进行原型制作、概念设计和资产创建。在Unity的数据中，有71%工作室表示，AI改善了他们的交付和运营，37%的受访开发者表示正在通过AI加快编码速度，36%的开发者用其生成艺术作品和游戏关卡。在国内，伽马数据发布的《中国游戏产业新质生产力发展报告》显示，现阶段中国游戏营收TOP50企业中，在人工智能、数字孪生、引擎开发、云技术和XR等新质生产力关联领域有所布局的企业占近八成。在调研的游戏从业者中，超97%游戏从业者表示企业技术研究投入有所增加，其中技术投入显著提升（中、大幅）的占比达到七成。当前，AI技术在辅助游戏研发方面扮演着关键角色，它通过生成图像、音乐、配音及剧情和代码，显著降低了开发成本并提高了创意效率。游戏研发团队的策划、美术和程序等职能领域都在通过AI技术实现自动化和优化，从而减轻工作量并提升产品质量。此外AI在用户设备上运行的能力，为开发人员和创意工作者提供了强大的工具和平台。在玩家体验方面，交互型多模态大模型驱动的AINPC或将成为游戏行业一次重大革新。玩家和NPC之间的互动是游戏体验的一个关键方面。传统的交互范式基本都是一维的，NPC以预设的方式对玩家的输入做出反应。这种限制让更有机、更丰富的互动的潜力没有得到释放。在目前的游戏系统中，非玩家角色（NPC）的行为主要由开发人员编写的预定义脚本决定。这些脚本包含基于游戏环境中各种触发器或玩家动作的一系列反应和交互。然而，这种脚本化的性质通常会导致可预测或重复的NPC行为，这些行为无法响应玩家的实时行为或游戏的动态环境，很多时候会阻碍用户的沉而大模型有望改变这一范式，AI可以让NPC学习玩家行为，适应更多元的策略，具有自主性和适应性。AINPC将变得更加“类人”，更了解玩家，从而输出更符合情境的内容，让玩家与NPC的交互更为自然。不仅可以降低用户生成内容(UGC)的成本，还激发了创新，避免了内容同质化，尤其在依赖自然语言对话的游戏中，AI驱动的玩法具有独特的吸引力。资料来源：《AGENTAI:SURVEYINGTHEHORIZONSOFMULTIMODALINTERACTION》、西部证券研发中心2024年，InworldAI进行了一项名为《AINPC在未来游戏开发中的角色》的调查，共有来自美国、英国、日本、韩国、香港和新加坡的游戏工作室的524位专业人士参与。报告显示，56%的受访者认为AINPC将带来超过40%的投资回报率，近3/4的游戏开发者对AINPC充满热情。InworldAI与微软合作，通过结合GPT和其他大模型、音频模型及30多个机器学习模型，开发了多模态的“角色引擎”。这个引擎旨在模拟人脑，打造复杂的AI角色。InworldStudio作为一个AI虚拟角色生成平台，允许用户和开发者通过自然语言输入，无需编写代码，即可迅速构建并部署NPC到游戏或应用中。国内游戏大厂也在AI领域积极布局。腾讯自2016年起便成立了AILab工作室，开发了决策智能AI“绝悟”和棋牌类AI“绝艺”，并在多类型游戏中取得了领先研究成果。网易在2017年成立了伏羲工作室与AILab，其《逆水寒手游》中应用了AINPC、AI捏脸等自研技术，展示了AI技术在游戏开发中的多样化应用。表2：部分游戏公司的AI布局动作有伏羲、网易互娱两大游戏AI实验室，自研数十个超大规模预训练模型。眼下伏羲已被应用到随着AI技术的发展，情感陪伴产品应运而生，它们通过个性化虚拟人物，满足用户的社交聊天需求，丰富了用户的情感体验。这些产品不仅拓宽了智能助手的应用范围，也为人们提供了一种新的社交和情感交流方式。GPT-4o以其先进的情感交互和场景理解能力，在发布会上展示了其多样化的智能应用。OpenAI研究主管BarretZoph展示了如何在语音模式下实时让GPT-4o判断自己的心情；同时，GPT-4o还能在用户分享宠物时表现出亲切的赞赏，以及通过手机摄像头识别出庆祝生日的场景，并在确认后提供情感丰富的反应和唱出生日快乐歌。GPT-4o甚至能在用户需要时唱摇篮曲，帮助安抚情绪。在国内市场，字节跳动通过话炉平台加强了情感陪伴产品的内容和娱乐性。与此同时，感陪伴产品，各展所长，进一步拓展市场。这些产品不仅丰富了用户的情感生活，也体人形机器人，作为AI技术与高端制造业的结合体基础设施，还因其性价比和广泛应用前景而备受瞩目。大模型等技术进步正推动人形机器人的泛化能力和自然语言交互能力快速发展。据高工产业研究院（GGII）预测，2026年全球人形机器人在服务机器人中的渗透率有望达到3.5%，市场规2月底获得包括亚马逊创始人贝索斯、英伟达、Open构建AI基础设施和数据存储。紧接着，在3月13日，Figure与OpenAI共同推出了集成先进视觉和语言理解技术的Figure01机器人，它能够自主完成递送和清理等任务，标志着人形机器人技术的新里程碑。人工智能技术在机器人领域的快速发展。如下图所示，FigureAI用机器人摄像头采集的视频信息，并结合麦克风捕获的语音转录文本，输入到OpenAI提供的多模态大模型中，实现对图像和文本的深入理解，进一步丰富了人形机器人的应用场景和功能。交互型多模态大模型有望给人形机器人带来交互效率和情感智能方面的重大飞跃。凭借端到端原生多模态模型以及更强的交互能力，人形机器人可以同时处理语音、面部表情、手势等多种输入信号，迅速识别和理解用户的意图，减少等待时间，提高响应速度，展现出接近人类反应速度的敏捷性，同时，它们的情感识别能力将得到显著提升，能够细致区分和响应不同对话者的情绪状态，提供更加精准和贴心的语智能座舱集成了传感器、控制器、显示和通讯终端，以及云服务和网络技术，实现人车智能交互。它们不仅提供信息娱乐和安全提醒，还通过万物互联技术，为驾乘者打造个性化和舒适的体验。随着技术的进步，智能座舱的交互方式正从传统物理操作演变为语时代。这一时代的座舱特点包括基于先进大模型的智能语音助手、结合语音和视觉的多模态交互方式，以及多屏联动和设备间的互联互通。李娟预测，AI智能座舱的未来趋势将是硬件发展从同质化走向标准化，用户界面(UI)设计将从预定义转变为生成式，更灵活和个性化，同时AI技术将从通用模型发展为更贴合用随着大模型在多种场景中的适用性日益增强，市场对统一管理座舱功能的智能体需求日益增长。2024年，蔚来、理想、合众汽车等主机厂相继推出了Agent框架，以语音助手为切入点，实现座舱内功能应用的统一管理。Agent服务框架的推出，不仅统一了座舱功能，还根据客户需求和喜好提供了丰富的场景模式，尤其是支持用户定制化场景，加表3：智能座舱Agent场景通过多模态技术提供导航指引、播放音乐、调节车内温度等功能，使驾驶体AlAgent可以作为智能助手，帮助驾驶员和乘客处理工作任务，如日程安排教育场景提供24小时在线教育资源，帮助驾驶员和乘客在旅提供适合儿童的教育内容和娱乐活动，如讲故事、播放儿歌等，部分座舱支持声纹复刻观影场景提供个性化的电影推荐，并通过识别语音指令控制调节车内氛围灯和提供个性化的音乐推荐，并根据歌词内容提供实时壁纸生成，还可根据音乐进行续写，在2024WAIC上，商汤绝影在行业率40Tokens/秒，并且能够覆盖主流算力平台。同时，商汤绝影推出的“随心界面”模型解析用户需求的基础上，结合设计系统的框架和范式，实现高度动态和个性化的界面生成。在WAIC2024演示现场，演示者通过语音指令要求创建一幅以欧洲杯为主题的壁纸，FlexInterface成功地执行了这一任务。此外，如果需要对壁纸进行修改，FlexInterface也能够生成一个更新的版本。此外，交互型多模态大模型可以直接将视觉感知结果输入神经网络，提供更丰富的信息细节，从而实现对车辆环境的精准分层和分类。这使自动驾驶系统在处理驾驶动作时进行更好的任务优先级排序，保持最优驾驶决策逻辑，更符合人类驾驶思维。此外，这种模型可能通过推理加速和降低时延，帮助实时感知道路环境，及时分析周围障碍物信息和交通参与者意图，进而可能提高低速自动驾驶的安全性。户体验将迎来颠覆性的变化。这种高级别的智能化体验，预计将成为未来智能家居产品智能家居市场的增长速度在整个行业中是少数保持高增速的领域之一。根据Statista的数据，预计到2028年，国内智能家居市场规模将达到5交互型多模态大模型的嵌入将使智能家电具备更高级的语音交互能力。这能够更准确地识别消费者需求，控制智能家居设备，甚至提供情感陪护和辅导孩子作业的功能。尽管存在方言和口语识别等技术挑战，但GPT-4o等新模型的出现预示着技术的进步全模态AI将通过语音、手势和面部表情的自然交互，控制家奥克斯则将智能语音大模型技术应用于其空调产品，提升了用户体验。此外，华为在HDC开发者大会上展示了与盘古大模型合作的成果——添可智能料理机。这款料理机采和知识”四个维度衍生，全面覆盖了从设备感知到设备执行的完整链路，具有历史记忆能力，可以接入多种多样的设备，可以同时处理声音、图像、视频、文字等不同模态，可以精确感知、识别与理解世界，并自主规划指导设备做出响应，可以提供从基础事件资料来源：壹观察微信公众号、西部证券研发中心萤石蓝海大模型是跨空间，也跨时间的具身智能。通过端云联动交互，它能够联动分布在物理空间的不同位置的各种设备，来构建完整的具身智能能力；然后基于用户的历史习惯，为用户提供全流程的服务。比如，在用户离开办公室的时候，就已经提前打开家资料来源：壹观察微信公众号、西部证券研发中心商汤也宣布旗下元萝卜光翼灯接入商汤商量大模型。在2024WA分别用陕西话和上海话介绍上海全球人工智能大会。这款灯具通过AI内容创作激发用户写作灵感，无论是中文作文还是英语写作，都能提供构思和技巧上的指导。它还具备丰富的百科知识库，满足用户随时的学习和查询需求。作为AI学科辅导老师，光翼灯为学习者提供专业的学科支持。此外，它支持多语言对话，包括普通话、粤语、上海话和英文，实现AI全程在线陪伴，并通过语言过滤确保交流的纯净性。这些创新使得光翼灯在提升用户体验的同时，成为学习、创作和语言交流的强大辅助工具。资料来源：WAIC2024商汤科技人工智能论坛、西部证券研发中心资料来源：元萝卜光翼灯公众号、西部证券研五、交互型多模态大模型未来形态我们认为未来交互型多模态大模型将深度集成于端侧设备，特别是当下作为人们获取信1）交互型多模态大模型有望和手机上各类APP深度集成，在我们前文所述的教育、社户需求，可以接收用户的自然语言指令或根据用户所处环境调取即时、合适的服务，例如驾车时主动开启免提通话并打开导航。甚至未来，大模型可以作为中心枢纽，连接各种生态服务，如支付、健康监测、交通导航和在线购物，形成资料来源：有新Newin公众号、西部证券研发中心能创造全新的工作和创作方式。交互型多模态大模型综合处理视觉、听觉以及文本信息，形成了一个全方位的认知系统，它作为AI助手是文档、图像还是视频，并且可以迅速捕捉并解析其中的信息。这种能力使得它能够和用户进行更为自然和流畅的沟通，不再局限于简单的问答形式，而是能够参与到更复杂的对话中，理解用户的意图，提供更具针对性的建议，甚资料来源：机器之心微信公众号、西部证券研发中心长远来看，随着大模型进一步发展，它将具备与用户协同工作的能力，不仅能理解人类的行为和需求，还能主动参与工作流程，协助完成任务。例如，在设计领域，AI可以根据用户提供的草图或概念，自动补充细节，优化布局，甚至提出创新的设计理念；在编程场景下，AI可以识别代码中的错误，主动修复，或是自动生成某些功能模块，大大减轻开发者的负担。1）作为聊天助手APP以交互型多模态大模型为底座的聊天助手APP，包含免费的基础功能以及需要订阅的高2）作为基础模型接入各类应用交互型多模态大模型作为一种基础服务，通过API接口的形式提供给其他应用程序和开发者使用，通常根据

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点

文档简介

温馨提示

最新文档

评论

计算机-人工智能系列报告（六）：交互型多模态大模型有望带来应用的爆发起点

文档简介

温馨提示

最新文档

评论

相关文档