版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
探讨AIGC行业应用与创新场景方向AI技术热潮的到来既带来了机遇,也为业内人士带来了更多挑战。在这样的背景下,9月9日~10日,「人人都是产品经理」联合「腾讯大讲堂」于北京举办了产品经理大会,聚焦于“AI、数字化转型、业务增长”,共同探讨AIGC的商业化可能与落地实践。其中在9日晚上,「人人都是产品经理」还联合「声网」联合举办了一场闭门研讨会,声网AIGC产品负责人杜浦带来了“AIGC加持下,APP体验场景创新哪些玩法值得期待?”的主题演讲,并分享了声网在实时互动+AIGC探索上的最新成果。现场回顾AI技术促进了各行业内容生产方式的革新,比如文字生成、代码辅助开发、图片绘制、视频处理等。在闭门会上,声网分享嘉宾杜浦主要围绕AIGC与音视频的结合应用进行探讨。AIGC的音视频应用场景有许多,比如数字人虚拟主播、AI虚拟恋人等。而这个过程里,产品体验的需求GAP亟待满足:文本互动效果差:不擅长语⾳处理,只能实现⽂本互动,⽆法提供实时语⾳、视频互动;AI交互的响应延迟较⾼,⽤户体验差;场景开发上线难:缺少AIGC所需的开发经验和能⼒储备,期望能够接⼊整体解决⽅案;⽆暇进⾏场景调研和玩法设计,应⽤可玩性不⾜,需要快速上线参考;语音合成效果差:⽤户的语⾳识别(STT)不够准确,AI语⾳合成效果(TTS)过于机械不够真实,⽤户体验差;AI模型训练难:应⽤设计的场景对AI模型的prompt调优训练要求较⾼,整体场景流畅运⾏的实现难度较⼤。面对这些问题,声网提出了
AIGC一站式音视频解决方案,这一方案拥有三大核心优势:音视频互动更具沉浸感:相比传统的通过IM文字聊天与AI角色实现交互的方案,声网提供的实时音视频+实时消息+虚拟形象方案能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。同时,实时音视频互动相比输入文字,操作更加便捷,且能够与其它多模态互动方式结合,进一步提升用户体验。响应延时低至1.9秒内:声网作为实时互动云服务的开创者,在音视频领域积累了深厚的技术优势,针对目前市面上大多数AI生成式对话响应慢的问题,声网的研发团队对AIGC场景下音视频互动的延时做了很多技术优化,可以将对话响应延时控制在1.9秒内,也就意味着当用户对AI角色语音提问结束后,到AI开始说话的时间间隔,声网可以做到1.9秒以内,相比市场上绝大部分AI互动延迟在6-7s的方案要低很多。易开发,3h快速上线场景:在场景开发层面,有些企业缺少AIGC所需的开发经验和能力储备,期望能够接入整体解决方案,对此声网提供封装完整的SDK,包含实时音视频、实时消息、语音转文字(STT)/文字转语音(TTS)、语音驱动虚拟人嘴型等多种能力,并支持API快速调用,提供开箱即用的场景化Demo,最快3h即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。再进一步拆解,声网AIGC解决方案的一站式产品能力还包括这些能力:模型能力:大语言模型是整个AIGC解决方案最核心的部分,在大模型能力方面,声网也跟很多热门的国内外大模型进行了合作,根据业务场景集成测试了多个大模型的能力,以及支持开源大模型的私有化部署和模型Fine-tune,支持企业根据自身需求进行灵活切换。声网会根据客户的场景选择合适的大模型,根据不同的场景做特定的模型数据库和Prompt,同时结合声网RTC的低延时特性,让用户交互延迟达到最优,模型输出更符合真实场景。此外,声网在开源大模型层面也有在尝试做私有化部署,以满足部分企业对数据安全及网络的要求。语音能力:声网凭借在音频处理领域的经验,对语言转文字(STT)+文字转语音(TTS)模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持AI实时变声、定制化声音克隆,让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音,学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。场景人设定制:声网在1V1语音聊天等场景还对AI角色进行了人设定制,通过Prompt的方式设置AI角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面,声网也尝试了多人语音场景的验证,例如在谁是卧底、狼人杀等多人游戏的场景中,AI可以作为一个玩家参与到游戏中,真正的与用户一起玩游戏。交互体验升级:围绕语音大模型的交互体验,声网也做了一些尝试,例如长期对话记忆,在一些对话场景中,用户在进行多轮文字互动后,有可能大模型记不住用户之前说的内容,影响对话体验。对此,声网通过实现多轮对话记忆,可以更好的应用在AI情感陪聊、智能办公助手等场景。对于需要AI精准回答特定行业知识、企业专业知识、多维度知识的客户,声网AIGC方案支持公域、私域VectorDB接入的能力,可以解决各种类型的数据分析和相关任务,特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。在杜浦的分享结束后,参会者根据分享内容和自身的业务背景进行互动问答,并随后就“AIGC行业应用分享与创新场景方向探讨”这一话题开启了分组研讨与小组间的内容分享。此外,部分与会者还在现场体验了声网AIGC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版宁夏粮食和物资储备局粮食储备库信息化系统升级合同3篇
- 2025年度排水工程设计咨询合同4篇
- 2025年度绿色环保产业民营中小企业合作开发合同4篇
- 技术保密合同
- 承包人合同范本(2篇)
- 2025年度高品质内墙抹灰装饰工程承包合同4篇
- 2025版内蒙古生态环保产业投资合同范本4篇
- 二零二五年度农产品质量检测与追溯服务合同4篇
- 2025版牛羊肉冷链物流配送服务合同4篇
- 二零二五年度回迁房买卖合同标准样本(产权互换版)2篇
- 2025年度公务车辆私人使用管理与责任协议书3篇
- 经济学基础试题及答案 (二)
- 售后工程师述职报告
- 绿化养护难点要点分析及技术措施
- 2024年河北省高考历史试卷(含答案解析)
- 车位款抵扣工程款合同
- 小学六年级数学奥数题100题附答案(完整版)
- 湖南高速铁路职业技术学院单招职业技能测试参考试题库(含答案)
- 英汉互译单词练习打印纸
- 2023湖北武汉华中科技大学招聘实验技术人员24人笔试参考题库(共500题)答案详解版
- 一氯二氟甲烷安全技术说明书MSDS
评论
0/150
提交评论