版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聊一聊语音交互以及语音助手随着科技的不断发展,语音助手也频繁的出现在我们的日常生活中,比如手机的语音助手、智能音箱等等,语音助手的出现也很大程度上提高的一些效率问题;本文分享了关于语音交互的理解,我们一起来看回去。“声控交互是一种简单、自然的人机交互方式,也是肉体最基本的沟通方式。”说起语音交互、语音助手,我相信大家必然不陌生。如今,各种科技公司、互联网公司、车企,甚至是房地产企业都在做语音姊夫助手;你已经很难找到一台新发布,且不带语音助手的手机or汽车了。我最早感受到语音信息处理的魅力最早是在16年,当时在做全屋智能的产品经理,公司调研产品买了产品线一台亚马逊的echo,第一场体验到远场的语音交互,很惊艳,远场语音交互技术给了居家场景太多的想象空间。后来国内陆续出了小爱同学、天猫精灵、小度音箱•••我基本都天数是第一时间买回了家。18年5月,我去了猎户星空双鱼座做服务机器人“豹小秘”,机缘巧合的负责起了它机缘的对话能力,有幸伴随它从需要“一字不差的吼着信息处理”,到在全国高校各地的落地,我可能是最清楚它的对话谈话能力是怎么做起来的人。19年8月,我去了滴滴,一年多过去了,也算是从0到1做成了一个给司机打碎用的语音助手(遗憾是还没有做到全国全量…)。到现在我也算是行业老兵了,想结合过往的经历和思考,跟大家聊一聊语音交互。这次主要包括想聊下面几个话题:交流是人们与生俱来的本能,人类大约在二岁学会说话,说话也是人与人之间主要的交互方式。我们可以试着有心一下,假如人与人间不能说话,只能通过触摸须要固定的区域来交流,那世界会怎么样?我相信,你相当程度很难想象这会是什么样的世界;而事实上,我们计算机现在与计算机交流的这种方式就是这样。语音音频协同工作是一项人机交互技术,可以通过说话跟信息处理来获取信息、服务等,语音交互也不是要替代触控交互,而是在一些场景中让人与计算机交互式变的更简单、自然。说起难点,我先抛几个现状:为什么这么多顶尖的公司目前,投入经费了顶尖的资源、顶尖的人才都来不及做出一款C前端用户满意的语音助手?为什么在很多用户虽然眼中都是“人工智障”?话音助手的难点又是什么?这些问题很大,值得从业者们一起思考,这里讲讲我的思考;我认为,导致人们经常说语音助手“智障”的原因是:用户预期与实际助手能力的gap过大。就像这张图,用户市场预期与语音助手能力的交集少的可怜。那么有没有可能变成下面这张图的?按这个思路,结构性问题的难点还可以继续拆解:.问题1:如何让用户知道语音助手能干什么?语音助手背后的技能、参考资料其实都已小具规模(在19年,Alexa集市就已经有了8万多个技能),但一些用户也就只会用户使用听歌、查天气、订闹钟这么几个技能(有屏音箱里充满了各种引导、推荐,就是试图在解决这个环境问题)。而我认为这个问题最根本的原因是,大多语音助手还没有帮手打透一个刚需场景。像90年代初的互联网,你们也不知道互联网能干嘛,马云到处推销互联网还被骂是骗子;而随着电子商务解决的刚需场景越来越多(BBS军决了社交需求、门户网站解决解决了获取信息的消费市场),也激发了更多的人去了解互联网能干什么。所以,大多用户们不了解语音助手能干什么,本质还是语音助手没有找到一个刚需场景并打透(没有寻找刚需场景,或者说没有在一个刚需场景中创造显著的无体验差)。.问题2:如何让语音助手连接更多的服务、内容?想要回答这个问题,需要从场景深度和开放性两个需要维度来看。深度方面,单一场景要打通的链路很长,体验闭环难。案例1:以迷宫家庭智能音箱的听歌场景为例,受制音箱背后的音乐版权,而音箱没有,这会很大的影响体验;比如小爱同学,因为它连接的歌曲资源是QQf乐,而我就没办法听自己在网易云收藏的歌单了。案例2:在家庭照明场景,想通过语音助手随意的管控家庭灯光,需要连接整个家庭强光照明设备,这甚至得切断装修环境,在装修时就考虑。广度方面,用户在跟语音助手交互之时,能够有非常多的碎片化小需求。案例:在滴滴的司机语音助手中,除了大家可以想到的导航场景,司机还会有各种各样的长尾风险问题,例如:“网约车考试的题目在哪里?”、“飞机场那边的排队区在哪里"、“帮我查一下我的预约单”等等,这些都是司机自发窄小的问语音助手的碎片化小需求。.问题3:如何管理用户预期?导致用户预期过高也有两方面的四原因:一方面,用语言交流时,某种程度上人们会不自觉把“语音助手”与真实的人比较,尝试用人脑的思索习惯大脑去理解“语音助手”,这必然会导致很多时候用户会觉得人机对话的结果不符合预期;因为目前的AI的原理和真正的人脑原理稍差的还很远(根本原因是科学最高级对人脑的了解也还很初级•••),再加一些科幻电影,还有媒体对人工智能概念的鼓吹…另一个方面是交互无法设定交互边界,设计GUI交互时,我们可以定义出清晰的交互路径和边界(eg:首页只提供一个按钮);但是交互交互你无法限制用户说什么,就像人与人的辩论中,你永远不足以避免别人问到你不会的问题。.小结用户预期与实际助手能力的gap过大,应用程序导致很多用户认为语音助手“智障”,而导致gap过大的难点是:想打造一个不必傻展的语音助手,不仅仅是打磨技术本身,有落地时对无数细节前会的打磨、把控,还有语音助手背后的生态…这些都不是一蹴而就的事情,需要有清晰的首要目标、解决路径,然后耐心的持续全部投入、细心打磨。.找到刚需场景,打造由显著的体验差我们希望它像钢铁侠的贾维斯一样可以帮忙主人完成各种各样的任务,它就连接线得连接到各种各样的客户服务,也会是一个allinone的入口。所以,第一步也是最重要的一站,一定是找到刚需场景,打造出显著的体验差。说到这里,想先闲谈什么是流量“入口”,举一个智能家居医药行业的军工行业例子,业内一直有人在讨论智能家居的入口是什么。早期有人说是路由器、电视,从此智能音箱出现,阿里、百度、小米等公司纷纷开启补贴大战,被不少人称为“智能家居入口之争”,现在又有人进行讨论智能音箱作为“智能家居入口”这个命题是否成立。我认为,决定是否能成为“入口”的不是形态,而是刚需场景中的用户体验:如果有一种新的产品形态,能比智能手机在通讯社交、获取信息、电视这些刚需场景中整体体验更好,那就有可能取代智能手机这个产品形态,成为新的“入口”。再说为什么智能音箱补贴了几百亿,一年有几千万的销量,都还没成“入口”?因为光买一台智能音箱回家它也就只能听歌、查天气、订闹钟,对于大部分用户这都不算是刚需场景;对于少部分音乐爱好者,以市面上智能音箱的音质、内容资源又无法满足需求,做不到体验闭环。反过来再举一个反例,如果你同时买了整套的小米智能家居产品(米家电动窗帘、米家吸顶灯、米家智能空调、米家扫地机器人•・•..),控制灯光遮阳、控制温度是刚需,通过小爱同学控制也确实体验更好,那么在满足这个条件家庭中,小爱同学就可以有望成为一个“入口”。再举一个滴滴司机的工作场景中的例子,滴滴的服务和产品模式,导致司机不得不一边开车一边操作手机(eg:要操作手机接单、要给乘客发消息、平台还时不时push一张卡片让司机点击),随着滴滴要求司机做的事情在不断增多,司机需要偷懒的操作也越来越麻烦。原本,你只要会开车、认路就可以当出租车司机,现在早已变成了需要“能熟练使用智能手机”才能当滴滴司机。就像热力学第二法则,一个独立系统的“嫡”永远是在增加的。不过科技的进步,总是会有把解决问题办法来解决这个问题;就像多点触控技术和触摸屏的出现,让手机再也不需要那么多的物理按键了。语音助手是有机会在网约车司机的工作场景中降低一些操作的复杂度,来打造出大幅度体验差的;把其中好几个一两个刚需迷宫打透(比如给乘客寄送消息),做到“有用",那么语音助手就有机会成为连接网约车司机的一个“入口”。在其他场景中也类似,只有找寻刚需并打透,才有机会成为“入口”。.规模化复制,带动服务者生态的建立沿着上述思路继续说,第二步核心是要解决产品服务深度和长尾的碎片化小需求。我继续拿滴滴司机的场景举例,在我们刚上线“司机助手”时,就已经初步设计看到了“入口”的效应。用户会把助手当成一个“搜索引擎”,他有各种各样碎片化需求、不知道如何处理的关键问题时,会尝试向助手的寻求帮助,但都是碎片化小需求;类似下面的这些意图,全部加起来也只占总交互量的5%这些环境问题背后涉及的知识、产品与服务非常多非常多。想要把体验做好,就一定需要很多不同的部门提供支持深度配合,或者找到能为司机工作场景提供服务的第三方配合。那么,想要做到“不傻展”的程度,就得先解决服务者生态的动机问题;对于服务提供者公司内部的提供者来说,毕竟大家都是打工人,都要收益、要晋升;对于公司外部的服务提供者也一样,最真实的不能就是能不能帮助他们赚钱。所以,这里又要强调第一步的重要性,如果可以把辅助司机的工作刚需场景打磨透,实现全国全量,那么按滴滴上百万司机和超高的使用时长(普遍每天使用App8小时以上)估算,对于很多业务都算是数据量不小的流量。在这一步,着重是打磨工具能力,让各种的服务提供方可以简单、高效的接入助手;进而促进更多的提供服务业务部门通过助手为司机提供相关服务,实现业务价值,也进一步让助手战斗能力具备了更多的能力过来服务好司机。如果能遵行这一步,语音助手才算是从“有用”开始走向了“不傻展”。.打造每个属于用户自己的语音助手我们想让助手每天陪伴司机、辅助工作,第三步就要开始解决交互边界的问题,视讯即怎么让用户知道音频助手的能力边界?有一说一,还没有一个助手把这个问题解决好。我聊聊在这里也只是聊聊自己认真思考,抛砖引玉。身份与关系决定了人与人的交互边界,例如:网约车司机不会咨询一名乘客为什么自己接不到单子,他会去问客服。人机交互中也一样,目前像小爱同学、天猫精灵都是“人工智能助手”的身份,关系上类似“仆从”;这个身份对助手造成了不小的限制,前面的“人工智能”让用户觉得你应该很吓人,后面的“助手”让普通用户认为我说啥听到你都应该听我说。这也叫导致用户提出各自各样的开放性需求,从讲个笑话、放个屁,到查阿里巴巴的股价、马化腾是谁等等;如果语音助手听不懂、搞不定,用户很可能就会说“这都不知道?”、“智障”、“不聪明呀”…那有没有第二种理想的身份,可以能让用户的知道国界,同时又不有存留一定的拓展性?超能战斗部队大白的设定设定似乎可以满足这个条件,大白的设定是一个机器人,默认可以通过安装不同介面的芯片来努力实现不同的功能。默认设置的是“私人健康助手”芯片,在电影中曾为了给主人公主人公的哥哥报仇,被换上了“空手道”芯片;在动画版本中,还有“跳舞”芯片,取出后大白放入就拥有了跳舞能力。这些不同的“芯片”,其实就像iPhone中的不同“ApP',每个用户可以决定自己的手机上安装哪些App这个思路,也许可以解决语音助手交互边界的问题;我认为,语音副手跟传统的App产品不一样,不用非得保持一个固定的身份定位,可以根据不同场景提供不同的基础服务,让用户自己决定移动用户它应该拥有哪些的职业技能。早期着眼于刚需场景,它可以是地图导航助手、司机工作助手等,在产品与服务逐渐增多后,也可以由确定他自己的语音助手应该拥有哪些技能。这也是为什么我在解决路径中,把找到沙巴尔场景打透放在了第一步,把确定助手的定位放在了第三步。.最后,还有一个前提:对打磨技术细节的耐心和投入语音助手在落地中,有无数的词句需要把控。我拿一个大家可能都用过的定闹钟举一个例子:1)语义的泛化需要打磨想让语音助手可以准确的响应用户自然表达,就需要不断的标注、分析用户真实表达,去打磨语义理解模块。2)回复的话术、逻辑也需要打磨这些case在平时生活中很常见,如果我是对老婆说,我不会特意强调是“早上”还是“下午”,她也不会纠结、不会反问我,因为她了解我的日常生活作息。但语音助手需要有积累,通过分析各种的用户case去制定最优的策略。如果想要交互助手贴心一点,最好还能在不同场景给出不同的最出色回复。例如:凌晨2点定早上8点的闹钟,最好贴心的补充说一句“不早了,早点休息”这些都是细节,需要一点点的耐心打磨。如果一个语音助手的负责人,只谈行业趋势、产品架构、技术架构,我会觉得很难做成;因为一个语音助手在落地的时,会有无穷多的细节问题需要把控,不仅要仰望星空,还要脚踏实地。5.总结急著打造悄悄地一个聪明的语音助手,需要一个前提、三步路径。一个前提:对打磨细节拥有足够的耐心和投入三步路径:后面,我想一些与语音交互相关的感性经历。我觉得能做一款“有头有脸”、“能说话”的系列产品真的特别有趣。做豹小秘时,随着它一点一点的变好,真的会有一种看着自己“孩子”长大的感觉,每次试著商场遇到它也都很亲切,会过去跟“它”打个招呼。2021年9月我在全家办婚礼,刚好遇到一个伴娘临时有事来不了,我找了豹小秘给来当伴娘。给你们看看婚礼内场它的照片。婚礼当天,在门口帮忙迎宾和伴郎伴娘们并肩登台代表伴娘发言在滴滴做司机助手“小滴”也是一段特别的际遇。当时去滴滴面试,一面时聊了聊,发现滴滴业务场景中有很多的问题值得去解决,觉得充满了机会,很嗨。入职后,有一个新员工培训叫“在树上”,过程中要求每一位同学都发现并提交一个体验问题发布至内网。我虚拟化就提交了一个可以用语音协同工作解决的体验问题。培训的最后,每个小组能够挑工作组一个体验问题演成“小品”,我就忽悠组员们一起用这个案例演了小品。最后发言时,我还始终如一的给大家说,这个风险问题我正在解决,年底(19年底)就会和大家见面;后来发现,我完全低估了要从0把语音助手落地到一个成熟业务中的难度,可能需要和太多的部门沟通、拉齐。还好的是,2021年5月终于把这个功能上线并且做到全国全量了,它也是语音交互第一次在滴滴业务故事情节业务的大规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计师事务所兼职合同范本:工作职责与权益保障
- 2024解除劳动合同的问题
- 国家级代理授权经营合同范本
- 2024新版广告合同格式
- 医院与社区合作协议
- 2024年度别墅电梯定制安装合同
- 2024建筑材料的购销合同范本
- 2024年专用电缆采购合同
- 2024苗圃土地承包合同模板
- 工程项目协作股权协议范例
- 2015-2024北京中考真题语文汇编:记叙文阅读
- 2024年湖南土建中级职称-建筑工程《法律法规及技术标准》考试题库(含答案)
- 旅游景区消防安全培训
- 2024年税务新政培训
- 《创意改善生活》课件 2024-2025学年湘美版(2024)初中美术七年级上册
- 2024-2025学年 浙教版七年级数学上册期中(第1-4章)培优试卷
- 个人简历模板(5套完整版)
- CHT 1027-2012 数字正射影像图质量检验技术规程(正式版)
- 文艺复兴经典名著选读智慧树知到期末考试答案章节答案2024年北京大学
- 劳务派遣劳务外包服务方案(技术方案)
- 五年级数学替换法解决问题——等量代换(经典实用)
评论
0/150
提交评论