版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能语音行业研究汇报一、智能语音:谈入口太早,但不可或缺智能音箱是台面上的狂欢,本质还在顾客、数据和服务自11月Amazon推出收款基于语音交互的智能音箱Echo以来,科大讯飞公布智能音箱叮咚,google公布智能音箱GoogleHome。而进入后来更是密集,5月联想公布智能音箱,Amazon公布带触屏的EchoShow,微软联手音频设备制造商哈曼.卡顿合作打造Invoke,6月苹果公布HomePod。同步国内BAT等互联网巨头也纷纷故意入局。智能音箱自身不是目的,争夺的是背后的顾客、数据以及服务入口。其实基于语音交互技术的入口产品可以是音箱、电视等家居产品,甚至可以是室内可及的智能设备,之因此选择音箱作为突破口,只不过看重这样一款在初期能承担除交互之外其他功能的载体。对于顾客而言,需要的是可以将众多繁杂的应用和接口进行封装的工具,不再需要自己积极到每一种详细应用上获取服务,而是借助语音交互统一的入口提供。对于巨头企业而言,目的在于借此获得移动互联网之后一种可以获取顾客数据并持续提供服务的入口。单就智能音箱而言,交互体验和连接的服务是影响顾客选择的重要原因。抛开智能音箱的设定,其本质是一款基于语音进行人机交互的智能硬件,在算法层面波及到降噪、远场识别、唤醒与打断以及多轮会话、语义分析等自然语言理解技术,硬件层面重要波及到进行声音采集的麦克风阵列技术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。假如说播放音乐是老式音箱的重要功能,那么对于智能音箱而言,这已经几乎成为附带选项,互相之间拼的不是、或者说不只是音责问题,更多是人机交互的体验,以及交互背后所能支撑和兼容的服务数量与质量。无论是对接线上的互联网服务,还是线下智能家居系列产品,若无法形成产品、应用以及数据的生态闭环,则智能音箱的入口目的就难以到达。国内智能音箱的惨淡销量还与消费习惯有关,顾客培育需要时间。与AmazonEcho千万量级销量相比,国内科大讯飞与京东联合公布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层面也许存在的差异之外,各自根植的土壤环境也有着先天的差异。若去掉“智能”的概念,智能音箱首先是个音箱,与欧美超过85%的家庭音箱普及率相比,国内甚至局限性20%,在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”,而对国内顾客或许目前还只是少部分人的爱好。正如前文所述,音箱只是恰好成为载体之一,最关键的仍然是物联网时代智能终端的人机交互入口。信息获取与体现决定语音交互成为阶段性不可或缺的一环互联网PC时代人机交互重要依赖鼠标和键盘,移动互联网时代触摸屏交互成为标配,那么人工智能时代的交互会由哪种方式主宰?基于语音控制的智能音箱还是智能电视?这些或许有也许成为智能家居入口,但即便AmazonEcho已然到达千万级销量及超过1万项技能点,似乎也局限性以成为人工智能时代交互入口的产品担当。从信息获取以及体现的角度来看,交互入口的演变必然是从习惯到本能的革命。从信息获取来看,研究表明,人的多种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+嗅觉2%。其中视觉、听觉及触觉合计高达95%,基于此或许就不难理解为何无论是互联网时代的PC还是移动互联网时代的智能机,不仅无法离开键鼠套装和触摸传感器,并且还无法离开那块或大或小的显示屏。从信息体现来看,1967年美国著名心理学家、传播学家艾伯特梅拉比安等人通过大量试验,提出人类在沟通中所有的体现信息=肢体语言信息55%+声音信息38%+语言信息7%,或许这也能在一定程度上解释为何各家智能音箱先后登场却仍然未能挑起入口大梁。我们认为,从键鼠输入的抽象符号到触摸屏直接的滑动与按压,这已经在一定程度上靠近了人类习惯,而未来的交互方式将更为靠近人的本能。语音或许是人机交互的阶段性成果,基于语音的人机交互或许会成为某个特定场景的入口,但语音与肢体动作的融合或许更也许担当得起一种时代的交互入口,至于更为遥远的未来,或许会有类似脑电波等其他方式。二、智能语音有关技术及发展历史智能语音重要研究人机之间语音信息的处理和反馈问题,从体现形式来看,即研究怎样通过语音实现人机交互,有关支撑技术重要可划分为基础语音技术、智能化技术以及大数据技术。语音识别精确率在引入深度学习之后得到迅速提高。语音目的在于使机器最终可以将识别语音中的内容、说话人、语种等信息。在技术思绪经历了基于原则模板匹配和基于记录模型(HMM)两个阶段;开始由微软的俞栋、邓力等与Hinton合作,在语音识别领域引入深度学习替代老式的特性提取,伴随深度学习的引入以及在此基础上派生的各类模型的组合,语音识别精确率大幅提高。3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合,在Switchboard数据集上电话语音识别错误率减少到5.5%,无论是对比微软测试成果给出的人类速记员5.9%错误率还是本次IBM给出的人类5.1%,机器都已经极为靠近人类水平。语音合成已经有200数年悠久历史,体现力尚有待继续提高。在计算机技术出现之前重要模仿人体发声原理制作对应硬件,计算机技术出现后音质、音色和自然度均有提高。伴随技术演进,语音合成的复杂度、自然度和音质都已获得不错的成绩,目前研究重点在于提高合成音的体现力,如语气和情感等。声纹识别目前也正向着深度学习方向发展,但不管是用老式算法还是深度学习,都需要事先建立声纹库。声纹识别重要根据语音波形反馈的说话人生理和行为特性,自动识别说话人身份,在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美,目前已经用于公安和司法系统证据鉴定中的身份鉴别,以及银行支付过程的身份认证。声纹识别和语音识别结合,能通过识别内容防止录音假冒,和情绪识别结合,则可以感知识别对象与否处在受胁迫状态。声纹识别需要对应的声纹库,且至少要保证合理的性别、年龄段、地区、口音、职业分布。测试样本应当涵盖文本内容与否有关、采集设备、传播信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感原因等重要影响原因,因而声纹数据库成为声纹识别技术突破的重要门槛。目前最全的是公安部的声纹鉴别库。自然语言理解目前尚处在浅层语义分析阶段,大体包括词法分析、句法分析、语义分析这三个既递进又互相包括的层面。目前机器对句子的理解还只能做到语义角色标注层面,即标出句中的句子成分和主被动关系等,属于浅层语义分析技术。未来要让机器更好地理解人类语言,并实现自然交互,尚有待深度学习等机器学习措施的进步。多轮对话,重要建立在语音识别、合成以及自然语言理解等技术基础之上,自然度和精确度有待提高。多轮对话系统一般分为任务型和闲聊型,任务型是协助顾客完毕详细的某项事情,如:设置闹钟、查天气等;而闲聊型是实现人机的情感聊天互动,如陪护型机器人。多轮对话相比单轮对话方式提高了顾客交互的自然度和精确度。对话管理是实现多轮对话系统的关键,功能分为对话状态追踪(DST)和对话决策(DialogPolicy),前者作用是更新对话状态,记录到目前为止顾客所有的聊天记录和系统行为,后者根据DST对话状态产生系统行为,即决定下一步反馈或调用等行为。三、智能语音产业发展现实状况市场规模迅速扩大,且国内增速明显超过全球在移动互联网、大数据、云计算、深度学习等技术的发展推进下,智能语音技术渐趋成熟,行业发展进入场景应用布局阶段。移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续迅速增长。全球智能语音市场规模达62.1亿美元,同比增长34.2%。中国智能语音产业市场规模也逐渐扩大,40.3亿元产业规模约占全球市场份额10%,且增速明显高于全球市场,估计至份额占比将提高到14%。各要素齐发力,推进智能语音形成完整产业链借用我们前序汇报中提出的人工智能商业化应用“人机料法环”模型,智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共同推进下已形成较为完整的产业链。从产业链角度,智能语音行业可分为四个部分。基础研究机构:语音合成、语音识别、声纹识别等基础技术的研发和技术输出;语音语义数据提供商:为算法研究或技术输出机构提供语音、语义数据库以及定制化的数据采集和处理;语音技术提供商:将基础技术转换为软件或行业整体处理方案,提供嵌入式或平台式的语音软件服务、行业智能语音系统整体处理方案;智能语音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各类APP或软件客户端等,从产品属性来看重要包括消费级产品和专业级行业应用。算法红利逐渐消失,一家独大转向多方竞争伴随深度学习的引入和发展,智能语音的算法红利正逐渐消失。Nuance自与ScanSoft合并后,成为全球最大的语音技术厂商,凭借自身先进的语音识别、自然语言理解技术以及优秀的语音处理方案在全球语音市场中占据62%,加上google、微软合计占据超过85%。深度学习初次引入语音识别,随即配合计算能力的提高和海量语音语料数据的积累,识别精确率得到大幅提高。尽管Nuance全球市场份额仍居第一,但已大幅下降至31.6%,而google、苹果、微软及科大讯飞市场份额增长较快,分别到达28.4%、15.4%、8.1%和4.5%。科技巨头对于深度学习算法及机器学习框架的开源使得智能语音技术的调用变得更为简朴,模块化的设计使得应用布署与实行门槛明显减少。目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额,三家合计达79%。其中,科大讯飞市场份额为44.2%,处在市场领先地位。百度进入势头强劲,市场份额增长迅速。美国权威杂志《麻省理工科技评论》公布的十大突破技术,百度硅谷的DeepSpeech2智能语音技术赫然在列。google、微软、苹果、百度等互联网巨头在资金、数据和2C应用顾客拓展三方面优势明显,各方强势介入将使得全球智能语音行业由一家独大演变成多方参与竞争的格局。技术驱动,场景应用并借助数据形成正反馈,三者成为智能语音行业的重要壁垒。技术算法壁垒:伴随智能语音技术的发展,语音识别技术日益成熟,开源语音识别工具减少了语音识别的门槛,但使用过程的稳定性仍有待处理。语音识别技术进入突破量变到质变的临界点,有关技术和配套设施的研发可认为企业筑起护城河,百度、搜狗、科大讯飞等企业安静状态下语音识别精确率大都到达97%,目前均在向更高精确率以及非原则环境下的应用发展。应用场景壁垒:2B应用波及金融、电信、医疗、交通等行业,这些行业对系统的稳定性规定非常高,非常重视实际应用案例状况,会通过严格的招投标选择最具实力和经验的智能语音技术和服务供应商,一旦通过评测会保持稳定合作,新企业进入壁垒较高;2C应用层面互联网巨大具有商业应用和信息入口优势。数据积累壁垒:智能语音在各场景应用顾客体验和客户粘度提高的关键是积累真实环境下的多种语音资料和文本资料进行迭代优化,智能语音应用后形成数据闭环将不停提高壁垒优势。目前智能语音产业的参与者可以分为三大类型:从科研试验室走出来的独立语音技术研发和服务提供商,如源于斯坦福研究院STAR试验室的Nuance、与中国科学技术大学合作的科大讯飞,围绕智能语音技术研发到应用各环节的初创企业。如思必驰、云知声、出门问问、声智科技、三角兽、蓦然等创业企业,但愿抢占下一代人机交互入口的科技巨头,如苹果、google、微软、亚马逊、百度、腾讯、搜狗等。开始,互联网巨头纷纷通过自主研发或者并购/参股的方式深入布局智能语音产业参股的方式深入布局智能语音产业。在智能语音上的布局重点围绕虚拟助手,并且为占据一定的市场先机,纷纷开始布局智能车载、智能家俱、智能医疗、可穿戴设备等细分市场。融合场景、借力硬件提高语音技术实用和稳定性由于语音信号的多样性和复杂性,在真实使用场景中,考虑到空间距离、背景噪音、其他人声干扰、回声、方言、口音等问题,精确率会大打折扣。提高现实场景中的顾客体验是智能语音技术完毕质的突破的关键,波及技术包括远场语音识别、唤醒目的检测、全双工交互、个性化识别技术等。10月intel与科大讯飞宣布合作共同研发AI芯片,将麦克风阵列、远场语音识别等功能集成到SOC当中,形成完整的远场语音交互链条。目前近场、发音原则的语音识别已经相称成熟,手机端Siri即可视为这一类型,国内科大讯飞、百度、搜狗等在近场、安静环境下的语音识别精确率都已提高到97%以上。但对于远场语音识别而言,虽然从技术原理上来看与近场几乎相似,但由于音源和麦克风之间的空间距离增大,声音传播过程会受到其他人声、回声等影响,在详细使用场景下精确率仍然对软硬件都提高了技术规定。四、智能语音的应用前景巨头抢滩虚拟语音助手,并逐渐切入场景应用语音交互的特点是简朴、迅速、解放双手和眼睛,在诸多场景可以给顾客带来巨大的体验优化。例如:防止繁琐操作:手机众多APP中直接用语音进入一种应用。很小或没有屏幕:智能电视中用语音直接打开特定节目替代操作不便的遥控器、通过智能穿戴设备访问互联网。手眼无暇顾及:如开车过程、会议记录。发掘语音数据的价值:如运用电子病历语音数据辅助诊断。互联网女皇MaryMeeker在《互联网趋势》中指出,语音交互将成为人机交互的新范式。而实际上伴随智能语音技术的逐渐成熟以及自然语言理解的发展,语音已经成为不一样场景下人与智能设备之间交互的重要手段。巨头纷纷以虚拟语音助手切入智能语音应用场景。由于物联网波及太多领域,跨平台、跨设备、跨品牌等诸多原因制约产业发展,统一原则是物联网行业发展的基础,在此逻辑基础上google、微软、亚马逊等科技巨头纷纷以智能虚拟助手作为切入口,打造开放平台、以开源形式吸引开发者构建应用开发生态。面向消费级产品和专业级行业应用,虚拟数字助手顾客数与市场规模迅速增长。语音、语义等有关技术的可用性逐渐提高,带来虚拟数字助手市场的扩张。从应用方向和场景来看,重要用于消费级产品和专业级行业应用。消费级市场重要是2C或2B2C,应用于衣食住行等生活场景,如手机、智能车载、智能家居、可穿戴设备等。专业级行业应用重要是2B,应用于特定场景,如医疗、教育、呼喊中心、庭审等各个行业。根据Tractica的预测,活跃消费者虚拟助手顾客数量将从3.9亿上升至18亿,活跃企业虚拟助手顾客数量将从1.55亿上升至8.43亿。虚拟助手市场规模将从16亿美元增长至158亿美元。消费级产品应用场景消费级市场智能虚拟助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、情感陪伴等。首先可以通过开放平台接入第三方应用和服务丰富智能虚拟助手的功能,目前手机虚拟助手正是通过连接各类APP征服终端,另首先可植入智能硬件终端,向汽车、家居、可穿戴设备等产品延伸,建立消费级智能语音产品的生态体系。智能语音+车载开车时双手和双眼被占用,语音交互成为该场景下最合适的交互方式。智能语音与汽车的结合重要为智能车载产品,通过语音完毕导航、音乐搜索与播放、信息听写等。伴随车联网的发展,未来将跟社交、娱乐、餐饮等服务深入结合,在保证安全的前提下提高驾乘体验。腾讯汽车等有关调研机构的数据显示智能车载系统的迭代更新过程中,语音交互的作用和重要性已经越来越得到车主的承认。IMSResearch估计到全球将有55%的新车搭载智能语音系统。在智能车载领域,Nuance、苹果、google、科大讯飞、百度等语音识别巨头分别推出DragonDrive车载语音开发平台、CarPlay、AndroidAuto、汽车语点系统、CarLife等智能车载系统,并纷纷与汽车厂商到达合作,抢占智能车载新兴市场。智能语音+家居智能家居产业处在迅速发展期,语音控制逐渐成为常见技能点。智能语音可以跟电视、音响、空调、窗帘、灯具、玩具等多种家用设备和智能家居控制中枢系统相结合,通过语音交互实现一种入口控制所有功能。大数据及人工智能技术的推进、关键技术与部件成本的下降以及产业联盟原则化协议的建立带来智能家居市场规模的迅速增长。Statista研究数据显示,全球智能家居市场规模已经到达168亿美元,其中中国市场占7%,估计到全球智能家居市场规模将到达793亿美元,中国市场份额上升至17%。国外互联网巨头纷纷以智能家居产品与智能语音相结合的方式进入智能家居领域。苹果于推出HomeKit智能家居平台,并与Siri不停加强融合。亚马逊推出的搭载Alexa的Echo智能音箱,通过语音可以实现播放音乐、新闻、网购下单、Uber叫车、定外卖等任务,根据CIRP、RBCCapitalMarket等企业的估计,自发售以来,Echo系列产品合计销售量靠近一千万台,销售额到达8-10亿美元。google推出GoogleHome智能音箱,搭载GoogleAssistant虚拟助手,积极强化GoogleAssistant在智能家居领域的布局。从互联网巨头的布局可以看出智能语音与智能家居的融合是大势所趋。智能语音+可穿戴设备可穿戴设备受硬件形态的约束,语音交互方式相比触摸交互方式具有明显优势。智能语音技术的引入可将设备从智能手机上解放出来,发明独立体验。例如出门问问Ticwear内置贴片式SIM芯片与3G通讯模块,拥有独立通讯号码并可实现实时在线,支持包括语音拨号、短信、拍照,微信语音答复,语音搜索等功能在内的全中文语音交互。智能语音在可穿戴设备上的渗透增进可穿戴设备产业及智能语音应用的增长。苹果公布无线耳机AirPods,能与苹果手机上的Siri进行语音交互。根据市场调研企业SliceIntelligence公布的美国无线耳机市场线上销售状况汇报,苹果公布的AirPods在上市销售的一种月后迅速占据了无线耳机市场26%的市场份额。根据前瞻产业研究院的预测,中国健身及运动类可穿戴设备市场规模将从90亿元左右增长至244亿元,年复合增长率达18%,智能语音在可穿戴设备上的渗透将增进智能语音产业规模迅速增长。专业级行业应用场景专业级市场虚拟助手合用于多种应用场景,从实现功能来看重要形式有语音识别转写以及语音、语义内容的分析,以医疗、教育和客服三个领域为例,语音技术与场景的深度融合将为技术壁垒构建应用端的护城河。智能语音+医疗智能语音在医疗行业的应用重要有三种:语音导诊机器人;电子病历语音录入与转写、临床汇报语音录入与转写。语音录入大大提高医生工作效率和工作质量;患者可以通过语音电子病历系统下载打印,可以拥有完整、清晰易懂的病历;医院可以科学管理诊断过程和诊断信息。伴随语音病历的积累,运用大数据技术和深度学习技术可以挖掘医学案例语音资料的价值,实现智能辅助诊断。Nuance是全球智能语音医疗处理方案的龙头企业。Nuance的医疗处理方案已经覆盖了全美72%的医疗机构,客户遍及全球30多种国家,每年获得3亿多医患交流数据。每年为超过50万名医生、1万个医疗机构提供服务,医疗产品也实现了多样化:临床文档改良(CDI)、临床语音识别、实时听写、计算机辅助编码、医疗质量把控、移动云计算等。国内科大讯飞也积极布局医疗领域,与北京
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中考物理复习主题单元12第31课时电路故障课件
- 冀少版八年级生物上册专项突破2根对水分的吸收和蒸腾作用课件
- 冀少版八年级生物上册第三单元第三节光合作用的场所课件
- 《买文具》教学设计
- 《人体解剖学》电子教案关节学(人卫版)
- 新兴城区房产打印发展潜力
- 湘教版五年级音乐上册教案
- 建筑施工承包合同样本
- 机场休息室改造敲墙协议
- 科技园区装修施工安全协议
- 2024普通高中物理课程标准解读
- 2024年广西玉林市自来水有限公司招聘笔试参考题库含答案解析
- 2022年度食品安全负责人考试题库(含答案)
- 教师近3年任教学科学生学业水平和综合素质
- 企业法律合规与外部监管的内外因素分析
- 2022年版煤矿安全规程
- 九年级数学上册 期中考试卷(湘教版)
- 冷弯机行业市场研究报告
- 牛津英语四年级上册4A-M2-Unit-3-The-lion-and-the-mouse优秀信息化教案附反思
- 山东省青岛市胶州市2023-2024学年八年级上学期期中英语试卷
- 5000字长篇表白情书
评论
0/150
提交评论