




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章
智能语音
《人工智能应用概论(第2版)》RengongZhinengYingyongGailun“十四五”广西壮族自治区职业教育规划教材
新编21世纪高等职业教育精品教材·通识课系列Part0101智能语音介绍Part0202智能语音技术应用Part0303智能语音体验目
录content[课程导入】“智能问答机器人”基于深度学习的自然语言处理(NLP)技术,帮助提升客服体验及服务效率,实现24小时无须等候智能服务,通过上下文多轮问答,实现用户问题解决率超90%;“AI外呼机器人”通过自研语音技术(TTS)的植入,实现个性化拟人声音服务,人机交流更亲切自然;【思考题】机器是如何实现识别人类说话,将语音转换成文字的?Part01智能语音介绍5.1智能语音技术概况除了语音导航、智能音箱、语音输入法等我们日常生活中的常见应用场景,只要把语音识别理解成“获取人类语言中的信息”,把语音合成理解成“让人类通过声音获取信息”,再把声纹识别、关键词唤醒等理解成可供选择的“功能”,将它们与不同载体、场景结合,就会形成各种各样的产品。5.1.1语音识别语音识别让机器识别人说出的话,即将语音转换成相应的文本内容(见图5-1),然后根据内容信息执行人的某种意图。语音识别又称言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配),相当于给机器装上了“耳朵”。5.1.1语音识别语音识别让机器识别人说出的话,即将语音转换成相应的文本内容(见图5-1),然后根据内容信息执行人的某种意图。语音识别又称言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配),相当于给机器装上了“耳朵”。5.1.1语音识别语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模型库等三个基本单元,它的基本结构如下图所示:5.1.1语音识别声学模型在进行语音识别之前我们要做不少准备工作。先用大量声音数据训练一个声学模型(见图5-3),用来将声音转换为声学符号。我们将要识别的语音按照一定时间间隔切割成彼此重叠、很小很小的段落,再通过声学模型将这些小片段识别成对应的语音状态。这些语音状态是声母、韵母的组成部分,能很好地对语音进行描述。5.1.1语音识别语言模型(LanguageModel,简称LM)是一个用于建模自然语言(即人们日常使用的语言)的概率模型。简单来说,语言模型的任务是评估一个给定的词序列(即一个句子)在真实世界中出现的概率。5.1.2语音合成语音合成(TexttoSpeech,TTS)技术,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴(见图5-6)。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,即让机器像人一样开口说话。5.1.3声纹识别人们可以靠声音判断对方是谁,声音同样可以被用来证明“你是你”.和面容、指纹一样,人类的发声器官千差万别,发出的声音也不尽相同(见图5-10)。人声的这种特质被称为声纹(见图5-11)。5.1.3声纹识别事实上,录制和播放的过程会让声音衰减失真,与真人的声音相差甚远,很容易鉴别。或者干脆从产品设计层面出发,要求用户在规定时间内说出一组随机数字,或者与人脸识别、指纹识别等其他识别手段相结合,从而提升安全性(见图5-15).Part02智能语音技术应用5.2智能语音技术应用除了语音导航、智能音箱、语音输入法等我们日常生活中的常见应用场景,只要把语音识别理解成“获取人类语言中的信息”,把语音合成理解成“让人类通过声音获取信息”,再把声纹识别、关键词唤醒等理解成可供选择的“功能”,将它们与不同载体、场景结合,就会形成各种各样的产品。5.2.1酒店虚拟前台酒店前台工作人员每天都要拨打和接听大量的电话,经常出现接打不及时、处理问题没耐心、影响现场接待和客房周转等问题。基于人工智能技术的酒店虚拟前台可以实现前台电话智能接打,能够自动完成酒店的到店确认、退房确认、咨询和客需服务等工作,可同时接打多人电话,瞬间完成业务处理,实现全程无人化,带来高效智能的前台服务,从而提升前台业务效率,提高客房周转能力,解决人手不足和成本攀升等问题。5.2.2语音质检考虑到复杂业务处理或客户习惯喜好,目前仍配有人工客服接打客户电话,而为了提升客户服务水平,往往需要进行语音质检。传统的质检是采用人工抽检方式,质检覆盖率低且无法准确定位问题工单。人工听录音的质检方式,需要长时间集中精力,听取大量的无效信息,导致成本高,效率低,工作强度大。同时大量未质检的工单中的有效内容如客户诉求信息、服务信息等未能得到充分挖掘利用。而借助智能语音技术可大幅提高质检效率,充分发挥电话数据价值。5.2.3智能音箱酒店场合下的公共设施的操作可以采用语音控制来避免接触。5.2.4智能音箱智能音箱不仅是音箱,还是新一代的人机交互入口。它以蓝牙音箱的形式集播放网络音乐、查询各类信息、语音娱乐互动甚至控制智能家电等功能于一身。Part03智能语音体验5.3.2语音合成国内外不少人工智能头部企业建设了自己的人工智能开放平台,供外部使用。如科大讯飞的讯飞开放平台(见图5-26)、百度的百度AI开放图5-26讯飞开放平台“语音合成”测试界面平台(见图5-27)、阿里云的阿里灵杰平台(见图5-28)等。请大家访问这三家企业的人工智能开放平台,比较三家平台的“语音合成”AI能力实现效果。5.2.3探索与思考(1)在讯飞输入法中说古诗、说文言文、说当下流行语,观察其识别率如何。从声学模型和语言模型角度思考,语音识别准确率与哪些因素相关?(2)在使用讯飞输入法进行语音输入时,距离手机麦克风远近、周围环境安静程度对语音识别率有多大影响?除此,还有哪些外在环境因素会影响识别率?(3)讯飞输入法支持的方言里,有没有你家乡的方言?若增加一种方言,你认为可能要做哪些工作?(4)我们在运用语音合成技术时,除了法律法规之外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国阀盖垫片行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铁和钢行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国金属纳米粒子行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国重组胰蛋白酶EDTA溶液行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国速冻蔬菜行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国运动马达控制器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国轨道开关电源行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国跳跳糖行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国贸易代理行业市场深度调研及竞争格局与发展趋势研究报告
- 2025-2030中国装配式装修行业市场深度调研及竞争格局与投资前景研究报告
- JJF(纺织)064-2013织物防钻绒性试验仪(摩擦法)校准规范
- GB/T 34571-2017轨道交通机车车辆布线规则
- GB/T 11834-2011工农业机械用摩擦片
- 2023年昆明安宁市广播电视台(融媒体中心)招聘笔试模拟试题及答案解析
- 低压配电箱安装使用说明书A
- 药品零售企业许可事项申请表模板
- 经尿道前列腺剜除术讲解
- 食材配送价格表
- 物业公司xx年度收支情况公示模板
- 封条模板A4直接打印版
- 混合痔病历范文
评论
0/150
提交评论