人工智能技术导论 课件 04 智能语音技术及应用_第1页
人工智能技术导论 课件 04 智能语音技术及应用_第2页
人工智能技术导论 课件 04 智能语音技术及应用_第3页
人工智能技术导论 课件 04 智能语音技术及应用_第4页
人工智能技术导论 课件 04 智能语音技术及应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能语音技术及应用第4章

4.1智能语音技术简介智能语音技术是实现人机语言通信的一种技术,包括语音识别和语音合成。语音识别技术是将声音转化成文字的一种技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR)。语音合成(TexttoSpeech,TTS)技术让计算机像人类一样说话,将文本序列转换为语音信号的技术。

4.2.1语音识别技术分类以说话方式为标准,分为孤立词语音识别、连接字语音识别、连续语音识别三类。根据对特定说话人的依赖程度,分为特定说话人语音识别、非

特定说话人语音识别两类。根据模型所使用的词汇量大小,语音识别可分为有限词汇语音识别和无限词汇量语音识别两类。

4.2.2语音识别发展历程第一阶段,起步阶段,以识别孤立词的发音为主要研究内容。第二阶段,快速发展期,语音识别系统的功能从简单的特定人识别发展到非特定人的识别,从小词汇量孤立词识別发展到大词汇量连续词识别,识别准确率显著提升,性能日趋走向成熟。第三阶段,成熟及广泛应用阶段。伴随着大数据时代的到来以及深度学习的快速发展,大词汇语音识别的性能快速发展。IBM的Shoebox系统

4.2.3语音识别系统构成(1)左边自上而下代表语音的生成过程,右边自下而上显示了语音的识别过程。说话人和收听人的沟通要基于共同的词汇语义库和语音发音规则,而语音识别等效为将语义的相关信息从语音信号中“解调”的过程。语音通信流程

4.2.3语音识别系统构成(2)语音系统的层次模型

4.2.3语音识别系统构成(3)语音识别系统框图

4.2.3语音识别预处理技术采样和滤波

自然采集的语音信号往往存在多种噪声和干扰信号,会影响识别的结果,所以在语音识别的开始阶段必须进行滤波。分帧和加窗

语音信号的研究过程中,往往是建立在“短时”分析的基础上,即把语音信号分成很小的时间段(一般为10~30ms),每一小段称为一帧,把语音信号分成若干帧的过程就称为分帧。梅尔图谱声谱图可以更直观地不同声音事件的能量的时频域分布明显不同,所以可以通过声谱图特征进行语音识别。

4.2.5语音识别方法隐马尔科夫模型BP神经网络BRNN模型

4.3.1语音合成技术分类根据声音产生的不同层次,可以分为:从文本序列转换到语音、从概念转换到语音、从意向转换到语音三类。以数字信号处理的方法不同,可成分为基于规则、基于数据、基于统计、基于深度学习的方法。

4.3.2语音合成发展历程语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。谷歌公司于2017年提出的Tacotron模型

4.3.3语音合成系统构成传统的语音合成系统由文本分析和波形生成两大模块组成,也称为前端模块和后端模块。语音合成系统框图

4.3.4语音合成方法波形拼接的语音合成方法

4.4智能语音编程案例pyttsx3是一个Python文本到语音转换库,它可以将文字转换为语音并播放出来。它支持多种平台和多种合成引擎。pyttsx3库简单易用,是小白的好选择。通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论