人工智能基础与应用(第2版)(微课版)课件 7-1 语音识别_第1页
人工智能基础与应用(第2版)(微课版)课件 7-1 语音识别_第2页
人工智能基础与应用(第2版)(微课版)课件 7-1 语音识别_第3页
人工智能基础与应用(第2版)(微课版)课件 7-1 语音识别_第4页
人工智能基础与应用(第2版)(微课版)课件 7-1 语音识别_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7-1语音识别模块❼语音识别:让机器对你言听计从目录CONTENTS语音识别简史01语音识别过程02一.语音识别简史1.技术发展简史一.语音识别简史1.典型语音识别产品现有的语音识别部分产品二.语音识别过程1.语音识别技术涉及技术信号处理模式识别概率论发声机理听觉机理人工智能…众所周知,机器只能处理数字信号,不能直接处理人的语音信号。另外,人在说话的时候,语速有快有慢,每个人的声音、语调也不相同,且说话时周围可能有噪声。此外,即便字词发音相同(如“拟定”“你定”),但表达的意思还要结合语境和上下文来进一步确定。还有,机器要进行预学习,以了解人类在语言交流中要用到哪些语料库等。困难重重…二.语音识别过程2.识别过程语音识别过程二.语音识别过程2.语音识别关键要素(1)语音信号处理将语音转化为在时间上离散的数字信号采样后的时域数字波形二.语音识别过程2.语音识别关键要素(2)特征提取二.语音识别过程2.语音识别关键要素特征提取:①预加重增大高频部分的幅度。一般使用一阶滤波器来实现预加重二.语音识别过程2.语音识别关键要素特征提取:②分帧信号中的频率会随时间变化,一些信号处理算法(如傅里叶变换)通常希望信号是稳定的,也就是说对整个信号进行处理是没有意义的,因为信号的频率轮廓会随着时间的推移而丢失。为了避免这种情况,就需要对信号进行分帧处理,以保证短时的信号是稳定的。③加窗和快速傅里叶转换在分帧之后,通常需要对每帧的信号进行加窗处理,目的是让帧两端平滑地衰减,这样可以降低后续傅里叶变换后一些小束波的强度,取得更高质量的频谱。二.语音识别过程2.语音识别关键要素语音识别5关键要素:④提取特征在语音能量谱上应用Mel滤波器组就能提取到FBank(FilterBank)特征。所谓Mel刻度,是一个能模拟人耳接收声音的规律的刻度。各帧FBank特征值频谱图二.语音识别过程2.语音识别关键要素声学模型用于建立声学特征与建模单元之间的映射关系,即它能利用语音的声学特征把一系列语音帧转换成若干音素。基于该模型,利用大量的语音特征向量以及它们对应的音素,可以训练从特征向量到音素的分类器,从而在识别阶段能计算每一帧的特征向量到相应音素的声学得分(概率),简而言之,实现特征到字符的生成。(3)声学模型二.语音识别过程2.语音识别关键要素语言模型就是用来计算一个句子的概率的模型。它利用语言表达的特点,将音素转换成文字,组成意义明确的语句。简言之,根据声学模型输出的结果,给出最大概率的文字序列。(4)语言模型二.语音识别过程2.语音识别关键要素解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径,尽快将语音转换成文本。解码时需要用到声学得分和语言得分,声学得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论