语音信号数字处理:13 语音识别 简化_第1页
语音信号数字处理:13 语音识别 简化_第2页
语音信号数字处理:13 语音识别 简化_第3页
语音信号数字处理:13 语音识别 简化_第4页
语音信号数字处理:13 语音识别 简化_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1Speech signal processing语音识别123语音识别基本概念语音识别的应用语音识别的方法2Speech signal processing语音识别(speech recognition)语音识别(Speech Recognition):机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。根本目的是研究出一种具有听觉功能的机器,能直接接受人的语音,理解人的意图,并做出相应的反映。从技术上看,它属于多维模式识别和智能接口的范畴。3语音识别与合成作为一个独立的研究领域已经有近五六十年历史。语音识别作为一个跨学科的技术,是在人们几个世纪以来对语言学、声学、生理学及自

2、动机理论研究的基础上发展而来的。但这些理论实现起来仍然面临着以下困难:不同的说话者有不同的说话方式;在含噪音环境中引入的噪声在很大程度上干扰了原始语音信号;连续语音中音素、音节或单词之间的调音结合引起的音变使基元模型之间的边界不明确;语法语义规则的建立与理解很难;语音信息的变化很大,不同人不同,同一个人也不同;语音的模糊性;单个字母及单个词发音时的语音特性受上下文环境的影响,音量、音调、重音、音速等都可不同;环境噪声和干扰对语音识别有严重影响;语音识别(speech recognition)4Speech signal processing语音识别分类按词汇表(Vocabulary)的大小分

3、小词汇表系统:包括10100个词条 中词汇表系统:包括1001000个词条 大词汇表系统:至少包含1000个以上的词条按照发音方式分 孤立词(Isolated Word )识别 连接词(Connected Word)识别 连续语音(Continuous Speech)识别 语音理解(在识别的基础上用语言学知识推断语音含义)、 会话语音识别(书写语音识别) 5Speech signal processing语音识别分类按说话人的限定范围分 特定人(Speaker Dependent,SD)识别 非特定人(Speaker-Independent ,SI)识别 按照识别方法分 模板匹配方法:DTW

4、概率模型方法:HMM、 ANN 、SVM6语音识别的发展现状从理论到产品走过了50多个春秋;现有很多实际应用系统;有可能成为下一代操作系统和应用程序的用户界面;远没有达到计算机与人类自然交流的终极目标;实用的语音识别技术研究极具市场价值和挑战;重点:大词汇、非特定人、连续语音识别。7汉语语音识别与其他语言没有本质区别;汉语的特点使其识别难度更大。交叉学科:计算机、通信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等8语音打字机(听写机,键盘输入的34倍);电话查询自动应答系统(语音界面);语音命令的控制系统(释放手脚);信息查询(股票、天气、航班)人机界面(新一代操作系统、智能家居)

5、听写机(文字输入、记录)数据库管理(语音检索)说话人识别(安全应用)关键词检出(多媒体数据检索)语音识别应用人机交互:9语音识别方法:模版匹配法特定人、小词汇、孤立人识别系统Dynamic Time Warping随机模型法主流,HMM语音:从一个相对稳定的状态过渡到另一个状态概率语法分析法区别性特征(语法、语义、语用)规则知识基于ANN的方法、基于模糊数学的方法、句法语音识别等10语音识别典型系统IBM ViaVoice 听写机AT&T VRCP系统(自助话务员协助呼叫)NTT ANSER 语音识别银行服务系统SONY AIBO 机器狗11语音识别的性能评价原句:我 们 明 天 去 天 安

6、门识别:我 明后天 去 天 坛 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution正确率: 准确率: 12语音识别技术面临的问题数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系)抗噪性能(背景噪声、信道噪声、干扰)协同发音(Co-articulation)口语现象(重复、顿措、语序颠倒)说话人变异(口音、情绪、年龄)听觉机理(音量、频率、抗噪、区分)13语音识别层次模型14统一层次模型系统设计15语音识别原理模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。识别步骤:学习训练分析语音特征参数,建立模板库

7、;识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;语音识别本质就是模式识别16语音识别系统基本构成17预处理反混叠滤波;模/数转换;自动增益控制;去除声门激励和口腔辐射;正确选择识别单元;18特征提取从波形信号获取一组描述语音信号特征的参数;参数的好坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算量等;对于汉语还存在声调的提取(超音段信息);19距离测度欧氏距离及其变形;对数似然比失真测度;加权超音段信息识别测度;HMM之间的距离测度;主观感知距离测度;20参考模式库声学参数模板(训练

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论