




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Speech signal processing语音识别123语音识别基本概念语音识别的应用语音识别的方法1Speech signal processing语音识别(speech recognition)语音识别(Speech Recognition):机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。根本目的是研究出一种具有听觉功能的机器,能直接接受人的语音,理解人的意图,并做出相应的反映。从技术上看,它属于多维模式识别和智能接口的范畴。2语音识别与合成作为一个独立的研究领域已经有近五六十年历史。语音识别作为一个跨学科的技术,是在人们几个世纪以来对语言学、声学、生理学及自动
2、机理论研究的基础上发展而来的。但这些理论实现起来仍然面临着以下困难:不同的说话者有不同的说话方式;在含噪音环境中引入的噪声在很大程度上干扰了原始语音信号;连续语音中音素、音节或单词之间的调音结合引起的音变使基元模型之间的边界不明确;语法语义规则的建立与理解很难;语音信息的变化很大,不同人不同,同一个人也不同;语音的模糊性;单个字母及单个词发音时的语音特性受上下文环境的影响,音量、音调、重音、音速等都可不同;环境噪声和干扰对语音识别有严重影响;语音识别(speech recognition)3Speech signal processing语音识别分类按词汇表(Vocabulary)的大小分 小
3、词汇表系统:包括10100个词条 中词汇表系统:包括1001000个词条 大词汇表系统:至少包含1000个以上的词条按照发音方式分 孤立词(Isolated Word )识别 连接词(Connected Word)识别 连续语音(Continuous Speech)识别 语音理解(在识别的基础上用语言学知识推断语音含义)、 会话语音识别(书写语音识别) 4Speech signal processing语音识别分类按说话人的限定范围分 特定人(Speaker Dependent,SD)识别 非特定人(Speaker-Independent ,SI)识别 按照识别方法分 模板匹配方法:DTW 概
4、率模型方法:HMM、 ANN 、SVM5语音识别的发展现状从理论到产品走过了50多个春秋;现有很多实际应用系统;有可能成为下一代操作系统和应用程序的用户界面;远没有达到计算机与人类自然交流的终极目标;实用的语音识别技术研究极具市场价值和挑战;重点:大词汇、非特定人、连续语音识别。6汉语语音识别与其他语言没有本质区别;汉语的特点使其识别难度更大。交叉学科:计算机、通信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等7语音打字机(听写机,键盘输入的34倍);电话查询自动应答系统(语音界面);语音命令的控制系统(释放手脚);信息查询(股票、天气、航班)人机界面(新一代操作系统、智能家居)听
5、写机(文字输入、记录)数据库管理(语音检索)说话人识别(安全应用)关键词检出(多媒体数据检索)语音识别应用人机交互:8语音识别方法:模版匹配法特定人、小词汇、孤立人识别系统Dynamic Time Warping随机模型法主流,HMM语音:从一个相对稳定的状态过渡到另一个状态概率语法分析法区别性特征(语法、语义、语用)规则知识基于ANN的方法、基于模糊数学的方法、句法语音识别等9语音识别典型系统IBM ViaVoice 听写机AT&T VRCP系统(自助话务员协助呼叫)NTT ANSER 语音识别银行服务系统SONY AIBO 机器狗10语音识别的性能评价原句:我 们 明 天 去 天 安 门识
6、别:我 明后天 去 天 坛 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution正确率: 准确率: 11语音识别技术面临的问题数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系)抗噪性能(背景噪声、信道噪声、干扰)协同发音(Co-articulation)口语现象(重复、顿措、语序颠倒)说话人变异(口音、情绪、年龄)听觉机理(音量、频率、抗噪、区分)12语音识别层次模型13统一层次模型系统设计14语音识别原理模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。识别步骤:学习训练分析语音特征参数,建立模板库;识
7、别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;语音识别本质就是模式识别15语音识别系统基本构成16预处理反混叠滤波;模/数转换;自动增益控制;去除声门激励和口腔辐射;正确选择识别单元;17特征提取从波形信号获取一组描述语音信号特征的参数;参数的好坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算量等;对于汉语还存在声调的提取(超音段信息);18距离测度欧氏距离及其变形;对数似然比失真测度;加权超音段信息识别测度;HMM之间的距离测度;主观感知距离测度;1
8、9参考模式库声学参数模板(训练聚类得到的)训练与识别方法动态时间规整(DTW)矢量量化(VQ)有限状态矢量量化(FSVQ)HMM时延神经网络(TDNN)模糊逻辑算法等20专家知识库存储各种语言学知识;判决根据各种距离测度选择适当的门限值;检验结果识别率21动态时间规整DTW语音识别模式匹配的问题:时间对准同一个人在不同时刻说同一句话、发同一个音,也不可能具有完全相同的时间长度;语音的持续时间随机改变,相对时长也随机改变;端点检测不准确;方法1:线性时间规整,均匀伸长或缩短依赖于端点检测;仅扩展时间轴无法精确对准;方法2:动态时间规整DTWDynamic Time Warping;60年代Ita
9、kura提出来的;22动态时间规整动态时间规整DTW(dynamic time warping)曾经是语音识别的一种主流方法。其思想是:由于语音信号是一种具有相当大随机性的信号,即使相同说话者对相同的词,每一次发音的结果都是不同的,也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。动态时间规整DTW是一个典型的优化问题,它用满足一定条件的时间规整函数描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。23动态规划基本步骤找出最优解的性质,并刻划其结构特征。递归地定义最优值。以自底向上的方式
10、计算出最优值。根据计算最优值时得到的信息,构造最优解。24Speech signal processing动态规划算法Dynamic time warp 两个不同长度的语音之间对比距离矩阵25Speech signal processing动态规划算法Dynamic time warp 搜索算法26Speech signal processing1 偶然训练法将每个词的每一遍语音形成一个模板。在识别时,待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判断它属于哪一类。这种方法具有很大的偶然性。 这种方法将每个词重复说多遍,直到得到一对一致性较好的特征矢量序列。最终得到的模板是在一致
11、性较好的特征矢量序列对在沿DTW的路径上求平均。 2 顽健模板训练方法 动态规划算法Dynamic time warp 模板训练方法27Speech signal processing3隐马尔可夫模型方法, 连续语音识别28Speech signal processing4大词汇量连续语音识别技术 在句法层 ,每个句子由若干词条组成,每一个词条都选自词汇表。句中的一个要选择的词条以一定的概率出现,而第二个词条选择的概率与前一个词条有关,依此类推,直到句子的结束。 在词层,每一个词条由若干音子串接而成,为此需要一部字典来描述这种串接关系。 在语音层,每一个音子用一个HMM模型及一套参数来表示。
12、29Speech signal processing 声学模型选择-声学单元选择4大词汇量连续语音识别技术以词为基本单元建立模型不合理,造成大量不必要的冗余存储和计算。因此一般采用比词小的子词识别基元,如音节、半音节、音素等 。一般来说,声学单元越小,其数量也就越少,训练模型的工作量也就越小;但另一方面,单元越小,对上下文的敏感性越大,越容易受到前后相邻的影响而产生变异,因此其类型设计和训练样本的采集更困难。30Speech signal processing4大词汇量连续语音识别技术 声学模型选择-声学单元如何组成词在声学语音学层之间有一个词层,在词层中应有一部字典来规定词表中每一个词是用哪
13、些子词单元以何种方式构筑而成的。最简单实用的方案是每个词用若干子词单元串接而成。31Speech signal processing4大词汇量连续语音识别技术每个词的发音可能有多种变化方式,在子词串接时,必须有所体现。 替换:即词中的某个音子可能被用其它相似而略有差异的子词单元所替换 。 插入和删除:词中有时增加了一个不是本词成分的子词单元,有时又将本词成分中的某个子词删除 。 声学模型选择-声学单元如何组成词32Speech signal processing4大词汇量连续语音识别技术基于子词单元的HMM训练子词单元的HMM一般采用从左到右的结构,状态数固定为2到4个。 在语音段中,子词太短
14、,无法精确标出语音的边界。训练时,用一种很粗糙的方法进行初始分段,例如等长分段,形成初始模型 。已知句子内容,因此可将子词模型串接成句子,然后用分段K均值算法多次迭代 ,对各子词模型进行重估。最终会自动收敛于一个最佳模型估计,同时达到合理的子词分段。 33Speech signal processing4大词汇量连续语音识别技术语言模型众所周知,从一个词表中任意选择若干词所构成的序列不一定能构成自然语言中的句子,只有合乎句法者才能算是句子。这种约束,在语音识别中可以利用语言模型来实现。语言模型分为基于文法的语言模型和基于统计的语言模型。在大词汇量的语音识别系统中,统计语言模型由于可以克服文法规则方法难以处理真实文本的局限性,因而获得了越来越广泛的应用。34Speech signal processing4大词汇量连续语音识别技术 统计语言模型的基本原理是,采用大量的文本资料,统计各个词的出现概率以及其相互关联的条件概率,并将这些知识与声学模型匹配相结合进行结果判决,以减小由于声学模型不够合理而产生的误识。语言模型35Speech signal processing4大词汇量连续语音识别技术语言模型N元文法模型 :条件概率计算时,只考虑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统规划与管理师考试中的批判思维训练与应用试题及答案
- 卫生管理考试复习试题及答案
- 结合实际的西医临床复习技巧试题及答案
- 部编六年级语文下学期期中知识点归纳复习加深练习题
- 2025甘肃省建筑安全员知识题库附答案
- 2025-2030妇幼保健食品行业发展分析及发展趋势与投资前景预测研究报告
- 2025-2030塑料紧固系统行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030国际快递行业市场发展分析及发展前景与投资机会研究报告
- 2025-2030国内机油行业市场发展分析及竞争格局与投资机会研究报告
- 2025-2030喷涂泡沫行业市场现状供需分析及投资评估规划分析研究报告
- ISO9001-2015质量手册和全套程序文件
- 申请结婚报告表实用文档
- 纪念五四运动100周年知识竞赛试题题库与答案
- YY/T 1492-2016心肺转流系统表面涂层产品通用要求
- YS/T 1028.3-2015磷酸铁锂化学分析方法第3部分:磷量的测定磷钼酸喹啉称量法
- JJF 1104-2003国家计量检定系统表编写规则
- GB/T 17891-1999优质稻谷
- 《兰亭集序》《归去来兮辞》对比阅读课件(教材精研+情境任务)统编版高中语文选择性必修下册
- 农贸市场计量管理制度(3篇)
- 拼音bpmfdtnl课件教学课件最新
- 一级建造师《港口与航道工程管理与实务》课件专业工程技术
评论
0/150
提交评论