版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、9.1 9.1 语音识别概述语音识别概述9.2 9.2 动态时间规整动态时间规整DTWDTW9.3 9.3 孤立词语音识别孤立词语音识别9.4 9.4 连续语音识别连续语音识别9.1 9.1 语音识别概述语音识别概述一、语音识别的定义一、语音识别的定义 二、语音识别的应用二、语音识别的应用 三、语音识别的类型三、语音识别的类型四、语音识别的方法四、语音识别的方法五、语音识别的主要问题五、语音识别的主要问题一、语音识别的定义一、语音识别的定义 语音识别语音识别是指从语音到文本的转换,即让计算是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通机能够把人发出的有意义的话音变
2、成书面语言。通俗地说就是让机器能够听懂人说的话。俗地说就是让机器能够听懂人说的话。 所谓听懂,有两层意思,一是指把用户所说的所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。包含的要求,作出正确的应答。二、语音识别的应用二、语音识别的应用 语音识别技术是以语音为研究对象,涉及到生理语音识别技术是以语音为研究对象,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸学、心理学、语言学、计算机科学以及信号处理等诸多领域。多领域。 随着语音识别技术的逐渐成熟,语音识别技术开随着语音识别技术的
3、逐渐成熟,语音识别技术开始得到广泛的应用,涉及日常生活的各个方面如电信、始得到广泛的应用,涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业,通过采用语音识金融、新闻、公共事业等各个行业,通过采用语音识别技术,可以极大的简化这些领域的业务流程以及操别技术,可以极大的简化这些领域的业务流程以及操作;提高系统的应用效率。作;提高系统的应用效率。 1. 1.语音识别以语音识别以IBMIBM推出的推出的ViaVoiceViaVoice为代表,国内则为代表,国内则推出推出DuttyDutty + +语音识别系统、天信语音识别系统、世语音识别系统、天信语音识别系统、世音通语音识别系统等。音通语音
4、识别系统等。 2. 2. 数据库检索:对庞大的数据进行繁杂的检索和数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。查询,通过使用语音识别技术,将变得轻松、方便。 3. 3. 特殊的环境所需的语音命令:用语音发出操作特殊的环境所需的语音命令:用语音发出操作指令。指令。语音识别应用实例语音识别应用实例 采用语音识别和语音合成技术,能与客户进行交采用语音识别和语音合成技术,能与客户进行交互式对话,帮助客户找到他们所需要的商品。一个动互式对话,帮助客户找到他们所需要的商品。一个动作传感器可以启动系统,询问顾客作传感器可以启动系统,询问顾客“需要我帮你寻找需要我帮你
5、寻找什么吗?什么吗?”如果顾客回答说如果顾客回答说“我在找面包。系统将会我在找面包。系统将会告诉顾客:告诉顾客:“面包在第面包在第1111过道,就是直接往前第过道,就是直接往前第3 3个个过道,我们今天有过道,我们今天有WHEATIOWHEATIO面包特惠,需要我为您打面包特惠,需要我为您打印一张优惠券吗?印一张优惠券吗?语音识别用于商场导购语音识别用于商场导购三、语音识别的类型三、语音识别的类型1.1.以所要识别的对象来分,有:以所要识别的对象来分,有:(1 1)孤立词识别孤立词识别(字或词间有停顿,用于控制系统)(字或词间有停顿,用于控制系统)(2 2)连接词识别连接词识别(十个数字连接而
6、成的多位数字识别(十个数字连接而成的多位数字识别或由少数指令构成词条的识别,用于数据库查询、电或由少数指令构成词条的识别,用于数据库查询、电话和控制系统)话和控制系统)(3 3)连续语音识别和理解连续语音识别和理解(自然的说话方式)(自然的说话方式)(4 4)会话语音识别会话语音识别(识别出会话语言)(识别出会话语言)2.2.根据识别的词汇量来分,有:根据识别的词汇量来分,有:(1 1)大词汇大词汇(10001000个以上的词汇,如会议系统)个以上的词汇,如会议系统)(2 2)中词汇中词汇(202010001000个词汇,如定票系统)个词汇,如定票系统)(3 3)小词汇小词汇(1 12020个
7、词汇,如语音电话拨号)个词汇,如语音电话拨号)3.3.根据讲话人的范围来分,有:根据讲话人的范围来分,有:(1 1)单个特定人单个特定人(2 2)多讲话人多讲话人(有限的讲话人)(有限的讲话人)(3 3)与讲话者无关与讲话者无关四、语音识别的方法四、语音识别的方法v模板匹配法模板匹配法DTWDTWv随机模型法随机模型法HMMHMMv概率语法分析法概率语法分析法v神经网络方法神经网络方法模板匹配法模板匹配法v将测试语音与模板的参数一一比较将测试语音与模板的参数一一比较特定人、小词汇、孤立特定人、小词汇、孤立词词识别系统识别系统动态规划,动态时间规正动态规划,动态时间规正DTWDTWv判决依据判决
8、依据失真度最小准则失真度最小准则距离最小准则距离最小准则相似度最大准则相似度最大准则v难以实现鲁棒难以实现鲁棒语速,讲话人,噪声语速,讲话人,噪声随机模型法随机模型法v利用利用HMMHMM概率参数来对似然函数进行估计与判决,概率参数来对似然函数进行估计与判决,从而得到识别结果的方法从而得到识别结果的方法v通过通过HMMHMM的状态函数,较好地利用了语言结构的动的状态函数,较好地利用了语言结构的动态特性态特性概率语法分析法概率语法分析法v利用连续语言中的形式语法约束的知识来对似然函利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决数进行估计和判决区别性特征区别性特征 语法规则语法规则
9、知识知识v形式语法形式语法参数方法参数方法概率估计的非参数方法概率估计的非参数方法结合结合v适用于大长度范围的连续语音的识别适用于大长度范围的连续语音的识别1. .对自然语言的识别和理解对自然语言的识别和理解。首先必须将连续的。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理讲话分解为词、音素等单位,其次要建立一个理解语义的规则。解语义的规则。2.2.语音信息量大语音信息量大。语音模式不仅对不同的说话人。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同话人在随意说话和认真说话时的语
10、音信息是不同的。一个人的说话方式随着时间变化。的。一个人的说话方式随着时间变化。五、语音识别的主要问题五、语音识别的主要问题3.3.语音的模糊性语音的模糊性。说话者在讲话时,不同的词可能。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。听起来是相似的。这在英语和汉语中常见。4.4.上下文影响。上下文影响。单个字母或词、字的语音特性受上单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音下文的影响,以致改变了重音、音调、音量和发音速度等。速度等。5.5.环境噪声和干扰环境噪声和干扰对语音识别有严重影响,致使识对语音识别有严重影响,致使识别率低别率低。9.2
11、 9.2 动态时间规整动态时间规整一、动态时间规整的定义一、动态时间规整的定义 二、动态时间规整的原理描述二、动态时间规整的原理描述三、动态时间规整的应用三、动态时间规整的应用一、动态时间规整的定义一、动态时间规整的定义 一次正确的发音应该包含构成该发音的全部音一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。素以及正确的音素连接次序。 其中各音素持续时间的长短与音素本身以及讲其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率,克服发同一音话人的状况有关。为了提高识别率,克服发同一音而发音时间长短的不同,而发音时间长短的不同,采用对输入语音信号进行采用对输入
12、语音信号进行伸长或缩短直到与标准模式的长度一致伸长或缩短直到与标准模式的长度一致。这个过程。这个过程称为称为时间规整时间规整。二、动态时间规整的原理描述二、动态时间规整的原理描述 6060年代由日本学者提出,年代由日本学者提出,算法的思想算法的思想是把未是把未知量伸长或缩短知量伸长或缩短( (压扩压扩) ),直到与参考模板的长度一,直到与参考模板的长度一致,在这一过程中,未知单词的时间轴会产生扭曲致,在这一过程中,未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。或弯折,以便其特征量与标准模式对应。 DTW DTW 是把时间规整和距离测度计算结合起来。测试语是把时间规整和距离测度计
13、算结合起来。测试语音参数共有音参数共有N N帧矢量,而参考模板共有帧矢量,而参考模板共有M M帧矢量,帧矢量,N N和和M M不等,寻找一个时间规整函数不等,寻找一个时间规整函数m= m= ,它将测试矢量,它将测试矢量的时间轴的时间轴n n非线性地映射到模板的时间轴非线性地映射到模板的时间轴m m上,并使该上,并使该函数函数w(nw(n) )满足:满足:原理描述原理描述()1min( ),( ( )NnnDd T nRn第第n n帧测试矢量帧测试矢量T(nT(n) )和第和第m m帧模板矢量帧模板矢量R(mR(m) )之间的距离测度之间的距离测度D:最优时间规整情况下所有矢量帧间的距离,代价函
14、数:最优时间规整情况下所有矢量帧间的距离,代价函数 ( ), ( ( )d T n Rn( )nAB mnmn时间规整函数时间规整函数m= m= 为了使为了使T T(测试)的第(测试)的第n n个样本与个样本与R R(参考)的(参考)的第第m m个样本对正,其对应的点不在直线对角线上,个样本对正,其对应的点不在直线对角线上,得到得到1 1条弯曲的曲线。条弯曲的曲线。m= m= 称为称为规整函数规整函数。( )n( )n 时间规整就是按照两模式之间的时间规整就是按照两模式之间的所有矢量帧间的所有矢量帧间的距离最小距离最小(D,代价函数最小)代价函数最小)的原则,不断计算两模的原则,不断计算两模式
15、间的距离,以寻找最优的路径式间的距离,以寻找最优的路径,一般应使规整函数一般应使规整函数 满足下列条件:规整函数满足下列条件:规整函数 在在A和和B的端点必须的端点必须匹配,有:匹配,有: 起点:起点:n(i)=m(i)=1 终点:终点:n(i)=N m(i)=M 为了防止漫无目的从为了防止漫无目的从(1,1)搜索到搜索到(N,M),因此对两因此对两点之间路径的斜率予以规定,最大为点之间路径的斜率予以规定,最大为2,最小为,最小为1/2。时间规整过程时间规整过程( )n( )nnmMN11(1,1)(1,1)(N,M)(N,M)m-M=(n-N)/2m-M=(n-N)/2m-M=2(n-N)m
16、-M=2(n-N)m=n/2m=n/2m=2nm=2n全局最优全局最优nm(ni-1, mi-1)(ni-1+1, mi-1+1)(ni-1+1, mi-1)(ni-1+1, mi-1+2)(ni, mi) = (ni-1+1, mi-1+2)(ni, mi) =(ni-1+1, mi-1+1)(ni, mi) =(ni-1+1, mi-1)( )iimn(ni, mi)nm(ni-1, mi-1)(ni-1, mi-2)(ni-1, mi) DTW DTW算法的实现算法的实现123t t为测试特征模板,为测试特征模板,r r为参考特征模板为参考特征模板n n为测试特征模板长度(帧数)为测试特
17、征模板长度(帧数)m m为参考特征模板长度(帧数)为参考特征模板长度(帧数)比较两帧的欧式距离比较两帧的欧式距离(i, j) DTW DTW算法的实现算法的实现 DTW DTW的高效算法的高效算法(Xa, y) C(Xb, z) OA,B,CA,B,C三点的坐标如图所示,三点的坐标如图所示,且直线且直线OA,BCOA,BC的斜率的斜率k k1 1=2=2,直,直线线OB,ACOB,AC的斜率的斜率k k2 2=0.5=0.5,所以,所以列写直线列写直线OAOA和和CACA的方程并整的方程并整理可得上式。理可得上式。k k1 1=2=2k k2 2=0.5=0.51,X1,Xa a XXa a+
18、1,X+1,Xb b XXb b+1,N+1,NXaXbNMxy DTW DTW的高效算法的高效算法DTW高效算法程序见高效算法程序见MATLAB扩展编程扩展编程第第347-349页页.三、动态时间规整的应用三、动态时间规整的应用 DTWDTW算法简洁,运算算法简洁,运算量小,适合小型的孤立量小,适合小型的孤立词的识别。例如语音计词的识别。例如语音计数器,语音呼叫电话等。数器,语音呼叫电话等。语音采样和量化语音采样和量化端点检测端点检测LPCLPC倒谱分析倒谱分析DTWDTW的识别算法的识别算法 语音模板语音模板识别结果输出识别结果输出 开始开始9.3 9.3 孤立词语音识别系统孤立词语音识别
19、系统 由于在孤立字(词)识别中,单词之间有停顿,由于在孤立字(词)识别中,单词之间有停顿,可使识别问题简化;单词之间的端点检测比较容易;可使识别问题简化;单词之间的端点检测比较容易;单词之间的协同发音影响较小;一般对孤立单词的发单词之间的协同发音影响较小;一般对孤立单词的发音都比较认真等。所以这种系统存在的问题较少,较音都比较认真等。所以这种系统存在的问题较少,较容易实现。由于此系统本身用途甚广,且其许多技术容易实现。由于此系统本身用途甚广,且其许多技术对其他类型系统有通用性并易于推广,所以稍加补充对其他类型系统有通用性并易于推广,所以稍加补充一些知识即可用于其他类型系统(如在识别部分加用一些
20、知识即可用于其他类型系统(如在识别部分加用适当语法信息等,则可用于连续语音识别中)。适当语法信息等,则可用于连续语音识别中)。 训练孤立词语音识别系统框图孤立词语音识别系统框图特征提取模板(模型)语音结果模式匹配拒识匹配结果基于基于DTWDTW的模式匹配;基于的模式匹配;基于VQVQ的模式匹配;基于的模式匹配;基于HMMHMM的模式的模式匹配;基于匹配;基于SVM SVM 的模式匹配;基于混合技术的模式匹配的模式匹配;基于混合技术的模式匹配识别9.4 9.4 连续语音识别系统连续语音识别系统v在连续语音识别系统中,一段语音信号(例如一个句子)经在连续语音识别系统中,一段语音信号(例如一个句子)
21、经特征提取后,得到一个特征矢量的时间序列特征提取后,得到一个特征矢量的时间序列 ,假,假设该特征矢量序列可能包含的一个词序列为设该特征矢量序列可能包含的一个词序列为 ,那,那么连续语音识别的任务就是找到对应观测矢量序列么连续语音识别的任务就是找到对应观测矢量序列 的最的最可能的词序列可能的词序列 。这个过程如果按照贝叶斯准则就是:。这个过程如果按照贝叶斯准则就是:v在连续语音识别系统中利用语言模型的目的是找出符合句法在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列约束的最佳单词序列,并且减少观测矢量序列 和词序列和词序列 的匹配搜索范围,提高识别效率
22、。的匹配搜索范围,提高识别效率。IaaaA,2112.nWw wwAWWWWPWAPAPWPWAPAWPW)()/(maxarg)()()/()/(maxargAW声学处理语音解码词表匹配语音模型词表语言模型语言解码语音信号音节阵列连续语音识别原理图连续语音识别原理图声学特征词阵列声学模型HMM连续语音识别一般过程连续语音识别一般过程v1. 前向后向算法计算前向后向算法计算P(O|) ;v2. Baum-Welch 算法求出最优解算法求出最优解 *= argmax P(O|);v3. Viterbi算法解出最佳状态转移序列;算法解出最佳状态转移序列;v4. 根据最佳状态序列对应的根据最佳状态序
23、列对应的给出候选音节或声韵母给出候选音节或声韵母v5. 通过语言模型形成词和句子通过语言模型形成词和句子Baum-WelchRe-estimationSpeechdatabaseFeatureExtractionConverged?l l1 1l l2 2l lN NHMMwaveformfeatureYesNoendHMM语音识别训练过程语音识别训练过程MAXMAXRecognizedRecognizedwordwordSpeechSpeech特征提取特征提取似然概率计算似然概率计算l l1 1似然概率计算似然概率计算l lV V. . . .P(X|l l1 1) )P(X|l lV V) )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年零售商铺出租协议样本
- 2024智能制造!智能工厂建设与运营合同
- 2024年金融产品认筹登记服务合同3篇
- 2024年高科技企业员工知识产权归属及使用补充协议3篇
- 中国民用航空飞行学院《兽医微生物学实验》2023-2024学年第一学期期末试卷
- 防汛抢救知识培训课件
- 长治职业技术学院《内科护理学上》2023-2024学年第一学期期末试卷
- 2024年股权让渡协议及合作框架
- 2024年行政效率提升合同3篇
- 重塑团队文化的步骤计划
- 《中国心力衰竭诊断和治疗指南(2024)》解读
- 服装厂生产计划模板
- 高速公路机电工程标准化施工管理质量控制
- 头条号策划方案
- 维护社会稳定规定
- 《牙髓血运重建术》课件
- 山东省济南市历城区2023-2024学年四年级上学期期末数学试卷
- 工程管理培训教案
- 2006年高考数学试卷分析
- (完整版)二年级乘加乘减口算100题
- 函授学生毕业生登记表
评论
0/150
提交评论