语音信号处理 第4版 课件 第7章:语音识别_第1页
语音信号处理 第4版 课件 第7章:语音识别_第2页
语音信号处理 第4版 课件 第7章:语音识别_第3页
语音信号处理 第4版 课件 第7章:语音识别_第4页
语音信号处理 第4版 课件 第7章:语音识别_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学

通信与信息工程学院

第7章语音识别孤立字(词)识别系统连续语音识别系统4语音识别原理和识别系统的组成语音识别系统的性能评测7.1语音识别原理和识别系统的组成—概述语音识别:主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。步骤:(1)系统“学习”或“训练”阶段,该阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。(2)“识别”或“测试”阶段,根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。语音识别系统:建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。

7.1语音识别原理和识别系统的组成—概述一般语音识别系统框图7.1语音识别原理和识别系统的组成—预处理和参数分析语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模/数转换、去除声门激励及口唇辐射的影响等(这些内容已在前面章节中介绍过,这里仅对个别需要注意的地方做一些介绍)(1)传声器自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大,因此,对传声器的耐噪声性能要求很高。但是,传声器的性能差异很大,因此选择好的传声器,不仅能提高输入语音质量,还有助于提高整个系统的鲁棒性。同时,不同种类的传声器以及前端设备的声学特性是不同的,这会使输入语音产生变化。因此,为了保持识别性能稳定,必须具备对传声器以及前端设备性能的测定以及根据测试结果对输入语音的变形进行校正的功能。为了保持高精度的语音分析,A/D转换的电平必须正确设定。同时还要通过自动增益控制来自动调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。7.1语音识别原理和识别系统的组成—预处理和参数分析(2)抗噪声

环境噪声虽然可以通过高性能传声器的抗噪声特性加以抑制,但是不可能完全消除。特别是对于手自由的语音识别,传声器与嘴有一定距离的时候,以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。这种噪声可以是平稳噪声也可以是非平稳噪声,可以是来自环境等的加性噪声也可以是由输入和传输电路系统引起的乘法性噪声。对于平稳噪声,传统的谱相减降噪声技术是有效的,对于非平稳噪声也有通过两个传声器分别输入语音和噪声相互抵消加以消除的方法。(3)语音区间的端点检测

端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点,相关内容在前面章节已经有所说明。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。7.1语音识别原理和识别系统的组成—预处理和参数分析(4)语音参数分析经过预处理后的语音信号,就要对其进行特征参数分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。

识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。此外,Mel倒谱参数也是常用的语音识别特征参数。一般这些参数都是用10~15维的特征矢量的时间序列来表示。除了这些静态参数以外,上述参数的时间变化反映了语音特征的动态特性,作为动态参数也常常被用于语音识别当中。

提取的语音特征参数有时还要进行进一步的变换处理,如正交变换、主元素分析、最大可分性变换等,以达到进一步的压缩处理和模式可分性变换,节省模式存储容量和识别运算量,提高识别性能的目的。识别参数的选择也与正识率及复杂度的矛盾有关。因为在通常情况下,参数中包含的信息越多,则分析或提取的复杂度也越大。7.1语音识别原理和识别系统的组成—预处理和参数分析(4)语音参数分析经过预处理后的语音信号,就要对其进行特征参数分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。

识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。此外,Mel倒谱参数也是常用的语音识别特征参数。一般这些参数都是用10~15维的特征矢量的时间序列来表示。除了这些静态参数以外,上述参数的时间变化反映了语音特征的动态特性,作为动态参数也常常被用于语音识别当中。

提取的语音特征参数有时还要进行进一步的变换处理,如正交变换、主元素分析、最大可分性变换等,以达到进一步的压缩处理和模式可分性变换,节省模式存储容量和识别运算量,提高识别性能的目的。识别参数的选择也与正识率及复杂度的矛盾有关。因为在通常情况下,参数中包含的信息越多,则分析或提取的复杂度也越大。7.1语音识别原理和识别系统的组成—语音识别系统构成语音识别模块的定义:是语音识别系统的核心部分,其除了包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面等。(1)语音模型

语音模型一般指的是用于参数匹配的声学模型。而语言模型一般是指在匹配搜索时用于字词和路径约束的语言规则。语音声学模型的好坏对语音识别的性能影响很大,现在公认的较好的概率统计模型是HMM模型。因为HMM可以吸收环境和话者引起的特征参数的变动,实现非特定人的语音识别。(2)连续语音的自动分段

连续语音的自动分段,是指从语音信号流中自动地分割出识别基元。它用数字处理技术来找出语音信号中的各种段落(如:音素、音节词素、词等)的始点和终点的位置。把连续的语音信号分成对应于各音的区间叫作分割,分割的结果产生的区间叫作分割区间,给分割区间赋予表示音种的符号叫作符号化。7.1语音识别原理和识别系统的组成—语音识别系统构成(3)语音识别方法当今语音识别技术的主流算法,主要有基于参数模型的隐马尔可夫模型(HMM)的方法和基于非参数模型的矢量量化(VQ)的方法。另外,基于人工神经网络(ANN)的语音识别方法,也得到了很好的应用。此外,还可使用混合方法,如ANN/HMM法、VQ/HMM法等。传统的基于动态时间规整的算法(DTW),在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。(4)计算量和存储量的削减

对于在有限的硬件和软件资源下动作的语音识别系统,降低识别处理的计算量和存储量非常重要。当用HMM作为识别模型时,特征矢量的输出概率计算以及输入语音和语音模型的匹配搜索将占用很大的时间和空间。为了减少计算量和存储量,可以进行语音或者标准模式的矢量量化和聚类运算分析,利用代表语音特征的中心值进行匹配。7.1语音识别原理和识别系统的组成—语音识别系统构成(5)拒识别处理

由于用户发音的错误,可能出现系统词汇表以外的单词或者句子,同时,在噪声环境下由噪声引起的语音区间检测错误也可能产生许多误识别的结果。所以在实际语音识别系统中,对信赖度低的识别结果的拒绝处理也是一个很重要的课题。可以考虑利用音节识别得到的得分补偿的方式进行拒识别处理,在这种方式中,利用在不限定识别对象的条件下求得的参考得分来补偿的识别结果,并用补偿过的识别得分进行拒识别判定。

(6)识别结果确认,候补选择为了避免由于误识别而产生的误动作,可以让用户对识别结果进行确定,或者给用户提供多个识别结果候选,让用户自己选择正确的结果。(7)用户设定

一台识别系统如果可被多个用户使用,那么系统必须具有记忆和选择每个用户特定模型的功能。同时,每个用户可以随时在自己的词典里增加或删减单词的功能,以及系统根据一定的特征信息自动进行不同用户间的识别程序的切换功能。孤立字(词)识别系统连续语音识别系统4语音识别原理和识别系统的组成语音识别系统的性能评测7.2孤立字(词)识别系统孤立字(词)识别系统定义:顾名思义是识别孤立发音的字或词。由于在孤立字(词)识别中,单词之间有停顿,可使识别问题简化;单词之间的端点检测比较容易;单词之间的协同发音影响较小;一般对孤立单词的发音都比较认真等。所以这种系统存在的问题较少,较容易实现。7.2孤立字(词)识别系统—基于改进的二次分类函数的汉语塞音语音识别系统

7.2孤立字(词)识别系统—基于改进的二次分类函数的汉语塞音语音识别系统当输入待识别语音可以用矢量的时间序列表示时,可表示为如果

较大的话,则计算较复杂,所以有必要寻找一种近似方法来进行。最简单的方法是把所有的Xi看成相互独立的情况,这时则有上述方法的近似只是把特征发生的事实作为问题来考虑,关于它的时间顺序信息没有被用到。要改进这种缺点,有一种方法就是利用一阶或者二阶的马尔可夫链。为简化问题,令下列写法成立则有7.2孤立字(词)识别系统—基于改进的二次分类函数的汉语塞音语音识别系统在基于Bayes判别准则的语音识别法中,二次判别函法(QDF)和修正型二次判别函数(MQDF)是经常被使用的方法。QDF:MQDF:7.2孤立字(词)识别系统—基于动态时间规整的孤立字(词)识别系统DTW定义:是把时间规整和距离测度计算结合起来的一种非线性规整技术。动态时间规整示意图设测试语音参数共有I帧矢量,而参考模板共有J帧矢量,且I≠J,则动态时间规整就是要寻找一个时间归整函数j=ω(i),它将测试矢量的时间轴i非线性地映射到模板的时间轴j上,并使该函数ω满足:由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。7.2孤立字(词)识别系统—基于概率尺度识别方法的孤立字(词)识别系统传统的DP方法只能适用于特定人的语音识别系统。为了使基于DP的语音识别装置也能适用于非特定人的语音识别,可以利用概率尺度的DP进行识别的方法。例如对于下图所示的非对称型DP路径,具有概率尺度的DP方法的递推公式可以用下面式子来表示。上述的概率尺度DP方法,实际上相当于把语音样本的每一帧看作一个模型状态的连续状态HMM。因为如果参考样本是则其特征矢量的时间序列是一个马尔可夫过程,如果把每一个特征矢量看作马尔可夫过程的一个状态,同时把输入信号看作观察时间序列并应用Viterb算法,则HMM法和概率尺度DP方法具有同一关系式。由于连续状态HMM能较好地描述语音特征矢量的帧间相关信息,改善HMM的动态特性,可望得到较好的识别性能。7.2孤立字(词)识别系统—基于概率尺度识别方法的孤立字(词)识别系统7.2孤立字(词)识别系统—基于概率尺度识别方法的孤立字(词)识别系统(1)条件概率的确定假定在状态j观测到的Xi是符合(μj,Σj)的高斯分布,则条件概率由下式给定:(2)状态转移概率的确定为了计算状态转移概率,各个学习数据和核心样本进行DP匹配时,计下各时刻选择的路径情况,学习完毕后,假定在时刻j三个路径被选择的总数分别是,则此时的三个状态转移概率可由下式给定:(3)识别方法识别时对于输入语音信号序列,利用DP方法的递推公式和各个模型进行DP匹配。给出最高得分的模型所对应的类别即为识别结果。7.2孤立字(词)识别系统—基于隐马尔可夫模型的孤立字(词)识别系统利用HMM进行孤立字(词)语音识别时,主要分为两个阶段:训练阶段和识别阶段。

假设总共有G个待识别的孤立字(词),在训练阶段,对于每一个孤立字(词)g,将经过预处理和特征提取步骤之后得到的语音信号的特征矢量序列的集合作为观察值序列O(g),利用第3章介绍的HMM的基本算法———Baum-Welch算法估计出与当前孤立字(词)对应的HMM的参数在识别阶段,对于任一待识别的语音,首先将其进行预处理和特征提取,得到对应的特征矢量序列(如果选用的是离散型的HMM,则需要进行矢量量化。然后利用HMM的基本算法———前向-后向算法计算该特征矢量序列在训练好的每个孤立字(词)HMM上的输出概率,把输出概率最大的HMM所对应的孤立字(词)作为识别结果。7.2孤立字(词)识别系统—基于隐马尔可夫模型的孤立字(词)识别系统基于离散型HMM的孤立字(词)识别孤立字(词)识别系统连续语音识别系统4语音识别原理和识别系统的组成语音识别系统的性能评测在连续语音识别系统中,一段语音信号(例如一个句子)经特征提取后,得到一个特征矢量的时间序列,假设该特征矢量序列可能包含的一个词序列为,那么连续语音识别的任务就是找到对应观测矢量序列A的最可能的词序列

。这个过程如果按照贝叶斯准则就是

在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列A和词序列W的匹配搜索范围,提高识别效率。7.3

连续语音识别系统7.3

连续语音识别系统在连续语音识别方法中,较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音-语言处理的统合。当然,这样实现起来就复杂得多,一般采用的方法是把声学模型和语言模型结合在一个有限状态自动机的框架里进行处理。一般来说,一个连续语音识别系统主要由特征参数分析部、语音识别部、句法分析和单词预测部等三大部分组成。在特征参数分析部,求取输入语音信号的识别用特征参数。在语音识别部,根据文法分析部提供的被预测单词,按照文法字典(词汇表)由基元模型自动组成单词的标准模型(因为句法分析的单位是单词)。然后利用DP算法、LevelBuilding算法或OnePassDP法等和单词的标准模型同步地和输入语音进行单词的识别匹配,并进一步利用搜索方法,由单词模型的连接求得最佳单词序列。在句法分析部,采用语言模型来描述待识别语句的句法构造,并利用句法分析器来进行句法分析和预测单词。孤立字(词)识别系统连续语音识别系统4语音识别原理和识别系统的组成语音识别系统的性能评测7.4语音识别系统的性能评测—性能评测指标语音识别系统的评价研究就是要研究一套公认的评价标准和科学合理的评测方法,来衡量、评定不同识别系统和不同处理方法之间的优劣,预测在不同使用条件下的系统性能。1.系统识别率指标连续语音识别系统中一般采用音素、音节或单词的识别率来评测系统性能。这时除了有正确率的指标,错误率中还必须考虑置换率、插入率和脱落率各占多少。一般常用的系统指标有如下所示的、错误率和识别精度:7.4语音识别系统的性能评测—性能评测指标2.任务复杂性度指标表示在语言模型规定下的系统识别任务复杂性的测度主要有系统静态分支度FS和平均输出数FA、系统识别任务的和识别单位的分支度等。(1)系统静态分支度和平均输出设语言L是由有限状态自动机描述的。π(j)是状态j的出现概率、n(j)表示在状态j输出的识别单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论