




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ARMA模型在语音信号线性预测分析中的应用摘要:语音信号是一种典型的非平稳随机信号,对语音做分帧处理后可以将其看作准平稳随机信号,从而使用处理平稳随机信号的方法进行处理。由于语音信号的产生可以用一个有理函数式来表达,因此可以用ARMA模型来对语音信号进行建模分析。本文介绍了用于随机时间序列的ARMA模型,线性预测分析的原理及方法,分析了ARMA模型中的AR模型在语音线性预测分析中的应用,阐述了在线性预测分析中AR模型参数求解的具体方法以及影响因素。关键词:ARMA模型,AR模型,线性预测分析,语音信号,随机信号,随机时间序列引言语音信号是一种随机信号,其特性及表征本质特征的参数均是随时间而变化
2、的,是一种非平稳随机过程,所以语音信号的数学模型中的参数应该是随时间而变化的。虽然语音信号具有时变特性,但是它的特性随时间变化是很缓慢的在一个短时间范围内(一般为1030ms),其特性基本保持不变,即短时平稳性。所以可以做出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段内认为语音信号特性是不随时间变化的平稳随机过程,然后应用平稳随机过程的方法来处理语音信号。将语音信号分为一帧一帧来分析其特征参数(帧长取为1030ms),这样对于整体的语音信号而言,分析出的是由每一帧特征参数组成的特征参数随机时间序列。因为语音信号是一种随机过程,所以在语音信号处理的很多方面可以应用随机模型分析
3、法对语音信号进行处理分析。ARMA模型是常用的拟合随机时间序列的模型,语音信号的线性预测分析(LPC)就是ARMA模型在语音信号处理中的一种具体应用。下文首先阐述ARMA模型,然后介绍它在语音信号线性预测分析中的应用方法。1. ARMA模型ARMA模型全称自回归滑动平均模型(Auto Regressive Moving Average Model),是研究平稳随机过程有理谱的典型方法,适用于很大一类实际问题。ARMA模型频谱分辨率高,已成为随机信号和现代谱分析中的一种重要的参数模型。ARMA模型由博克斯(Box)和詹金斯(Jenkins)创立,也称B-J方法,其基本思想是:某些时间序列是依赖于
4、时间的一组时间变量,构成该时序的单个序列值虽然具有不确定性,但整个序列的变化确有一定的规律性,可以用相应的数学模型近似描述。通过对该数学模型的分析和研究,能够更本质地认识时间序列的结构和特征,达到最小均方误差意义下的最优预测。实际应用中所遇到的很多随机过程可以用有理传输函数模型很好地逼近,如图所示,输入激励是均值为0、方差为的白噪声序列,系统的传输函数为:。式中,是前馈(动平均)支路的系数,称为MA系数;是反馈(自回归)支路的系数,称为AR系数。系统的输出序列是被建模的离散随机信号。该模型的输出和输入之间满足差分方程:,设。输出功率谱和输入功率谱存在以下关系: 。 ARMA模型可以细分为以下三
5、种:AR模型、MA 模型和ARMA模型三类。因为的值仅与系统的增益有关,所以可以归结到中去,不失一般性,可令。下面具体讨论这三种模型。(一) AR模型(Auto Regression Model):如果除外其它的MA系数都等于零,则,这种模型称为p阶自回归模型或简称为模型,其传输函数为,模型的输出功率谱密度为,这是一个全极点模型。在模型中,系统的输出仅与白噪声序列的当前值和的p个过去值有关。(二) MA模型(Moving Average Model):如果除外其它的AR系数都等于零,则,这种模型称为q阶滑动平均模型或简称为模型,其传输函数为,模型的输出功率谱为,这是一个全零点模型。在模型中,系
6、统的输出仅与白噪声序列的当前值和的q个过去值有关。(三) ARMA模型:设,其它的和不全为零,则,这种模型称为自回归滑动平均模型或简称为,这是一个零极点模型。AR模型和MA模型是ARMA模型的特例,模型是由模型经过q=0退化而来,模型是由模型经过p=0退化而来。Wold分解定理阐明了上述三种模型之间的联系。该定理认为:任何广义平稳随机过程都可以分解为一个完全随机的部分和一个确定的部分。确定性随机过程是一个可以根据其过去的无限个采样值完全加以预测的随机过程。例如,一个由纯正弦信号(具有随机相位以保证广义平稳)和白噪声组成的随机过程,可以分解为一个纯随机成分(白噪声)和一个确定性成分(正弦信号)。
7、或者可以把这种分解看成是把功率谱分解为一个表示白噪声的连续成分和一个表示正弦信号的离散成分(具有冲击信号的形式)。Wold分解定理的一个推论是:如果功率谱完全是连续的,那么任何的或过程都能用无限阶的(p为无穷大)过程表示;同样,任何的或过程都能用无限阶的(q为无穷大)过程表示。这个定理很重要,因为如果选择了一个不合适的模型,只要模型的阶足够高,它任然能够比较好地逼近被建模的随机过程。估计ARMA或MA模型参数一般需要解一组非线性方程,而估计AR模型参数通常只需要解一组线性方程组,因此AR模型的应用更广泛。如果被估计过程是P阶自回归过程,那么用模型即能够很精确地模拟它;如果被估计过程是ARMA或
8、MA过程,或者是高于p阶的AR过程,那么用模型作为它们的模型时,虽然不可能很精确,但却可以尽可能地逼近之,关键是要选择足够高的阶。2. 线性预测的基本原理线性预测分析是语音处理中的核心技术,它在语音识别、合成、编码、说话人识别等方面都得到了成功的应用。由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。这种线性预测分析最早应用在语音编码中,因此也常被称为LPC(Linear Prediction Coding)。线性预
9、测的数学表达如下:用过去p个样点值来预测现在或未来的样点值,预测误差,这样就可通过在某个准则下使预测误差达到最小值的方法来决定惟一的一组线性预测系数。下面将线性预测分析和语音信号的数学模型联系起来。根据人的发声器官的特点和语音产生的机理,可以将语音生成系统分成3个部分,在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道,是“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”;语音信号的数学模型如图所示,由准周期脉冲(在浊音语音期间)或白噪声(在清音语音期间)激励一个线性时不变系统(声道)所产生的输出作为语音的模型。这里,系统的输入是语音激
10、励,是输出语音。模型的系统函数可以写成有理分式的形式,式中,系数、及增益因子G是模型的参数。显然,这是一个ARMA模型,p、q是选定的模型的阶数。当同时含有零点和极点,此时系统模型即为自回归滑动平均模型,是一种一般的模型;当上式中的分子多项式为常数,即,为全极点模型,此时模型的输出只取决于过去的信号值,模型成为自回归模型;如果上式中分母多项式为1,即,为全零点模型,此时的系统模型成为滑动平均模型,模型的输出只由模型的输入来决定。实际上语音信号处理中最常用的是全极点模型,这是因为:(1)如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型;对于鼻音和摩擦音,细致的声学理论表明,其声道
11、传递函数既有零点也有极点,但这时如果模型的阶数p足够高,可以用全极点模型来近似表示零极点模型,即。(2)对全极点模型做参数估计是对线性方程的求解过程,而若模型中含有有限个零点,则是解非线性方程组,实现起来非常困难。采用全极点模型,辐射、声道以及声门激励的组合谱效应的传输函数为,式中,p是预测器阶数,是预测器系数, G是声道滤波器增益,用于控制系统输出序列的幅度大小。由此,语音信号的抽样序列和激励信号序列之间的关系可用差分方程来表示:,即语音样点间有相关性,可以用过去的样点值预测未来样点值。对于浊音,激励是以基音周期重复的单位冲激,对于清音,是稳衡白噪声。 在信号分析中,模型的建立实际上是由信号
12、来估计模型参数的过程。因为信号是实际客观存在的,用模型表示它不可能是完全精确的,总是存在误差。且预测阶数p无法事先确定,可能选的过大或者过小,况且信号是时变的。因此求解模型参数的过程是一个逼近过程。根据前面介绍的ARMA模型的基本原理可知,当预测阶数p(即的阶p)足够高时,模型就能够很好地逼近被建模的语音信号。 在模型参数估计程中,把如下系统称为线性预测器:。式中称为线性预测系数。从而,p阶线性预测器的系统函数为,预测误差为。线性预测分析要解决的问题是:给定语音序列(鉴于语音信号的时变特性,LPC分析必须按帧进行),使预测误差在某个准则下最小,求预测系数的最佳估值,这个准则通常采用最小均方误差
13、准则。这样,将参数解卷问题归结为估计预测器阶数p和各个系数的过程。如果s(n)是由全极点模型产生的话,那么最佳预测阶数p、最佳预测系数等于该全极点模型的参数。如果模型阶数是已知的,那么可以设置预测阶数p,进一步计算使均方预测误差达到最小时的一组预测系数,就可求出模型参数。如果模型阶数不确定,可以观察均方最小预测误差随p的变化规律,从而确定阶数。在确定了阶数p以后,下面具体推导线性预测方程。把某一帧内的短时平均预测误差定义为。显然,越接近于零,线性预测的准确度在均方误差最小的意义上为最佳。为使最小,对 求偏导,并令其为0,有。上式表明采用最佳预测系数时,预测误差与过去的语音样本点正交。由于语音信
14、号的短时平稳性,要分帧处理(10-30ms),对于一帧从n时刻开窗选取的N个样点的语音段,记为,则有:所以。显然,如果能找到一种有效的方法求解这组包含p个未知数的p个方程,就可以得到在语音段上使均方预测误差为最小的预测系数。为求解这组方程,必须首先计算出,一旦求出这些数值即可按上式求出预测系数。因此从原理上看,线性预测分析是非常直观的。然而,的计算及方程组的求解都是十分复杂的,因此必须选择适当的算法。另外,最小均方预测误差为,再考虑及,可得。由此可见,最小预测误差由一个固定分量和一个依赖于预测器系数的分量组成。3. 线性预测方程组的求解在LPC分析中,对线性预测方程组的求解,有自相关法和协方差
15、法两种经典解法,另外还有效率较高的格型法等。下文着重介绍自相关法。设从n时刻开窗选取N个样点的语音段 ,即只用语音样本点分析该帧的预测系数。对于语音段,它的自相关函数为。自相关函数是偶函数,且的大小只与 有关。因此,可以定义为。结合可得: 。把上式展开写成矩阵形式:这个方程叫做Yule-Walker方程,方程左边的矩阵称为托普利兹(Toeplitz)矩阵,它是以主对角线对称的,而且其沿着主对角线平行方向的各轴向的元素值都相等。这种Yule-Walker方程可用莱文逊-杜宾(LevinsonDurbin)递推算法来高效地求解。下面利用Durbin快速递推算法求解上述方程组。如果把上面的矩阵形式简
16、写为,求解就是对自相关矩阵求逆。一般Toeplitz矩阵是非奇异矩阵,它的逆矩阵存在,则,其中上标p代表阶数,中的i代表p阶全极点模型系数标号。这样,对于p+1阶模型参数的估值,则有,其中, 是列矢量的倒置,是列矢量的转置。由此可得:将上式分为上下两部分运算,相应的运算式为:,令,则上两式为:。由于是托普利兹矩阵,从可以导出,相应下面两式成立:将两边乘以,得到: (a)将上式代入和,得到,将其代入,解出: (b) (c)上面(a)、(b)、(c)三式是从递推出的递推公式。式(c)的分母等于,它等于p阶最佳线性预测反滤波余数能量。与的递推关系为。归纳起来:因此,Durbin算法从零阶预测开始,此
17、时,p=0,,可以逐步递推出一直到最后用确定增益G值。这说明激励信号正比于误差信号,其比例常数等于模型增益G。这就是p阶线性预测快速递推算法的过程。在运算过程中出现的各阶预测系数的最末一个值被定义为偏相关系数 。完整的递推过程总结如下:1),2) 3)4)5),if , go to (1)6)显然,在Durbin算法中,起到很关键的作用,它也是格型网络的基本参数,称为反射系数。4. LPC谱估计LPC系数是线性预测分析的基本参数,可以把这些系数变换为其他参数,以得到语音的其他替代表示方法。当求出一组预测器系数后,就可以得到语音产生模型的频率响应,即:因此在共振峰频率上其频率响应特性会出现峰值。
18、所以线性预测分析法又可以看作是一种短时谱估计法。其频率响应即称为LPC谱。也就是序列 的傅立叶变换的倒数。它的对数功率谱为:用表示模型的频率响应、(信号谱)表示语音信号的傅立叶变换、 表示语音信号的功率谱。可以证明如果信号s(n)是一个严格的p阶AR模型,则可以满足。但事实上,语音信号并非是严格的AR模型,而应该是ARMA模型。因此,可用一个AR模型来逼近ARMA模型,即。式中p为H(z)的阶数。虽然时,但是不一定存在,因为H(z)的全部极点在单位圆内,而却不一定满足这个条件。LPC谱估计具有一个特点:在信号能量较大的区域即接近谱的峰值处,LPC谱和信号谱很接近;而在信号能量较低的区域即接近谱
19、的谷底处,则相差比较大。这个特点对于呈现谐波结构的浊音语音谱来说,就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多。LPC谱估计的这一特点实际上来自均方误差最小准则。从以上讨论我们知道如果p选得很大,可以使精确地匹配于,而且极零模型也可以用全极点模型来代替,但却增加了计算量和存储量,且p增加到一定程度以后,预测平方误差的改善就很不明显了,因此在语音信号处理中,p一般选在814之间,此时就可以对绝大多数语音信号的声道模型取得足够近似的逼近。LPC系数可以表示整个LPC系统冲激响应的复倒谱。设通过线性预测分析得到的声道模型系统函数为,其冲激响应为h(n),设表示h(n)的复倒谱,则有。
20、LPC复倒谱由于利用了线性预测中声道系统函数H(z)的最小相位特性,避免了相位卷绕问题;而且LPC复倒谱的运算量小,它仅是用FFT求复倒谱时运算量的一半;又因为当p时,语音信号的短时复频谱满足,因而可以认为包含了语音信号频谱包络信息,即可近似把当作s(n)的短时复倒谱,来分别估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用LPC复倒谱作为特征矢量。5. 影响LPC的因素要使模型的假定较好地符合语音产生模型,主要有两个因素要考虑:首先是模型的阶数p要与共振峰个数相吻合,其次是声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰,10kHz采样的语音信号通常有5个共振峰,取p=10,对于8kHz采用的语音信号可取p=8,此外为了弥补鼻音中存在的零点以及其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点,即分别取p=12和p=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胆总管切开取石术后护理
- 高速公路网络安全培训
- 2024年CFA考试中常见试题及答案
- 工业互联网 基于Ecode的异构标识解析体系互操作 编制说明
- 新生力量2024年CFA试题及答案
- 试题及答案背后的金融分析思维
- 2024年特许金融分析师考试知识体系题试题及答案
- CFA考试技巧与2024年试题答案的关系
- 高阶管理培训总结
- 湖北省十一校2025届高三第一次联考化学试卷(含答案)
- 8.3 印度(第1课时) 课件- 2024-2025学年地理人教版七年级下册
- 2025年郑州铁路职业技术学院单招职业适应性测试题库必考题
- 2025届地理复习备考课件 专题:自然地理要素
- 2025年常州信息职业技术学院单招职业适应性考试题库必考题
- 龙岩市2025年高中毕业班三月教学质量检测 地理试卷(含答案详解)
- 2024-2025学年高二数学湘教版选择性必修第二册教学课件 第2章-2.4空间向量在立体几何中的应用-2.4.4 向量与距离
- 哪吒主题课件模板文档
- 5.3《阳燧照物》教案-【中职专用】高二语文同步教学(高教版2023·拓展模块下册)
- 2025年宁波职业技术学院单招职业倾向性测试题库及答案(历年真题)
- 新版GCP培训课件
- 《如何科学减肥》课件
评论
0/150
提交评论