基于rbf神经网络的汉语语音非线性预测模型_第1页
基于rbf神经网络的汉语语音非线性预测模型_第2页
基于rbf神经网络的汉语语音非线性预测模型_第3页
基于rbf神经网络的汉语语音非线性预测模型_第4页
基于rbf神经网络的汉语语音非线性预测模型_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于rbf神经网络的汉语语音非线性预测模型

1语音信号非线性预测模型随着对混沌理论的深入研究,非线性动态分析理论和处理方法逐渐形成。研究者应用混沌、分形等非线性理论对语音信号进行非线性特征机制的建模研究,再采用小波及神经网络等非线性的处理方法对语音信号进行预测、逼近、降噪、编码、识别等处理,并取得了一系列成果[1~3]。国内外研究者已经将各种不同的神经网络应用于语音信号的非线性建模,构造出不同的非线性预测器,取得了一定的进展,比如文献提出语音长时线性相关就是短时非线性相关,在预测阶数较低并且对语音信号不进行长时预测的情况下,非线性预测比线性预测有更高的编码性能;文献作者使用前向非线性预测的结果表明,与BP神经网络(BackPropagationNeuralNetwork,BPNN)相比,递归神经网络(RecurrentNeuralNetwork,RNN)不仅有更好的对长时相关性的预测能力而且对嵌入维数有更好的鲁棒性;文献研究了应用于语音信号非线性建模的RBF神经网络的各种训练方法,比较了各算法性能差别,并对语音信号非线性及线性建模进行性能比较;文献提出一种带有反馈单元的动态小波神经网络(DynamicWaveletNeuralNetwork,DWNN)并基于它构造出非线性预测器,预测性能良好而且计算复杂度相对较低。但是汉语语音信号是否也具有混沌性,如果存在混沌性,如何结合汉语语音信号的混沌性并应用神经网络构造出具有预测性能良好的非线性预测模型,而且基于该预测模型的语音编解码系统能否更好的恢复出原始语音,这一直是一个重要的研究方向,因此本文将详细地讨论汉语语音信号产生混沌的机制及其在预测中的应用。另外,音素是从音质角度及自然属性划分出来的最基本的、最小的并且是不可分解的组成单位,也是分析语音信号的基础,所以本文是基于音素对汉语语音信号进行分析。2语音信号的非线性特性2.1uf064研究任意混沌时间序列的判定、分析以及信号预测都是在重构的相空间中进行,因此相空间重构是进行混沌时间序列研究的关键。对于语音信号而言,相空间重构是从语音信号时间序列提取动力学信息的重要方法,也是分析语音信号动力学系统的第一步。语音信号是一维时间序列:x(t)(28){x1(),x(2),x3(),(43),x(L)},根据Takens嵌入定理,采用延迟坐标法对语音信号进行相空间重构,即X(i)(28)[x(i),x(i(10)uf074),x(i(10)2(9)uf074),(43),x(i(10)(m-)1(9)uf074)],(1uf0a3iuf0a3N),其中N为相点总数,N(28)L-(m-)1(9)uf074,uf074为延迟时间,m为嵌入维数。如何选取合适的重构参数—延迟时间uf074和嵌入维数m是进行相空间重构的关键。目前有两种主流观点:一种认为两者不相关,求解uf074的方法有自相关法、互信息法、复自相关法等;求解m的方法有虚假近邻法(FalseNearestNeighbors,FNN)、摆动乘积法,Cao法等。另一种认为两者相关,如时间窗口法、C-C算法等,可以同时计算出延迟时间和嵌入窗。但这些算法各有各的优势和缺陷。由于自相关法求解uf074算法适用于小数据组,简单并易于实现,但它并没有考虑系统的非线性因素;互信息量法适用于大数据组,尽管考虑了系统的非线性问题,但因其计算量很大,计算速度较慢不宜采用;C-C算法能同时求解出uf074和m,计算量适中,而且它能保持系统非线性特性。因此本文采用经典的FNN算法求解m及采用C-C算法同时得到的uf074和m,将部分较有代表性的结果列于表1。本文实验用的汉语语音信号是采用手动切割的方式切出33个汉语语音音素,获得它们的时间序列的wav文件,采样率是8kHz,量化比特是16bit。2.2语音音素的时延重构图观察表1得出以下结论:(1)绝大部分音素的LE是大于0,说明汉语语音系统作混沌运动。(2)音素u、n的LE值是负值,但接近于0;in、ing和m的LE值是正值,但也接近于0。LE为0说明它们的时延重构图应该是极限环,图1列出较有代表性的音素的时延重构图,tau为延迟时间,x[n]为原始语音信号,x[n+tau]为时间延迟以后的信号,观察图1得出音素in、m的时延重构图是极限环。(3)大部分塞音、塞擦音和擦音的LE比较大,在1~3之间取值;元音的LE比较小,表明辅音的混沌程度高于元音的混沌程度。观察图1所示音素的时延重构图能得出如下结论:(1)每个汉语语音音素的时延重构图的形状与它的延迟时间和嵌入维数有关,不同类型的汉语语音音素有不同的时延重构图。(2)浊音具有准周期性,它的时延重构图表现为闭合环面;而清音不具有准周期性,那么它的时延重构图与浊音完全不同,表现为不规则的曲线。2.3联维数计算和分析分形理论是分析信号是否为混沌信号的另一重要理论,它的定义方式有很多,如:计盒维数、信息维数、关联维数、相似维数和广义维数等。本文主要讨论关联维数,采用GP算法对33个音素的关联维数进行计算,基本思路如下:根据Takens定理将一维时间序列重构为m维相空间中的一系列相点。任取一个相点作为参考点,计算其余相点到参考点之间的欧式距离。求出所有的点间距之后,只要距离小于给定参考距离r的相点,称为有关联的矢量。那么关联矢量的数目在N(9)(N-)1/2(N为相点总数)中所占的比例称为关联积分:实际计算关联维数采用(1)式和(3)式,求得在给定的嵌入维数下的一系列点(r,C(r,m,N)),然后得到logC(r,m,N)~logr曲线,判断曲线上的线性标度区的范围(即曲线上的最平坦区域),对落在其中的点进行最小二乘拟合,得到其斜率,此斜率为在给定嵌入维数下的关联维数。已有理论证明在数据量足够大的情况下,确定性信号的关联维数D随着嵌入维数m的增长收敛到某一个固定的值,此值就是该信号的关联维数;随机信号的关联维数随着嵌入维数的增加呈递增趋势。此外,对于关联维数D(28)1表明系统时延重构图为极限环,系统处于周期状态。本文采用GP算法对33个汉语语音音素的关联维数进行计算,在表1中已列出部分较有代表性的音素的关联维数D。观察表1得出以下结论:(1)对于元音采用FNN算法得到的m和C-C算法得到的m均为有限值且比较接近,再求解出的D值也满足Takens定理,说明它们是确定性信号并且它们的发音系统是个低维系统。对于大部分塞音、塞擦音和擦音,采用C-C算法得到的m为1,不满足Takens定理,而且D随着m的增加是不收敛的,说明它们是随机信号并且它们的语音产生系统是个高维系统。所以音素的m不能由C-C算法简单得到。汉语语音是由辅音和元音构成,可知语音信号即非确定性信号又非随机信号,而是混沌信号。(2)音素u、n、m、in和ing的关联维数D均接近1,说明它们的时延重构图是极限环。由图1可知所得的结论符合上述理论。但是音素m的LE虽然接近0,可关联维数D值却是不收敛的,时延重构图又近似极限环,这有待于进一步研究。(3)观察图1中时延重构图由极限环状态过渡到无序状态的音素l,不难发现,它的关联维数D是有限值,并且不超过2,说明它的语音产生系统的维数没有像类似音素c等的语音产生系统的维数高。3rbf神经网络汉语语音信号预测模型的设计3.1rbf神经网络神经网络因其良好的非线性建模能力被广泛应用在时间序列非线性预测中。神经网络分析方法有很多,比如RBF神经网络、BP神经网络、多层感知器网络(Multi-LayerPerceptionNetworks,MLPN)、递归神经网络、动态小波神经网络等。其中RBF神经网络是通用的函数逼近器,具有良好的推广能力,而且避免了局部极小问题,同时大大提高了网络的收敛速度,计算量相对较少,使学习可以比其它算法快很多。RBF神经网络的这些优点使得它成为处理语音信号非线性问题的良好工具。基本RBF神经网络模型如图2所示,它由输入层、隐含层和输出层三层网络构成前馈型神经网络。每一层所起作用均不同,输入层直接与输入信号的各分量连接;隐含层实现输入层到隐含层空间的非线性映射,它的维数与神经网络性能有关,维数越高,函数逼近精度就越高;输出层实现隐含层输出的线性组合。高斯函数表示形式简单,可以直观体现“局部响应”特性,并且具有径向对称、光滑性好、任意阶可导等优点,所以通常情况下选择高斯函数作为隐含层基函数。RBF网络的学习过程分为两个阶段:(1)训练或学习阶段:向神经网络提供输入输出样本,根据输入样本通过数值计算和参数优化技术,对参数不断进行调整直到给定输入能产生期望输出,从而决定隐含层中各节点的基函数的中心、宽度以及输出层的权值。(2)预测阶段:根据训练好的网络,对未知样本进行预测。3.2汉语语音预测模型的设计3.2.1音信号预测模型预测结果音素是构成语音信号最小、最基本的组成单位,也是分析语音信号的基础。每个音素的延迟时间及嵌入维数各不相同,所以本文将得到的33个音素的延迟时间、嵌入维数求出均值作为汉语语音信号的延迟时间、嵌入维数,因为所得均值是小数,所以本文采用向上取整、向下取整、四舍五入等方法对所得延迟时间、嵌入维数的均值设计的汉语语音信号预测模型进行了语音信号预测,并对仿真结果进行了比较,得出采用向上取整的方法所得预测效果最佳,因篇幅过多在此本文不过多进行论述。因此将延迟时间均值(uf074(28)5)作为输入层神经元个数,嵌入维数的均值(m(28)4)作为隐含层神经元个数,输出层与输入层相同,具体原因如下:(1)某些音素(如摩擦音或是擦音等)的关联维数是不收敛的,所以关联维数不适合作为隐含层或输入层神经元的个数。(2)在语音信号线性预测中,随着预测阶数的增加预测精度会趋于饱和。在相空间重构过程中,这种现象可以解释为增加预测阶数相当于将语音信号嵌入到更高维的相空间中,而且维数越高,相空间中的虚假近邻点比例就越低,但是当维数增加到一定值时,虚假近邻点的比例就会趋于稳定值。RBF网络中只有隐含层具有非线性特性,所以将嵌入维数m作为隐含层神经元个数。(3)延迟时间uf074对相空间重构起着关键性的作用,它让参与相空间重构的相邻数据尽可能不相关,从而使嵌入空间中的样点包含原吸引子的信息尽可能大,所以将延迟时间作为输入层和输出层神经元的个数。3.2.2rbf神经网络建模通常认为语音信号由残差激励线性滤波器(LPC)产生,实际上语音信号是由非线性系统产生,本文将RBF神经网络应用于语音信号非线性建模,认为语音信号是由残差激励非线性滤波器(即RBF神经网络)产生。本文设计的RBF神经网络非线性预测模型的具体说明如下:RBF神经网络非线性预测模型的设计流程图如图3所示。3.3基于rbf神经网络构造的非线性预测模型预测绝对误差一般情况下,汉语语音音素的长度大概有2~6帧,语音信号处理是对信号采用分帧来处理,因此为了检验预测模型的预测性能,将一帧语音信号(20ms,共160个采样点)放入构造好的RBF神经网络非线性预测模型中进行预测,图4给出了线性预测及非线性预测绝对误差比较图,由预测误差可以看出,与ADPCM中的线性预测模型相比,基于RBF神经网络构造的非线性预测模型的预测绝对误差明显小于线性预测模型,而且其预测值与实际值拟合程度较好,说明本文提出的非线性预测模型具有更好的预测辨识能力。为了进一步评价两种算法的预测性能,引入三种评价指标:(1)绝对误差均值(MAE),即(2)绝对百分比误差均值(MAPE),即:(3)相对均方根误差(RMSE):由表2可知,本文设计的RBF非线性预测模型的绝对误差均值、绝对百分比误差均值和相对均方根误差相对都比较小,表明预测性能良好,而且能较好地跟踪波形幅度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论