语音信号处理——基于线性预测下的语音信号合成

上传人：o*** IP属地：湖北上传时间：2021-10-30 格式：DOCX 页数：33 大小：220.35KB 积分：30 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、滨江学院课程论文题目基于线性预测下的语音信号合成学生姓名杨鑫学号 20142305047 系别电子系专业电子信息工程指导教师周晓彦二一七年六月六日基于线性预测分析的语音合成的研究杨鑫南京信息工程大学滨江学院，江苏南京 210044 摘要：语音合成是实现人机语言通信的关键技术，而线性预测(LPC)是语音信号处理中最有效的分析方法。而最佳线性预测设计的核心是LPC系数的计算。本文阐述了线性预测的基本原理,对提取LPC系数中的自相关解法中的莱文逊杜宾递推算法做出了具体验算，并且给出相关MATLAB的实现以及其仿真结果，然后采用线性预测参数法合成语音。关键词

2、：线性预测；莱文逊杜宾递推算法；语音合成；MATLAB目录 1 绪论11.1 引言11.2 国内外研究现状11.3 研究的内容22 线性预测分析的基本原理22.1语音信号的预处理22.2基本原理32.3 LPC和语音信号模型的关系42.4 线性预测方程组的建立52.5 线性预测方程组解法72.6 LPC方程自相关解法的MATLAB实现143 线性预测参数合成法合成语音153.1 语音合成的基本原理153.2 参数合成方法163.3 线性预测合成法164 总结17参考文献17致谢18附录191 绪论1.1 引言语音合成是人机语声通信的一个很重要组成部分，语音合成技术赋予机器“人工的嘴巴”的功

3、能，解决让机器像人一样说话的问题。让机器像人一样说话，建立可以仿照人的语言过程的模型，设想在机器中首先形成一个要讲的话语，它大多以表示信息的字符代码的形式存在，然后按照复杂的语音规则，将信息的字符代码形式转换成由基本发音单元组成的序列，同时检查话语的上下文，决定声调、重音、必要的停顿等韵律特性，以及陈述、命令、疑问等语气，最后给出相应的符号代码表示。这样组成的字符代码序列相当于一种“言语码”。从“言语码”出发，按照发音规则生成一组随机变化的字符代码序列，去控制语音合成器发出声音，犹如人脑中的神经命令，以电脉冲形式向发声器官发出指令，使舌、唇、声带、肺等部分的肌肉相互协调动作发出声音一样，这样

4、一个完整的过程就是语音合成的含义。语音合成的研究已有很年的历史，就目前的研究结果而言，从技术方式讲可分为波形合成法，参数合成法和规则合成法。线性预测（Linear Prediction）这一术语是维纳1947年首次提出的，此后线性预测技术就应用到很多领域中。1967年，日本学者板仓（Itakura）等人最先将线性预测运用到语音分析和合成之中1。线性预测是语音信号处理中最核心的技术之一，普遍地应用于语音信号处理的各个方面。这种方法是最有效，最流行的语音分析技术之一。在估计基本的语音参数（如共振峰、谱、声道面积函数），以及用低速率传输或储存语音等方面，线性预测是一种主要的技术。它能够极其精确

5、地估计语音参数，用很少的参数有效的，正确地表现语音波形及其频谱性质，而且技术效率很高，在应用上也灵活方便。线性预测分析包括的基本概念是，一个语音的抽样能够由之前的若干个语音的抽样的线性组合来逼近。使实际语音抽样和线性预测抽样之间差的平方和（在一个有限间隔内）达到最小值，即使最小均方误差的逼近，可以确定唯一的一组预测系数。这里的预测系数就是指线性组合中所用的加权系数2。将线性预测的分析方法应用于语音信号处理，不但利用了其预测功能，而且提供了一个非常好的声道模型。这样的声道模型对理论的研究和实际的应用都是极其有用的。因此线性预测的基本原理和语音信号数字模型密切相关。声道模型的优良性能决定了线性

6、预测是语音编码中特别适合的编码，线性预测的预测系数也是语音识别中非常重要的信息来源。LPC技术运用于语音编码时，利用模型参数可以有效地降低传输码率；应用于语音识别时，将LPC参数形成模板存储，可以提高识别率和大大减少计算时间。 1.2 国内外研究现状就语音合成技术而言，最早的合成器是1835年由W.von Kempelen发明，经Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程，分别用风箱、特别设计的哨子和软管来模拟肺部的空气动力、模拟口腔。而最早的电子式语音合成器是1939年Homer Dudley发明的声码器3，它不是简单地模拟人的发生机理，而是通过电子线路来实现基于语

7、音产生的源滤波器理论4。线性预测合成方法是目前比较简单和实用的一种语音合成方法，因为其低数据率、低复杂度，低成本，收到特别的重视。20世纪60年代后期后期发展起来的线性预测编码（LPC）语音分析方法可以有效地估计基本的语音参数，如基音、共振峰、谱、声道面积函数等，可以对语音的基本模型给出精确地估计，而且计算速度很快。自20世纪80年代末期至今，语音合成技术有了新的发展，特别是1990年提出的基音同步叠加（PSOLA）方法5，使基于时域波形拼接方法合成的语音的音色和自然度有了很大的提高。20世纪90年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统

8、的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高很多，并且基于PSOLA方法的合成器结构简单，便于实现，有很大的商业前景。我国的语音合成研究是从20世纪80年代开始的，中科院声学研究所、中科院自动化所、社科院语音所较早地开展了这方面的工作。早期的工作主要是参数合成，尤其是共振峰的合成及线性预测合成。20世纪90年代初开始，真实语音的波形拼接技术最早由清华大学应用到汉语中来，合成的语音清晰度明显好于参数合成。之后声学所将可以调节韵律参数的波形合成技术PSOLA引入汉语合成，并提出了一套韵律控制方法，使合成语音的质量有突破性的提高。当前的汉语语音合成系统中，很多单位也在开展基

9、于HMM参数语音合成方法的研究，如清华大学、中国科技大学、微软亚洲研究院、IBM中国研究中心、摩托罗拉中国研究中心等，尤其是中国科技大学及大讯飞公司近年来在若干次国际语音评测中取得了突出的成绩，其研发的语音合成系统已广为使用6。1.3 研究的内容本文主要研究一下几个方面。第一节线性预测分析的基本原理。阐述如何将语音信号进行预处理和线性预测的基本原理，主要讲述了LPC和语音信号模型的关系，讨论了如何将语音产生的数字模型向自回归信号模型的转换，如何将解非线性方程组的问题转换为解线性方程组的问题。第二节 LPC方程的建立与其解法。根据线性预测分析的原理，列出关于LPC系数的方程组，并采用自相关解

10、法中的莱文逊杜宾递推算法进行具体的验算求出线性预测系数。第三节 LPC方程的自相关解法的MATLAB的实现。根据莱文逊杜宾递推算法的数学原理，利用MATLAB进行仿真，并且进行简要阐述。第四节线性预测参数合成法合成语音。介绍语音合成的概念和线性预测参数合成法的基本原理。第五节总结。总结线性预测参数合成法的优缺点。2 线性预测分析的基本原理2.1语音信号的预处理在语音信号的A/ D转换过程中，为防止频域混叠，通常在对模拟语音信号取样之前先进行低通滤波，但滤波的同时也降低高频区域信号的能量，这对线性预测分析是很不利的。由于高频区域能量的降低可能会影响到自相关矩阵的正确性，导致自相关矩阵病态甚

11、至可逆，因而通常在计算LPC( Lin-ear Predictive Coding）系数之前利用只有一个零点的滤波器对语音信号进行处理，以增强语音信号高频区域的能量，这一过程称为语音信号的预加重.用作预加重的滤波器被称为预加重滤波器，其系统函数为：（2-1）式中称为预加重因子，用来控制预加重的程度，其值接近于1. 在语音信号的合成端，为了去除预加重带来的影响，通常在重建语音输出之前，使其通过去加重滤波器，去加重滤波器是预加重滤波器的逆过程，其系统函数为：（2-2）经过预加重数字滤波后，接下来就要进行加窗分帧处理，一般语音信号每帧数约为33 100帧，这要视实际情况而定。分帧虽然可以采用连

12、续分段的方法，但一般要采用交叠分段方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值通常取01/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用合适的窗函数w(n)来乘以音信号s(n)，从而形成加窗后的语音信号：（2-3）在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，窗函数的选择（形状和长度）对于短时分析参数的特性影响很大，为此应选择合适的窗函数，使其短时参数能够更好地反应语音信号的特性变化，这里本文选择汉明窗7。2.2基本原理s(n)u(n) 线性预测分析的基本原理是将分析的信号用一个模型来表示，即将信号看做是某一个

13、模型的输出。这样就可以用模型参数来描述信号。图1是信号s(n)的模型化框图。其中u(n)表示模型的输入，s(n)表示模型的输出。H(Z) 图1 信号是s(n)的模型化一般情况下，设定的模型中只包含有极限极点而没有有限值的零点，此系统函数表示为（2-4）这种模型称为“全极点模型”或“AR模型”8。式中，各系数和增益G就是模型参数。此时信号就可以用有限数目的参数构成的信号模型来表示。线性预测分析就是根据已知的s(n)对各参数和G进行估值。系数称为线性预测系数。线性预测的基本原理是由语音信号直接确定一组预测器系数，使预测误差在某个准则下最小。如果采用最小均方误差LMS准则进行估值，就得到了著名的

14、线性预测分析（LPC）算法，这一过程就称为线性预测分析。实际上线性预测模型一般均采用全极点模型，在语音线性预测方面的文献和资料中，绝大多数情况采用AR模型。主要是因为：AR模型易反映频谱中的峰值，MA模型易反映频谱中的谷值，而ARMA模型可以同时反映两者。考虑到求解AR模型的正则方程（normal equation）是一组线性方程，而求MA和ARMA模型的方程是非线性方程9。有时无法知道输入序列，比如对一些地震应用、脑电图及解卷积等问题。如果不考虑鼻音和摩擦音，那么语音的声道传递函数就是一个全极点模型。人的听觉对于那种只能用零点来表现的频谱陡峭谷点是迟钝的。对于鼻音和摩擦音，声学理论表明其

15、声道传输函数既有极点又有零点，这时如果模型的阶数P足够高，可以用全基点模型来近似表示极零点模型。因为一个零点可以用许多个极点来近似，即（2-5）如果分母多项式收敛得足够快，只取其中少数几项就可以了，所以全极点模型为实际应用提供了较为合理的近似。2.3 LPC和语音信号模型的关系根据前面所说的模型化思想，可以对语音信号建立模型，如图2所示。图2 语音产生的数字化模型简化框图该模型的参数有清/浊判决、浊语音的基音周期、增益常数G及数字时变滤波器系数，这些参数是随时间缓慢变化的。其中输入的语音信号可由周期脉冲序列的激励（对于浊音）或者随机噪声序列的激励（对于清音）来模拟，周期脉冲序列之间的间隔

16、即为基音周期。而声门激励、声道调制和嘴唇辐射的合成，可用如下数字时变滤波器表示（2-6）可以看出，图1的模型是图2语音产生的数字化模型的一种特殊形式，它将其中的辐射、声道以及声门激励的全部谱效应简化为一个时变的数字滤波器来等效，其系统函数为（2-7）这样把s(n)模型化为一个P阶的AR模型。式中增益G以及数字滤波器系数都可以随时间的变化而变化，p为预测器阶数。当阶数p足够大时，这个全极点模型几乎可以模拟所有语音信号的声道系数，采用这样一个简化模型的主要优点在于可以用线性预测分析法对增益G和滤波器系数进行直接的，快速的运算。2.4 线性预测方程组的建立模型的建立实际上是由信号来估计模型的参数

17、过程，而信号实际客观存在的，用一个有限数目参数的模型表示它不可能完全精确，总会存在误差，况且信号还是时变的，因此求线性预测系数的过程只是一个逼近的过程。对于图1所示的模型采用逼近的方法求解释不科学的，因为这要求解一组非线性方程，实现起来非常困难。所以，实际中采用“逆滤波法”。用系数可以定义一个p阶线性预测器（2-8）这个p阶预测器从时域角度可理解为，用信号的前p个样本来预测当前的样本得到预测值。（2-9）因为预测器F(z)是用AR模型的系数来构造的，而AR模型是在最小均方意义上对数据的拟合，所以预测器F(z)必然是一个最佳选择器，即此时预测器的预测误差短时能量最小。语音信号的线性分析

18、就是根据这一性质，从语音信号s(n)出发，依据最小均方误差准则，估计出一组线性预测器的系数，它就是所求的信号AR模型的系数。称为线性预测系数或LPC系数。预测器的预测误差e(n)为（2-10）由上式可知，e(n)是输入为s(n)，具有如下形式传递函数的滤波器的输出（2-11）因此称A(z)为预测误差滤波器。比较式（2-8）和式（2-11）可知A(z)=G/H(z)，即预测误差滤波器是系统H(z)的逆滤波器。为了在最小均方误差意义上计算一组最佳预测系数，定义短时预测均方差为（2-12）由于语音信号的时変特性，线性预测分析应该是在短时的语音上进行，即按帧进行。因此上式求和通常也是在一帧的语

19、音范围内进行。使式（2-12）中的En达到最小，必须满足，考虑式（2-11），则有（2-13）这样可以得到以为变量的线性方程组（2-14）若定义，则式（2-14）可简写为（2-15）上式是一个由p个方程组成的有p个未知数的线性方程组，求解方程组就可以得到线性预测系数的估计值。同样也可以求得最小预测误差能量值En，利用式（2-12）和式（2-14）有（2-16）或写成（2-17）En又被称为预测残差能量，由式（2-17）可见，它由一个固定分量和一个依赖于预测系数的分量组成。根据式（2-4）还可以求得增益常数G10,由图2的系统，语音抽样信号s(n)和激励信号之间的关系还可以用下列简单的差分

20、方程来表示（2-18）对上式两边乘以是s(n)并求平均值，等式右边为（2-19）等式左边为（2-20）激励信号u(n)无法精确计算，但根据前文所诉的语音产生模型，在浊音情况下，激励可以看做是准脉冲串；在清音时，可以看做为高斯白噪声11。因此有，所以，又由于u(n)和s(n-i)不相关，所以将式（2-12）和式（2-20）比较，可以得出（2-21）2.5 线性预测方程组解法为了有效地进行线性预测分析，有必要用一种高效率的方法来解线性方程组。虽然可以用各种各样的方法来解包含p个未知数的p个线性方程，但是系数矩阵的特殊性质使得解方程的效率比普通情况下能达到的效率要高得多12。在式（2-14

21、）所示的线性预测标准方程组中，n的上下限取决于使误差最下的具体做法。当n的求和范围不同时，导致不同的线性预测解法。经典的解法有三种：一种是自相关法，一种是协相关法，另一种是格型法。这里详细介绍自相关法中的莱文逊杜宾递推算法（另一种算法为舒尔递推算法）。这种方法在整个时间范围内使误差最小，并设s(n)间隔在0nN-1以外等于0，即进过分帧加窗处理。对加窗处理后的信号作自相关序列估计，显然会引起误差。为了减少窗作用于语音段时在两端引起的误差，所以通常不采用突变的矩形窗，而是使用两端具有平滑过渡特性的窗口，如海明窗等。通常，s(n)的自相关函数为（2-22）设为加窗后的信号，加窗处理后，自相关

22、函数表示为（2-23）式中Rn(k)为短时自相关函数。比较式（2-14）和（2-23）可知，式（2-14）中的即为，即（2-24）式(2-23)中，Rn(j)仍然保留了信号s(n)自相关的特性。如Rn(j)为偶函数，即Rn(j)=Rn(-j)。Rn(j-i)只与j和i的相对大小有关，而与j和i的取值无关，所以（2-25）此时式（2-15）可表示为（2-26）类似的式（2-17）也可以表示为（2-27）式（2-26）形式的方程组可以表示成如下的矩阵形式13 （2-28）这种方程称为Yule-Walker方程，其中系数矩阵即P×P阶的自相关函数矩阵（相关矩阵）称为托普利兹（Toe

23、plitz）矩阵14，它以对角线为对称，且主对角线以及和主对角线平行的任何一条斜线上所有的元素都相等。对于这种矩阵方程无需像求解一般矩阵方程那样进行大量的计算，利用托普利兹矩阵的性质可以得到高效的递推算法。即只要求出(n-1)阶方程组的解即(n-1)阶预测器的系数，就可以利用求出n阶方程的解，即n阶预测器的系数（这里括号中的上标表示预测系数的阶数，如表示第i阶预测器的第j个预测系数，表示第i个预测器的预测残差能量）。莱文逊杜宾递推算法如下（1）计算自相关系数（2-29）（2）（2-30）（3） i=1；（4）开始按公式进行递推运算：（2-31）（2-32）（2-33）（2

24、-34）（5） i=i+1。若i>p则算法结束退出，否则返回第（4）步，按式（2-31）和式（2-33）进行递推14。这样经过递推算法后，可得到i=1,2，p各阶预测器的解。实际上只需要第p阶的运算结果，最终结果为（2-35）和（2-36）下面给出详细的计算过程，与莱文逊杜宾递推算法略有不同的是这里使用n+1阶来推导。根据式（2-28）可设即有（2-37）进而有（2-38）由式（2-27）可得（2-39）根据式（2-28）利用递推原理，写出(P+1)阶矩阵方程（2-40）利用矩阵的分块性质，将上式矩阵方程分块15。（2-41）即有（表示与行数列数相同但元素倒置的矩阵）从而有（2

25、-42）进而有（2-43）（2-44）由式（2-43）可得（2-45）将其带入到式（2-44）中，可得（2-46）又因为（2-48）（2-47）所以有（2-49）对于，有（2-50）将其递推到(P+1)阶则有（2-51）对于，有（2-52）对于，有（2-53）所以（2-54）（2-55）综上（2-56）令，最终有（2-58）（2-57）比较式（2-35）和式（2-36），演算完毕。2.6 LPC方程自相关解法的MATLAB实现给出用莱文逊杜宾递推算求解线性预测系数的MATLAB实现lpc_coefficients.m% 此程序的功能是用自相关法求使信号s均方预测误差为最小的预

26、测系数% 算法为LevinsonDurbin快速递推算法% 首先对输入语音进行分帧，并给出LPC分析阶次fid=fopen('sx86.txt','r');pl=fscanf(fid,'%f')fclose(fid);p2=filter(1-0.68,1,p1) % 预加重滤波x=fra(320,160,p2); % 将预加重后语音分帧，每帧320个样点，帧重叠160x=x(60,:); % 取第60帧输入信号进行处理，x为行向量s=x' % x为行向量，s为列向量N=16; % LPC阶次N=16p=N; % 获得LPC阶次n=leng

27、th(s); % 获得信号长度% Rn(i)=sum(s(1:N-i).*s(1+i:N)for i=1:p Rp(i,1)=sum(s(i+1:n).*s(1:n-i) % 求向量的相关函数，“.*”表示两个同维矩阵相应 % 元素相乘endRp=Rp(:) % 将自相关函数变为列向量Rp_0=s'*s; % 即Rn(0)Ep=zeros(p,1); % Ep为p阶最佳线性预测反滤波能量k=zeros(p,1); % k为自相关系数a=zeros(p,p); % 以上为初始化% i=1的情况需要特殊处理，也就是对p=1处理Ep_0=Rp_0;k(1,1)=Rp(1,1)/Rp_0;a(

28、1,1)=k(1,1);Ep(1,1)=(1-k(1,1)2)*Ep_0;% i>=2以后使用递归算法if p>1 for i=2:p k(i,1)=(Rp(i,1)-sum(a(1:i-1,i-1).*Rp(i-1:-1:1)/Ep(i-1,1); % 求式（2-31） a(i,i)=k(i,1); % 求式（2-32）a(i) Ep(i,1)=(1-k(i,1)2)*Ep(i-1,1); % 求式（2-34）Ei for j=1:i-1 a(j,i)=a(j,i-1)-k(i,1)*a(i-j,i-1) % 求式（2-33） end endendc=-a(:,p); % 将a矩

29、阵从第1到最后一行的第p列元素乘以以（-1）赋值给c，c即最 % 后求得的LPC系数，不包括第一个系数1 % 得到最终的LPC系数a1，此处a1为行向量a1(1,1)=1.0; % 赋上第一个LPC系数1for i=2:p+1-0 a1(1,i)=c(i-1,1); % 得到第2个到第p+1个LPC系数end3 线性预测参数合成法合成语音3.1 语音合成的基本原理实际上，人在发出声音之前是要进行一段大脑的高级神经活动，即先有有个说话的意向，然后围绕该意向生成一系列相关的概念，最后将这些概念组织成语句发音输出，日本学者Fuji saki按照人在说话过程中所用到的各种知识，将语音合成由到深分成三

30、个层次(如图3所示），按规则从文本到语音的合成（text- to-speech）；按规则从概念到语音的合成（concept-to-speech）；按规则从意向到语音的合成（intention- to- speech)。目前语音合成的研究还只是局限在从文本到语音的合成上，即通常所说的 TTS系统16。意向概念文本控制合成语音信号语音产生发生编码语音编码语音表示图3 语音合成的三个层次语音合成是一个“分析存储合成”的过程。一般是选择合适的基音，将基音用一定参数编码方式或波形方式进行存储，形成一个语音库。合成时，根据待合成的语音库中取出相应的基音进行拼接，并将其还原为语音信号。在语音合成

31、中，为了便于存储，必须先将语音信号进行分析或变换，因而在合成前还必须进行相应的反变换。其中，基音是语音合成系统所处理的最小的语言学基本单元，待合成词语的语音库就是所有合成基音的集合。根据基音的选择方式以及其存储方式不同，可以将合成方式大概地分成波形合成方法和参数合成方法。3.2 参数合成方法人类的发音能力是一种非常普通的能力。但语音的产生机理却足一个非常复杂的过程 ,无法用解析式对其进行精确的描述。现代讲音学，声学、音位学研究表明：语音信号具有缓慢的时变特性。可以简中地分为清音。浊音、爆破音等。不同发音的激励源不同其语音信号的频谱图也不相同。可以将肺部气流通过声带的结果用一个激励源模型来表示

32、将声道调音运动的作用用一个声道模型表示。一般情况下，语咅的产生是激励源和声道共同作用的结果。激励源信号经过声道的调制作用后，经过模拟唇部辐射作用的辐射模型，形成最后的合成语音，这个语音合成过程可以用图2的简化模型表示。3.3 线性预测合成法线性预测参数法是目前比较简单和实用的一种语音信号合成方法，可以有效地估计基本语音参数，可以对语音的基本模型绘出精确的估计。因此线性预测语音合成器利用线性预测语音分析方法，通过分析自然语音样本，计算出 LPC系数，根据信号产生模型，从而合成出语音。线性预测合成模型是一种“源滤波器”模型，由白噪声序列和周期冲击序列构成的激励信号，经过选通、放大并通过时变数字滤波

33、（由语音参数控制的声道模型），就可以获得合成的语音信号. 这种语音合成器的框图如图2所示。直接用LPC系数构成递归型合成滤波器进行语音合成的结构如图 4所示。图4 LPC递归型合成滤波器用这种方法定期地改变激励信号s(n)和LPC系数就能合成语音。合成的语音样本由下式给出：（3-1）式中：为预测系数，G为增益模型，u(n)为激励，合成语音样本为s(n)，P为预测器阶数。4 总结本学期选修语音信号处理这门课程，学习了语音信号处理的基础、概念、原理、方法及应用，同时了解了一定的背景知识、发展概况、研究现状、应用前景和发展趋势与方向。本调查报告围绕线性参数合成技术这一课题，进行一定的分析讨论与

34、扩展，以此作为本门课程的总结。不敢妄谈见解，谨以所学内容加以总结与梳理、搜集相关文献加以提炼与编纂。其中难免错误与疏漏之处，亦难免认识肤浅、总结不到位之处. 本文对线性预测参数合成法进行了细致的探讨，参数直接形式的预测系数滤波器结构的优点是简单、变于实现，所以曾被广泛采用。其缺点是和成语音样本需要很高的计算精度。这是因为这种递归结构对系数的变换非常敏感。其系数的微小变化就可以导致滤波器极点未知的很大变化，甚至出现不稳定的现象。参考文献1 陈燕. 用户定制口令声纹识别系统研究与嵌入式实现D，厦门大学，2009210 张雪英. 数字语音处理及MATLAB仿真M. 北京：电子工业出版社，2010：

35、95，1723 杨风健. 轻松学会语音合成J. 电子制作，2011，(08):65-674 Lonnie C. Ludeman. 随机过程滤波、估计与检测M. 邱天爽. 译，北京：电子工业出版社 2005:65-665616 韩纪庆,张磊,郑铁然. 语音信号处理M. 北京：清华大学出版社，2版，2013:369-375，7，1017 胡航. 语音信号处理M. 哈尔滨：哈尔滨工业大学出版社，2版，2002:27-3189 王沁著. 时间序列分析及其应用M. 成都：西南交通大学出版社，2008:44-46,44-4611 樊昌信，曹丽娜. 通信原理. 北京：国防工业出版社. 7版， 2016:56

36、-5812 谢冬秀，雷纪刚，陈桂芝. 矩阵理论及方法M. 北京:科学出版社，2011:236-23813 张凯院，徐仲等. 矩阵论M. 北京：科学出版社，2012:282-2841415 同济大学数学教研室. 工程数学线性代数M. 北京：高等教育出版社. 3版，1999:36-41，41-53，58-65致谢历时将近两个星期时间终于把这篇论文写完了，在论文的写作过程中遇到不少的障碍，比如如何在网上查阅更多文献。如何在校图书馆更快的查找书籍，如何规范论文格式，如何正确地使用文档编辑软件等，但这些都在同学和老师的帮助克服过了。在校图书馆查找资料的时候，图书馆的老师给我提供了很多方面的支持与帮助，

37、尤其要强烈感谢我的论文指导老师周晓彦老师，没有她的指导，就没有我这篇论文的完成。在此，我向帮助过我的老师们表示感谢。同时，我也要感谢本论文所引用的各位学者的专著，给了我很大的启发和帮助。至此，我也要感谢我的朋友和同学，他们在我写论文的过程中给予我了很多有用的素材，也在论文的排版和撰写过程中提供帮助。说来惭愧，这篇论文是我从大学以来第一次认认真真完成的，以前大多是为了完成任务，敷衍了事，又因为我的学术水平有限，所写论文难免有不足之处，恳请老师批评和指正。附录1 语音信号的预加重处理MATLAB仿真% 语音读入 global X T x x,f

38、s,bits=wavread('4.wav'); sound(x,fs,bits); T=1/fs; X=fft(x,4000); axes(handles.axes1),plot(x);title('原始信号时域图'); xlabel('时间') ylabel('幅值') axes(handles.axes2),plot(abs(X); title('原始信号频谱图'); xl

39、abel('频率/Hz'); ylabel('幅值'); % 预加重 global x xx xx=double(x); xx=filter(1 -0.9375,1,xx); % 通过一个一阶高通滤波器进行滤波 XX=fft(xx,4000); %figure(2); axes(handles.axes3),plot(xx);title('预加重后信号波形');xlabel('时间');ylabel

40、('幅值') axes(handles.axes4),plot(abs(XX);title('预加重后信号频谱'); xlabel('频率/Hz'); ylabel('幅值') % 分帧 % 设定帧移和帧长 step=st; framelength =fr; % 分帧后如果有结余，则补足最后一帧数据 lengthOfTailPad=framelength-rem(length(xx),framelength);

41、 % 求余数 tailPad=xx(length(xx)-lengthOfTailPad+1:length(xx) ); nf=fix(length(xx)-framelength+step)/step); % 截尾取整，计算帧数 sn=zeros(nf,framelength); %219*256indf=step*(0:(nf-1).' inds=(1:framelength); % 语音分帧 u=indf(:,ones(1,frameleng

42、th)+inds(ones(nf,1),:);%219*256 fx=x(u); sn(:)= x(u); t=sn(:); %figure(3); axes(handles.axes5),plot(fx);title('分帧处理后的波形'); xlabel('帧数'); ylabel('幅值/n');f=fft(fx); axes(handles.axes6),plot(abs(f);title('分帧处理后的频谱图'); xla

43、bel('帧数'); ylabel('幅值/n'); %过零检测 global xx fx fr st x nf %figure(5) nt=length(xx); fxx=abs(fx); avap=sum(fxx,2); axes(handles.axes7),plot(avap);title('短时能量波形'); xlabel('帧数'); ylabel('能量') N=fr; for i=1:nt-1 if xx(i)>=0

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理——基于线性预测下的语音信号合成

文档简介

温馨提示

最新文档

评论

语音信号处理——基于线性预测下的语音信号合成

文档简介

温馨提示

最新文档

评论

相关文档