语音信号处理复习题.doc_第1页
语音信号处理复习题.doc_第2页
语音信号处理复习题.doc_第3页
语音信号处理复习题.doc_第4页
语音信号处理复习题.doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。1. 什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1) 声管模型将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,NR,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 4、 请写出完整的语音信号数学模型的表示式。什么叫做预加重处理?为什么要进行这些处理?完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:冲激序列发生器声门脉冲模型G(Z)基音频率F0 振幅AV声道模型 V(Z)辐射模型 R(Z) 语音 s(n)随机噪声发声器 信号 振幅AU它的传输函数可表示为: 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程(倍频程:若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一频程称为1倍频程)跌落,所以求语音信号的频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,要在预处理中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一般在语音信号数字化后,参数分析之前用预加重数字滤波器来实现。十倍频程-频率按照增加或按减小,从10Hz到100Hz为一个十倍频程;倍频程-频率按增加或按减小,从10Hz到20Hz为一个倍频程。2倍频和10倍频是一回事对于滤波或运放放大倍数来讲使用dB来表示的,具体的公式是:,是滤波器或运放的一个极点。采用dB表示时是,要取模,即。对于n倍频(靠近的频率不准确,n0),(开方中的1可忽略)则有 这样,对于两倍频,则此时下降是当时,预加重数字滤波器一般是一阶的数字滤波器,值接近于1。5、短时平均能量(短时平均幅值)和短时平均跨零数的定义。窗口函数的长度和形状对它们有什么影响?常用的有哪几种窗口?这两种时域参数的用途。设第n帧语音信号的短时能量用表示,则其计算公式如下:短时平均幅度函数,它定义为:分别采用矩形窗、汉明窗不同窗长得到的语音信号短时能量,可以得到如下结论:l 在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响;l Hamming窗的效果比矩形窗略好;l 但是,窗的长短影响起决定性作用。窗口长度反映语音信号的幅度变化。窗过大(N很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小(N很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz左右的采样频率下,N选为100200比较合适。定义语音信号的短时过零率为:式中,是符号函数,即6、短时自相关函数和短时平均幅差函数的定义及其用途。在选择窗口函数时应考虑什么问题?语音信号的定义语音信号的短时自相关函数的计算公式如下:这里K是最大的延迟点数。浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期。清音接近于随机噪声,其短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小。短时平均幅度差函数:计算只需加、减法和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量大大减小,尤其在用硬件实现语音信号分析时有很大好处。为此,AMDF已被用在许多实时语音处理系统中。短时谱的定义。它可以有哪两种解释?窗口函数的影响。是帧号n和角频率的函数。可见,当n不变时,是序列的标准傅里叶变换,此时具有与标准傅里叶变换相同的性质。设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取固定值时, 根据卷积定理有:因为上式右边两个卷积项均为关于角频率的以为周期的连续函数,所以也可以将其写成如下的卷积积分形式: (*)结论:假设的DTFT是,且的DTFT是,那么是和的周期卷积。由于相当于信号谱与窗函数谱的卷积,根据卷积积分公式(*)可知,为了使得能够与具有相同的性质,则要求必须是一个冲激函数。因此应使窗函数的频率分辨率高,主瓣尖锐;同时还要使旁瓣衰减大。根据信号的时宽带宽积为一常数这一性质,可知主瓣宽度与窗口宽度成反比,N越大,主瓣越窄,则越接近于。但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时,已不能正确反映短时语音的频谱,为此,必须要折中选择窗长。另外,令角频率,则得到离散的短时傅里叶变换,它实际上是在频域的取样,如下所示:在语音信号数字处理中,都是采用的离散傅里叶变换代替,并且可用高效的快速傅里叶变换(FFT)算法完成由至的转换。当然,这时窗长N必须是2的整次幂(L是整数)。根据傅里叶变换的性质,实数序列的傅里叶变换的频谱具有对称性,因此全部频谱信息包含在长度为个里。另外,为了使具有较高的频率分辨率,所取的DFT以及相应的FFT点数N1应该足够多,但有时的长度N要受到采样率和短时性的限制。转流程:原信号频率就处在之间,即,只要在05kHz内求其频谱。FFT的计算可以在通用计算机上由相应的算法软件完成,这种方式一般只能实现非实时运算,为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用芯片。因而,如果将看作一个滤波器的单位函数响应,则就是该滤波器的输出,而滤波器的输入为,如下图所示。简单分析一下不同的窗函数对语音信号短时谱的影响。上图给出了N=500(取样率为10kHz,窗持续时间50ms)时矩形窗和汉明窗下浊音语音的频谱。其中图(a)是汉明窗的窗选信号,图(b)是其对数幅度谱;图(c)是矩形窗下的窗选信号,图(d)是其对数幅度谱。从图(a)可以明显看出时间波形的周期性,此周期性同样在图(b)中表现出来。图中基频及其谐波在频谱中表现为等频率间隔的窄峰。图(b)中的频谱大约在300400Hz附近有较强的第一共振峰,而在2000Hz附近有一个对应于第二、第三共振峰的宽峰。此外,还能在3800Hz附近看到第四共振峰。最后,由于声门脉冲谱的低通特性,频谱在高频部分表现为下降的趋势。将图(b)和图(d)比较可看出它们在基音谐波、共振峰结构以及频谱粗略形状上的相似性,同样也能看到其频谱之间的差别。最明显的是图(d)中基音谐波尖锐度增加,这主要是由于矩形窗频率分辨率较高。另一个差别是矩形窗较高的旁瓣产生了一个类似噪声的频谱。这是由于相邻谐波的旁瓣在谐波间隔内的相互作用(有时加强有时抵消),因而在谐波间产生了随机变化。这种相邻谐波间不希望有的“泄露”抵消了其主瓣较窄的优点,因此在语音频谱分析中极小采用矩形窗。下面给出了矩形窗和汉明窗加窗的清音波形及其短时频谱。由上图可以看出:从两个短时频谱图中都可以发现,由于清音的发音类似于随机噪声,因此频谱具有慢速变化的趋势,同时有着频繁的尖峰和谷。当然,汉明窗较之矩形窗具有平滑的短时频谱。下面给出了浊音和清音前50个样点加矩形窗和汉明窗的短时频谱,可以直观地看到窗长对短时谱的影响。由图可见:由于窗长很短,因而时间序列(图(a)和图(c)及信号频谱(图(b)和图(d)均不能反映信号的周期性。与上图相反,本图只大约在400、1400以及2200Hz频率上有少量较宽的峰值。它们与窗内语音段的前三个共振峰相对应。比较图(b)和图(d)的频谱后,再次表明矩形窗可以得到较高的频率分辨率。从以上对窗函数和短时频谱的讨论可以得到以下结论:1) 矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大,具有低通的性质。窗越长,主瓣越窄,加窗后的频谱能更好地逼近短时语音的频谱;2) 窗长越长,频谱分辨率得到提高,但由于长窗的时间平均作用导致时间分辨率相应下降,如共振峰在不同的基音周期是要发生变化,但如果使用较长的窗会模糊这种变化。3) 窗长越短,时间分辨率越高,但频率分辨率相应降低,如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况,但是基频以及谐波的精细结构在短时频谱图上消失了。4) 由于时间分辨率和频谱分辨率的相互矛盾关系,在进行短时傅里叶变换时,应根据分析的目的来折中选择窗长。7、请叙述同态信号处理的基本原理(分解和特征系统)。同态处理理论的一个重要方面是任何同态系统都能表示为三个同态系统的级联,如下图所示。即同态系统可以分解为两个特征系统(它们只取决于信号的组合规则)和一个线性系统(仅取决于处理的要求)。第一个系统以若干信号的卷积组合作为其输入,并将它变换成对应输出的相加性组合。第二个系统是一个普通线性系统,它服从叠加原理。第三个系统是第一个系统的逆变换,即它将信号的相加性组合反变换为卷积组合。这种同态系统的重要性在于,可以使这种系统的设计简化为线性系统的设计问题。对于语音信号,其特征系统和逆特征系统的构成分别如下图所示:下面分析同态信号处理的基本原理。设输入信号:其中和分别是声门激励和声道响应序列。特征系统完成将卷积性信号转化为加性信号的运算。它包括三部分,首先进行Z变换,将卷积性信号转变为乘性信号然后进行对数运算,将乘积运算转变为加性运算:上面这个信号是加性的对数信号,使用起来不方便,所以再将其变换为时域信号。因而最后要进行逆Z变换,即:由于加性信号的Z变换或逆Z变换仍然是加性信号,因而这种时域信号可以用线性系统处理。经过线性处理后,若将其恢复为卷积性信号,可以通过上图所示的逆特征系统,它是特征系统的逆变换。首先将线性系统输出的加性信号:进行Z变换,得:然后进行指数运算,得到的是乘性信号:最后进行逆Z变换,得到卷积性的语音恢复信号:8、复倒谱和倒谱的概念?以及两者的关系?复倒谱 倒谱(1) 复倒谱要进行复对数运算,而倒谱只进行实对数运算;(2) 在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为在计算倒谱的过程中将序列的相位信息丢失了;(3) 与复倒谱类似,如果和分别是和的倒谱,并且,则的倒谱是(4) 已知一个实数序列的复倒谱是,可以由求出它的倒谱;(5) 已知一个实数序列的倒谱是,能否用它来求出复倒谱?(1) 如何由复倒谱求倒谱?首先将表示成一个偶对称序列和一个奇对称序列之和。其中,易于证明:由于一个偶对称序列的DTFT是一个实函数,而一个奇对称序列的DTFT是一个虚函数,对照式子:可得:由公式可得:所以有: 这样可由求得。同理可以导出相位倒谱(2)由倒谱求复倒谱已知一个实数序列的倒谱,能否用它求出复倒谱?要做到这一点,必须满足一定的条件,假如是一个因果序列,该条件可表示为:其中,是一个单位阶跃函数。可以看出,在满足此条件时,可以表示为下列形式:因此,立刻得到如果是一个反因果序列,即满足下列条件:则可导出:在什么情况下, 才是一个因果稳定序列呢?可以证明,只有当是一个因果最小相位序列时,才是一个因果稳定序列。这说明应满足两个条件:(1) ;(2)的零极点都应该在单位圆内。同理可以证明,只有当是一个反因果最大相位序列时,才是一个反因果稳定序列。于是,只有当是因果最小相位序列或反因果最大相位序列时,可由求出。9、Durbin算法的原理?最常用的是莱文逊-杜宾(Levinson-Durbin)算法,这是一种最佳算法。这个算法的过程和步骤为:1. 对于时,2. 对于第次递归:(1) (27)(2) (28)(3) 对于 (29)(4) (30)注意上面各式中括号内的上标表示预测器的阶数。式(27)(29)可对进行递推解,而最终解为:10、什么叫做矢量量化?什么叫做码本?将信号序列的每K个连续样点分成一组,形成K维欧氏空间中的一个矢量,矢量量化就是把这个K维输入矢量X映射成另一个K维量化矢量。其中量化矢量构成的集合称为码书或码本,码书中的每个矢量称为码字或码矢。基于矢量量化的语音通信系统工作原理?编码器、解码器各有相同的码书:码书含J个k维码字。工作原理:(1) 每输入一帧语音(帧长为N),形成与之相应的k维特征矢量(),并送入VQ编码器;(2) 根据输入特征矢量从编码器码书中选择一与之失真误差最小的码失,取的编码(标号),即;(3) 传输,若不产生误差,则收端的信号仍是;(4) 解码器按照从解码器码书中选出具有相同下标的码字作为输出,即为的重构矢量(恢复矢量),即。%11、什么叫做失真测度,理想的失真测度应具有什么特性?常用的哪几种失真测度,它们都是如何定义的?各有什么用途?失真测度(距离测度):是将输入矢量用码本重构矢量来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。失真度选择必须具备的特性:1. 必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量;2. 必须是易于处理的,即在数学上易于实现,这样可以用于实际的矢量量化器的设计;3. 平均失真存在并且可以计算;4. 易于硬件实现。失真测度主要有欧氏(Euclid)距离测度、加权欧氏 (Euclid)距离测度、Itakura-Saito距离测度、似然比失真测度、识别失真测度等。欧氏距离-均方误差:设为未知模式的维特征矢量,为码书中某个维码失,分别表示和的同一维分量,几种常用的Euclid距离测度如下: 均方误差Euclid距离测度,定义为: 方平均误差Euclid距离测度。定义为: 平均误差Euclid距离测度。定义为: 绝对值平均误差Euclid距离测度。定义为:优点:计算简单,易于硬件实现。 最大平均误差Euclid距离测度。定义为: 加权Euclid距离测度。定义为:式中,-加权系数。六种Euclid测度中,最常用均方误差Euclid距离测度。优点:简单、易处理,且基本符合语音主观感知的状况。线性预测失真测度:由日本学者板仓(Itakura)等人提出。我们知道用全极点模型表示的线性预测方法,广泛用于语音信号处理中。它在分析时得到的是模型的预测系数。为了比较用这种参数表征的矢量,若直接使用Euclid失真测度,度量模型参数的误差无意义。因为,仅由预测器系数的差值不能完全表征这两个语音信息的差别。此时,应该直接用这些系数所描述的信号模型的功率谱进行度量。线性预测失真测度由此产生。设-一帧N长语音信号;-阶最佳线性预测系数;-特征矢量;-码书中某特征矢量。当预测器的系数,信号与模型完全匹配时,信号功率谱为:这里为信号的功率谱,为预测误差能量,为预测逆滤波器的频率响应。相应地,如设码书中某重构矢量的功率谱为:则Itakura-Saito失真测度,其定义为:式中,-信号的阶自相关矩阵,-信号的自相关函数;-信号的的预测误差功率;-阶码书重构矢量的预测误差功率。Itakura-Saito失真测度是针对线性预测模型的,用最大似然准则导出,适用于LPC参数描述的语音信号情况。还推出一下两种线性预测的失真测度,它们比上述这种具有更好的性能。对数似然比失真测度。定义为:模型失真测度。定义为:这两种失真测度也有局限性,仅比较了两矢量的功率谱,没有考虑能量信息。12、什么是最佳码本的设计原则?什么是最近邻原则?所谓最佳设计,就是:(1) 从大量的信号样本中训练出优化的码书;(2) 从实际效果出发寻找好的失真测度;(3)用最少的搜索和计算失真的运算量实现最大的平均信噪比。最近邻准则(Nearest Neighbor Rule,NNR):-最佳划分对给定的码书(M为码书尺寸),找出所有码书矢量的最佳区域边界,以使平均失真最小,即寻找最佳划分。13、LBG算法流程?选择了失真测度后,就可进行矢量量化器的最佳设计。所谓最佳设计,就是使失真最小。由于码书就是在这个设计过程中产生的,所以也就是码书的设计过程。根据:u Voronoi条件:u 质心条件:可以构造一种码书设计的递推算法。这种算法是标量量化器中Lloyd算法的多维推广,由Linde,Buzo,Gray推广到多维空间,称为LBG算法。LBG算法:理论严密、应用简便以及较好的设计效果,得到广泛应用,是各种改进算法的基础。LBG算法步骤:(1) 设定码书和迭代训练参数:-全部输入的训练矢量的集合;-码书的容量;-最大迭代次数;-两个矢量的最小畸变阈值。(2) 初始化:个码字初值;畸变初值;迭代次数初值。(3) 将分成个子集:由最近邻准则,对于每个,若下式成立,判定。(4) 计算总畸变:(5) 计算畸变改进量的相对值:(6) 更新码书的码字:(7) 若满足,则转入(9)执行,否则,转入(8)执行。(8) 若满足,则转入(9)执行;否则,令,转入(3)执行。迭代终止:输出优化的最佳码书。14、什么叫做马尔可夫链?什么叫做隐马尔可夫过程?隐马尔可夫模型有哪些参数?请叙述这些参数的含义和定义?随机序列,在任一时刻,它可以处在状态,且它在时刻所处的状态为的概率,只与它在时的状态有关,而与时刻以前它所处的状态无关,即有:式中,则称为马尔可夫链。HMM是一个输出符号序列的统计模型,具有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知道)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论