版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、v1月20号晚上七点-九点,四工A107v选择题(2分,10题)v填空题(1分,15题)v文字解释(4分,5题)v简答题(9分,5题)没有计算题。语音信号处理 洪弘2第一章1.语音信号处理的实质:是研究用数字信号处理技术对语音信号进行处理的一门学科。2.语音信号处理的目的:v通过处理得到一些反映语音信号重要特征的语音参数,以便高效地传输或储存语音信号所包含的信息。v通过对语音信号进行某种运算,以达到某种要求。33.语音信号数字表示的优点v数字技术能完成许多很复杂的信号处理工作;v语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;v数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易
2、完成实时处理任务;v数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。第02章基础知识4第2章 语音信号基础知识v声音是一种波,振动频率在2020 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波第02章基础知识51. 人类的语言器官v人体发音器官肺、气管、喉(包括声带)和声道v肺是语音产生的能源所在;v声带为产生语音提供主要的激励源;v声道是指声门至嘴唇的所有器官:咽、鼻腔 、口腔等,它们具有非均匀截面,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)且随时间变化,起共鸣器(或谐振器)的作用。的作用。1 1、人类的语言器官、人类的语
3、言器官第02章基础知识62.语音产生过程肺声带声道直流气流声音嘴唇声压波速度波能源激励源谐振源辐射源交流气流2 2、语音信号产生过程、语音信号产生过程语音的形成过程空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。第02章基础知识72.语音产生过程浊音(Voiced sounds) :声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o;清音(Unvoiced or Fricative sounds) :声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开
4、启,空气压力快速释放 ,如b,p。2 2、语音信号产生过程、语音信号产生过程第02章基础知识8语音的两个重要声学特性:语音的两个重要声学特性:基音频率,共振峰基音频率,共振峰浊音的基音频率基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。声带张开和闭合一次的时间的倒数。人类基音频率的范围在80500 Hz左右。共振峰共振峰(Fn , n=1,2,.):声道是一个谐振腔,它放大声音气流声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。称之为共振
5、峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。2 2、语音信号产生过程、语音信号产生过程第02章基础知识9v共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。v语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。 v
6、元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。 v在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。v声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。 第02章基础知识103. 语音信号产生的数字模型下图是一个完整的语音信号产生的数字模型:3 3、语音信号产生的数字模型、语音信号产生的数字模型第02章基础知识11 由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分
7、:激励模型、声道模型、辐射模型激励模型 根据发浊音和发清音的机理又分为:(a)浊音激励 (b)清音激励3 3、语音信号产生的数字模型、语音信号产生的数字模型第02章基础知识12(a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。 由于人类语音的频率范围主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz。3 3、语音信号产生的数字模型、语音信号产生的数字模型(1)激励模型 第02章基础知识13
8、由图可见,它是一个低通滤波器低通滤波器。频率分析表明,其幅度谱按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型全极模型的形式,有G(z)1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。 第02章基础知识14 周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅
9、值因子可表示成下面的Z变换形式 E(z)AV/(1-z-1) (2-5)所以整个激励模型可表示为U(z)G(z)E(z)AV/(1-z-1) 1/ (1-g1z-1)(1-g2z-1) (2-6)3 3、语音信号产生的数字模型、语音信号产生的数字模型 第02章基础知识15(b)清音激励发清音时声道被阻碍形成湍流,所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可采用随机噪声发生器来产生此序列。3 3、语音信号产生的数字模型、语音信号产生的数字模型 第02章基础知识16声道模型两种建模方法:声管模型,共振峰模型共振峰模型将声道视为一个谐振腔,按此原则
10、导出。 基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:(a)级联型 (b)并联型 (c)混合型3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 第02章基础知识17(a)级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器:PkkkzaGzV11)(这是一个全极点模型,极点就是这个多项式的根:011Pkkkza若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 第02章基础知识182/1112/111)()(P
11、iiiPiizczbGzVGzVTFjTiiieep2*F=1/T - 取样频率 i/ - 共振峰的频宽。Fi是 - 共振峰(formant)的中心频率TFjTiiieep2这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型 第02章基础知识19(b)并联型适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:2/121
12、2/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。3 3、语音信号产生的数字模型、语音信号产生的数字模型第02章基础知识20 前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。3 3、语音信号产生的数字模型、语
13、音信号产生的数字模型(2) 声道模型 第02章基础知识21(c)混合型 我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的,以增强反谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 第02章基础知识22在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字高通滤波器拟这个现象,这个滤波器又叫做辐射模型(radiation model)3 3、语音信号产生的数字模型、语音信号产生的数字模型(3
14、) 辐射模型 第02章基础知识234. 语音信号的特性4 4、语音信号的特性、语音信号的特性图3-1 人的说话过程分为五个阶段第02章基础知识244.2 语音的声学特性1. 物理属性音色、音调、音强和音长;音色:也叫音质,是一种声音区别于另一种声音的基本特征,是由声道的位置和形状决定。音调:声音的高低,决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。音强:声音的强弱,由声波的振幅所决定。音长:声音的长短,取决于发音时间的长短。4 4、语音信号的特性、语音信号的特性第02章基础知识254.2 语
15、音的声学特性2. 语音的构成音节(syllable) 、音素音素(phoneme):语音发音的最小单位。我国传统分类元音(韵母):是当声带振动发出的声音气流在声道中不受阻碍,这种情况下产生的语音称为元音。元音属于浊音。辅音(声母):从声门呼出的声音气流,在声道通路中某一部分封闭起来或受到阻碍不能畅通,为克服发音器官的这种阻碍而产生的语音称为辅音。4 4、语音信号的特性、语音信号的特性第02章基础知识264.2 语音的声学特性 汉语语音的特点声、韵、调,音节在汉语中占有主要地位,它是由声母、韵母和声调声母、韵母和声调按一定的方式构成的,是语言的最小使用单位;音节结构简单,与其它语言相比汉语语音音
16、节和音素都很少。4 4、语音信号的特性、语音信号的特性第02章基础知识274.3语音的时间波形和频谱特性窄频带的语谱图(narrowband spectrograms) 宽窗宽窗语谱图的产生是用傅里叶转换(Fourier transform),当我们用较长的分析窗口(analysis windows),约20ms,对应频宽约为45 Hz,得到的频率分辨率较高,频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0) 。4 4、语音信号的特性、语音信号的特性第02章基础知识284.3语音的时间波形和频谱特性宽频带的语谱图(wideband spectrograms)
17、窄窗窄窗 若是在转换演算时用较少的取样点,分析窗口大约3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分,在语谱图上看不到等距的黑白相间。频率分辨率较低,反而是时轴上的分辨率较高,看到明显的垂直线条。4 4、语音信号的特性、语音信号的特性第02章基础知识29语音通信Speech Communication5 5、语音感知、语音感知第02章基础知识305. 人类的听觉功能人类在分辨声音时,是取决于频域上的分辨率,听觉器官等于是将时域的声音波形转换成在频域的频谱,能否听到声音或分辨声音,是取决于音强(intensity)与频谱(spectrum)。人耳对于1 kHz到5 kHz的声音最为敏感
18、,但是对于1 kHz以下与5 kHz以上的声音,就要较大的音强才听得到。5 5、语音感知、语音感知第02章基础知识315. 人类的听觉功能掩蔽效应(masking effect) 当某一频率的声音,有一特定音强存在时,另一个不同频率的声音要将音强提高才会被听到,这就是听觉掩蔽效应。分类 频率掩蔽:同时存在的声音,常常是低频的声音倾向于掩蔽掉高频的声音,这是一种频率掩蔽的现象。 时间掩蔽: 某一段时间存在一个声音,在此声音刚结束的一小段时间内,其它的声音会听不见这种掩蔽现象叫做时间掩蔽。 这个现象也会发生在此存在声音之前,这是由于声音在听觉器官中传递时延迟所造成的。5 5、语音感知、语音感知第0
19、2章基础知识32响度与响度级响度响度(Loudness,L)是一种主观心理量,人类主观感觉到的声音强弱程是一种主观心理量,人类主观感觉到的声音强弱程度度响度级是表示响度的主观量,它是以 1000 Hz的纯音作为基准,其噪声听起来与该纯音一样响时,就把这个纯音的声压级称为该噪声的响度级,单位为方( phon )。例如一个噪声与声压级是 85 分贝的 1000 赫兹纯音一样响,则该噪声的响度级就是 85 方。响度级是一个相对量,不能直接进行加减运算,为了计算绝对值和百分比,引入一个响度单位宋( Sone )。 1 宋是频率为 1000 赫兹、声压级为 40 分贝的纯音的感觉反应量,即: 40 方为
20、 1 宋。响度级每增加 10 方,响度相应改变 1 倍, 50 方为 2 宋, 60 方为 4 宋,等等。5 5、语音感知、语音感知贯穿于语音分析全过程的是贯穿于语音分析全过程的是“短时分析技术短时分析技术” 语音信号从整体来看其特征及表征其本质特语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个征的参数均是随时间而变化的,所以它是一个非平非平衡态过程衡态过程,不能用处理平衡信号的数字信号处理技,不能用处理平衡信号的数字信号处理技术对其进行分析处理。术对其进行分析处理。 但是在一个短时间范围内(一般认为在但是在一个短时间范围内(一般认为在10-10-30ms30ms
21、的短时间内),其特性基本保持不变即相对稳的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音定,因而可以将其看作是一个准稳态过程,即语音信号具有信号具有短时平稳性短时平稳性。3.2 3.2 语音信号的数字化和预处理语音信号的数字化和预处理 v语音信号的语音信号的数字化数字化一般包括放大及增益控制、反混叠滤波、采样、一般包括放大及增益控制、反混叠滤波、采样、A/DA/D变换及编码(一般就是变换及编码(一般就是PCMPCM码);码); 预处理一般包括预加重,加窗和分帧预处理一般包括预加重,加窗和分帧带 通 滤波器自动增益控制(AGC)模 / 数 转 换(A/D)脉冲
22、编码调制(PCM)语音信号存入计算机 预滤波的目的有两个:预滤波的目的有两个: 抑制输入信号各频域分量中频率超出抑制输入信号各频域分量中频率超出fs/2fs/2的所有分量(的所有分量(fsfs)为采样频率,)为采样频率,以防止混叠干扰。以防止混叠干扰。 抑制抑制50Hz50Hz的电源工频干扰。的电源工频干扰。v量化后的信号值与原信号值之间的差值称为量化后的信号值与原信号值之间的差值称为量化误差量化误差,又称为,又称为量化噪声量化噪声。v量化噪声符合具有下列特征的统计模型:量化噪声符合具有下列特征的统计模型: 它是平稳的白噪声过程它是平稳的白噪声过程 量化噪声与输入信号不相关量化噪声与输入信号不
23、相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分布量化噪声在量化间隔内均匀分布,即具有等概率密度分布矩形窗与汉明窗的比较矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21汉明窗-418/N-53从表从表3-1中我们可以看出,汉明窗的主瓣宽度比矩形窗大一中我们可以看出,汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明波形细节丢失;而汉明
24、窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。例如,选用不同的窗口将使时窗口的形状是至关重要的。例如,选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。域分析参数的短时平均能量的平均结果不同。3.3 3.3 语音信号的时域分析语音信号的时域分析v时域分析分为:时域分析分为:1.1.短时能量及短时平均幅度分析短时能量及短时平均幅度分析2.2.短时过零率分析短时过零率分析3.3.短时相关分析短时相关分析注意基本原理和思想,如何区分。注意基本原理和思想,如何区分。 短时能量及短时
25、平均幅度分析短时能量及短时平均幅度分析v 如图如图3-23-2所示,设语音波形时域信号为所示,设语音波形时域信号为x(t)x(t)、加窗分帧处理、加窗分帧处理后得到的第后得到的第n n帧语音信号为帧语音信号为x xn n(m),(m),则则x xn n(m)(m)满足下式:满足下式:x xn n(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T,并且并且N N为帧长,为帧长,T T为帧移长度。为帧移长度。v设第设第n n帧语音信号帧语音信号x xn n(m)(m)的的短时能量短时能量用用E En n表示,则其计算公式表示,则其计算公式如下:
26、如下:其它值mNmm, 0) 1(0, 1)(102)(NmnnmxE 短时能量及短时平均幅度分析短时能量及短时平均幅度分析 短时能量及短时平均幅度分析短时能量及短时平均幅度分析vE En n是一个度量语音信号幅度值变化的函数,但它有一个缺陷,是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方即它对高电平非常敏感(因为它计算时用的是信号的平方) )。为此,可采用另一个度量语音信号幅度值变化的函数,即为此,可采用另一个度量语音信号幅度值变化的函数,即短短时平均幅度函数时平均幅度函数M Mn n,它定义为:,它定义为:vM Mn n也是一帧语音信
27、号能量大小的表征,它与也是一帧语音信号能量大小的表征,它与E En n的区别在于计的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。某些应用领域中会带来一些好处。10)(NmnnmxM 短时过零率分析短时过零率分析v短时过零率表示一帧语音中语音信号波形穿过横轴短时过零率表示一帧语音中语音信号波形穿过横轴( (零电平零电平) )的次数。过零分析是语音时域分析中最简单的一种。对于连的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离续语音信号,过零即意
28、味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。是样本改变符号的次数。v定义语音信号定义语音信号x xn n(m)(m)的的短时过零率短时过零率Z Zn n为:为:v式中,式中,sgnsgn是符号函数,即是符号函数,即10)1(sgn)(sgn21NmnnnmxmxZ) 0(, 1) 0(, 1sgnxxx 短时过零率分析短时过零率分析v利用短时平均过零率还可以从背景噪声中找出语音信号,可利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在
29、孤立词用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时
30、,如当弱摩擦音(如以某些音为开始或结尾时,如当弱摩擦音(如ff、hh等音等音素素) )、弱爆破音、弱爆破音( (如如pp、tt、kk等音素等音素) )为语音的开头或结为语音的开头或结尾;以鼻音尾;以鼻音( (如如ngng、nn、mm等音素等音素) )为语音的结尾时,只为语音的结尾时,只用其中一个参量来判别语音的起点和终点是有困难的,必须用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。同时使用这两个参数。 短时相关分析短时相关分析v相关分析是一种常用的时域波形分析方法,并有自相关和互相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。相关
31、之分。这里主要讨论自相关函数。自相关函数自相关函数具有一些具有一些性质,如它是偶函数;假设序列具有周期性,则其自相关函性质,如它是偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们可以把自相关函数的这些数也是同周期的周期函数等。我们可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,对浊音语音可以性质应用于语音信号的时域分析中。例如,对浊音语音可以用自相关函数求出语音波形序列的基音周期。此外,在进行用自相关函数求出语音波形序列的基音周期。此外,在进行语信号的线性预测分析时,也要用到自相关函数。和其他语语信号的线性预测分析时,也要用到自相关函数。和其他语音参数一样,在
32、语音信号分析中,我们分析的是音参数一样,在语音信号分析中,我们分析的是短时自相关短时自相关函数函数。 1 1短时自相关函数短时自相关函数v定义语音信号定义语音信号x xn n(m)(m)的的短时自相关函数短时自相关函数R Rn n(k)(k)的计算式如下:的计算式如下:v这里这里K K是最大的延迟点数。是最大的延迟点数。v短时自相关函数具有以下短时自相关函数具有以下性质性质:v(1)(1)如果如果x xn n(m)(m)是周期的是周期的( (设周期为设周期为N)N),则自相关函数是同周,则自相关函数是同周期的周期函数,即期的周期函数,即R Rn n(k)=R(k)=Rn n(k+N(k+Np
33、p) )。v(2)R(2)Rn n(k)(k)是偶函数,即是偶函数,即R Rn n(k)=R(k)=Rn n(-k)(-k)。v(3)(3)当当k=0k=0时,自相关函数具有最大值,即时,自相关函数具有最大值,即R Rn n(0)|R(0)|Rn n(k)|(k)|,并且并且R Rn n(0)(0)等于确定性信号序列的能量或随机性序列的平均等于确定性信号序列的能量或随机性序列的平均功率。功率。KkkmxmxkRkNmnnn0 , )()()(10 2.2.修正的短时自相关函数修正的短时自相关函数v修正的短时自相关函数是用两个长度不同的窗口,截取两个修正的短时自相关函数是用两个长度不同的窗口,截
34、取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数点数K K。这样就能始终保持乘积和的项数不变,即始终为短。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。窗的长度。修正的短时自相关函数修正的短时自相关函数定义为:定义为: 其中,其中,KkkmxmxkRNmnnn0 , )()()(10其它值mNmm, 0) 1(0, 1)()0(),()()(Kkmnxmmxn)10(),()( )(KNkmnxmmxn其它值mKNmm, 0)1(0, 1)( 2 2修正的短时自相关函数修正的短时自相关函数 短时平均幅度差函数短时平均幅度
35、差函数v短时自相关函数短时自相关函数是语音信号时域分析的重要参量。但是,计是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换间较长。利用快速傅里叶变换(FFT)(FFT)等简化计算方法都无法等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,值。为此常常采用另一种与自相关函数有类似作用的参量,即即短时平均幅度差函数短时平均幅度差函数(AMDF)(AMDF)
36、。v平均幅度差函数能够代替自相关函数进行语音分析,是基于平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号这样一个事实:如果信号是完全的周期信号( (设周期为设周期为N Np p) ),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。则相距为周期的整数倍的样点上的幅值是相等的,差值为零。 短时平均幅度差函数短时平均幅度差函数v即:即:v对于实际的语音信号,对于实际的语音信号,d(n)d(n)虽不为零,但其值很小。这些极虽不为零,但其值很小。这些极小值将出现在整数倍周期的位置上。为此,可定义小值将出现在整数倍周期的位置上。为此,可定义短时平均短时平均
37、幅度差函数幅度差函数:v可以证明平均幅度差函数和自相关函数有密切的关系,两者可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可由下式表达:之间的关系可由下式表达:,.)2, 0( , 0)()()(ppNNkknxnxndkNmnnnkmxmxkF10)()()(2/1)()0()(2)(kRRkkFnnn 短时平均幅度差函数短时平均幅度差函数3.4 3.4 语音信号的频域分析语音信号的频域分析v语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、频谱包络分析等,而常用的
38、频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。傅里叶变换法、线性预测法等几种。v因为语音波是一个非平稳过程,因此适用于周期、瞬变或平因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为的频谱称为“短时谱短时谱”。3.5 3.5 语音信号的倒谱分析语音信号的倒谱分析v语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它语音信号的倒谱分析就是求取语音倒谱特征参数的过程
39、,它可以通过同态处理来实现。同态信号处理也称为同态滤波,可以通过同态处理来实现。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷,可将语音信号的声门激励信息及声道对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。于语音编码、合成、识别等。v对语音信号进行解卷,求取倒谱特征参数的方法有两种,一对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性预测分析,一种
40、是同态分析处理。种是线性预测分析,一种是同态分析处理。 语音信号倒谱分析实例语音信号倒谱分析实例2 2MELMEL频率倒谱参数(频率倒谱参数(MFCCMFCC)v与普通实际频率倒谱分析不同,与普通实际频率倒谱分析不同,MFCCMFCC(Mel-Frequency Mel-Frequency Cepstral CoefficentsCepstral Coefficents,简称,简称MFCCMFCC)的分析着眼于人耳的听)的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用成线性正比关系,而用MelMel
41、频率尺度则更符合人耳的听觉特频率尺度则更符合人耳的听觉特性。所谓性。所谓MelMel频率尺度,它的值大体上对应于实际频率的对频率尺度,它的值大体上对应于实际频率的对数分布关系。数分布关系。MelMel频率与实际频率的具体关系可用式(频率与实际频率的具体关系可用式(3-893-89)表示:表示:v这里,实际频率的单位是这里,实际频率的单位是HzHz。)700/1lg(2595)(ffMel 语音信号倒谱分析实例语音信号倒谱分析实例3.6 3.6 语音信号的线性预测分析语音信号的线性预测分析v线性预测分析线性预测分析的基本思想是:由于语音样点之间存的基本思想是:由于语音样点之间存在相关性,所以可以
42、用过去的样点值来预测现在或在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。号特征参数用于语音识别、语音合成等。3.7 3.7 基
43、音周期估计基音周期估计v基音检测算法,如基音检测算法,如自相关函数自相关函数(ACF)(ACF)法、峰值法、峰值提取算法提取算法(PPA)(PPA)、平均度差函数、平均度差函数(AMDF)(AMDF)法、并法、并行处理技术、倒谱法、行处理技术、倒谱法、SIFTSIFT、谱图法、小波、谱图法、小波法法等等。等等。3.8 3.8 共振峰估计共振峰估计v方法:方法: 带通滤波器组法带通滤波器组法 倒谱法倒谱法量化分为两类:量化分为两类: * * 标量量化标量量化:将取样后的信号值逐个地:将取样后的信号值逐个地进行量化。进行量化。 * * 矢量量化矢量量化:将若干取样信号分成一组,:将若干取样信号分成
44、一组,即构成一个矢量,然后对此矢量一次进行即构成一个矢量,然后对此矢量一次进行量化。量化。采用矢量量化的效果优于标量量化的原因?采用矢量量化的效果优于标量量化的原因? 矢量量化能有效的应用矢量中各分量矢量量化能有效的应用矢量中各分量之间的四种相互关联性质来消除数据中的之间的四种相互关联性质来消除数据中的冗余度。这四种相互关联的性质是线性依冗余度。这四种相互关联的性质是线性依赖赖( (相关性相关性) )、非线性依赖、非线性依赖( (统计不独立统计不独立) )、概率密度函数的形状和矢量量化的维数,概率密度函数的形状和矢量量化的维数,而标量量化仅能利用线性依赖和概率密度而标量量化仅能利用线性依赖和概
45、率密度函数的形状来消除冗余度。函数的形状来消除冗余度。矢量量化研究的目的?矢量量化研究的目的? 针对特定的信息源和矢量维数,设计针对特定的信息源和矢量维数,设计出一种最优化的量化器,在出一种最优化的量化器,在R(量化速(量化速率)一定的情况下,给出的量化失真尽率)一定的情况下,给出的量化失真尽可能接近可能接近D(R)(最小量化失真最小量化失真)。图图7-2 7-2 矢量量化系统的组成矢量量化系统的组成 工作过程工作过程:v在编码端在编码端,输入矢量,输入矢量X Xi i与码书中的每一个码字进行与码书中的每一个码字进行比较,分别计算出它们的失真。搜索到失真最小的比较,分别计算出它们的失真。搜索到
46、失真最小的码字码字 的序号的序号 (或该码字所在码书中的地(或该码字所在码书中的地址),这些序号就作为传输或存储的参数。址),这些序号就作为传输或存储的参数。v在恢复时在恢复时,根据此序号从恢复端的码书中找出相应,根据此序号从恢复端的码书中找出相应的码字的码字 。由于两本码书完全相同,此时失真。由于两本码书完全相同,此时失真最小,所以最小,所以 就是输入矢量就是输入矢量X Xi i的重构矢量。的重构矢量。 minjYjminjYminjY 失真测度(距离测度):是将输入矢量失真测度(距离测度):是将输入矢量Xi用码本重构矢量用码本重构矢量Yi来表征时所产来表征时所产生的误差或失真的度量方法,它
47、可以描述两个或多个模型矢量间的相似生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度程度矢量量化特点:矢量量化特点:传输存储的不是矢量本身而是其序号,所以传输存储的不是矢量本身而是其序号,所以据有高保密性能据有高保密性能收发两端没有反馈回路,因此比较稳定收发两端没有反馈回路,因此比较稳定矢量量化器的关键是编码器的设计,译码器矢量量化器的关键是编码器的设计,译码器只是简单的的查表过程。只是简单的的查表过程。失真度选择必须具备的特性失真度选择必须具备的特性v必须在主观评价上有意义,即小的失真应该对应于必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量;好的主观语音质量;v
48、必须是易于处理的,即在数学上易于实现,这样可必须是易于处理的,即在数学上易于实现,这样可以用于实际的矢量量化器的设计;以用于实际的矢量量化器的设计;v平均失真存在并且可以计算;平均失真存在并且可以计算;v易于硬件实现易于硬件实现 失真测度主要有均方误差失真测度(即欧氏距失真测度主要有均方误差失真测度(即欧氏距离)、加权的均方误差失真测度、板仓斋藤离)、加权的均方误差失真测度、板仓斋藤(ItakuraItakuraSaitoSaito)距离,似然比失真测度等,还)距离,似然比失真测度等,还有人提出的所谓的有人提出的所谓的“主观的主观的”失真测度。失真测度。4.5 4.5 降低复杂度的矢量量化系统
49、降低复杂度的矢量量化系统 矢量量化系统主要由编码器和译码器组成矢量量化系统主要由编码器和译码器组成:编码器主要由码书搜索算法和码书构成,编码器主要由码书搜索算法和码书构成,译码器由查表方法和码书构成。译码器由查表方法和码书构成。 矢量量化器的研究主要围绕降低速率、减少失真和矢量量化器的研究主要围绕降低速率、减少失真和降低复杂度展开。降低复杂度展开。 降低复杂度的设计方法大致分为两类:降低复杂度的设计方法大致分为两类:一类是无记忆的矢量量化器,一类是无记忆的矢量量化器,另一类是有记忆的矢量量化器另一类是有记忆的矢量量化器。隐马尔可夫模型隐马尔可夫模型(HMM)(HMM)是一个输出符号序列是一个输
50、出符号序列的统计模型,具有的统计模型,具有NN个状态,它按一定的周期个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知符号序列时,是通过了哪些状态路径,不能知道),所以称为隐藏的马尔可夫模
51、型。道),所以称为隐藏的马尔可夫模型。 v是要以最少的数码表示信源所发的信号,语音编码属于信源是要以最少的数码表示信源所发的信号,语音编码属于信源编码的范畴。语音编码通过减少传输码率(或存储量),来编码的范畴。语音编码通过减少传输码率(或存储量),来达到提高传输(或存储)效率的目的。作为传输语音的压缩达到提高传输(或存储)效率的目的。作为传输语音的压缩技术,语音编码在通信史上一直都扮演着极为重要的角色。技术,语音编码在通信史上一直都扮演着极为重要的角色。v语音编码分为三类:语音编码分为三类: * * 波形编码:重建后的语音时域信号的波形与原语音信号保波形编码:重建后的语音时域信号的波形与原语音
52、信号保持一致。持一致。 * * 参数编码:通过建立语音信号的产生模型,提取其特征参参数编码:通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配,又称声码器技术。数来编码,波形上不要求与原信号匹配,又称声码器技术。 * * 混合编码混合编码:有机结合以上两种编码方式,基于语音产生模:有机结合以上两种编码方式,基于语音产生模型的假定并采用分析合并技术。型的假定并采用分析合并技术。v语音编码(语音编码(Speech CodingSpeech Coding) 从信息论角度看,信源编码从信息论角度看,信源编码三种编码方式的比较三种编码方式的比较波形编码参数编码混合编码编码信息波形
53、模型参数综合比特率9.664Kbps2.49.6Kbps1624Kbps优点适应能力强,语音质量好有效降低了编码比特率语音质量明显提高缺点随着量化粗糙语音质量下降合成语音质量低,处理复杂度高编码速率明显上升典型代表自适应差分编码调制(ADPCM)LPC- 10、LPC- 10E 多脉冲激励线性预测编码(MPLPC)规则脉冲激励线性预测编码(RPE-LPC)语音编码发展史语音编码发展史v早期的声码器基于对语音信号基音周期与频谱的分析,主要包括通道声码器,共振峰声通道声码器,共振峰声码器与模式匹配声码器。码器与模式匹配声码器。 语音编码依据之一:语音信号冗余度语音编码依据之一:语音信号冗余度 基本
54、基本时域时域冗余:冗余:u语音信号幅度非均匀分布性语音信号幅度非均匀分布性u语音信号样本间的强相关性语音信号样本间的强相关性u浊音语音段具有的准周期性浊音语音段具有的准周期性u声道形状及其变化的缓慢性声道形状及其变化的缓慢性u静止系数静止系数 (即语音间隙性)(即语音间隙性) 基本基本频域频域冗余:冗余:u从长时间的功率谱密度来看,语音信号具有从长时间的功率谱密度来看,语音信号具有强烈的非平坦型,存在着固定的冗余度。而强烈的非平坦型,存在着固定的冗余度。而且高频能量通常较低,恰好对应于时域上的且高频能量通常较低,恰好对应于时域上的相邻样本相关性。相邻样本相关性。u从短时功率谱密度来看,语音信号
55、在不同频从短时功率谱密度来看,语音信号在不同频率交替出现峰值(共振峰)与谷值。整个功率交替出现峰值(共振峰)与谷值。整个功率谱的细节基于基音频率形成高次谐波结构。率谱的细节基于基音频率形成高次谐波结构。 语音编码依据之二:人的听觉特点语音编码依据之二:人的听觉特点n人类听觉系统存在着掩蔽系统,即高声级单人类听觉系统存在着掩蔽系统,即高声级单音会明显掩蔽临近频率声音。音会明显掩蔽临近频率声音。n对于不同频段的声音,人耳的敏感程度不尽对于不同频段的声音,人耳的敏感程度不尽相同,对低频端比较敏感(基频、共振峰所相同,对低频端比较敏感(基频、共振峰所集中在这里),对高频端不太敏感。集中在这里),对高频
56、端不太敏感。n人类对于语音信号的周期性(即音调)极为人类对于语音信号的周期性(即音调)极为敏感,但对信号的相位却充耳不闻,这与理敏感,但对信号的相位却充耳不闻,这与理论分类存在差异。论分类存在差异。n人耳听觉特性对语音幅度分辨率是有限的。人耳听觉特性对语音幅度分辨率是有限的。语音压缩系统的性能评判指标语音压缩系统的性能评判指标较为重要的性能评价准则较为重要的性能评价准则l编码速率(比特率),决定了编码器工作时占用的信道编码速率(比特率),决定了编码器工作时占用的信道带宽,要求尽可能降低。带宽,要求尽可能降低。l编码器的完健性,要求良好。编码器的完健性,要求良好。l编码器的时延,要求最小化。编码
57、器的时延,要求最小化。l误码容限,要求保持较高值。误码容限,要求保持较高值。l算法复杂度(包括运算复杂度与内存要求),影响硬件算法复杂度(包括运算复杂度与内存要求),影响硬件成本,尽可能降低。成本,尽可能降低。l算法可扩展性,越高越好。算法可扩展性,越高越好。 6.3 6.3 语音信号的波形编码语音信号的波形编码v波形编码波形编码 波形编码是语音编码系统在早期所广泛采用的方波形编码是语音编码系统在早期所广泛采用的方法,它把语音信号当成普通的波形信号来处理从而保持原波法,它把语音信号当成普通的波形信号来处理从而保持原波形形状。形形状。 波形编码适应能力强,合成语音质量好,但比特率过高,波形编码适
58、应能力强,合成语音质量好,但比特率过高,编码的效率也不尽如人意。编码的效率也不尽如人意。v几种典型的波形编码:几种典型的波形编码:l脉冲编码调制(脉冲编码调制(PCMPCM)l自适应预测编码自适应预测编码l自适应增量调制(自适应增量调制(ADMADM)l自适应差分脉冲编码调制(自适应差分脉冲编码调制(ADPCMADPCM)l子带编码(子带编码(SBCSBC)自适应增量调制(自适应增量调制(ADMADM) 增量调制的基本方案:增量调制的基本方案: 增量调制方式将下一个语音信号与当前语音信号增量调制方式将下一个语音信号与当前语音信号比较,如果高与当前值则系统则编码比较,如果高与当前值则系统则编码1
59、 1,否则系统编,否则系统编码码0.0. 自适应增量调制的工作方式:自适应增量调制的工作方式: 自适应增量调制随输入波形自适应的改变量化自适应增量调制随输入波形自适应的改变量化阶梯的大小,在信号平均斜率大时自动增大量化阶梯,阶梯的大小,在信号平均斜率大时自动增大量化阶梯,反之减小。反之减小。 自适应差分脉冲编码调制(自适应差分脉冲编码调制(ADPCMADPCM) 差分脉冲编码调制(差分脉冲编码调制(DPCMDPCM):): 不同于不同于DMDM的一位编码,的一位编码,DPCMDPCM多位量化对两个采样多位量化对两个采样之间的差分信号利用多位量化进行编码,使信息量得之间的差分信号利用多位量化进行
60、编码,使信息量得到压缩的同时降低了信道负载。到压缩的同时降低了信道负载。 子带编码(子带编码(SBCSBC)子带编码原理:子带编码原理: 子带编码属于频域编码,它首先将语音信号通过带通子带编码属于频域编码,它首先将语音信号通过带通滤波器分割为若干频带(子带),而后对子带信号进行滤波器分割为若干频带(子带),而后对子带信号进行频谱平移变为基带信号,再利用奈奎斯特速率抽样,最频谱平移变为基带信号,再利用奈奎斯特速率抽样,最后进行编码处理后进行编码处理。 子带编码优点:子带编码优点:l分带后可去除信号相关性,获得与时域一样的效果。分带后可去除信号相关性,获得与时域一样的效果。l不同子带拥有不同比特数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度国际会议兼职同声传译及外教聘请协议3篇
- 二零二五年度城市污水处理厂承包管理服务协议4篇
- 二零二五年度大型活动现场解说配音合作协议4篇
- 2025年喷灌系统节水技术创新合作合同4篇
- 2025年度农产品供应链金融合作协议-@-1
- 二零二五年度展览馆场地租赁与展会组织服务合同3篇
- 2025年金融科技支付系统开发与运营合同3篇
- 二零二五年度厨房设备租赁合同期满资产回收合同4篇
- 2025年度汽车改装店洗车合作协议范本
- 惠州2025版房地产居间服务合同书范本6篇
- 茉莉花-附指法钢琴谱五线谱
- 结婚函调报告表
- SYT 6968-2021 油气输送管道工程水平定向钻穿越设计规范-PDF解密
- 冷库制冷负荷计算表
- 肩袖损伤护理查房
- 设备运维管理安全规范标准
- 办文办会办事实务课件
- 大学宿舍人际关系
- 2023光明小升初(语文)试卷
- GB/T 14600-2009电子工业用气体氧化亚氮
- 申请使用物业专项维修资金征求业主意见表
评论
0/150
提交评论