声音信号的特征检测_第1页
声音信号的特征检测_第2页
声音信号的特征检测_第3页
声音信号的特征检测_第4页
声音信号的特征检测_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语言是人类最为重要的交流工具,它具有简易方便,准确自然等其他工具所无法替代的特点。随着信息社会的迅速发展,计算机已经渗透进人类生活工作的每一个角落,因此人机交互显得尤其重要。在人机交互的各种通信方式中,语音通信又是最好的交流方式,而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。因此,声音信号的特征检测在语音信号处理中是一项非常重要的工作。本文利用MATLAB软件检测声音信号的特征参数,以语音信号为主,首先讨论了声音信号的基本特性,包括声音信号的产生,传播,声学特性等等。然后又分别讨论了声音信号在时域,变换域的特征参数。最后详细研究了声音信号的特征参数的检测提取。第一章声音信号

2、的基本特征1.1声音信号的产生声音是一种波,它是由物体振动产生的,能被人耳听到,它的振动频率在2020000Hz之间。自然界中有各种各样的声音,如雷声,树叶被风吹时发出的“飒飒”声,大海波涛汹涌的翻滚声,机械工作时发出的声音等等。语音也是声音的一种,它是由人的发声器官发出的,语音的振动频率最高可达15000Hz。语音信号的产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言表达的信息;然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度。基音周期的升降等表示出来。一旦对这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带震动,并塑造声道的形状以便发出

3、编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位:唇、腭、舌头以及控制气流进入鼻腔的软腭。一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。听者内耳的基底膜对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取过程有些类似。作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。人类的语音是由人体发声器官在大脑控制下的生理运动产生的。人的发声器官包括肺、气管、喉、咽、鼻腔和口腔等,如图1-1所示。喉以上的部分称为声道,发出声音的不同会导致其形状的变化,

4、所以再HJH-FI听到的声音也不同;而喉(包括声带)的部分称为声门,呼吸时左右两声带打开,讲话时则合拢。声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期,其倒数称为基因频率,简称基频。基因频率取决于声带的尺寸和特性,也决定于它所受的张力。声带振动的频率决定了声音频率的高低,频率快则音频高,频率慢则音调低。基音的范围约为80-500Hz左右,它随发音人的性别、年龄及具体情况而定,老年男性偏低,小孩和青年女性偏高。现在我们来讨论一下声音的产生过程。其原理图如图1-2所示。根据声带是否震动,语音又分为浊音和清音。在发声的过程中,肺当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音

5、成为浊音,没有声带振动的音称为清音。当声带处于松弛状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。另一种方式是声带处于松懈状态,利用舌头和嘴唇关闭声音,暂时阻止气流。当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。对应于声道闭紧点的不同位置和主浄道;鼻道次声门系统;声门以上.经咽喉.腔的管道。经丿I舌和異的百道称育算道d经脯,气哲和支气官的溼道。声道的形状,形成不同的爆破音。综上所述,声道是气流自声门之后最为重要的器官,

6、它是一个具有分布参数系统的谐振腔,因而有许多谐振频率。谐振频率由瞬态的声道外形所决定。人在说话的时候舌和唇连续运动,使得声道发生外形和尺寸上的改变,随即改变了谐振频率。谐振频率发生在F_(2ni)c,n=l,2,3,.n4LC为声速,空气中c=340m/s。L为声道长度,n表示谐振频率的序号。这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓或者谱包络。声音的频率特性也主要是由共振峰决定的。其中共振峰特性和元音的音

7、色密切相关。l.2声音信号的特征1.2.1声音信号的基本特性声音是一种波,它具有以下几种物理特征:音质。它是一种声音区别于其他声音的基本特征。Q音调。就是声音的高低。音调取决于声波的频率,频率快音调就高,频率慢音调就低。响度。响度表示声音的强弱,它是由声波振动幅度决定的。音长。它表示声音的长短,是由发音持续时间的长短决定的。除了有物理特征外,它还具有另一个重要的性质,这就是声音总是能表达一定的意义和思想内容。而且不仅如此,它还能表达出一定的语气、情感。因此,声音中所包含的信息是丰富多彩的。我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的语音片段的,称

8、为音节。音节是构成语音的最小单位,是发声的最小单位。而一个音节又是由一个或若干个音素构成,音素是语音的最小、最基本的组成单位。各种音素组合到一起构成了不同的音节,各种音节组合到一起又构成了更大的单位词,词是文章的基础,是有意义的语言的最小单位。任何语音都有元音和辅音两种音素。一个音节由元音和辅音构成。元音是由声带的振动发出的声音,它是一个音节的主要部分。每个元音的特点是由声道的形状和尺寸决定的。所有元音都是浊音。辅音则是由呼出的气流克服发音器官的阻碍而产生的。发辅音时如果声带不振动,称为清辅音;发辅音时如果声带振动,则称为浊辅音。1.2.2声音信号的时域波形及特性在进行声音信号数字化处理时,能

9、最为直观的了解声音信号的方式便是看它的时域波形。下面我们利用计算机声卡录音,看一下这段声音的时域波形。要求采样频率为8kHz,每个采样点用16位进行量化,录音时间为Is,内容为“你好”图中横轴为时间,纵轴为信号的幅度。从图l-3(a)中可以看出声音能量的起伏,以及声音信号随时间变化的过程。图1-3(b)是将“好”的元音部分laol拉长后的形状。图1-3(c)是“好”的辅音/h/的波形图。1.510.50-0.5-1-1.5x104语音波形10002000300040005000600070008000图1-3(a)语音信号“你好”的时域波形21.510.50-0.5-1-1.5-2-2.5x1

10、0410002000300040005000600070008000图1-3(b)元音部分laol的波形-250002500语音波形2000150010005000-500-1000-1500-200010002000300040005000600070008000图1-3(c)辅音部分/h/的波形可以看出,元音/ao/的波形具有很强的准周期性并且有较强的振幅。它的周期对应的就是基音频率。而/h/的波形类似于白噪声,并且振幅也弱一些。1.2.3声音信号的频域波形及特性前面我们所研究的时域波形虽然简单直观,但是对于一些复杂的声音信号一些特性只有在频域中才能体现出来;并且频谱是表征语音特征的基本参

11、数。共振峰即是一个典型的频域参数,它决定了信号频谱的包络。在声音的发音过程中,声道通常都处于运动状态,但是这个运动状态的时变过程同振动过程相比要缓慢得多,因此我们研究声音信号的时候都要假设其为一种短时平稳信号,一般都假定在10ms30ms之内是相对平稳的,但在长时间的周期中声音信号的特性会发生变化,这种变化的不同决定了声音的不同。根据声音信号这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。图1-4给出了“你好”的频谱特性。图1-4“你好”的频谱1.2.4语谱图前面的频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。由于语音信号是一种短时平稳信号,

12、可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量。这种视频图称为语谱图。能量功率谱的表达式为Pxn,=|Xn,|22N+1其中,X(n,)=k=xknkejk;n是一个长度为2N+1的窗函数,X(n,)表示在时域以n点为中心的一帧信号的傅里叶变换在处的大小。在实际情况下,一般不用对每个可能的频率和时间计算相应的能量。对于频率轴,一般计算2N+1点就足够;对于时间轴,取N个点也足够了。40A)0BWKJJg卯.15WOO2WW2400图1-5一段语音的语

13、谱图图1-5给出了一段语音的语谱图。图中横轴表示时间,纵轴表示频率,颜色的深浅表示该处能量的大小,一般用能量的对数表示。4au4tWO阳加3IK3Q2000i:Vin第二章声音信号的特征分析对于声音信号的分析所采用的主要技术是“短时分析技术”。声音信号的特征是随时间变化的,是一个非稳态的过程。但即便如此,由于发声时人的口腔肌肉运动频率相对于语音频率来讲是相对缓慢的,所以在一个短时间范围内,它的基本特征是可以被认为是保持不变的,那么我们就可以将其视为一个准稳态过程因此,对于一段较长的语音我们必须将其分为一段一段的“帧”进行处理,帧长一般取10ms30ms。对声音信号进行特征分析之前,首先需要对信

14、号进行数字化处理,这一部分我们只做简单讨论。2.1声音信号的数字化2.1.1采样与量化声音信号在时间和幅度上都是连续变化的模拟信号,如果想在计算机上对其处理必须先进行采样和量化,将它变成在时间和幅度上都离散的数字信号。所谓采样,就是把模拟信号在时域上进行等间隔抽样,其中两相邻抽样点之间的间隔称为采样周期,倒数为采样频率。根据奈奎斯特采样定理,采样频率必须大于声音信号最高频率的2倍,只有这样,在恢复信号的时候才能确保原始信号被完整地重构。在实际语音信号处理中,采样频率一般为8kHz10kHz.采样后的信号在时间上是离散的,但在幅度上仍然保持连续,所以要进行量化处理。量化就是将信号的幅度分成若干个

15、有限的区间,并且把同一区间的样本点都用一个幅度值表示,这个幅度值称为量化值。量化有3种方式:零记忆量化、分组量化和序列量化。其中零记忆量化是最简单的一种,它的输入-输出特性采用阶梯型函数的形式。信号经过量化后,一定存在一个量化误差。其定义为en=x1(n)-x(n)式中,e(n)为量化误差;x1(n)为量化后的采样值,即量化的输出;x(n)为未量化的采样值,即量化的输入。经过采样和量化后,一般还要对信号进行预加重。其实质就是提升高频部分,使信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。预加重滤波器一般是一阶的形式如下H(z)=1-uz-1式中,值接近于1,一般取值在0.940.97之间

16、。预加重后的信号在分析处理后,需要进行去加重处理。2.1.2短时加窗处理为了得到短时声音信号,要对声音信号进行加窗处理。窗函数在声音信号上滑动,将声音信号分成帧。分帧可以连续,也可以采用交叠分段的方法,交叠部分称为帧移,一般为窗长的一半。在加窗的时候,不同的窗口选择将会得到不同的分析结果。在选择窗函数时,需要考虑两个问题。(1)窗函数形状窗函数可以选择矩形窗,其表达式为1,01n=0,其他也可以选择汉明窗,表达式为0.540.46cosinL,01N-10,其他-100或汉宁窗0.51(n)=cos(2n,onN1N-10,其他式中,N为窗口长度。虽然这些窗函数的频率响应都具有低通特性,但不同

17、的窗函数形状将影响分帧后短时特征的特性。我们拿矩形窗和汉明窗作比较。图2-1(a)给出了N=51时的矩形窗及其频率响应的对数幅度。51点汉明窗的频率响应如图2-1(b)所示。可以看出,汉明窗的第一个零值频率位置比矩形窗要大一倍左右,也就是说,汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。从两个图中也可以看出在通带外,汉明窗的衰减比矩形窗大得多。|(eW01矩形窗的傅里叶变换0-20-40-60-80Ai.i|,|I00.2归一化频率pi-100-100图2-1(a)矩形窗Hamming的傅里叶变换0Bd/|)e(W|gol0020-3-0.2归一化频率pi0-50-60-0-80-90-图2-l

18、(b)汉明窗(2)窗函数长度窗函数长度对能否反映声音信号的幅度变化其决定性的作用。如果N特别大,即等于几个基音周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将和慢地变化,因而也就不能充分反映波形变化的细节;反之,如果N特别小,即等于或小于一个基音周期的量级,则信号的能量将按照信号波形的细微状况而很快地起伏。如果N太小,滤波器的通带变宽,则不能得到较为平滑的短时信息,因此窗函数的长度要选择合适。窗函数的衰减基本上与窗的持续时间无关,因此当改变宽度N时,只会使带宽发生变化。综上所述,矩形窗的频谱平滑性较好,但波形细节容易丢失,并且矩形窗会产生泄露现象;而汉明窗可以有效地克服泄漏现象,应

19、用更为广泛。2.2声音信号的时域参数分析2.2.l短时能量分析声音信号的能量分析是基于声音信号能量所时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多这一特性。声音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号x(n),短时能量的定义如下:En=m=xmnm2=m=h(nm)x2(m)=x2h(n)式中,h(n)=2(n),En表示在信号的第n个点开始加窗函数时的短时能量。根据定义式可以看出,窗函数加权的短时能量相当于声音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲击响应为h(n)。冲激响应h(n)的选择,或者说窗函数的选择决定了短时能量表示方法的特

20、点。为了反映窗函数选择对短时能量的影响,假设h(n)非常长,且为恒定幅度,那么En随时间的变化将变为很小,这样的窗就等效为很窄的低通滤波器。我们要求的是对声音信号进行低通滤波,但还不是很窄的低通滤波,至少短时能量应能反映声音信号的幅度变化。因此出现了窗长选取上的矛盾,这种矛盾将在声音信号的短时表示方法的研究中反复出现。即希望有一个短时窗(冲激响应),以响应快速的幅度变化。但是,太窄的窗将得不到平滑的能量函数,并且窗函数的形状和长短直接影响着短时能量的性质。如果用x(n)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为En=S+n1X2(m)短时能量En反映了声音能量随着时

21、间缓慢变化的规律,它的主要用途有:首先可以从清音中区分出浊音来,因为浊音的能量要比轻音的能量大得多;其次可以用来确定声母与韵母,无声与有声,连字等的分界。除此之外短时能量还可以作为一种超音段信息用于语音识别。短时能量由于是对信号进行平方运算,因而人为增加了高低信号之间的差距,在一些应用场合不太适用。解决这个问题的简单方法是采用短时平均幅值来表示能量的变化,其公式为Mn=m=Xmnm=m+n1|X(m)l这里用加窗后的信号的绝对值之和代替平方和,使运算进一步简化。图2-2(a)加矩形窗的声音文件“你好”的短时平均能量图2-2(b)加矩形窗的声音文件“你好”的短时平均幅度2.2.2短时平均过零率短

22、时平均过零率是声音信号时域分析中最简单的一种特征,它是指每帧内信号通过零值的次数。对于连续声音信号,可以考察其时域波形通过实践轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零,由此可计算过零率。过零率就是样本改变符号的次数。单位时间内的过零率称为平均过零率。如果信号是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率,采样频率是固定的,因此过零率在一定程度上可以反映出频率的信息。因为声音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。然而短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计,短时平均过零率的公式为n

23、=1mZ=|sgnxmsgnxm1|nm=-n+N1|sgnx(m)-sgnx(m-l)l1,1,(n)0(n)02inn式中,sgnx(n)是符号函数,即sgnx(n)=根据公式可以看出,首先对声音信号序列x(n)进行成对处理,检查是否有过零现象,若有符号变化,则表示又一次过零现象;然后进行一阶差分计算,取绝对值;最后进行低通滤波。短时平均过零率可以用于声音信号分析。发浊音时,声带振动,因而声门激励是频率为基频的声压波,它在经过声道时产生共振。尽管声道由若干个共振峰,但由于声门的影响,其能量分布主要集中在3kHz频率范围内;反之,在发清音时,声带不振动声道的某部分收到阻塞产生类白噪声的激励,该激励通过声道后能量集中在比浊音时更高的频率范围内。因此,浊音时的能量集中于低频段,而轻音的能量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论