语言信号处理章声音的基本特征_第1页
语言信号处理章声音的基本特征_第2页
语言信号处理章声音的基本特征_第3页
语言信号处理章声音的基本特征_第4页
语言信号处理章声音的基本特征_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章 提取声音的基本特征Lv Danju5.1 Volume 音量 The loudness of audio signals is the most prominent features for human aural perception. In general, there are several terms to describe the loudness of audio signals, including volume, Intensity energy. Here we use the term “volume” for further discussion. Volume

2、is a basic acoustic feature that is correlated to the sample amplitudes within each frame.一个音框内的抽样信号震幅大一个音框内的抽样信号震幅大小小Volume 的描述方法 two methods to compute the volume of each frame: sum of absolute samples: logorithm of the sum of sample squares: 1|niiv o l u m es2110 * log()niivolumes整数运算整数运算浮点数运算浮点数

3、运算单位:分贝单位:分贝音 量 音量特性:音量特性: 有声音的音量大于气音的音量,而气音的音量又有声音的音量大于气音的音量,而气音的音量又大于噪声的音量。大于噪声的音量。 音量是一个相对性的指标,受音量是一个相对性的指标,受到麦克风设定的影响很大。到麦克风设定的影响很大。 应用:应用: 通常用在端点检测,估测有声的声母或韵母的开通常用在端点检测,估测有声的声母或韵母的开始位置及结束位置。始位置及结束位置。 技巧:技巧: 在计算音量前最好是先减去音频信号信号的平均在计算音量前最好是先减去音频信号信号的平均值,以避免信号的直流偏移(值,以避免信号的直流偏移(DC Bias)所导致)所导致的误差。的

4、误差。举例 volume01.m waveFile=my_sunday.wav;frameSize=256;overlap=128;y, fs, nbits=wavReadInt(waveFile);fprintf(Length of %s is %g sec.n, waveFile, length(y)/fs);frameMat=buffer(y, frameSize, overlap);frameNum=size(frameMat, 2);volume1=zeros(frameNum, 1);volume2=zeros(frameNum, 1);for i=1:frameNumframe=

5、frameMat(:,i);frame=frame-mean(frame);% zero-justifiedvolume1(i)=sum(abs(frame);% method 1volume2(i)=10*log10(sum(frame.2);% method 2end time=(1:length(y)/fs; frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(3,1,1); plot(time, y); ylabel(waveFile); subplot(3,1,2); plot(frameTi

6、me, volume1, .-); ylabel(Volume (Abs. sum); subplot(3,1,3); plot(frameTime, volume2, .-); ylabel(Volume (Decibels); xlabel(Time (sec);计算音量与主观音量 计算音量:计算音量: 使用音量来表示声音的强弱,前述两种计使用音量来表示声音的强弱,前述两种计算音量的方法,用数学的公式来逼近人耳算音量的方法,用数学的公式来逼近人耳的感觉;的感觉; 主观音量:主观音量: 和人耳的感觉有时候会有相当大的落差,和人耳的感觉有时候会有相当大的落差,为了区分,我们使用主观音量来表示为

7、了区分,我们使用主观音量来表示人耳所听到的音量大小。人耳所听到的音量大小。 例如,人耳对于同样振福但不同频率的声例如,人耳对于同样振福但不同频率的声音,所产生的主观音量就会非常不一样。音,所产生的主观音量就会非常不一样。 主观音量曲线 以人耳为测试主体的等主观音量曲线图以人耳为测试主体的等主观音量曲线图(Curves of Equal Loudness) 频率对主观音量的影响 上面这一张图,也代表人耳对于不同频率上面这一张图,也代表人耳对于不同频率的声音的灵敏程度,这也就是人耳的频率的声音的灵敏程度,这也就是人耳的频率响应(响应(Frequency Response)。如果你)。如果你要测试你

8、自己的耳朵的频率响应,可以到要测试你自己的耳朵的频率响应,可以到这个网页这个网页Equal Loudness Tester试试试看:试看: g.html主观音量测试音色对主观音量的影响 the perceived loudness is also greatly influenced by the timbre. vowels using the same loudness level, plot the volume curves to see how they are related to the timbre or shapes/positions of lips/tougue举例 vo

9、lume02.m waveFile=aeiou.wav; frameSize=512; overlap=0; y, fs, nbits=wavReadInt(waveFile); fprintf(Length of %s is %g sec.n, waveFile, length(y)/fs); frameMat=buffer(y, frameSize, overlap); frameNum=size(frameMat, 2); volume1=frame2volume(frameMat, 1);% method 1 volume2=frame2volume(frameMat, 2);% me

10、thod 2volume02.m time=(1:length(y)/fs; frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(3,1,1); plot(time, y); ylabel(waveFile); subplot(3,1,2); plot(frameTime, volume1, .-); ylabel(Volume (Abs. sum); subplot(3,1,3); plot(frameTime, volume2, .-); ylabel(Volume (Decibels); xlab

11、el(Time (sec);a e i o u的音量 主观音量容易受到频率和音色的影响,因主观音量容易受到频率和音色的影响,因此我们在进行语音或歌声合成时,常常根此我们在进行语音或歌声合成时,常常根据声音的频率和内容来对音频信号的振幅据声音的频率和内容来对音频信号的振幅进行校正,以免造成主观音量忽大忽小的进行校正,以免造成主观音量忽大忽小的情况。情况。 Zero Crossing Rate (过零率) 定义:定义:ZCR is another basic acoustic features that can be computed easily. It is equal to the numb

12、er of zero-crossing of the waveform within a given frame音频信号通过零点的音频信号通过零点的次数次数 . ZCR has the following characteristics: In general, ZCR of both unvoiced sounds and environment noise are larger than voiced sounds (which has observable fundamental periods). It is hard to distinguish unvoiced sounds fr

13、om environment noise by using ZCR alone since they have similar ZCR values. ZCR is often used in conjunction with the volume for end-point detection. In particular, ZCR is used for detecting the start and end positings of unvoiced sounds. Some people use ZCR for fundamental frequency estimation, but

14、 it is highly unreliable unless further refine procedure is taken into consideration. 计算过零率在计算过零率时,需注意下列事项:在计算过零率时,需注意下列事项: 由于有些信号若恰好位于零点,此时过零由于有些信号若恰好位于零点,此时过零率的计算就有两种,出现的效果也会不同。率的计算就有两种,出现的效果也会不同。因此必须多加观察,才能选用最好的作法。因此必须多加观察,才能选用最好的作法。 大部分都是使用音频信号的原始整数值来大部分都是使用音频信号的原始整数值来计算,才不会因为使用浮点数信号,在减计算,才不会因为使

15、用浮点数信号,在减去直流偏移(去直流偏移(DC Bias)时,造成过零率)时,造成过零率的增加。的增加。 举例 zcr01.m waveFile=csNthu8b_S.wav; frameSize=256; overlap=0; y, fs, nbits=wavReadInt(waveFile); frameMat=buffer(y, frameSize, overlap); for i=1:frameNumframeMat(:,i)=frameMat(:,i)-round(mean(frameMat(:,i); % Zero justification end zcr1=sum(frameM

16、at(1:end-1, :).*frameMat(2:end, :)0); % Method 1 zcr2=sum(frameMat(1:end-1, :).*frameMat(2:end, :)=0); % Method 2做图部分 time=(1:length(y)/fs; frameNum=size(frameMat, 2); frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(2,1,1); plot(time, y); ylabel(waveFile); subplot(2,1,2); plo

17、t(frameTime, zcr1, .-, frameTime, zcr2, .-); title(ZCR); xlabel(Time (sec); legend(Method 1, Method 2);From the above example, it is obvious that From the above example, it is obvious that these two methods generate different ZCR these two methods generate different ZCR curves. The first method does

18、 not count curves. The first method does not count zero positioning as zero crossing, there zero positioning as zero crossing, there the corresponding ZCR values are smaller. the corresponding ZCR values are smaller. Moreover, silence is likely to have low ZCR Moreover, silence is likely to have low ZCR of method 1 and high ZCR for method 2 of method 1 and high ZCR for method 2 since there are likely to have many zero since there are likely to have many zero positioning positioning 上述的范例中,我们使用了两种方式来计上述的范例中,我们使用了两种方式来计算过零率,得到的效果虽然不同,但趋势算过零率,得到的效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论