语音信号的时域特征分析实验报告_第1页
语音信号的时域特征分析实验报告_第2页
语音信号的时域特征分析实验报告_第3页
语音信号的时域特征分析实验报告_第4页
语音信号的时域特征分析实验报告_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中北大学课 程 设 计 说 明 书学 院: 信息商务学院 专 业: 电子信息工程 题 目:信息处理实践:语音信号的时域特征分析 指导教师:徐美芳 职称: 讲师 2015 年 7 月 8日中北大学课程设计任务书 2014-2015 学年第 二 学期学 院: 信息商务学院 专 业: 电子信息工程 课程设计题目:信息处理实践:语音信号的时域特征分析 起 迄 日 期: 2015年6 月28日2015年7月 8日 课程设计地点: S教学楼四层机房谁s409 指 导 教 师: 徐美芳 系 主 任: 李雪冬 下达任务书日期: 2015 年 6 月 28 日 课程设计任务书1设计目的:通过设计,掌握USB总线

2、或PCI总线的基本结构,了解基于USB总线或PCI总线A/D卡的通用结构。较全面地掌握语音信号的时域特征的基本理论、原理和实现手段,较系统地分析语音信号的时域特征,使学生具有一定综合分析问题和解决问题的能力。2设计内容和要求(包括原始数据、技术参数、条件、设计要求等):原始数据:仿真信号或实验采集语音信号。技术要求:(1)完成基于USB总线或PCI总线A/D卡通用结构报告;(2)通过A/D卡,利用高级语言编写信号的采集、存储和显示程序。(3)完成题目所要求技术:直接对语音信号的时域波形进行分析,提取的特征参数主要有:语音的短时能量,短时平均过零率,短时自相关函数等;通过仿真(实验)验证,编程实

3、现各时域特征参数提取的处理和实现手段,并进行结果分析。设计要求:课程设计的目的在于培养学生的综合素质,要求学生做到:(1)根据题目要求查阅有关资料,确定方案,写出设计方案;(2)根据对选题的理解,消化查阅资料,给出相关的实现算法和理论根据;(3) 在Matlab或VC环境下,实现算法,并给出仿真结果;(4) 对结果进行分析总结3设计工作任务及工作量的要求包括课程设计计算说明书(论文)、图纸、实物样品等:设计工作任务:(1) 了解选题背景,掌握基本技术,制定设计思路,写出设计方案。(2) 完成设计内容:包括算法和程序设计;实验验证及技术改进,写出设计说明书。(3) 设计答辩。工作量的要求:(1)

4、 通过查阅资料了解选题相关的基本理论、原理以及技术背景,理解选题意义;(2) 掌握USB总线或PCI总线的基本结构,了解基于USB总线或PCI总线A/D卡的通用结构;(3) 完成语音信号特征提取;(4) 通过实验仿真验证算法的可行性;(5) 给出技术总结。课 程 设 计 任 务 书4主要参考文献:1 L.R. Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs,1993. 清华大学出版社(影印),2002年.2胡航. 语音信号处理(修订版),哈尔滨工业大学出版社,200

5、2年.3 吴家安等. 语音编码技术及应用,机械工业出版社,2006年.4 韩继庆等. 语音信号处理,清华大学出版社,2004年.5 D.G.Childers. Matlab之语音处理与合成工具箱(影印版),清华大学出版社,2004年.6 Thomas F. Quatieri著,赵胜辉等译,离散时间语音信号处理原理与应用,电子工业出版社,2004.5设计成果形式及要求:仿真结果;课程设计说明书。6工作计划及进度:2013年6月7日 6月15日:理解选题,查资料,掌握USB总线或PCI总线的基本结构,基于USB总线或PCI总线A/D卡的通用结构;6月16日 6月19日:在教师指导下给出设计方案;6

6、月20日 6月28日:在指导教师辅导下完成实验;撰写课程设计说明书; 6月28日:答辩系主任审查意见: 签字: 年 月 日目 录一、语音信号的介绍-1 1.1语音信号的特点-2 1.2语音信号的采集-32、 语音信号的分析-5 2.1语音信号分析技术-5 2.2 语音信号的时域分析-5 2.2.1 短时能量-6 2.2.2短时过零率分析-7 2.2.3 短时自相关函数的分析-10 2.3 语音信号的语谱图-123、 语音信号的综合仿真分析-13第一章 语音信号的介绍1.1 语音信号的特点通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点: 在频域内,语音信号的频谱分量主要集中在30

7、03400Hz的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。 在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。在语音识别中,正确的判断输入语音的起点,重点对于提高识别率往往是重要的,在一些语音识别或低速语音编解码器应用中,对于已经判别为语音短的部分,还需要进一步判断清音和浊音。能够实现这些判别的集聚在于,不同性质语音的各种短时参数具有不同的概率密度

8、函数,以及相邻的若干帧语音应具有一直的语音特性。在孤立词语音识别系统中,需要正确判断每个输入语音的起点和终点,利用短时平均幅度参数M和短时平均过零率Z可以做到。 在在下面是一段语音信号的时域波形图(图2-1)和频域图(图2-2),由这两个图可以看出语音信号的两个特点。 图1 语音信号时域波形图 图2 语音信号频域波形图1.2语音信号的采集在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止颜率分别是fH和fL,则对

9、于绝人多数语音编译码器,fH=3400Hz、fL60100Hz、采样率为fs8kHz;而对丁语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率fs必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波它是通过采样脉冲和模拟信号相乘

10、来实现的。 通过录取了一段wav格式的音频,对其编程。实验编程过程: %语音信号时域频域分析 y,Fs,bits=wavread('1.wav');%读出信号,采样率和采样位数。 y=y(:,1);%我这里假设你的声音是双声道,我只取单声道作分析,如果你想分 析另外一个声道,请改成y=y(:,2) sigLength=length(y); Y = fft(y,sigLength); Pyy = Y.* conj(Y) / sigLength; halflength=floor(sigLength/2); f=Fs*(0:halflength)/sigLength; figure

11、;plot(f,Pyy(1:halflength+1);xlabel('Frequency(Hz)'); t=(0:sigLength-1)/Fs; figure;plot(t,y);xlabel('Time(s)'); 实验结果如下:图3 原始信号 由图可知,这段语音信号的频率主要集中在1KHz左右,当采样频率为44.1KHz时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。图4对上述信号进行1/80采样频率抽取,即采样频率变为将近500Hz时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频

12、谱也发生了混叠。在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择t涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T)的信号,采集到过大的数据量(N=T/t),给计算机增加不必要的计算工作量和存储空间;若数据量(N)限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失

13、真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。 语音信号经过预滤波和采样后,由AD变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。在实际工作中,我们可以利用windows自带的录音机录制语音文件,图2-3是基于PC机的语音信号采集过程,声卡可以完成语音波形的A/D转

14、换,获得WAVE文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的WAVE文件。Windows自带的录音机声音麦克风声卡滤波采样A/D转换 Wav图5基于PC机的语音信号采集过程采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。第二章 语音信号的分析2.1语音信号分析技术语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理8。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号分桥的准确性和精确性。因此语

15、音信号分析在语音信号处理应用中具有举足轻重的地位。贯穿于语音分析全过程的是“短时分析技术”。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非乎稳态过程,不能用处理乎稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音倍号具有时变特性,但是在一个短时间范围内(一般认为在1030ms的短时间内),其特性基本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短

16、时”的基础上即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为1030ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域分析、倒领域分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍时域分析、频域分析以及语谱图分析。2.2 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先

17、接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:表示语音信号比较直观、物理意义明确。实现起来比较简单、运算且少。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用6。在计算这些参数时使用的一般是方窗或汉明窗。2.2.1 短时能量

18、及短时平均幅度分析设语音波形时域信号为x(l)、加密分帧处理后得到的第n帧语音信号为 Xn(m),则Xn(m)满足下式: (3-1) (1) 其中,n0,1T,2T,并且N为帧长,T为帧移长度。设第n帧语音信号Xn(m)的短时能量用En表示,则其计算公式如下: (2)En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此可采用另一个度量语音信号幅度值变化的函数即短时平均幅度函数Mn,它定义为: (3)Mn也是一帕语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域呻会带来一些好处

19、。 短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清音段,因为浊音时En值比清音时大的多。可以用来区分声母与韵母的分界,无声与有卢的分界,连字(指字之间无间隙)的分界等。作为一种超音段信息,用于语音识别中。实验过程编程如下: a=wavread('1.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.(i-2)*N); En=conv(h,a.*a); subplot(6,1,i),plot(En); if(i=2)legend('N=32'); elseif(i=3)leg

20、end('N=64'); elseif(i=3)legend('N=128'); elseif(i=3)legend('N=256'); elseif(i=3)legend('N=512'); end end实验结果: 图6 语音信号的短时能量2.2.2短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号Xn(m)的短时过零率Z

21、n为: (4)式中,sgn 是符号函数,即: (5)在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零率参数很不准确。为了解决前一个问题,A/D变换器前的防混叠带通滤波器的低端截频应高于50Hz,以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。对语音信号进行分析,发现发浊音时,尽管声道有若干个共振峰,但由于声门波引起谱的高频跌落,所以其话音能量约集中在3kHz以下。而发清音时,多数能量出现在较高频率上

22、。高频就意味着高的平均过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。当然,这种高低仅是相对而言,并没方精确的数值关系。 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时如当弱摩擦音 (如f、h等音素)、弱燃破音(

23、如p、t、k等音素)为语音的开头或结尾;以鼻音(如n、 m等音素)为语音的结尾时只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。图3-1是用Mtalab仿真一段语音信号时域波形的短时能量和短时平均过零率。实验过程编程如下: a=wavread('1.wav') n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N);矩阵运算 En=conv(h,a.*a); subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)=1; else

24、b(i)=-1; end if a(i+1)>=0 b(i+1)=1; else b(i+1)=-1; end w(i)=abbs(b(i+1).b(i); end k=1; j=0; while (k+N-1)<n Zm(k)=0; for i=0:N-1; Zm(K)=Zm(k)+w(k+i); end j=j+1; k=k+N/2; end for w=1:j end subplot(3,1,3),plot(Q),grid;实验结果: 图7 短时过零率2.2.3 短时自相关函数的分析: 自相关函数含义:相关函数用于测定两个信号在市域内的相似程度,可以分为互相关函数自相关函数。

25、互相关函数研究两个信号之间的相关性。自相关函数研究信号本身的同步性、周期性。自相关函数提供了一种获取周期性信号周期的方法。 短时自相关函数:短时自相关函数是在信号的第n个样本点附近用短时窗函数截取一段信号,做自相关计算所得的结果。如果为浊音型的周期信号,从自相关函数的性质可知,其短时自相关函数也呈明显的周期性,和原本信号的周期性相同。清音属于随机噪声,短时自相关函数不具有周期性,随着k增大而逐渐减少。还可以用修正的短时自相关函数。(1) 自相关函数对于离散的语音信号x(n),它的自相关函数定义为:        &

26、#160;                                       R(k)=x(n)x(n-k),如果信号x(n)具有周期性,那么它的自相关函数也具有周期性,而且周期与信号x(n)的周期性相同。自相

27、关函数提供了一种获取周期信号周期的方法。在周期信号周期的整数倍上,它的自相关函数可以达到最大值,因此可以不考虑起始时间,而从自相关函数的第一个最大值的位置估计出信号的基音周期,这使自相关函数成为信号基音周期估计的一种工具。(2)短时自相关函数语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号,做自相关计算所得的结果                 

28、0;                              Rm(k)=x(n)x(n-k)式中,n表示窗函数是从第n点开始加入。(3) 实验编程如下: N=240 Y=wavread('1.wav'); x=Y(13271:13510); x=rectwin(240);得到N点的方窗,画

29、矩形窗 R=zeros(1,240); for k=1:240 for n=1:240-k; R(k)=R(k)+x(n)*x(n+k); end end j=1:240; plot(j,R); grid;(4) 实验结果: 图8 短时自相关函数2.3 语音信号的语谱图frmsize = 256; % 设置贞大小x,fs,nbits = wavread('1.wav'); % 读取语音文件x = filter(1 -0.95,1,x); % 高频预加重,抵消频谱倾斜n = length(x); frmcnt = floor(n/frmsize); x = reshape(x(1

30、:frmsize*frmcnt),frmsize,frmcnt); % 分帧xFFT = abs(fft(x); % 傅里叶谱xFFT = xFFT(1:frmsize/2,1:frmcnt); % 奈奎斯特频率以内是无效的xFFTdB = 20*log10(xFFT+eps); % 换算成分贝xFFTdB(xFFTdB>+20) = +20; % 能量太高的截断xFFTdB(xFFTdB<-40) = -40; % 能量太低的截断xFFTdB = (xFFTdB+40); % 能量整理到 0,60 之间,当然你可以整理到0,255范围subplot(2,1,1);plot(x(1

31、:frmsize*frmcnt); title('中北大学信息商务学院'); % 画波形subplot(2,1,2);image(flipud(xFFTdB); colormap(jet)% 画语谱图 实验结果:图9 谱图第三章、语音信号的综合仿真分析录制一段自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;实验过程如下:y,fs,bs=wavread('1.wav');y=y(:,1);lg=length(y);yx=(0:(lg-1)*fs/lg;yx=yx(1:lg/2);% sound(y,fs);figure(1);subp

32、lot(211);plot(y);title('原始信号');subplot(212);yf=abs(fft(y);yf=yf(1:lg/2);plot(yx,yf);ycq=zeros(1,lg); %先将抽取后的值全设为零 for i=1:80:lg; %通过循环,每隔80个点将抽取后的值赋值为原函数的 ycq(i)=y(i); %采样值 end sound(ycq,fs);figure(2);subplot(211);plot(ycq);title('抽取后的信号');subplot(212);ycqf=abs(fft(ycq);ycqf=ycqf(1:l

33、g/2);plot(yx,ycqf);实验结果:图10 原始语音信号图11 抽取后信号由图可知这段语音信号频率主要集中在1000hz左右。对语音信号进行调制,为了减少在传输时的耗损,人们一般是先对传输信号进行特殊处理,然后再传递。把原始的待传信号托附到高频振荡的过程称为调制。我们知道音频信号的频率在我们的听觉范围内,音频信号在无线传输的过程中会受到各种声音的干扰而产生能量消耗!因此限制了传输的距离!所以在现实的传送过程中要现对语音信号进行调制再发送出去!下面是对一段语音信号的调制仿真图,载波频率为fc=20000。实验过程:y,fs,bits=wavread('1.wav');% sound(y,fs,bits);Y=fft(y,40000);%采样点数4000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论