语音信号的短时频域分析耿李广_第1页
语音信号的短时频域分析耿李广_第2页
语音信号的短时频域分析耿李广_第3页
语音信号的短时频域分析耿李广_第4页
语音信号的短时频域分析耿李广_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本科毕业设计本科毕业设计题题 目目 语音信号的短时频域分析 学学 院院 信息工程学院 专专 业业 电子信息工程 班班 级级 081 信工 3 班 学学 号号 200883097 姓姓 名名 耿 李 广 指导老师指导老师 殷 仕 淑 20122012 年年 5 5 月月目录目录摘摘 要要.1第第 1 章章 绪论绪论 .31.1课题的背景与意义.31.2国内外研究现状及发展趋势.41.3本文的仿真软件 MATLAB.51.4本文主要工作 .6第第 2 章章 语音信号的频域特点和抽样语音信号的频域特点和抽样.82.1语音信号分析处理的一般流程.82.2语音信号的特点.82.3语音信号的抽样.92.4

2、语音信号的分析技术.11第第 3 章章 语音信号的频域分析语音信号的频域分析.123.1语音信号分析的预处理.123.2利用短时博里叶变换求语音的短时谱.133.3语音信号的功率谱.163.4语音信号的语谱图.173.5复倒谱和倒谱.19第第 4 章章 语音信号的综合仿真分析语音信号的综合仿真分析.22参考资料参考资料.25致谢致谢.26附录附录.27语音信号的频域分析语音信号的频域分析摘摘 要要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来

3、越快,分析速度较以往也有了大幅度的高。将语音看为一种特殊的信号,即一种“复杂向量”来看待。通过调用处理数字信号工具 MATLAB 里的命令函数,利用数字信号处理的知识来解决问题。像给一般信号做频谱分析一样,也分析了语音信号的频谱。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过 PC 机录制自己的一段声音,运用MATLAB 进行仿真分析。关键词:关键词:语音信号;频域分析;MATLABSpeech signal analysis in frequency domainAbstractSpeech signal acquisition and analysis

4、techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact. Collection and analysis of voice one of the small-scale equipment, intelligence,

5、 digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high. The voice is taken as a special signal, a complex vector. By using the command functions in the digital signal processing toolMATLAB, the digital signal processing can s

6、olve many problems. The spectrum of voice signals are analyzed, which is the same as the spectrum analysis of common signals. This paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speech signal,Collection and analysis met

7、hods,Recording machine through the PC section of my own voices,the use of MATLAB for simulation analysis.Keywords:audio signal, acquisition and analysis,MATLAB第第 1 章章 绪论绪论随着现代计算机技术的普及和发展,数字电子产品的使用越来越深入到人们的日常生活中。人类与数字化产品的交往已经密不可分。语音信号的处理作为新时代的一个课题越来越受到人们的重视。于是通过对自然声音的识别与处理不约而同的产生于许许多多科学研究人员的脑海中,语音识别处

8、理的出现就孕育而生了。语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。本文简要介绍了语音信号采样与分析的发展史以及语音信号的特征、采样与分析方法。1.11.1 课题的背景与意义课题的背景与意义语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强是整个数字化通信网中最重要、最基本的组成部分之一。数字 通信、高音质的窄带语音通信系统、语言学习机,声控打字机、自动翻译机、只能机器人、

9、新一代计算机语音智能终端及许多军事上的应用等,都要用到语音信号处理技术。语音信号处理的目的是要得到某些语音特征参数一遍高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、识别出讲话者、识别出讲话的内容等。语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些领域的进步。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系并且一起发展。语音

10、信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。1.2 国内外研究现状及发展趋势国内外研究现状及发展趋势早在一两千年前,人们便对语言进行了研究。由于没有适当的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常被称为“口耳之学”,所以对语音只是停留在定性的描写上。语音信号处理真正意义上的研究可以追

11、溯到 1876 年贝尔 的发明,该技术首次使用声电、电声转换技术实现了远距离的语音传输。1939 年提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。 这一发明在语音信号处理领域具有划时代的 意义。19 世纪 60 年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。20 世纪 40 年代,一种语言声学的专用仪器语谱图仪问世了。它可以把语音的时变频谱用语图表示出来,从而得出了“可见语言”。1948 年美国 Haskins 实验室研制成功的语音回放机,该仪器可以把手工绘制在薄膜片上的语谱图自动转换成语音,并进行语音合成。20 世纪 50 年代对语言产生了系统的论

12、述。随着计算机的出现,语音分析工作,得以在电子计算机上进行。在此基础上,语音信号处理的研究工作得到了计算机技术的帮助,取得了突破性的进展。随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术 正发挥着越来越重要的作用,并且出现了一些新的方向。 (1)基于语音的信息检索。随着网络技术及数字图书馆技术的发展,针对于传统 的基于文本信息的检索技术,基于语音识别的信息检索技术正成为当今的研究热点。 (2)基于语音识别的广播新闻的自动文摘技术的研究。由于广播、电视中的发音较为标准规范,识别中避免了说话人发音的不规范,有利于语音识别系统性能的提高。 (3)VOIP 技术。它是通过 TC

13、P/IP 网络,而不是传统的 网络来传输语音的新的通信方式,通常称为 IP 技术。它是网络上对压缩的语音数据以及数据包的形式进行传输和识别。随着手机、PDA 等移动电子设备的发展,嵌入式语音识别算法的研究已逐渐成为研究的热点。 (4)语音训练与校正技术也是近年来语音信号处理的一个重要方向。现在越来越多的人希望掌握其他非母语语言,以便方便的进行交流。因此语言学习机已成为当今外语学习者的有利工具。1.3 本本文文的的仿仿真真软软件件 MATLABMATLAB 名字由 MATrix 和 LABoratory 两词的前三个字母组合而成。那是 20 世纪七十年代后期的事:时任美国新墨西哥大学计算机科学系

14、主任的 Cleve Moler 教授出于减轻学生编程负担的动机,为学生设计了一组调用LINPACK 和 EISPACK 库程序的“通俗易用”的接口,此即用 FORTRAN 编写的萌芽状态的 MATLAB。经几年的校际流传,在 Little 的推动下,由 Little、Moler、Steve Bangert 合作,于 1984 年成立了 MathWorks 公司,并把 MATLAB 正式推向市场。从这时起, MATLAB 的内核采用 C 语言编写,而且除原有的数值计算能力外,还新增了数据图视功能。MATLAB 以商品形式出现后,仅短短几年,就以其良好的开放性和运行的可靠性,使原先控制领域里的封闭

15、式软件包(如英国的UMIST,瑞典的LUND 和 SIMNON,德国的 KEDDC)纷纷淘汰,而改以 MATLAB 为平台加以重建。在时间进入 20 世纪九十年代的时候, MATLAB 已经成为国际控制界公认的标准计算软件。到九十年代初期,在国际上 30 几个数学类科技应用软件中, MATLAB在数值计算方面独占鳌头,而 Mathematica 和 Maple 则分居符号计算软件的前两名。Mathcad 因其提供计算、图形、文字处理的统一环境而深受中学生欢迎。MathWorks 公司于 1993 年推出 MATLAB4.0 版本,从此告别 DOS 版。4.x 版在继承和发展其原有的数值计算和图

16、形可视能力的同时,出现了以下几个重要变化:( 1)推出了 SIMULINK。这是一个交互式操作的动态系统建模、仿真、分析集成环境。它的出现使人们有可能考虑许多以前不得不做简化假设的非线性因素、随机因素,从而大大提高了人们对非线性、随机动态系统的认知能力。(2)开发了与外部进行直接数据交换的组件,打通了MATLAB 进行实时数据分析、处理和硬件开发的道路。 (3)推出了符号计算工具包。1993 年 MathWorks 公司从加拿大滑铁卢大学购得 Maple 的使用权,以 Maple 为“引擎”开发了 Symbolic Math Toolbox 1.0。MathWorks公司此举加快结束了国际上数

17、值计算、符号计算孰优孰劣的长期争论,促成了两种计算的互补发展新时代。(4)构作了 Notebook 。MathWorks 公司瞄准应用范围最广的 Word ,运用 DDE 和 OLE,实现了 MATLAB 与Word 的无缝连接,从而为专业科技工作者创造了 科学计算、图形可视、文字处理于一体的高水准环境。1997 年仲春,MATLAB5.0 版问世,紧接着是 5.1、5.2,以及和 1999年春的 5.3 版。与 4.x 相比,现今的 MATLAB 拥有更丰富的数据类型和结构、更友善的面向对象、更加快速精良的图形可视、更广博的数学和数据分析资源、更多的应用开发工具。MATLAB 的基本数据单位

18、是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用 MATLAB 来解算问题要比用 C,FORTRAN 等语言完成相同的事情简捷得多,并且 MATLAB 也吸收了像 Maple 等软件的优点,使 MATLAB 成为一个强大的 数学软件。在新的版本中也加入了对C,FORTRAN,C+,JAVA 的支持。可以直接调用 ,用户也可以将自己编写的实用程序导入到 MATLAB 函数库中方便自己以后调用,此外许多的MATLAB 爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。MATLAB 功能非常强大,所包含的内容非常丰富,其主要功能可概括为几个方面:1.提供了一个接近于人们常用的数

19、学表达方式的高级汇编语言;2.提供了覆盖几乎所有科学计算领域所需算法的大量子程序,这些子程序以m 文件的方式给出;3.具有多种多样的图形、图像显示功能及编辑功能;4.具有强大的符号运算功能,对于微分、积分、级数展开等运算特别方便;5.具有可视化建模与仿真功能;6.具有与用其他语言编写的外部子程序相接口的能力,也可把 MATLAB 程序转换成其他高级语言(C,C+,JAVA)的子程序;7.具有从外部文件及外部硬件设备读入数据的能力。1.41.4 本本文文主主要要工工作作信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分

20、析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显。语音信号处理是目前发展最为迅速的信息科学研究领域中的一个,其研究涉及一系列前沿课题,且处于迅速发展之中。本文将会简要介绍语音信号的采集、分析方法、以及语音信号的特征,通过自己录制的一段声音,运用 MATLAB 进行仿真分析,然后再对信号进行频域上的分析。、第第 2 章章 语音信号的频域特点语音信号的频域特点和抽样和抽样2.1 语音信号分析处理的一般流程语音信号分析处理的一般流程语音信息加工和处理的一般流程如下图所示 图 2-1.语音信号处理流程在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就

21、是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的表示;然后再用某种高级的变换把这一信号变成一种更加方便的形式;最后一步是信息的提取和使用这一步可由听者来完成,也可由机器自动完成。所以,语音信号处理一般有两个任务:第一,它是一种工具,利用它可以得到语音信号的一般表示,这种表示可以用波形表示也可以用参数表示;第二,把信号从一种形式变换到另一种形式,变换后的表示形式虽然从性质上讲它的普遍性可能小一些,但对某一特殊的应用却是更加合适。无论是语音识别还是语音编码与合成,对输入的语音信号首先要进行预处理,对信号进行适当的放大和增益控制,并惊醒反混叠滤波来消除工频信号的干扰;然后

22、进行数字化,将模拟信号转换为便于计算机处理的数字信号;最后对数字信号进行分析,提取一定的反映语音信息的参数;最后根据语音信号处理的任务不同,采用不同的处理方法。2.2 语音信号的特点语音信号的特点由于语音信号是随着时间变化的,通常认为,语音 是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内近似不变,因而可以采用短时分析法.。在频域内,语音信号的频谱分量主要集中在 3003400Hz 的范围

23、内。利用这个特点,可以用一个防混叠的带通滤波器将此范围内的语音信号频率分量取出,然后按 8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。2.3 语音信号的抽样语音信号的抽样在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信号各领域分量中频率超出 fs/2 的所有分量(fs 为采样频率),以防止混叠干扰。抑制 50Hz 的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是 fH 和 fL,则对于绝人多数语音编译码器,fH=3400Hz、fL60100Hz、采样率为 fs8kHz;而对丁语音识别而言,当用于 用户时,指标与语音编

24、译码器相同。当使用要求较高或很高的场合时fH4500Hz 或 8000Hz、fL60Hz、fs10kHz 或 20kHz。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t 在模拟信号 x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率 fs 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波原始信号。下图是语音信号在抽样频率为 44.1KHz 的频谱图。图 2-2.语音信号频域波形图由图可知,这段语音信号的频率主要集中在 1KHz 左右,

25、当采样频率为44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。对上述信号进行 1/80 采样频率抽取,即采样频率变为将近 500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。下图为抽样频率为 500Hz 时的频谱。 图 2-3.语音信号频域波形图在采样的过程中应注意采样间隔的选择,对模拟信号采样首先要确定采样间隔。如何合理选择t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T)的信号,采集到

26、过大的数据量(N=T/t) ,给计算机增加不必要的计算工作量和存储空间;若数据量(N)限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。 语音信号经过预滤波和采样后,由 AD 变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器

27、做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。2.4 语音信号的分析技术语音信号的分析技术语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号分桥的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。贯穿于语音分析全过程的是“短时分析技术”。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非稳态过程,不能用处理稳信号的数字信号处理技术对其进行分析处理。但是,由于

28、不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在 1030ms 的短时间内),其特性基本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上即进行“短时分析”,将语音信号分为一段一段的来分析其特征参数,其中每一段称为一“帧”,帧长一般取为 1030ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。根据所分析出的参数的性质的不同,可将语音信号

29、分析分为时域分析、频域分析、倒频域分析等;时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍频域分析以及语谱图分析。第第 3 章章 语音信号的频域分析语音信号的频域分析语音的频谱具有非常明显的语言声学意义,能反映一些重要的语音特征。实验表明,人类感知语音的过程和语音的频谱特性关系密切,人的听觉对语音的频谱更敏感。因此,对语音信号进行频谱分析是认识和处理语音信号的重要方法-。语音频谱是语音信号在频域中信号的能量与频率的分布关系。语音信号的频域分析就是分析语音信号的频域

30、持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。本文介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。3.13.1 语音信号分析的预处理语音信号分析的预处理由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按 6dB/倍频程跌落,即 6dB/oct(2 倍频)或 20dB/dec(10 倍频),所以求语音信号

31、频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Pre-emphasis)处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。但预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用 6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:H(z)=1-z-1,其中 u 的值接近于 1。下面是滤波器幅频特性以及预处理

32、后的语音信号。 图 3-1.滤波器特性 图 3-2.高频部分得到加强3.23.2 利用短时博里叶变换求语音的短时谱利用短时博里叶变换求语音的短时谱傅里叶分析是分析线性系统和平稳信号稳态特性的强有力的工具,它在许多工程领域得到了广泛的应用。其理论完善,且有快速算法,在语音信号处理领域也是一个重要工具。语音信号本质是非平稳信号,其非平稳特性是由发声器官的物理运动过程产生的。发声器官的运动由于存在惯性,所以可以假设语音信号在1030ms 这样的时间段内是平稳的,这是短时分帧处理的基础,也是短时傅里叶分析的基础。短时傅里叶分析就是基于短时平稳的假设下,用稳态分析方法处理非平稳信号的一种方法。根据语音信

33、号的二元激励模型,语音信号被看为一个准周期脉冲或随机噪声源激励的线性系统输出。输出频谱是声道系统的频率响应与激励源频谱的乘积,一般标准的傅里叶变换适用于周期及平稳随机信号的表示,但不能直接用于语音信号。因为语音信号被看为短时平稳信号,所以可采用短时傅里叶分析。设语音波形分帧处理后得到的第 n 帧语音信号为 Xn(m),则 Xn(m)满足下式: (3-1)( )( ) ()( )nx mw m x nm m01mN (3-2) 10(1)( )mNmw m, 0, 其他值其中,n0,1T,2T,并且 N 为帧长,T 为帧移长度。某一帧的短时傅里叶变换的定义如下: (3-3) jj(e )( )

34、()e mnmXx m w nm式中 w(n-m)是窗函数。不同的窗函数,可得到不同的傅里叶变换的结果。可以看出短时傅里叶变换有两个变量,即离散时间n 及连续频率 w。若令Nk2,则可得到离散的短时傅里叶变换如下: (3-4)22jj(e)( )( ) ()e ,01kkmNNnnmXXkx m w nmkN它实际上就是 频率抽样。将上述某一帧语音信号的傅里叶变)(ejnX换写为 (3-5)jj(e ) ( ) ()emnmXx m w nm可以看出时变傅里叶变换是时间标号n 的函数,当 n 变化时,窗函数 w(n-m)沿着 x(m)滑动。图 3-3.窗函数 w(n-m)沿着 x(m)滑动可以

35、得出结论:短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗 w(n-m)是一个“滑动的”窗口,它随 n 的变化而沿着序列 X(n)滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,博里叶变换的结果也将不同。对于 w(n-m)窗来说,它除了具有选出 x(m)序列中被分析部分作用外,其形状对时变傅里叶变换的特性也具有重要作用,从标准傅里叶变换可以方便的解释这种作用。 如果被看成是 w(n-m)x(m)序列的标准傅里叶变)(ej nnX换,同时假设 x(m)及 w(m)的标准傅里叶变换存在,即: (3-6)jj(e )( )emmXx m (3-7)j

36、j(e )( )e mmWw m当 n 固定时,序列 w(n-m)的傅里叶变换为 (3-8)jjj()e(e)e mnmw nmW根据卷积定理,有: (3-9)jjjj(e )(e) e* (e ) nnXWX因为上式右边两个卷积项均为关于角频率 w 的以 2 为周期的连续函数,所以也可将其写成以下的卷积积分形式: (3-jjjj()1(e )(e)e(e)d2nnXWX 10)假设 x(m)的 DTFT 是,且的 DTFT 是,那么是()jwX e( )w m()jwW e()jwnX e和的周期卷积。()jwX e()jwW e 根据信号的时宽带宽的积为一常数这一基本性质,可知主瓣宽度与(

37、)jwW e窗口宽度成反比,N 越大,的主瓣越窄。为了使忠实再现()jwW e()jwnX e的特性,相对于来说必须是个冲激函数。所以为了使()jwX e()jwW e()jwX e,需;但是 N 值太大时,信号的分帧又失去了意义。()()jwjwnX eX eN 尤其是 N 大于语音的音素长度时,已不能反映该语音音素的频谱了。因()jwnX e此,应折衷选择窗的宽度 N。另外,窗的形状也对短时博氏频谱有影响,如矩形窗,虽然频率分辨率很高(即主辩狭窄尖锐),但由于第一旁瓣的衰减很小,有较大的上下冲,采用矩形窗时求得的与的偏差较大,这就是()jwnX e()jwX eGibbs 效应,所以不适合

38、用于频谱成分很宽的语音分析中。而汉明窗在频率范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄漏少的优点。所以在求短时频谱时一船采用具有较小上下冲的汉明窗。3.3 语音信号的功率谱语音信号的功率谱在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系: (3-11)2()()()()jwjwjwjwnnnnS eX eXeX e或者是: (3-12) 2( )( )( )( )nnnnS kX kXkX k式中表示复共轭运算。并且功率谱是短时自相关函数的傅里叶变()jwnS e( )nR k换。 (

39、3-13) 121()()( )NjwjwjwknnnkNS eX eR k e下图是用 MATLAB 中的同一人两次说同一词的功率谱比较。图 3-4.同一人两次说同一词功率谱比较可以看出功率谱图比较好地反映出声音的个人特征:在低频部分(频率低于 6000Hz),同一人说同一词,其功率谱图中的各个波峰所对应的频率基本相同;不同人说同一词,其功率谱图的出现波峰的频率比较接近;同一人说不同词时功率谱的形状差别较大。在高频部分,波峰比较密集,特征不明显。3.4 语音信号的语谱图语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频

40、率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如 1030ms 之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性。把和时序相关的傅里叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的

41、灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪。语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通滤波器有两种带宽可供选择:窄带为45Hz,宽带为 300Hz。窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波,但它的时间分辨率较差,不利于观察共振峰(卢道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。宽带语谱图能给出语音的共振峰频率及

42、清辅音的能量汇集区,在话谱图里共振峰呈现为黑色的条纹。可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率。语语图的实际应用是用于确定出讲话人的本性。语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图的声纹是不同的。因而可以利用声纹鉴别不问的讲话人。这与不向的人有不同的指纹,根据指纹可以区别不同的人是一个道理。虽然对采用语谱图的讲活人识别技术的可靠性过存在相当人的怀疑,但目前这一技术已在司法法庭上得到某些认可及采用。下图是用 MATLAB 绘制的一个宽带语谱图,其中横轴坐标为时间,纵轴坐标为频率。语谱图中的花纹有横扛(Bar)、乱纹和

43、竖直条等。横杠是与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,也就是共振峰。从横扛对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横扛出现是判断它是否是浊音的重要标志 。竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示语音频率越高。 图 3-5.语谱图我们可以观察语音不同频段的信号强度随时间的变化情况。由于语音信号本身频率丰富,不太容易看出规律,我们可以观察一下纯粹的语音数据的语谱图。从图中可以看到明显的一条条横方向的条纹,我们称为“声纹”

44、,有很多应用。条纹的地方实际是颜色深的点聚集的地方,随时间延续,就延长成条纹,也就是表示语音中频率值为该点横坐标值的能量较强,在整个语音中所占比重大,那么相应影响人感知的效果要强烈得多。而一般语音中数据是周期性的,所以,能量强点的频率分布是频率周期的,即存在 300Hz 强点,则一般在n*300Hz 点也会出现强点,所以我们看到的语谱图都是条纹状的。 尽管客观人发声器官的音域是有限度的,即一般人发声最高频率为 4000Hz,乐器的音域要比人宽很多,打击乐器的上限可以到 20KHz。但是,由于我们数字分析频率时,采用的是算法实现的,一般是 FFT,所以其结果是由采样率决定的,即尽管是上限为 40

45、00Hz 的语音数据,如果采用 16Khz 的采样率来分析,则仍然可以在4000Hz 以上的频段发现有数据分布,则可以认为是算法误差,非客观事实。3.53.5 复倒谱和倒谱复倒谱和倒谱设信号 x(n)的 z 变换为,其对数为 X zz x n (3-14)111( )( )ln( )ln ( )x nzX zzX zzz x n那么的逆 z 变换可写成)(zX (3-15)111( )( )ln( )ln ( )x nzX zzX zzz x n取,上两式可分别写为jez (3-16)()ln()ln |()|jarg() jjjjX eX eX eX e (3-17)jj-1( )(e )e

46、d 2nx nx既,信号的复倒谱定义式: (3-18)jj-1( )(e )ed 2nx nx如果对的绝对值取对数,得)e (jX (3-19)()ln |()|jjX eX e则求出的倒频谱 c(n)为实倒谱,简称为倒谱,即 (3-20)jj-1c(n)ln(e ) ed 2nX由于上式实部是可以取唯一值的,但对于虚部,会引起唯一性问题,因此要求相角要求为连续的奇函数。倒谱图如下图所示:图 3-6.倒谱图语音的倒谱是将语音的短时谱取对数后再进行 IDFT 得到的,所以浊音信号的周期性激励反映在倒谱上式同样周期的冲激。借此,可从倒谱波形中估计出基音周期。倒谱将基音谐波和声道的频谱包络分离开来。

47、倒谱的低时部分可以分析声道、声门和辐射信息,而高频部分可用来分析激励源信息。对倒谱进行低时窗选,通过对语音倒谱分析系统的最后一级,进行 DFT 后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中得峰值进行定位,即可估计共振峰。第第 4 章章 语音信号的综合仿真分析语音信号的综合仿真分析录制一段自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的频谱图。我们利用 fft 对语音信号进行快速傅里叶变换,就可以得到信号的频谱特性。图 4-1.语音信号频谱由上图可以看出,在频域内,语音信号的频谱分量主要集中在30

48、03400Hz 的范围内,而且语音信号的特征是随时间而变化的,大概只在550ms 内是可以近似稳定的。因此对语音信号的分析和处理必须建立在短时的基础上。 对语音信号的调制仿真图,载波频率为 fc=20000。图 4-2.原始信号频谱图 4-3.调制后信号频谱对语音进行调制时为了减少在传输时的耗损。人们一般是先对传输信号进行特殊处理,然后再传递。把原始的待传信号托附到高频振荡的过程称为调制。我们知道音频信号的频率在我们的听觉范围内,音频信号在无线传输的过程中会受到各种声音的干扰而产生能量消耗!因此限制了传输的距离!所以在现实的传送过程中要现对语音信号进行调制再发送出去!由图可知,经过调制后的语音

49、信号频谱都搬移到 fc=20000 的频段。MATLAB 中对语音信号加噪声MATLAB 中产生高斯白噪声非常方便,有两个产生高斯白噪声的两个函数 。我们可以直接应用两个函数:一个是 WGN,另一个是 AWGN。WGN 用于产生高斯白噪声,AWGN 则用于在某一信号中加入高斯白噪声。也可直接用randn 函数产生高斯分布序列。现在我们是利用 MATLAB 中的随机函数(rand或 randn)产生噪声加入到语音信号中,模仿语音信号被污染,并对其频谱分析。下图是原始信号加入噪声的频域波形。图 4-4.加入噪声后信号频谱利用模拟滤波器设计 IIR 数字低通滤波器。确定数字低通滤波器的技术指标:通带

50、边界频率、通带最大衰减,阻带截止频率、阻带最小衰减。将数字低通滤波器的技术指标转换成相应的模拟低通滤波器的技术指标。按照模拟低通滤波器的技术指标设计及过渡模拟低通滤波器。用双线性变换法,模拟滤波器系统函数转换成数字低通滤波器系统函数。低通滤波器的性能指标:fp=1000Hz,fc=1200Hz,As=100db ,Ap=1dB。下图是滤波器的频率响应:图 4-5.滤波器频率响应进行低通滤波,比较滤波前后语音信号的频谱。用自己设计的滤波器对加噪的语音信号进行滤波,在 Matlab 中,FIR 滤波器利用函数 fftfilt 对信号进行滤波,IIR 滤波器利用函数 filter 对信号进行滤波。函

51、数 fftfilt 用的是重叠相加法实现线性卷积的计算。调用格式为:y=fftfilter(h,x,M)。其中,h 是系统单位冲击响应向量;x 是输入序列向量;y 是系统的输出序列向量;M 是有用户选择的输入序列的分段长度,缺省时,默认的输入向量的重长度 M=512。函数 filter 的调用格式:yn=filter(B,A.xn),它是按照直线型结构实现对 xn的滤波。其中 xn 是输入信号向量,yn 输出信号向量。 图 4-5.低通滤波后语音波形数字滤波器的作用是利用离散时间系统的特性对输入信号波形(或频谱)进行加工处理,或者说利用数字方法按预定的要求对信号进行变换。把输入序列 x(n)变

52、换成一定的输出序列 y(n)从而达到改变信号频谱的目的。从广义讲,数字滤波是由计算机程序来实现的,是具有某种算法的数字处理过程。总结:语音信号是基于时间轴上的一维数字信号,在这里主要是对语音信号进行频域上的分析。在信号分析中,频域往往包含了更多的信息。对于各种波形,我们都可以用一种方法来分析,就是傅立叶变换:将时域的波形转化到频域来分析。利用 MATLAB 中的 wavread 命令来读入语音信号,将它赋值给某一向量。再将该向量看作一个普通的信号,对其进行 FFT 变换实现频谱分析。在这里,用到了处理数字信号的强有力工具 MATLAB,通过 MATLAB 里几个命令函数的调用,很轻易的在实际化

53、语音与数字信号的理论之间搭了一座桥。参考资料参考资料1 胡航.语音信号处理M .哈尔滨工业大学出版社,20022 丁玉美,高西全.数字信号处理M .西安电子科技大学出版社,20063 樊昌信.通信原理M .国防工业出版社,20054 张威.MATLAB 基础与编程入门M西安电子科技大学出版社,20065 林福宗.多媒体技术基础M .北京清华大学出版社,20006 黄文梅,熊桂林,杨勇.信号分析与处理M.国防科技大学出版社,20007 陈怀琛.数字信号处理教程M. 电子工业出版社,20048 程佩青.数字信号处理教程(第二版) M.清华大学出版社,20019 韩纪庆,张磊,郑铁然.语音信号处理M

54、.清华大学出版社,200410 易克初,田斌,付强.语音信号处理M.国防工业出版社,200011 周辉,董正宏.数字信号处理基础及 MATLAB 实现M.北京希望电子出版社,200612 邹理和.语音信号处理M. 北京:国防工业出版社,198513 丛玉良,王宏志.数字信号处理原理及其 MATLAB 实现M.北京:电子工业出版社,200514 何强,何英.MATLAB 扩展编程M .清华大学出版社,200215 王世一.数字信号处理M.北京:北京理工大学出版社,2005致谢致谢非常感谢我的导师殷仕淑老师!在殷老师无微不至的教导下,我才能够顺顺利利的完成了毕业课程的设计。从课程设计材料的搜集到根

55、据选题对素材的提取与整理,从 MATLAB 的简易入手到程序的分析与设计,从理论与算法到程序的编写与仿真,每一步都有殷老师的细心指导与耐心讲解。在平易近人学识渊博的殷老师的熏陶下,使我感觉到自己知识的浅薄,在浩瀚的知识海洋面前,使我感觉到自己要不断进取。非常感谢我的同学们,感谢他们给我的帮助与支持,使我在毕业设计的过程中少走了不少弯路。附录附录原始信号频谱图程序:fs=22050; %语音信号采样频率为 22050 x1=wavread(C:UsersadminDesktopglg.wav); %读取语音信号的数据, sound(x1,22050); %播放语音信号 y1=fft(x1,102

56、4); %对信号做 1024 点 FFT 变换 f=fs*(0:511)/1024; figure(2) subplot(2,1,1); plot(abs(y1(1:512) %做原始语音信号的 FFT 频谱图 title(原始语音信号 FFT 频谱) subplot(2,1,2); plot(f,abs(y1(1:512); title(原始语音信号频谱) xlabel(Hz); ylabel(fuzhi);预加重程序:fs=22050; %语音信号采样频率为 22050e=wavread(C:UsersadminDesktopglg.wav); %读取语音信号的数据,ee=e(200:45

57、5); %选取原始文件 e 的第 200 到 455 点的语音,也可选其他样点r=fft(ee,1024); %对信号 ee 进行 1024 点傅立叶变换r1=abs(r); %对 r 取绝对值 r1 表示频谱的幅度值pinlv=(0:1:255)*8000/512 %点和频率的对应关系yuanlai=20*log10(r1) %对幅值取对数signal(1:256)=yuanlai(1:256);%取 256 个点,目的是画图的时候,维数一致h1,f1=freqz(1,-0.98,1,256,4000);%高通滤波器pha=angle(h1); %高通滤波器的相位H1=abs(h1); %高通滤波器的幅值r2(1:256)=r(1:256)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论