基于DSP的语音信号处理系统设计_第1页
基于DSP的语音信号处理系统设计_第2页
基于DSP的语音信号处理系统设计_第3页
基于DSP的语音信号处理系统设计_第4页
基于DSP的语音信号处理系统设计_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I摘要语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。数字信号处理(DigitalSignalProcessing,简称 DSP)是利用计算机或专用处理设备,以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理,以得到符合人们需要的信号形式。Matlab 语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是 Matlab 重要应用的领域之一。本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0 综合运用 GUI 界面设计、各种函数调用等来实现语音信号的变频、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。关键字:Matlab,语音信号,傅里叶变换,信号处理11 绪 论1.1 课题的背景与意义通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能。声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长远的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理。工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝更高目标而努力。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。1.2 国内外研究现状语音信号的采集与分析作为一个重要的研究领域,已经有很长的研究历史。2但是它的快速发展可以说是从 1940 年前后 Dudley 的声码器(vocoder)和 potter等人的可见语音(Visible Speech)开始的。1952 年贝尔(Bell)实验室的 Davis等人首次研制成功能识别十个英语数字的实验装置。1956 年 Olson 和 Belar 等人采用 8 个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20 世纪 60 年代初由于 Faut 和 Steven 的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。20 世纪 60 年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速博里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深。所以 1969 年美国贝尔研究所的 Pierce 感叹地说“语音识别向何处去?”。到了 1970 年,好似反驳 Pierce 的批评,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道。此外社会上所宣传的声纹(Voice Print)识别,即说话人识别的研究也扎扎实实地开展起来,并很快达到了实用化的阶段。到了 1971 年,以美国 ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的 ARPA 研究计划,虽然在语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在 1976 年停了下来,进入了深刻的反省阶段。但是,在整个 20 世纪70 年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是 20 世纪 70 年代初由板仓(Itakura)提出的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;20 世纪 70 年代中期线性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法(HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;20 世纪 70 年代未,Linda、Buzo、Gray 和 Markel 等人首次解决了矢量量化(VQ)码书生成的方法,并首先将矢量量化技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。因此,20 世纪 80 年代开始出现的语音信号处理技术产品化的热潮,与上述语音信号处理新技术的推动作用是分不开的。20 世纪 80 年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音3信号处理的各个领域中获得了广泛的应用。其理论基础是 1970 年前后,由 Baum等人建立起来的,随后,由美国卡内基梅隆大学(CMU)的 Baker 和美国 IBM 公司的 Jelinek 等人将其应用到语音识别中。由于美国贝尔实验室的 Babiner 等人在20 世纪 80 年代中期,对隐马尔可夫模型深人浅出的介绍,才使世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流研究途径。进入 20 世纪 90 年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。1.3 数字信号处理(DSP)简介数字信号处理(DigitalSignalProcessing,简称 DSP)是一门涉及许多学科而又广泛应用于许多领域的新兴学科。20 世纪 60 年代以来,随着计算机和信息技术的飞速发展,数字信号处理技术应运而生并得到迅速的发展。在过去的二十多年时间里,数字信号处理已经在通信等领域得到极为广泛的应用。数字信号处理是利用计算机或专用处理设备,以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理,以得到符合人们需要的信号形式。数字信号处理是围绕着数字信号处理的理论、实现和应用等几个方面发展起来的。数字信号处理在理论上的发展推动了数字信号处理应用的发展。反过来,数字信号处理的应用又促进了数字信号处理理论的提高。而数字信号处理的实现则是理论和应用之间的桥梁。数字信号处理是以众多学科为理论基础的,它所涉及的范围极其广泛。例如,在数学领域,微积分、概率统计、随机过程、数值分析等都是数字信号处理的基本工具,与网络理论、信号与系统、控制论、通信理论、故障诊断等也密切相关。近来新兴的一些学科,如人工智能、模式识别、神经网络等,都与数字信号处理密不可分。可以说,数字信号处理是把许多经典的理论体系作为自己的理论基础,同时又使自己成为一系列新兴学科的理论基础。41.4 本文主要工作本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过 PC 机录制自己的一段声音,运用 Matlab 进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。第 2 章主要介绍语音信号的特点与采集,仿真主要是验证奈奎斯特定理。第 3 章主要是对语音信号进行时域、频域上的分析,如短时功率谱,短时能量,短时平均过零率,语谱图分析等等。第4 章是对语音信号的综合和分析,包括语音信号的调制、叠加和滤波。52 语音信号的特点与采集2.1 语音信号的特点通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:在频域内,语音信号的频谱分量主要集中在 3003400Hz 的范围内。利 1用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按 8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的 2特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。下面是一段语音信号的时域波形图(图 2-1)和频域图(图 2-2),由这两个图可以看出语音信号的两个特点。0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-0.8-0.6-0.4-0.200.20.40.6Time(s) 0 0.5 1 1.5 2 2.5x 10400.050.10.150.20.250.30.350.40.45Frequency(Hz)图 2-1 语音信号时域波形图 图 2-2 语音信号频域波形图2.2 语音信号的采集在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个: 抑制输入信导各领域分量中频率超出 fs/2 的所有分量(f s 为采样频率),以 1防止混叠干扰。 抑制 50Hz 的电源工频干扰。这样,预滤波器必须是一个带通 2滤波器,设其上、下截止频率分别是 fH 和 fL,则对于绝大多数语音编译码器,fH=3400Hz、f L60100Hz 、采样率为 fs8kHz;而对丁语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时fH 4500Hz 或 8000Hz、f L60Hz、f s10kHz 或 20kHz。6为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t 在模拟信号(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率 fs 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波形,它是通过采样脉冲和模拟信号相乘来实现的。下图时一段语音信号在采样频率 44.1KHz 情况下的频谱图。0 1 2 3 4 5 6x 104-0.4-0.200.20.4 低低低低0 0.5 1 1.5 2 2.5x 104050100150200图 2-3 原始信号时域波形图和频域波形图由图可知,这段语音信号的频率主要集中在 1KHz 左右,当采样频率为44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。70 1 2 3 4 5 6x 104-0.200.20.40.6 低低低低低低0 5000 10000 1500011.522.53图 2-4 抽取后的信号时域波形图和频域波形图对上述信号进行 1/80 采样频率抽取,即采样频率变为将近 500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T)的信号,采集到过大的数据量(N=T/t),给计算机增加不必要的计算工作量和存储空间;若数据量(N)限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论