




免费预览已结束,剩余45页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于谱减法的语音增强及其dsp实现 摘 要语音总会受到外界噪声不同程度的干扰和影响,噪声不但降低了语音质量和可懂度,而且还将导致语音处理系统性能的急剧恶化。语音增强技术可以用来抑制噪声,提高抗噪声能力和输入信号的信噪比,改善语音质量、可懂度和系统的性能,并作为预处理或前端处理模块存在于语音处理系统中。本论文首先从语音特性、噪声特性、人耳的感知特性以及语音信号分析得方法入手,重点研究了基于谱减法的增强算法并在matlab环境下对其进行了仿真,验证了谱减法在语音增强方面的有效性和可行性。dsp(数字信号处理器)作为专用的数字信号处理芯片,具有在单机器周期内完成乘加运算、单机器周期内多次访问存储器以及丰富的片上外设等特点。采用dsp进行语音信号处理代表未来语音信号处理的发展方向,在这种情况下,本文在研究谱减法的基础上,对算法进行了分析和实现,实现了基于dsp的语音信号采集与处理系统。关键词:语音信号处理,语音增强,谱减法,dspspeech enhancement algorithms and implementation on dspabstract speech is inevitably interfered by noise. the noise not only degrades the quality and the intelligibility of speech, but also worsens the capability of the system. as speech enhancement technology can be used to reduce the noise, improve anti-noise ability and the signal-to-noise ratio of the input signal , the input signal-to-noise ratio of the speech processing system and improving the quality and intelligibility of speech, speech enhancement technology is usually used as the pre-processing module in the speech processing system. this paper first from speech characteristics, noise characteristics, the perception of the human ear characteristics and method of speech signal analysis, focus on the based on the spectral subtraction enhancement algorithm and in the matlab environment of the simulation, verify the spectral subtraction speech enhancement in the effectiveness and feasibility. dsp as special digital signal processor, has some unique features, such as single-cycle multiply and accumulate (mac),multiple accessing memories in single cycle,a wide variety of on-chip peripherals. these features lead dsp applied widely in digital speech processing field. this paper studies the traditional spectral subtraction and improves it to reduce “music noise”. then based on these theories, a practical speech enhancement processing system on dsp is designed and implemented.key words: speech processing,speech enhancement,spectral subtraction,dsp 基于谱减法的语音增强及其dsp实现iii摘 要iiiabstractiv第一章 绪论11.1课题研究意义11.2国内外研究现状及发展背景21.3主要研究内容3第二章 语音增强的基础知识42.1语音的产生42.2 人的听觉特性42.3 语音信号产生的数字模型52.3.1激励源模型52.3.2声道模型52.3.3辐射模型52.4语音信号的短时分析技术62.4.1预滤波、采样、a/d变换62.4.2加窗处理62.4.3短时频谱72.4.4短时能量和短时平均幅度72.4.5短时过零率82.5语音特性82.6语音增强的基本理论92.6.1噪声特性92.7语音增强效果的评价方法10第三章 谱减法的原理、算法及分析113.1谱减法的原理113.2 谱减法的实现与仿真143.3小结16第四章 dsp介绍及基于dsp实时语音处理系统的设计174.1 dsp概述174.1.1 dsp芯片的基本结构174.1.2 dsp的运算速度194.1.3 dsp应用系统204.2基于dsp实时语音处理系统214.2.1基于dsp实时语音处理系统的构成214.2.2基于dsp实时语音处理系统的设计过程214.2.3基于dsp实时语音处理系统的开发工具23第五章 基于谱减法的语音增强在dsp环境下的实现255.1基于谱减法的语音增强在dsp环境下实时实现系统的硬件组成255.1.1实时谱减法语音增强系统的硬件介绍255.2 ccs (code composer studio) dsp集成开发环境275.3基于谱减法的语音增强在dsp环境下的实时实现275.3.1系统的工作原理275.3.2实时系统的软件设计295.3.3系统软件的调试325.3.4实时系统在设计过程中的关键技术及解决方案325.3.5实时系统主要技术指标及测试35第六章 结论与展望376.1本论文主要完成的工作376.2有待进一步研究的问题37致 谢38参考文献39附录 外文文献4046第一章 绪论1.1课题研究意义当今世界正处在信息时代。计算机、电子和信息技术的高速发展,推动着人类社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务,而语音数字信号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及面很广的交叉学科,研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学和语言学等许多学科,在数字语音通信、声控打印机、自动语音翻译和多媒体信息处理等许多方面都有着非常重要的应用。语音数字信号处理包含的内容十分泛,包括语音编码、语音识别、语音合成和语音增强等。在语音数字信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段,保证语音识别系统、说话人识别系统和各种实际环境下语音编码系统性能的重要环节。人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介乃至其他讲话者的干扰,使得接收者最终接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰往往都是随机的、不确定的、复杂的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,这是一种客观度量;二是提高可懂度,使听者乐于接受,不感觉疲劳,这是一种主观度量,但这两个目的往往不能兼得。语音增强作为预处理手段,可以应用到许多领域中:(1)目前的语音识别系统大都工作在安静环境中,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。(2)语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中的背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至完全不可懂。(3)在国家和社会安全方面,侦听信号常常含有较大的噪声,语音增强有助于提高侦听系统的效果,可以帮助侦察破案或获取情报。(4)在医学领域中,在复杂语音环境下,帮助听力障碍的人获取正常人的听力,正确分辨说话人的位置,选择所听取的语音信号。 1.2国内外研究现状及发展背景 早在20世纪60年代,语音增强这个课题就己经引起了人们的注意。到了20世纪70年代,随着数字信号处理理论的不断发展,人们对语音增强技术的研究形成了一个高潮,些基础性成果,这使语音增强发展成为语音信号数字处理的一个重要分支。经典的谱相减法和维纳滤波方法就是在这一时期提出来的。但由于各种算法计算量问题,导致它们的实用性受到影响。进入80年代后,vlsl技术的发展为语音增强的实时处理提供了可能,同时也涌现了大量新的算法,在语音识别中使用的概念和方法又被借鉴到语音增强算法中。90年代后,移动通信的飞速发展为语音增强研究提供了现实的动力,由于对之增强效果仍然不够满意,又进行了新的尝试。比如将小波变换用于语音增强中,利用神经网络(annarificial neural net、vorks)进行语音增强,基于麦克风阵列的语音增强等。一直以来,针对不同的背景噪声或者某个特殊的应用要求,人们提出了各种新的语音增强算法。尽管这些算法在理论上还没有完全解决语音增强问题,但有些方法已经证明是有效的,并在实际的应用中被采用。语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个信号中得出。一般这种语音系统要求噪声比较平稳,以便在非语音段对噪声进行估计,再依据估计出来的噪声对带噪的语音段进行处理。如果系统是一个多通道的语音系统,各个通道之阳极存在着某些相关的特性,这些相关特性对语音增强的处理十分有利。单通道语音增强是语音增强的基础。多年来,人们对宽带加性噪声的模型进行研究,提出了各种算法。尽管目前语音增强的理论还不成熟,但己有很多实用的算法。语音增强的算法从处理方法上大体上可以分为4类:噪声对消法,基于语音谱特征的谐波增强法,基于短时谱幅度估计的语音增强算法和基于参数估计的语音合成法。常用的方法有中心削波法,谱减法,自适应抵消法等。通过语音增强技术来改善语音质量的过程如图1-1所示。谱减法由美国utah大学的steven f. boll在1979年提出,boll的研究起源是为了改进噪声中的线性预测(lp-linear prediction)分析,随后发展成估计噪声频谱并进行扣除的经典频谱减法。谱减法及其改进算法是一种基于短时谱估计的语音增强算法,由于它的运算量相对较小,容易实时实现,而且增强的效果也较好,是目前最常用的语音增强算法。本文将重点研究和实现基于谱减法语音增强方法。纯净语音信道干扰语音和背景噪声传输噪声语音增强处理增强语音 图 1-1 语音增强处理改善语音质量1.3主要研究内容本论文采用数字信号处理和声学研究相结合的方法,围绕语音增强问题,展开研究工作。在分析、研究语音增强算法的基础上,选择谱减增强算法作为本论文的算法,利用计算机高级语言对增强算法进行仿真。在对高级语言仿真程序进行测试分析之后,在系统上实现语音信号的增强。本文在结构上大致可以分为6个部分:绪论(第一章)语音增强的基础知识(第二章);谱减法的原理、算法及分析(第三章);dsp介绍及基于dsp实时语音处理系统的设计(第四章);基于谱减法的语音增强在dsp环境下的实时实现(第五章);总结与展望 (第六章)。 第二章 语音增强的基础知识语音信号处理是一门综合性的学科,它研究如何用数字信号处理技术对语音信号进行处理,包括四大分支语音识别,语音合成,语音编码和语音增强。在不同的分支中,研究的目标不同,所采用的处理方法亦是多种多样的,但总的来说,处理语音信号的目的是利用语音信号所携带的信息,以最简的方式去解决实际问题。这里,简要介绍一下语音信号处理的基础知识。2.1语音的产生产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流。声带既是阀门,又是振动部件。由声带振动产生声音,是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期,称为基音周期,其倒数称为基音频率,简称为基频。基频决定了声音频率的高低,随发音人的性别、年龄及具体情况而定。语音中由声带振动产生的声音称为浊音,而不由声带振动产生的声音称为清音。声道是由咽、口腔和鼻腔组成,是一个分布参数系统,可视为一谐振腔,它放大某一频率而衰减其它频率分量。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,即改变谐振频率。这些谐振频率称为共振峰频率,简称为共振峰,语音的频率特性主要是由共振峰决定的。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对音质有很大影响。2.2 人的听觉特性一个完整的语音通信系统总是涉及到说(语音的产生)和听(语音的接收)两个方面,正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听到声音的频率范围为:0.016khz16khz 的声音。当两个响度不同的声音作用于人耳时,则响度较高频率成分的存在会影响到人耳对响度较低频率成分的感受,使其变得不易被觉察,称之为掩蔽效应(masking effect)。2.3 语音信号产生的数字模型语音信号s(n)语音是由空气流激励声道,最后从嘴唇或鼻孔辐射出来,语音声波由振动而产生并借助于介质点的振动而传播。对于目前的大多数研究和应用,数学模型完全满足要求,该模型中包括三个部分:激励源、声道模型和辐射模型。基音频率周期脉冲发生器声门脉冲模型g(z)av随机噪声发生器au声道模型v(z)声道参数辐射模型r(z)图2-1语音信号产生的数学模型2.3.1激励源模型激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。为了使浊音的激励信号具有声门气流脉冲的实际波形,需要使上述的冲激序列通过一个声门脉冲模型滤波器。清音激励信号则由随机噪声发生器产生。2.3.2声道模型声道可近似地看作是由多段均匀截面积的声管级联而成,采用流体力学的方法可以推导出,n节级联的无损声管的系统函数是一个n阶的全极点函数: (2-1)其中1,为实数,p为全极点滤波器的阶。p 取得越大,模型的传输函数与声道实际传输函数的吻合程度越高,但同时也增加了算法的复杂程度。2.3.3辐射模型声道的终端为口和唇,因此辐射模型与嘴型有关。经研究表明,口唇端辐射在高频端较为显著,在低频端时影响较小。口唇的辐射效应可表示为: (2-2)综上所述,完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为: (2-3)2.4语音信号的短时分析技术语音信号是一种非平稳的时变信号,产生过程与发音器官的运动密切相关,而这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常假定为短时平稳的,即在1030ms时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。所以把每个短时的语音段称为一个分析帧,对该帧进行处理就相当于对固定特性的持续语音进行处理。分析帧可以是连续的,也可以是交叠分帧。2.4.1预滤波、采样、a/d变换 预滤波的目的有两个:(1)抑制输入信号各频域分量中频率超出(为采样率)以防止混叠干扰。(2)抑制50hz的电源干扰。这样,预滤波器必须是一个带通滤波器,其上、下截至频率分别是和。对于绝大多数语音编码器,3400hz,60100hz,采样率为8khz。语音信号经预滤波和采样后,由a/d变换器变换为二进制数字码。2.4.2加窗处理通常采用一个长度有限的窗函数w(n)来乘语音信号s(n),从而形成加窗语音 s(n)w(n)。理想的窗函数的频率响应要求,主瓣无限狭窄且没有旁瓣(无频谱泄漏),但在实际过程中无法实现。根据不同应用,通常采用矩形窗、海明窗和汉宁窗等窗函数来逼近理想的频率响应。矩形窗主瓣最小,但旁瓣最高;海明窗具有最宽的主瓣和最低的旁瓣高度。从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高,海明窗可以有效克服泄漏现象,具有平滑的低通特性。2.4.3短时频谱加窗信号的离散傅立叶(dtft)称为s(n)的短时频谱,可以用下面公式计算: (2-4)称为s(n)的短时功率谱。假设s(n)的dtft是,且w(n)的dtft是,那么是和的周期卷积。在语音信号数字处理中,都是采用的离散傅立叶变换(dft)来代替,并且可以用高效的快速傅立叶变换(fft)算法完成由至的转换。为了使具有较高的分辨率,所取的dft以及相应的fft点数较的长度n要大。例如,在通常采样率为8khz且帧长为20ms时n160,而一般取为256,512或1024。为了将的点数从n扩大为,可以在扩大的部分添若干的0采样值。2.4.4短时能量和短时平均幅度语音信号的一帧内的能量称为短时能量,用表示: (2-5)短时能量为一帧样点值的加权平方和。可以由它的量值粗略判别语音信号的有无,同时也可以由它判断该帧是浊音还是清音。短时能量的一个主要问题是对于信号电平值过于敏感,而且需要计算信号样值的平方和,在定点实现时很容易溢出。为了克服这个缺点,定义短时平均幅度来衡量语音幅度的变化。 (2-6)但 的动态范围(最大值与最小值之比)要比短时能量小,接近于短时能量计算的平方根,所以用区分清音/浊音、无/有声不如短时能量明显。2.4.5短时过零率短时过零率其定义为: (2-7)其中sgn表示取符号,即 (2-8)由短时过零率可以概略地得到信号的变化快慢。短时过零率也可以表征清音帧与浊音帧,及区别语音的有无。但过零率容易收到噪声电平的扰动。一般实际应用中多设置一个门限电平,以使过零率检测有一定的抗干扰性。准确地检测语音开始需要用短时能量和短时过零率配合检测。2.5语音特性1语音是一个时变的、非平稳随机过程人类发声系统的生理结构的变化速度是有限的,在1030ms时间段内具有相对稳定性,可以认为其特性是不变的,因此语音的短时谱分析也有相对稳定性。2语音大体上可以分为清音和浊音两大类浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内;清音则没有明显的时域和频域特征,类似于白噪声。3语音感知对语音增强研究有重要作用语音增强效果的最终度量是人的主观感受。人耳对背景噪声有惊人的抑制作用,了解其中机理将大大有助于语音增强技术的发展。(1)人耳对语音的感知是通过语音信号中各频谱分量幅度获得的,对各分量的相位则不敏感;(2)人耳对频谱分量强度的感受是频率和能谱的二元函数,响度与频谱幅度的对数成正比;(3)人耳有掩蔽效应,掩蔽的程度是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得多;(4)短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更重要。因此对语音信号进行一定程度的低通滤波不会对可懂度造成影响。2.6语音增强的基本理论2.6.1噪声特性噪声可以分为加性噪声和噪声。对于乘性噪声,有些可以通过变换而转变为加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等。1周期性噪声具有许多离散的线谱,主要来源于发动机等周期性运转的机械,可以用梳状滤波器予以抑制。然而,实际中产生的周期性噪声是由许多窄谱带组成,并且往往是时变的,且与语音信号频谱重叠,所以必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。2脉冲噪声表现为时域波形中突然出现的窄脉冲,来源于爆作、撞击和放电等。可根据带噪语音信号幅度的平均值确定阀值,当信号幅度超出阀值时,判别为脉冲噪声,然后对它进行适当的衰减;也可以根据相邻信号样值通过内插的方法,在时域上进行平滑。3宽带噪声宽带噪声来源很多,热噪声、气流(风、呼吸)噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于它与语音信号在时域和频域上完全重叠,因而消除最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行预白化处理。4同声道语音干扰人耳可以在两人以上讲话环境中分辨出所需的声音,这种分辨能力是人体内部语音理解机理所具有的感知能力,来源于人的双耳输入效应,称之为“鸡尾酒会效应”。但当多个语音叠合在一起,在单信道传输时,双耳信号因合并而消失。5背景噪声对发声的影响强噪声不仅会使人疲劳,而且还对讲话人产生影响,使讲话人改变了在安静环境或低噪声环境中的发音方式,从而改变了语音的特性参数,这称为 “lombard”效应,它对语音识别系统有很大影响。2.7语音增强效果的评价方法语音增强效果可以用主观测量或客观测量来评价。主观测试方法有:平均意见得分(mos)、判断韵字测试(drt)和判断满意度测试(dam)等。主观评定方法符合人类听话时对语音质量的感觉,目前得到了广泛的应用。其中,mos采用五级评分标准。参加测试的实验者在听完所测语音后,从五个等级中选择某一级作为他对所测语音质量的评定。全体实验者的平均分就是所测语音质量的mos分。drt是反映清晰度或可懂度的一种测试方法,使用若干对同韵母进行测试,其主要用于低速率语音编码的质量测试。dam是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一种度量,也采用百分比评分。至于客观测试方法,可以直接观测语音的时域/频域波形,也可以给出客观的数值度量,通常采用原始语音信号功率与归一化后的增强语音和原始语音之差的功率比值来度量,简称信噪比(snr)。第三章 谱减法的原理、算法及分析3.1谱减法的原理谱减法是消除噪声的经典算法,它是处理宽带噪声最通用的技术,即从带噪语音估计值中减去噪声频谱估计值,而得到纯净语音的频谱。本文基于matlab对谱减法进行设计和实现。仿真表明,谱减法可以有效的降低背景噪声,提高信噪比。谱减法在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音功率谱估计,开方后就得到语音幅度谱估计,用带噪语音的相位来近似纯净语音的相位,在采用反傅里叶变换恢复时域信号。它的优点是比较简单,只需要进行正反傅里叶变换,而且实时实现较容易。假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关。此时带噪语音信号可表示为 (3-1)式中,s(n)为纯净语音信号,d(n)为平稳加性高斯噪声,y(n)为加窗后的带噪信号。因为减谱法不需分析语音信号的频谱特性,所以本文采用矩形窗函数。设y(n)的傅里叶系数为,s(n)的傅立叶系数为,d(n)的傅立叶系数为,由(31),则有。语音增强的任务就是利用估计的噪声功率谱信息,从中得到。由于人耳对相位不敏感,所以只要估计出,然后借用带噪语音相位,进行反傅立叶变换后就可以得到增强的语音。减谱法的原理框图如图3-1所示:y(n)经fft变化后,有,由此可得 (3-2) 其中,*表示共轭。因为假定噪声为不相关的,所以与独立,互谱的统计平均值为0,而为零均值的高斯分布,所以有 (3-3)y(i)有/无语音 判决有语音无语音更新噪声谱估计噪声谱方差fft带噪信号功率增强后的语音信号功率插入相位iffts(i) 图3-1 谱减法原理框图因为噪声是局部平稳的,故认为发语音前和发语音期间的噪声功率谱相同,所以可以利用发语音前(或后)的“寂静帧”来估计噪声。对于一个分析帧内的时平稳过程,有: (3-4)其中,为无语音时的统计平均值,即。由此可得原始语音的估计值: (3-5)定义第k个频谱分量的增益函数 以及后验信噪比 则(3-5)可以改写为 (3-6)由(3-6)可以清楚地看出谱相减的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数。当信噪比高时,含语音的可能性很大,衰减小。反之,则认为含有语音的可能性小,衰减则增大。应该看到,如果假设具有高斯分布,则谱相减法相当于对作最大似然估计。因为此时有 (3-7)令则有 (3-8)这一结果与公式(3-5)相同。如果不给定的分布,则此时的最大似然估计式可以用如下方法求得: (3-9)通过积分消去后,有 (3-10)其中为第0阶修正贝赛尔函数 令 则解方程后就可以得到的估计式。由于存在(),直接求解有一定的困难。为此需要采取一定的简化措施。因为当x3 (3-11)时,有,所以在较高信噪比条件下,解方程可以得到。谱减法作为处理宽带噪声的传统方法,对于整个语音段采用减去相同噪声功率谱的方法,这样,使得在实际中不能达到很理想的效果。因为: 1、语音的能量往往集中在某些频段内,在这些频段内的幅度相对较高,尤其是共振峰处的幅度一般远大于噪声,因此,不应在整个语音段减去相同噪声功率谱; 2、由于在谱减法处理过程中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量。而宽带噪声服从高斯分布,它的能量统计特性服从正态分布,对应的噪声帧功率谱也就随机变化,服从高斯分布,即其幅度随机变化的范围很宽,其最大值、最小值之比往往达到几个数量级,而最大值与平均值之比也可达6-8倍,只有对它做长期平均才能得到较平坦的谱。因此相减时,若该帧某频率点噪声分量较大,谱减后就会有很大的残余噪声保留。3.2 谱减法的实现与仿真基于matlab实现谱减法的仿真,其程序流程图如图3-2所示:读入语音文件产生随机白噪声带噪语音加汉明窗,帧间重叠50%短时fft短时相位谱短时幅度谱短时噪声幅度谱估计 +差值0?将差值置为零频域中合成语音ny短时ifft并各帧重叠相加去除汉明窗引起的增益增强后的语音图3-2 谱减法语音增强仿真实现流程图 谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没用使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪声频谱相减,得到语音频谱的估计值。当上述差值得到负的幅度时,将其置零。由于人耳对语音的感知主要是通过语音信号中各频谱分量幅度获得的,对各分量的相位不敏感。因此,此类语音增强方法将估计的对象放在短时谱幅度上。图3-3是在matlab环境下谱减法的仿真效果。图3-3 谱减法的仿真效果3.3小结综合前面的讨论,现将谱减法总结如下:1谱减法在静音帧时估计噪声幅值谱,并且假设在其后的语音帧里噪声谱基本稳定,从带噪信号谱中扣除噪声谱,并利用人耳“相盲”这一特点,将得到的幅值和带噪信号的相位结合形成语音估计谱。2. 谱减方法的优点在于方法较简单(只需要进行傅立叶正、反变换),而且得到的增强结果和其它更复杂方法的结果相当甚至更好。3该方法会造成“音乐噪声”,这是因为实际噪音谱相对于估计谱的随机变化造成的。可以用多种方法减轻这种噪声,但无法完全消除。第四章 dsp介绍及基于dsp实时语音处理系统的设计随着语音处理技术研究的进一步深入和语音处理应用的要求,绝大多数语音处理系统需要按实时方式工作,同时,也由于处理算法变得越来越复杂,使得实时系统对dsp运算速度和存储容量等提出了更高的要求。下面首先对dsp及其自身特点进行介绍。4.1 dsp概述 dsp是digital signal processing的缩写,即数字信号处理,同时dsp也是digital signal processor的缩写,即数字信号处理器。但不论怎样,人们在提到dsp时,一般指的是dsp芯片,即数字信号处理芯片。它是一种具有特殊结构的微处理器,由于它的特殊结构使得它特别适合进行数字信号处理,dsp也因此主要应用于各种数字信号处理算法的实时快速实现。数字信号处理的任务是完成大量的实时计算,如常用的fft快速算法和fir滤波。dsp正是针对数字信号处理中数据操作高度重复的运算特点而设计的。根据数字信号处理的要求和特点,dsp一般具有如下的主要特点: (1)在一个指令周期,可完成一次乘法和一次加法。 (2)程序和数据空间分开,可以同时访问指令和数据。 (3)片内具有快速ram,通常可通过独立的数据总线在两块芯片中同时访问。 (4)具有低开销或无开销循环及跳转的硬件支持。 (5)快速的中断处理和硬件v0接口支持。 (6)具有在单周期内操作的多个硬件地址产生器。 (7)可以并行执行多个操作。 (8)支持流水线操作,使取指、译码、取操作数和执行等操作可以重叠执行。4.1.1 dsp芯片的基本结构 为了实时迅速地实现数字信号处理,dsp芯片一般采用区别于微处理器的特殊软硬件结构。dsp的内部采用程序总线和数据总线分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线操作,提供特殊的数字信号处理指令,从而可以迅速地实现各种数字信号处理算法。 因为在本系统中,我们采用了美国德克萨斯公司(ti, texas instrument)的tms320 dsp系列中一款dsp芯片,所以就以tms320 dsp系列的结构做为代表来说明dsp芯片的结构。tms320 dsp系列的基本结构:(1)哈弗结构 (2)流水线操作;(3)专用的硬件乘法器; (4)特殊的dsp指令集;(5)快速的指令周期。 正是由于这些特殊的结构,tms320 dsp芯片使得大部分的运算(如乘法)能在一个指令周期内完成,这样dsp就能够迅速地完成大量的数字信号处理运算,满足实际的需求。1、哈佛结构(harvard) 哈佛结构的特点是程序存储器和数据存储器各自具有独立的存储空间,每个储器独立编址,独立访问,相应地还具有独立的程序总线和数据总线,允许取指令和执行指令并行执行,或称为重叠执行,允许对数据和程序同时寻址,允许直接在程序和数据之间进行信息传递,减少了冲突,大大提高了数据处理能力,从而获得了高速的运算能力。ti公司的dsp采用了增强的哈佛结构,对于tms320vc54x dsp芯片,其内部具有八条16位的总线,一条程序总线、三条数据总线和四条地址总线:(1)程序总线传送取自程序存储器的指令代码和立即数。 (2)三条数据总线将内部各单元(如cpu、数据地址产生逻辑、程序地址产生逻辑片上外设以及数据存储器)连接在一起。(3)四条地址总线传送执行指令所需要的地址。哈佛结构与冯诺依曼结构的不同在于采用了并行结构,与冯诺依曼结构相比,哈佛结构更适合处理具有高度实时要求的数字信号。2、流水线所谓流水线操作,就是取指令和执行指令可以同时进行,从而减少执行时间,进一步增强处理器的数据处理能力。流水线是提高dsp程序执行效率的一个主要手段。流水线使得两个或更多不同的操作可以重叠执行。这样,在处理器内部,每条指令的执行分为取指令、解码、执行等若干个阶段,每一个阶段称为一级流水。流水处理使得若干指令的不同执行阶段并行执行,从而极大地提高了程序执行的速度。在四级流水线操作中,取指、译码和执行操作可以独立地处理,这可使指令能完全重叠,在每个指令周期内,四个不同的指令处于激活状态,每个指令处于不同的执行阶段。3、专用的硬件乘法器 tms320 dsp具有一个专用的硬件乘法器,使得乘法可在一个指令周期内完成。乘法速度越快,dsp的性能就越来越高。4、特殊的dsp指令为了满足数字信号处理应用的需要,在dsp指令系统中设计了一些特殊的dsp指令,以完成一些专门的运算。例如tms320vc54x dsp的firs指令,专门用于fir滤波运算。5、快速的指令周期 哈佛结构、流水线操作、专用的硬件乘法器、特殊的dsp指令系统再加上集成电路的优化设计,可使dsp的指令周期在50ns以下。快速的指令周期使得dsp芯片能够实时实现许多dsp应用。4.1.2 dsp的运算速度 运算速度是dsp芯片的一个最重要的性能指标,也是选用dsp芯片时所需要考虑的一个主要因素。dsp芯片的运算速度可以用以下几种性能指标来衡量。 1、指令周期:是指执行一条指令所需要的时间,通常是以ns为单位。如tms320vc5416 dsp在主频为160mhz时的指令周期是6.25ns。 2、mac时间:即一次乘法加上一次加法的时间。 3、fft执行时间:即运行一个n点fft程序所需要的时间。由于fft运算涉及的运算在数字信号处理中很具有代表性,因此fft运算时间常作为衡量dsp芯片运算能力的一个指标。4、 mips:即每秒执行百万次指令。 5、mops:即每秒执行百万次操作。 6、 mflops:即每秒执行百万次浮点操作。 7、 bops:即每秒执行十亿次指令。4.1.3 dsp应用系统1、dsp应用系统的构成输入抗混叠滤波 器adcdsp芯片dac抗镜像滤波 器输出图 4-1 典型的dsp应用系统框图输入的信号首先进行滤波和采样,换将模拟信号转换为数字信号。dsp然后经过dac进行a/d (analog to digital)转对输入的经过a/d转换后得到的数字信号进行处理,经过dac进行d/a (digital to analog)转换为模拟信号,最后输出平滑的模拟信号。在图中: (1) anti-aliasing filte一抗混叠滤波器,将输入的模拟信号高于奈奎斯特(nyquist)频率的频率成分滤掉。 (2) analog-to-digital convert模数转换器adc,将模拟信号转换成为dsp可以处理的并行或串行的数字比特流。 (3) digital signal processing数字信号处理器dsp,完成数字信号处理算法。 (4) digital-to-analog convert数模转换器dac,将经过处理的数字信号转换为模拟样值。 (5) anti-image filter抗镜像滤波器,将模拟样值重建为模拟波形。 2、dsp系统的优点 数字信号技术在近几年得到了迅速的发展,应用非常广泛。之所以会以如此迅速的速度发展,是因为dsp系统有其自身的优点。同时由于数字信号处理系统是以数字信号处理为基础的,因此具有数字信号处理的全部优点。 (1)接口方便灵活。 (2)编程方便。 (3)稳定性、可靠性好。 (4)精度高。 (5)可重复性好。 (6)时分复用。 (7)易于集成。4.2基于dsp实时语音处理系统 语音处理的实时实现可以采取两种方式:一种是非脱机系统方式,即将计算机作为实现平台,在计算机上插上数字信号处理板来进行语音信号处理,这种方式可在实验室环境下进行语音处理技术的研究;另一种是运用通用和专用dsp芯片以及其他辅助芯片构成一个独立工作的系统,在实际应用中大多数都采用这种实现方式。 4.2.1基于dsp实时语音处理系统的构成语音输出平滑滤 波d/adsp芯片a/d抗混叠滤波语音输入 一个典型的基于dsp芯片的实时语音处理系统如图4-2所示: 图 4-2 典型基于dsp的实时语音处理系统输入语音信号首先进行带限滤波和抽样,然后进行模数变换,将语音信号变换成数字信号。根据奈奎斯特抽样定理,对于低通模拟信号,为了保持信息不丢失,抽样频率至少必须是输入带限信号最高频率的2倍。因此,对频率范围为300-3400hz的电话带宽的语音信号,一般采样频率取8khz。 dsp芯片的输入是a/d变换后得到的以抽样形式表示的语音信号,dsp芯片对输入的数字信号运用语音处理算法进行处理,如语音增强等,经过处理的数字样值通过d/a变换为模拟值,最后再进行平滑滤波就可以得到连续的模拟波形。 4.2.2基于dsp实时语音处理系统的设计过程 图4-3是基于dsp实时语音处理系统设计的一般过程。系统测试和调试语音处理应用定义性能系统指标选择dsp芯片 软件编程硬件设计软件调试硬件调试系统集成图 4-3 基于dsp实时语音处理系统地设计流程基本的设计过程可以描述如下1、定义系统性能指标 在设计dsp语音处理系统之前,首先必须根据应用系统的目标确定系统的性能指标和语音处理的要求。 2、根据系统的要求进行高级语言模拟 一般来说,为了实现系统的最终目标,需要对输入的语音信号进行适当的处理,而处理方法的不同会导致不同的系统性能,要得到最佳的系统性能,必须在这一步确定最佳的处理方法,即语音信号处理的算法,因此这一阶段也称为算法模拟或仿真阶段。算法模拟所用的输入数据是实际信号经采集而获得的,通常以计算机文件的形式存储为数据文件。 3、设计基于dsp实时语音处理系统 基于dsp实时语音处理系统的设计包括硬件设计和软件设计两个方面。 硬件设计首先要根据系统运算量的大小、对运算精度的要求、系统集成成本限制以及体积、功耗等要求选择一个合适的dsp芯片,然后设计dsp芯片的外围电路及其他电路。 软件设计和编程主要是根据系统要求和所选择的dsp芯片编写相应的 dsp汇编程序,若系统运算量不大且有高级语言(如c语言)编程。在实际应用中,常常采用高级语言和汇编语言的混合编程方法,即在算法运算量大的地方,用手工编写的方法编写汇编语言,而运算量不大的地方则采用高级语言。采用这种方法,即可缩短软件开发的周期,提高程序的可读性和可移植性,又能满足系统实时运算的要求。 4、软件调试 dsp硬件和软件设计完成后,就需要进行硬件和软件的调试。 软件的调试一般借助于dsp开发工具,如软件模拟器,dsp开发系统或仿真器等。调试dsp算法时一般采用将实时程序和模拟结果进行比较的方法,如果实时程序和模拟程序的输入相同,则两者若输出应该一致。 硬件调试一般采用硬件仿真器进行调试,若硬件系统不是十分复杂,也可借助于一般的工具进行调试。 5、独立系统运行 系统的软件和硬件调试完成后,可以将软件脱离开发系统而直接在应用系统上运行。当然,dsp应用系统的开发,特别是软件开发是一个需要反复进行的过程,虽然通过算法模拟基本上可以知道实时系统的性能,但实际上模拟系统不可能作到与实时系统环境完全一致,而且将模拟算法移植到实时系统时,必须考虑算法是否能实时运行的问题。如果算法运算量太大不能在硬件上实时运行,则必须重新修改或简化算法。 4.2.3基于dsp实时语音处理系统的开发工具图4-3是基于dsp实时语音处理系统的设计流程,根据该设计流程,要开发一个完整的基于dsp实时语音处理系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海驾校合同标准文本
- 代评职称合同样本
- 公司出售企业合同样本
- 代工成品销售合同标准文本
- 债务人合同样本
- 企管顾问合同标准文本
- 企业租赁机房合同样本
- 公路工程单位合同样本
- 买瓷砖定金合同标准文本
- 2025年商用办公房屋租赁合同样本
- 【道法】人生当自强课件-2024-2025学年统编版道德与法治七年级下册
- 汽车维修质量保证制度
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 2024年广州市卫生健康系统招聘“优才计划”考试真题
- 重点营业线施工方案
- 餐饮店菜品成本计算表
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年江苏南京事业单位招聘(787人)高频重点模拟试卷提升(共500题附带答案详解)
- GB/T 33136-2024信息技术服务数据中心服务能力成熟度模型
- 《保护地球爱护家园》课件
- 雾化吸入疗法合理用药专家共识(2024版)解读
评论
0/150
提交评论