




已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)机载环境下语音噪声抑制技术研究及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语音是人类进行交流的主要工具之一,是人与人、人与机器之间进行沟通的 重要桥梁。如何高效的实现语音传输、存储或通过语音实现人机交互,是语音信 号处理领域的重要研究课题之一。语音噪声抑制技术是语音处理的一个重要技术, 多年来学者们不懈努力,寻求各种优良的语音增强算法。 本论文主要研究背景噪声下语音噪声抑制技术,其目的是改进语音质量,提 高语音清晰度和可懂度,在抑制背景噪声的同时尽量减小收听者听觉疲劳。论文 首先研究了语音端点检测方法,分析比较了各种端点检测算法的检测性能。改进 了基于自相关函数的端点检测算法,论文还进行了算法的仿真实验,实验结果验 证了改进算法较传统算法的检测效率有很大提高。 噪声抑制过程中最重要的环节是语音增强,大多数实用的语音增强算法均是 由精确的噪声估计方法和良好的增强算法来实现的。所以在语音增强部分文中先 介绍了一种有效的噪声估计方法。在增强算法中文中重点介绍了基于频谱减法的 语音增强算法、基于最小均方误差( 涨s e ) 的语音增强算法以及结合了入耳掩蔽 效应的语音增强算法。经仿真实验发现在机载背景下,传统的谱减算法和基于最 小均方误差的算法效果并不理想。而基于人耳掩蔽效应的算法效果优于这两种算 法,但是这种算法的复杂性限制它的实用性。因此文中把传统谱减和噪声估计方 法相结合,实验验证此方法能很好的跟踪机载背景噪声特性,语音增强效果明显, 同时运算效率高于其它的算法。 论文最后根据一种新的语音可懂度的相对度量方法,综合考虑各算法的优劣, 选择适合机载背景的实用语音增强方法。同时为改善收听者对噪声抑制后输出语 音的舒适感,文中提出在带噪语音的无音段添加舒适背景噪声,有效改善了收听 者听觉疲劳。论文根据分析结果设计了完整的在机载背景下的噪声抑制流程,在 m a t l a b 仿真验证其可行性的基础上,再在硬件平台上验证其有效性和适用性。 关键词:机载噪声,端点检测,语音增强,系统实现 a b s t r a c t a b s t r a c t s p e e c hi so n eo ft h em a i ni n t e r c o m m u n i o nt o o l sb e t w e e np e r s o n so rb e t w e e n p e r s o na n dm a c h i n e r y i nt h ed o m a i no fs p e e c hs i g n a l sp r o c e s s i n g ,i t sas i g n i f i c a n t r e s e a r c ht h a th o wt oi m p l e m e n ts p e e c h st r a n s m i s s i o na n ds t o r a g ee f f e c t i v e l y s p e e c h n o i s es u p p r e s s i o ni sa l li m p o r t a n tt e c h n o l o g yo fs p e e c hs i g n a lp r o c e s s i n g f o rm a n y y e a r sm a n yp r o g r e s s e sh a v e b e e nm a d e i nt h i sf i e l dt of i n dg o o dm e t h o d sf o ri t t h em o s t l yi m p o r t a n tp u r p o s eo fn o i s es u p p r e s s i o ni st oi m p r o v es p e e c hq u a l i t y , e n h a n c es p e e c hi n t e l l i g i b i l i t ya n dr e d u c et h el i s t e n e r se a rf a t i g u ea tt h es a m et i m e f i r s t l y , v o i c ea c t i v i t yd e t e c t i o nm e t h o d sw e r ei n t r o d u c e d t h ed e t e c t i n gp e r f o r m a n c e w a sa n a l y z e da n dc o m p a r e db e t w e e ns o m ea l g o r i t h m s a n dt h e nt h ed i s s e r t a t i o nm a i n l y a m e l i o r a t e dt h ea l g o r i t h mb a s e do na u t o c o r r e l a t i o nf u n c t i o n i t sp r o v e di ne m u l a t i o n t h a tt h ei m p r o v e da l g o r i t h mi sm o r ee f f e c t i v et h a nt r a d i t i o n a la l g o r i t h mb a s e do n a u t o c o r r e l a t i o n s p e e c he n h a n c e m e n ti st h em o s ti m p o r t a n tp a r to fs p e e c hn o i s er e d u c t i o n m o s t a p p l i e ds p e e c he n h a n c e m e n ta l g o r i t h m sa r er e a l i z e db yp r e c i s em e t h o d so fn o i s e e s t i m a t i o na n df a v o r a b l ee n h a n c e m e n ta l g o r i t h m s s oi ns e c o n dp a r tae f f e c t i v em e t h o d f o rn o i s ee s t i m a t i o nw a si n t r o d u c e d a n dt h e nt h et h e s i si n t r o d u c e dt r a d i t i o n a ls p e c t r a l s u b t r a c t i o na l g o r i t h ma n do t h e rt w os p e e c he n h a n c e m e n ta l g o r i t h m sw h i mb a s e do n m i n i m u mm e a ns q u a r ee r r o r ( m m s e ) a n da s s o c i a t e dw i t ha u d i t o r ym a s k i n gp r o p e r t i e s i t sp r o v e di ne m u l a t i o nt h a tt r a d i t i o n a ls p e c t r a ls u b t r a c t i o na l g o r i t h ma n dt h ea l g o r i t h m b a s e do nm m s ew e r en o te f f e c t i v ei na v i a t i o nc i r c u m s t a n c e a l t h o u g ht h ee f f e c to ft h e m e t h o db a s e do na u d i t o r ym a s k i n gp r o p e r t i e sw a sb e t t e r , i t sp r a c t i c a b i l i t yw a sr e s t r i c t e d b yi t sc o m p l e x i t y s oi nt h ed i s s e r t a t i o na na l g o r i t h mw a sa d o p t e dw h i c hc o m b i n e d e f f e c t i v en o i s ee s t i m a t i o na n dt r a d i t i o n a ls p e c t r a ls u b t r a c t i o na l g o r i t h m t h et e s tp r o v e d t h a tt h i sm e t h o dc o u l dt r a c kt h ec h a r a c t e r i s t i c so fa v i a t i o nn o i s ef a v o r a b l ya n di t s o p e r a t i o ne f f i c i e n c yw a sh i g h e rt h a no t h e r s a tl a s t ,a c c o r d i n gt oan e wr e l a t i v em e a s u r e m e n to fs p e e c hi n t e l l i g i b i l i t ya n d t a k i n gi n t oa d v a n t a g e sa n dd i s a d v a n t a g e so f a l la l g o r i t h m sa c c o u n t ,t h i sp a p e rs e l e c t e da i i s p e e c he 血锄c e m e n ta l g o r i t h ms u i t a b l ef o r a v i a t i o nn o i s eb a c k g r o u n d a tt h es 锄et i m e i no r d e rt 0i m p r o v et h el i s t e n e r sh e a r i n gf a t i g u e ,a l la p p r o a c h 。f c o m f o r t a b l en o i s e g e n e r a t i 。nw a sp r e s e n t e d b a s e d o na l l 。ft h e s ea n a l y s e s ,aw h 0 1 en 。i s es u p p r e s s i 。n f l o wi na v i a t i o nc i r c 吼s t a n c ew a sp r e s e n t e da n di t sv a l i d i t ya n da p p l i c a b i l i t yw e r e p r o v e db o t h i nm a t l a ba n do nh a r d w a r ef l a t k e yw 。r d s :a v i a t i o nn o i s e ,v o i c e a c t i v i t yd e t e c t i o n , s p e e c he n h a i l c 锄e n t ,s y s t e i i l r e a l i z a t i o n i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:壶l 骜 日期:猁年厂月石日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:嫩 导师签名:赳 日期:冽年厂月r 日 第一章绪论 第一章引言 1 1 语音噪声抑制的目的及应用背景 随着现代科学的蓬勃发展,人类社会愈来愈显示出信息社会的特点。语音是 人类进行交流的主要工具之一,是人与人、人与机器之间进行沟通的重要桥梁。 如何高效的实现语音传输、存储或通过语音实现人机交互,是语音信号处理领域 的重要研究课题之一。但在实际生活中,严重的噪音干扰会影响语音信息的传递。 在语音通信过程中“噪声 主要来自周围环境和传输媒介的引入以及通信设备内 部电噪声或者其他讲话者的干扰。这些干扰最终将使接收者接收到的语音己非纯 净的原始语音信号,而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或 舰船上的电话,街道、机场的公用电话,常受到强背景噪声的干扰,严重影响通 话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真,室内会议电话的交 混回响随同语音广播到每个会议地点,影响收听效果等,都是带噪语音信号的例 子。背景噪声破坏了语音信号原有的声学特征及模型参数,因此减弱了不同语音 问的差别,使语音质量下降,可懂度降低。强噪声还会使人产生听觉疲劳,从而 影响人耳的听觉特性。另外,较强的背景噪声也会使讲话人的发音方式发生变化, 即使相同的语音,其语音的特征参数也会与安静环境下的发音有所不同。在很多 理论和应用中,所用的语音数据大部分都是在近似理想的条件下采集的。大多数 语音识别和语音编码在开始研究时都要在高保真设备上录制语音,尤其要在无噪 环境下录音。然而,在实际应用时由于噪声的存在就会产生很多问题,使许多语 音处理系统的性能急剧恶化。 论文主要研究内容是机载环境下的语音噪声抑制。在机载环境中,飞机的不 同机舱内以及机舱与地面通话过程中,通信过程都会受到机舱内外各种航空噪声 的影响。强背景噪声不仅严重损伤听力,而且还可能影响语音编码,使语音语意 不清晰,可懂度降低,使收听者做出错误理解和判断。因此,强航空噪声背景下, 必须对噪声进行抑制,以降低噪声对通信的影响,同时提高语音质量,改善听觉 的效果,降低收听者的听觉疲劳,这对机载通信系统十分重要。 电子科技大学硕士学位论文 1 2 噪声抑制方法简述 在实际应用中,背景噪声随着环境、时间而不断变化。同时语音信号和与之 特性相近的噪声信号在数学上不易区分,难以找到一种通用的噪声数学模型和统 一的信号处理方法,来表征和处理语音信号与噪声的分离问题。而且语音噪声抑 制不但与语音信号数字处理理论有关,还涉及到人的听觉感知和语音学等方面的 知识,这些都给语音噪声抑制研究带来很多困难。不过在研究过程中仍然可以认 为噪声是局部平稳的,即它的统计特性在一段时间内可以认为是稳定或缓变的, 依此作为噪声抑制算法的一个前提条件。 随着干扰噪声的种类不同,噪声混入纯净信号的方式不同,用于噪声抑制的 输入通道数量不同,抑制所采用的方法均有所不同。多年来,人们针对加性噪声 研究了各种语音噪声抑制算法,尽管目前噪声抑制在理论上并未完全解决,但一 些算法已证明是有效的。对于受“污染”的带噪语音信号,人们自然想到利用各 种滤波器进行噪声滤除,但是传统的经典滤波器只能处理语音信号和噪声信号频 谱不重叠的情况,如果语音信号和噪声频谱相互重叠,那么经典滤波器将无能为 力。对于现代滤波器来说,它们研究的对象是随机信号。然而维纳滤波器的参数 是固定的,适合用于平稳随机信号。卡尔曼滤波器参数是时变的,适合于非平稳 随机信号,但是只有在对信号和噪声的统计特性先验己知的情况下,这两种滤波 器才能获得最优滤波效果。遗憾的是在实际应用中,常常无法得到这些统计特性 的先验知识,或者说统计特性是随时间变化的。对于通道输入的语音系统,各通 道之间存在某些相关特性,这些相关特性对语音在噪声抑制处理将十分有利。如 在自适应噪声抵消算法中,采用了两个话筒作为输入,一个采集带噪的语音信号, 另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音中的噪声,并 将它从带噪声语音信号中减去就可得到纯净的语音。还有采用麦克风阵列接收多 维输入信号的阵列处理方法等都属于多通道输入的噪声抑制技术。由于单通道的 语音信号处理具有普遍性,难度上也相对大一些,因此针对单声道的噪声抑制技 术代表了整个语音噪声抑制的最高水平。而且在机载通信中,也只有单个通道可 以利用,所以下面也将主要介绍单通道的噪声抑制方法。 从前面的分析可以知道,噪声抑制的最终目的是从噪声中分离出语音信号, 使语音信号得到增强。因此,噪声抑制过程中最重要的环节是语音增强。对于单 声道的语音增强,语音信息和噪声信息必须从同一个信号中得到,通常都需要在 非语音段对噪声进行估计,再依据估计出来的噪声对带噪语音进行处理。这样为 2 第一章绪论 充分利用噪声特性,提高算法准确度,语音端点检测也成为语音噪声抑制过程中 一个重要的方面。所以论文分两个部分对静音检测和语音增强分别介绍。 1 - 2 1 语音端点检测介绍 语音端点检测( v o i c ea c t i v i t yd e t e c t i o n ) ,最早的应用是在贝尔实验室开 发的电话传输和转换系统中,用于通信信道的时间分配,通过语音检测实现在空 闲的信道插入其他人的话音信息。之后,各种各样的语音检测算法在各种不同方 面的应用中被提出来。通常,不同的系统需要不同的算法以满足各自在计算精度、 复杂性、鲁棒性、敏感性、响应时间等方面的需求。 长期以来,传统的语音端点检测方法都是针对实验室安静环境,直到近年来, 人们才开始研究噪声环境下语音的端点检测。传统的语音端点检测算法是依据语 音信号的时域特性,采用诸如短时能量、短时平均过零率等特征参数进行语音端 点检测。但其实短时能量和短时平均过零率参数单独使用不能很好的处理声母高 过零率和韵母高能量问题。针对此问题,有人提出了短时能频积,短时零能比等 特征对原方法进行改进,改进方法基本上能从噪声中找出语音的浊音段。另一类 基于能量的方法,其检测过程类似于一个状态机,通常包括四个状态:噪声,噪 声过渡到语音,语音,语音过渡到噪声。通过对门限值进行比较,确定状态是滞 留还是转移。为了提高能量类方法的鲁棒性,常用的能量特征参数有带通能量, l p c 误差能量和子带能量等。j cj u n q u a l 在1 9 9 4 年提出一种新的特征参数,他将 语音信号时域的有效能量和频域上2 5 0 3 5 0 0 h z ( 语音集中频带) 的能量进行相加 得到时频参数( t f ,t i m e f r e q u e n c y ) ,在检测语音能量集中区时作用显著,将其 用于高噪声环境下的汉语语音端点检测和音节分割,具有较高的准确率和稳定性 。这些基于能量以及相应的改进算法结构实简单易于实现,而且算法的运算效率 较高。 基频是一个重要的代表语音生成模型的激励源的周期性参数,它表示了语音 信号的韵律信息。浊音有明显的周期性,可以通过检测浊音来检测语音信号的端 点。计算基频的方法很多,常用的有短时相关法和短时幅度函数方法。近年来信 息熵广泛应用于编码理论,信息熵代表信源的平均不确定性,语音的熵必定和噪 声的熵存在较大差异。文献乜1 提了出基于熵的语音端点检测方法,开展了噪声环境 下的鲁棒性端点检测算法研究。因为b a b b l e ,音乐声的谱熵和语音的谱熵近似, 该方法不能解决b a b b l e 和音乐噪声背景下的检测问题。文献口1 结合能量一谱熵两种 电子科技大学硕士学位论文 特征进行检测,以能量弥补熵在b a b b l e 和音乐声下的不足,以熵弥补能量在机械 类非平稳噪声下和低信噪比下的失效,用于汽车环境下的端点检测,准确度较能 量方法有1 0 的提高。文献h 1 对语音信号的协方差矩阵进行特征分解,由此得到信 号的特征空间能量概率分布,提出了特征空间能量熵的定义,并推导了适用于音 乐背景噪声的修正能量熵定义。在不同的噪声背景下,利用该熵能检测到词的边 界。 随着通信技术的快速发展,语音频谱特征被人们应用在语音存在检测中陆1 。 如基于频带方差端点检测方法,它的实质就是计算某一帧信号的各频带能量之间 的方差,以此作为参数检测语音段起止端点,利用语音和噪声的频谱特性差异, 区分开语音和噪声。应用倒谱特征的带噪语音端点检测方法畸m 引,利用倒谱距离代 替短时能量作为判决的门限,在不利的噪声环境通常比基于能量的端点检测方法 的效果好。另外,高阶累积量本身具有的对高斯信号的抑制和相位保持的特性, 使得高阶统计量被用于语音信号的处理中订1 。实验证明,基于高阶累积量的方法优 于i t u 的g 7 2 9 b 中v a d 算法的性能,但在周期噪声,如汽车,火车噪声下性能有 所下降,原因是这些噪声有非零高阶统计量。以上的方法几乎都是提取信号的某 种特征后,将这种特征或经过处理后的值和某个门限相比较,加入决策逻辑处理 做出最后的判断,其判断过程都类似于状态机机制。 现在基于模型的端点检测方法是当前一个新的方向,其主要思想是针对噪音 和语音进行建模来区分语音时段。h m m 模型方法是较常见的模型匹配方法,该方法 分别用一个h m m 模型对背景噪声和语音建模,取得较好的效果,但是单个的h m m 模型不足以描述所有可能出现在端点附近的音素,所以可为语音建立多个h m m 模 型。这种方法需要事先用b a u m - w e l c h 算法进行模型训练。模型匹配方法在噪声环 境下效果很好,但其需要积累大量先验知识,而且算法复杂,一般不适于实时应 用。 从上面的分析中可以看出,各种用于检测的特征和方法都有其优缺点,如果 能互补应用,选择合适的决策机制,则能得到更好的检测性能。近些年端点检测 选用特征多样化已成为一种趋势,本论文将在这方面做一些探讨性的研究。 1 2 - 2 语音增强发展历史 语音增强( s p e e c he n h a n c e m e n t ) 这个问题早在2 0 世纪6 0 年代就己引起人们 的注意,此后3 0 多年进行了大量的研究。随着数字信号处理理论的成熟,2 0 世纪 4 第一章绪论 7 0 年代曾形成一个研究高潮,取得了一些基础性的成果,并使得语音增强发展成 为语音信号数字处理的一个重要分支。1 9 7 8 年,l i m 和o p p e n h e i m 提出了语音增 强的维纳滤波方法睛1 。b o l l 又于1 9 7 9 年提出了谱相减方法来抑制噪声曲1 。软判决 噪声抑制方法n 们则是m a u l a y 和m a l p a s s 于1 9 8 0 年提出。1 9 8 4 年e p h r a i m 和m a l a h 提出了基于m m s e 短时谱幅度估计的语音增强方法n 。p a l i w a l 于1 9 8 7 年又将卡尔 曼滤波n 2 1 引入到语音增强领域。 但是由于各种算法都有其缺点,导致它们的实用性受到影响。进入2 0 世纪 8 0 年代以后,研究人员考虑从更广泛的领域出发研究语音增强,出现了大量的新 算法。先后有研究者研究了依据听觉感知模型的增强方法n 3 1 ,基于短时子带能量 的方法n 钔及利用信号子空间等方法n 印对语音增强进行了尝试,取得了一定的成效。 近3 0 年的研究中,各种语音增强方法不断被提出,它奠定了语音增强理论的基础 并使之逐渐走向成熟。 九十年代中后期,通讯特别是移动通讯的飞速发展对语音增强研究提供了十 分现实的动力。由于对已有语音增强方法的效果不够满意,又进行了新的研究尝 试。如对带噪语音信号进行小波变换n 引,或进行卡维南一洛维变换( k l t : k a r h u n e n l o e v et r a n s f o r m ) n 训,还有人用人工神经网络( a n n - a r tif icia ln e u r a l n e t w o r k s ) 实现语音增强n 引。现在基于独立元分量分析的语音信号盲分离和增强也 是一个研究的热点。研究在有其他人的语音干扰的混合信号中提取所需语音也是 一个新的研究方向。 根据算法处理方式不同,可将目前常用的语音增强算法大致分为以下四类n 引: ( 1 ) 参数方法:如梳状滤波器法、维纳滤波器( w e i n e rf i l t e r ,w f ) 法、卡尔曼 滤波器( k a l m a nf i l t e r ,k f ) 法等。此类方法依赖于使用的语音生成模型( 例如a r 模型) ,需要提取模型参数( 如基音周期、l p c 系数) 。如果实际噪声或语音条件与 模型有较大差距或难以提取模型参数,则此类方法容易失效。 ( 2 ) 非参数方法:如噪声对消算法( n o i s ec a n c e l l a t i o n ,n c ) 、谱相减 ( s p e c t r a ls u b t r a c t i o n ,s s ) 算法、自适应滤波( a d a p t i v ef i l t e r i n g ,a f ) 算法 等。此类方法不需要从带噪语音信号中估计模型参数,应用范围比较广。但是由 于此类方法没有充分利用可能的统计信息,结果一般不是最优的。 ( 3 ) 统计方法:如基于短时幅度谱的最小均方误差估计( m i n i m u mm e a ns q u a r e e r r o r ,m m s e ) 的语音增强方法、基于隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h i v i m ) 的语音增强方法、基于听觉屏蔽的增强算法以及基于信号子空间的语音增强方法 等等。此类方法比较充分地利用了语音和噪声的统计特性,但一般需要建立模型 5 电子科技大学硕士学位论文 库,通过训练过程来获得初始的统计参数,算法比较复杂,计算量比较大。 ( 4 ) 其它方法:主要有基于小波变换( w a v e l e tt r a n s f o r m ,w t ) 的语音增强算 法、基于人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 的语音增强算法以及 基于多分辨率分析( m u l t i r e s o l u t i o nr a t i o sa n a l y s i s ,m r a ) 的语音增强算法等 等。这些方法不像前三类方法那样成熟,但是在目前也得到了越来越多的关注了。 在这些方法中,谱相减法算法及其改进形式是最为常用的,这是因为它的运 算量较小,容易实时实现,而且增强效果也较好。就近几年的发展趋势而言,小 波变换法和听觉屏蔽法是人们的研究热点。人们对小波分解法的兴趣是与小波分 解有关的,因为人们对小波的研究还比较新,随着人们对小波分解研究的深人, 自然也会导致对小波分解增强算法研究的深人。听觉屏蔽法是随着人们对人耳听 觉系统的认识发展而发展起来的。目前人们对它的研究还是处于初级阶段。另外, 人们也在尝试将人工智能、隐马尔可夫模型、神经网络和粒子滤波器等理论用于 语音增强,但目前尚未取得实质性的进展。 由于噪声来源众多,随着应用场合而异,特性各不相同,增加了语音增强的 复杂性。而且从带噪语音中消除噪声的同时很容易对语音信号造成损害,影响语 音的清晰度和可懂度。如果在消除噪声的同时能够保证原始语音信号不受或少受 损害,语音的清晰度和可懂度不被降低或降低较小,则这种噪声抑制的方法将是 非常有价值的。但是语音信号具有一定的随机性,当语音信号淹没在随机噪声中 时,两者很难区分,所以语音增强一直是语音噪声抑制的难点之一。要实现较好 的语音增强,改善输出信噪比,首先应对语音信号的时域特性和频谱特性加以分 析,了解语音信号在时域和频谱上的特征。同时语音增强不仅仅是一个数字信号 处理技术方面的问题,还涉及到人的听觉感知和语音学,是一个很复杂的技术。 要想一劳永逸地设计出一种算法来解决所有的噪声是不现实的,只能针对不同的 噪声情况,采取不同的语音增强算法。 1 3 本论文内容和结构 本论文主要针对机载环境下的带噪语音进行噪声抑制处理,试图寻找一种在 机载高噪声环境下的较有效的语音噪声抑制算法。本人在查阅大量资料的基础上, 研究了机载背景噪声的特性,针对噪声抑制的两个方面:语音端点检测和语音增 强,研究了相关算法。最后在硬件平台上实现一种在机载高噪声环境中适用的噪 声抑制算法。 6 第一章绪论 本论文的主要工作及结构: ( 1 ) 第一章介绍了语音噪声抑制技术的概念、应用领域、目的,以及语音端 点检测和语音增强的发展历史。 ( 2 ) 第二章介绍了与语音信号的分析和处理相关的知识,主要包括语音及人 耳感知特性,噪声特性,同时还介绍了语音噪声抑制技术效果的评价方法。 ( 3 ) 第三章针对语音信号的端点检测,文中分析了几种常用的端点检测方法, 提出了基于自相关的端点检测改进方法,并比较各类方法的检测性能。 ( 4 ) 第四章文中重点分析了一种实用有效的噪声谱估计方法,分析了常用的 语音增强方法,针对机载背景噪声特性,分析比较各类算法的效果,选择合适的 机载背景的语音增强方法,最后给出了实用的语音噪声抑制方法,并在硬件平台 上验证了其效果。 ( 5 ) 第五章对全文进行总结,指出论文的不足以及有待进一步完善改进的地 方。 7 电子科技大学硕士学位论文 第二章语音噪声抑制基本理论 2 1 语音及人耳感知特点 语音是人们讲话时发出的话语,它既是一种声音,又包含了人们进行交流的 信息。因此,语音是语言和声音的组合体。目前语音信号处理的内容主要集中在 声音处理上。根据声音所在的频率范围,可以把声音分类为:亚音( s u b s o n i c ) , 频率低于2 0 h z 的信号;音频( a u d i o ) ,频率范围为2 0 h z 2 0 k h z 的信号;超音频 ( u l t r a s o n i c ) ,高于2 0 k h z 的信号。 人类能够听到的声音是音频( 强度为一5 d b 1 3 0 d b ) ,但能够发出的声音 ( s p e e c h ) 却低于4 k h z ,根据香农采样定理,数字语音信号采样率应为信号最高 频率的两倍,即8 k h z 。我们通常所说的语音信号处理,其实质就是对每秒至少8 0 0 0 个声音数据进行分析与变换。 2 1 1 语音信号生成模型 为了更深入地进行语音信号处理的研究,弄清语音产生的机理是很有必要的。 人们在研究了人类发声器官和语音产生的基本声学理论的基础上,建立了离散时 域的语音信号模型。在这种模型中,语音信号被看成是线性时变系统在随机噪声 或准周期脉冲序列激励下的输出。图2 1 给出了生成模型的框图0 l : 吣 声道参数 , 量翟卜爨黪 1 蝌清音开关 懒毽一一 ! ,j 维 艮嚣剿 。a u 语音 图2 1 语音信号产生的时域离散模型 图2 - 1 中的虚线把语音时域离散模型分成三个部分:激励模型,声道模型, 第二章语音噪声抑制基本理论 辐射模型。激励模型中的浊音和清音切换代表了加在声道上的激励的变化:当语 音帧为清音时,输入激励为随机噪声,再经过幅度调整a u 后可得到;当语音帧为 浊音帧时,激励信号为周期脉冲序列,经过一个全极点的声门脉冲滤波模型g ( z ) 和幅度调整a v 即可得到周期性的浊音。图2 - 1 中的声道模型给出了离散时域的声 道传输函数,既可用声管模型,也可以用共振峰模型来描述。研究和实践都证明, 对于大多数的语音都可以用全极点函数模型来表示声管模型,其本质就是全极点 模型的n 阶滤波器乜: 1 v ( z ) = 可l 一 ( 2 1 ) 1 一a k z 以 通常n 值取得越大,模型的传输函数与声道实际传输函数的吻合程度越高, 但是n 值越大往往带来的计算量和复杂度也越大。所以大多数实际应用而言,n 值 取8 1 2 就够了。而辐射模型r ( z ) 可近似为: g ( z ) = r o ( 1 一z 一) ( 2 2 ) 在上述模型中,辐射模型r ( z ) 是基本保持不变的,而激励源的参数和声道模 型的参数都是随时间变化的。只是变化的速度是不一样的,有时快有时慢。当然 由于发声器官的惯性使这些参数的变化速度受到限制,所以上述模型可以看成“短 时”的。对于声道参数,在l o - - - 3 0 m s 的时间间隔内可认为其特征不变或者缓变化。 对于激励源参数,其变化则相对剧烈得多,但大部分情况下仍然可以近似认为其 是缓变的。实际上,上述模型可以看成是对语音信号进行线性系统的模拟和拟合。 确定图2 一l 所述模型需要的参数是:基音周期、清浊音标记、帧增益、系统参数。 语音处理中多数基本的应用都是基于此模型的。 2 1 2 语音主要特性 在对语音信号长期的研究过程中,人们总结了语音信号的主要特征啪1 : ( 1 ) 语音是时变的、非平稳的随机过程 语音信号是非平稳的,语音的模型参数是时刻变化的,只是有时候变化快, 有时候变化慢而已。在语音的开始端、结束端、短的语音过渡、语音变调、叽叽 喳喳声等等都是模型参数变化较快的情况。当然人类发音系统的生理结构的变化 速度是有一定限度的。在一段时间内( 1 0 - - 一3 0 m s ) ,人的声带和声道形状是相对稳 9 电子科技大学硕士学位论文 定的,可以认为其特征是不变的或者缓变的。因而语音的短时谱具有相对稳定性。 在语音分析中,经常需要用到短时谱的这种平稳性。 ( 2 ) 语音可分为清音和浊音两人类 浊音在时域上呈现出明显的周期性:在频域上有共振峰结构,而且能量大部 分集中在较低频段内。而清音段没有明显的时域和频域特征,类似于白噪声功能。 在语音增强研究中,可利用浊音的周期性特征,采用梳状滤波器提取语音分量或 者抑制非语音信号,而清音则难以与宽带噪声区分。同时语音信号的能量主要由 具有周期性的浊音信号决定,而可懂度主要由能量较小的辅音信号决定。 ( 3 ) 语音信号可以用统计分析特性来描述 由于语音是非平稳的随机过程,所以长时间的时域统计特性在语音增强的研 究中意义不大,语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无 穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到 的。在高斯模型假设下,傅立叶展开系数被认为是独立的高斯随机变量,均值为 零,而方差是时变的。将高斯模型应用于有限帧长只是一种近似的描述。在宽带 噪声污染的语音增强中,可将这种假设作为分析的前提吟。 2 1 3 人耳感知特性 虽然我们对噪声抑制的效果可以用信噪比提高的多少来表示,但是它最终的 度量是人的主观感受,所以语音感知对噪声抑制的研究有重要的作用。人的听觉 系统具有复杂的功能。实践证明,语音虽然客观存在,但是人的主观感觉( 听觉) 和客观实际( 语音波形) 并不完全一致。任何复杂的声音对于人耳的感觉,都可以 用响度、音调和音色三个特性来描述业羽:响度是人耳对声音轻或响的主观反应, 它取决于声音的幅度,主要是声压的函数,但与频率和波形也有关;音调是人耳 对声音频率的感受。音调与声音的频率有关,频率高的声音听起来感觉它的音调 “高”,而频率低的声音听起来感觉它的音调“低”。但音调与声音频率并不成正 比。它还与声音的强度及波形有关;音色是由于波形和泛音不同而造成的声音属 性,人据此在主观感觉上区别具有相同响度和音调的两个声音。音色是由混入基 音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音,因而每个声音 具有特殊的音色。 人耳对背景噪声有着很大的抑制作用,了解其中的机理将大大地有助于语音 增强技术的发展,充分利用人耳感知特性可以减少运算代价。语音感知问题涉及 1 0 第二章语音噪声抑制基本理论 到生理学,心理学,声学和语音学等多个领域,这是一个复杂的问题,有待进一 步研究。目前己有一些结论可用于对噪声进行抑制幽】: ( 1 ) 人耳对语音的感知主要是通过语音信号中各频谱分量的幅度获取的,对各 频谱分量的相位则不敏感。利用这个特性,在谱减法进行语音增强时可以利用带 噪语音的频谱相位进行恢复。 ( 2 ) 人耳对频率高低的感受近似与该频率的对数值成正比。 ( 3 ) 人耳能够感知的声音频率在2 0 - - 2 0 k h z 之间。因此在设计带阻滤波器滤除 周期噪声时,o 2 0 h z 低频段以及高于2 0 k l - l z 的语音也可以滤除。 ( 4 ) 人耳对频率有选择性,即语音中不同频率成分对语音清晰度的影响是不同 的。话音信号频率主要集中在6 0 h z - - 3 4 0 0 h z 之间,而语音信号的大部分功率包含 在低频分量之中( 1 0 0 0 h z 以下的语音信号功率大约占8 0 ) ,但是它们对清晰度的 贡献并不是很大。此外,截去高频成分对于辅音的影响要比对元音的影响严重一 些;而去掉低频成分对于元音清晰度的影响则要比对辅音的影响大一些。这一特 性对我们设计语音增强算法具有指导作用,要求我们在提高信噪比的同时,要尽 可能地保证对语音清晰度影响大的频率成分没有大的失真。下图给出了典型的语 音信号功率谱曲线: 图2 2 典型语音信号功率谱曲线 ( 5 ) 人耳有掩蔽效应,一个声音的存在会影响对另一个较弱声音的听觉,一个 声音在听觉上掩蔽了另一个较弱声音的存在,使人觉得另一个较弱的声音不存在。 另外,当一个声音突然停止,人耳在1 5 0 m s 内对其他弱音听不清楚,甚至听不见。 在日常生活中,与听觉掩蔽相关的现象也很常见,如当周围环境比较嘈杂时,人 们在讲话时就不得不提高说话的音量,以便对方能听清说话内容。利用人耳的生 理特点,提高语音信号的信噪比,使有用的语音信号大于噪声一定级别时,就可 以在语音和噪声共存的情况下感觉不到噪声的存在。 电子科技大学硕士学位论文 2 2 噪声特性 2 2 1 噪声分类 噪声来源于实际的应用环境,因而噪声特性可以说是变化无穷。噪声可以是 加性的,也可以是非加性的。非加性噪声主要是传输噪声,有些非加性噪声可以 通过变换而转变为加性噪声。例如,乘性噪声( 或卷积噪声) 可以通过同态变换而 成为加性噪声。又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方 法变换成与信号独立的加性噪声堙4 j 。在实际的语音信号处理中,绝大多数都是加 性噪声环境,因此在此主要讨论加性噪声的特性。加性噪声大体上可分为:白噪 声、周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等。论文主要针 对机载环境背景噪声进行处理,此处把机载背景噪声也看成加性噪声加以分析讨 论。 ( 1 ) 周期性噪声 绝大部分背景噪声都是周期性噪声,其特点是具有许多离散的线谱。主要来 源于发动机等周期性运转的机械。电气干扰,特别是电源交流声,也会引起周期 性噪声。显然,这种周期性噪声可以用梳状滤波器予以抑制,这可以用数字信号 处理的方法来实现。然而,实际环境中产生的周期性噪声并非简单地只含线谱分 量,而是由许多窄带谱组成。而且,往往是时变的,并与语音信号频谱重叠,必 须采用白适应滤波的方法有可能自动识别和区分噪声分量。 ( 2 ) 脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电 等。消除脉冲噪声通常可以在时域进行,其过程如下:根据带噪语音信号幅度的 平均值确定阈值。当信号幅度超出这一阈值时,判别为脉冲噪声,然后对它进行 适当的衰减,甚至完全消除;也可以根据相邻信号样值,通过内插的方法将脉冲 噪声在时域上进行平滑。这是一种直接消除的方法。 ( 3 ) 宽带噪声 宽带噪声的来源很多,如热噪声、气流( 如风、呼吸) 噪声及各种随机噪声源, 量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠, 因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带 噪声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行预白 化处理。对于非平稳的宽带噪声,情况就为复杂一些。 1 2 第二章语音噪声抑制基本理论 ( 4 ) 同声道语音干扰 入耳可以在两人以上讲话环境中分辨出所需要的声音,这种分辨能力是人体 内部语音理解机理具有的一种感知能力。人类的这种分离语音的能力称为“鸡尾 酒效应 ,这种能力来源于人的双耳输入效应。但当多个语音叠合在一起,在单信 道传输时,双耳信号因合并而消失。如同人的指纹那样,每个人因发音系统生理 构造的差异,也有不同的“声纹”,这种“声纹 在于他们的语音生成模型参数不 同。 2 2 _ 2 机载背景噪声特性 本文研究的飞机机舱内的噪声主要来自航空噪声,航空噪声实际上是包含了 各类噪声信号的综合体,它与飞机的构造,外界自然因素都有关系,还涉及到空 气动力学方面的知识。有文献瞳幻对直升机的噪声进行分析,得出近似的数学模型, 但是这样的模型跟大量的飞机构造因素有关,数学表达式非常复杂,不利于做进 一步的研究。论文研究的主要目的是对机载背景噪声进行抑制,使收听更易于接 受。从前面的分析已知道人耳对语音的感知主要是通过语音信号中各频谱分量的 幅度获取,所以在噪声抑制过程中,文中更关注信号的频域特性,试图对噪声各 频谱分量进行处理以达到增强语音频谱分量的目的。 航空噪声主要由三部分组成:主旋翼噪声、尾桨噪声以及机载设备产生的噪 声。主旋翼噪声和尾桨噪声产生机理基本相同,分析上可以看成一类噪声即旋翼 噪声,它也是航空噪声中最重要的一部分。它们主要是由飞机螺旋桨旋转时产生 的,其特性与螺旋桨的转速相对应。经分析,这类噪声谱是在宽带谱基础上叠加 了一系列离散谱组成的典型噪声谱。 在进行飞机驾驶员座舱内的语音增强时,主要考虑座舱内的噪声。由于座舱 内安装有大量的机载设备,这些系统设备产生的噪声虽然不是主要噪声,但声源 直接位于舱内,其影响不容忽视。这类噪声的特性与机械噪声类似,也是分布在 中低频段内的宽带噪声啪1 。综上所述,飞行员座舱内的噪声主要是中低频段的宽 带噪声。下图给出了典型的机载背景噪声的p s d 曲线: 电子科技人学硕士学位论文 图2 - 3 旋翼噪声谱 图2 4 机载背景噪声谱 从图2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江宁波市象山影视城文化产业集团有限公司第一期招聘3人笔试参考题库附带答案详解
- 2025年湖南省高速公路集团有限公司春季校园招聘167人笔试参考题库附带答案详解
- 2025南水北调东线山东干线有限责任公司招聘18人笔试参考题库附带答案详解
- 逾期交货合同协议
- 用途说明合同协议
- 种子运输合同协议
- 销售桌椅合同协议
- 赠与钱款协议书范本
- 申请外包合同协议
- 外墙维修安全协议书
- 口腔护理学基础-口腔四手操作技术
- 互联网行业6G网络内生智能架构及关键技术白皮书
- 历史中考冲刺之答题技巧选择题材料题论述题(部编版)
- 2023新版全面安全知识专题培训教材-经典教材-
- 舞蹈鉴赏学习通超星期末考试答案章节答案2024年
- 女生青春期教育教学设计
- 主体结构工程施工单选题100道及答案
- 浙江省宁波市2024年中考二模英语试卷(含答案)
- 第19课 资本主义国家的新变化 高一下学期统编版(2019)必修中外历史纲要下
- 2025数学步步高大一轮复习讲义人教A版复习讲义含答案
- GB/T 15597.2-2024塑料聚甲基丙烯酸甲酯(PMMA)模塑和挤出材料第2部分:试样制备和性能测定
评论
0/150
提交评论