(通信与信息系统专业论文)麦克风阵列语音增强的算法研究.pdf_第1页
(通信与信息系统专业论文)麦克风阵列语音增强的算法研究.pdf_第2页
(通信与信息系统专业论文)麦克风阵列语音增强的算法研究.pdf_第3页
(通信与信息系统专业论文)麦克风阵列语音增强的算法研究.pdf_第4页
(通信与信息系统专业论文)麦克风阵列语音增强的算法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音通信作为一种最基本的通信方式,在人们的日常生活中扮演着非常重要 的角色。然而在现实环境的中,语音不可避免的受到噪声以及干扰的影响。这些 噪声和干扰不仅影响语音的可懂度,同时也会导致语音处理系统的性能急剧恶化。 采用语音增强算法可以从带噪的语音中提取尽可能纯净的语音,提高语音的质量 和主观舒适度。因此,语音增强得到了越来越广泛的关注。 麦克风阵列语音增强是语音增强中最常用的一种方式。在现有麦克风阵列语 音增强算法的基础上,本文研究了一种改进算法。传统的广义旁瓣抵消器算法的 具有一个固有缺陷信号泄漏,即噪声参考信号中含有期望语音成分,造成期望信 号的抵消。针对这个缺点,在子带广义旁瓣抵消器自适应波束形成算法的基础上, 研究了改进型的子带广义旁瓣抵消器自适应波束形成与子空间去噪相结合的算 法。该算法通过改进广义旁瓣抵消器结构中自适应算法,避免信号泄漏带来的不 利影响。后续与子空间去噪算法相结合,去除残留噪声获得更加纯净的语音。仿 真测试结果表明,相对于传统的子带广义旁瓣抵消器的麦克风阵列语音增强系统, 改进算法且具有更高的输出信噪比,语音质量得到明显提升。 关键词:语音增强麦克风阵列广义旁瓣抵消器子带滤波子空间 a b s t r a c t a san a t u r a lw a yo fi n t e r a c t i o nb e t w e e nh u m a nb e i n g s ,s p e e c hc o m m u n i c a t i o n p l a y sa ni m p o r t a n tr o l ei np e o p l e sd a i l yl i f e h o w e v e r , s p e e c hi si n e v i t a b l yc o r r u p t e d b ya m b i e n tn o i s ei nt h ele a le n v i r o n m e n t t h ee x i s t e n c eo fb a c k g r o u n dn o i s ec a na f f e c t t h el i s t e n e r sp e r c e p t i o na n dt u r nd o w nt h ep e r f o r m a n c eo fm a n ys p e e c hp r o c e s s i n g s y s t e m s s p e e c he n h a n c e m e n ts o l u t i o n sa r ee x p e c t e dt oe x t r a c td e s i r e ds p e e c hf r o m n o i s ys p e e c hs i g n a l s ,i m p r o v eq u a l i t yo fs p e e c ha n do f f e rc o m f o r t a b l el i s t e n i n g a sa r e s u l t ,s p e e c he n h a n c e m e n th a sb e c o m ei n d i s p e n s a b l ei ns p e e c hc o m m u n i c a t i o n m i c r o p h o n ea r r a ys p e e c he n h a n c e m e n ti st h em o s tc o i i l m o nm e t h o do fs p e e c h e n h a n c e m e n t b a s e do nt h ee x i s t i n gm i c r o p h o n ea r r a ys p e e c he n h a n c e m e n ta l g o r i t h m s , a ni m p r o v e da l g o r i t h mi ss t u d i e di nt h et h e s i s t h ec l a s s i cg e n e r a l i z e ds i d e l o b e c a n c e l l e rs t r u c t u r eh a sad i s a d v a n t a g eo fs i g n a ll e a k a g e ,i no t h e rw o r d s ,t h en o i s e r e f e r e n c es i g n a l sc o n t a i nt h ed e s i r e ds p e e c hw h i c hl e a d st oc a n c e l l a t i o no ft h ed e s i r e d s p e e c h i nv i e wo ft h i ss h o r t c o m i n g ,a ni m p r o v e ds u b b a n da d a p t i v eb e a m f o r m i n g a l g o r i t h mc o m b i n e dw i t hs u b s p a c en o i s er e d u c t i o na l g o r i t h mi ss t u d i e d t h ea l g o r i t h m i m p r o v e st h ea d a p t i v ea l g o r i t h mi ng e n e r a l i z e ds i d e l o b ec a n c e l l e rs t r u c t u r ew h i c h d e g r a d e st h ea f f e c to fs i g n a ll e a k a g es u c c e s s f u l l y s u b s p a c en o i s er e d u c t i o na l g o r i t h mi s f o l l o w e dt or e m o v er e s i d u a ln o i s e t h es i m u l a t i o nr e s u l t ss h o wt h a t :c o m p a r e dw i t h t r a d i t i o n a ls u b b a n da d a p t i v eb e a m f o r m i n ga l g o r i t h m ,t h ei m p r o v e dm e t h o dh a sb e t t e r o u t p u ts i g n a lt on o i s er a t i oa n dt h eq u a l i t yo fs p e e c hi se n h a n c e do b v i o u s l y k e yw o r d s :s p e e c he n h a n c e m e n t m i c r o p h o n ea r r a y g e n e r a l i z e ds i d e l o b ec a n c e l l e r s u b b a n d f i l t e r i n g s u b s p a c e 学位论文创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:日期丝! ! :! :堡 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名:坳 导师签名:s 厶 日期趔! :! :坦 第一章绪论 第一章绪论 1 1 语音增强的研究背景和意义 人们在获得语音信号的同时,不可避免地会受到在传输媒介引入的噪声、通 信设备内部的电噪声、房问混响乃至其他说话人的话音干扰。这些干扰使得接收 到的语音已非纯净的语音,而是带噪语音信号。干扰信号不仅会使接收者得到的 语音被噪声污染,同时也会导致许多语音处理系统的性能急剧恶化。因此,语音 增强方法应运而生。 语音增强的主要目标是从带噪语音中提取尽可能纯净的语音。对于语音处理 系统,语音增强往往作为前置处理方案是抑制干扰的一种有效途径,是语音信号 其它应用的基础【1 】。但是由于噪声通常是随机的,要想从带噪语音信号中提取完全 纯净的原始语音信号几乎是不可能的。在这种情况下,语音增强的目的主要有两 个:一是改进语音质量,消除背景噪声,使听者乐于接收,不感觉疲劳,这是一种 主观度量:二是提高语音可懂度,这是一种客观度量。而这两个目的往往是不能兼 得的。语音增强涉及多个方面的技术,它不仅仅是信号数字处理的问题,还涉及 到人的听觉感知特性和语音学。同时,噪声的多样性,即噪声来源众多,随着应 用场合不同而特性各不相同,也增加了语音增强的难度。由此可知,语音增强算 法的设计要随着应用环境的不同而相应变化。 1 2 麦克风阵列语音增强概述 麦克风阵列技术源于雷达、声纳系统中采用的阵列信号处理技术,是伴随着 数字信号处理技术的进步而发展起来的。麦克风阵列在语音信号处理领域的应用 已日益流行,并很快影响到传统的台式机和耳机麦克风等设备。 麦克风阵列系统较之单麦克风系统具有许多优点,其优越性表现在【3 1 : ( 1 ) 麦克风阵列系统具有空间选择特性,可以用“电子瞄准”的方式提供高质 量的所需声源信号,同时抑制噪声、混响和其他说话人的话音干扰。因此,较之 高方向性的单麦克风系统,麦克风阵列系统可以取得更加明显的干扰抑制效果。 ( 2 ) 高方向性的单麦克风系统通常只能拾取一路信号,且一般不能随声源一起 运动,这就限制了它的使用范围。说话人的运动,甚至头部和身体的轻微晃动, 都会导致单麦克风系统接收信号的质量下降。而麦克风阵列系统对于远处和近处 的声源,均可以正常工作:同时,当说话人随意活动时,也不需要人为地移动它来 2 麦克风阵列语音增强的算法研究 改变其波束方向。这些特性使得麦克风阵列系统可以用于获取多个声源或移动声 源信号,也可以应用在一些特殊场合。 ( 3 ) 麦克风阵列系统具有单个麦克风系统不具备的性能,比如自动检测、定位, 并且在其接收区域内跟踪正在说话的人。 麦克风阵列语音增强是阵列处理技术和语音增强算法相结合的产物,它融合 了语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增 益与较强的抗干扰能力等特点,这就使麦克风阵列成为智能通信系统中捕捉说话 人语音、改善语音质量的重要手段。近年来,麦克风阵列语音增强方法逐渐成为 语音增强的研究热点。 1 3 麦克风阵列语音增强的研究进展 麦克风阵列语音增强的研究始于1 9 8 0 年代,并在1 9 9 0 年代后期逐渐成为研 究热点。各国学者己经相继提出许多基于麦克风阵列的语音增强方法,并且有一 部分已经得到了实时的应用。其中比较经典的方法包括固定波束形成,自适应波 束形成以及后置滤波等几大类,下面详细介绍主要的麦克风阵列语音增强算法的 研究进剧3 5 j 。 ( 1 ) 固定波束形成方法 最早的固定波束形成方法是1 9 8 5 年美国学者f l a n a g a n 提出的延时一求和波束形 成方法【4 】。该方法通过对麦克风阵列接收信号进行时延补偿,使得各麦克风中的语 音信号同步,然后加权、求和,最后系统输出。从理论上讲,延时一求和波束形成 方法在保持语音信号幅度不变的同时,衰减了干扰噪声信号。该类麦克风阵列语 音增强方法实现简单且有韧性,但需要较多麦克风才能得到较好的噪声抑制能力, 因此,实际中很少单独使用。 ( 2 ) 自适应波束形成方法 最早的自适应波束形成的理论是1 9 7 2 年斯坦福大学f r o s t 提出的线性约束最小 方差波束形成【5 】。该波束形成器也称为f r o s t 波束形成器,它在满足探视方向目标信 号频率响应的同时,通过约束阵列输出功率最小,达到抑制噪声的目的。在f r o s t 波束形成器的基础上,1 9 8 2 年c r r i t l t h s 和j i m 提出了一种修正的线性约束波束形成器 广义旁瓣抵消器( g e n e r a l i z e ds i d e l o b ec a n c e l l e r ,简称g s c ) 1 6 1 。其结构可以大体分 为固定波束形成、阻塞矩阵和多通道噪声抵消三部分。g s c 本质上是将w i d r o w 自 适应噪声抵消【_ 7 】原理应用到阵列信号处理中。由于使用较少数目的传声器可以获得 较强的干扰噪声抑制性能,因此g s c 是大多数自适应波束形成语音增强方法的理 论原型。为了解决g s c 固有的信号泄漏问题,许多学者对阻塞矩阵的结构作了不 第一章绪论 同的改进。s h a m o n 在广义旁瓣抵消器的基础上,提出了针对任意传递函数情况的 广义旁瓣抵消器,扩大了g s c 的使用范围:h o s h u y a m a 等人提出了基于自适应阻塞 矩阵的鲁棒性广义旁瓣抵消算法【s 】【9 】。2 0 0 1 年g a n n o t 等采用估计语音信号声学通道 传递函数比率,构建时变阻塞矩阵【lo 】来取代g s c 中的阻塞矩阵,进而提出了另一 种韧性g s c 方法。2 0 0 4 年,w e il i u 等人提出了一种应用在g s c 中的余弦调制阻塞 矩阵,在子带使用该矩阵,算法的复杂度更低并且收敛速度更快,取得了较好的 效果 4 8 1 。g s c 这类方法适合于消除强相干噪声,当干扰噪声源数目少于麦克风数 目时能达到很好的消噪效果,但对于非相干噪声或弱相干噪声,消噪效果反而不 如传统的波束形成方法。 ( 3 ) 具有后置滤波器的波束形成方法 自适应波束形成算法对于弱相干噪声的消除能力较差,而且在混响和回波存 在的复杂背景环境中算法性能下降。针对自适应波束形成器的缺点,1 9 7 7 年a l l e n 将自适应波束形成方法和维纳后置滤波相结合【l l 】进行语音增强。1 9 8 8 年z l i n s k i 将 a l l e n 思想加以扩展,提出了l m s 自适应后置滤波裂1 2 】,进一步改善了算法的性能。 2 0 0 2 年m v c o w a n 等将噪声场理论模型扩展到后置滤波器转移函数中,得到广义后 置滤波语音增强方法【1 3 】【1 4 】。该方法在理论上适用于不同噪声场,可以去除环境中 的非相干及相干噪声。同年,c o h e n 弓i 进瞬时波束比率因子,对语音谱和参考噪声 谱两者进行功率谱估计,将后置滤波器扩展为对自适应波束形成器后置处理,提 出一种多通道后置滤波麦克风阵列语音增强方法【l5 1 。许多麦克风阵列自适应波束 形成方法只可以去除相干噪声,而后置滤波器却可以有效的去除非相干噪声,因 此两者一般结合使用。 ( 4 ) 子空间方法 1 9 9 7 年,h a n s e n 提出分别对每个麦克风信号使用单通道子空间方法【1 6 】,然后 添加延时一求和波束形成模块。但是,从严格意义上该方法仅利用单通道子空间信 息,不是基于阵列子空间的语音增强方法。同年,日本学者a s a n o 等提出基于阵列 接收信号相关矩阵子空间的麦克风阵列语音增强方法【1 7 1 1 18 1 。该方法利用相关矩阵 子空间构建信号子空间,然后采用最大似然或最小方差波束形成来达到噪声抑制 的效果。1 9 9 9 年至2 0 0 5 年间,d o c l o 等相继提出并完善了基于广义奇异值分解的麦 克风阵列语音增强方法。虽然基于子空间的麦克风阵列语音增强方法运算复杂度 相对较高,但是随着d s p 芯片处理速度的飞速提升,相信子空间方法将会得到越来 越广泛的应用。 ( 5 ) 子带波束形成方法 早在1 9 9 3 年,k h a l a b 提出了子带波束形成宽带卫星通信方法【2 0 】。随后,陆续 有学者提出基于子带波束形成的麦克风阵列语音增强方法【2 l 】【2 2 】【2 3 】【2 4 1 。2 0 0 1 年, m c c o w a n 等将z e l i n s k i 后置滤波应用在子带中,提出了一种基于均匀d f t 子带波束 4 麦克风阵列语音增强的算法研究 形成语音增强方法1 2 引。2 0 0 2 年至2 0 0 7 年间,n e d e l k o 等相继开展了基于过采样d f t 子带波束形成麦克风语音增强算法的研究,并提出了许多子带自适应波束形成的 算法【2 6 1 【2 7 】【2 8 】。子带波束形成方法与全带波束形成方法相比,具有更强的噪声抑制 能力和更快的收敛速度。 近年来,各种经典方法的相互融合以及借鉴小波变换、高阶统计量以及神经 网络技术等信号处理的方法成为关注的焦点。结合语音信号以及噪声的特点, s h i m a 等人提出了基于k u l l b a c k l e i b l e r 距离和小波变换的语音增强方法【2 9 】。b e n n y s ;i l l b e r g 等将高阶统计量计算的峰值对比函数与快速独立分量分析结合,应用在麦 克风阵列信号的盲语音提取中,取得了更好的干扰抑制效果【3 0 1 。g u n a w a n 等人还 将神经网络的方法融合到语音增强中【3 i 】。虽然这些算法取得了较好的去噪效果, 但各自都存在一定的缺陷,要在实际环境中应用还需要更多的学者去研究探索。 1 4 论文的结构安排 论文的具体章节安排如下: 第一章阐述了语音增强算法研究的背景及意义,简要分析了语音增强算法的 研究现状及本文的主要内容安排。 第二章阐述了语音信号处理的基础知识,语音和噪声的特性和麦克风阵列信 号的系统模型,以及语音增强的评测标准。 第三章详尽阐述了常用的多通道语音增强的算法以及如时延估计,语音活动 检测等在麦克风阵列语音增强中的关键技术。 第四章详尽讨论了子带分解,综合的基本原理,以及分析滤波器组,及综合 滤波器组的设计,为下一章的子带自适应波束形成打下基础。 第五章详细讨改进的子带g s c 自适应波束形成与子空间结合的算法,通过改 进g s c 结构中的自适应算法部分,有效减少了信号泄露给算法带来的影响,通过 子带处理使算法获得更好的去噪性能以及更快的收敛速度。最后的子空间算法去 除了残留的噪声,获得了较好的去噪效果。 第六章概要总结本文的主要研究内容及取得的成果,并对需要进一步研究的 问题进行了讨论。 第二章语音信号处理基础知识 第二章语音信号处理基础知识 语音是人类交流信息的基本手段。随着信息科学技术的飞速发展,语音信号 处理也取得了重大的进展。本章将简要介绍语音信号处理方面的基本概念和原理, 为后续复杂算法的研究做一个铺垫。 2 1 语音信号的特性 语音信号是语音处理的基本元素,因此语音信号的特性尤为重要。语音信号有 如下几个主要的特点【3 2 】: ( 1 ) 语音信号的频谱分量比较集中 通过对语音信号发声过程的研究以及观察记录的语音波形,可以发现语音信 号的谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。这是因为人类声道的变化不可能太 快。这一点给语音的研究和计算带来了很大的便利。进行研究时,只需把注意力 集中在这一区域即可。 ( 2 ) 语音是一个时变的、非平稳的随机过程 人类发声系统生理结构的变化速度是有一定的限度的。在一段短时间内 ( 5 - 5 0 m s ) 人的声带和声道形状具有相对稳定性,可近似认为其特征不变,因而语音 的短时谱分析也有相对的稳定性,短时谱的这种稳定性是很多语音处理算法和技 术的基础。 ( 3 ) 语音大体可以分为清音和浊音两大类 一般而言,人类的语音信号往往在短时段表现出周期性( 如浊音) ,这种语段 在频域上有共振峰结构,其能量大部分集中在较低频段内;而在另一些时段表现 出完全的随机性( 如清音) ,这种语段在频域上没有共振峰结构,其频谱类似于白 噪声;其余时段由两者混合而成。激励源或者是由脉冲发生器发出,或者是由随 机噪声发生器产生,或者是它们的组合。 ( 4 ) 作为一个随机过程,语音信号可以用统计分析特性来阐述: 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值 和自相关函数米描述。表示语音信号统计特性的概率密度的估算方法是根据长时 间范围内一段语音信号大量取样数据的幅度绝对值计算出其幅度直方图,然后根 据统计的振幅直方图,寻找近似的概率密度函数表达式。通过对语音信号统计特 性的研究表明,语音信号振幅分布的概率密度有三种常用的逼近方法,一种是修 正伽玛分布概率密度函数 6 麦克风阵列语音增强的算法研究 m ,= 南。h p , 2 万l 蚓 式中,k 是一个常数,与标准差c r 有如下关系x 拈参 ( 2 - 2 ) 另一种是拉普拉斯分布概率函数 尸( x ) = 0 5 a e 一口h( 2 3 ) 式中,口是一个由o - x 决定的常数 口:鱼 ( 2 _ 4 ) 也可以用高斯分布来近似,在高斯模型假设下,其概率密度函数是均值为零,方 差时变的高斯随机变量。对于长期统计来说,在这三个分布函数中,伽玛函数逼 近的效果最好,其次是拉普拉斯函数,而高斯分布逼近效果最差。应当注意,语 音信号的振幅通常都趋向于集中在低电平的范围内,振幅的概率分布不仅反映从 一个瞬时到另一个瞬时的采样值的分布,还反映出语音强度总的变化。 2 2 阵列信号模型 麦克风阵列利用多个麦克风收集信号作为语音信号处理的输入,如图2 1 所 示,麦克风所收集到的信号有直接到达的信号,反射信号和干扰信号。 m : 肘+ 1 m + : s p e e c h i i 图2 1 麦克风阵列信号收集 麦克风阵列信号模型是由传统的阵列信号处理模型扩展而来,目前常用的麦 克风信号产生模型有理想模型和实际模型两种嘲,分别如图2 2 和图2 3 所示。 第二章语音信号处理基础知识 ( 1 ) 理想模型 通常情况下,可以假设声源信号和环境噪声是不相关的,只考虑环境噪声, 并且各路麦克所接收的噪声彼此之间也是不相关的。麦克风阵列中第f 个麦克风接 收到的信号一亿) ( f = 1 , 2 ,m ) 可以表示为 一 ) = q s 一+ r t , )( 2 6 ) 对应的矢量形式为 x ) = a s 一f ) + n )( 2 7 ) 式中 s 一f ) = b 一ql s ( k f :) os 一) 】r( 2 8 ) n ) = k , ) ,刀: ) , 汗( 2 9 ) s ( k ) 为声源信号,口,是声波传播的衰减因子,r ,是声波传播到两个麦克风所需要 的时问,哆 ) 为环境噪声,且j ) 和r j ) ( f = 1 , 2 ,m ) 之间彼此不相关。 声源 尽 图2 2 理想声场模型 当房间内只存在一个语音源和一个点噪声源时,麦克风接收到的噪声只 是点噪声源延迟信号和语音源延迟信号的叠加,则式( 2 - 7 ) 可以变为 x 亿) = n s ( k f ) + p n 一下) ( 2 1 0 ) 式( 2 - 1 0 ) 描述的就是方向性噪声场中的阵列信号模型。式中 s ( k t ) = b ( 七一f 。) ,s ( | | 一f :) ,s ( 七一) 】r ( 2 1 1 ) n 一f7 ) = k ( 七一f ;) ,n ( k f ;) ,n ( k 一屹) r( 2 1 2 ) s 一f ) 和n 一t ) 分别代表麦克风接收到的语音和噪声向量,并满足s 一f ) 和 n 一f ) 相互独立。f = k ,r :,】7 和f = p f ,f :,r 乞】r 分别是语音源和噪声源 到麦克风之间的时间延迟向量,由于语音源和噪声源空间位置不同,声音传播经 过的路径不同,所以时间延迟也不相同。 伍= 砒昭k 。,口:,】和 麦克风阵列语音增强的算法研究 p = d i a g l 6 i ,及,几】是两个对角阵,对角线上元素是与信号传播中的衰减有关的 常数。 ( 2 ) 实际模型 实际中,由于混响是无法避免的,而且对语音增强的效果影响比较显著,因 此,理想自由声场只能作为一种理论上的分析模型,必须既考虑环境噪声,又考 虑多径反射噪声。麦克风阵列中第f 个麦克风接收到的信号x ,( 忌) ( ,= 1 , 2o m ) 可以 表示为 x ,g ) = 口,s ( k t ) + ”, ) = q s 一l s + 1 i , ) + 珂晒g ) = 曩( 七) 幸s g ) + 胛( 七) ( 2 1 3 ) 对应的矢量形式可表示为 x ( 尼) = h ) 木s ( 尼) + n , )( 2 1 4 ) 式中符号“宰”为卷积算子,刀,伍) 为干扰成分( 包括各种环境噪声和房间多径反 射噪声) , ) 表示第f 个麦克风接收到的环境噪声, ) 表示第,个麦克风接收 到的多径反射噪声。 i t 2 3 1 噪声 图2 3 实际声场模型 2 3 噪声和噪声场 实际环境中存在多种多样的噪声,不同的噪声具有不同的特性。而语音增强 的主要目标就是去除噪声,获得纯净语音,因此必须了解和熟悉噪声的特性。噪 声可以是加性的,也可以是非加性的。对于非加性噪声,可以通过一些相应的变 第二章语音信号处理基础知识 9 换( 如同态变换和伪随机扰动) 将其转化为加性噪声,所以这里主要讨论加性噪声。 加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和其他说话人语音干 扰四种i 记j 。 周期性噪声:其频谱的特点是具有许多离散的线谱。周期性噪声主要来源于 发动机等周期性运转的机械、电器干扰以及电源交流电声等。这种噪声可以通过 梳状滤波器予以抑制。实际环境中的周期性噪声并非简单的只含线谱分量,而是 由许多窄谱带组成,而且往往是时变的。 脉冲噪声:脉冲噪声表现为时域波形中突然出现窄脉冲。它来源于爆炸、撞 击和放电等。对这类噪声可以通过在时域上设置阈值来加以抑制,也可以通过内 插法进行平滑处理。 宽带噪声:宽带噪声来源很多,热噪声、气流噪声及各种随机噪声源等,归 一化噪声也可视为宽带噪声。由于宽带噪声在时域和频域上均与语音信号完全重 叠,因而消除它最困难。这种噪声只有在语音间歇期才独立存在。对于平稳的宽 带噪声,通常可以认为是白色高斯噪声,而对于非平稳的宽带噪声,情况就更为 复杂。 话音干扰:在有多人同时说话的情况下,不需要的语音就形成了话音干扰, 人耳可以根据需要分辨出其中某个人的声音,这种能力称为“鸡尾酒会效应 。但 当多个语音叠加在一起,在单通道中传输时,这种能力消失。 各种噪声使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳,还会 对说话人产生影响,使人改变在安静环境中的发音方式,从而改变了语音的特征 参数。所以可以通过语音增强的方法来增强语音,提高语音质量。 2 3 2 噪声场 噪声场对麦克风阵列语音增强也是一个很重要的概念。语音信号在封闭环境 内传输时,反射和衍射使得麦克风阵列接收的语音来自多个路径,这种现象称为 混响。混响对语音的影响主要表现为两个方面:首先,混响使接收到的语音信号 产生失真;其次,混响改变了噪声场的空间特性。 混响对噪声场空间特性的改变体现为,单一的噪声源被扩展为多个不同方位 的镜像源,噪声空间接近于散射噪声场。这一特性借助模平方相干函数来界定。 设位于和,的两麦克风接收到的噪声分别为刀,( 刀) 和刀,( 刀) ,相应的自功率谱及互 功率谱分别( ,w ) 、o ( ,w ) 和( p ,w ) 。 于是,定义噪声的空时域模平方相干函数为 c 和) = 脚卜2 龆 ( 2 - 1 5 ) 1 0 麦克风阵列语音增强的算法研究 根据c ,沏) 的值把噪声场分为相干噪声场、非相干噪声场和散射噪声场【3 4 1 。 根据空时域模平方相干函数值的不同,可以对麦克风阵列中的噪声场进行分 类。相干噪声场中假定只有一个噪声源,而且此噪声源离麦克风很远,麦克风接 收到的噪声信号是相关的,这时l r f ,( ) l l ,称之为相干噪声场:当各个麦克风上 的噪声彼此间不相关时,l f ,( ) r 0 ,这时称之为非相干噪声场。在实际环境中, 这两种噪声场会同时存在,而散射场正是最接近于实际噪声场的模型。在散射场 中,平面波在所有方向上随机传播,噪声是无限多个平面的叠加。此时 l ( ) :s i n c ( 丝堕) ,其中九是麦克风f 和之间的距离。可看出其噪声在低频段 c 强相干,在高频段弱相干。 2 4 语音增强系统性能评测标准 评价语音增强的效果一般可以从两方面评价,一个是主观评价,另一个是客 观评价 2 1 。另外,还可以用消噪能力从理论上来计算、分析语音增强算法的性能。 ( 1 ) 主观测评 主观测评方法是对语音质量的综合评估,主要有:平均意见得分( m e a n o p i n i o ns c o r e ,简称m o s ) 和判断满意度测试( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,简 称d a m ) 。其中,m o s 采用五级评分标准,参加测试的实验者在听完所测语音后, 从五个等级中选择某一级作为他对所测语音质量的评定。全体实验者的平均分就 是所测语音质量的综合得分。d a m 方法是对话音质量和满意度的综合评估,它是 在多种条件下对话音质量可接收程度的一种度量,它采用百分比评分。 但是由于主观测评的抽象性,主观测评法每次得到的结果之间波动较大,参 与测试者个体的差异对测评结果也有很大影响。因此想要得到可信的结果就要求 参加测试的实验者人数要足够多,所测语音样本数也要足够大,测试环境要尽量 保持相同,并且要在多种条件下对话音质量进行测评。 ( 2 ) 客观测评 相对于主观测量方法的抽象性、随意性,客观测量方法能够更直观、更准确 的表示出语音增强系统的性能。人们可以直接观测增强语音的时域波形或频域波 形,也可以给出客观的数值度量。其特点是计算简单,但是也并不完全反映人对 语音质量的感觉,其中信噪比是最常见的客观测量方法。信噪比法有许多种变种, 如分段信噪比法、频率加强型信噪比法等。 第二章语音信号处理基础知识 信噪比( s i g n a lt on o i s er a t i o ,s n r ) 时域误差信号可以表示为: c ( n ) = s ( n ) - h ( n ) 式中,s ( ) 表示相对应的增强信号,并假设所有这些信号都为能量信号。 那么,经典形式的信噪比定义为: ( 2 1 6 ) fs 2 ( 玎) 舢= 1 0 1 9 蚩= 1 0 1 9 豇商( 2 - 1 7 ) s ( n e 。 。i) 一;( 胛) r 但经典形式的信噪比对语音质量给出的估计并不令人满意。这主要有两个原 因【3 5 1 ,一是因为经典形式的信噪比与语音质量的主观属性并没有很大的联系:二是 因为它同等对待时域波形中的所有误差。如果一段发音在它的浊音部分有很多能 量聚集,这时就有可能得到具有欺骗性的高信噪比值。而具有较少能量的清擦音 部分受噪声的影响相当大,使人对它的感知发生困难,分段式信噪比可以改善上 述问题。 分段信噪比( s e g m e n t a ls i g n a l - t o - n o i s er a t i o ,s e g s n r ) 分段信噪比【3 3 1 衡量语音时域波形的失真程度,它与主观测试之间的相关系数 为o 7 7 ,远高于相关系数为o 2 4 的一般信噪比【3 9 1 ,s e g s n r 定义为: s e g s n r = j 1 0 7 善m g 一 ( 2 - 1 8 ) 式中s ( 1 ,七) 为纯净语音,f ( ,七) 为待测评的语音,上为帧长,m 为总帧数。直接用不 同算法下增强语音和带噪语音i 拘s e g s n r 差值a s e g s n r 来评测,这样可以直观地分 析出算法的增强语音相对于带噪语音性能上的改善,而且也易于和其它增强算法 进行性能比较。 2 5 小结 本章主要介绍了语音信号处理的基本知识,其中介绍语音信号的特性,阵列 信号的模型,噪声和噪声场以及语音质量评测的标准。了解这些知识都是进行麦 克风语音增强算法研究的前提。许多语音增强的算法都是根据语音和噪声的特性 来区别噪声和语音,从而提取出纯净的语音,所以在介绍语音增强算法之前有必 要了解语音以及噪声的特性。而麦克风阵列语音增强的算法都是建立阵列信号模 麦克风阵列语音增强的算法研究 型上的,因此,充分理解阵列模型非常重要。语音增强的评价标准则是语音增强 系统效果好坏的评价准则,语音增强的算法根由准则标准来评判才能获得认可。 因此,充分理解语音信号处理的基本知识才能更好的理解语音增强的算法。 第j 章麦克风阵列语音增强的基本方法和关键技术 1 3 第三章麦克风阵列语音增强的基本方法和关键技术 上一章主要介绍了语音信号处理的基本知识,为了更深入的研究语音增强的 算法,本章主要详细介绍语音增强中基本方法以及在语音增强中需要使用的关键 技术。 3 1 麦克风阵列语音增强的基本方法 3 1 1 固定波束形成算法 固定波束形成方法是麦克风阵列语音增强算法中最简单易于实现的一种方 法,也是最经典的麦克风阵列语音增强的算法之一。固定波束形成的含义是,是 其波束形成器的权值固定不变,与麦克风阵列的接收信号无关。固定波束形成算 法通过延时控制来补偿从声源到每个麦克风的延时,对每个麦克风接收到的信号 进行延迟补偿,然后使麦克风阵列波束指向有最大输出功率的方向,即波束对准 相应空间位置的声源信号,其原理如图3 1 所示。 2 k 图3 1 固定波束形成器 该固定波束形成器是典型的延迟一求和波束形成器【4 1 ,它包含三个部分:时延 估计部分,时延补偿部分和加权求和部分。通过麦克风接收到的数据来估计各个 麦克风的时延,然后通过时延补偿使麦克风信号同步,再加权相加得到波束形成 器的输出。 设麦克风接收到的信号为o ) ,权系数为w ( 七) ,则延迟一求和波束形成输出 为: 上 y ( n ) 2 彬( 七) 一( f 一0 ) ( 3 1 ) 其中k 为麦克风的数目,f ,表示由时延估计得到的时延。该方法适合用来消除非相 干噪声或者弱相干噪声,对于相干噪声几乎没有消噪能力。如果用来消除非相干 1 4 麦克风阵列语音增强的算法研究 噪声或弱相干噪声,它的消噪能力主要取决于麦克风的数目,麦克风的数目越多, 去噪效果越明显。因此,该方法获得去噪效果是以增加麦克风数目为代价的,在 实际中较少单独使用。 3 1 2 自适应波束形成算法 自适应波束形成算法是相对于固定波束形成算法来说的,固定波束形成算法 的权值与麦克风接收的信号无关,而自适应波束形成器的权值确是根据麦克风接 收到的信号来确定的。g s c 广义旁瓣抵消器【6 】【3 3 1 是自适应波束形成中最经典的一种 算法也是目前最广泛使用的一种语音增强算法。它的理论框图由图3 2 所示。 图3 2g s c 理论框图 g s c 结构的框架包含三个部分:第一个部分为固定波束形成器,用来产生语 音参考信号;第二个部分为阻塞矩阵,用来产生噪声参考信号;第三部分为自适 应噪声抵消模块,用来抑制固定波束形成器输出端的残留噪声。 固定波束形成器的加权系数伍是固定的,其功能是非自适应滤波,产生语音信 号参考信号 儿g ) = a r x ( n )( 3 - 2 ) 式中伍= k o ,q ,口f m - 1 ) f ,x = a s + n 。 为简单起见,设该权系数向量满足 口7 i = l ( 3 3 ) 阻塞矩阵b 的作用就是产生噪声参考信号。信号通过阻塞矩阵后,期望方向 上的信号被去除,输出只包含干扰和噪声。对麦克风接收到的信号要先进行时延 估计,再经过时间延迟补偿之后,各麦克风中所含期望方向上的语音信号是完全 同相的,所以只要阻塞矩阵中每一行上的元素之和为零,就可以保证输出中不含 第i 章麦克风阵列语音增强的基本方法和关键技术 1 5 期望方向上的语音信号。 设b :代表阻塞矩阵b 中的第m 行元素向量, b :i = 0 则对于所有用m 需要满足 由于6 。彼此是线性独立的,所以u g ) 最多有m 1 个线性独立组成元素, 说,阻塞矩阵b 行的维数一定是m l 或更少。 一个常用的符合式( 3 - 4 ) 条件的阻塞矩阵为 b = 1一l o1 00 : 00 0 oo l 00 l 0o 0 l 一1 ( 3 _ 4 ) 也就是 ( 3 5 ) 信号经过阻塞矩阵处理后 u ( n ) = b x ( n )( 3 6 ) 设自适应f i r 滤波器的系数为w :,其输出为 ”g ) = 【w ( 刀) r u g 一刀) ( 3 7 ) 系统的最后输出即期望语音参考信号和噪声参考信号之差 y ( 聍) = 儿( 刀) 一y ,( 刀)( 3 - 8 ) 由于) ,。( 刀) 中只由干扰噪声组成,它不包含有期望方向上的信号,所以系统对于语 音信号的所有成分都包含于坎( 刀) 中。 在这个模型基础上,寻找自适应滤波系数向量w 。( 刀) 最优解,要求系统的噪 声输出功率最小,这个求解问题转化为无约束的最小均方( l m s ) 问题。得到的g s c 滤波权系数的更新公式为 w 。g + 1 ) = w 。o ) + y ( n ) u g ) ( 3 9 ) 式( 3 9 ) 中为自适应滤波器的步长值。 从自适应噪声抵消过程可以看出,g s c 对相干噪声具有较强的抑制能力,对 非相干噪声的消噪能力还不如固定波束形成。考虑实际复杂的声学环境,在阻塞 矩阵输出端的噪声参考信号中,不可避免地含有与语音相关的信号成分,从而导 致自适应波束形成输出端的语音信号抵消。这是g s c 结构固有的一个缺点。 为了改善g s c 结构固有的信号泄漏的特点,许多学者提出了改进的算法。其 中以h o s h u y a m a 等提出的一种鲁棒自适应约束波束形成方法【8 】【9 1 【3 5 1 最为典型。该方 法将自适应阻塞滤波器取代阻塞矩阵来产生噪声参考信号,通过约束阻塞滤波器 系数的变化范围,以控制辅助通道噪声参考信号的产生过程,削弱了g s c 自适应 波束形成中语音信号的抵消现象。其结构框图如图3 3 所示。 1 6 麦克风阵列语音增强的算法研究 假设麦克风接收的信号为t ( 七) ,固定波束形成器的输出为d ( k ) ,自适应阻塞 滤波器的频率响应为h ,( 七) ,该方法是用自适应阻塞滤波器组来取代阻塞矩阵,阻 塞滤波器的输出为 y ,( 七) = x ,( 七一p ) 一a h j ( k ) d ( k )( 3 1 0 ) 其中口为步长因子,p 为延迟。阻塞滤波器权值的更新方程为 k ”1 ) _ k 邯爵毗) ( 3 - 1 1 ) 其中p 为步- k n 子。对式( 3 1 1 ) 阻塞滤波器的权值做一定的约束,设詈- i - j 限值痧。 和仍确保阻塞滤波器的权值在门限范围内 i 谚,t t l , , ( 七+ 1 ) 谚,i 曩,女( 七+ 1 ) = 仍,t红,( 七十1 ) 5 2 腑( 3 1w :( 七+ 1 ) 其他 第三章麦克风阵列语音增强的基本方法和关键技术 1 7 其中q - - - t iw 2 。 韧性自适应波束形成方法使用了带约束阻塞滤波器代替阻塞矩阵,并且使用 带约束的自适应抵消器代替之前的自适应抵消器。这两种方法的结合可以有效防 止目标信号的抵消,有效的提高了g s c 自适应波束形成算法的性能。 3 1 3 后置滤波器 后置维纳滤波是后置滤波和波束形成技术相结合的产物。滤波求和波束形成 器的输出由维纳滤波器进行后置滤波处理,其目的是进一步减少己经由固定波束 形成器去除不相干的噪声后的残余噪声成分。系统结构的具体框图如图3 4 所示。 图3 4 后置维纳滤波器 其中,固定波束形成器累加之前每个通道的输出为: y f ( 以) = w f ( 刀) x ,( 刀)( 3 1 5 ) 因此,固定波束形成器的输出为 彳一l y ( 刀) = w ( 刀) ( 疗) ( 3 一1 6 ) 1 = 0 其中m 为麦克风的数目。 信号经过固定波束形成器后,进行维纳滤波的后置处理。维纳滤波【1 2 】【3 9 1 就是 设计一个数字滤波器w ( n ) ,将s ( n ) 是原始语音即期望信号,按最小均方误差准则 对s ( n ) 进行估计,也就是使下列均方误差 s = e s ( 刀) 一x ( 玎) 宰w ( ”) 】2 ) = e e 2 ( 刀) ( 3 1 7 ) 最小,如果从频域来看,即要使 r 。( c a ) = r 。( c o ) 一r 西( c o ) 一r 蠡( c o ) + r 菇( c o ) ( 3 - 1 8 ) 麦克风阵列语音增强的算法研究 最小。滤波器输出的信号的功率谱为 r 菇( c o ) = r 。( c o ) 1w ( c o ) 1 2( 3 - 1 9 ) 期望输出信号s ( 胛) 与实际的输出信号;( 刀) 的互功率谱为 r 矗( c o ) = r 。( c o ) w ( c o ) ( 3 2 0 ) r 矗( c o ) = r 。( c o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论