




已阅读5页,还剩61页未读, 继续免费阅读
(信号与信息处理专业论文)基于多麦克风的语音技术研究及其在会议系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多麦克风的语音技术研究 及其在会议系统中的应用 摘要 随着网络技术及微处理技术的发展,视频会议系统作为一种有效和 经济的沟通方式为越来越多的人所采纳。它要求为用户提供高质量的音 视频源及音视频同步的服务。而实际的会议环境由于各种原因总是存在 着很多噪声干扰,它们会随着网络传送到会议的另一端,从而大大降低 语音质量。另外在视频会议中,我们通常要求将视频画面聚焦到发言者, 而通常的办法是通过人工旋转对焦摄像镜头的方式来进行的,但这样往 往造成操作滞后,使传送到远端的视频画面和音频信号不同步。因此研 究如何对噪声进行抑制和实现自动控制摄像头是十分必要的。 本文研究了如何利用多麦克风阵列来实现语音增强和快速音源定 位。论文主要包括对语音检测算法,基于多目标分类( m u s i c ) 的定位 算法及自适应语音增强算法的研究。论文讨论了上述算法的基本原理, 同时针对会议系统的特点研究了它们的改进形式、实现方法以及在不同 的情况下的性能。 为了研究的完整性,本文还给出了一个完整的系统实现方案。 仿真和实际典型环境的试验都表明算法的合理性和稳定性,可作为 开发实用视频会议系统的基础。 关键词 广义旁瓣抵消器多麦克风会议系统语音检测 多目标分类语音增强 s p e e c hp r o c e s s i n gb a s e do nm i c r o p h o n e a r r a y a n di t sa p p l i c a t i o ni nt h e t e l e c o n f e r e n c es y s | t e m a b s t ra c t a c c o r d i n gt o t h er a p i dd e v e l o p m e n to fn e t w o r ka n dm i c r o p r o c e s s o r t e c h n o l o g i e s ,v i d e oc o n f e r e n c eb e c o m e sa ni m p o r t a n ta n dv e r ye f f e c t i v ew a y t oc o n t a c tw i t he a c ho t h e r m o r ea n dm o r ec o m p a n i e sh a v ef o u n di t sa d v a n c e s a n dt r e n dt od e p l o yi t f r o mt h et e c h n o l o g yp e r s p e c t i v e ,i ts h o u l dp r o v i d ec u s t o m e r sw i t hh j i g h q u a l i t yv i d e oa n da u d i or e s o u r c e sa n dm a i n t a i ns y n c h r o n i z a t i o nb e t w e e n a u d i oa n dv i d e o b u ta c t u a l l yb e c a u s eo fv a r i o u sf a c t o r st h e r ea r ea l w a y s m a n y d i f f e r e n tk i n d s o fn o i s e sa n d i n t e r f e r e n c e s t h e s en o i s e sa n d i n t e r f e r e n c e sw i l lt r a n s m i tt ot h ea n o t h e rp a r to ft h ev i d e oc o n f e r e n c ea n dt h e q u a l i t yo fa u d i ow i l ld e p r e s sr a p i d l y o nt h eo t h e rh a n d ,u pt on o ww eo f t e n f o c u st h ev i d e op i c t u r et os p e a k e rb yr o t a t i n gt h el e n sm a n u a l l y b u ta sy o u k n o w , i ta l w a y sc a u s e so p e r a t i o nd e l a ya n dl e a d st ol o s so fs y n c h r o n i z a t i o n b e t w e e na u d i oa n dv i d e o f r o ma b o v ew e v ed i s c u s s e d ,w ec a nf i n di t n e c e s s a r yf o ru st or e s e a r c hi nh o wt od e p r e s sn o i s e se f f i c i e n t l ya n dh o wt o o p e r a t el e n sa u t o m a t i c a l l y s ot h em a i np u r p o s eo ft h i sp a p e ri st os o l v et h e s et w oc h a l l e n g e s i n t h i sp a p e rw e 1 1m a i n l yd i s c u s st h r e ec r i t i c a la l g o r i t h m sb a s e do nm u l t i p l e m i c r o p h o n e sf o rt y p i c a lc o n f e r e n c ee n v i r o n m e n t ,w h i c h a r ev o i c ea c t i v i t y d e t e c t i o n ( v a d ) a l g o r i t h m ,s p e e c he n h a n c e m e n ta l g o r i t h ma n dr a p i ds p e a k e r l o c a t i o na l g o r i t h mb a s eo nm u s i c ( m u l t i p l es i g n a lc l a s s i f i c a t i o n ) w ew i l l d i s c u s st h ep r i m a r yt h e o r i e sf o ra b o v ea l g o r i t h m sa tf i r s t t h e nw e 1 1s e eh o w w ea d a p tr e l e v a n t a l g o r i t h m st o t h et y p i c a lc o n f e r e n c ee n v i r o n m e n ta n d a n a l y z et h e i rp e r f o r m a n c e f o ri n t e g r i t y , a tt h ee n do ft h ep a p e rw e 1 1s e eas y s t e ms c h e m ew h i c h u s e sa l lt h ea l g o r i t h m sw e v er e s e a r c h e da b o v e s i m u l a t i o n sa n dr e a le n v i r o n m e n tt e s t sh a v es h o w nt h er e l i a b i l i t ya n d r o b u s t n e s so fo u ra l g o r i t h m s t h e yc a nb eu s e di nt h ed e v e l o p m e n to far e a l v i d e oc o n f e r e n c es y s t e m k e yw o r d s g e n e r a l i z e ds i d e b a n dc a n c e l l e r s y s t e m v o i c ea c t i v i t yd e t e c t o r m u l t i p l em i c r o p h o n ec o n f e r e n c e m u l t i p l es i g n a lc l a s s i f i c a t i o n s p e e c he n h a n c e m e n t 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与澄料若有不实之处 本人签名:奎鞋犟 本人承担一切相关责任。 日期: 盘塑生:墨:五薹 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名:秘煎翌日期:型生:墨:丛 导师签名:;多卜# 身2 一 日期:二弛竺印乒;4 二 第一章概述 本文研究了基于多麦克风的语音处理技术及其在会议系统中的应用。针对会议系 统的特点,主要研究了基于子空间划分的阵列定位技术、语音联合检测技术和基于多 麦克风的自适应语音增强技术。 在语音定位技术中我们重点研究了多目标分类( m u l t i p l e s i g n a l c l a s s i f i c a t i o n ) 定 位算法及其在宽带近场条件下的改进算法。而在自适应增强技术中我们重点研究了线 性受限波束成形器( l c m v ) 。 为了研究的完整性,本文还给出了一套较为完整的系统实现方案。 1 1 研究背景 随着网络技术及微处理技术的发展,视频会议系统作为一种有效和经济的沟通方 式为越来越多的人所采纳。从技术角度考虑,一个实用的视频会议系统要求能为用户 提供高质量的音视频源及音视频同步的服务。而实际的会议环境由于各种原因总是存 在着很多噪声干扰,如风扇,空调声、脚步,咳嗽声等,这些噪声如果不进行有效的 抑制,它们就会随着网络传送到会议的另一端,从而大大降低语音质量。如果会议还 采用串连的方式进行交互,则可能使整个系统的音频质量相当的差。因此尽可能的消 除这些噪声对高质量的视频会来说是相当重要的。 对噪声抑制的方法很多,具有代表性的方法主要有:基于噪声对消的方法,基于 谐波增强的方法,基于语音短时幅度谱估计的方法,基于语音参数模型的方法,基于 状态转移的隐马尔可夫模型方法等,这些算法的一个共同特点是只采用一个麦克风, 在时域或频域上对噪声进行抑制。在很多应用环境中,这些算法都取得了很好的效果。 近年来基于多麦克风的噪声抑制算法,由于其利用了噪声和语音的产生在空间上 分离的特点,得到了越来越多的关注。如果噪声和语音的产生在空间上是分离的,我 们就可以利用麦克风阵列对含噪语音信号在空间域上进行空间滤波,得到比采用单麦 克风更好的噪声抑制能力。会议系统的噪声和语音信号的产生往往是分离的,所以采 用多麦克风的方式可以很好的对噪声进行抑制。 另外在视频会议中,我们一般要求将视频画面聚焦到发言者,常用的办法是通过 人工旋转和对焦摄像镜头的方式来完成的。但是采用这种方式往往造成操作滞后,使 传送到远端的视频画面和音频信号不同步。因此研究如何实现自动控制摄像头是必要 的和有现实意义的。 1 2 文章内容安排 从内容上本文可分为五个部分: 第一部分首先讨论了语音数字信号处理和阵列信号处理的一些基本概念。 第二部分讨论了语音信号定位算法。首先我们介绍子空问的概念和基于子空间定 位算法的一般形式。然后我们讨论窄带多目标分类m u s i c 算法。接着针对语音信号的 宽带特性,我们对窄带m u s i c 定位算法进行宽带改造。最后我们讨论近场情况下的 m u s i c 定位算法。 第三部分我们讨论语音联合检测技术。首先我们讨论一些常用的语音检测算法, 然后我们讨论一个在会议系统中实用的语音联合检测方案。 第四部分我们分析利用自适应波束成形器进行语音增强。 第五部分主要讨论了一个实用的系统方案。 2 第二章语音数字信号处理和阵列信号处理基本理论 这一章我们介绍一些相关的基本理论和原理,以方便我们下面章节的讨论。本章 共分为两个部分,即语音数字信号处理基础和阵列信号处理基本理论。首先我们讨论 语音信号基础。 2 1 语音数字信号处理基础 语音数字信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。 它是一门新兴的边缘学科,是“语言一语音学”与“数字信号处理”两个学科相结合 的产物。因此对它的研究方法和方向也相当的多,如从语言学,生理学,数学模型等, 而就是单从利用数字信号处理方法来对语音信号进行分析来说也有很多的内容可以 研究,如语音压缩与编码、语音增强,语音合成、语音识别及理解。在这里我们只讨 论和论文相关的一些语音数字信号处理内容。 2 1 1 语音信号产生数学模型 一个简单的离散时间域的语音信号产生模型,如图( 2 - 1 ) 所示,它包括三个部分 激励源、声道模型和辐射模型。 声道参教 图( 2 1 ) 典型的语音产生模型 3 激励源分成浊音和蒋音两个支路,按照浊音清音开关处的位置来决定产生语音 是浊音还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器产生,所产生的 序列是一个周期为舶冲激序列,即每隔心点便有一个样值为1 ,而其它样值皆为 0 。周期0 取决于基音频率和语音信号的采样频率f ,以;正,0 ,其中五和工皆 以h z 计量。当正一8 k h z ,0 的变化范围为5 0 4 5 0 h z 时,o 变化范围是1 8 1 6 0 。 为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激序列通过 一个声门脉冲模型滤波器。其z 域传递函数为g ( z ) ,对声门波形的频谱分析表明, 其幅度频谱按每倍频1 2 d b 的速度递减,其频谱函数为c ( z ) = v ( 1 一g ,z 。x l 日:z 。) ,为 一个二阶的低通滤波器。乘积系效4 的作用是谓节浊音信号的幅度或能量。在清音 的情况下,激励信号由一个随机噪声发生器产生,可设定其均值为0 ,方差为l ,此 外还假定他的幅度具有正态概率分布,乘积系数4 的作用是调节清音信号的幅度或 能量。 声道模型在大多数情况下它是一个全极点函数,可以表示为: 矿( z ) :i l 2 ,1 ) , 酗z 其中a 。= 1 ,口f 为实数。p 称为这个全极点函数的阶。显然p 值取得越大,模型的 传递函数与声道实际传递函数的吻合程度越高。但是,对大多数实际应用而言,p 值 取8 1 2 就够了。 辐射模型尺( z ) 与嘴型有关,一般来说它可以通过一个一阶类高通滤波器来描述。 在这个模型中,除了g 0 ) 和r ( z ) 保持不变以外,厶、4 、4 ,浊音清音开关的位 置以及声道模型中的参数q d 。都是随时阎丽变化的,由于发声器官的馁性使这些参 数的变化速度受到限制,对声道参数,在1 0 3 0 m s 的时间间隔内可以认为它们保持 不变,因此语音信号的短时分析帧长般取在2 0 m s 左右。 4 21 2 语音信号特点小结 发浊音时语音信号具有周期性,这个周期叫基音周期,且男子,女子、 老人和小孩的基音周期是不同的,男子低、女子高、老人低、小孩高。男性说 话者的,。值大致分布在6 0 2 0 0 h z 的范围内,女性说话者和小孩的厶值在 2 0 0 4 5 0 之间。而发清音时语音信号则不具有周期性。 语音信号的频谱分量主要集中在2 0 0 3 4 0 0 h z 的范围内。 短时性:即语音信号的特征是随时间而变化的,大概只在5 5 0 m s 内是 可近似为稳定的。因此对语音信号的分析和处理必须建立在“短时”的基础上。 最重要的语音信号的“短时特征”和“短时参数”包括它的“短时能量”、“短 时过零率”、“短时相关函数”、“短时频谱”。 浊音的短时谱有两个特点。第一,有明显韵周期性起伏结构,这是因为 浊音的激励源为周期脉冲气流。第二。频谱中明显地具有几个凸起点,它们的 出现频率与声道的谐振频率相对应。这些凸起点称为“共振峰( f o r m a n t ) ,其 频率称为共振峰频率。共振峰按频率由低到高排列的共振峰有5 个。其中前3 个对于区分不同语音是至关重要的。一般成人的声道约为1 7 c m 长,其前三级 共振峰可近似为r l = 5 0 0 h z ,只一1 5 0 0 h z ,只一2 5 0 0 h z ,当然对具体的人和发音 会有一定的改变。清音的短时谱则没有这两个特点,它十分类似于一段随机噪 声的频谱。 人耳对语音的感知是通过语音信号中各个频率分量幅度获取的,对各分 量的相位则不敏感。 2 1 3语音信号数字处理中的短时分析技术 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在“短时” 基础上,为了实现各种具体应用目的而做进一步的复杂处理之前,通常有一些经常使 用的,共同的短时分析技术。下面按照处理的先后次序简要的介绍它们: a 预滤波。预滤波的主要目的有两个:( 1 ) 抑制输入信号各频域分量中频 率超出f ,2 的所有分量,以防止混叠干扰;( 2 ) 抑制5 0 h z 的电源干扰。这样 预滤波器必须是一个带通滤波器,其上、下截频分别是厶,和 ,对于绝大多 5 数语音的应用来说,可以取厶一3 4 0 0 h z ,无= 6 0 l o o h z ,采样率取 f 一8 k l t z 。 b 分帧及加窗。在语音信号处理中由于语音的短时性,需要对语音进行分 帧处理,且大多数采用帧与帧重叠的方法。采用这样分帧的好处是:在语音短 时乎稳允许的时间间隔内,增加可处理帧数;可以减少语音分帧处理造成的不 连续性。 前一帧和后一帧的交叠部分称为帧移,图( 2 - 2 ) 示出了帧移与帧长之比 为1 2 时各前后帧的相对关系。 已取出的帧语音5 ) 要经过加窑处理,这就是用一定的窗函数w o ) 来 s ( n ) ,从而形成加窗语音s 。m ) ,屯研) = s 0 ) w 0 ) 。在语音信号处理中常 用的窗函数是方窗和h a m m i n g 窗,它们的表达式如下( 其中为帧长) : 第n 帧 卜一 第k l 帧 r 竺! 竺 k 坚卜一鳖一一一一 方窗: 忡忙 h a m m i n g 窗: 图( 2 - 2 ) 语音分帧 :础 刁 w m = 0 5 4 - o 4 6 州幼番_ ) , n = o ,一1 ( 2 3 ) 6 2 1 4 一些基本的语罾参数 语音信号的基本时域参数有“短时平均能量”、“短时过零率”、“短时自相关相关 函数”、“短时频谱”。 a 短时平均能量 当窗的起点n = 0 时,语音信号的短时能量用表示,其计算公式如下: 岛= s ,2 0 ) ( 2 4 ) 如果窗w 0 ) 的起点不是n ;0 而是某个其它整数m ,那么相应的短时能量用表 示,其取和限为n = m 一+ 一1 ) 。 e h j :式可以看出,不同的窗口选择( 形状、长度) ,将决定短时平均能量的性质。 在语音信号处理中我们一般采用方窗或h a m m i n g 窗,因此我们主要考虑窗口的长度 ,它的选择将对短时平均能量起决定作用。选得太大,滤波器得通带变窄,波 形的振幅变化细节就看不出来了;反之,太小,则滤波器的通带变窄,信号得不 到足够的平均。 所谓窗口长度的长短都是相对于语音信号的基音周期来说的。通常认为在一个语 音帧内,应含有1 7 个基音周期为好。可是人的语音基音周期是变化的,从女性小 孩的2 m s 至老年男子的1 4 m s ( 即基音频率为5 0 0 h z 至7 0 h z ) ,所以值选取比较困 难,通常折衷选取为1 0 0 2 0 0 点为宜,若取样率为1 0 k h z ,则相当于每帧的长度 约为1 0 2 0 m s 为宜( 若取样率为8 k h z ,2 0 0 点相当于2 5 m s ,4 0 帧s ;1 2 0 点相当于 1 5 m s ,6 6 帧s ) 。 b 短时平均过零率 当窗起点为n = 0 时,语音信号的短时过零率用z 。表示,以表示一帧语音信号波 形穿过横轴( 零电平) 的次数,它可以用相邻两个取样改变符号的次数来计算如下: z 。2 丢 薯i s g n s ) 卜s g n s 。一1 ) 】| ( 2 - 5 ) 其中s g n 】表示取符号,即 唧蜘i - l l , 当x 0 凯 ( 3 1 3 ) 其中j 为交换矩阵。 这样我们就可以通过分解r 得到需要的特征值,特征向量。 讨论:对于有限的对同,切片m ,通过估计的协方差矩阵得到韵特征向量 u ,u 。,u n ,u 。,因此不同的噪声空阕向量的选择导致不周估计器性能。 下面总结下基于子空间定位算法的一般步骤: a 估计r ,然后得到特征向量和特征值。 b 将向量渺) 投影到某个特定的子空间u ”计算零谱函数脚) ,妒敏可见区中 研有可能值。恻k 食最小值的毋仰) 值对应的值识乒= 1 ,2 置为信号源韵入射方向。 这里要指出的是,从运算数值精度的考疼我们通常采用矩阵奇异值分解( s v d ) 直接从阵列输出的时间切片诗算特征值和特征向量,而不是通过协方差矩阵r 特征值 分解来求得。 3 2 窄带多目标分类m u s l c 算法 这是出s c h r f l i d t 提出的一种有效的多目标定位算法,谱m u s i c 可表示为 h 1 ,m v “n p ) u u v ( 妒) ( 3 1 4 ) 而实际应用中我们常采用倒数形式,求毋一的极大值而不是零点,所以又有, 1 踮= _ t 面一 ( 3 1 5 ) p “( 妒) u u p ) 这种形式的m u s i c 算法适合任意的布阵方式,而且可以直接推广到多维情况。 图( 3 2 ) 示出了频率为9 9 0 h z ,入射方向为5 6 度的单频信号的空阔谱图,其中阵列 为n = 8 的等间隔线阵,间距d 。0 1 0 m 。 1 8 r 、s 标角度5 64 3 度 玲j 右亩_ 亩喘 鹰 田( 3 一z ) 删s i c 算法空间谱田,单目标( 叛事9 9 0 射角5 6 度) 3 3 宽带语音信号的m u s l c 定位算法 从下面的方向簇向量表示式我们可以看到,从同一方向来的不同频率的信号的簇 向量是不同的。 口( 口,) 叫1e x p ( 一,d 查旦)e x p ( 一j 也d ( 一1 ) s i n o ) o - 1 6 ) c 因为语音信号是宽带信号,它包含了很多的频率分量,因此有很多的方向簇向量。 这样在上一小节中我们讨论的窄带m u g i c 已经不适应了,为了利用m u s i c 算法,我们 必须对窄带m u s i c 算法进行改造,使其适应宽带语音信号的情况。在研究中我采用了 阵列“会聚”的方法来对窄带m u s i c 算法进行改进。在这里假设我们采用的是一个等 间距的线阵。 首先我们讨论阵列会聚的概念。 3 3 1阵列会聚原理 会聚技术的基本思想是将宽带信号的每个频率分量都会聚到一个选定的“会聚频 率厂0 上,从而所有的频率分量都可以被同样对待。更进一步的说,当数据会聚后,从 1 9 同一方向来的宽带信号的各个频率分量有相等的方向簇向量。很明显可以看到,这时 我们可以将窄带m u s i c 算法运用到会聚后的数据矩阵上,从而得到语音信号的入射 角。 设选择的会聚频率为元,对应的阵列问隔为如。由式( 3 1 6 ) 可知,为了保证 各个频率分量有和会聚频率相等的方向簇向量,必须且只需满足f d 一厶。,d 为,分 量所对应的阵列间隔。这样如果,增加,则对应的d 就应该减小。这相当于采用小尺 寸的阵列来处理高频率的频率分量。虽然一般来说,麦克风的阵列是固定的,也就是 说它们之间的伺诵是不能改变的,但是我们可以通过空间内插的方法在相应的位置模 拟生成“虚麦克箴。的接收数据。对于要求d ,d a 的情况可以通过空间重采样盼方法 来模拟产生数据。 下面举例来说明空间采样的原理,图( 3 - 3 ) 示出了两个麦克风数为n 一4 的等 间隔线阵。左边的线阵间隔为d 而右边的线阵问隔为d 2 。右边线阵接收到的信号频 率正好是左边的2 倍。因为两个线阵的w d 相等,所以它们的方向簇向量是相同的。 入射信号频率为f 八射佰亏颜翠 2 f 三、缃觥产 图( 3 3 ) 麦克风阵列的空问内插 彤 叶一 万 t,llll,l立 够 7 因为麦克风是空间固定的,右边小的线阵可以通过空间内插左边麦克j x l 接收的数 据产生“虚拟麦克风”来构成。同理,通过空间内插我们可以模拟阵列不同i i 臼j 距和不 同信号频率情况下的过程。 3 3 2 远场情况下的语音信号定位算法 设阵列为麦克风数为置的等间隔线阵,间距为d 。则这些麦克风的输出可写成: x k ( t ) = s o ( t 一气) + 炸o ) , k = 1 ,k( 3 1 7 ) 其中晶o ) 是接收到的关心的说话者的语音,t 是第女麦克风相对第一个麦克风的 信号接收时间延迟。y k ( f ) 是全部干扰信号,包括其它说话者的语音,回声和背景噪 声。 在远场条件下,也即说话者远离阵列时,接收到的语音信号可以近似的认为是平 面波,这样时间延迟可写成: ;ds i n o ( g - 1 ) :( 七一1 ) r 0 , k :1 ,。,k ( 3 1 8 ) 其中疗为待估计的说话者方向,。是声速, i t 0 :尘堂是相邻麦克风之问的接 收时间延迟。 在近场条件下,即说话者靠近阵列时,q 不仅同0 有关,而且和说话者同参考麦 克之间举例,有关,表示如下: _r。;r-4rz+(k-1)zdz-2r(k-1)dsin0( 3 1 9 ) c 对式( 3 1 7 ) 所示的每个麦克风接收的信号在时间域上采样,再进行d f t 变换, 可用下式表示: 肖。( 峨) = s o ( q ) e x p ( 一j 噱t ) + k ( ) ( 3 2 ( ) ) 其中,丑( 吃) ,& ( ) ,k ( 峨) 分别为耳( r ) ,s 。( f ) 和_ ) ,。( t ) f f :j n 点d f t 变换。 离散频率= 2 , r n n , 月= o ,n 一1 ,n 为观测帧的长度。 为了表述方便我们将每个麦克风输出信号的点d f i 、变换表示为: 五( q ) 置( 。) x 2 ( q ) 署2 ( n ) 4 ) x x ( q ) 疋( 。) 对典型的语音信号来说,其能量主要集中在2 0 0 h z 8 0 0 h z 的范围内。因此在我 们的方法中我们只考虑在这一个频段幅度内大于某个给定门限值的离散频率分量q , 2 0 0 h zc q x :( ) 如( ) 戤呶,) 矗魄) 以也,) f 3 3 1 ) 其中,啦。c q :c t ,尹是选择的频率分量的总数。 我们选择q 。作为会聚频率点矗,所对应麦克风间隔为阵列的实际物理距离d 。 这样对于其它的频率分量,一2 , 3 ,p 都可以通过上面我们讨论的空间内插方法 会聚到会聚频率q 。上去,且对于频率分量略,其空间内插比为吨q ,。 实际上,我们可以看到,随着频率分量值越高,空间内插比为略啦,也越高, 可用的“虚麦克风”的个数也越多。为了利用空阅平滑技术,实际上我们通常将虚麦 克风分成若干子阵歹如每个子阵列的麦克风个数和实际阵列的麦克风数相等,子阵列 个数为畋q ,的整数部分。 当对所有的峨,ia l 2 ,p 的d f t 矢量f 墨( ) ,z :( ) ,x 。( 略) 7 进行空问重 采样后,我们可以得到一个新的d f t 矩阵: 孑- 瞄她。) 戤略) 署( ) 】 ( 3 3 2 ) 其中 x ( ) = 墨。( 略) 工2 l ( 略) j 0 ,( ) x 。,( q ) 墨。( ) x i ,( 啦) x 乞( ) : x 石( n o ) x 名( n o ) 臼3 3 ) q 是子阵列个数,窜墨 钱啦,】。x ( ) 的第,列是略频率分量在第,个子阵列 上的d f t 向量。 这样,由上式我们可以利用利用窄带m u s i c 算法来计算信号入射角0 了,其实现 框图如图( 3 - 4 ) 所示: 图( 3 - 4 ) 远场情况f 的语音定位算法框图 3 33 近场情况下的语音信号定位算法 一般来说,当说话者和阵列的距离,小于2 d 2 a 时,我们就应该按照近场情况来 处理。这里d = 懈一1 ) d 是阵列的孔径。a 是信号源的波长。f 如上面我们讨论的一 样,常用的定位算法都是针对远场情况,即接收到的语音信号可以近似的认为是平面 波的情况来设计的。而我们知道在近场条件下,这个近似是不正确的,它是一个球面 波。从时问延迟来看,t 不仅同疗有关,而且和说话者同参考麦克风之同举例,有关。 因此为了在近场条件下对语音信号进行定位,我们必须对现有的算法进行改进。下面 我们讨论一种基于“阵列内插”技术的定位算法: 我们知道在近场条件是rs2 d 2 2 。如果我们通过m 倍空问内插将麦克风的间距 从矗变化到d 毡,则近场条件变为,s 2 d 2 ( a 孵) 。当以增加时,近场条件不断减 小,这样前一节我们讨论的远场宽带定位算法就可以运用到各个子阵列上了。通过空 间内插,虚麦克风的数目增加到n x 。,或者。个麦克风数为的子阵列,如图( 3 - 5 ) 所示 1 _ 。+ 2 3 k j 羔、 r 一l 、,一 子阵列l子阵列2子阵列n s 图( 3 - 5 ) 近场情况下的子阵列 这样对于每一个子阵列,远场条件都近似成立,可以通过前一节讨论的定位算法 估计出相对于该子阵列的信号方位岳,j = 1 ,2 ,m 。从图中的几何关系我们可以得 到下式: 2 4 或者写成矩阵形式 t y 的最小平方解为 o d k | n ; l d k | n 。 心。一1 ) d k n ; x 1 :口( 3 3 5 1 l ,j 0 3 4 ) 阡晰_ s s , 一旦我们求出x 和y 我们就可以得到很容易的得到相对于参考麦克风的百和, 和 3 4 仿真和分析 占:眦t a n 三0 3 7 ) y i = , x 2 + y 2 3 4 1远场情况仿真 假设麦克风数目k = 5 ,相邻麦克风的间距为d = 0 1 m ,系统采样率为l = 1 6 k h z , 帧长度为n = 1 0 2 4 :假设连续语音信号o ) 出现在0 = 3 0 0 ,语f f - - 长度为2 秒,:方向 性干扰信号出现在6 0 。的方向,且s i r = 5 d b 我们对每个通道的一帧数据进行f f r 变换并进行归一化。设定的频率选择门限 分别为0 d b 和一1 5 d b 。 图( 3 - 6 ) ( 3 - 9 ) 分别给出了s n r = o d b ,1 5 d b 的结果。 ) ) 、, 他 乳 吾:呱 一 一 o 1 111 圈( 3 - 6 )遁蝻情况下定位皤第( $ n f = o i b 廿n s 叫d = 埘b - f i m ehs e c o n d s 目 t )远l 寿情况f 定位譬单( s n i 扫d d b e v - e s h o k lt 1 5 d b ) c暑e薯oo piolme霞-o口 远场瞄况下定位结果( s n r = i s d b t h m s h o l d ;叫8 ) 远新瞄况下定位结粜( s n r = 1 6 曲t h r e s h o l d = - 1 5 d b ) 由图( 36 ) ( 39 ) 可以看出,在高信噪比的情况下,频率选择门限设定为o d b 2 7 可以得到较满意的效果。而在低倍噪比、强混响或强方向性干扰的环境下,我们必须 将频率选择f 豫设定的很低,选择更多的频率段来参与计算,以便得到满意的方位结 果。 3 4 2 近场情况仿真 假设麦克风数目k - 5 ,相邻麦克风的间距为d = o 拥,系统采样率为正- 1 6 k h z , 帧长度为1 0 2 4 ;假设连续语音信号( r ) 出现在( r ,口) 一( o 3 m ,3 0 0 ) ,语音长度为2 秒,;方向性干扰信号出现在p ,0 ) 一( 1 ,l ,6 0 0 ) ,g s i r = 5 d b :。设频率选择门限1 啪 和内插系数5 。 图( 3 1 0 ) 和图( 3 1 1 ) 分别给出了鼢限一0 d b ,1 尉8 的结果。 捕 圈( 3 - 1 0 )螗蠕畸魂下定位咯罩 s 埘扫e ,t h 洲t d - - l l l d b ) 0 5 2 7 0 圈( 3 - 1 1 )近场。睛况下定位培第( s n r = 1 5 d 8 t h r s h k o l d = 1 f l d b ) 从图中可以看到在低s n r 的情况下,通过我们的方法都可以很好的确定说话者的 位置。 3 5 小结 在这章中我们重点讨论了基于子空问的目标定位算法。我们首先介绍了基于子 空间的定位算法的基本概念和窄带m u s i c 算法。针对语音信号的宽带特性,我们利用 “阵列会聚”技术对窄带m u s i c 算法进行了宽带改进,使其适应于语音信号的特点。 接着针对会议系统中可能出现说话者接近麦克风阵列的情况( 近场情况) ,我们又讨 论了通过空问重采样来解决近场情况的算法。最后通过仿真试验,我们证明了算法的 有效性。 需要注意的是上面我们用来进行仿真的语音信号都是连续的浯音信号,实际上我 们知道语音信号一般来说都是不连续的,即存在着无语音的部分。图( 3 - 1 2 ) 示出了 一段实际语音信号的定位结果。 由图我们看到,在无语音的部分,定位给出了错误的结果。 为了克服这个实际环境中的问题,个直观且合理的方法是在定位之前先对语音 信号进行语音有无判断( v a d ) ,然后再利用语音段的数据进 亍定位。因此在下面的一 章中,我们就来讨论如何进行有效的v a d 检测。 o e = 曙 o o 图( 3 1 2 ) 实际语音信号晦莲续 3 0 第四章语音检测方案 在上一章我们指出了语音检测算v a d ( v o i c ea c t i v i t yd e t e c t i o n ) 算法在语音 信号定位中的重要作用。实际它不仅是定位算法的基础,也是进行a g c 控制和自适应 语音增强的基础。 在本章中我们先简要讨论一下常用的语音检测算法,然后讨论一种新的基于几何 自适应能量门限的语音检测算法。接着在上面的基础上我们将重点研究一套针对典型 会议系统的语音联合检测方案。 4 1 常用的语音检测( v a d ) 算法 4 1 1基于短时能量门限的方法 这是一个提出很早的方法,它的基本原理是计算各帧的能量,然后和一个预设的 门限值进行比较。我们假定在有语音的情况下,该帧的能量和背景噪声的能量相比足 够大,因此有语音的部分可以被检测到。在利用这个方法时,预设的检测门限值可以 根据每一帧的数据进行调整。一般来说这个方法对于噪声是平稳和s n r 高的情况下 比较有效。在下面的一节中我们讨论如何利用修正幅度概率分布函数来进行有效的自 适应门限更新,以适应噪声为非平稳的情况。 4 1 2 基于过零率的方法 在这个方法中,首先计算出每一帧的过零率,然后和预设的门限值比较。利用这 个方法一般基于这样一个假设,即:噪声的过零率远远大于语音信号的过零率,这个 假设在高信噪比的情况下一般来说是正确的。但是在低信噪比的情况下,特别是在有 周期性噪声而语音又有高过零率时,该假设就不正确了,因此这个方法一般用于高信 噪比的情况下,而且通常是和基于短时能量门限的方法一起使用的。 4 1 3 基于基音周期检测的方法 从上面对基音周期的讨论中我们看到,可以通过基音周期是否存在来判断语音信 号是否存在。 基音周期估计的方法很多,如经典的基于求短时自相关函数的算法和基于线性预 测编码的算法等。 下面我仍来讨论影响对基音周期估计的几个因数: a ) 窗口的长度。一般认为窗长至少应大于两个基音周期,才可熊有较好 的结果,语音中最长基音周期值约为2 0 m s ( 相当于基音频率为5 0 h z ) ,因而 在估计基音周期时应选得大于4 0 m s 为宜。而且通常都采用方窗 b ) 第二方面与声道特性得影响有关,有时声道得共振峰特性会对基音 周期的估计造成影响。为了克服这个困难,最简单的方法是用一个带宽为 6 0 9 0 0 h z 的带通滤波器对语音信号进行滤波,并利用滤波后的信号来进行 蒸音估计。之所以将此滤波器的高壤截频矗置为9 0 0 h z 是因为既可以去处大 部分共振蜂的影响,又可以当基音频率为最高4 5 0 h z 时仍能保留其一二次谐 波。另一种更有效的方法是让语音信号通过一个线性预测( l p c ) 逆滤波器, 并通过求其残差信号的自相关函数来估计基音周期。 4 2 新的几何自适应能量门限法妇a e t ) 在经典的基于能量门限方法中,门限值是通过无声信号帧来进行更新的。当本底 噪声是非平稳的时候,特别是在信号帧大多数为语音信号和噪声级变化很大的时候, 算法通常不能很好设定门限值。而本文讨论的基于几何自适应能量门限的法可以在不 需要无声信号帧舶情况下,利用信号的幅度概率分布自适应的设定检测门限,因此它 可以更精确的设定检测门限值。下面我们就来讨论这种方法。 首先我们来看信号的幅度概率分布( a p d ) 。 为了简洁起见,我们假设信号可以写成下面的形式: s ( f ) 一c ( t ) + n ( f ) ( 4 1 ) 其中,c o ) 和”o ) 分别为纯语音和噪声。 s ( r ) 的幅度概率分布函数( a p d ) f a s ) 可写成 f d s ) = f _ o l ( o d 宇一f ( 芋) d 亭 ( 4 2 ) 其中l ( s 1 为幅度概率密度函数。 记s ( f ) 在观测时间窗互s f s 正上的离散采样信号为s ( k ) ,k = 0 ,1 ,n ,n 取足 够大。 s ) = s ( 互+ k a t )( 4 3 ) r :掣 ( 4 4 ) n 。 在这里采样频率不一定要满足n y q u i s t 准则。则s ) 的幅度概率密度函数a p d 可表示为 e 咖) 。善正( f ) ( 4 - 5 ) 其中f o ) 表示s ) 落在范围l 缸s i s ( h ) l c ( 1 + 1 ) a s 内的采样点个数除以采样点数 。 当f 一0 ,a s 一0 ,c 咖) 和正( f ) 分别收敛于f a s ) 和l ( s ) 。如果信号和噪声的幅 度概率密度函数只( s ) 和j f :| 0 ) 不同,则只( m ) 和只( m ) 也应该不同。对于一个被污染 的信号,信号和噪声会占据a p d 不同的区域。 下面我们再介绍修正幅度概率分布函数。在我们的应用中,我们定义修正幅度概 率分布( m a p d ) r ) 。这可以通过分别设定x 轴和y 轴为y = k n 和x = s o r t ( s ( k ) ) 来得到,其中s o r t ( s ( k ) 1 按升序排列。图( 4 1 ) 中的窄带信号被一个高斯噪声信号污 染,其不同信噪比条件m a p d 图如图( 4 2 ) 所示,从图中可以看出,r ) 等价于 f a n ) ,而且在数值精度上更准确( 和f a t ) 更相似) ,也即要达到同样的估计精度, 需要的采样点会少些。因此,在我们下面的讨论中采用r 咖) 代替只沏) 。 3 3 图( 4 - i ) 典型窄带周期信号 圈( 4 _ 2 ) 修正幅度概率分布( m a p d ) ( 信号为囤( 4 - 2 ) 所示窄带信号,干扰喙声码离新喙声且( 0 ) s 加、。= 9 国, ( + ) s n r 丑。- - s d b ,伍) 踟k 。= 4 船,o s n k 。= - 2 d b ) 通过几何技术来计算噪声缀 由图( 4 2 ) 可以很明显的看出s ( k ) 和n ( 七) 的采样点是部分分离的,零均值的高 斯噪声采样点n ) 更靠近零点,而纯语音的采样点c 俅) 值是更多分布在远离零点的更 大的值。我们实际上可以将m a p d 的拐点的x 轴对应值近似作为噪声检测门限。 一种几何技术可以用来有效的确定m a p d 图上的拐点位置,图( 4 3 ) 中的q 点 可以由分别通过a a 点和口一b 的直线的相交点来确定。这样由左
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论