(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf_第1页
(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf_第2页
(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf_第3页
(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf_第4页
(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(信号与信息处理专业论文)基于变速率编码的语音激活检测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 变速率语音编码一直是数字语音信号处理的重要领域之一,目前在许多通 信标准中都引入了变速率语音编码技术。在确保编码质量的前提下,变速率语 音编码技术充分利用了会话语音中出现的停顿和静默间隔( 非语音段) ,对语音 段和非语音段用不同的比特率进行编码,从而达到降低编码比特率的效果。在 存储方面,变速率语音编码通过降低比特率从而降低系统对存储设备容量的要 求;在传输方面,降低比特率可以带来更低的传输带宽、功率和信道间相互干 扰,并且可以降低便携设备的功率损耗。 语音激活检测( v o i c ea c t i v i t yd e t e c t i o n ,v a d ) 作为决定变速率语音编码效 果的关键技术,在变速率语音编码系统中用于判断语音段与非语音段。传统的 语音激活检测方法通常基于基本的语音参数利用一定的判决准则进行判断,然 而这样的算法不具有普适性,对噪声环境较为敏感。 本文以变速率语音编码背景下的v a d 算法为研究对象,针对上述传统语 音激活检测技术存在的诸多问题,做了如下的工作: 1 ) 详细分析讨论了语音及背景噪声的特性。 v a d 的e i 的是检测出加噪语音的语音段和非语音段,这就要求深入研究理 解语音信号和各种噪声信号的各种特性。寻找本质上更能区分语音与背景噪 声的特性,这对噪声背景下的各种语音信号处理算法都具有极其重要的意 义。 2 ) 分类介绍了国内外各种主流的v a d 算法进行,对其中重要算法进行仿真与 性能分析。 本文通过对主流重要v a d 算法仿真性能分析,发现基于谱熵v a d 算法在高 斯白噪声背景下性能更为出色,而经过优化的基于高阶统计量( h i g h e r - o r d e r s t a t i s t i c s ,h o s ) v a d 算法能够适应多种噪声环境,更具普适性。 3 ) 提出一种改进的基于子带谱熵的v a d 算法。 改进的子带谱熵v a d 算法利用语音子带谱熵与噪声子带谱熵在统计特性上 存在的差异,将度量信号统计特征的方差、均值与传统子带谱熵相结合。计 算机仿真结果显示,在一定信噪比下,改进谱熵v a d 算法很好地改善了传 统谱熵v a d 存在的缺陷( 语音剪断) ,较准确地将语音片与非语音片区分开; 与传统v a d 算法相比,该算法在低信噪比下能够更好地区分出说话人的语 音段。 4 ) 提出基于t e a g e r 能量域的高阶统计量算法。 重庆邮电大学硕士论文 将t e a g e r f 皂量算子和高阶统计量结合起来用于区分有色噪声背景下的语音 段与非语音段。加噪语音通过t e a g e r f l 皂量算子,可以在白化抑制非高斯噪声 的同时能较清晰地跟踪语音能量轨迹,语音的高阶统计量参数可以将语音段 与高斯白噪声段或类高斯白噪声分开。该算法在某种程度上克服了基于线性 预测残差域的高阶统计量语音激活检测算法在色噪声环境下性能较差的弱 点。仿真结果显示该算法检测准确性和鲁棒性综合性能都优于i t u t 的 g 7 2 9 b 中的v a d 算法,以及基于线性预测残差域的高阶统计量语音激活检测 算法。 关键词:变速率语音编码;语音激活检测;谱熵;t e a g e r 能量:高阶统计量 a b s t r a c t n o w a d a y s ,v a r i a b l e b i tr a t e s p e e c hc o d i n g i s w i d c t yu s e d i n m a n y c o m m u n i c a t i o ns t a n d a r d s u n d e rt h ep r e m i s eo fe n s u r i n gt h eq u a l i t yo fc o d i n g ,t h e s i l e n ti n t e r v a l s ( n o n s p e e c h ) i nt h ec o n v e r s a t i o n sa r ef u l l yu s e di nt h ev a r i a b l eb i t r a t es p e e c hc o d i n gt e c h n o l o g yt oe n c o d et h es p e e c ha n dn o n - s p e e c hf r a m ew i t h d i f f e r e n tb i tr a t e i ns t o r a g e ,v a r i a b l e - r a t es p e e c hc o d i n gc a nr e d u c et h es y s t e m s t o r a g ec a p a c i t yr e q u i r e m e n t sb yl o w e r i n gb i tr a t e i nt h et r a n s m i s s i o n ,l o w e rb i t r a t ec a n1 c a dt ol o w e rt r a n s m i s s i o nb a n d w i d t h ,p o w e r , a n dc h a n n e li n t e r f e r e n c ea n d c a nr e d u c et h ep o w e rl o s so f p o r t a b l ed e v i c e s a so n eo fk e yt e c h n i q u e so fv a r i a b l e - r a t es p e e c hc o d i n g ,v o i c ea c t i v i t y d e t e c t i o n ( v a t ) ) i su s e dt oj u d g es p e e c hs e g m e n t sa n dn o n - s p e e c hs e g m e n ti nt h e s p e e c hc o d i n gs y s t e m t r a d i t i o n a lv a da l g o r i t h m sa r en o r m a l l yb a s e do nb a s i c s p e e c hp a r a m e t e r sa n dc e r t a i nd e c i s i o nc r i t e r i o n sa l eu s e dt oj u d g e h o w e v e r ,t h i s k i n do fa l g o r i t h m sd o e sn o th a v eu n i v e r s a l i t yb u ti sm o r es e n s i t i v et on o i s e e n v i r o n m e n t c o n s i d e r i n gt h el i m i t a t i o n so ft r a d i t i o n a lv a da l g o r i t h m sm e n t i o n e da b o v e , t h i sd i s s e r t a t i o ni sf o c u s e do ni m p r o v i n gp e r f o r m a n c e so fv a da l g o r i t h m s t h e m a i nw o r ki sl i s t e da sf o l l o w s ; 1 ) t h ec h a r a c t e r i s t i c so fv o i c ea n db a c k g r o u n dn o i s eh a v eb e e na n a l y z e di n d e t a i l t h ep u r p o s eo fv a di st od e t e c tt h es p e e c hs e g m e n ta n dn o n - s p e e c hs e g m e n t u n d e rt h en o i s ee n v i r o n m e n t ,w h i c hr e q u i r e sa l li n - d e p t hs t u d yt ou n d e r s t a n dt h e v a r i o u sc h a r a c t e r i s t i e so ft h ev o i c es i g n a l sa n dt h en o i s es i g n a l s s e e k i n g c h a r a c t e r i s t i c st h a tc a nm o r ei n t r i n s i c a l l yd i s t i n g u i s hb e t w e e nv o i c ea n di t s b a c k g r o u n dn o i s e i so fg r e a ti m p o r t a n c et oa uo fs p e e c hs i g n a lp r o c e s s i n g a l g o r i t h m su n d e rt h en o i s ec o n d i t i o n 2 ) t h ep o p u l a rv a da l g o r i t h m sb o t hd o m e s t i ca n di n t e r n a t i o n a lh a v eb e e n i n t r o d u c e di nc a t e g o r y a l s o ,t h i st h e s i sh a sc a r r i e do u ts i m u l a t i o ne x p e r i m e n t so f s e v e r a lc l a s s i c a lv a da l g o r i t h m sa n dp e r f o r m a n c eo ft h e s ec l a s s i c a la l g o r i t h m sh a s b e e na n a l y z e d t h r o u g ht h ea n a l y s i so fs i m u l a t i o nr e s u l t so ft h ep o p u l a ra n di m p o r t a n t a l g o r i t h m s ,i ti sf o u n dt h a tt h ee n t r o p yv a da l g o r i t h mh a sar e l a t i v e l yb e t t e r l 重庆邮电大学硕士论文 p e r f o r m a n c eu n d e rt h eg a u s s i a nw h i t en o i s ee n v i r o n m e n tw h i l et h ei m p r o v e dv a d a l g o r i t h mb a s e d0 1 1h o s ( h i g h e r - o r d e rs t a t i s t i c s ) c a l la d a p tt oav a r i e t yo fn o i s y e n v i r o n m e n t s 3 ) a ni m p r o v e d 心a l g o r i t h mb a s e do nt h eb a n d - p a r t i t i o n i n gs p e c t r a l e n t r o p yh a sb e e np r o p o s e d t h ep r o p o s e di m p r o v e dv a da l g o r i t h mb a s e do nt h eb a n d - p a r t i t i o n i n g s p e c t r a le n t r o p yu t i l i z e st h ed i f f e r e n c eo fs t a t i s t i c a lf e a t u r eb e t w e e nt h es p e e c h e n t r o p ya n dn o n - s p e e c h e se n t r o p yt od i s t i n g u i s ht h es p e e c hs e n t e n c e sf r o m n o n s p e e c h e s t h es i m u l a t i o nr e s u l t sr e v e a lt h a tt h ei m p r o v e dv a da l g o r i t h mc a n o v e r c o m e st h es h o r t c o m i n g s ( w o r dc u t ) o ft r a d i t i o n a lv a da l g o r i t h m sb a s e do n e n t r o p yt oac e r t a i ne x t e n t i th a sam u c hb e t t e rp e r f o r m a n c ei nt h el o ws n rr e g i m e c o m p a r e d w i t ht h et r a d i t i o n a lv a d a l g o r i t h m s 4 ) t h ev a da l g o r i t h mu s i n gh i g h e r - o r d e rs t a t i s t i c s ( h o s ) i nt h et e a g e re n e r g y d o m a i ni sp r o v i d e d t l l i sa l g o r i t h mc o m b i n e st h et e a g e r e n e r g yo p e r a t o rw i t ht h eh o st o d i s t i n g u i s ht h es p e e c ha n dn o n s p e e c hs e g m e n t su n d e rc o l o r e dn o i s e t e a g e re n e r g y o p e r a t o ru s e di nt h ea l g o r i t h mh a sas i g n i f i c a n ta b i l i t yo fs u p p r e s s i n gt h ec o l o r e d n o i s ew h i l es t i l lt r a c k i n gt h ee n e r g yo ft h es p e e c hs i g n a l a n dt h eh o s p a r a m e t e ro f t h es p e e c hi su t i l i z e d t od i s t i n g u i s ht h e s p e e c hs e g m e n t f r o mg a u s s i a no r g a u s s i a n - l i k en o i s e t os o m ee x t e n t ,t h ep r o p o s e da l g o r i t h mo v e r c o m e st h e i n a b i l i t yo ft h eh o si nd e t e c t i n gs p e e c hf r o mc o l o rn o i s e t h es i m u l a t i o nr e s u l t s s h o wt h a tt h ep r o p o s e da p p r o a c hh a sb e t t e rp e r f o r m a n c ei nb o t hr o b u s t n e s sa n d a c c u r a c yt h a nt h es t a n d a r dn u - tg 7 2 9 bv a da n dt h ev a da l g o r i t h r nu s i n g h i g h e r - o r d e rs t a t i s t i c si nt h el p cr e s i d u a ld o m a i n k e yw o r d s :v a r i a b l er a t es p e e c hc o d i n g ;v o i c ea c t i v i t yd e t e c t i o n ;s p e c t r a le n t r o p y ; t e a g e re n e r g y ;h i g h e r - o r d e rs t a t i s t i c s ; i v 第一章绪论 1 1 研究背景 第一章绪论 通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的 形式。语言为人类特有的交流功能,声音是人类常用的工具,是相互传递信息 的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要途 径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密 相连,所以它具有最大的信息容量和最高的智能水平。现在人类已开始进入了 信息化时代,用现代手段研究语音处理技术,使人们能更加有效地生产、传输、 存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 语音信号处理这门学科之所以能够那样长期地、深深地吸引广大科学工作 者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是, 它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展 【1 1 。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面 很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式 识别和人工智能等诸多学科都有着密切的关系。对语音信号处理的研究一直是 数字信号处理技术发展的重要推动力量。许多信息处理的新方法均是在语音信 号处理中提出并得到成功,然后再推广到其他领域的。例如在语音信号处理的 研究发展驱动下,许多高速信号处理器随之诞生和发展,语音信号处理算法的 复杂性和实时处理的要求,促使人们去设计这样许多先进的高速信号处理器。 这类产品问世之后又首先在语音信号处理应用中得到最有效的推广。 语音信号处理作为一个重要的研究领域,已经有很长的研究历史。但是它 的快速发展可以说是从1 9 4 0 年前后d u d l e y 的声码器( v o c o d e r ) 和p o t t e r 等人的 可见语音( v i s i b l es p e e c h ) 研究开始的。2 0 世纪6 0 年代初由于f a u t 和s t e v e n s 的努力,奠定了语音生成的理论基础,在此基础上,语音合成的研究得到了扎 实的进展。2 0 世纪6 0 年代中期形成的一系列数字信号处理方法和技术,如数 字滤波器、快速傅里叶变换( f f t ) 等成为语音信号数字处理的理论和技术基础; 在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以 软件为主的处理研究【l j 。 语音通信在现代通信中占有非常重要的位置。随着数字技术的出现,语音 的数字化传输和存储,在可靠性、抗干扰能力、快速交换等方面远胜于模拟化, 且灵活方便易于保密,价格低廉,数字语音通信成为目前电信网络中最主要和 重庆邮电大学硕士论文 最重要的技术之一。语音编码作为数字语音通信系统中的重要组成部分,在过 去5 0 多年的时间里,得到了飞速发展。最早的标准化语音编码系统是速率为 6 4 k b p s 的p c m 波形编码器;到2 0 世纪9 0 年代,速率为& - , s k b p s 的波形与参 数混合编码器,在语音质量上已经接近前者水平,且达到实用化阶段。目前语 音编码总体上有3 个大的可能发展方向:低速率语音编码、变速率语音编码和 固定速率编码。 低速率语音编码和变速率编码是未来语音编码的主要发展方向,这两者之 间既存在共同之处,又存在差别。低速率语音编码目的在于寻找参数量化技术、 非线性预测技术、多分辨时频分析技术等更能反映语音本质特征的技术,来达 到降低编码速率的效果,即由最初的波形编码 脉冲编码调f 1 i j ( p c m ) 、自适应增 量调铝t j ( a d m ) 发展到参数编码( 通道声码器、共振峰声码器、线性预测声码器) 再到混合编码技术 多脉冲激励线性预测编码( m p l p c ) 、规则脉冲激励线性预 测编码( p r e l p c ) 。而变速率编码则是通过对语音段与非语音段分别编码,重 点在于如何区分语音段与非语音段从而达到降低编码速率的目的。 通信系统总是围绕着信息传递的数量与质量两个类型的三种指标( 有效 性、可靠性和安全性) 进行不断的优化。降低语音编码速率对通信系统的发展 有着重大的意义,就存储方面来讲,降低比特率可以降低系统的存储设备容量 要求;在传输方面,降低比特率可以带来更低的传输带宽、功率和信道间相互 干扰并且可以降低便携设备的功率损耗。目前在许多通信标准中都引入了变速 率语音编码技术,根据通信信道的质量来控制信息速率。变速率编码中语音激 活检测技术充分利用会话语音中出现的停顿和静默间隔将语音段与非语音段 区分开,在确保质量的前提下,对语音段与非语音段采用不同的速率编码。双 工移动通信系统中,大约只有3 5 的时间处于激活状态。在变速率语音编码中, 语音激活检测用来检测语音通信时是否有话音存在,是速率选择的关键依据, 判断的正确与否直接影响到语音质量和编码效率。 本课题就是针对变速率编码的语音激活检测技术所提出的。力图在深入研 究语音信号特性的基础上,对更能反映语音本质且鲁棒性好的语音激活检测算 法进行改进,使之更适合实时变速率语音编码的要求。本文研究检测对象是带 宽为3 0 0 3 4 0 0 h z 的话音信号,信号以8 k h z 采样。 1 2 语音及背景噪声的特性 语音激活检测的目的是:准确地区分出语音和非语音段( 又称为纯背景噪 第一章绪论 声段或静默段) ,以便对语音与非语音段采用不同的速率编码。因为语音激活 检测需要在带噪语音中提取出语音信号,所以它不仅仅涉及信号检测、波形估 计等传统的信号处理理论,而且与语音的特征、噪声的特征以及入耳的感知特 性密切相关;再则实际应用中噪声的来源及种类各不相同,从而造成处理方法 的多样性。因此要结合语音的特征、人耳感知的特征及噪声特征,根据实际情 况选用合适的语音激活检测方法。 1 2 1 语音的特征 语音信号的特性主要是指它的声学特性、时域波形特性和频谱特性以及统 计特性,这里主要讨论语音信号的声学特性、时域波形特性和频谱特性。 声学特性 发声过程途径三部分:肺、喉和声道。在发声机制中肺的作用相当于一个 动力源,将气流输送至喉部。喉将来自肺部的气流调制为周期脉冲或类似随机 噪声的激励声源,并送入声道。声源经过声道频谱润色后,在嘴唇处的气压变 化就形成了可传播的语音。产生语音的声源主要分为三种:周期性、噪声和冲 击性声源。这里我们对声源分类做了理想化的处理,事实上从语音产生机理的 解剖学和生理学意义上来说,不可能产生具有完美的周期性、冲击性或噪声特 性的声源,并且这三种声源通常是混合出现的p j 。 在专门研究声音变化的语音学中,音素是构成语言的基本单位。某个特定 的音素在词中会表示某个特点的意思,而且同一类的音素可以存在多种声音变 体中且含义不变。有很多种语音分类方式,由于冲击性声源产生的爆破音含高 频成分较多,在频率上类似噪声声源产生的语音,这里我们根据研究需要从声 源角度可以将语音分为两大类,由周期性声源波激励产生的语音称为浊音 ( v o i c e d ) ,由其他形式声源产生的语音称为清音( u n v o i c e d ) 如图1 1 ( a ) 所示。 在平时呼吸时,位于喉部的声带的肌肉放松,保持着较宽的声门,来自肺 部的空气可以畅通无阻地通过声门。而在发音时,声带就会阻碍气流。当发浊 音时,声带紧绷并且相互靠拢,此时狭窄的声门和紧绷的声带会引起声带的自 激振动,声带开始是松弛张开状态,肺收缩气流通过声门。依据流体动力学的 伯努利原理,随着气流速度增大,声门处的局部气压会降低,同时,声带越来 越紧张,最终导致声门骤然闭合。此时肺部还在不断地输送气流,被声带阻挡 的气流就会在声带下方积聚气压,迫使声带被冲开。这个过程不断重复就形成 了周期性的喷射气流进入声道。 重庆邮电大学硕士论文 发清音时的喉部状态与呼吸状态类似,声带不产生振动,但是,在发清音 的状态,声带比在呼吸状态下更加紧绷,这样会在声带处产生湍流,这种发音 有时也被称为“耳语音 ,因为我们在耳语时,声带处也会产生这样的湍流。 时域波形特性 在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间 波形可以看出语音信号的一些重要特性。语音信号属于短时平稳信号,一般认 为在一帧内( 1 0 3 0 ) m s 内语音信号特征基本是不变的,或者是变化缓慢的。 a 浊音 浊音的时域波形振幅相对清音较大,且具有明显的周期性是由声带振动引 起的。这种发浊音时声带振动所引起的周期性有称为基音。基音周期即声带振 动频率的倒数。基音周期是语音的最重要参数之一,它描述了语音激励源的一 个重要特征。在多个领域有着广泛的应用,如语音识别、说话人识别、语音分 析和综合以及变速率语音编码等【。 由于人的声道的易变及其声道特征的因人而异,而基音周期的范围有很 宽,且同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单 词发音音调的影响,因而基音的精确检测实际上是一件比较困难的事情。基音 提取的困难反映在【1 】: 1 ) 声门激励信号并不是一个完全的周期序列,在语音的头部、尾部并不具 有声带振动那样的周期性,有些清音到浊音的过渡帧很难准确地判断是周期性 还是非周期性的。 2 ) 声道共振峰有时会严重影响激励信号的谐波结构,所以从语音信号中直 接提取仅与声带振动有关的激励信号的信息并不容易。 3 ) 语音信号本身是准周期性( 即音调变化就是基音周期的变化) ,而且其波 形的峰值点或过零点受共振峰的结构、噪声等的影响。 4 ) 基音的变化范围很大,从老年人的5 0 h zn ) h 童和妇女的4 5 0 h z ,接近 三个倍频程。 b 清音 与浊音不同清音的波形类似白噪声,振幅很小,且没有明显的周期性。 语谱图特性 语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音是短 时平稳的,因而在一段时间内( 如1 0 3 0 m s 之间,一帧内) 可以认为其频谱是固 4 第一章绪论 定不变的,这种频谱又称为短时谱。为了反映语音信号的动态频率特性。因此 人们致力于研究语音的时频特性,将与时序相关的傅里叶分析的显示图形称为 语谱图( s p e c t r u m ) 。它可以明显地显示出语音频谱随时间的变化情况,或者说 是一种动态频谱【l 】。 图1 1 ( a ) ( b ) 分别是女声标准普通话单词“4 的时域图和语谱图。从这里 我们可清晰观察到单词中浊音和清音的特点 ( a ) 单词“4 ”的时域图( b ) 单词“4 ”的语谱图 图1 1 单词“4 ”的时域图和语谱图 对于浊音来说,声道就像一个谐振腔。输入周期性声源信号,通过谐振腔, 使得浊音的谱出现很多峰值。这些峰值就被称为共振峰,大多数人的共振峰都 集中在5 0 0 h z 和它的奇数倍谐波上,反映在语谱图上就是图中出现的横杠,横 杠是与时间轴平行的几条深黑色的带纹对应着频率和宽度可以确定共振峰的 频率和带宽。在一个语音段的语谱图中,有无横杠的出现是判断它是否是浊音 的重要标志【lj 。 发清音时,无论是发阻塞音或是摩擦音,声道都被阻碍形成湍流。所以, 可以把清音激励模拟成随机白噪声。清音从语谱图上看,表现为乱纹。 1 2 2 噪声的特征 从广义上说,噪声是指系统传输的、信号以外的有害干扰杂音。习惯上, 常把周期的、有规律的有害信号叫做干扰,而把其它有害的随机干扰叫做噪声。 不同噪声具有不同的随机特性,这就需要人们寻找对多种噪声具有相对比较好 的鲁棒性算、法【。 噪声可以是加性的,也可以是非加性的( 非加性噪声往往可以通过某种变 换,如同态滤波,转为加性噪声) 。加性噪声通常分为冲击噪声、周期噪声、 宽带噪声、语音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等 【l 】 o ( 1 ) 冲击噪声:例如放电、打火、爆炸都会引起冲击噪声,它的时域波形类 似于冲激函数的窄脉冲。消除冲击噪声影响方法:对带噪语音信号的幅度求均 重庆邮电大学硕士论文 值,将该均值作为判断阈值,凡是超过阈值的判断为冲击噪声,在时域中将其 滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方式避开或者平滑掉 冲击点,从而能在重建语音信号中去掉冲激噪声。 ( 2 ) 周期噪声:最常见的有电动机、风扇之类周期运转的机械所发出的周期 噪声,5 0 h z 交流电源哼哼声也是周期噪声。在频谱图上它们表现为离散的窄 频j 通常可以采用陷波器的方法予以滤除。 ( 3 ) 宽带噪声:常见说话时同时伴随着呼吸引起的噪声,随机噪声源产生的 噪声,以及量化噪声等都可以视为宽带噪声,应用中常近似为g a u s s 噪声或白 噪声。其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困 难。 “) 语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成 干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差 别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳妆 滤波器提取基音和各次谐波在恢复出有用的语音信号。 ( 5 ) 传输噪声g 这是传输系统的电路噪声。与背景噪声不同,它在时间域里 是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声 变换为加性噪声来处理。 本文研究的重点是在理论和实用上具有重要意义的高斯白噪声以及窄带 有色噪声。理想白噪声是指它的功率谱在全频域内是常数,即 & ( 缈) = n 0 2 ( 1 1 ) 这种噪声有类似于白光的频谱特性,所以将之定义为白噪声如图1 2 ( a ) ( b ) 所示白噪声在整个语谱图中能量均匀分布。其中概率密度分布呈正态分布的称 为高斯白噪声。高斯白噪声是宇宙中最普遍存在的噪声,例如热噪声和散粒噪 声。理想的高斯白噪声带宽是无限宽的,在工程中只要噪声的频谱比所研究的 通信系统带宽宽的多,并且它的功率在该通信系统所占带宽内接近平坦,就可 以把它视为白噪声。除白噪声之外的噪声称为有色噪声如图1 2 ( c ) ( d ) 所示来自 于n o i s e 9 2 噪声库的坦克( t a n k ) 色噪声,其特点是能量分布在少数频带,因此 相对于白噪声有色噪声在频率分布上与语音的区别较小,在实际处理中对于某 些有色噪声可以进行白化,转化为白噪声在做进一步处理。 6 第一章绪论 一 255】c m d 8 ba ”p 。, j o ( a ) 8 噪声的时域图 ?0552, t f ( b ) 白噪声的语谱图 。1 7:0c022 j5 1 日,f r 自- h ,j r er ;, ( c ) 色噪声t a n k 的时域图( d ) 色噪声t a n k 的语谱图 图1 2 白噪声和色噪声( 坦克噪声t a n k ) 时域及语谱图 1 2 3 人耳的感知特征 人耳对于声波频率高低的感觉与实际频率的高低不呈线形关系,而近似为 对数关系;人耳对声强的感觉很灵敏且有很大动态范围,人耳对于频率的分辨 能力受声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低;人耳 对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复很有 帮助。共振峰对语音感知很重要,特别是前三个共振峰更为重要。 人耳具有掩蔽效应,即会产生一个声音由于另外一个声音的出现而导致该 声音能被感知的阈值提高的现象。 人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两个 人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解 机制具有的一种感知能力。人类的这种分离语音的能力与人的双耳输入效应有 关,称为“鸡尾酒会效应”【lj 。 1 3 语音激活检测技术的研究现状 上世纪3 0 年代,贝尔实验室在一根专用电话线上首次观察并记录了电话 语音中存在的语音突发和停顿现象。通过计算发现通信中大约只有4 7 的时间 重庆邮电大学硕士论文 在传输话音,而其余传输都是静默或背景噪声,这次实验记录成功地说明了语 音通信中静默间隔的特点【4 】。但此后的2 0 多年中,静默压缩技术尤其是语音 激活检测技术并没有得到太大的发展,这主要是因为在当时这种技术还不是人 们在通信领域中所面临的主要问题。一直到2 0 世纪6 0 年代初语音激活检测技 术才开始应用在通信系统设计中。 1 9 6 2 年,贝尔实验室设计了应用于大西洋海底电缆通信的时分语音内插 系统t a s i t 5 1 。1 9 6 3 年,贝尔实验室b r a n d y 首次提出了语音通断统计模型f 6 1 , 从而奠定了静默压缩语音激活检测理论的基础。1 9 8 6 年,韩国的h h l e e 根 据b r a n d y 的研究结论,进行了重新的测量并拟合了会话语音的通断统计特性 【7 】 o 随着数字移动通信技术的发展,静默压缩算法,特别是语音激活检测技术 的研究和应用也掀起了一股热潮。第一个具有代表性的数字静默压缩研究成果 是1 9 8 0 年的日本y a s u z u k a 给出的d s i a d p c m 系统【8 】。该系统由一种高灵 敏度的语音检测器和高速语音宽带数据分类器组成。语音激活检测器基于输入 信号的一系列参数来进行决策,这也是语音激活检测器首次应用于无线通信领 域的变速率语音编码。 9 0 年代以来,几乎所有的第二代数字移动通信系统都采用了不同语音激 活检测技术。将语音激活检测技术应用于变速率编码,应用于间断传输系统以 及各种多址方式,在改善信道容量,降低系统断线概率方面同样有着明显的效 果。因而激活检测技术不仅在g s m 、c t 2 、d e c t 、i s 9 5 、p c s 系统中得到了 应用,且涵盖了目前正在使用和正在研究的各种空中接口协议。除此之外,随 着互联网的进一步发展,在数据网上传输语音的p 电话业务采用语音激活检 测技术来消除静默和背景噪声,在确保传输质量的同时提高了数据网的传输效 率【硎。 贝尔实验室的b r a n d 3 6 】曾指出,“语音激活检测原理简单,但实际上要做 到复杂背景噪声或低信噪比条件下对噪声中的话音的可靠检测很难。”事实正 是如此,在实际通话环境中,根据通话者所处的环境不同,背景噪声是截然不 同的,例如办公室的环境、室外、工厂、特殊场所等等。语音激活检测中,试 图遍历各种环境是非常困难的。目前,在理想平稳背景噪声环境下的语音激活 检测算法已经取得了很好的效果,但在复杂背景环境中或信噪比非常小的环境 下,v a d 检测的效果就不理想。研究以变速率编码为背景的语音激活检测, 面对着算法结构复杂、参数难调、易受噪声影响等诸多很具挑战性的问题。为 此研究人员作出大量的工作,近几年s h e n 等人提出了基于谱熵的激活检测算 法【9 】【1 0 1 【l l 】【12 1 ,n e m e r 等人提出了基于高阶统计量的语音激活检测算法 1 3 1 1 1 4 1 1 1 5 】, 第一章绪论 对语音激活检测算法的研究给出了新的思路。 1 4 本文研究工作 本文以变速率语音为背景,语音激活检测技术为主要研究内容,结合国内 外研究成果,针对上述语音激活检测中存在的困难,提出了基于谱熵激活检测 的改进算法和基于t e a g e r 能量域高阶统计量算法,并对算法做了深入分析及 性能仿真。 本文主要完成工作如下: 1 ) 结合国内外研究成果对目前常用的语音激活检测算法进行归类和分析; 2 ) 对更能反映语音本质且鲁棒性好的语音激活检测算法进行改进使之更 适合实时变速率语音编码; 3 ) 将信号的数字特征与传统谱熵算法相结合,提出基于传统谱熵算法在的 改进算法,并进行分析和性能仿真; 4 ) 将t e a g e r 能量算子算法与高阶统计量算法结合起来,提出基于t e a g e r 能量域的高阶统计量算法,并进行分析和性能仿真。 1 5 本文内容安排 本文共包含四章 第一章介绍研究背景。 第二章分类介绍了国内外主流的v a d 算法,并对其中比较重要算法进行 了仿真与性能分析。 第三章提出基于传统谱熵算法在的改进算法,给出算法详细描述以及仿真 结果。 第四章提出基于t e a g e r 能量域的高阶统计量算法,给出算法详细描述及 仿真结果。 第五章对本文工作进行详细的总结和展望。 9 第二章语音激活检测技术 第二章语音激活检测技术 2 1 语音激活检测算法现状与分类 现行的语音激活检测算法主要应用在两个方面,这两个应用方向都要求寻 找更能反映语音本质特征的算法,但因为应用环境的不同又略有区别。 一方面是应用在变速率语音编码通信系统中将有声片段和无声片段区分 开,有效减少编码平均比特率从而达到降低信道间相互干扰以及便携式设备的 功率损耗,对激活检测算法鲁棒性实时性要求比较高。 另一方面应用在语音识别中,通常先根据一定的激活检测算法对将每个字 发音的起点和终点区分开,对激活检测算法性能要求主要侧重于准确性。 根据激活检测算法处理方式的不同可分为三类如图2 1 所示;基于时域波 形特性的语音激活检测算法包括短时能量、短时过零率、短时自相关;基于变 换域分析的激活检测算法包括基于l p c 线性预测、倒谱及m e l 倒谱、t e a g e r 能量算子、功率谱熵;基于模式识别的算法包括高阶统计量( h o s ) 、隐马尔科 夫模型( h m m ) 。三类算法各自的特点以及应用范围下文中将逐一讨论。 语音激活检测算法 l 基于时域特征参数激活检 基于变换域特征参数激活 基于模式识别的语音激 测算法检测算法 活检测算法 1r1r1r 基于l p c 欧氏距离测度的 基于短时能量的语音激活 语音激活检测算法 基于高阶统计量的语音 检测算法 基于倒谱、m e l 倒谱的语 激活检测算法 基于短时过零率语音激活音激活检测算法 基于隐马尔科夫模型 检测算法基于t e a g e r 能量操作的语 ( h 删) 的语音激活检测 基于短时相关分析语音激音激活检测算法 活检测算法 基于谱熵的语音激活检测 算法 算法 图2 1 语音激活检测算法分类 重庆邮电大学硕士论文 2 2 基于时域波形特征的语音激活检测算法 2 2 1 短时能量 在信噪比较高( 即背景噪声相对低) 的情况下,语音段和非语音段的区别 可以体现在它们的能量上,语音段能量是该段纯净语音叠加背景噪声能量之 和。能量作为检测参数的算法操作如下: 假设有效语音信号的能量大于背景噪声能量( 该假设在通常情况下是成立 的) ,如果第n 个片断的短时信号能量e x ) 大于设定的阈值,就判断为有效语 音,即: 乓( 以) 仇( 2 1 ) 其中 r1 一i1 毋( 刀) = 1 0 l o g t o l 土n i = o 桐j ) ( f ) = x ( i ) c o ( i ) ( 2 3 ) r ,表示预先设定的能量阈值,通常这个阈值可以通过估算背景噪声的能量 来预先设定或者由一段较长时间的无声片断计算得来,z ( f ) 表示第刀帧加噪的 语音信号,o j ( i ) 是窗口函数,n 表示帧长度( 2 0 3 0 m s 语音信号的采样点数) 。 此算法复杂度较低,便于实时语音信号处理,可以用来区别浊音段和清音 段,因为清音段的能量值通常比浊音段的能量值小得多。在信噪比较高情况下, 短时能量能够成功把语音段和非语音段区分开,但在信噪比较低情况下,该算 法性能会显著下降,通常需与其他参数一起应用于激活检测算法中【1 6 】【1 7 】f 1 8 】, 如g 7 2 9 b 、a m r 等。在0 d b 高斯白噪声背景下处理效果见图2 2 。 l i j 。l lj | _ l “址山。 “ h 】上ol 【h 【叩r _ 哪呷11 1 r 驯1 啊”rtrlm t 1 叩甲 2 2 2 短时过零率 短时过零率表示一帧语音( 2 0 - 3 0 m s ) 中语音信号波形穿过横轴( 零电平) 的 1 2 第二章语音激活检测技术 次数。过零率分析是语音时域分析中最简单的一种。对于连续语音信号,过零 即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号 则称过零,过零率就是样本改变符号的次数。研究表明白背景噪声的过零率明 显大于语音信号,通过计算每帧信号的过零率z i ( 甩) ,将之与设定的阈值比 较,可以判断出当前帧是否为语音信号。 用过零率检测有效语音片断的过程如下: 互( ,1 ) 0 s g n x 】- ,、 ( 2 6 ) 。l - t , x u 在实际中求过零率参数需要十分注意的问题是如果输入信号中包含5 0 h z 的工频干扰或者a d 变换器的工作点有偏移( 输入信号存在直流偏移,即输入 信号被抬高于零频) ,往往会计算不准确。为了解决前一个问题,可在a d 变 换器前设置带通滤波器,阻止5 0 h z 工频进入。对于后一个问题,可以采用低 通偏流移器件,也可以在软件上加以解决,算出每一帧的直流分量并加以滤除。 由对语音信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论