




已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)基于melp的甚低速率语音编码算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 在语音编码算法中,混和激励线性预测( m e l p ) 算法因为能在低速率上更好的模 拟窦然语言特征从嚣合成较嵩质量的语音,戒为现代低速率语音编码中最有潜力的 算法之一。本文以m e l p 算法为基本模型,对基音周期、增益、傅立叶幅值、清浊 音判决和线谱频率( 螨f ) 等几个语音编码参数进行了详细的分析和实验,深入探讨 了甚低速率编码算法中参数的选择、提取和量化方法,设计并实现了1 2 k b ,s 甚低 速率语音编码算法,算法采用多帧联合、三级矢量量化、参数内插等方法降低编码 速率,并对合成语音质量进符了性能评测。非正式主观听觉测试表明该语音编码算 法的语音质量有较高的可懂度和清晰度,并具有一定的自然度。 关键词:甚低速率语音编码,参数内插,多级矢量量化,混合激励,线性预测 a b s t r a c t ht h es p e e c h d i n ga l g o f i t h m s ,攮em i x e de x e i l a t i o n “n e 黻p f e d i c l i o n ( m 嚣l p ) a l g o r i t 虹c a nd ob e t t e r i ni m i t a t et h en a t u r a ls p e e c hc h a r a c t e r i s t i ct 0s y n t h e s i z eh i g h 鼋珏a l i | y 印e e e h 遮l 蠹el o wb i l a l e ,s oi lb e 趣eo 嚣eo fl 基em o s lp o t e 盈l i a 量鑫l g o 蠢l h 毽s 纽 t h em o d e i nl o wb i tr a t e s p e e c hc o d i n g b a s e do nm e 】:,p ,s e v e r a l s p e e c hc o d i n g p 烈a 瓣e l e f s ,s 毽畦a st h ep i l c h ,g a 浊乳l l f i e fm a g 纛i 论d e s ,u 黔o i c 彰i c cj u d g e m e 珏t ,弱f a n ds oo n ,a r ea n a l y z e di nt h i sp a p e r t h es e l e c t i o n ,e x t r a c t i o na n dq u a n t i z a t i o nm e t h o d s o ft h ep a r a m e t e r si nv e 垮l o wb i tr a t es p e e c hc o d i 靼a l g o r i t h ma r ed i s c u s s e d 。w i t ht h e s e l e c l 嫩i q n e s ,t h ev e r yl o wb “s p e e c hc o d i n ga l g o f i t h m a t1 2 k b si s d e s i g n e da n d i m p l e m e n t e d ,3 - l e v e lv e c t o rq u a n t i z a t i o n ,m u l t i - f r a m ej o i n ta n dp a r a m e t e ri n t e r p o l a t i n g a r ep f o p o s e dl of e d 毽c es p e e c hc o d i 珏gb i lf a 专e ,鑫蕤di 鼍sp 搴渤强a 珏c oi sa l s oe v a l 毛l a 专e di 珏 t h ep a p e r i n f 0 姗a ls u b j e c t i v el i s t e n i n gt e s t ss h o wt h a tt h es p e e c hq u a l i t yo f1 2 k b s 越瑚;a l g o 娃l 巍越鑫c h i e v e sh i 醢i 鞋l e l 珏g 两i l i t y ,c l e a 臻e s s ,鑫致dr e l a l i v 巷蘧a 珏豫搬e s s 。 z h a n gw 毫i ( s 函势a la n di 鼗炳r l n a l i o 鼗p f o c e s s i a g ) d i f e c t e db yp f o f 1 y f u a nj i n s h aa n da s s o c i a t ep r o f q iy i n c h e n g l i 【譬yw o | ;t p s :v e f yl o wb i lf a l es p e o c hc o d i 狂g ,p a f a l 藏e t e fi n t e 印o l a t e ,珏l 毽h i - s t a g e v e c t o rq u a n t i z a t i o n ,m i x e de x c i t a t i o n ,l i n e a rp r e d i c t i o n 华北电力大学硕士学位论文摘要 摘要 在语音编码算法中,混和激励线性预测( m e l p ) 算法因为能在低速率上更好的模 拟窦然语言特征从嚣合成较嵩质量的语音,戒为现代低速率语音编码中最有潜力的 算法之一。本文以m e l p 算法为基本模型,对基音周期、增益、傅立叶幅值、清浊 音判决和线谱频率( 螨f ) 等几个语音编码参数进行了详细的分析和实验,深入探讨 了甚低速率编码算法中参数的选择、提取和量化方法,设计并实现了1 2 k b ,s 甚低 速率语音编码算法,算法采用多帧联合、三级矢量量化、参数内插等方法降低编码 速率,并对合成语音质量进符了性能评测。非正式主观听觉测试表明该语音编码算 法的语音质量有较高的可懂度和清晰度,并具有一定的自然度。 关键词:甚低速率语音编码,参数内插,多级矢量量化,混合激励,线性预测 a b s t r a c t ht h es p e e c h d i n ga l g o f i t h m s ,攮em i x e de x e i l a t i o n “n e 黻p f e d i c l i o n ( m e l 王) a l g o r i t 虹c a nd ob e t t e r i ni m i t a t et h en a t u r a ls p e e c hc h a r a c t e r i s t i ct 0s y n t h e s i z eh i g h 鼋珏a l i | y 印e e e h 遮l 蠹el o wb i l a l e ,s oi lb e 趣eo 嚣eo fl 基em o s lp o t e 盈l i a 量鑫l g o 蠢l h 毽s 纽 t h em o d e i nl o wb i tr a t e s p e e c hc o d i n g b a s e do nm 量:】:,p ,s e v e r a l s p e e c hc o d i n g p 烈a 瓣e l e f s ,s 毽畦a st h ep i l c h ,g a 浊乳l l f i e fm a g 纛i 论d e s ,u 黔o i c 彰i c cj u d g e m e 珏t ,弱f a n ds oo n ,a r ea n a l y z e di nt h i sp a p e r t h es e l e c t i o n ,e x t r a c t i o na n dq u a n t i z a t i o nm e t h o d s o ft h ep a r a m e t e r si nv e 垮l o wb i tr a t es p e e c hc o d i 靼a l g o r i t h ma r ed i s c u s s e d 。w i t ht h e s e l e c l 嫩i q n e s ,t h ev e r yl o wb “s p e e c hc o d i n ga l g o f i t h ma t1 2 k b si sd e s i g n e da n d i m p l e m e n t e d ,3 - l e v e lv e c t o rq u a n t i z a t i o n ,m u l t i - f r a m ej o i n ta n dp a r a m e t e ri n t e r p o l a t i n g a r ep f f 警o s e dl of e d 毽c es p e e c hc o d i 珏gb i lf a 专e ,鑫蕤di 鼍sp 搴渤强a 珏c oi sa l s oe v a l 毛l a 专e di 珏 t h ep a p e r i n f 0 姗a ls u b j e c t i v el i s t e n i n gt e s t ss h o wt h a tt h es p e e c hq u a l i t yo f1 2 k b s 越麓ga l g o 娃l 巍越鑫c h i e v e sh i 醢i 鞋l e l 珏g 两i l i t y ,c l e a 臻e s s ,鑫矬dr e l a l i v 巷蘧a 珏豫搬e s s 。 z h a n gw 毫i ( s 函势a la n di 鼗幻r l n a l i o 鼗p f o c e s s i a g ) d i f e c t e db yp f o f 1 y f u a nj i n s h aa n da s s o c i a t ep r o f q iy i n c h e n g l i 【譬yw o | ;t p s :v e f yl o wb i lf a l es p e o c hc o d i 狂g ,p a f a l n e t e fi n t e 印o l a t e ,珏l 毽h i - s t a g e v e c t o rq u a n t i z a t i o n ,m i x e de x c i t a t i o n ,l i n e a rp r e d i c t i o n 声l 爿 ,f 本人郑重声明:此处所提交的硕士学位论文基于m e l p 的甚低速率语音编码算 法研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和 取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均琶在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:日 期: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阕或偌阅;学校可以学术交流隽 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播 学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 网期: 导师签名: 曰 期: 华= l 匕电力大学硕士学位论文 1 1 课题来源及意义 第一童绪论 随着社会信息化的发展,信号处理技术成为代表当今社会发展水平的一个重要 标志。现代信号处理技术融合了计算机技术、微电子技术和信息技术等高科技技术, 并且渗透到工业、农渡、医疗、航天航空等各个领域。信号处理技术发展日新月异, 各种信号处理新技术不断应用到日常生活中,改变着人们的沟通方式和生活习惯。 语音信号处理毫无疑闯是信号处理技术的最重要的方面之一,匿定电话、移动 电话、视频会议等等都会涉及到语音信号处理。为了提高语音信号数字传输的有效 性,通常要对语音进行压缩编码。实际上,语音信号孛含有大量的冗余信息,采震 各种编码技术减少语音信号的冗余度,并充分利用人耳的听觉掩蔽效应,就可以将 其码率压缩至很低,丽同时又能恢复出可懂度与清晰度都很好的语音。 现代语音信号处理技术根据编码速率将语音压缩算法分为以下几类:高速率 1 6 6 4 蚰s ,中速率4 8 。1 6 k b s ,低速率2 4 4 。8 k b s ,以及低于2 4 l c w s 的甚低速率l 。 人们根据对语音音质的不同要求而进行不同速率的编码,如旱先出现在电话通信中 的6 4 k b sp c m 编码,后来出现的1 6 k b s ,9 6 k b s 中速率编码,2 4 k b s 的低速率语 音编码技术都很好的满足了入们在不蠢情况下的不同需求。冒前中速率编解码技术 在1 6 k b s ,9 6 k b s 已经达到了很好的语音质量,甚至中低速率4 8 k b s 的编码技术 也已经到了榴当成熟的地步。 随着数字信号处理器( d s p ) 频率的不断上升以及信道资源越来越珍贵,使得人 们对低速率语音编解码算法的兴趣有增无减,因为高速的d s p 己经有能力处理越来 越复杂的算法;在信息隐藏技术中,需要在正常通信的信道里嵌入另一路语音且基 本不改变载体的听觉特性,这就使得所嵌入语音的编码速率必须很低;在军事无线 通信中,常遇到信道带宽很窄、误码率较高的情况,有时还有强干扰,要在这种信 道上实现语音通信,甚低速率语音压缩编码技术成为关键问题,军方对此有着强烈 的需求;在实际通信中,有些信道难以扩宽且质量很差,有静信道正被广泛使用, 短期内难以更新,还有些昂贵的信道,压缩的每一个比特都意味着节省开支。在这 些条件下,赢质量甚低速率语音编码技零就成为现代透信急待解决的闻题和研究魄 热点。本课题以美国1 9 9 7 年5 月2 8 日公布的2 4 k b s 联邦声码器标准混合激励 线性预测( m i x e de x e n 鑫t i 雌l i n e a rp f e d i c t i o n ,m e l p ) 为基础,研究并实现1 2 k b s 甚 低速率语音编码算法。 华北电力大学硕士学位论文 1 2 语音编解码技术发展状况 目前对语音压缩编码技术的研究主要集中在低速率语音压缩编码上,期望在大 大节省信道带宽的同时还保证语音质量。虽然随着大容量通信通道如光纤等宽带信 道的孳| 入,一段时闻案认兔语音压缩编码技术已没有研究的必要,僵实际上,光纤 信道目前只是在骨干网上得到应用,在接入网和支线的大规模应用仍需要一段时 闻,弗且无线信道的信道带宽始终是一个突出的目题【,因此对低速率语音压缩编 码技术的研究是非常有必要的。随着人类对外太空的探索进一步深入,对无线通信 技术的应用进一步广泛,对低速率语音压缩编码技术乃至甚低速率的语音压缩编码 技术的研究会进一步深入的开展。 现代的语音压缩编码技术主要有三种,分别是波形编码、参数编码和混合编码; 波形编码力图使重建的语音波形和原始语音波形一致。这种编码算法具有适应 能力强、语音质量好、编码算法简单等优点,但编码速率高。最常用的波形编码技 术2 】有脉冲编码调制( p c m p u l s ec o 掘gm o d e m ) 、自适应差分脉冲编码调制 ( a d p c m a d a p t i v ed i f j f e r e n c ep u l s ec o d i n gm o d e m ) 和增量调制( 调制) 等。 参数编码剩震语音信号具有短时平稳性的特点,把语音信号分帻,在每一帧中 提取它的模型参数进行传送,在接收端再利用这些参数重建语音信号。用参数编码 可以达到党较低的编码速率,可以在2 碡划s 以下,但缺点是合成语音质量差,特别 是自然度较低,男女声有时区分不出来,其m o s ( m e a no p i n i o ns c o r e ) 分一般在3 分以下,并且对环境噪声比较敏感。最流行的参数编码技术是线性预测编码 ( l p c 1 0 ) f 3 】a 混合编码是将波形编码和参数编码两者结合起来,尽量保留波形编码和参数编 码两者的优点,很好的解决了波形编码和参数编码的缺点,是近年来低速率语音压 缩编码技术研究的重点。混合编码采用的方法的共同点是先进行线性预测( l p ) 分析, 去掉语音的相关性,再用合成分析法和感翱加权均方误差最小准则分析出合适豹警 代残差信号的最佳激励信号源,最后对这些参数进行传送。由于它们的激励模型和 误差计算与时域波形相联系,使合成语音具有较强的跟踪输入语音变化的能力,从 而改善了合成语音的质量和抗噪声的能力。目前以混合编码技术为基础的主要压缩 编码方案包括:多脉冲线性激励预测编码( m u l l ip u l s el i n e 皴p r e d i c t i v ec o d i 觳g , m p l p c ) ,欧洲g s m 中的规则脉冲激励预测编码( r e g u l a rp u l s ee x c i t a t i o nc o d i n g , r p e l p c ) ,多带激励语音编码( m u l t ib a n de x c i t a t i o n ,m b e ) ,码激励线性预测编码 ( c o d ee x c i t e dl i n e a rp r e d i c t i o n ,e e l p ) ,原型波形内插语音编码( p r o t o t y p ew & v e f o 彻 i n t e r p o l a t i o n ,p w i ) 和混合激励线性预测编码( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n , m e h 等。 2 华北电力大学硕士学位论文 下面对这几种典型的编码算法做一下简单的介绍。 f 1 ) 线性预测编码算法( 己p c ) l p c 模型是参数编码中的一个基本模型,它将语音分为清音和浊音两大类,在 进彳亍清浊判决痿,分别以相应的激励信号通过全极点系统来合成语音,l p c 模型能 在较低的速率上合成出可懂度较好的语音,因此1 9 7 6 年美国确定用l p c 1 0 作为 2 4 k b s 速率上的语音通信标准【4 1 。后来出现的m b e ,c e l p ,m e l p 等低速率编码算 法都以l p c 为基本模型。 利用l p c 的算法可以合成清晰、可懂的语音,但是抗噪声能力和语音自然度有 羁显欠缺。麴根结底其原因在于:算法采用二元亿的激励模型过于简单。在实际的 语音残差信号中,相淌一部分既非周期信号又非随机噪声;或者其低频端是周期脉 冲,高频端则是随机嗓声。酃使对于特征相当明显的浊音,完全由周期脉冲串产生 激励也会有蜂鸣声等合成语音的机械感。在这种情况下采用纯粹的二元激励代替残 差信号,必然导致合成语音听起来不自然。 为了改善语音质量,必然要对线性预测残差信号进行处理,这是此后出现的算 法中不同激励模型( m b e 、c e l p 、m e l p 等) 的原始出发点。 ( 2 ) 多带激励语音编码( m 8 e ) m b e 算法是8 0 年代由美囡麻省理工学院的d w g r i 蚯n 博士提出的【5 l ,它是 基于语音产生模型改进的编码算法。m b e 语音模型与传统的l p c 语音模型不同, 它的主要改进点是在激励源的模型构造上附加了自由度【6 1 【7 1 ,即将每帧语音的短时 谱按照其基簇划分为多个频带,对每个频带作清,浊判决,取彳弋了 c 语音模型中 对每帧语音作单一清浊判决的简单处理,提出了每帧语音的激励信号是由周期浊音 和清音麓量混合丽成的,使褥m b e 语音模型抗背景噪声的能力增强。经过m b e 语 音模型重建后的语音质量高于传统的l p c 语音模型。 m b e 改进方案l m l i i e 于1 9 9 1 年被国际海事卫星组织定为标准“l n 】瞳a r s 醛mv o i c e c o d e c ,v e r s i o n2 f 8 】。现在改进型的a m b e ( a d v 觚c e dm u l t i b a n de x c i t a t i o n ) 已经出现 固化芯片,而且最低速率可达2 k b s 。 ( 3 ) 码激励线性预测编码( c e l p ) 1 9 8 5 年,m 题蠹e dr s c h r o :c d e r 和b i s h n us 。a t a l 在i e e ei c a s s p 年会上首先提 出了用码本作为激励源的线性预测编码技术( c 雕卫) 【粥。c e l p 以高质量的合成语音 及优良的抗噪声和多次转接性能,在4 8 1 6 k b s 速率上得到广泛的应用。 但c e ”算法对予码矢量搜索的运算复杂度很大,丽且对予特定速率的算法码 矢量需要进行单独的训练。当传输速率降到4 k b s 以下时,c e l p 的质量下降很快。 这是因为玛本容量不足,无法精确描述语音波形使得合成噪声变大;霹时它采用豹 华北电力大学硕士学位论文 均方误差准则m s p e ( m i n i m u ms q u a r e dp r e d i c t i o ne r i 0 r ) 对低速率、甚低速率语音编 码并不十分适用。所以,直接将c e l p 应用于4 l c 斟s 以下的语音编码难以获得好的 语音质量。 ( 4 ) 原型波形内插语音编码( p w i ) 为了改善c e l p 语音编码器的浊音质量,1 9 9 1 年美国a t & 1 贝尔实验室w b e i j n 博士提出了原型波形内插语音编码算法【l o 】。p w l 算法以慢渐变的基音周期波 形为基础,在浊音帧里提取和传送一段原型波形,再用线性插僵来恢复来传送的信 号。但实验结果表明,p w i 仅适用于浊音语音编码,对清音合成比较简单,从而导 致合成语音转换段的过渡不平滑,弓| 入额乡 噪声。鉴予以上情况,薹9 9 4 年,w b 。 日e i j i n 又提出了波形内插( w i ) 算法【1 1 】,利用人耳的听觉特性将语音信号表示为一系 列渐变波形:在浊音段用慢渐变波形表示;在清音段用快渐变波形表示。m w l 算法 又对w i 模型进行了改进,采用浊音度来描述语音性质,并且运用统一的语音合成 器使得合成语音质量大大提高【1 2 】。p w i 和w i 算法在2 o 4 o k b s 编码速率之间可以 合成质量较好的语音。 ( 5 ) 混合激励线性预测编码( m e l p ) m e l p 编码方法是由亚特兰大乔治亚州理工学院的a vm c c r e e 博士在1 9 9 5 年提出来的【1 3 】,它以传统的l p c 模型为基础,结合了m b e 模型的优点,同时附加 了五个改进特征参数:混合激励( m i x e 蠢c x c i t 赫。醇、菲周期脉冲( a p 蕊o d 沁p 毪l s e ) 、脉 冲离散( p u l s ed i s p e r s i o n ) 、自适应谱增强( a d a p t i v es p e c t r a le i l l l a n c e m e n t ) 和残差谐波 处理( 糟s i 如鑫l 纛a 凇。越c 霞瑟a g 饿e 砖 。这五个特征的引入,在相当大的程度上改善了 传统l p c 模型的激励源构造,也消除了l p c 合成语音中有时出现的机械的或蜂鸣 的音调噪声,增强了抗背景噪声的能力。m e l p 在2 4 k b s 低速率上能够产生高质量 的合成语音,在正常的听力测试中,m e l p 编码算法得到的诊断可接受分比同样速 率下的l p c 。1 0 标准商5 分【1 4 】,成为目前甚低速率语音编码中最有潜力的算法之一, 在算法的复杂度与可瘦用性方面,m e 算法也是一种比较理想的编码方案疆鬟。 一个理想的语音编码算法应该是低速率、高合成语音质量、低延时、低运算复 杂度并具有良好抗噪性能的编码算法。在与l p c 1 0 、a m b e 、c 嚣髓、w l 等几种低 速候选编码方案比较中,m e l p 的总评价是最好的,因此本课题选择m e l p 算法进 行甚低速率语音编码算法的研究。 1 3 低速率语音编码的最新成果 低速率语音编码在语音通信领域占有非常重要的位景,因此其研究成果也层出 不穷。除了噬前公认的国际标准外,各种组织和公司也分别在研究适合自己需要的 低速率语音编码算法。下面简要介绍国内外低速率语音编码的研究成采。 4 华北电力大学硕士学位论文 2 0 0 2 年,m e l p e ( e l l h 锄c e d m i x e d e x c i t a t i o nl i n e a rp r e d i c t i v e ) 2 4 1 2k b s 【1 7 】代替 原来的m e ”算法作为美国窄带保密电话的标准。该算法将3 个连续帧的m e l p 参数 组成一个超级帧后进行联合量化,以提高编码效率,且利用帧间冗余对超帧中清 浊音帧的不同组合采用了不同的量化方法。此算法采用了多种新技术,其中包括使 用基音差值对基音矢量进行量化,基音和清浊音判决的联合量化,以及对l s f 量化 采用双向内插方法等。但该算法由于保密性较强,目前阑内外在该算法的具体实现 步骤及参数分布方面仍l 曩是空自。另外,法国髓玲m s o 纛c s f 公司推出的8 0 0 瓿声码 器,美国国防部推出的6 0 0b s 语音编码器等【1 6 】,都是在l p c 1 0 的基础上设计的低速 率语音编码器。 目前国内在2 4 k b s 以下的语音编码算法还不是十分成熟。文献【1 8 】提出了一种 三帧联合量化,参数联合编码的基于m e l p 的l 。2 蹦s 速率语音编码算法,此算法 提取了基音周期、l s f 参数、带通清浊判决以及增益参数,但此算法没有提取傅立 叶频谱级数,降低了语音产生模型的准确性,尤其是在听觉较敏感的低频段,以至 于此算法合成语音的良然度和清晰度不是很完善。文献【1 9 】提出了一种改善激励源 的1 2 k b s 混合激励线性预测算法,此算法结合了l p c 与m e l p 的优点,在编码器 结构、l s f 量纯散了改进,并对解码端做了基予听觉特性的合成,僵该算法通过隔 帧传输参数来降低比特数,这就使得传输参数误差比较大,在解码端合成的语音清 晰度较差。另外文献【2 0 】使用了3 帧联合的超级帧及双向预测的方法,提如了o 。敬瓿 的编码算法;文献 2 l 】采用3 帧联合量化和混合正弦激励提出了一种o 6 k b s 编码算法; 文献【2 2 】采用4 帧联合编码和混合激励实现了一种o 6 k | b s 编码算法等,这些无疑对国内 语音编码算法的研究作出了有益的探索。 1 4 本文研究的主要内容 本论文主要研究基于m e l p 的甚低速率语音编解码算法,以1 9 9 7 年5 月发布 的2 4 蚰7 s 的m e 算法草案失中心,研究并实现一种新的重2 抽砖甚低速率语音编 码算法。在本课题的研究过程中,对m e l p 算法的编解码原理做了比较深入的研究, 通过分析,有选择的提取了高效参数,并将其量化,然后在解码端合成离质量语音, 最后用m a t m b 进行了仿真实验。 以下是本论文的主要内容: 第一章简要介绍了课题来源及意义,语音编解码技术发展状况,引出了本论文 的主题基于m e l p 的甚低速率语音编解码算法,它是本论文研究的主要内容。 最后,对本论文的组织结构作了简要说明。 第二章简要介绍了m e l p 语音编码算法的概况及m e l p 算法新增的五大特点, 也正是医为有这五大特点,使得m e l p 算法在较低速率的情况下还拥有比较出众的 5 华北电力大学硕士学位论文 性能,成为低速率语音编码技术研究的热点。 第三章详缨介绍了基于m e 的甚低速率语音编解码算法在编码过程中通过分 析选择所提取的各种量化参数的计算方法、量化方法及比特分配。 第四章详细介绍了算法的解码过程。通过对各种参数进行分析还原产生混合激 励信号,并对混合激励信号进行了自适应谱增强、脉冲离散滤波等一系列处理,最 后合成语音,并用m a :r l a b 进行了仿真实验。 第五章对本课题的研究工作做了总结,并指出了工作中未完成的想法和下一步 的研究方向。 6 华j 匕电力大学硕士学位论文 第二章m e l p 语音编码算法概况和特点 在低速率语音编码算法中,混和激励线性预测( m e l p ) 编码算法因为能更好的模 拟自然语言特征,在低速率上能合成较高质量的语音,两成为现代低速率语音编码 中最有潜力的算法之一。本章将主要介绍m e l p 语音编码算法的概况以及m e l p 新 增的五个特点。 2 1m e l p 语音编码算法概况 在低速率语音编码中,可用于进行语音参数编码的比特数很少,所以如何利用 有限的比特来有效的表征较多的语音信息就成为编码算法研究的关键。1 9 8 1 年美囡 公布了联邦标准线性预测编码算法 c 重o ,霹f s 1 0 1 5 标准,但音质不令人满意, 主要是对爆破音的处理不好,后来又提出了增强型的”c 1 0 e ,但终因当时对语音 的研究深度不够,效栗也不理想。 混合激励线性预测编码算法( m e l p ) 是在线性预测编码的基础上,采用混合激励 的形式并结合多带的思想,拥有线性预测编码和多带激励的优点,是目前低速率语 音编码中一种比较理想的编码方案。1 9 9 6 年3 月,美国豳防部语音信号数字处理协 会( d d ,c ) 选用了a l a nv m c c r e e 推出的混和激励线性预测( m e l p m i x e d e x c i t a t i o nl i 毅e a rp r e d i c t i o 曲算法来取代| 霉标准f s 1 0 1 5 。1 9 9 7 年5 胄,m e l p 算法 最终被确定为新的美囡联邦标准,以替换原有的2 4 k b 8 联邦标准f s 。1 0 1 5 。2 0 0 2 年,m e l p e 代替原来的m e 职算法作为窄带保密电话的标准。 m e l p 是一种基予l p c 的参数编码方法,其原理结构如图2 1 所示,为了改善 c 算法的质量,m 嚣堙算法把语音分成清音、浊音和抖动浊音3 种状态。混合激 励的实现则利用了多带模型:通过一组带通滤波器将语音信号分成5 个子频带,分 别判断每个子带的清浊状况,在译码端利用这5 个子带的清浊状况相加得到混合激 励。 图2 im 嚣l p 漂理结褥图 m e l p 算法在传统的二元激励线性预测模型的基础主作了改进,吸收了多带激 7 华北电力大学硕士学位论文 励( m b e ) 、l p c 1 0 e 等算法的一些思想,同时在基音提取和激励信号产生等方面采 用了一些新的方法以提高合成语音的质量,这些新方法主要包括多带混合激励、使 用非周期脉冲、残差谐波处理技术、自适应谱增强技术和脉冲离散滤波。其中,非 周期脉冲、多带混合激励、自适应谱增强和残差谐波处理技术用来改善合成语音的 激励信号,脉冲离散滤波器用来对合成语音进行后麓处理,这样使得2 铀s 速率士 能够得到更高质量的合成语音。 2 2 麓e l p 算法特点 m e 堙算法是以 c 参数模型药基础的,但它新增了下面五大特点【2 3 】【2 4 l 【2 s 】: 多带混合激励、使用非周期脉冲、自适应谱增强技术、脉冲离散滤波和残差谐波处 理。 2 2 1 多带混合激励 多带静思想来源于硒e ,采用多带处理方式可以使得麸频域主对激励信号的划 分更加精细,合成的激励也就更加准确。在2 4 k b s 的m e l p 算法中,将0 4 0 0 0 h z 的语音频带分成5 个固定的子带,分鄹是秘5 0 龌娩,5 0 秘1 0 0 0 嚣z ,1 0 0 砣0 0 0 珏z , 2 0 0 0 一3 0 0 0 h z ,3 0 0 0 卅0 0 0 h z 。多带滤波器由5 个带通滤波器相加得到。由于低频部 分对语音的影响更大一些,并便于基音提取,所以对低频段的划分更细一些。对于 每一个非清音帧( 包括浊音和抖动浊音帧) ,在各个子带分别计算清浊音混合比例 ( 语音强度) ,计算结果决定子带内脉冲激励源和噪声激励源在形成激励信号时的 加权值。经过多带滤波之后的脉冲激励源和噪声激励源在解码端加权相加,得到全 带激励信号来进行语音信号的合成。激励源的改进可以减少l p c 合成语音中的常有 的蜂鸣声,对宽带声源改进的效果尤其骧显。 2 2 2 使用非周期脉冲 采用混合激励可以减少合成语音中的蜂鸣噪声,但可能还会存在另一种类似电 流声的单音噪声,尤其是对基音较高的女性声音和有噪声时比较明显。虽然可以通 过在激励信号中混入较多的低频自噪声来减弱它的周期性,僵这样会使合成语音听 起来有些嘈杂。m e l p 算法使用了一种更有效的处理方法,就是采用非周期脉冲。 用一个非周期标志来表示是否采用非周期脉冲的激赫信号。非周麓标志( 抖动浊音标 志) 常用于清浊音的过渡区域,对于抖动浊音,令非周期标志为1 ,说明在合成语 音时需要采用非周期脉;孛恧不是采用周期脉冲作为激励信号。该标志能使解码端产 生不稳定的声门脉冲,使过渡音更加自然且不引入其他声调,具体的实现方法是过 渡音在o 7 5 倍基音和1 2 5 倍基音范围内随机抖动来模拟非周期脉冲。采用此方法 可减少一种类似电流声的单音噪声,对基音较尚的女性声音和有噪声时效果尤其明 8 华北电力大学硕士学位论文 显。 2 2 。3 自适应谱增强技术 由于人说话时声道的共振峰带宽即使在同一个基音周期内也可能发生变化,并 且l p e 这种全极点的模型削弱了共振峰的特征,同时还由于量化误差等原因, c 合成滤波器的极点形状和自然语音的共振峰形状存在偏差,导致了在共振峰之间合 成语音谱的波谷不如原始语音谱的波谷尖锐,使合成语音听起来发闷,为了使合成 语音与原始语音在共振区有更好的匹配,m e l p 算法引入了自适应谱增强技术。 良适应谱增强技术是通过让激励信号经皇适应谱增强滤波器来实现的。皂适应 谱增强滤波器是由系数自适应变化的阶数等于线性预测阶数的零极点滤波器与对 第一阶有平坦补偿的滤波器级联恧成的。通过突出激励谱中共振峰频率处的谱幅 度,可以达到提高整个短时谱在共振峰处的信噪比的目的。 这种自适应谱增强技术的实现原理比较简单,算法复杂度不高,且对编码端没 有额外传输比特的要求,是提离低速率语音编码质量的实用技术。 2 2 4 脉冲离散滤波 进行脉冲离散滤波的目的,是为了让多带合成的语音与原始语音在非共振区波 形上进行更好的匹配。透过比较合成语音和原始语音的带通包络发现,它们的波形 存在一定的差别,特剐是当语音的周期性很强时,峰值的大小有很大的差别。实际 语音的产生过程很复杂,为了使合成语音获得较高自然度,应对合成语音的峰一峰 值进行平滑处理。m e 乙p 算法让合成语音通过一个f 承滤波器,其系数的计算方法 是先将典型男性周期脉冲谱强制变为平坦谱,然后再进行傅里叶反变换。它具有减 弱某些频带周期懂的作用,降低了基音瘸期为典型周期附近时的峰一峰值,使合成 语音的蜂鸣效果减弱,变得更为连贯、自然。 2 。2 。5 残差谐波处理 在l p c 残差信号中含有大量的语音特征,因为限于码率的原因,以往的低速率 l p c 算法在生成激励脉冲时,只反映了它的周期性,并没有反映它的幅度特性,因 而不能很好地反映实际激励脉冲动态变化的特性。近些年来由于采用了矢量量化和 线谱对( s p ) 技术,使得线性预测参数的量化眈特数霹较以往大大减少,可以多空 出几个比特用于对残差信号信息的记录。m e l p 算法借鉴p w i 算法的做法,只对较 重要的特征各基音周期谐波处的傅里叶级数幅度值进行矢量量纯。残差信号中 对语音影响最大的是低频带,所以m e l p 算法只对最低l o 阶谐波进行量化,对1 0 阶以上谐波的傅里叶级数幅度值则认为是平坦的,由单位值来代替。此方法增加了 语音产生模型的准确性,在很大程度上提高了合成语音的自然度、清晰度和抗背景 9 华北电力大学硕士学位论文 噪声的能力,大大改善了l p c 合成语音发闷、嘶哑和合成音重等弱点。 2 。3 小结 m e l p 算法在传统的二元激励线性预测模型的基础上作了改进,吸收了多带激 i 励( m b e ) 、l p c - l o e 等算法的一些思想,采用了多带混合激励、使用非周期脉冲、 自适应谱增强技术、脉冲离散滤波和残差谐波处理等新技术,使得在2 4 k b s 的速率 下尚能够得到高质量的合成语音。 l o 华北电力大学硕士学位论文 第三章基于m e l p 的甚低速率语音编码算法 甚低速率语音编码算法是语音编码领域难度很大的课题之一,研究目标是在允 许一定失真的条件下用极少的比特数表征较多的语音特征信息,在甚低的编码速率 上合成质量较好的语音。算法的设计一般需要从模型选择、参数提取、参数内插和 参数量化等几方面考虑,提取合成语音所需的参数并尽可能减少其量化编码所需的 比特数。本章以m e l p 算法为基本模型,在分析自然语音各参数特点和统计特性的 基础上,采用3 帧联合、参数内插、高效量化和有选择性编码等方法研究并设计了 1 2 k b s 甚低速率语音编码算法。 3 1 算法分析 3 1 1 甚低速率语音编码的主要实现方法 目前的甚低速率语音编码算法以可懂度高为主要目标,对清晰度,尤其是自然 度则允许一定的失真。通过理论分析,以及对低速率和甚低速率编码算法技术的研 究发现,实现甚低速率编码主要有以下几个途径。 ( 1 ) 增加分析帧长 增加分析帧长是降低编码速率最容易实现的方法之一,并且对算法的复杂度影 响极小,例如m e l p 算法,帧长为2 2 5 m s ,每帧用5 4 b i t 编码,则语音压缩速率为 5 4 b i t 2 2 5 m s = 2 4 k b s ,如果将帧长增长为3 0 m s ,每帧还用5 4 b i t 编码,则压缩速率 降低为5 4 b i t 3 0 m s - 1 8 k b s 。事实上如果对单帧语音进行编码,至少需要提取和量化 线性预测系数、能量参数、基音周期和清浊判断等四个参数。若要对这四种参数进 行充分描述,各参数所需要的比特数如表3 1 所示。 表3 1 充分描述各参数所需的比特数 参数名称所需比特数 线性预测系数 2 0 2 5 能量参数 6 8 基音周期 6 7 清浊判断 2 5 总数 3 4 4 5 从表3 1 中可以发现即使将帧长增加到3 0 m s ,也很难在充分描述各参数的情况 下将编码速率压缩到1 2 k b s 。 华北电力大学硕士学位论文 另外,帧长的选取与语音质量是互相矛盾的,+ 帧长选取过长,最说可以降低语音传 输速率,但是打破了语音短时平稳的假设,并且会出现语音浑浊不清,丢字等现象;帧 长选取过短,语音质量可以得封提升,僵却使得传输魄特过多,限制了语音质量的合成。 研究袭明【2 5 】,帧长在3 0 傩以下合成语音比较清晰,帧长在3 2 。5 删州。麟时合成语音就 会盎现混浊不清静现象,听觉鞠显不适应。 因此单纯依靠该方法不能在甚低速率语音编码上得到理想的语音质量,需要和 其饱降低速率麓方法缮合使用。在充分考虑裂以上情况的条件下,经过实验分析, 本算法选取帧长为2 5 m s ,仿真结果表明算法合成语音比较清晰且没有明恩失真,帧 长选取比较合理。 ( 2 ) 多帧联合编码 多帧联合编码是隧煎甚低速率语音绫器孛缀活跃酶方法,d 。翼k 糍磴窝爻s 。 c o l l 撇等提出利用参数间的冗佘,采用8 帧联合编码的方法【2 6 i 来降低语啬编码速率, 该方法将相邻的8 帧组成超级帧,透过参数爽接和联会矢量量化的方法实现速率压 缩。健这种方法的局限性在于: 高维矢量量化对算法存储量和计算复杂度的影响很大; 参数内插的方法打破了语音信号短对平稳酶假设,限制了合成语音韵质量; 量化的设计也使语音编码算法容易受到信道误码的影响,并且为了不带来额 舞嚣冗余并占薅霓特链,不能依靠纠错编码来提高其抗误码性能。 这些因素在一定程度上限制了由多帧联合编码设计的甚低速率语音编码算法 在实际通信中的应焉潮。 本算法在构建过程中,充分考虑了参数的帧内及帧间相关性,选用了t w 缸g 等e 1 7 1 提出鲍三帧联合量佬编码,在保证语音质量熬前提下降低了速率。 , ( 3 ) 参数内插 在低速率语音编鹨孛,力节省簧输毙特,常常需要将两组系数进行线性内播, 得到另一组系数作为两者之间的过渡,以便使合成语音的过渡更加平滑自然。如果 参数的编码特性很好,僵内捶詹所得到的参数不缝平滑过渡,甚至导致合成不稳定, 这样的参数显然不适合用于编码传输1 2 ,所以内插参数的选择是一个重要的问题。 本算法沿用了美藿窄带保密电话的标准【1 7 】,选取线谱频率( l s f ) 参数进行内捶 运算,一方面l s f 参数的量纯特性和肉插特性胡显优于其他参数,另一方面l s f 参数所占用比特数比较多,对其线性内撮可以很好的节约比特,降低编码速率。 基于以上鹩分析,本算法透过增加帧长、兰帧联合、参数内插等技术设计了编 码算法,降低丁传输速率,保证了合成语音的质量。 1 2 华北电力大学硕士学位论文 3 1 21 2 k b s 甚低速率编码算法构建 设计1 2 k b 砖甚低速率语音编码算法的基本思想是将单帧帧长由2 2 5 m s 增加到 2 5 m s ,并将相邻3 帧联合起来构成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 栏杆拆除及更换施工方案
- 2025短期劳动合同全面解析
- 2025至2031年中国反射型普通照明灯泡行业投资前景及策略咨询研究报告
- 工厂隔音墙板施工方案
- 2025至2030年中国验卷机数据监测研究报告
- 2025至2030年中国钢制链轮数据监测研究报告
- 2025至2030年中国煤矿防爆特殊型蓄电池电机车数据监测研究报告
- 2025动产抵押借款合同
- 2025至2030年中国机车车辆及零部件数据监测研究报告
- 2025至2030年中国数码隐形防伪技术数据监测研究报告
- 接触网施工-接触网竣工验收
- 黑龙江省哈尔滨市香坊区2023-2024学年八年级上学期期末数学试题
- GB/Z 43281-2023即时检验(POCT)设备监督员和操作员指南
- 主动披露报告表
- 煤矿一通三防知识培训课件
- 2022年版小学《义务教育音乐课程标准》考试复习题库
- 筑业海南省建筑工程资料表格填写范例与指南
- 国家开放大学《广告学概论》形考任务1-4参考答案
- 毕业论文建筑消防系统论文
- 自制移动吊车(炮车)方案
- 《咕咚来了》PPT图文带mpa
评论
0/150
提交评论