已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语舀通信在现代通信中占有重要位置。数字语音通信是目前电信网络中最重 要和最普通的业务,商业界和民众对移动电话和i p 电话持续增长的需要,有力地 汪明数字语音通信强大的生命力。随着信息社会和通信技术的高速发展,信道资 源变得愈加宅贵。因此,压缩语音信号的传输带宽和降低电话信道的传输速率越 来越重要。采用语音编码技术可以在保证音质的同时,大大地减少数据传输量, 节省传输所需要的带宽。 目前的语音压缩专用芯片价格较高,并且采用语音压缩专用芯片的设备在信 号处理灵活性,功能扩展等方面受到很大的限制,很难加入些新的功能或者算 法。而使用d s p 来自主丌发实现语音压缩算法却可以使这一成本大大降低,同h j 可以方便地实现算法的更新,从而能够在不更换硬件的情况下实现功能的升级。 本项阿足基于嵌入式操作系统的网络多媒体终端的一部分。主要研究内容是 丌发一个基丁d s p 的语音压缩系统。核心算法是1 t u t 组织提出的g 7 2 9 建议共 轭结构代数码激励线性预测编码( c s a c e l p ) 技术,核心硬件是基于t i 公司 t m s 3 2 0 c 6 7 l1 高性能d s p 。语音信号由麦克风采集,通过专用音频a d 变换器变成 数字信号,然后在l i s p 被压缩编码处理,l i s p 将压缩得到的码流通过接门设备及 网络服务器送到网络中。在接收端进行解码处理,还原为语音信号。 基于嵌入式操作系统的网络多媒体终端可用于网络音视频传输、视频会议等。 而其语音压缩部分实现后,除了应用于本网络多媒体终端,还可以广泛地用到i p 电话等其它c t i ( 计算机电话集成:c o m p u t e rt e l e p h o n e1 1 3 t e g r a t i o r l ) 语音通 信系统中,带来良好的经济效益与社会效益。 关键词:语旨编码;g 7 2 9 ;d s p a b s t r a c t s p e e c he o m m u n ic a t io ni sv e r yi m p o r t a n ti nt h em o d e r nc e m m u n i c a t i o n s , d i g n “s p e e c hc o m m m u n i c a t i o f ti sm o s ti m p o r t a n ta n dc o m m o n e s tb u s i n e s so 1 1 ,h e p f e s e n t ,l e l e c o f r in e t w o r k d e m a n d so fm o b 1el e l e p h o n ea n di pt e l e p h o n e b y t h eb u s i n e s sc i r c l e sa n dt h e p u b l i ca r ec e n t i n u a l l yi n c r e a s i n g i t p r o v e s s tr o n g v i t a i t y o fd ig i t a l s p e e c hc o m m u n i c a t i o n t h ef r e q u e n c y r o s o u r c eb e c o m e sm o r ea n dm o r er a r ef o l l o wa l o n gt h eq u i c kd e v e l o p m e n to f t h ei n f o r m a t i o ns o c i e t ya n dt h ec o m m u n i c a t i o nt e c h n o l o g y t h e r e f o r ei t , is m o r ea n dm e r ei m p o r t a n tt oc o m p r e s st r a n s m i s s i o i 3b a n d w i d t ho fs p e e c hs i g n a l a n dr e d u c et r a n s f r i is s i o n s p e e d o f t e l e p h o n ec h a n n e l s p e e c h c o d i n g t e c h n j q u e i su s e dt or e d u c et h ea m o u n to fd a t an e e d e dt ob et r a n s f r i i t t e d s ot h a tw ec a ns a v et h eb a n d w i d t h r e q u i r e f r i e n t ,w h i i eg u a r a n t e ec n g t h e q u a l i t yo fs p e e c h a 1p r e s e n t ,t h ep r i c eo fs p e c i f i c - p u r p o s ec h i pf o rs p e e c hc o m p p e s s i n g iss t i i lh i g h a n di tm a k et h er e le r a n te q u i p m e n te x p e n s iv ea n du n d e r m i n o t h e f l e x i b i l i t y o fi t se x t e n s i o nt on e w a l g o r i t h ma n df u n c t i o n s o , i f n p le m e n t i n gs u c ha na l g o t i t h mu s i n gag e n e r a l p u r p o s ed s pw i l ll o w e rt h e c o s t g r e a t l y ,a n d a t ,l ,h es a m e t i m m e ,e x t e n s i o i l o fn e w a l g o r i t h m a n d f u n c tio nw i l lb e c o m e v e r yc o n v e n j e n t w i t h o u ta n yn e e d t o c h a n g et h e h a r d w a r e t h et a s kfso n ep o r t i o no fn e t w o r kf r i l l l t if r i e d i at e r m i n a lb a s e do ne f r i b e d e p e r a t i o ns y s t e m t h et a r g e t o fi ti st o d e v e l o p ad s p b a s e dv i d e o c o m m p r e s s f o ns y s t e m ,i t s c 0 1 e a l g o r i t h m is d e v e l o p o nb a s eo fi t u t r e c ( ) m f f 【e n d a t i o ng 7 2 9( c o n j u g a t es t r u e t u r e a t g e b r a i cc o d ee x c i t e d l i n e a r p r e d i c tf o r :c s a c e l p ) t h ek e yh a r d w a r eo ft h es y s t e mjst e x a s i n s t r u m m e n tsi n e s h i g hp e r f o r m a n c et m s 3 0 c 6 7 1 1 d s p s p e e c hf r a m e sa r e c a p t u r e db yaf r i ic r o p h o n e ,a n dt h e na r et u r n e di n t ob jn a r yd a t ai naa u d i o a dc o n v e r t e r a g t e rt h a t ,a u d iod a t as t r e a m sa r ee n c o d e di nt h ed s pd e v i c e , w h i c hy ie i d sg 7 2 9f o r m a tc o d e db i ts t r e a m s b yt h em e a n so f in t e f f a c e d e vic ea n dn e t w o r ks e r r i c ed e v i c e t h ed a t as t r e a m sa r et r a n s m i t t e dt o n e t w o r k s i nt h es i d eo fi ni n c e p t ,t h e yw i l lb ed e c o m p r e s s e da n dt u r n e d t t n e t w o r km u ti m e d i at e r m i h a lb a s e do f ! e m b e do p e r a t i o n s y s t e mc a l l b e u s e di i 3i n t e r n e ta u d i 0a n dv i d e ot r a n s f e r 、v i d e oc o n f e r e n c ee t c a n dt h c t e c h n i q u eo ft h es p e e c hc o m p r e s s i n gp a r tc z t 1b eu s e dw i d e l yi nt pp h o n e a n do t h e rc t i ( c o m p u t e rt e l e p h o n ei n t e g r a t i o r l ) s p e e c hc o m m u n i c a t i o ns y s t e m , w h i e hwj 】1 yi e 1d s j g n i f i c a n te c o n o m i ca n ds o c i a lv a l u e k e yw o r d :s p e e c hc o d e :g 7 2 9 :d s p i i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的沦文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 1 i 包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识剑本声明的法律后果由本人承担。 作者签名:黄面童日期:2 c 咩年5 月3 u 同 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许沦文被查阅和借阅。本人授权华南理- t 大学可以将本学位论文的 令部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名:靠丽莹 翩签名:雪净 日期:卿4 年5 月弓o 1 | 期:2 矽年占月f l b 第章绪沦 第一章绪论 语音通信在现代通信中占有重要位置,数字语音通信是目前电信网络中最重 要和最普通的、p 务。随着信息社会和通信技术的高速发展,频率资源变得愈加宝 贵。冈此,压缩语音信号的传输带宽或降低电话信道的传输码率,一直是人们追 求的目标。语音编码在实现这一目标的过程中担任着重要角色。语音编码就是三 缩语音信号的数字表示而使表达这些信号所需比特数最小的算法。 1 1 语音编码技术的基本原理 语音编码目前分为三大类:波形编码、参数编码和混合编码。波形编码是将 语音信几| 进行采样,对每个样值进行编码,力图使重建语音波形保持原语音信号 的波形形状,它通常将语音信号作为一般的波形信号来处理,具有适应能力强、 话音质量高等优点,但它所需要的比特率高,通常能在6 4 1 6 k b s 的速率上给出 高的编码质量,当速率进一步降低时,其性能会迅速下降。典型的波形编码技术 有:p ( n 、a d p c m 、c v s d 。 参数编码是基于语音模型的,在语音编码过程中,通过语音信号的特征如音 色、音渊及其他特征,进行提取和编码,求出语音模型中的相关参数,例如激励 源参数、信道响应参数等。在语音合成时,利用这些参数合成语音,力图使蘑建 语爵信号具有尽可能高的可懂性,既保持语音的语意,而不要求合成的波形跟原 来的语音波形柏一致,这样使得蘑建语音信号的波形跟原始语音信号的波形可能 会有相当大的差别,但其编码速率很低,可低至2 4 1 2 k b s 。其致命的缺点是 和合成的语音质量较差,特别是自然度低,而且对环境噪声比较敏感,只有在安 静的环境才能得到高的可懂度。 混合编码则克服了波形编码和参数编码的缺点,同时又结合了两者各自的长 处,在4 1 6 k b s 速率上能够得到高质量的合成语音,在本质上它也具有波形编 码的优点。在混合编码技术中,只需分析- - + 部分的波形和提取关键的语音参数, 使用提取出的参数对语音样值进行合成,并将其与原始波形进行比较,然后编码 器根据实际样值和合成值之间的差异进行参数调节“1 。目前广泛使用的低速率语 音编码器,如多脉冲激励线性预测编码( m p l p c ) 、规则脉冲激励线性预测编码 ( r p e l p c ) 、码本激励线性预测编码( c e l p ) 都属于混合编码。 基r 合成分析( a b s a n a l y s i s b ys y n t h e s is ) 线性预测编码是混合编码的一 种。a b sl p a 在保留参数模型技术精华的基础上,应用知觉加权技术和波形编码 华南理工大学硕士学位论文 准则去优化激励信号,即在闭环基础上寻找主观失真最小的激励欠量。从而以低 于1 6 k b s 码率获得较高质量的合成语音。 1 2 部分语音编码的标准 1 2 1 波形编码 1 9 7 2 年,c c i t ,r ( 现在i t ut ) 制定了6 4 k b s 语音编码标准( ;7 1 1 g 7 l l 采 用脉冲编码调制p c m 编码方式。 1 9 8 4 年c c i t t 制定了3 2 k b s 语音编码标准g 7 2 l ,该标准采用自适应差分 脉冲编码调制( a d p c m ) 编码方式,在一个p c m 话路中可同时传两路电话,并能实 现g 7 1 l 建议的6 4 k b sp c m 信道与3 2 k b s 信道之间的相互转换。主要用于数字 电路增容设备( d c m e ) 。 1 9 8 8 年,g 7 2 3 被标准化,仅用于数字电路增容设备,作为2 4 k b s 和4 0 k b s a d p c m 标准,其中2 4 k b s 用于瞬时话务量超过传输容量条件下的数字电路增容设 备,4 0 k b s 能够通过9 6 k b sm o d e m 信号。 g 7 2 6 是g 7 2 l 和g 7 2 3 的联合,同时增加了16 k b sa d p c m ,主要应用于数 字电路增容设备,但是16 k b s 和2 4 k b s 编码器的语音质量达不到长途质量。 1 2 2 混合编码 以f 介绍的语音压缩编码都是基于a b s 一1 p a 的算法。 ( 1 ) g s m13 k 】s r p el t p 编码器。1 9 8 7 年,欧洲邮电协议会议上,g s m 将 这种编码器作为泛欧数字移动电话的标准。规则脉冲激励长时预测器( r p e l t p ) 采用主观加权最小均方误差准则逼近原始语音波形,具有波形编码的特点,具有 较好的自然度,对噪声及多人说话环境不敏感,抗误码性能较好。它采用长时预 测、对数面积比量化等措施,使其在1 3 k b s 速率上得到相当好的合成语音质量。 ( 2 ) g 7 2 81 6 k b sl d c e l p 。g 7 2 8 低延时码激励线性预测( l d c e l p 一 - - i m wi ) e l a yc e l p ) 编码是第一个标准化的参数语音c o d e c ,以c e l p 算法为基础。 采用后向白适应线性预测、5 0 阶合成滤波和短激励矢量( 5 个样值) 等改进方法, 达到低延时的目的,总的编码时延小于2 m s 。它对于背景噪声信号或音乐信号表 现m 非常强抗误码能力。 第一章绪论 g 7 2 8 不能片j 于主干线的连接,1 1 j 以崩到点对点的终端设备和电路增容设备 l f ,如数亨移动通信、车载卫星通信、可视电话、航天航空电话、数字电路增容 菠备( d c m e ) 、分组电路复用设备( p c m e ) 、i s d n 等,这些应用要求编码器低延时、 低码率和高质量。1 。 ( 3 ) g 7 2 3 15 3 6 3 3 k b sa c e l p 。代数码本激励线性预测编码( g c e l p ) 是i t u 多媒体通信标准h 3 2 3 中的语音编码标准。g 7 2 3 1 于1 9 9 5 年制定。它有 两种码率,高码率为6 3 k b s ,低码率为5 3 k b s 。高码率采用多脉冲最大似然量 化( m p m l q ) 编码算法,低码率以a c e l p 算法为基础。g 7 2 3 1f 1 前在因特网的 语音传输中应用得很普遍。 ( 4 ) g 7 2 98 k b sc sa c e l p 。i r u 在1 9 9 5 年提出0 7 2 9 标准,即8 k b s 共 轭结构一代数码激励线性预测编码( c s a c e l p ) 语音压缩标准。后来还通过g 7 2 9 a 和g 7 2 9 b 作为g 7 2 9 的附件。c 3 一a c e l p 编码器是基于码激励线性预测( c e i 。p ) 编码模型的。编码器对语音帧处理,语音以l o m s 对应8 0 个样点内一帧进行处理, 每帧提取c e l p 模型参数,这些参数被编码并传输。在译码端,这些参数被恢复成 激励和合成滤波器参数,并使激励通过短时合成滤波器来重建语音。 g 7 2 9 主要用于个人移动通信;低信噪比数字卫星系统;高质量移动尤线通 信、d c m e 、存储检索、分组语音和数字租用信道等。 1 3 编码技术的实现 实用的语音编码的实现方法通常有两种:第一种是用一台计算机( 微型机、 小型机或工作站) 插上一块或若干块数字信号处理板来构成,后者由通用或专用 的数字信号处理芯片( d s p 芯片) 及相应的存储芯片,接口芯片和a d ,d a 芯片 组成。第二种是由专用或者通用的d s p 芯片及其他辅助一薛片构成一个独立工作系 统。彳、= 课题采用第二种方法。 存d s p 设计制造领域,美国t t ( t o x a st f l s t r u m e n t s ) 公司是业内的领导者。 它的产品系列包括c 2 0 x ,c 2 4 x ,c 5 x ,c 5 4 x x ,c 6 2 x x ,c 6 4 x x 等定点d s p s 和 c 3 x ,c 4 x ,c 6 7 x x 等浮点d s p s ,而每个系列又有不同性能可供用户选择。 奉项目设计的系统采用了t i 公司的t m 3 3 2 0 c 6 7 1 l 浮点d s p s ,该d s p 的峰值 处理能力为9 0 0 m f i o p s ( 百万次浮点操作秒) ;片内集成大容量s r a m 。具有3 2 位的外部存储器接口( e m i f ) ,可访问的最大外部储存器空间为5 1 2 m 字节,可实 现与同步存储器( s d r a m 或s b s r a m 之一) 和异步存储器( s r a m 和e p r o m ) 的无缝 3 华南理工大学硕上学位论文 接口。具有1 6 通道的增强直接存储器访问( e d m a ) 控制器,两个多通道缓冲串行 端u ( m c b s p ) 。 1 4 本研究课题的来源和论文的主要工作 本课题来源于广东省工业攻关项目基于嵌入式l i n u x 操作系统的网络多媒 体交瓦式实时传输系统丌发( 编号2 0 0 2 a 1 0 3 0 4 0 5 ) 中的子课题。术沦文主要研 究重点是存t m s 3 2 0 c 6 7 1 1 数字信号处理芯片上实现g 7 2 9 语音压缩编码算法。 本论文的结构: 第一章:绪论,概述了语音编码技术的基本原理,目莳国际上语音h 缩编码 的部分标准以及本研究课题的采用的数字信号处理器。 第二章:阐述了g 7 2 9 语音编码算法( 采用共轭结构代数码激励线性预测的 8 k b s 语音编码技术) 的基本原理。 第三章:阐述了t m s 3 2 0 c 6 7 1 1d s p 芯片的基本结构和工作原理。 笕网章:阐述了基于嵌入式操作系统的网络中断系统的整体方案设计以及语 音编码部分的硬件测试平台t m s 3 2 0 6 7 1 1d s k 的基本结构。 第_ 五章:阐述了本研究课题的语音编码部分的实现。 结论。 最后是参考文献、攻读学位期间发表的与学位论文内容相关的学术论文和致 谢。 第章采州共轭结构代数码激励线十牛预测的8 k h s 语音编码技术 第二章采用共轭结构代数码激励线性预测的8 k b s 语音 编码技术 2 1 c s a c e l p 语音编码算法概述 i + r u t 在1 9 9 6 年3 月公布了( ;7 2 9 建议的8 k b s 共轭结构代数码激励线性预 测( c sa c e l p ) 语音编码方案。在采用该语音编码算法进行编码之前,首先对模 拟输入信号进行电话带宽滤波( g 7 1 2 标准) 紧接着进行8 0 0 0 h z 的抽样并转换成 】6 位线性p c m 信号才作为编码器的输入。同样,解码后的输出也以类似的方式转 换为模拟信号。而对于其他输入,如i t ug 7 儿建议指定的6 4 k b i t s 的p c m 信号, 则要在编码之前先转换为1 6 位的线性p c m 信号,而在解码后也把1 6 位的线性p c m 信号也转换成相应的格式。 c s a c e l p 编码器是基丁二码激励线性预测( c o d e e x c i t e dl j1 e l rp r e d i t i o n : c e l p ) 编码模型。编码器每次对帧长为1o m s ,抽样率为8 k 情况下的每8 ( ) 个1 6 位的线性p c m 样本进行运算。每一个1 0 m s 帧,对语音信号进行分析,提取c e l p 模氆的参数,这些参数包括线性预测滤波系数,自适应码本和固定码| ;奉= 中码本序 号、自适应码矢增量和固定码矢增量。然后将这些参数进行编 码并传送出去。参数编码的比特分配如表2 1 所示。 表2 18 k b sc sa c e i 。p 算法比特分配( 1 0 m s 帧) t a b l e2 一l8 k b i ta 1 1 0 c a t i o no ft h e8 k b i t s c s a c l e pa l g o r t h m ( 1 0 m sf r a m e ) 参数码字子帧l子帧2每帧总数 线谱对l o ,l 1 ,i 2 ,l 3 1 8 自适应码本时延p 1 ,p 2 851 3 基音时延奇偶性 p o11 固定码本索引c 1 c 2 1 31 32 6 固定码本符号 s i s 2448 码本符号 ( 认1 g a 2336 码本符号g b l ,g b 2 4d8 合计 8 0 5 华南理1 :夫学硕+ 学位论文 存解码端,把收到的比特流恢复成参数编码,解码后得到各个参数,用自适 应码矢序号从自适应码本中得到自适应码矢,用固定码矢序号从同定码本中得到 围定码矢,分别乘以它们的增益按点相加后构成激励序列。用线性预测滤波器系 数构成合成滤波器。用所谓的白适应码本实现长时或基音合成滤波,计算出合成 语音后,用后置滤波器进一步增强音质。” 2 1 1 编码 图2 1c s a c e l p 编码器的编码原理框图 f 1 g u r b 21 b l 。c kd i a g r a mo fc o n c e pl u a lc s a c e l ps y n t h e s i sm o d e l 图2 1给出了编码原理框幽。输入信号先经过高通滤波预处理,每l o m s 帧 做次l p ( l i n e rp r e d i or i o n ) 分析,计算l p 滤波器系数,这些系数转换成线谱 对( l j n es p e c t r u mp a i r s :l s p ) 并用两级1 8 b i t 矢量量化。然后按照原始信号与 重构信_ 弓2 _ 1 日j 误差知觉加权最小化的原则,通过分析一合成来获得激励信号。而知 第二章采用共轭结构代数码激励线性预测的8 k b s 语音编码技术 觉加杈滤波器用未量化的l p 系数构造而成。知觉加权的量是以保证输入信号的频 响是平的而白适应调整。 激励参数( 崮定和自适应的码书参数) 每个子帧( 即5 m s ,4 0 个样点) 确定一 次。量化的和未量化的l p 滤波系数用于第二子帧,而在第一子帧使用内插的l p 系数,根据知觉加权语音信号每1 0 m s 帧估计次开环基音延时。下面的操作每个 了帧都重复进行。f 1 标信号x ( 丹) 是由通过加权合成滤波器( z ) a ( z ) 滤过的i , p 残 差计算得到的。由l p 残差和激励之间误筹滤波修改这些滤波器的初始状念,这等 效于从加权语音信号中减去加权合成滤波器的零输入响应。计算加权合成滤波器 的脉冲响应h ( n ) ,然后用目标x ( ,1 ) 和脉冲响应,l ( ,1 ) 搜索开环基音延时附近的值作 闭环基音分析( 即寻找白适应码本延时和增量) ,分数基音延时( f r c t i o n a lp i t e h d e l a y ) 分辨率1 3 样点间隔,在第一了帧用8 b i t s 基音时延编码,在第二子帧用 5 b jt s ,从目标信号中减去自适应码书的贡献。新的目标信号x ( n ) 用于同定码本 搜索寻找最佳激励,1 7 b i t s 的代数码书用于固定码本编码。自适应码本和吲定码 本的增益用7 b i t s 组合矢量量化。最后,用确定的激励信号修改滤波器存储器。 2 2 2 解码 l i 五习 磊一 图2 - 2c s a c e l p 解码器的原理框图 f i g u r e 2 2p r i n c i p eo ft h ec s a c e l pd e c o d e r 图22 给卅了解码器原理框图。首先从接收码流中提取参数序号,解码这些 序弓得到l ( ) m s 语音帧对应的编码参数。这次参数是l s p 参数,两个分数基音延时, 两个分数基音延时,两个固定码本矢量与两组自适应和固定码术属性,每子帧i s p 参数被内插并转换为l p 滤波器参数,然后每5 m s 子帧按下面进行: 华南理丁人学硕+ 学何论文 ( 1 ) 自适应和固定码本分别乘以各自的增益加起来构成激励。 ( 2 ) 激励l p 合成滤波器重构语音。 ( 3 ) 重构语音信号经过后置处理,包括长时后置滤波、锕时合成滤波和高通 滤波。 2 2 3 延时 这个编码器用1 0 m s 帧编码语音和其他语音信号。另外,考虑将来的5 m s ,结 果总的算法延时15 m s ,在实际编码中所有的延时包括: ( 1 )解码的处理时间。 ( 2 )在通信链路中的发送时间。 ( 3 ) 当组合其它数据和声音数据时的复合时延。“3 2 2 编码器原理 跟其他参数语音编码算法相比较,g 7 2 9 用到的关键算法主要有:成窗与自 相关计算,丌环基音分析,自适应码本搜索,除此之外,g 7 2 9 系列还包括附件 a ,附件b 。在g 7 2 9 b 中还具有一个重要的功能一静音检测与静音压缩。 下而说明语音编码的过程,详细的信号流程见图2 3 所示。 2 2 1 预处理 输入语菏编码器的信号是1 6 b i t s 线性p c m 语音信号。在语音编码处理之前必 须先经过两个与处理功能块:数据缩放一一将输入样点值都除以2 ,避免处理中 产生溢出;高通滤波一将数据缩放后通过一个截止频率为1 4 0 h z 的高通滤波器, 消除0 i 必要的低频成分。存( ;7 2 9 中,这两者被结合起来,用一个二阶极零点滤 波器1 1 。( z ) 实现。 日肼( z ) 0 4 6 3 6 3 718 - 0 9 2 7 2 4 7 0 5z - 1 + 0 4 6 3 6 3 718z - 2 1 1 9 0 5 9 4 6 5 z 1 + 0 9 1 1 4 0 2 4 z 2 ( 2 一l ) 经过预处理后的语音信号表示为s ( 1 1 ) 。 第二章采用共轭结构代数码激励线性预测的8 k b s 语音编码技术 9 錾鼍。嚣皿甜u鳓。麓参口磷喇丞键盘p0叩n罄n嚣鬣 飘磷爨帮嫩雒禽鹱盈鑫兮,鳓u m譬。n矗翅 女l*_襄 ,iiillll_i,_il_liiilll m#-_口 华南理】人学硕上学位论文 2 2 2 线性预测( l p ) 分析和量化 线性预测分析足进行语音信号分析最有效,最流行的分析技术之一。语音线 性预测分析的基本途径是:求解一族预测器系数,使得在一短段语音信号序列中 均方预测误差最小,并把如此求得的参数认为是语爵产生模型的参数。 存g 7 2 9 巾,用1 0 d 线性预测( l p ) 作短时分析,i p 合成滤波器定义为: 1 a ( z ) 这m 的五。o = 1 ,, 1 0 ) 是量化线性预测系数。 ( 2 2 ) 首先对语音信号s ( n ) 进行3 0 m s 非对称加窗处理,并对8 0 点的语音信号求其 自牛辩火系数,采用l e v in s o n - d u r b i n 算法计算其l p 系数,然后转化为l s p 系数, 在l s 域进行量化和内插。对量化和末量化的滤波器系数都要做内插,构成合成 及加权滤波器。 222 1 加窗和自相关函数的计算 图24 给出了混合窗的示意图,它由两部分构成,前半部分是1 2 哈明窗,后半 部分是1 4 余弦函数: ( 2 3 ) 其中有5 m s ( 1 0 个样点) 来自下一帧,1 5 m s ( 1 2 0 个样点) 来自k 一帧,当前帧 1 0 m s ( 8 0 个样点) 加窗过程如图25 所示 加窗语音s ( n ) 为 s ( n ) = 0 ( n ) 3 ( 厅) ,竹= 0 ,2 3 9 ( 2 4 ) 对应的自相关函数r ( k 、为 r ( 七。薹3 ( h ) 5 ( ,i 一七) = o ,1 o2 5 1 0 一 ; 眵 观 j 2 o q = 0 l 2 n = 丌一9 n e 4 搏一1 c ;塑 一 2 一 酬 = 第一章采用共轭结构代数码激励线性预测的8 k b s 语音编码技术 图2 4 f i g u r e2 4 混合窗 m i xw i n d o w e ,;兰i 至复藿z 虿乏垄复笙万琴丝i 薹 l ! 宙 眵_ 二;_ 乏菱i 兰至i ,一j 冤至夏瑗乏堑卜一j 图2 - 5在l p 分析中的加窗过程 f u g u r e2 - 5w i n d o w i n gp r o c e d u r e ir ll pa n a l y s is 为了避免低电平输入信号的r ( 0 ) 值得算术问题,是r ( 0 ) = 1 0 为下界,用 ) 乘以自相关函数使其有6 0 h z 的带宽扩展。 w l a g - = e x p 卜警小乩川6 , 这里f o = 6 0 h z 是扩展的带宽,f 一8 k h z 是采样频率,对r ( o ) 乘以白噪声校一 冈了1 0 0 0 1 ,实际j 二相当- y 增d n 一个一4 0 d b 的噪声基数。则修改后自相关函数由 下式给:且: r ( o ) = 1 0 0 0 1 r ( o ) r t = 。r ( 2 7 ) ( 2 - 8 ) 华南理 大学硕十学位论文 2 2 2 2l e v in s o n d u r b i n 算法 用修正自相关函数r ( 女) 求解线性预测滤波器系数n ,即求解下述方程组: 七i ) = 一r ( 七) ,k = l ,1 0( 2l o ) 这里用经典的l e v i n s o n d u r b in 算法求解。” 2 2 2 3l p 系数转换为l s p 系数 为了量化和内插,这组l p 系数a 。 按照下列方程构造一个对称多项式和 就是l s p 系数: ( i = 1 , l o ) 转换为l s p 系数。用l p 系数 个对反对称多项式,这组差分多项式的根 e ( z ) = 月( z ) + z 4a t z1 ) ( 2 一l o ) ( z ) = 4 ( 2 ) 一z 。! a ( z 。1 ) ( 2 1 1 ) 这些多项式的根在单位圆上,而且相匣交替出现。其中f 1 ( z ) 必有一个根 z 一一1 = 厅) ,而z ) 必有一个根z = l ( 0 j = 0 ) 。那么定义新的多项式: f a ( z ) = 等( 2 - 1 2 ) f 2 ( z ) = 笋( 2 - 1 3 ) 每个多项式各有5 个共轭复数根,都在单位圆上且相互交错。用c h e b y s h e v 多项式估计e ( z ) 和e ( z ) 的解,即可得到在余弦值域中表示的l s p 系数q i 。由丁后 续屋化过程均为矢量量化,将l s ? 用规一化的弧度表示较为方便,这两种表示形 式的关系是:q ,= c o s ( 0 9 1 ) ,i = 1 , - - - , 1 0 。其中呸为l s p 的余弦值域表示,而q 为l s p 的频率域表示。 叩 m m 笙三茎鲞旦茎塑茎塑! ! 墼翌塑壁垡竺垄型塑! 些! :堕童塑里垫查 2 2 2 4 l s p 系数的量化 l s p 系数日f 的量是用归一化频率【o ,万】的1 s f 脚。表示的,叩 j a r c c o s ( q i ) ,i = 1 ,1 0 ( 2 - 14 ) 用4 阶m a 预测器来预测当前帧的i s f ( l i n e rs p e c t r a lf r e q u e n c i e s ) 系数, 计算的和预测的i ,s f 系数的差用二级矢量量化。第一级用1 0 维v q ,用7 b i t s 编 码( 1 2 8 个编号) ,l l 表示码本:第二级将l o 维分裂为两个5 位的码今,l 2 表示 较低的5 维,l 3 表示较高的5 维,分别用5 b i t s 编码。“1 2 2 2 5 l s p 系数的内插及转换为l p 系数 量化的( 非量化的) l p 系数用于第二子帧。对于第一子帧,量化的( 非量化 的) i p 系数足用相邻予帧的对应参数线性内插得到的。l s p 系数内插是在余弦域 进行,而不是在而不是在频率域进行的。一旦l s p 系数被量化和内插,就转换为 i p 系数口。用于构成感知加权滤波和合成滤波器。 2 2 3 知觉加权 感觉加权滤波器实际上是利用人耳听觉的“掩蔽效应”对噪声频谱进行整形, 使共振峰处的噪声能量较大,其他处噪声的能量较小,从而使激励信号的选择适 应丁人耳的听觉。 ( ;7 2 9 用到的知觉加权滤波器是基于未被量化的l p 系数n 。 晔,2 制2 嚣 ( 2 一1 5 ) 其中y - 和,:决定滤波器( z ) 的频响。适当调整这两个值可以使加权更有效。 这些值每1 0 m s 帧调整一次,而每个第一子帧的内插被用于平滑这一过程。如果子 帧的内插频谱特征为平坦,则加权因予y 。;0 9 4 ,r := 0 6 ;如果子帧的内捅频谱 特征为倾斜,则 = 0 9 8 ,而扎的值臼适应于l p 合成滤波器的谐振强度,其范嗣 华南理一大学硕士学位论文 在0 d 到0 7 之间,当出现强的谐振,则儿的值会接近上界,根据当前了帧连续 两个l s p 系数之间的距离最小准则达到自适应。 每个子帧中的加权语音由以卜- 公式给出: s 吣) = s ( 珂) + 硝s 。一。一戌s 吣一) ,删,3 9 ( 2 - 1 6 ) 加权后的浯音信号一( n ) 用于开环基音延时估计。 2 2 4 开环基音分析 为了减少最佳自适应码本延时的搜索的复杂度,由丌环基音分析得到乙,搜 索范团限制在延时乙附近。每1 0 m s 帧作一次,开环基音估计用加权语音信号 s w ( n ) 。先找三个最大的自相关函数: 删2 荟呻) s 哪一七) ( 2 - 1 7 ) 在以卜二个范围内寻找: 持1 :8 q ,1 4 3 扛2 :4 q ,7 9 i = 3 :2 q , 3 9 保留最大的r ( t f ) ,f = l 3 ,然后归化: r ( ) r ( t ,) 压蕊 ,i = 1 , 2 , 3 ( 21 8 ) 存较低的范围内的短延时作为三个归一化自相关的选中者,这样加权归一化自丰h 关对应较长的延时。下面的算法确定最好的开环延时乙: 乙一t 1 r ( 乙) = r ( f - ) i f r ( f z ) 0 8 5 r ) 笙三至墨塑苎塑笙塑垡垫里堂壁垡堡望型塑! 些! ! 至童塑型堇查 足( 乙) = r o :) t q = t 2 e n d i f r ( f s ) 苫0 8 5 r ( 乙) r ( k ) = r ( f ,) l = t 3 er l d 这个过程将延时范围分为三部分,有利于选较小的值,避免了基音的倍频。”1 2 2 5 自适应码本搜索 在进行自适应码本搜索前,要先计算用于码本搜索的目标信号x ( ,1 ) 。它是从 加秘语音信号s w ( n ) 中问去加权合成滤波器的零输入响应。等价的过程是:用l p 滤波器的残差通过感觉加权滤波器和合成滤波器的缴连滤波器。实际上就是去除 语音短时相关性的语音短时残差信号。 自适应码本参数( 或基音参数) 是延迟和增益。在搜索阶段,l p 残差扩展激 励使闭环搜索简单化。每一子帧( 5 m s ) 作一次自适应码本搜索。在第一子帧,基 音延时正在1 1 9 ,8 4 号l 范围,分辨率为1 3 分数延时,在 8 5 ,1 4 3 范围内是整数延 时。在第二子帧,延时l 在l n 蛔i ) 一5 号,i n t ( t 1 ) + 4 号j 范围内,分辨率在1 3 的分数 延时。这里i n t ( 互) 是取分数延时互的整数部分,这个范围适合于互跨存延时范围的 边沿的情况。”1 用闭环分析最小化加权均方误差来决定每个子帧的最佳延时。在开环延时 乙刚近小范围的延时值( 6 个样点) 搜索第一子帧延时l ,搜索上下界由卜面算 法给出: t 。= i 。一3 i f t m 。 1 4 3 t h e n t 一一1 4 3 t 。;f 。一6 1 5 华南理工大学硕上学位论文 对于第二子帧,是在已选第一子帧基音的附近去寻找最件的延时疋,搜索边 界为t 。一;和t 。+ 号。这里的t 和t 是由王推m 的。 t 。= i n t ) 一5 i f t m m 1 4 3 t h e n t 。= 1 4 3 t w 。= t 。一9 e n d 闭环基音搜索的准则是使原始语音和重构语音之问均方加权误差最小化,即 使r ( 七) 最大。1 3 r ( 七) = 芝翌! 兰嫂墨盟 :。儿( n ) y 。( ,z ) ( 2 1 9 ) 这里x ( n ) 是目标- - 1 _ 亩丐t :a ,y k ( n ) 是延迟k 时刻的经过滤波的激励( 即过去时刻的 激励与h ( n ) 的卷积,其中h ( n ) 是加权合成滤波器w ( z ) a ( z ) 的冲激向应) 。 对于确定的疋与五,当最佳的整数闭环延时小于8 5 的时候,要对最佳延时 附近的儿个分数点进行测试。通过对h 式的归一化相关函数r ( k 1 进行内插并搜索 m 最火值来实现分数基音搜索。内插使用f i r 滤波器岛2 ,截止频率为3 6 0 0 1 l z 。 尺( 尼) 的内捅值在2 3 ,一l 3 ,0 ,1 3 ,2 3 处的值通过以下公式来计算 33 尺( 七) 。;r ( k i ) b 1 2 0 + f 3 ) + r ( k + 1 + i ) b 1 2 ( 3 一t + f 3 ) , i 一0i 0 t = 0 ,1 ,2 ( 2 2 0 ) 在确定基音延时后,在给出的整数延时k 和分数延时t 处内插过去的激励来训 算自适应码本矢量v ( n ) 。这里用的内插滤波器为f i rb 3 。,其截至频率为3 6 0 0 h z 。 第二覃采f ; 共轭结构代数码激励线性预测的8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院自主招聘合同模板
- 产品进销合同范例
- 个人与开锁合同范例
- 04版城市轨道交通装载机租赁合同
- 代理记账行业合同范例
- 合作租赁建房合同范例
- 多媒体展厅合同范例
- 外围装修合同模板
- 买卖礼品合同模板
- 关于会计合同模板
- 合伙开工厂合同范例
- 二年级上册《生态 生命 安全》教案
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)地理试卷
- 《酒泉市旅游民宿高质量发展特征、面临的问题及完善策略》
- 无人机租赁合同
- 全国职业院校技能大赛高职组(酒水服务赛项)备赛试题库(含答案)
- GA 667-2020防爆炸透明材料
- 幼儿园《警察职业介绍》PPT
- 新形势下如何创新统计工作
- 民航服务心理学课程标准-
- 物业管理服务的整体设想及策划
评论
0/150
提交评论