(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf_第1页
(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf_第2页
(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf_第3页
(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf_第4页
(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)双速率语音压缩编码方法研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包括其他人已经发表或撰写过的研究成果;也不包括为获得西安电子科技大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 本人签名趣幽垡日期塑q 三:l :! 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:学校 有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部或 部分内容,可以允许采用影印、缩印或其他复制手段保存论文。( 保密的论文在解 密后遵守此规定) 本人签名赵鸥垡 导师签名邋量犟 导师签名型芏壹生 日期2 2 :us 日期童型之:幽 摘要 摘要 论文在系统研究双速率语音编码标准g 7 2 3 1 的基础上,根据工程项目的实际 要求,设计了一种多功能数字语音答录系统。该系统采用了a d i 公司的数字信号 处理芯片a d s p2 1 8 1 ,应用g 7 2 3 1 标准对语音进行压缩编码;针对原算法运算 复杂度较高的不足,结合实际应用,对算法信道抗干扰部分和运行模式进行了改 进,提出了应用于语音存储的算法,并利用a s d p2 1 8 1 汇编语言实现了该算法, 对原来基于c 语言的程序进行了优化,提高了系统效率。由于结合了d s p 技术和 高效压缩算法,该数字应答录音系统具有较高的性能价格比,可望得到推广应用。 关键词:语音编码数字语音答录系统 g 7 2 3 1a d s p2 1 8 1 a b s t r a c t o nt h eb a s i so ff u r t h e rs t u d yo nt h eg 7 2 3 1s t a n d a r d t h i sp a p e rp r e s e n t sa m u l t i f u n c f i o n a l d i g i t a ls p e e c ha n s w e r i n g r e c o r d i n gs y s t e ma c c o r d i n g t ot h e r e q u i r e m e n t so fp r o j e c ti t e m t h es y s t e mc o m p l i e sw i t hg 7 2 3 1t oc o m p r e s ss p e e c h s i g n a lu s i n ga d s p 一2 1 81c h i po fa d i d u et ot h eh i g hc o m p l e x i t y ,s o m ei m p r o v e m e n t s h a v eb e e nm a d ei nc h a n n e la n t i i n t e r f e r e n c ea n dr u n n i n gm o d ei na c c o r d a n c e 砸出 a c t u a ls t o r i n ga p p l i c a t i o n f u r t h e rm o r e ,t ob r i n gu pt h es y s t e me f f i c i e n c y ,t h ea l g o r i t h m h a st o t a l l yb e e nw r i t t e ni n a d s p 一2 1 8 1a s s e m b l yl a n g u a g ea n do p t i m i z e d i ns o m e d e g r e e t h eu s eo fd s pt e c h n o l o g ya n da l g o r i t h mw i t hh i g hc o m p r e s s i n gr a t i oi n c r e a s e s t h ea d v a n t a g e so ft h es y s t e m s ot h ed i g i t a la n s w e r i n g - r e c o r d i n gs y s t e mh a sh i g h c a p a b i l i t yt op r i c er a t i o a n di t sm a r k e ta p p l i c a t i o nf i e l da n df o r e g r o u n dw i l lb ev e r y 谢d ea n di m p o r t a n t k e y w o r d s :s p e e c hc o d i n g d i g i t a ls p e e c ha n s w e r i n g - r e c o r d i n gs y s t e m g 7 2 3 1a d s p2 1 8 1 第一章绪论 第一章绪论 1 1 引言 随着多媒体信息的急剧增长,对信息进行处理和有效存储及传播的研究逐渐 成为目前的热点,而对语音信息的处理、存储和传播,也有越来越多的需求。 使语音信号数字化的语音编码技术,可以提高语音数据存储、传输的质量, 易于对信息加密和处理,同时方便多种媒体( 视频、音频、文字、数据) 的综合 应用。数字存储与模拟存储相比具有很多优点,如存储的高可靠性和检索的高效 性。但在实际应用中,必须解决数据量大的问题,即对数据进行压缩处理。应用 压缩技术,可以减少数据存储的容量,降低存储成本。所以,在尽可能减少失真 的情况下,高效率地对模拟信号进行数字表示,即压缩编码,就成为语音编码技 术的主要内容。 语音信息压缩的基本依据是语音信号的冗余度和人类的听觉感知机理j 【“。语 音信号的冗余度主要由时域信息冗余度和频域信息冗余度构成,而根据人类的听 觉感知机理也可知,人耳听不到或感知极不敏感的声音分量可看作是冗余的。充 分利用语音信号的冗余度和人类的听觉感知机理来编码可以实现语音信号的高效 压缩,例如非均匀标量量化( 幅度分布呈非均匀性) 技术、l p c 技术( 样本间具 有相关性) 和感知加权技术等( 人类的听觉感知机理) 。 语音编码技术的研究始于二十世纪三十年代,当时d u d d l y 发明了声码器,该 声码器也成为第一个语音压缩系统。这一发明奠定了语音产生模型的基本思想, 在语音信号处理领域具有划时代的意义。伴随着信息时代的发展,人们迫切需要 以有限资源满足尽可能多的通信和存储需求,这样就从客观上要求语音编码技术 实现更好的音质、更低的速率。八十年代以来,语音编码技术领域有了惊人的进 步。美国推出l p c 一1 0 标准算法,实现普通电话带宽信道中传输数字电话。其后, 陆续出现了码激励线性预测( c e l p ) 编码算法、规则脉冲激励线性预测编码算法 等,这些编码技术均可以提供良好的音质、比较高的压缩率,在通信和存储方面 得到了广泛的应用。 本章首先介绍语音编码的性能指标及质量评定,其次给出语音编码技术的分 类、发展及标准,然后介绍本课题的主要工作及论文的安排。 双速率语音压缩编码方法研究与应用 1 2 语音编码的性能指标及质量评定 人们往往希望通过语音编码得到的语音音质好,压缩编码算法实现简单、低 速率,与之相对应,评价一个语音编码算法和语音质量的优劣可使用如下几个性 能指标l 1j i 副; ( 1 ) 编码速率。也叫比特率,为编码器传输比特流的速率,它影响重建语音 质量,反映编码器的压缩特性,决定存储容量和通信时编码器占用的信道带宽。 ( 2 ) 编解码的算法复杂程度。编解码的算法复杂程度与语音质量有密切的关 系,同等比特率的情况下,算法复杂程度越高,语音质量越好。但是,算法复杂 程度越高,实际实现中对硬件的要求如芯片的运算处理能力、支持特定的编码过 程所需的r a m 存储容量等就相应越高,不利于推广应用。通常情况下应根据实际 需要协调考虑。 ( 3 ) 系统时延。时延决定各种编码器对特定应用的适应性。对于只涉及单向 语音传输的应用,编码器的时延几乎可以不受限制,而对于实时对话的编码器则 不能有太大的时延,否则,就不能满足系统要求。一般情况语音以帧为单位进行 处理,整个系统时延由帧时延( 帧长度) 、算法时延( 处理时延) 、前视时延( 前 导) 、传输时延和复用时延等组成。语音编码算法决定帧时延和前视时延,它的 复杂度将对处理时延产生影响。网络连接决定传输时延和复用时延。 ( 4 ) 语音质量。重建语音的质量是评价编解码算法和系统性能的关键指标之 一。评定方法可分为主观评价和客观评价两种,在比特率较高的波形编码中可用 客观指标如信噪比、分段信嗓比等来衡量语音质量,但在低比特率情况下如果采 用合成分析的编码方法,则应用客观指标很难来衡量语音质量的好坏。此时一般 采用主观评价方法,通过重建语音的清晰度、可懂度和自然度等人耳听觉响应来 进行语音质量评价。常用的主观评价方法有平均判分法( m o s ) ,分为优秀、良 好、一般、较差、恶劣等五等级;判断韵字测试( d r t ) 和判断可接受程度测试 ( d a m ) 法等。 1 3 语音编码技术的分类、发展及标准 语音编码技术按编码后传输比特率来分【1 ,有高速率( 3 2k b p s 以上) 、中高 速率( 1 6k b p s 3 2k b p s ) 、中速率( 4 ,8k b p s m 6k b p s ) 、低速率( 1 2k b p s 4 8k b p s ) 和甚低速率( 1 _ 2k b p s 以下) 等五种。 按编码方法则分为三种类型【1 1 :波形编码、参数编码( 声码器) 和混合编码。 按编码方法则分为三种类型:波形编码、参数编码( 声码器) 和混合编码。波形 第一章绪论3 编码的原则是尽可能使重建语音保持原始语音的波形。它通常将语音信号作为一 般的波形信号来进行数字压缩。它具有适应能力强、抗噪性能好和语音质量好等 特点,但码速率一般较高( 1 6k b p s 以上) 。脉冲编码调制( p c m ) 、自适应增量 调制( a d m ) 、自适应差分脉冲编码调制( a d p c m ) 、自适应预测编码( a p c ) 、 自适应子带编码( a s b c ) 、及自适应变换编码( a t c ) 等均属于波形编码。 与波形编码不同,参数编码( 声码器) 不会再生原始波形。这种编码方法通 过对语音信号提取特征参数发送到解码端,解码时尽可能使重建语音具有较高的 可懂度,来保持原有语音的语意,而重建语音信号波形可能与原有语音波形有较 大的差别。它的优点是编码速率比较低,甚至可在2 4k b p s 以下,但重建语音质量 往往不够好,自然度较低,特别是抗噪能力较差。这类有线性预测声码器( l p c ) 、 同态声码器和共振峰声码器等。 混合编码,它融合了波形编码的高质量潜力和参数编码的高压缩效益的长处, 将语音编码技术推进到一个新的高度,产生了新一代编码器。它可以工作在非常 低的比特率( 4 1 6k b p s ) 下,而且还能获得高质量的重建语音。多脉冲激励线| 生 预测( m p e l p ) 、规则脉冲激励线性预测( r p e l p ) 和码激励线性预测( c e l p ) 等为此类编码的代表。 吲1 1 台成分析编、解码框图 混合编码器【lj 利用线性预测、合成分析等技术进行编码。如图1 1 所示,合成 分析技术将综合器引入编码器中,使之与分析器相结合,在编码端产生与解码端 一样的合成语音,将之与原始语音进行比较,根据均方误差最小准则,调整计算 参数,来获得最佳效果语音的编码参数。在解码端进行参数解码,恢复激励和合 成滤波器,这样,得到重建语音。 八十年代以来,出现过许多典型算法,如l p c 一1 0 ,是最早的参数编码器。这 双速率语音压缩编码方法研究与应用 个算法可合成清晰、可懂的语音,主要应用在军事和保密电话上。它是1 0 阶线性 预测声码器,速率可降至2 4k b p s 。它基于全极点声道模型的假定,采用线性预测 合成分析原理,以帧为单位提取声源和声道的特征参数,再运用这些特征参数重 新合成语音。特征参数有:全极点模型的谱参数、增益、清,浊音判别信息和浊音 的基音信息。根据参数信息来选取激励源去激励声道滤波器,得到合成语音。若 是清音帧,则以随机数作为激励源;若是浊音帧,那么就让以基音周期重复的脉 冲序列作为浊音激励源。 l p c 一1 0 虽然码速率较低,但也存在以下几个问题【1 1 1 2 1 : 1 合成语音的自然度较低。这是由于系统采用简化的二元激励,来模拟 原始语音的激励。实际情况下,激励则很难简单划分为清音和浊音, 特别是在语音过渡带。用过于简单的二元激励代替语音余量信号,必 然使合成语音听起来不够自然。 2 鲁棒性较差。在噪音背景下清浊音的判决和浊音的基音检测准确性较 低,特别是在语音过度带,对这些参数的提取就更容易出错,这将严 重影响合成语音的清晰度。背景噪音增强时,合成语音的质量就会显 著下降。 3 l p c i 0 的语音谱共振峰位置及带宽估计有时会产生较大失真。因为浊 音语音段时域上的周期信号使得短时语音谱形接近线性分布谱。l p c 谱估计以全极点模型谱逼近于信号谱包络,本身就存在差异。在估计 出的谱包络中出现的尖锐的峰值,对应在合成语音中即为尖峰或较大 的毛刺,影响了合成语音的质量, 经过多年的深入研究,人们发现,导致问题的主要原因在于激励信号选取太 过简单。基于这种认识,针对线性预测模型中的激励源,出现了许多改进方案, 均获得不同程度的效果的提高,码激励线性预测算法( c e l p ) 就是比较典型的一 种算法。 码激励线性预测算法( c e l p ) ,将激励信号可能出现的样值的组合按一定规 则进行排列,构成码书( 或码本) 。每组样值组合均具有一地址码,编码端和解 码端各存一码书,在编码端从码书中搜索与当前信号最接近的样值组合的索引号, 将此索引号送到解码端。解码时按接收的索引号从码书中取出相应的激励信号, 通过合成滤波器,得到重建语音。由于该算法传送的是索引号,所以相比传输余 量信亏本身而吉,便极大程度减少了传输比特数。码激励线性预测算法采用了线 性预测合成分析技术,同时结合矢量量化、感觉加权、后滤波技术,在比较低的 工作速率下较好解决了激励源的问题,提高了合成语音的质量。现在,c e l p 及其 第一章绪论 5 衍生的算法在现代通信系统中得到广泛的应用,是目前最为流行的算法。 语音编码技术发展到现在,出现了许多优秀编码算法,在实际中得到广泛应 用。如表1 1 所示: 表l _ 1 语音编码标准 标准采样率 编码速率 编码制式年代 m o s 名称k h z k b p s g 7 1 186 4p c m7 24 3 g7 2 68 1 6 ,2 4 ,3 2 ,4 0 a d p c m8 4 8 84 1 g 7 2 881 6l d c e l p9 241 g 7 2 988c s a c e l p9 541 g 7 2 3 185 _ 3a c e l p9 53 8 g 7 2 3 186 _ 3 m p - m l q 9 54 0 g 7 2 2 1 64 8 - - 6 4s b a d p c m 8 83 7 4 l f s l o l 58 2 4l p c - 1 08 22 5 f s l o l 684 8c e l p8 93 0 g s m8】3r p e l t8 83 7 l s 一5 488v s e l p8 93 7 i n m a r s a t 84 1 5i 【b e9 13 4 m i s 一9 681 8 q c e l p 9 53 7 注:编码制式意义如下: p c m :脉冲编码调制( p u l s ec o d em o d u l a t i o n l a d p c m :自适应差分脉冲编码l j ( a d a p t i v ed i f l e r e n t i a tp u l s ec o d em o d u l a t i o n ) s b a d p c m :子带目适应差分脉冲编码调制f s u b b a n da d a p t i v ed i f f e r e n t i a lp u l s ec o d e m o d u l a t i o n ) l p c 一1 0 :政府标准线性预测编码算法l p c 1 0 ( g o v e r n m e n ts t a n d a r dl i n e a rp r e d i c t i v ec o d i n g a l g o r i t h m ) m e l p :混合激励线性预测编码算法( m i x e de x c i t e dl i n e a rp r e d i c t i v ec o d i n g ) c e l p :码激励线性预测编码算法( c o d ee x c i t e dl i n e a rp r e d i c t i v ec o d i n g ) a c e l p :代数码激励线性预测编码算法( a l g e b r a i cc o d ee x c i t a t i o nl p c ) l d c e l p :低延时c e l p ( l o wd e l a y c e l p ) q c e l p :q u a l c o m 公司为i s 一9 6 移动蜂窝网研制的一种变速率c e l p ( q u a l c o m c o d e e x c i t a t i o n l p c ) c s a c e l p :共轭结构算术c e l p ( c o n j u g a t e s t r u c t u r ea l g e b r a i cc e l p ) v s e l p :矢量和激励l p c ( v e c t o rs u me x c i t a t i o nl p c 、 r p e l t :规则脉冲激励长时l p c ( l o n gt i m ep r e d i c t i v er e g u l a r p u l s ee x c i t a t i o nl p c ) m p l p c :多脉冲激励l p c ( m u l t i p u l s ee x c i t a t i o nl p c ) 一 m p m r _ q :多脉冲最大似然量化( m u l t i p u l s em “i m u ml i k e l i h o o dq u a n t i z a t i o n ) m b e :多带激励语音( m u l t i b a n de x c i t a t i o ns p e e c hc o d i n g ) 双速率语音压缩编码方法研究与应用 1 4 本文的主要工作及内容安排 本文从理论上对语音编码技术进行了研究和探讨,特别是对双速率语音编解 码算法g 7 2 3 1 进行了深入研究,并将其应用于数字录音系统中。根据实际应用要 求,对算法进行了改进,并利用a s d p2 1 8 i 汇编语言在a d i 公司数字信号处理芯 片a d s p2 1 8 1 上对算法全汇编实现和优化,提高了系统效率。同时,设计了数字 语音录音系统的硬件电路和系统控制软件。该系统可以配合电话使用,实现录音 和随机播放,还可实现无人时的应答自动录音功能。由于系统采用d s p ( d i g i t a l s i g n a lp r o c e s s o r ) 技术和高效语音压缩技术,具有较高技术含量和较广泛的应用。 论文的内容安排如下: 第一章介绍了语音编码的必要性、可能性和性能指标及质量评定方法,阐述 了语音编码技术的分类、发展和标准及论文的内容安排。第二章为语音信号处理 的基础理论,介绍了语音信号的特征、语音信号产生的模型和一些基本语音信号 的分析方法。第三章介绍了取速率语音压缩算法。第四章给出了录音系统的硬件 结构和软件实现流程。最后对全文进行了总结。 第二章语音信号处理的基础知识 第二章语音信号处理的基础知识 2 1 语音信号产生机理模型 对语音产生和语音特性的认识有助于我们对语音信号进行处理和参数的提 取。本章将首先介绍语音信号产生的机理。 2 1 1 语音信号产生机理1 】 发声器官由喉、声道和嘴这三部分构成。喉中间有声带,声带之间的空隙叫 声门。肺部的压缩气体,通过气管激励声门使声带振动,调节声门张开或关闭而 形成气流的通过或阻断,这样形成周期性的气流。该周期称为“基音周期”,用 这种方式发出的声音叫浊音。 气流通过喉从嘴或鼻孔同外辐射所经的通道叫声道。气流流过声道被调制, 因此输出气流的频率特性既取决于声门脉冲串的特性又取决于声道的特性。声道 的特性与声道的横截面积有关。相对与浊音而言,清音在是声门完全关闭情况下, 利用口腔内残存空气的释放( 随机激励) 通过声道而产生的。由此可知,清音具 有随机噪声的特性,无基音周期。由于在发音过程中声音面积不断变化,所以语 音的频率特性随时间而不断变化。嘴完成声道气流的对外辐射,嘴的张开形状会 影响语音频谱形状,但相对声道对语音的作用而言它的作用是次要的。 2 1 2 语音信号的二元激励模型 1 】 在了解发声器官和语音产生机理的基础上,可以建立一个离散时域语音信号 产生模型。如图2 1 所示,该模型由三部分组成,分别为激励源、声道模型和辐射 模型。激励源按所发语音的类型来确定清浊音开关。当激励信号由一个周期脉冲 发生器产生时,所产生序列为周期序列,该序列激励声道滤波器产生浊音合成语 音。g 倒为声门脉冲模型滤波器,它调节冲激序列的波形,使之具有声门气流脉、甲 的实际波形。而在产生清音合成语音情况下,是由随机噪声发生器产生激励信号 来激励声道滤波器。 声道模型用全极点函数p 倒逼近,可表示为: 1 矿( :) = 百二 ( 2 - 1 ) 叩“厶一f 。 8双速率语音压缩编码方法研究与应用 其中,口。= 0 ,“,为实数ap 为该全极点滤波器的阶数,p 值越大,该模型的传 输函数与声道实际传输函数吻合度越高。实际使用中尸值一般取8 1 2 。辐射模型 用来模拟嘴的作用。在上述模型中g 倒、r 例保持不变,而其它参数都是随时间而 变化的,但由于发音器官的惯性而使这些参数的变化速度受到限制,比起语音的 振动速度来说要缓慢许多。 图2 1 语音生成模型框图 该模型还可改进为图2 2 ,使清浊音成分按任意比例叠加,则激励信号可以更好 地与实际发音情况相吻合。 图2 2 语音生成模型示意框图 2 2 语音信号的基本特征1 1 【2 l 我们可通过语音的波形图来分析语音的频谱特性,了解语音的基本特征。语音 信号频谱冀量主要集中3 0 0 3 4 0 0 1 t z 范围内,一般将该频段信号取出,对之数字化, 就可得到离散时域的语音信号。 语音信号的另一特点就是“短时性”,从上面可以了解到语音信号的特征随 时间而变化,在一段短时间隔内才保持相对稳定一致,该时段可取5 5 0 m s 。这就是 语音信号的短时平稳特性。 语音信号最重要特征表现在“短时频谱”上,而短时谱是通过对信号加窗进 第二章语音信号处理的基础知识 9 行傅立叶变换而得到的。浊音的短时谱有以下两个特点:具有明显的周期性,这 是因为浊音的激励源为周期脉冲:频谱中明显具有几个凸起点,出现频率与声道 的谐振频率相对应,这些凸起点称为共振峰,其频率称为共振峰频率。清音的则 无此特性,类似于随机噪声的频谱。 2 3 语音信号短时分析技术 2 3 1 语音信号的预处理【1 具体应用中,一般对语音信号要做预处理,包括预滤波、采样、a d 变换, 存储及加窗等。预滤波的目的有两个,一是抑制各频率分量中超出l 2 采样频率的 所有分量,以防止混叠干扰;二是抑制5 0h z 的电源干扰。语音信号经预滤波、 采样、线性a d 变换或非线性a d ( 肚或a 律) 变换成为二迸制数码。 数字化语音信号存储般采用循环缓冲方式,这样可节省数据空间。由于语 音信号具有短时平稳性,一般以帧为单位进行处理,大多情况下帧长取2 0 m s 。已 取出的一帧语音信号要经过加窗处理,即用窗函数w ( n ) 乘以s ( ) ,形成加窗语音 s ,( n ) ,可表示为: s m ,= s ( n ) w ( n )( 2 - 2 ) 语音信号处理中常用窗函数为方窗和汉明窗,表示式分别为( 其中n 为帧长、 方窗: 川:坎”辫n - 1 ) ( 2 - 3 ) ”( ”) 2 o ”:其芒 。 汉明窗: w ( 班0 5 4 + 0 6 4 c o s ( 惫) 一1 丌 h = 。( - i j( 2 4 ) j 0”= 其它 相比较下,汉明窗主瓣最宽,旁瓣最低,可有效克服泄露现象,具有平滑的 低通性,因此应用最广泛。 2 3 2 语音信号的短时特性1 语音信号的短时特性主要体现在短时能量,短时平均幅度和短时过零率等参 数上。在计算这些参数时使用的窗函数一般为方窗或汉明窗。 双速率语音压缩编码方法研究与应用 当窗函数的起点n = o 时,语音信号的短时能量用磊表示,其计算公式如下 为帧长) : 一l e o = 砖 ( 2 5 ) n = 0 相应地,语音信号的平均幅度用m 。表示: m o = k 。) | ( 2 - 6 ) 平均幅度m 。也是一帧语音信号能量大小的表征。 同时较重要的还有短时过零率等参数。由于语音帧类型的判定,对合成语音的 质量有重要影响,因此它在语音识别和低速语音编解码器中得到广泛的应用。我们 可以利用上述参数对语音无声段、清浊音f n 进行判定。 2 3 3 短时基音周期估计1 基音周期是语音信号最重要的参数之一。根据加窗的短时语音信号来估计基 音周期,在语音编译码器、语音识别等许多领域中都是重要一环。这里介绍常用 的基于短时自相关函数的基音周期估计。 对于一段加窗语音信号s m 、,非零区间为0 n 一1 ,其相关函数的计算公式 为: 埘 - l - 1 r w ( f ) = s 吣) s j ) = 瓦s 吣呐 ( 2 7 ) 易知,清音接近随机噪声,它的短时自相关函数无周期性;浊音的短时自相 关函数月。何在基音周期的各个整数倍上有很大的峰值,这样可得第一最大峰值点 位置,即得基音周期。 2 4 语音信号的线性预测编码分析 根据语音信号的产生模型,语音信号s 恸是声道传输函数的系统响应v ( n j 和 激励信号g 倒卷积。根据驯来求例和g 阳即为解卷,它具有非常重要的意义。 第二章语音信号处理的基础知识 全极点模型y ( z ) = 高,其中爿( z ) = 1 一喜q 万。,这种模型也称为 a r ( a u t o r e g r e s s i v e ) 模型。阶数足够高的a r 模型可以很好地描述声道滤波器,并 且a r 模型有递归求解算法,故声道滤波器常采用全极点模型。 线性预测编码( l p c ) 算法是一种参数解卷算法,它对系统建立全极点模型, 采用“时域均方误差最小”准则来估计模型参数,因而也是一种最小二乘法,简 记为l m s 算法。本节将重点介绍l p c 算法。 2 4 1线性预测编码的基本概念2 如图2 - 2 所示,在此系统中,激励源、声道模型和辐射模型的组合谱效应用一 个数字滤波器( z ) 来表示,其系统函数的形式为: 噼粥2 袁j 其中p 是预测器阶数,一般取1 0 :g 是增益参数。这样,参数解卷问题归结为 对滤波器的系数 嘶) 和增益参数g 的估计问题。 由此,语音序列取”) 和激励信号e ( 一) 之间的关系可以用下列的差分方程来表 不: e 印) = g “( n ) ( 2 - 9 ) ( 2 - 1 0 ) 我们知道,语音样点之间具有相关性。可在语音序列中任取一个时刻”时刻” 的样值设为双n ) ,可由它以前的p 个样点s ( n 1 ) ,s ( n 一2 ) ,s 节) 线性组合来预测。 若用自 ) 表示该未知样值的预测值,则 雪( 月) = 窆q s ( n j ) 其中,a :均为实数,称为预测系数。 ( 2 - 1 1 ) ! ; 翌垄兰至童垦笪鱼里查薹堕塞兰窒里 一 预测值雪( ”) 与真值s 如) 之间的误差称为预测误差,用s ( n ) 表示,即: ( 押) = s ( ) 一s ( 月) = s ( h ) 一艺q s ( ”一f ) ( 2 - 1 2 ) i = i 由于s ( n ) 为随机序列,则占( n ) 也为一随机序列,可用s ( 行) 的均方值口;来衡量 线性预测的质量,越小,预测的准确度越高。一般用求时间平均来代替求集合 平均。口;可表示为: 。 2 2 :e e 2 ( ”) ) :研m ) 一窆哦j ( n i ) 3 2 = 协) 一主q s ( ”一明 ( 2 1 3 ) j 2m| = j 根据最小均方误差准则,在仃;最小情况下,可求出最佳预测系数( q 。最佳 预测系数 i 一般采用德宾( d “而f ”) 递推算法。 对式u - 一1 2 ) 做z 变换,得: 可知,线性预测是求出激励为g ( n ) 的滤波器y ( z ) 2 云万,其中 纷一和= 器 ( 2 1 4 ) ( 2 1 5 ) 此滤波器删的输出即为语音s 俐,该语音可看作激励经声道滤波器滤波而产 生的。称4 为逆滤波器,语音信号经过逆滤波器滤波而得到残差信号a 2 4 2l p c 正则方程的自相关解法及德宾算法 1 i l p c 正则方程的自相关解法 对式( 2 1 3 ) w 的嘶求偏导,并令其为零,有 e 扣( h ) 一圭q s ( n f ) m 一肼= 0 ,f - 1 ,p ( 2 - 1 6 ) 享 ) z ( e i 、l,0 s 第二章语音信号处理的基础知识 上式表明采用最佳预测系数时 西。( f ) 为: 中。( j ,) = e s 。( 则有: 预测误差s ( 疗) 与过去的语音样点正交。 记 啪。( 一肼= 矗m f ) s n ( m 一,) ( 2 1 7 ) p 口中。( f ,j ) = q b ( j o ) ,= 1 ,p ( 2 一lg ) = 1 对这组包含p 个未知数的尸个方程联立求解,即得到加窗语音信号s 。的使均 方误差为最小的预测系数扛) ,i :1 ,p 。 利用式( 2 1 4 ) 和( 2 1 6 ) ,最小均方误差可以表示成 雪。= e 卜( ”) ! 一as ( ”) s ( ”一z ) ,= 】 量。= 。( o ,o ) 一艺。中。( 0 ,f ) 其中,言。就是预测残差能量。 ( 2 - 1 9 ) f 2 - 2 0 1 由于语音信号的短时平稳性,可以帧为单位进行处理。从月时刻开窗选取 个样点,分析本帧的预测系数a ,。而增益参数g 的估算如下: 由式( 2 1 0 ) 和( 2 一1 3 ) 可得, v - i 啻。= 62 ( m ) = g2 , 1 2 ( m ) ( 2 - 2 1 ) mm = 0 输入信号“( ”) 可看作单位方差的白噪声序列和一个单位的d 脉冲d ( ”) ,则输入 信号总能量为1 ,由( 2 2 1 ) 可得 g = 啻1 7 2( 2 2 2 ) 预测残差序列接近白噪声序列或6 脉冲串时,用上述方法估算的0 和k 重构 语音信号s ( n ) ,可获得良好的效果。 1 4 双速率语音压缩编码方法研究与应用 i i 用于解自相关方程的德宾的递推解法 窗函数在0 i 15 n 一1 之外为零,即只用j ( 月) ,s ( n + n 1 ) 个语音样点,因此 o 。( i ,j ) 成为自相关函数,即: o 。( f ,) = 且。( 1 i i t ) 因此有 j ,r o ( d i i = 1 或改写为矩阵形式,则为 简写为 r 。( o ) r 。( i ) ( 2 2 3 ) ( 2 2 4 ) 巾= r 。( ) , j = 1 ,p( 2 - 2 5 ) r 。( 1 ) 兄( 0 ) ) 月。( p 一1 ) r ( p 一2 ) r 。( p 一1 ) 兄( p 一2 ) r 。( o ) r 9 口p = f p r 。( 1 ) r ( 2 ) r 。( p ) ( 2 - 2 6 ) r 2 2 7 ) 该式的系数矩阵r 为一对称阵,即r 7 = r 。且所有主对角线和副对角线上各 自具有相同的元素。这种矩阵称为托普里兹矩阵( t o e p l i t zm a t r i x ) 。对于该种矩 阵,可采用德宾( d u r b i n ) 递推迭代算法求解口? 。 为了方便定点运算,可对自相关函数进行归一化处理,得: 州) = 尉( 0 ) ( 2 - 2 8 ) 对式( 2 2 s ) ,则变为 主占,( f f 一巾:r ( o ) ,:l ,p ( 2 - 2 9 ) 一w 沁 m 拦 一 fjjijijjjjjjjjiiiiiin 至三! 至童堕兰竺里塑量型塑望 ! ! i i i d u r b i n 快速递推算法 d u r b i n 算法从零阶预测开始,此时p = o ,群= 疋( o ) ,口o = 0 ,可以逐步递 推出岛 ,芦1 ,e 1 :每0 ,卢1 ,2 ,点2 ; 才) ,卢1 2 ,3 ,e ,:一直到 酽) ,i :1 护, e 9 。p 阶线性预测快速递推算法详细递推过程如下: ( 1 ) 给出预测器阶数p ; ( 2 ) 计算月( 7 ) ,= 1 ,p : ( 3 ) e “= b ( o ) ; ( 4 ) 计算七,= - r 。o ) r 。( o ) ; ( 5 ) 臼 ”= 七,; ( 6 ) e “= ( i e ? ) e “ f 7 ) 令i = 2 ; 扣卜苷r 喙刊伊: ( 9 ) d j = t : ( 1 0 ) 口j “= 口j ”一kd j :j ”1 i 一1 ; ( 1 1 ) e “= ( 1 一p ) e ;i p ? 为真,则令f = j + 1 跳入f 8 ) 继续运行; 0 2 ) d ,= d , 1 ,p ;结束运算。 2 5 l s p 参数的求解和量化 预测系数m 的微小变化会造成系统传输函数极点位置的很大变化,因此不适 于直接量化。在这里介绍一种目前应用很广的,数学上与 嘶 等价的l s p 参数。 2 5 1 线谱对( l s p ) 或线谱频率( l s f ) 】3 】 l s p 特征矢量具有优良的量化特性,目前主要应用它来量化滤波器参数。但 是,线性预测系数 仉) 与l s p 参数的转换比较复杂,现详细介绍如下: 双速奎语音压缩编码方法研究与应用 设有p 阶最佳逆滤波器爿。( z ) ,p 为偶数,则有两个p 阶多项式 爿。( z ) = 1 一口l 三一一a 2 z _ 2 一一一a p z 一9 a p ( z 一1 ) = l d l z l 一a 2 = ! 一- 一a p = 9 根据以上两多项式可构造p 1 阶多项式 如+ i ( z ) = 4 p ( z ) + 川z - ( a + t ) a a z 。1 ) ( 2 3 0 ) ( 2 - 3 1 ) 但一3 2 ) 可选七。等于+ l 或一1 ,相当于声门完全张开或闭合a 由此可得两个p + 1 阶 多项式p ( z ) 和q ( z ) : 那么 并有 p ( = ) = a ( :) + z 巾+ “a 。( :。) q ( z ) = a 。( :) 一z 1 ”“a ,( = 。) 4 。( z ) = 去 p ( = ) + q ( z ) f 2 3 3 、 ( 2 - 3 4 ) ( 2 - 3 5 ) p ( z ) = 1 一( q + 口p ) z一( d 2 + p i ) z 一一- - ( a ,+ 口1 ) z9 + z 一9 1 ( 2 _ 3 6 ) q ( z ) = 1 一( q 一口,) z 一( 口2 一c p _ i ) z 一- 一( 口f 一口1 ) z 一9 一z 一9 + 1 2 - 3 7 ) 显然,实系数多项式p 和q 分别具有对称性和反对称性,因此具有共轭 复根,它们的根被称为线谱对参数l s p 。如果爿的零点全部都分布在单位圆内, 即a 具有最小相位,那么多项式尸和q 倒具有如下性质: ( 1 ) p 和q 纠所有的根都位于单位圆上,而且具有对称性;p 在一l 处有一 个根,q 倒在+ l 处有一个根。 ( 2 ) p 倒和q 倒的根相互交替出现,具有有界有序性。它们在上半圆上的分布 为: 第二章语音信号处理的基础知识 0 0 2 , l b + p 2 0 p ,2 石 其中,0 2 , 。和只分别为j p 倒和q 倒的第i 个零点。 对p 倒和q 向进行降阶处理,令: 喇= 以玎旷4 + a 。z q + a 2 z - 2 刊芦9 烈加烈- z - 旷岛+ 弘1 邶z r 、彻,丁9 则有: - - a i - - a p + l _ j 24 + 钆 0 i 蔓4 一a ,+ 口,h = b 。一b ,i r 2 3 8 、 ( 2 - 3 9 ) ( 2 - 4 0 ) ( 2 - 4 1 ) 其中,4 = b o = 1 。可由 雹) 求得翻;) 和 最) ,再将:= p ”分别代入式( 2 3 9 ) 和( 2 - 4 0 ) ,可得: p ( 。= 2 8 1 3 。( 。8 5 i + 一】c o s 4 c o + + a 4 。3 j + o _ 5 爿j ( 2 4 2 ) = 2 9 1 “p r 础、 f 2 4 j 、 由于似f ) 和 b , 已求出因此t ( o o ) ,q ( ) 的系数是已知的,从而将求解p 倒 和q 倒的零点问题转化为在区间( o 万) 上求璧p ) ,q ( ) 为零的值,该值称为线 谱对参数频率( l s p ) 。 可设x = c o s ( o ,并利用c o s n o ) = r e ( c o s 。+ j s i n o o ) ”代入d ,q r u 中,利 用三角公式将c o s5 0 0 、c o s 4 c o 、c o s3 0 0 和c o s 2 0 ) 展开为c o s 的形式,并令尸( x ) q ( x ) 分别为零,得到两个尝阶的方程。当p = i o - ,p 血) q ( x ) 分别为 尸( z ) = 1 6 a o x5 + 8 1 工4 十( 4 a 2 2 0 & ) x 3 + ( 2 a 3 8 a 1 ) x 2 r 2 4 4 ) b- )o- 卜甜oc口+一o1 oc b+ 3 哪弋q 芦 。 一o中 1 、l p = 2 ,= m p 。】 双速率语音压缩编码方洼研究与应用 q ( z ) = 1 6 b o x 5 + 8 8 1 x 4 + ( 4 8 2 2 0 b 。) x3 + ( 2 8 3 8 8 1 ) x 2 + ( 5 风一3 8 2 + 日+ ( 骂一马+ 0 5 b , ) ( 2 4 5 ) 根据数值计算方法,用两分法分区搜索,缘陛插值法求解,解此方程得p 个 根x ,及对应的p 个l s p 。这样我们就可以由l p c 系数得到l s p 参数。 l s p 常用频率和弧度两种方法来表示,其对应关系为: l s 9 ( o :型,1 琏p d r t 1 这些频率就是线谱对参数l s p ,它具有如下性质 ( 1 ) 在求取线谱对参数l s p 及量化过程中,使参数保持有序有界性即可保证全 极点滤波器的稳定。 ( 2 ) 线谱对参数l s p 具有误差相对独立的性质,即某个频率点上的l s p 的偏差 只对该频率附近的语音谱有影响,而对其它频率段几乎没有影响。这个性质很适 合量化及插值,并且当采用分裂矢量量化时,量化器的性能不会明显的下降。 ( 3 ) 线谱对参数的密集度和语音谱的共振峰相对应。 ( 4 ) 两个l s p 特征矢量之间的畸变可以用它们的欧氏距离平方值来度量。 ( j ) 由任何一组l s p 参数反向求对应的全极点滤波器时,得到声音传输函数必 然是稳定的。 ( 6 ) l s p 参数能反映声道幅度谱的特点,在幅度大处分布较密,反之则较疏 这尤其能反映幅度谱中共振峰的特性。 反之,知道了p ( z ) ,9 ( z ) 的根,就可以得到( = ) 。 设p ( x ) 的5 个根为x l ,x 2 ,x 3 ,_ ,马,则有 p ( x ) = 1 6 - 4 0 n 一一) 一 一41x hj = - 1 8 。a - - - 代1 - 1 = 土2 a o_ 1 l n f 2 4 7 ) 佗- 4 8 ) 第二章语音信号处理的基础知识 其中4 = 1 ,可根据同次项系数相等的原则求出爿1 ,- - ,爿,。进一步根据对称性 可求出a 。,爿。 用同样方法可求出b 1 ,- ,b ,。来, 由式( 2 4 1 ) ,可得q = 一;( 4 + 4 一。+ b , - e ) ,进一步求出q , 汪1 ,1 0 。 对于p 不等于1 0 ,也可用同样方法求。 2 5 2l s p 参数的分裂矢量量化方案 由于本论文的语音压缩主要应用l s p 参数进行编码,所以本节主要介绍l s p 参数的分裂矢量量化。 低速语音编码,要求用尽可能少的比特数来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论