(通信与信息系统专业论文)基于mcf5249的g7231编解码器的优化.pdf_第1页
(通信与信息系统专业论文)基于mcf5249的g7231编解码器的优化.pdf_第2页
(通信与信息系统专业论文)基于mcf5249的g7231编解码器的优化.pdf_第3页
(通信与信息系统专业论文)基于mcf5249的g7231编解码器的优化.pdf_第4页
(通信与信息系统专业论文)基于mcf5249的g7231编解码器的优化.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 一种语音编解码器能否能在实际中应用,主要是看它的编解码时间和解码 后的语音质量。g 7 2 3 1 算法是i t u t ( 国际电信联盟) 在1 9 9 6 年建议的应用于低 速率多媒体服务或其他服务中的语音压缩标准。这个标准还同时给出了编解码器 的实现代码。这些代码全部采用a n s ic 语言编写,具有很强的移植性,能够用 于任何c 代码的开发平台。但是这些代码不具有针对性,若希望在某个特定的处 理器中执行,就无法充分地利用这个处理器的内部特殊资源( 如:乘累加单元等) , 从而导致运行g 7 2 3 1 代码需要的时间长,运行效率低,无法实用。 摩托罗拉公司生产的m c f 5 2 4 9 是一款功能很强而且性价比很高的微处理器。 为了能在这个处理器上开发基于g 7 2 3 1 的v o i p 语音系统产品,需要对g 7 2 3 1 代码进行优化,使其能够利用最少的指令周期达到最好的语音压缩质量。本文首 先对语音压缩原理和算法进行了深入研究,然后对整个g 7 2 3 1 算法的原理和实 现代码进行了分析,同时结合m f c 5 2 4 9 微处理器自身的特点,对代码中的每个函 数提出了相应的算法级优化和汇编级优化方法。同时还利用v c + + 的工具p r o f i l e 对算法级优化代码进行了正确性测试;利用m c f 5 2 4 9 c 3 开发板和c o d e w a r r i o r 集 成开发环境等工具,通过对汇编优化后的代码进行应用测试,使g 7 2 3 1 语音编 解码器的运行时问在1 5 m s 左右,压缩到了预期的目标。最后还对经g 7 2 3 1 编 解码器压缩的语音进行了m o s 评测,m o s 值可达3 4 。 关键词:g 7 2 3 1 语音编解码器优化m c f 5 2 4 9 a b s t r a c t t h ea p p l i c a t i o no fas p e e c hc o d e cm o s t l yd e p e n d so ni t sr u n n i n gt i m ea n d c o m p r e s s e ds p e e c hq u a l i t y g 7 2 3 1i sas t a r d a r do f d u a lr a t ec o d e ca l g o r i t h mp r o d u c e d b yi n t e m a t i o n a lt e l e c o mu n i o n ( i t u - 1 ) t h er e c o m m e n d a t i o ns p e c i f i e sac o d e d r e p r e s e n t a t i o nt h a tc a nb eu s e df o rc o m p r e s s i n gt h es p e e c ho ro t h e ra u d i os i g n a l c o m p o n e n to fm u l t i m e d i as e r v i c e sa tav e r yl o wb i tr a t ea sp a r to ft h eo v e r a l lh 3 2 4 f a m i l yo f s t a n d a r d s t h er e a l i z a t i o nl a n g u a g eo f g 7 2 3 1i sa n s ic w h i c hi sa v a i l a b l e f r o mt h ei t u b e c a u s eo fa n s ic g 7 2 3 1c o d e ec a l lb ea p p l i e dt oa n yc d e v e l o p m e n tk i t s ,b u ti sn o ts p e c i a l l yd e v e l o p e df o rac e r t e l l lc p uo rd s r s oi tc a n tu s e r e s o u r c ew i t h i nt h ec p uo rd s pe f f i c i e n t l y , s u c ha se m a c t h i sw i l lr e s u l ti n n e e d i n gp l e n t yo fr u n n i n gt i m ea n dl o we f f i c i e n c yo ft h eg 7 2 3 1c o d e e ,a n db en o t a b l et og e tg o o dr e s u l tw ew a n t m c f 5 2 4 9i sap o w e r f u la n dc o s t l e s sm i c r o p r o c e s s o rp r o d u c e db ym o t o r o l a c o r p o r a t i o n i no r d e rt od e v e l o pav o i pv o i c ec o m m u n i c a t i o ns y s t e mb a s e do n m c f 5 2 4 9a n dg 7 2 3 1e o d e e ,i tn e e d st oo p t i m i z eg 7 2 3 1cc o d e o u rp u r p o s ei st o g e tb e s tc o m p r e s s e ds p e e c hq u a l i t yt h r o u g hl e a s ti n s t r u c t i o nc y c l e s t h i sp a p e rs t u d i e s t h ep r i n c i p l ea n da l g o r i t h mo fs p e e c hc o d i n gi nd e p t h ,t h e na n a l y s e st h ew h o l e g 7 2 3 1a l g o r i t h ma n dc o d e a c c o r d i n gt ot h em c f 5 2 4 9 sc h a r a c t e r s ,t h ep a p e rp o i n t s o u tt h eo p t i m i z a t i o nm e t h o do na l g o r i t h ma n da s s e m b l yf o re a c hf u n c t i o n u s i n g p r o f i l e t o o li nv c + + t e s t st h e v a l i d i t yo fo p t i m i z a t i o n a l g o r i t h mc o d e ;u s i n g m c f 5 2 4 9 c 3d e v e l o p m e n tb o a r da n dc o d e w a r r i o ri n t e g r a t e d d e v e l o p m e n t e n v i r o n m e n tt e s tt h ea p p l i c a t i o no fo p t i m i z a t i o nc o d e f i n a l yw ea c h i e v eo u rp u r p o s e c u t t i n gd o w n ( 2 7 2 3 1s p e e c hc o d e c sr u n n i n gt i m ea tm o s t a f t e re v a l u a t i n gi t sm o s v a l u e g 7 2 3 1s p e e c hc o d e ss c o r ec a nr e a c h3 4 k e y w o r d s g 7 2 3 1 ,s p e e c hc o d e c ,o p t i m i z a t i o n , m c f 5 2 4 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨壅盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 彩平 签字日期: 少t r 年1 2 - - 胄j ,芎日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘茎有关保留、使用学位论文的规定。 特授权鑫壅盘茎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 献军 i 导师签名: 7 衷拳萍 签字日期:芦j 年i 王月隅e l签字日期:,年p 月7 天津大学硕士学位论文第一章绪论 第一章绪论 随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了快速发 展和广泛应用,尤其是最近2 0 年,语音压缩编码技术在移动通信、卫星通信、 多媒体技术以及i p 电话通信中得到普遍应用,起着举足轻重的作用。 1 3 语音编码技术的分类和发展 目前,语音编码器大体有三种类型:波形编码器、参量编码器和混合编码器。 1 3 1 波形编码 波形编解码器的基本想法是:尽量使编码前和编码后的语音信号波形保持 致。编码过程是:首先根据采样定理对模拟语音信号进行采样,然后进行幅度 量化和二进制编码。它不利用语音信号的任何特征参数而试图重构语音信号,其 波形与原始话音尽可能一致。 最简单语音编码方法是脉冲编码调制,即线性p c m 。它先对语音信号作数 模变换,然后后再由低通滤波器恢复出现原始的模拟语音波形。当编码后的语 音信号数据速率为6 4 k b p s 时,重构的语音质量几乎与原始的语音信号相同。编 码量化器于2 0 世纪8 0 年代已经被标准化,美洲的压扩标准是n 律( u - l f i w ) , 欧洲的压扩标准是a 律( a - l a w ) 。p c m 的优点是编解码器简单,延迟时间短,压 缩的语音质量高。不足之处是数据速率比较高,对传输信道的误差比较敏感。 线性p c m 编码还可以使用非线性量化、自适应预测等方法来实现数据的压 缩。比如差分脉冲编码调制d p c m 就采用了预测技术,认为话音样本之间存在一 定的相关性,这样就可以用过去的样本值来预测下一个样本的值。但是这种预测 方法对幅度急剧变化的输入信号会产生较大的噪声。一种改进的方法就是是使用 自适应的预测器和量化器,如自适应差分脉冲编码调制a d p c m 。 波形编码方法简单,传输速率较高;传输速率在6 4 k b p s 至3 2 k b p s 之问时, 语音质量优良。当传输速率率低于3 2 k b p s 时,语音质量会明显降低,速率降到 天津大学硕士学位论文第一章绪论 1 6k b p s 时音质会更差。 1 3 2 参量编码 参量编码器又称为声码器。根据人的发声机理,声码器在编码端对语音信 号进行分析,并从中提取语音信号的特征参数;利用这些参数,在解码端可以重 构语音。声码器每隔一定时间分析一次语音,传送分析得到的有无声音的判断 值和滤波器参数。解码器根据接收到的参数再合成声音。声码器的编码速率很低, 为1 2 k 一2 4 k b p s 。但是用声码器合成的语音信号质量较差,实现的复杂度较 高,。尽管如此,但因其保密性能好,在军事领域中经常被采用。 l - 3 3 混合编码 混合编码是将波形编码和参量编码结合起来,编码速率在4 k b p s - - 1 6 k b p s 之间,相对于参量编码语音的质量较好,但编码速率较高。若能采用性能较好的 算法,可以得到几乎与波形编码质量相当编码信号,算法的复杂度介于波形编码 和参量编码之间。 针对不同的应用领域,目前国际上已经提出了许多标准,如表1 1 所示。 表1 1i t u - t 语音编码系列标准 编码标准压缩方法数据率算法延时( m s ) g 7 1 1p c m6 4 k 0 7 5 g 7 2 6a d p c m3 2 k 1 g 7 2 8l d c e l p1 6 k 一3 g 7 2 9c s a c e l p 8 i ( 1 5 g 7 2 9 ac s - a c e l p8 k1 5 g 7 2 3 1 m p m l q 6 3 k 3 7 5 g 7 2 3 1a c e l p5 3 k 3 7 5 1 4 本文的主要工作和论文结构 随着数字信号处理的技术发展,特别是微电子技术和半导体工艺的飞速发 展,集成电路的集成度越来越高,速度也越来越快,为语音信号的压缩提供了可 能。目前已有的g 7 2 3 1 语音编解码器主要是在d s p 上实现的,这是由于d s p 是 处理数字信号的专用芯片,处理语音信号的速度比微处理器要快很多。摩托罗拉 天津大学硕士学位论文第一章绪论 的微处理器m c f 5 2 4 9 是一款专门用于系统控制和m p 3 编解码的芯片,具有很高的 性价比。m c f 5 2 4 9 是基于c o l d f i r ev 2 核构建的。为了提高m p 3 数字信号的处理 能力,特别加入了一个增强型乘累加单元,这些都为用m c f 5 2 4 9 开发语音通信系 统提供了可能性。本文主要完成的工作是:以g 7 2 3 1 语音编解码器算法为基础, 在详细研究i t u t 推荐的参考源代码和m c f 5 2 4 9 芯片内部结构特征后,提出对 g 7 2 3 1 语音编解码器进行算法级优化和汇编级优化等方法,最后在m c f 5 2 4 9 c 3 开发板上进行测试,实现了预定的目标,最终为f r e e s c a l e 公司的v o i p 语音系 统的开发奠定基础。 论文的结构如下: 第一章绪论。主要介绍了语音压缩编码分类和发展过程,同时给出了本文的的 研究背景和内容。 第二章语音压缩算法的基本原理。主要介绍了语音信号模型、语音线性预测模 型的原理、码本激励原理等语音编解码中的一些关键技术。 第三章g 7 2 3 1 双速率语音编解码器工作原理。主要介绍了g 7 2 3 1 双速率语 音编解码器工作的基本原理和数据处理的流程。 第四章硬件开发平台概述。主要介绍了m c f 5 2 4 9 芯片和m c f 5 2 4 9 c 3 开发板的结 构和特点。 第五章g 7 2 3 1 语音编解码器的分析与优化方法。在讨论g 7 2 3 1 语音编解码 算法复杂度的基础上,提出了g 7 2 3 1 语音编解码器的算法级优化和汇 编级优化方法。 第六章优化代码测试与分析研究。探讨了如何在p c 机和m c f 5 2 4 9 c 3 开发板上对 优化后的g 7 2 3 1 语音编解码器进行时间测试和语音质量m o s 值评测的 问题。 第七章结束语。对所做的工作进行了总结,并对今后的工作提出了改进意见。 天津大学硕士学位论文 第二章语音压缩编码的基本原理 第二章语音压缩编码的基本原理 语音压缩编码的目标是用尽可能低的编码速率获得质量尽可能高的合成语 音信号,因此语音压缩编码技术就是在解决编码速率与语音质量这对矛盾中发 展、进步的。编码速率实质上反映的是频带宽度,降低编码速率本质上是希望压 缩频带的宽度。然而,随着编码速率的降低,算法延迟时间和计算复杂度也会随 之增加。 从1 9 3 9 年美国的h o m e rd u d l e y 发明声码器以来,语音压缩处理技术就进 入了参量编码或模型编码的研究阶段。2 0 世纪6 0 年代,s a t o 、i t a k u r a 和a t a l 、 s c h r o e d e r 研究出实用的共振峰声码器,最早把“线性预测( l p c ) ”技术应用到 了语音分析和合成领域。他们利用线性组合模型均方误差最小的方法来逼近原始 波形,实现参数的提取,并研究出了自相关法,协方差法,格型法等实用的快速 算法。1 9 6 6 年,j l f l a n a g a n 提出了以瞬时频率为基础的相位声码器。1 9 6 9 年, a v o p p e n h e i m 提出了以倒谱为基础的同态声码器。在众多的声码器中,l p c 声 码器因其成熟的算法和参数的精确估计成为研究的主流,并逐步走向实用。 2 1 语音信号模型嗍 语音信号的数字模型是对语音信号产生过程的一种模拟,它利用数字信号处 理技术来逼近人类发音器官的各种功能。 经过分析,通常认为人类主要发出两种声音一浊音和清音,被称为激励方式。 当气流通过声门时,声带的张力刚好使声带发生较低频率的张弛震荡,形成准周 期性的空气脉冲,这些空气脉冲激励声道产生浊音。如果声道中某处的面积很小, 气流高速冲过时产生湍流,当气流的速度与横截面积之比大于某个门限时( 临界 速度) 便产生摩擦音,即发出清音。简言之,发浊音时声带发生振动,因此浊音 是周期性的( 准确的说是准周期性的) ,如图2 1 所示。发清音时声带不产生振 动,因此清音没有周期性,如图2 2 所示。 ,4 天津大学硕士学位论文第二章语音压缩编码的基本原理 越 罂 图2 1 浊音信号 图2 2 清音信号一 当人发音时,激励和声道形状都是随时间而变化的,但是语音信号随时间的 改变得非常缓慢。对于大多数语音信号来说,通常认为激励与声道的面积函数在 l o 2 0 m s 的时间内是近似不变的。在发浊音时,激励为准周期脉冲;在发清音 时,激励为随即噪声。因而可以设想,语音的数字模型是一个缓慢变化的线性系 统,这个系统的参数在l o 2 0 m s 时间内近似不变。 一个完整的声道模型由声管模型、发生端激励和嘴唇处的声音辐射三个部分 构成,其中声管模型是一个全极点滤波器,可以表示为: 天津大学硕士学位论文 第二章语音压缩编码的基本原理 ( 2 1 ) 嘴唇处的声音辐射模型经过分析可以用零点模型表示: r ( 2 ) = ( 1 一 z - 1 ) , ,1 ( 2 2 ) 如前所述,在讨论发声端激励时将语音分成浊音和清音,浊音由准周期脉冲 串激励产生,其周期被称为基音周期;清音由随机噪声激励产生。在浊音情况下, 激励信号的产生如图2 3 所示。 基音周期 幅度控i # l j a v 图2 3 浊音激励的产生 图2 3 中冲激串发生器输出单位冲激序列,各冲激之间的间隔就是要求的基 音周期。单位冲激脉冲序列被用来激励一个系统函数为o i 刁的线性系统:再经 幅度控制后得到输出u 。( n ) ,这就是需要的浊音激励。c - ( z ) 为个全极点模型, 可以表示成: g ( 力= ( 2 3 ) 对于发清音的情况,无论是发阻塞音还是摩擦音,声道都由于被阻碍而形成 湍流。所以可以用随机白噪声来模拟。实际上可以用均值为零、方差为l ,且在 时间和幅度上都是白色的分布来表示清音。 把上面的分析结合起来,就可以得到如图2 4 所示的语音信号产生模型。 南 天津大学硕士学位论文 第二章语音压缩编码的基本原理 图2 4 语音产生的数字模型 在大多数情况下,把声管、发生端激励和嘴唇处的声辐射等因素结合起来, 用一个全极点转移函数表示,即有: 日( 力= g ( z ) y ( 刁r ( 刁( 2 - 4 ) 2 2 线性预测的基本原理乜1 2 2 1 线性预测信号模型 在随机信号谱分析中,通常把一个时间序列模型化为白噪声序列,并通过一 个数字滤波器坝习的输出。在一般情况下,娥刁可以写成有理分式的形式: 日( 刁= g 1 + y6 ,z 一7 - , ! 三l 一 1 一芝o 。i z - i 巧 ,= l 式( 2 5 ) 中系数口,岛以及增益因子g 就是模型参数,因此信号可以用有限数 目的参数构成的模型来表示,如图2 5 所示。假设系统模型的输入用“刀) 表示, 模型的输出信号为回,因此有如下用z 变换表示的关系式: 双刁= 域习酞力( 2 - 6 ) 天律大学硕士学位论文第二章语音压缩编码的基本原理 从时间域上看,系统模型的输出与输入满足下面的差分方程: 文曲= 和一力+ 6 b , 睡n - ) b o = 1 ( 2 7 ) 卢l = 0 从式( 2 7 ) 可以看出,文功可以用它的p 个过去值s ( n d 和输入乩回及其g 个 过去输入值“刀一j | ) 的线性组合。从物理上讲,文曲可以由过去输入值及当前的 输入值的线性组合预测得到,所以信号模型和线性预测有内在的联系。 兰 当 图2 5 信号s ( n ) 的模型 当输入“坊是零均值的随机信号时,系统的输出与输入关系可以用相关函数 或功率谱关系来表示: ( 刁= 娥刁矾方) ( 力( 2 - 8 ) 这里,咫( 习和习分别为信号文四和输入氓回自相关序列的z 变换。在信号 模型中,吠功是均值为零,方差为z 的白噪声序列,自相关o ( 回= 仃:占( 回, 所以有屯( 刁= 盯:,因此式( 2 8 ) 变换为: 凡( 力= h ( z ) 坝z - 1 ) z ( 2 9 ) 功率谱为: l 故幽1 2 = l 觑幽2 i ( 2 1 0 ) 上式假设露= l 。可以看出,信号文曲的功率谱i 故1 2 完全由滤波器的幅度频 率响应来决定。从这个意义上讲,系统坝刁确实可以用来模型化信号文叻。 按照曰( 刁的有理式的不同,可以有以下三种信号模型: a 自回归信号模型( a u t o r e g r e s s i v em o d e l ,简称a r 模型) ,此时“习是只 含递归结构的全极点模型。 b 滑动平均模型( m o v i n ga v e r a g em o d e l ,简称姒模型) ,此时觑2 ) 是只含 非递归结构的全零点模型。 天津大学硕士学位论文第二章语音压缩编码的基本原理 e 自回归滑动平均模型( a u t o r e g r e s s i v em o v i n ga v e r a g em o d e l ,简称a r m a 模型) 。此时日( 力含有极点和零点,是上述两种模型的混合结构。 当模型中只含极点时,对应的差分方程的参数估计是解一个线性方程的问 题;一旦出现零点,对应的参数估计是一个解非线性方程的问题。 由信号理论,任何系统函数都可以看作增益、极点、零点的级连,极点与零 点在数学上是可以互相替换的。 一= 工1 其中南小薹咿 1 一a z - 1 l a z - = i - 1 一a l z - 相对来说线性方程容易处理,而且零点与极点的可互换性决定了把a r m a 模 型和姒模型转换为无限高阶的a r 模型来表达。在实际的语音信号中,全极点模 型又占大多数,因此解码器主要应用a r 模型。 信号模型化过程实际上是解决模型参数的估计问题,它用一个有限数目的参 数模型来表示一个实际信号,这样总是存在有误差。或者说用,个极点和g 个零 点来表征一个模型是否太少或者太少,是不能准确的预先选定的,更何况语音信 号是时变的。因此模型求参数口,岛g 的过程通常是一个逼近过程。一般先 假定有p 个极点和g 个零点,利用输入巩国得到的输出是文功而不是谚。通常 可以采取某种逼近准则,使文功逼近文回。 2 2 2 线性预测误差滤波器 信号的逼近过程实质上是个线性预测误差滤波问题,线性预测误差滤波是一 种特殊的数字滤波,它的传递函数4 习由下式确定: 钗力:1 一妻口,z - 7 ( 2 - 1 1 ) 卢l 如图2 6 所示,它的输出d 刀) 与输入文坊满足以下关系: “廿) = 文坊一氧神= s ( n ) - 芝a ,s ( n 一) ( 2 1 2 ) 天津大学硕士学位论文第二章语音压缩编码的基本原理 其中文口) = 盯,s ( n j ) 称作文丑) 的预测值或者估计值。因为文回可以被看作 是由一组过去的样本s ( n 一1 ) ,s ( n 一2 ) ,s ( n 一力线性组合得到的,也就是用 反面的过去样本值来预测或估计当前的文功值,因此称为线性预测。o r ,被称为 线性预测系数,输出d 巧是当前值文坊与线性预测值文回的差值,被称为线性预 测误差。 图2 6 线性预测误差滤波 线性预测的分析过程,实际上就是在某种规则下求解使预测误差d 功最小的 预测系数口,值。理论上通常采用均方误差研,( 瑚最小的准则,目】表示求数学 期望。为了使均方误差目,( 功】最小,应该有: 里兰蝉:o ,l _ , ( 2 一1 3 ) o o r j 即 鲫:- 2 日删和一朋:o d 口 一 把式( 2 1 2 ) 代入可以得到: 耳j ( 功文刀一力一艺0 1 5 0 一力j o 一明= 玎力一艺a 钗一d , ( 2 1 3 b ) 1 _ ,p ( 2 一1 4 ) 其中,( 力= 研s ( n ) s ( n - 朋是文印的自相关序列。 遍取l 到p 可以得到p 个线性方程组,正好有p 个未知数毋( 1 j p ) 。 由线性代数的知识,可以通过矩阵乘法来求解。 令最小均方误差为乞,即有: 天津大学硕士学位论文 第二章语音压缩编码的基本原理 弓= 耳( 坊】劬= “o ) 一口j r ( o ( 2 1 5 ) = i 这时求解线性预测系数的方程可以表示为: l “力一杰吒“一d :o , 1 s , j “ ( 2 1 6 ) l “o ) 一羔c t a o :弓 l 卢l 其中,( 力= 研s ( n ) s ( n - j 3 1 是文廿) 的自相关序列。 根据2 2 1 节对信号产生模型的研究,假设文坊序列是由一个零均值,单位 方差的白噪声“曲通过一个全极点模型而德到。全极点模型表示为: 俄刁: ( 2 1 7 ) 卜口,一 则文坊= g u ( n ) + 艺a a n - o ( 2 1 8 ) 将式( 2 1 8 ) 两边同乘以文口一力,再求均值可以得到: “力一州一) = o ,1 _ ,p ( 2 1 9 ) 将式( 2 1 8 ) 两边同乘以文刀) ,再求均值可以得到: :“o ) 一兰州j ) 一扣l ( 2 - 2 0 ) 比较式子( 2 - 1 6 ) ,( 2 - 1 9 ) ,( 2 - 2 0 ) ,可以发现线性预测滤波和线性预测信 号模型有相同的方程组,实际上信号模型是一个逆滤波过程或者逆逼近过程。当 调整滤波器4 力的参数使输出d 功逼近一个白噪声序列“刀) 时,4 习矛f l l 川刁 是等效的。按照最小均方误差准则正是使输出d 回白化的过程。 2 2 3 线性预测系数的求解 从2 2 2 节得到了方程组( 2 1 6 ) ,线性预测分析的关键是如何快速的求解这 个方程组。由于自相关序列,( d = “一力满足偶函数的特性,因此可以把方程组 ( 2 - 1 6 ) 改写成矩阵的形式,有: 天津大学硕士学位论文第二章语音压缩编码的基本原理 :慝 0 解这个线性方程组的关键是式( 2 2 2 ) 所示的自相关矩阵。 ,( 0 ) “1 ) “1 ) “2 ) ,( p ) 一p 1 ) “凹“p 1 ) “0 ) ( 2 2 1 ) ( 2 2 2 ) 这个自相关矩阵可以从输入语音信号的计算中得到。对于这个矩阵,有用计 算机语言实现的经典算法,即莱文逊一杜宾( l e v i n s o n d u r b i n ) 算法。 l e v i n s o n d u r b i n 算法是一种迭代算法,是从解n 一1 阶线性方程到解n 阶线 性方程。它利用自相关函数的共轭对称性由n 一1 阶方程构造出n 阶方程,然后 再利用方程相等其对应系数相等的原理,得到从n _ 1 阶方程到n 阶方程系数的迭 代关系。从而可以先处理0 阶问题,然后再利用迭代公式一直计算到l o 阶,循 环计算公式如下: 岛= “o ) ,- 1 r ( 0 - 口p r ( i - j ) 丘= 气:_ 一,l - i - p ( 2 - 2 3 ) 口慧- - j g j - - j m 聊,l j i - 1 。= 口_ 一置口窍, l e = o - 辟) 最。 式中,= 1 , 2 ,p 表示预测器的阶数。经过式( 2 - 2 3 ) 递推计算,可以得到 ,= 1 , 2 ,3 j d 的解。实际上需要的是,= p 时的解,最后可以得到结果: 口1 2 口p ,1 曩 ( 2 _ 2 4 ) 俨= 易 j 吒 r100000r d :| 力川| | “ d 玎 d),r种峭咖d | ;力羽加“ 天津大学硕士学位论文 第二章语音压缩编码的基本原理 2 2 4 语音信号线性预测模型 虽然语音信号是一个随机序列,它可以用上述的模型来分析。图2 7 是基于 线性预测模型的语音信号产生框图。 图2 7 语音信号产生模型 与图2 4 相比可以看出,线性预测模型是语音发声模型的一个特殊形式。它 把声道、发声端激励和辐射全部简化成一个时变的数字滤波器,其系统函数为: 川刁= 笋一 ( 2 2 5 ) 1 一晓i = 。 这样就可以把文四看成是一个p 阶的a r 模型。对于浊音,这个系统受到冲激序 列的激励,各脉冲之间的间隔为基音周期;对于清音,则受到白噪声序列的激励, 可以由一个随机序列发生器完成。用图2 7 的模型来合成语音信号,滤波器 觑力也被称为合成滤波器。这个模型的参数还有浊音清音判决、浊音周期、 增益常数g 以及数字滤波器参数球j 。利用语音信号的“短时”平稳特性,可以 在一段时间内对这些参数进行预测,并可以按帧进行。 2 3 窗函数的选择 利用语音信号的“短时”平稳特性,可以把平稳过程的处理方法和理论引入 到语音信号的短时处理中。这样做除了可以大大简化语音信号的处理过程之外, 还可以分帧处理语音信号。研究表明,一个语音帧包含1 7 个基音周期比较合 天律大学硕士学位论文 第二章语音压缩编码的基本原理 理。人类语音基音周期是时变的,而且离散性很大,如从小女孩的2 m s 到老年人 1 4 m s 。所以一般每秒的帧数约为3 3 1 0 0 ,视具体情况而定。分帧处理实质上 就是把语音信号截成一段一段的。在信号处理上,这个操作极为简单,实际上是 用一个窗函数来截取信号。一般选用汉明窗函数来截取语音信号,因为汉明窗的 带宽是矩形窗的两倍,而且带外衰减比矩形窗大得多。 2 4 线谱对分析方法嘲 在得到线性预测系数a i 之后,通常还希望继续降低系统的编码速率。这时 需要先将p 阶极点模型的预测系数a l 映射成线谱对参数。为了便于量化,再用线 谱对参数建立码书、协议。在传输系统中,只传输码书的系数就可达到量化的目 的。从这个角度来讲,得到线谱对参数的过程是将系统模型参数转化成便于量化 的参数的过程,也就是量化前的准备工作。同时,线谱对参数也是表征系统功率 传输函数1 日( p 肺) l 的重要参数。 线谱对是线性预测参数的另一种表示形式,同样可以用来估计基本的语音特 性,由于线谱对参数是频域参数,所以它和语音信号谱包络的峰值有更紧密的联 系。由于这种参数具有较好的量化特性,所以产生相同质量的合成语音所需的编 码速率较低。 下面介绍从系统传输模型参数到线谱对参数的转化过程。已知语音信号的全 极点模型为: 首先将增益归一化,设: 4 刁= 南 则有: p 4 刁= l 一芬f 7 p - i 经推导,可以验证a ( z ) 满足如下递推关系: ( 2 - 2 6 ) ( 2 - 2 7 ) ( 2 2 8 ) 天津大学硕士学位论文 第二章语音压缩编码的基本原理 a c z ) = a “( 习一红“川( 彳1 ) ( 2 2 9 ) 其中j 为阶数,表示全极点模型中极点的个数。设p 阶的线性预测误差滤波 器传递函数为4 力,即a 刁= 彳力( 刁,可以定义两个p + 1 阶多项式: 曼之2 叠之+ z - ( m 1 ) a ( z - 1 ,? ( 2 - 3 0 ) a 刁= 4 刁一z - ( p + 1 ) 4 z - 1 ) 不难看出,只刁相当于,= 一1 时的4 ”1 ( 刁,而a 刁相当于o 。= 1 时的 ( 2 3 1 ) 可以证明,当4 力的零点在z 平面单位圆内时,j p ( 习和a 习的零点都在单 位圆上,并且只力和a 力的零点沿单位圆随着留的增加交替出现。爿力和 z - - ( ”1 ) 4 z - 1 ) 可分别表示成: 4 马= 1 一q 少尹一矿 ( 2 3 2 ) 川4 2 1 ) = 三羽埘一q e p 一 ( 2 3 3 ) 可以推导得到: 只刁= l 一 叫一一心+ 1 ) 夕一晦+ a i ) z - 9 + 一 ( 2 3 4 ) q z ) = l 一 电p 一一心一) 严一心一q ) + 删 ( 2 3 5 ) 可见只刁是一个实对称系数的p + i 阶多项式,而a 习是一个反对称实系 数的p + i 阶多项式,因此它们都有各自得的共轭复根。从多项式本身还可以看到 它们还有l 的实根( 二重复根) ,即有: 只习;一l = 0 ,q 刁硝= 0 ( 2 3 6 ) 共轭复根的形式为弓= 扩,这是因为已知只刁和q ( 力的零点都在单位圆上, 所以由这类零点构成的基本因式应该具有以下的形式: ( 1 一z - 1 p 7 弛) ( 1 z - 1 e - 扣- ) = 1 2 c o s c o ,z - 1 + z - 2( 2 3 7 ) 若阶数p 是偶数,只刁的零点为矿m ,q 2 的零点为矿鼻,那么只力和a 刁 可写成下列因式分解的形式: 天津大学硕士学位论文第二章语音压缩编码的基本原理 p 2 h 2 ) = ( 1 + 一) l - l o 一2 c o s 嘶一+ 严) 扛i p 2 q 习= ( 1 + z - 1 ) 丌( 1 - 2 c o s o # z - 1 + f 2 ) q 只按下列关系排列为: o q e ( 。一 万 ( 2 3 8 ) 系数嘶,毋成对出现反映了谱的特性,称之为“线谱对”,它们就是线谱对分 析希望求解的参数j p ( 刁和a 刁零点相互分离,保证了合成滤波器肌刁2 i 万 的稳定,也就是4 刁= 去【足力+ a 别,谱只2 ) 和。( 刁在单位圆上不同时为零, 保证了4 ( 2 5 在单位圆上没有零点,俄力在单位圆上没有极点,即输出结果有界, 系统是稳定的。 从上面的分析可以看出线谱对参数是通过两个z 变换只刁和a 刁得到的。 将4 刁的p 个零点映射到单位圆上,这样把4 力的零点与频率建立了关系, 用频率反映这些零点。 另一方面,线谱对参数也有自己特殊物理意义:由线性预测原理,假设系统 输入的是白噪声,系统输出的是语音信号。由信号理论,白噪声的自相关函数是 单位冲激,其傅立叶变换( 功率谱) 是一个常数d 0 ( 白噪声的统计方差) ,则 输出语音信号的功率谱可以用与系统功率传输函数( 1 坝扩) 1 2 ) 的乘积得到, 有: 岛( ) = 心( 国) l 坝矿) 1 2 = 1 俄矿) 1 2 ( 2 - 3 9 ) 也就是说,得到了系统函数川) 就等于得到了系统的功率传输函数 i 川扩) 1 2 。这里, l 俄扩) 1 22 南2 4 i + q ( 吖i = z 一 s “a 2 ( 詈 ,c 。s 一。s 只,2 + c 。s 2 ( 詈 ,l i ( c o s a ) - c o s m y 一1 天津大学硕士学位论文第二章语音压缩编码的基本原理 ( 2 4 0 ) 在式( 2 4 0 ) 中,括号的第一项在接近0 或只( ? = l ,2 ,以) 时,近似 为0 ;括号的第二项当珊接近于7 r 或r o , ( i = 1 ,2 ,以) 时,近似为0 。如果 缔q 很靠近,那么当接近这些频率时,1 4 1 2 变小,l 坝扩m 2 显示出谐振特 性,对应的语音信号的谱包络在这些频率点出现峰值。这就是说,l s p 分析是用 p 个离散频率岛和q 的分布密度来表征语音信号功率谱特征的一种方法。也就 是通常所说的,可以看成是由多个峰值功率谱叠加组成的语音信号功率谱。 经过上面的分析,可以看出线谱对分析本身对预测语音信号功率谱的指导作 用和作为量化预处理的作用。 2 5 量化的两个概念 码书:码书是在进行矢量量化时用到的一个概念,下面用一个例子来说明。 假设要量化一个数据流0 5 ,1 5 ,2 4 ,0 3 ,0 6 ,0 8 ,0 9 ,0 1 ,0 5 ,0 6 。 如果用一维量化的方法,按四舍五入量化之后仍然有1 0 个数据,没有起到数据 压缩的作用,只是把传输数据标准化了。为了压缩数据流,现在引入矢量量化的 概念,把上面给出的1 0 个数据分成5 个二维矢量( o 5 ;1 5 ) 、( 2 4 ;0 3 ) 、( 0 6 ; 0 8 ) 、( 0 9 ;0 1 ) 和( o 5 ;0 6 ) 。这样就把每两个数据与平面上的一个点对应 起来了。 一 现在规定如下的协议:用单位1 分割平面坐标系的横、纵坐标,即把二维平 面分块。规定落入每个正方形内的点被量化成这个正方形右上顶点的坐标值,并 对正方形进行标号。现在可以用一个正方形的标号来表征两个坐标值,这样既达 到了量化的目的又达到了压缩的目的。这种量化方法叫做矢量量化,能够量化的 前提是“数据分组,映射到平面,平面分块,取右顶点”,这套规则是接收双方 默认的,被称为协议。把每个正方形的标号与其右上顶点的一对坐标的对应关系 称为码书。可见码书属于协议规定的内容。 差值量化:语音通常是模拟的,也是连续的。在绝大多数情况下,连续函数 具有一维相关性,也就是相邻函数值之间不会发生跳变。在语音编码上这被说成 天律大学硕士学位论文第二章语音压缩编码的基本原理 在相邻的语音样值之间存在着很大的相关性。从平均意义上讲,高度相关性的含 义就是从一个样值到另一个样值,信号不会发生迅速的变化。 因而,信号相邻样值之差的方差比信号本身的方差小。因此与对样值进行 量化相比,对差值量化可以减小量化误差。 2 6 合成分析技术( a n a l y s i s - b y s y n t h e s i s ) 嘲 合成分析技术的原理如图2 8 所示。这种方法是首先假定语音信号生成模 型,由于模型生成的信号与实际语音信号存在误差文回,通过反馈控制,可以求 出使误差廿) 在某种准则下最小的模型参数。 图2 8 合成分析原理图 解码就是合成语音信号。为了获得更好的语音听觉效果,在分析实际语音 信号和合成语音信号误差时,一般采用知觉加权最小均方误差技术,即使误差信 号通过一个知觉加权滤波器,然后再采用均方误差最小分析,找到利用语音编码 参数合成的语音信号与原始语音信号的接近程度。 图2 9 是多脉冲激励声码器的原理框图。原始信号s ( n ) 以帧为单位进行处理, 首先对每帧信号进行l p c 分析计算出预测系数;然后利用合成分析技术估计 激励脉冲的位置和幅度,然后把这个激励脉冲输入到编码器中,得到合成的语音 信号司;将合成的语音信号文西与原始信号s ( n ) 相减,得到误差信号d 谚并输 入到知觉加权滤波器瞰力,得到加权误差信号e 一( 功。根据均方误差最小准则, 分析估计出一组的位置和幅度最佳的激励脉冲,最后与线性预测系数一起编码送 入信道。在解码端,激励信号被馈送给合成滤波器进行语音信号的合成。 天津大学硕士学位论文 第二章语音压缩编码的基本原理 图2 9 多脉冲激励声码器原理图 2 7 码本激励线性预测编码嘲 c o d ee x c i t e dl i n e a rp r e d i c t i o n 简称c e l p ,即码本激励线性预测编码。 c e l p 分帧的帧长为2 0 3 0 m s ,采用合成分析搜索、知觉加权、矢量量化和线性 预测等技术。图2 1 0 是c e l p 编码器的示意图。 图2 1 0c e l p 编码示意图 c e l p 按帧做l p c 分析,用l p c 参数构造合成滤波器。c e l p 建立两个码本, 一个叫做自适应码本,其中的码字( 码矢量) 用来逼近语音的长时周期性( 基音) 结构;另一个叫固定码本或随机码本,其中的码字( 码矢量) 用来逼近语音经过 短时、长时预测后的残差信号。从两个码本中搜索出最佳码矢量,乘以各自的最 天津大学硕士学位论文第二章语音压缩编码的基本原理 佳增益后相加,其和即为c e l p 激励信号源。激励信号输入到p 阶l p 合成滤波 器l 4 力,得到合成信号文回。将合成的语音信号文印与原始信号s l :回相减,得 到误差信号回并输入到知觉加权滤波器职刁,输出加权误差信号气( 功,用最 小均方误差准则作为搜索最佳码矢量及其幅度增益的度量。 2 8 本章小结 本章首先介绍了语音信号模型和语音线性预测模型的产生原理和数学模型, 然后详细介绍了语音压缩算法的关键技术和方法。 天津大学硕士学位论文 第三章g 7 2 3 1 双速率语音编解码器原理 第三章g 7 2 3 1 双速率语音编解码器原理 g 7 2 3 1 是i t u t 建议的应用在h 3 2 3 、h 3 2 4 等多媒体通信中的语音和其 他声音信号的双速率编解码算法,它具有较高的话音质量。用g 7 2 3 1 算法压缩 后的语音信号m o s 值( m e a no p t i o ns c o r em o s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论