(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf_第1页
(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf_第2页
(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf_第3页
(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf_第4页
(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(通信与信息系统专业论文)mpeg2+aac编解码器的实现方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二兰交苎查兰竺主兰竺兰兰 苎三。 - _ _ _ _ l l _ - - _ - _ _ _ - - - _ _ _ _ l - - _ _ _ _ - l _ l _ _ 。l l l 。一一 m p e g - 2a a c 编解码器的实现方法研究 摘要 本文介绍了m p e g 2a a c ( a d v a n c e da u d i oc o d i n g ) 编解码标准的 算法,并且提出了其在p c 平台上的软件实现和在d s p 芯片上的硬件实 现方法。 ,雅为目前最新和最有效的高保真数字音频编码手段,m p e g 一2a a c 具有压缩比高,重建音频质量好,编解码过程模块化,声道配置灵活等 特点,并且不同的层次具有不同的算法复杂度。因而,m p e g - 2a a c 在 数字声音的存储、i n t e m e t 上的多媒体传输、数字音频广播( d a b ) 等领 域正获得日益广泛的应用。随着数字多媒体技术在我国的飞速发展,对 研究和实时实现m p e g 。2a a c 编解码系统具有重要的意义。 然而,为了提供最好的重建音质,m p e g 2a a c 编解码算法复杂度 高,对运算量和存储器容量都有很高的要求,到目前为止还没有专门的 a s i c 处理芯片。现在常用的方法是采用基于p c 的软件和通用的d s p 完 成其音频信号的编解码。为了使m p e g - 2a a c 的编解码系统能在p c 和 d s p 上实时实现,必需对其中的关键模块,如滤波器组、霍夫曼编解码、 量化与反量化等,进行算法与d s p 编程的优化,才能在保证精度的同时 大大降低运算量与存储空间的消耗矿圹 本文首先叙述了m p e g 2a a c 的编解码的基本原理,并对部分关键 的编码技术进行了具体探讨。论文作者据此标准,完成了基于p c 的 m p e g 2a a cm a i np r o f i l e 实时解码播放软件和基于定点d s p ( t m s 3 2 0 c 5 4 9 ) 的m p e g 2a a c l c p r o f i l e 实时解码器,对标准码流解 码获得了满意的重建音频质量。然后,对编码算法在p c 机上进行非实时 仿真,并在浮点d s p ( t m s 3 2 0 c 6 7 0 1 ) 上实时实现了m p e g - 2a a cl c p r o f i l e 的编码器,同样取得了优良的解码音质。本文研究了编解码器的 具体实现方法,并对所有软硬件编解码器的运行结果进行分析和评价, 证明了m p e g 2a a c 能够在提供高压缩比的同时保证高质量的重建音频 信号,为m p e g 2a a c 走向实际应用打下了基础。 关键词 m p e g 音频,实时编解码器,通用数字信号处理器,改进离散余弦 变换,量化 上海交通大学硕士学位论文 a b s t r a c t r e s e a r c ho ni m p l e m e n t a t i o no f m p e g - 2a a cc o d e c a b s t r a c t t h i st l e s i sd e s c r i b e st h ea l g o r i t h mo fm p e g - 2a a c ( a d v a n c e da u d i o c o d i n g ) a n dp r e s e n t si t si m p l e m e n t a t i o no n p ca n dd s p s y s t e m s a san e wa n dh i g h l y e f f i c i e n th i f ia u d i oc o d i n gm e t h o d 母e g - 2 a a ch a sm a n yf e a t u r e s ,s u c ha sh i g hc o m p r e s s i o nr a t e 、e x c e l l e n tq t m l i t yo f r e c o n s t r u c t e da u d i o ,m o d u l es t r u c t u r eo fe n c o d i n ga n dd e c o d i n gp r o c e d u r e a n df l e x i b l ec h a n n e lc o n f i g u r a t i o na sw e l la sd i f f e r e n ta l g o r i t h mc o m p l e x i t y f o rd i f f e r e n tp r o f i l e s t h e r e f o r e i ti sg a i n i n gw i d e ra n dw i d e ra p p l i c a t i o n so n d i g i t a ls o u n ds t o r a g e ,m u l t i m e d i a d a t at r a n s m i s s i o na n d d i g i t a l a u d i o b r o a d c a s t i n g w i t ht h ed e v e l o p m e n t o fm u l t i m e d i at e c h n o l o g yi no u rc o u n t r y , i ti ss i g n i f i c a n tt os t u d ya n dd e s i g nr e a l t i m en 伊e g - 2a a cc o d e cs y s t e m i no r d e rt op r o v i d eg o o da u d i oq u a l i t y , 田e g 一2a a c i sac o m p a r a b l y c o m p l i c a t e ds y s t e mw i t h a h i g hr e q u i r e m e n t b o t hi nt h ec o m p u t i n g a b i l i t ya n d t 1 1 em e m o f y c o n s m n p t i o n u pt on o m n os p e c i f i ca s i cj sd e s i g n e dt od ot h e c o d i n gw o r k c o m m o n l y , e i t h e r ap co rag e n e r a lp r o p o s ed s p c h i p i su s e dt o i m p l e m e n t i n gt h i ss t a n d a r d ,b u tt h ek e ym o d u l e so f 口p e g 2a a c s u c ha s f i l t e r b a n k ,h u f f m a ne n c o d i n g d e c o d i n g a n d q u a n t i z a t i o n i n v e r s e q n a n t i z a t i o n m u s tb eo p t i m i z e dt or e d u c ei t sc o m p u t a t i o n a ll o a da n dr a m c o n s u m p t i o n ,w h i l es t i l lm a i n t a i n i n gg o o d r e c o n s t r u c t e da u d i oq u a l i t y t h ea u t h o rf i r s td e s c r i b e st h eb a s i c a l g o r i t h mo fn 田e g 2a a ca n d d i s c u s s e dt h ek e yt e c h n o l o g i e s t h u s ,t h es o f t w a r ed e c o d e ro fa a c ( m a i n p r o f i l e ) b a s e do np ca n dah a r d w a r ed e c o d e ro fa a c ( l cp r o f i l e ) b a s e do n f i x e d p o i n td s pa r ei m p l e m e n t e dw i t hs a t i s f a c t o r ya u d i oq u a l i t y t h e nh e s i m u l a t e s 姗g 2a a c ( l cp r o f i l e ) e n c o d e ro np c a n d i m p l e m e n t s m 陌e - 2a a c 阻cp r o f i l e ) e n c o d e ro n f l o a t i n g - p o i n t d s ra i lt h e i m p l e m e n t a t i o nm e t h o d sa r ep r e s e n t e dw i t ha n a l y s i so f t h e i rr e s u l t s k e yw o r d s m p e g a u d i o , r e a l t i m e d i g i t a l a u d i o e n c o d i n g d e c o d i n g g e n e r a l p u r p o s ed i g i t a ls i g n a lp r o c e s s o r ( d s p ) ,m d c t , q u a n t i z a t i o n 上海交通大学硕士学位论文 绪论 绪论 随着计算机技术和通信技术的发展,人类开始追求真正意义上的多媒体信息的处 理和交互。自然界中的各种信息,包括文字、声音和图像,都成为处理的对象。但是, 这些媒体信息本身都是模拟的,只有对其数字化后才能由计算机平台进行各种处理和 综合。而各种媒体数字化后的信息数据量十分庞大,对于存储器的容量,计算机实时 处理以及网络通讯线路的传输带宽都提出了苛刻的要求。实践证明,对多媒体信息数 据进行压缩,可以明显增大存贮量,或减少传送时间。 在人类的几种感觉器官中,听觉和视觉接受的外界信息最多( 占9 0 以上) ,与 之相适应,这两种器官接收的声音与图像成为了多媒体的主要媒体数据,也是信号处 理领域主要的研究对象。本文主要研究声音信号的压缩和编解码。 数字声音信号 根据所处理的声音信号特性及处理方法的不同,可将声音信号分成如下两大类: 1 语音( s p e e c h v o i c e ) 信号 目前常见的话音通信系统,如长途通信、移动通信和卫星通信,主要面向这种信 号,其信号频带限于o 3 34 k h z ,数字化时采样频率多取8 m z 。在新兴的通信系统, 如视频会议和i s d n 话音服务中,语音信号的频带可加宽到5 0 i - i z 7 k h z 。此时采样 频率多取1 6 k h z 。 2音频( a u d i o ) 信号 一般认为人耳的听觉范围为2 0 h z 2 0 k h z ,这正是我们所需处理的音频信号的频 带。也就是说,如果我们能够完整的保留下该频带内的所有声音信息,就意味着不失 真的保存了所需音频。在实际应用中,这种信号还可分成: 1 ) 电视和无线广播质量音频:信号频带从4 0 或5 0 h z 到7 k h z ( 调幅) 或1 5 k h z ( 调 频) ,广泛用于收音机和电视伴音、数字化时采样频率取1 6 k h z ( 对应于7 k h z 带 宽信号) 或3 2 k h z ( 对应于1 5 k h z 带宽信号) 。 2 ) c d 质量音频:频带2 0 h z 2 0 k h z 主要用于传输或存储高品质音乐信号,数字 化时采样频率可取4 4 1 k h z 或4 8 k h z 。 3 ) 更高质量h i f i 音频:和c d 音频相比,频带更宽,量化更细。这种质量声音使 听众具有现场感,即犹如置身子音乐厅中而且多采用多声道混放输出,形成环 绕,并提供低音增强等功能。数字化时采样频率最高达9 6 k h z 。 最常用的数字声音存储方式是p c m ( p u l s ec o d em o d u l a t i o n ) 技术。p c m 简单 地将模拟的声音信号用固定的抽样频率与固定的最大量化比特数进彳亍量化。p c m 技 术是在1 9 3 7 年由ah r e e v e s l l 最先发明的。p c m 声音可以用各种量化比特数与采 样率进行量化,但对最常见的c d 质量的音频信号,般都用4 4 1 k 1 4 z 与1 6 比特进 上海交通大学硬士学位论文 绪论 行重化。根据n y q u i s t 准则,4 4l k h z 的采样率可以重建带宽小于2 2 0 5 k h z 的信号, 比人耳通常能感知的频带略宽,多余的一点带宽可以用来修正滤波器的一些失真。使 用n 比特进行量化就有2 “个置化阶。量化可以用等步长量化,也可以采用变步长量 化技术。在等步长量化的情况下,每个量化比特将量化信噪比( s n r ) 增加6 d b ,1 6 个量化比特使量化信噪比增加至9 6 d b 。变步长的量化方案有很多,但它们都是基于 对信号分布的概率密度i n 或人耳对信号的听觉特性有所了解的前提。变步长的量化 算法都比等步长量化要复杂,也各有各的优缺点。 数字音频作为一种存储、处理和传输h i f i 声音的方法在数字音频广播( d a b ) 、 网络音频( i n t e r n e ta u d i o ) 、多媒体通信等许多领域中得到广泛的应用。然而,要存 储和传输原始音频数据需要很高的比特率。还是以c d 音频为例,每声道比特率高达 7 0 6 k b p s ,一张6 5 0 m b 容量的光盘只能存储一小时的立体声,如果直接传输需占有一 个t 1 或e l 的1 2 个话路,极不经济。在现有信道的传输能力限制下,为了能从广播、 电视获得c d 音质的音乐,并使存储介质的单位成本更小,人们想到了压缩码率,力 求在保证声音质量的前提下使其占用的存储空间更小、传输速率更低,这就是音频压 缩编码的产生原因。从1 9 8 2 年c d 问世之日起,高效率的数字音频压缩编码的研究 工作几乎同时展开。 二数字音频压缩的基本理论依据 人耳的听觉系统是一个相当复杂的生理系统。首先,人耳的听觉有它自身的生理 极限,它一般只能感知频率在2 0 2 0 k _ r - i z 的声音。在这个频率段内的声音通过神经 传输到大脑皮层,然后由大脑将声音转化成不同的感知信号。在这个过程中,以下几 点对于我们构造音频压缩算法尤其重要: 1响度( l o u d n e s s ) 两个幅度一样的声音,如果频率不同,它们会有不同的响度。产生这个现象的原 因是人耳对声音响度的感知会随声音信号频率的变化而变化。实验表明,人耳对 1 0 0 0 h z 5 0 0 0 h z 的声音最敏感。 2 动态范围( d y n a m i cr a n g e ) 入耳能感知的最低声压大约为2 0m p a s c a l 。将这个声压作为参考值,来衡量其它 声音的强度。普通谈话的声强大约是5 0 6 0 d b ,而汽车发动机噪声的声强大约为 1 3 0 d b 。人耳能忍受的最大声强为1 3 0 d b ,因此人听觉的动态范围是o 1 3 0 d b 。 3 听觉掩蔽效应( a u d i t o r ym a s k i n g ) 掩蔽效应是一种常见的心理声学现象。它指的是在一个较强的声音附近,弱的 声音将不被人耳所察觉,即被“掩蔽”掉。这时,较强的声音称为掩蔽声,弱的声音 称为被掩蔽声。不可闻的被掩蔽声的最大声压级称为掩蔽门限。由于掩蔽声的存在, 被掩蔽声( 通常指单频声) 的闻阈必须提高的分贝数称为掩蔽量( 也称为掩蔽值、阂 移) 。掩蔽效应分为频域掩蔽( 或同时掩蔽) 和时域掩蔽( 或异时掩蔽) 两大类。 1 ) 频域掩蔽 上海交通大学硕士学位论文 绪论 频域掩蔽现象发生在掩蔽声与被掩蔽声同时出现的时候,亦称为同时掩蔽举例 来说,如果在1 0 0 0 h z 处有一个强音,而在1 1 0 0 h z 处有一个强度低了1 8 d b 的声音。 1 1 0 0 h z 处的声音就会被1 0 0 0 h z 处的强音掩蔽,无法听到。由于掩蔽效应,幅度较大 的音调( 掩蔽音调) 使靠近自已的相对幅度较小的音调变得听不见。一般来说,强音 能掩蔽较弱的声音,而且两个声音的频率越接近,掩蔽效应越明显。 2 ) 时域掩蔽 时域掩蔽现象发生在掩蔽声与被掩蔽声不同时出现的时候,亦称为异时掩蔽。被 掩蔽声作用于掩蔽声以前,即一个声音影响了时间上先于它的声音的听觉能力,这称 为前掩蔽。当掩蔽声作用在前,被掩蔽声作用在后,即当一个声音已经结束,它对另 一个声音在听觉上还会产生影响,这称为后掩蔽。图o 1 给出了频域和时域掩蔽效应 的特性曲线。前掩蔽的作用范围大约是2 0 m s ,而后掩蔽的作用范围长达2 0 0 m s 。前 掩蔽和听觉疲劳有些相似。在实践中,后掩蔽更为重要。当被掩蔽声在时间上越接近 于掩蔽声,阈值就越高。掩蔽声和被掩蔽声时间上相距很近时,后掩蔽作用大于前掩 蔽作用。 t o o m r p v 上海交通大学磺士学位论文 绪论 经过研究,普遍认为人耳对声音的定位机理,是由于听者自己的头部和躯干对入 射声波的衍射作用,以致声波到达双耳时形成了声级差a p 和时间差t ( 或相位差 击) ,他们都是声源的方位和频率的函数。研究表明,在中低频( f 小于1 5 0 0 h z ) , 双耳t 是定位的主要因素:中频时( f 为1 5 0 0 h z 到4 k h z ) ,t 和p 共同起作用; 高频时( f 约大于4 k h z ) ,p 时主要因素。高频时方位的决定取决于信号包络在内 耳延时以及人耳所能感受到的信号频率。包络变化很快的时域声音信号,在定位时作 用大,而包络比较平稳的声音信号,对于人耳的定位影响很小。 目前的音频压缩编码算法主要分为两类:波形编码、感知编码。波形编码以声音 波形为基础,使重建声音波形尽可能接近原始波形,这类信号压缩编码器的设计可以 认为与信源无关。感知编码并不要求重建声音波形与原始波形完全一样,而是要保证 对于人耳来讲,重建声音听起来与原始声音一样。感知编码算法利用对人听觉心理的 先验知识,丢弃了原始声音中人耳无法感知的部分。通常,感知编码算法将时域信号 转换成频域信号,再将频域信号分裂到各个子带上,然后利用对人耳感知特性除去 人耳听不到的部分。相比波形编码,感知编码能获得更高的压缩比。 现在绝大多数的高质量音频压缩编解码算法都是基于感知编码的。同时,它们又 利用了信息论中的熵编码原理,极大的消除了原始信息中的统计冗余,获得了较高的 压缩比和较好的重建音质。其中最流行的是m p e ga u d i o 系列编解码算法。 三数字高保真音频编解码的发展与现状 音频压缩编码发展至今,出现了适用于不同场合和要求的多种算法标准。m p e g 组织自1 9 8 8 开始致力于高质量音频压缩编码标准。1 9 9 2 年该组织制定了数字音频压 缩领域的第一个国际化标准m p e g - la u d i 0 1 3 1 。它共分为三个层次,每个层次的复 杂度、压缩比和重建音质不同。 1 溉g _ i l a y e r i 这是m u s i c a m 算法的简化版本,编码器与解码器的复杂度都很低,但压缩比 也很低。l a v e ri 的帧长为8 m s ( 4 8 k h z 采样) ,所以最适合于演播室应用。也适合于 压缩比要求不高的场合,例如家庭数字磁带录音机等。 2 口e ( 、1l a y e ri i 这一层算法的压缩比有所提高,但编码器也比较复杂。l a y e r i i 算法与m u s i c a m 方案相同,帧长为2 4 m s ( 4 8 k h z 采样) ,它采用了更为精确的量化,并进一步去除了 子带量化因子的相关性,能在较低码率下获得较好的重建音质。l a y e ri i 算法标准在 消费和专业音频领域都有广泛的应用,如v c d 伴音,d a b ( 数字音频广播) 、d a w ( 数字音频工作站) 等。 3 m p e g il a y e r i i i 这是m u s i c a m 与a s p e c 的混合算法,简称m p 3 。它通过使用混合滤波器组提 高了频域分辨率,使运算更接近人耳的听觉特性。l a y e ri i i 的帧长与l a y e r 相同, 采用非均匀量化和熵编码提高编码增益,降低码率。l a y e r 还可以使用缓冲机制( 又 上海交通大学硕士学位论文 绪论 _ l - - _ - - _ _ _ l _ - - _ - - l - _ _ - _ - - _ - _ _ _ _ i _ - - - _ _ l _ 一 称比特池技术) 进行变码率控制,使比特分配更有效。l a y e r i i i 适用于电信通讯,例 如窄带i s d n 、卫星d a b 系统等,另外一个最突出的应用为m p 3 网络音乐。 4 d o l b y a c 2 和a c - 3 这是d o l b v 公司推出的两类算法,主要基于变换域感知音频方案。a c - 2 适用于 低成本的编码器和解码器,a c 3 的目标贝u 是包括动态压缩、多种回放配置、扩展用 户信息传输等功能的编解码系统。表0 1 做出了m p e g - 1 与a c - 2 及a c - 3 的对比【4 】。 表0 - i 几种音频压缩编码系统的比较 5 m p e g 。2 b c 标准 随着对多声道、环绕立体声应用的需求,音频编码也由单声道、立体声向多声道 编码扩展,m p e g - 2b c ( b a c k w a r d s c o m p a t i b l e ) 即是对m p e g - 1 的扩展。通过如下 矩阵景换: 三c = + 盯+ c + b + k ,心= r + a + c + 6 + b ( o 1 ) 其中,三。和足表示左、右环绕声道,c 表示中央声道。 m p e g 1 解码器可以解m p e g 2b c 的码流。m p e g 2b c 中,根据对m c ( m u l t i c h a n n e l ) 的不同扩展,分为三个层次,与m p e g - 1 一样,m p e g - 2b c 的第 三层扩展最为灵活,扩展声道数可以灵活选择t 4 1 。 6 田e ( - 2a a c 1 9 9 4 年,在d e u t s c h et e l e k o m 和b b c 举行的测试中,m p e ( 3 - 2b c 标准在 3 2 0 k b p s 5 c h 时不能达到i t u - r 的广播音质要求,而在同样条件下,a c 3 与a t & t 的m p a c 虽然也没有达到目标,但在总体上比m p e g - 2 b c 的效果好很多,鉴于这种 情况,m p e g 组织开始致力于非后向兼容的音频压缩标准的制定,这就是先进的音频 压缩编码标准( a d v a n c e da u d i oc o d i n g ,简称a a c ) 。1 9 9 7 年4 月,m p e g - 2a a c 成为一个国际标准( i s o f l e c1 3 8 1 8 7 ) 。a a c 具有以下主要特点【5 1 = 上海交通大学苎圭兰竺兰兰 一! 竺_ - _ - l - - - _ - - - _ _ _ _ _ - - _ _ _ _ l l _ _ _ l _ _ _ _ - 一 一 支持采样率包括3 2 、4 4 1 、4 8 k h z ,最高至9 6 k l - i z 。 支持出入声道数配置包括i 0 ( 单声道) 、2 0 ( 立体声) 和其它多声道配置,例如 3 2 + 1 配置( 环绕立体声加超重低音) ,最多可支持4 8 个声道编码a 在3 8 4 k b s 5 1 条件下,重建音质比m p 3 和a c - 3 高一个数量级,达到i t u - r 广 播音质。 预先定义接入单元,使剪辑粒度最小化。 在误码环境下保持正确的同步,并支持误码隐藏。 a a c 系统开发以模块为基础,而m p e g 2b c 及m p e g - i 是以整个系统为基础 的,所以,在有利于提高系统整体性能的前提下,a a c 的每个模块或工具都可以单 独进行优化。 7 m p e g 4 伴音标准 m p e g - 4 是m p e g 2 的扩展,被称为“全能”标准。在音频方面,m p e g - 4 将以 前分离的高保真音频压缩编码、语音编码和计算机音乐相融合,可以存储或传输以下 信息 高保真音频信号( 单声道、立体声和多声道) 。 中间质量音频信号。 宽带语音信号( 如7 k - z 带宽) 。 窄带( t o i lq u a l i t y - ) 语音信号。 可理解的语音信号。 合成语音信号( 如文本合成语音) 。 合成音频。 m p e g - 4 是现阶段所能提出的音频视频标准的最高目标,具有智能化和全面性等 特点。在高质量音频压缩方面,a a c 很有竞争力,有望成为m p e g 4 音频编码标准。 四本文的意义和主要内容 音频压缩编码己被广泛应用于网络音乐,国外己开始其在广播电视方面的应用开 发。为了进步跟踪国外先进技术,积累经验,使我国的数字音频技术早日成熟,我 们对m p e g - 2a a c 这个迄今为止最为先进的数字音频编解码标准进行算法研究,并 尝试在高速低价d s p 上实时实现其编码和解码,为今后市场的开发应用打下基础。 本文共分三章: 第一章介绍了m p e g - 2a a c 音频压缩编解码的基本原理、工具及流程模块图。 第二章分析了m p e g - 2a a c 解码算法各模块算法特点并做出改进,讨论了解码 器的软硬件实现方法,给出了运行结果。 第三章分析了m p e g - 2a a c 编码算法各模块算法特点并做出改进,讨论了编码 器的软硬件实现方法,给出了运行结果。 上海交通大学硕士学位论文 第l 章m p e g 0 2a a c 算法原理和编解码漉程 第1 章m p e g 2a a c 算法原理和编解码流程 1 1 m p e g - 2a a c 的编码原理 对于低比特率的要求,有效的音频编码音能够出去音频信号中的冗余和无关分 量。利用音频采样信号和采样样本统计特性之间的关系,可以除去信息的统计冗余。 利用人耳听觉系统在频域和时域中的掩蔽特性,可以除去不可闻的信号成分( 无关分 量) 。通过滤波器组把音频信号在频域上分成一些子带,利用听觉模型对信号频谱进 行量化和无噪声编码,可以降低数据率。这些过程的各个步骤形成了m p e g 2a a c 系统的基本结构。 a a c 是一种基于感知原理的高质量音频压缩编码,其基本原理如图1 1 所示: 图卜1 感知音频编码基本原理 f i g u t cl lb a s i cd i a g r a mo f a 砌oc o d r i gb a s e do i lp e r c e p a m ! t e c h n o l o 舒, 心理声学模型根据感知原理计算出掩蔽曲线,即每个子频带可引入的噪声,在量 化部分对各频带信号进行量化,协调比特数与噪声的关系,最后编码为比特流。 以下将详述与a a c 相关的具体编码技术。 1 1 1 分析滤波器组 滤波器组提供了最基本的分析综合系统。在历史上,工作于频域的感知编码系 统一般分为两类:子带编码器和变换编码器。子带编码器的频率通道数较少,常用于 处理时域里的邻近信号:变换编码器的通道数较多,常用于处理频域里的邻近信号。 在数学上,所有音频领域的变换可视作滤波器组,滤波器组可视作变换,这两种 方法没有本质上的不同。 一多相正交滤波器组 多相滤波器组在早期的m p e g 音频编码中有广泛的应用,子带滤波器分析和重 建的过程如图1 - 2 所示。图中,同一通道的分析和重建滤波器完全相同,而不同通道 的滤波器是从一个低通滤波器经过相位变换获得的,具有形状相同的幅频响应。子带 滤波器组应用于音频编码存在以下几个方面的问题【6 】: 上海交通大学硕士学位论文 第1 章m p e g - 2a a c 算法原理和编解码流程 首先,各子带滤波器的带宽都是相等的,这种结构有利于快速算法的实现,但不 能反映听觉系统的频域特性。而临界频带更适合作听觉系统的频域特征描述。 第二,由于理想滤波器的不可实现,相邻滤波器之间必然会有重叠,某一频率上 的信号可能影响两个频带。 第三,由于信号必须经过多个滤波通道,在分析滤波器输出端需要对每个通道进 行亚采样,在重建滤波器的输出端进行内插恢复。由于处于两个相邻滤波器之间的信 号在经过重建后会产生原信号的镜像,这一过程通常会引入混叠。 图卜2 多相滤波嚣组的分析和重建 f i g u r e1 - 2a n a l ”i sa n dr e c o n s t r u c t i o no f m u t o p h a s ef i l t c r b a n k 第二种情况可以通过设计滤波器的频响形状,使阻带的衰减足够大,通带足够平 坦,所有滤波器的组合频响在整个音频通带内接近理想平坦实现。由亚采样和内插引 起的频域混叠却比较复杂,现已提出许多办法加以改进。一种著名的方法是使用正交 镜像滤波器组,它的特点是奇数通道和偶数通道采用相同的幅频响应和正交的相频响 应,在相位上关于( w = 2 对称) 在重建输出端,整个系统的混叠相互抵消,但对每 个通道而言,混叠仍然存在【7 】。 等带宽的滤波器组有很多快速的实现方法1 8 】,如使用f f t 、快速d c t 变换等。 二时域混叠抵消滤波器组 时域混叠抵消( t i m ed o m a i na l i a s i n gc a n c e l l a t i o n t d a c ) 滤波器组是另外一种 分析综合方法,在理论上,t d a c 可以提供完整的重建。t d a c 可视作输入信号经 过低通滤波后使用s s b 调制在不同频率上【针,进行降采样后的输出,如图1 3 所示: 图1 - 3t d a c 变换概念示意图 f i g u r e1 - 3b l o c kd i a g r a mo f t d a c g - 上海交通大学硕士学位论文 第1 章m p e g - 2a a c 算法原理和编解码流程 其中,每个通道的调制频率具有均匀的间隔,即础= 2 x ( k + l 2 ) k ,詹= o x 一1 。 分析信号中呈现对称特点,所以实际上只需计算从0 到k 2 1 的变换值。分析信号可 以表示为 删s 争弘胛小等叫c o s 睾”0 5 , m 。、 + s i i l ( 等) 主蝴( p 1 + 丁m k 讪i n ( 警( 5 ) q 弧) ) 一 在实现中,分析和综合滤波器采用有限长度滤波器,为实现时域混叠抵消,滤波 器的长度必须受到限制,使分析重叠仅存在于相邻的窗或帧之间。同时,上式的效果 等同于进行了正弦余弦变换,它们在边界上有着固有的不连续性因此在块边界处可能 产生很大的噪声,相邻块的采样值在时间上重叠5 0 ,有利于消除这种噪声,故选择 滤波器的长度为x 2 p k 。使用如下两个代换: x 。( r ) = x ( m x 2 + ,) 辛 一r = i n k 2 一刀 得到分析变换如下: x ,( m ) = c o s ( 翮睹) k - i x 。( ,) 矗( k - l - r ) c 。s ( 等+ o 5 ) ( ,+ ) ) ,后:o k l ,( 1 - 2 ) 通常情况下,修正系数c o s ( w n k ) 可以被忽略,因为它仅仅引起奇数通道上相位的变换。 由上式可以发现,在相邻帧之间引入了5 0 的重叠,所以,又称为o v e r l a p - - a d d ( o l a ) 过程。 综合变换同样可以使用块变换o l a 表示,在使用相同的代换和窗长限制后,得 到综合输出: 量。( r ) :囊,( ( 一所) i k + ,) 儿( ( m - m o ) i k + ,) ( 1 - 3 )量。( r ) = ,( ( 一所) i + ,) 儿) i + ,) 其中: 州,) = 专墓c 。s ) 引咖。s ( 詈”0 5 ) ( ,+ 删 ,= 。x 一1 ( 1 - 4 ) 因为综合窗有限窗长的限制,式( 1 - 3 ) 只有两个非零项: 量。( ,) = ( ,+ 等) y ,。一。( ,+ 筹) 十,( ,) y ,。( r ) ,= 。等一1 ( 1 5 ) 将式( 1 - 2 ) 代入( 1 - 5 ) ,得到儿p ) 的表达式如下: j ,扣) = 壶k - i k - i “舭o k - l - p 1) c 。s ( 警( 七+ 0 k - - o p = 0 5 ) ( p + 删c 。s ( 警( j i + 0 5 ) ( ,岷) ) ( 1 柳 j ,。( ,) = 专h ( p ) o) c o s ( 等( 七+ 5 ) ( p + 力o ) ) c o s ( 等( j i + o 5 ) ( ,+ ) ) ( 1 6 aaa 上海交兰大兰登圭兰竺兰 兰! 兰竺竺竺璧堡兰翌竺坚 将式( 1 6 ) 代入( 1 5 ) ,经过数学转换和简化,并去除实际值为零的项州,得到重建 信号表达如下: 曼,。( r ) = 0 5 x 。( r ) f ( r + k 2 ) h ( k 2 一,1 ) + ,( ,) ( 足一1 一,) 】 + o5 x 。( k l o f ( r + k 2 ) ( ,) 一,( ,) 】i l ( x 2 + r ) lr = o x 2( 1 - 7 ) 上式第一项为希望的重建值,而第二项为混叠,所以,在满足一定条件后,能够消除 混叠,条件如下: 矗( 厂) = ,( ,) h ( k l - r ) = h ( r )( 1 - 8 ) m + 要) 厅( ,) 一弛) ( 等+ ,) :o 而要完全消除混叠,重建原始信号,可令: :( ,+ 要) + :( r ) :2 ,r 蛐冬一1 0 - 9 ) 可见,最简单的情况是使用时域形状为矩形的滤波器。在概念上,t d a c 使用的滤波 器等效于对称的窗函数结构。 t d a c 与子带滤波器组相比的一个重要优点是理论上完全重建,且有利于增加处 理帧的长度,使信号的频域分辨率提高。t d a c 的一个重要应用是m d c t 与i m d c t 。 m p e g - 2a a c 中正是采用了基于m d c t 的t d a c 滤波器组。 2m d c t a a c 的分析滤波器组使用m d c t ( 改进余弦变换) ,重建滤波器组为l m d c t 。 因为m d c t 采用的是t d a c 技术,在理论上完全消除了混叠。m d c t 的表达式为: 硼) 2 溯7 ) c 。s 降帆凇删 ( 1 - 1 0 ) 式中,w ( n ) 为窗函数。如前文所提,w ) 具有对称性,矩形窗是满足条件的最简单 窗型。但是由于被分析的信号时段是分离的,需要降低边界效应对谱分析的影响,窗 函数应满足主瓣宽度窄,旁瓣衰减高的要求,才能提高频率选择性。a a c 提供了两 种窗函数,正弦窗和凯塞一贝塞尔窗( k a i s e r - b e s s e ld e r i v e dw i n d o w ,简称k b d 窗) 。 在音频编码中,常用的是正弦窗。正弦窗使滤波器组能够较好的分离出相邻的频谱分 量。对于具有密集谐波分量的信号,正弦窗可以提高编码效率。但对于某些类型的信 号,最大衰减越好的窗口编码效率越高,所以,对于其它类型的信号,可以选择k b d 窗。两种窗函数的频响曲线如图1 - 4 所示。 当频偏大于1 1 0 h z 时,k b d 窗的泄漏低于掩蔽模板,而正弦窗几乎比掩蔽模板 大2 0 d b 。这说明当频谱间隔大于2 2 0 h z 时,k b d 窗可以有效地分离出这些频率分量。 上海交通大学硕士学位论文 第l 章m p e g - 2a a c 算法原理和编解码流程 图卜4 采样率为4 8 k f l z 时b d 窗和sr n 窗的频率选择性比较“ f i g u r e1 - 4c o m p a r i s o no f m a s k i n gt e m p l a t ew i t h2 0 4 8 s a m p l et r a n s f o r mf i l t e r - b a n kf r e q u e n c y s e l e c t i v i t yo f k b d a n ds i n - f u n c t i o nw i n d o w sa t4 8 k h z 而正弦窗对大多数频谱间隔不同的频率分量的分离效果不好。但是,k b d 窗对频偏 小于7 0 h z 的分量的衰减比正弦窗差,这是k b d 窗为提高大频偏时的衰减所付出的 代价。所以当重要的频率分量间隔小于1 4 0h z 时,采用正弦窗的滤波器组更为有效。 a a c 系统允许k b d 窗和正弦窗之间的连续无缝的切换,对于每一帧的前半部分, 使用与上一帧相同的窗函数如式( 1 1 1 ) 所示: 呻归馁纛,当0 荔关: m w u = 1 w 埘( ,7 ) 当2 ” ( 1 叫u 式中,n 为变换块的长度,可为2 0 4 8 或2 5 6 。 正弦窗的窗函数为 彬。枷,( ”) = s i n ( 鲁r ( n + o5 ) ,0 , 詈 ( 1 1 2 ) 彬。一n g h 州) = s i n ( 砉( n + 0 5 ) , 詈力 m d c t 变换的帧长有两种,2 0 4 8 和2 5 6 。长块的频域分辨率高,编码效率高,但 对于时域变化快的信号,时域分辨率不够,容易产生预回声效应。预回声现象指的是, 对于一帧信号,设时间长度为2 0 m s ,若在1 0 m s 处出现冲击信号,则在频域上计算得 到的掩蔽在整个2 0 m s 内有效,因此量化噪声是根据包含有冲击的整个一帧计算的。 但对于冲击信号之前的时段,由于前掩蔽的强度较小,时间较短,量化噪声不能被及 时掩蔽,容易感觉到量化噪声。减小预回声有多种方法,在滤波器组方面,可以使用 长短块切换,即对时域上较平稳的信号采用长块,否则使用短块。切换的标准根据心 理声学模型的计算结果确定。为了平滑过渡,长、短块之间的过渡不是瞬时的,中间 引入了过渡块,在由长块到短块变化时,上一帧应使用过渡块,类似的,当前帧发生 了短块到长块的切换时,将当前帧置为过渡帧,这两种过渡帧的形状是不同的a 所以- 以正弦窗为例,a a c 中共使用4 种不同的窗型”“: 1 o n l yl o n g _ s e q u e n c e ,窗函数为: 竺,渊:。 m 聊 这是大多数音频信号帧使用的窗型。在许多情况下,为了减小运算复杂度,甚至只使 用o n l yl o n gs e q u e n c e 。 2 l o n gs t a r t ( ,) = 睨w ( ,) ,0 ” 1 0 2 4 1 o 1 0 2 4 ”1 4 7 2 ( 1 - 1 4 ) 矸名刚g r :5 6 ( n + 1 2 8 1 4 7 2 ) , 1 4 7 2 玎 1 6 0 0 00 1 6 0 0 f 2 0 4 8 3 e i g h t s h o r t ,窗函数为: 哪,: 筹竺,0 n 1 2 :8 ,。 m 忡,_ 篡一= 黧,啪0 n 1 2 :8 ,。 似峋 4 l o n gs t o ps e q u e n c e ,这是短块到长块的过渡窗口,窗函数为: f 0 0 ,0 门 4 8 呦) 刮挈一:“4 4 8 工5 4 7 4 6 8 抓 n 1 0 2 5 7 6 4 ( 1 - 1 7 ) i 一鲫,m ) , 1 0 2 4 门 2 0 4 8 当使用2 0 4 8 点长窗,每两帧之间有1 0 2 4 点的重叠:当使用2 5 6 点短窗,每两个 变换块之间有1 2 8 点重合,从而达到时域混叠抵消的目的。长、短块之间的切换如图 卜5 所示。 对于时域不稳定的信号使用短块的好处是:首先,在某一块中发生冲击信号时, 前回声只在本块内有影响,使前掩蔽可以消除一部分量化噪声。其次,前一个块的后 掩蔽效应还比较强,有利于掩蔽噪声。 i m d c t 必须使用与m d c t 相同的窗函数,i m d c t 的表示如下: 胁号篙1 撇mc o s 胁饥肌) m ,s , 上海交通大学礤士学位论文 第l 章m p e g 2a a c 算法原理和编解码藏程 - i 一 m i i i _ - _ l - _ _ _ _ - _ l _ - 一 向黔国翟婶i 鲻) , 图卜5 稳态和暂态情况下窗口的重叠1 1 】 f i g u r ei - 5o 。m p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论