(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf_第1页
(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf_第2页
(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf_第3页
(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf_第4页
(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(通信与信息系统专业论文)基于dsp的mpeg4+ldaac编码器的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 v 针对多媒体实时通信中对音频编码器低时延的要求,m p e g 4a u d i ov e r s i o n 2 提出了l d a a c ( 低时延a a c ) 的概念。本文对基于m p e g + 4 音频编码标准 l d a a c 的音频编码器的原理和实现方法作了深入的研究。首先以p c 机为硬件 平台,对l d a a c 音频编码算法,在不影响音质的条件下,改进程序结构 简化每 个模块的运算。对m d c t 、量化编码模块和长时预测模块等算法复杂运算量大的 模块做了改进,大幅提高了运算速度。然后基于多媒体处理专用d s p r i m 1 3 0 0 , 通过采用各种技术进行算法定点化及程序优化,使t m l 3 0 0 强大的并行处理能力 得到充分的发挥。最后,对基于d s p 的编码器的运行结果进行分析和评价证明 了l d a a c 能够在提供高压缩比的同时保证高质量的重建音频信号,为l d a a c 走向实际应用打下了基础。 关键词:m p e g - 4l d a a c 编码器t m l 3 0 0算法优化 a b s t i - a c t m p e g 。4a u d i ov e r s i o n 2 s p e c i f i e s al o w d e l a ya d v a n c e da u d i oc o d e ct o r e d u c et h ea l g o r i t h m i cd e l a yt on o te x c e e d i n g2 0m s t h i sp a p e r p r e s e n t st h et h e o r yo f l o w d e l a ya d v a n c e da u d i oc o d i n ga l g o r i t h m sa n da n a l y z e st h ek e yt e c h n i c a li s s u e sa n d t h ei m p l e m e n t a t i o no f t h e m f i r s t l y ,s o m ei m p r o v e m e n t so fl d a a cc o d e rb a s e do n p c p l a t f o r ma l em a d eb yt h i sp a p e r , w h i c h a l em o s t l yc o n c e n t r a t e do nt h e d e c r e a s i n go f t h ec o m p u t a t i o n a lc o m p l e x i t yw i t h o u ta n yi n f l u e n c eo nt h ec o d i n gq u a l i t y t h em a i n i m p r o v e m e n t s a l ea s f o l l o w i n g s :f a s t m d c t 、i m d c t a l g o r i t h m s ;s i m p l i f i e d q u a n t i z a t i o nm o d u l e ;a n di m p r o v e du mm o d u l e t h e n al d - a a ce n c o d e rw a s r e a l i z e do nt h e d i g i t a ls i g n a lp r o c e s s o rt m l 3 0 0 ,f i n a l l y , e x p e r i m e n t a lr e s u l t sh a v e s h o w nt h a ta l lt h ei m p r o v e m e n t ss h o wa ne x c e l l e n tp e r f o r m a n c ei nc a l c u l a t i n gs p e e d a n d s t a b i l i t y k e y w o r d s :m p e g - 4 l d a a ce n c o d e rt m l3 0 0 a l g o r i t h mo p t i m i z a t i o n 创新性声明 飞r i - 6 9 5 4 47 本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及所取得的 研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文 中不包含其它人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志所做的任 何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 氩疆煎 日期:垒鲤笠:f :f 星 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印、或其它复制手段保存论文。( 保密的论 文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名 式褪挺 e 1 期: 型主:! ! ! 芝 导师签名:仁日期:一 第一章绪论 第一章绪论 近年来,随着现代通信的发展,人们对各种多媒体业务的需求日益增长。消 费者要求得到更多更好的音频产品和服务。数字声音作为一种存储、处理和传输 高保真声音的方法,在消费电子、专业声音等众多领域己得到广泛应用。但是如 果没有通用有效的高质量音频编解码方案。数字存储和传输技术的进一步发展将 会受到严重的束缚。 音频压缩编码技术的发展,一直是在用尽可能低的数码率获得尽可能好的合 成语音质量的矛盾中发展的。在半个多世纪的研究中,人们从人类发音机理和听 觉机理出发,对语音的基本元素的声学特性、频谱特征和语意表达等做了大量研 究,建立了发音模型、听觉模型,在不同程度上逼近真正的语音过程,并取得了 长足的发展。 本论文的研究对象就是高品质的音频编码标准一一l d a a c ( l o wd e l a y a d v a n c e da u d i oc o d i n g ) ,主要工作集中在编码器的软件优化,以及在t m l 3 0 0 硬件上的实现和程序优化。 1 1 数字音频编码技术和标准魄发展概况 一般将音频压缩技术分为无损( 1 0 s s t e s s ) 压缩及有损( 1 0 s s y ) 压缩两大类, 而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多 种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度( 包 括时间复杂度和空间复杂度) 、音频质量、算法效率( 即压缩比例) ,以及编解码 延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。 时域压缩( 或称为波形编码) 技术是指直接针对音频p c m 码流的样值进行 处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术 的共同特点是算法复杂度低,声音质量一般,压缩比小( c d 音质m 0 0 k b p s ) ,编 解码延时最短( 相对其它技术) 。此类压缩技术一般多用于语音压缩,低码率应用 ( 源信号带宽小) 的场合。时域压缩技术主要包括g 7 1 1 、a d p c m 、l p c 、c e l p , 以及在这些技术上发展起来的块压扩技术如n i c a m 、子带a d p c m ( s b - a d p c m ) 技术如g 7 2 1 、g 7 2 2 、a p t x 等。 犟十d s p 的m p e g 4l d - a a c 编码器的实现 子带压缩技术是以子带编码理论为基础的种编码方法。子带编码理论最早 是由c r o c h i e r e 等于1 9 7 6 年提出的。其基本思想是将信号分解为若干子频带内的 分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低 码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的 感知模型( 心理声学模型) ,通过对信号频谱的分析来决定子带样值或频域样值的 量化阶数和其它参数选择的,因此又可称为感知型( p e r c e p t u a l ) 压缩编码。子带 压缩技术相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提 高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码 延时也相对较短。 由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信 号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码 后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的 运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因 而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技 术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明” 的声音质量( e b u 音质标准) 。子带压缩技术目前广泛应用于数字声音节目的存 储与制作和数字化广播中。典型的代表有著名的m p e g l 层i 、层i i ( m u s i c a m ) ,以及用于p h i l i p sd c c 中的p a s c ( p r e c i s i o na d a p t i v es u b b a n d c o d i n g ,精确自适应子带编码) 等。 变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行 “线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为 几个子频段。通常使用的变换有d f t 、d c t ( 离散余弦变换) 、m d c t 等。根据 信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显 著改善,而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善 之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的 不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用 了传统变换编码的某些技术。 有代表性的变换压缩编码技术有d o l b y a c 一2 、a t t 的a s p e c ( a u d i os p e c t r a l p e r c e p t u a le n t r o p yc o d i n g ) 、p a c ( p e r c e p t u a l a u d i o c o d e r ) 等。 目前国际上音频压缩算法主要集中于i s o m p e g 音频编码标准和c c i t t 制 定的标准i lj 。c c i t t 于1 9 9 2 年公布了g 7 2 81 6 k b s 低时延码激励线性预测语音 编码( l d c e l p ) 方案,1 9 9 5 年公布了g 7 2 35 3 6 3 k b sa c e l p m l q 双速率 多媒体编码标准,1 9 9 6 年公布了g 7 2 98 k b sc s a c e l p 对结构代数码激励的语 音编码标准。m p e g 工作组于1 9 9 2 年1 1 月发布了m p e g 1 ( 对采样率为3 2 k h z 、 4 4 1 k h z 、4 8 k h z 的单、双信道音频信号进行编码) 1 2 1 ,组合了m u s i c a m 和a s p e c 第一章绪论 的特点,提供了三个编码层:1 9 9 4 年1 1 月公布了m p e g 一2 ,在与m p e g 1 兼容的 基础上实现了低码率和多声道扩展,增加了1 6 k h z 、2 2 0 5 k h z 、2 4 k h z 的采样频率, 扩展了编码器的输出速率范围,由3 2 3 8 4k b s 扩展到8 6 4 0k b s ,增加了声道 数,支持5 1 声道和7 1 声道的环绕声,此外m p e g 一2 还支持l i n e a rp c m ( 线性p c m ) 和d o l b ya c 。3 ( a u d i oc o d en u m b e r - 3 ) 编码;1 9 9 7 年4 月完成的m p e 0 2a a c ( a d v a n c e da u d i oc o d i n g ) 对低至6 4 k b s c h 的多声道编码,都能提供相当高的声 音质量。1 9 9 9 年1 月完成的m p e g 一4 音频编码将音频的合成编码与自然编码相结 合,定义了三种类型的编解码器:用于低比特率的参数编解码器、用于中比特率 的c e l p 的编解码器、用于高比特率的时域t f 编解码器( a a c 和基于矢量量化 的编解码器) 。 随着为m p e g 4a a c 编码器选择的压缩率的增加,时延也会增加。例如, 在9 6 k b s 码率下,a a c 时延约为l o o m s ;而在2 4 k b s 下,时延增加到超过3 0 0 m s , 再加上数字音频传输路径中的其它延迟时间因素,这样大的时延将不能容忍。对 于一些应用如网络实况转播、双向交互通信,更要求非常低的编解码时延,可以容 忍的时延要少于1 0 m s 。因此,有必要采用低时延的a a c 编解码器u ) a a c 。 1 2 论文的研究工作 1 2 1 论文所完成的研究工作 研究了m p e g 4l d a a c 音频编解码器的基本原理,分析了l d a a c 使 用的关键技术及其性能; 以p c 机为硬件平台对l d - a a c 软件编码器进行优化; 。 分析了t m l 3 0 0 的硬件、软件结构以及适合进行音频压缩的v l l w 结构; 基于t m l 3 0 0 ,对l d a a c 编码器进行优化。 1 2 2 论文所使用的开发平台 c p u 为a m d x p 2 2 0 0 + 的p c 机以及t m l 3 0 0 硬件平台 1 2 3 论文各章节安排 本论文的各章节内容安排如下: 第二章首先分析m p e g 2a a c 音频编码标准的基本结构及主要特点,然后 详细分析m p e g 4l d a a c 的关键技术。 基于d s p 的m p e g 4l d - a a c 编码器的实现 第三章分析软件优化采用的技术及达到的性能指标。 箱四章介绍t m l 3 0 0 及其多媒体指令,基于t m l 3 0 0 优化编码器。 第五章给出实验数据和性能分析,指出不足及下一步要进行的工作。 第二章a a c 编码技术研究 第二章a a c 编码技术研究 鉴于其卓越的性能和质量,高级音频编码( a d v a n c e da u d i oc o d i n gf a a c ) 1 已 成为m p e g - 4 规范的核心,同时它还是在因特网、无线网以及数字广播网领域中 的新一代音频数字编码器的选择。高级音频编码比老式的诸如m p 3 格式文件的压 缩效率高很多,并且可以同未压缩的c d 音质相媲美。m p e g 4 a a c 已经成了存 储和传输能力受限的数字音频系统的首选并且已被指定作为3 g 无线终端的高品 质通用编码器。本章首先介绍m p e g - 2a a c 的压缩原理及关键技术和性能分析, 再介绍m p e g - 4a a c 的基本技术,最后介绍m p e g - 4l d a a c 的技术。 2 1 m p e g 2a a c 简介 a a c 是m p e g 提出的最新的音频压缩算法,于1 9 9 7 年4 月成为通用的国际 标准。m p e g - 2 a a c ( 高级音频编码) 与m p e g 1 音频格式不兼容,因此被称为n b c ( 非后向兼容) 标准【3 】。a a c 标准采用了许多以前的音频标准使用的技术如:自 适应窗类型选择、频谱系数预测、时域噪声整形、比特率带宽缩放操作、无噪声 编码和比特分配技术等。a a c 主要使用听觉系统的掩蔽特性来减少声音的数据 量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉【2 】。其支 持的采用频率可从8 k h z 到9 6 k h z ,a a c 编码器的音源可以是单声道的、立体声 的和多声道的声音。a a c 标准可支持4 8 个主声道、1 6 个低频音效加强通道l f e ( 1 0 wf r e q u e n c ye f f e c t s ) 、1 6 个配音声道( o v e r d u bc h a n n e l ) 或者叫做多语言声道 ( m u l t i l i n g u a lc h a n n e l ) 和1 6 个数据流。m p e g 2a a c 在压缩比为1 l :l ,即每个声 道的数据率为( 4 4 1x1 6y l1 = 6 4k b s ,而5 个声道的总数据率为3 2 0k b s 的情况下, 很难区分还原后的声音与原始声音之间的差别。 2 1 1m p e g 2a a c 编码原理和流程 a a c 定义的编码基本结构如图2 1 所示【3 】f 4 】。根据c p u 处理能力和可用存储 量等系统资源和需获得的音频质量的限制,a a c 标准定义了三种配置:主配置 基于d s p 的m p e g 4l d a a c 编码器的实现 ( m a i np r o f i l e ) 、低复杂度配置( l o wc o m p l e x i t yp r o f i l e ) f 1 变采样率配置( s c a l e a b l e s a m p l i n gr a t ep r o f i l e ) 。当系统处理能力充足但存储资源受限时采用主配置,当系 统处理能力和存储资源都受限时采用低复杂度配置,当存储资源充足但系统处理 能力受限时采用可变采样率配置。 输入信号 图2 1m p e g - 2 a a c 编码器 主配置( m a i np r o f i l e ) :在这种配置中,除了“增益控第t l ( g a i nc o n t r 0 1 ) ”模块 之外,a a c 系统使用了图中所示的所有模块,在三种配置中提供最好的声音质量, 而且a a c 的解码器可以对低复杂度配置编码的声音数据进行解码,但对计算机 的存储器和处理能力的要求方面,主配置比低复杂度配置的要求高。 低复杂度配置( l o w c o m p l e x i t yp r o f i l e ) :在这种配置中,不使用预测模块和预 第一章a a c 编码技术研究 处理模块,时域噪声整形( t e m p o r a ln o i s es h a p i n g ,t n s ) 滤波器的级数也有限,这 就使声音质量比主配置的声音质量低,但对计算机的存储器和处理能力的要求可 明显减少。 可变采样率配置( s c a l a b l es a m p l i n g r a t ep r o f i l e ) :在这种配置中,使用增益控 制对信号作预处理,不使用预测模块,t h i s 滤波器的级数和带宽也都有限制,因 此它比主配置和低复杂度配置更简单,可用来提供可变采样频率信号。 2 1 2 心理声学模型模块简介 线性p c m 并没有充分利用音频信号的特性进行编码,在p c m 数据流中存在 着大量的冗余信息。不管音频信号如何编解码、传输,最终还是要靠我们的人耳 来实现的,因此我们可以充分地考虑人耳的听觉特性,并加以利用,如人耳的掩 蔽效应、哈斯效应等等。这样就可以将音频信号中与人耳有关的那部分冗余信息 去除掉,在编码时则仅仅对有用的那部分音频信号进行编码,从而降低了参与编 码的数据量。同时再将编码的信号进行比特精度的分配,对于幅度比较大的信号 或变化比较快的信号分配更多的比特数,而对于幅度小、变化慢的信号则减少比 特数的分配,从而达到减少数据率的可能性,实现编码的高效率。当然这种结果 是以编码过程复杂化为代价的。下面具体分析几种声学模型: ( 1 1 根据听觉域度对可闻信号进行编码1 5 1 :人耳对声振动的感受,在频率及声 压级方面都有一定的范围,频率范围正常人约为2 0 h z - 2 0 k h z ,而声压级范围则 是如图2 2 听阈曲线来描述的。意即在这条曲线之下的对应频率的信号是听不到 的。 声帆 图2 2 听觉域度对编码的作用 如图2 2 所示,对于信号a 来说,由于其声压级超过听阂曲线的声压级域值, 所以可以对人耳造成声振动的感受。意即听到a 信号。而对b 信号来说,其声压 级位于听阈曲线之下,虽然它是客观存在的,但人耳是不可闻的。因此,可以将 基十d s p 的m p e g 4l d a a c 编码器的实现 类似的信号去除掉,以减少音频数据率。 ( 2 ) 根据掩蔽效应,只对幅度强的掩蔽信号进行编码1 5 ,:人耳能在寂静的环 境中分辨出轻微的声音,但在嘈杂的环境中,同样的这些声音则被嘈杂声淹没而 听不到了。这种由于一个声音的存在而使另个声音要提高声压级才能被听到的 现象称为听觉掩蔽效应。 声压级 l警 、, 幅向 前向掩蔽一 ,( 2 5 ) r ( w ) + a b s ( r p r e d ( 们) 】 频谱的前6 条谱线的c 一是从长f f t 得到的,其余的是从短f f t 得到的,取8 个 短f f t 中的最小的c 砂值。实际应用中,只有接下来的2 0 0 条谱线的c 一值是由相应 w 的短f f t 计算得到的,其它的f 一值往往赋予一个常值o 4 。f 一值的获得需要计 算长f f t 茅n 短f f t 两种情况。心理模型的计算一开始是基于长序列( m d c t 的变换块 类型:长、短和过渡序列) 的,从下面的第1 3 步,算法一旦判断要切换到短序列,则 8 个短块的阈值计算再从下面的第5 步开始计算,相应短序列的轩t 频谱值己由上面 计算得到。 ( 5 ) 以闽值计算分区( p a r t i t i o n ) 为单位计算长序列或者短序列的能量和加权不 可预测性。m p e o 一2a a c 根据采样频率、f f t 类型的不同,制定了相应采样频率、 相应长短f f t 下的心理模型参数表格。表格的基本单位称为闽值计算分区,它模拟 了不同情况下的临界频带,及每个临界频带内的心理声学参数,诸如临界频带的 带宽、上下边界、b a r k 值和安静阈值等。用b 代表阈值计算分区的索引。下面的公 第一章a a c 编码技术研究 式都遵循着以闽值计算分区为计算单位。 每个分区的能量e 例表示为: w j 曲 p ( 6 ) = ,( w ) 2 ( 2 6 ) 一 c n 一进行能量加权得到的加权不可预测性c 彻表示为: w h i g h c ( 6 ) = ,( w ) 2 + c ( w ) ( 2 7 ) 一,d w wl o w 和wh i g h 表示了每一个闽值计算分区的谱线的上下边界。 ( 6 ) 计算分区能量和加权不可预测性与扩展函数的卷积。在心理声学中,掩蔽 效应在临界频带间的扩散,反映了临界频带之间的掩蔽效应,表现为能量在l | 缶界 频带间的扩散。数学上用卷积表示这种扩散,这里用扩展函数表示了各个计算分 区之间的关系。各个计算分区间的扩展函数用s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) 表示,b v a l ( b ) 表示了一个分区的中间b a r k n ,b b 表示相加过程。 每一个阈值计算分区的能量与扩展函数卷积: 6 姓 e c b ( b ) = e ( b b ) + s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) ( 2 8 ) 拈;0 同样,加权不可预测性也要与扩展函数卷积: b m a x c t ( b ) = c ( b b ) + s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) ( 2 9 ) 抽t 0 其中,b m a x 是对应分区的最大索引值。 由于c t ( o ) 被信号能量加权,所以必须重新归化: 曲p ) = c t ( b ) e c b ( b )( 2 1o ) 由于扩展函数的非规范性质,e c b 国也重新规范化得到规范化的能量: e l l ( 6 ) = e c b ( b ) + r n o r m ( b )( 2 - 11 ) 规范化系数f n o r m 黝为: m “ r n o r m ( b ) = 1 s p r d n g f ( b v a l ( b b ) ,b v a l ( b ) ) ( 2 一1 2 ) b b = o ( 7 ) 掩蔽效应应还与掩蔽信号的属性有关,为了描述每一个阈值计算分区的音 调属性,将曲倒转换为音调性索i t b ( b ) 。 t b ( b ) = - 0 2 9 9 0 4 3 l o gr ( c 6 ( 6 ) ) ( 2 - 13 ) 6 f 纠限制在0 t b ( b ) 1 之间,反映了分区内的音调趋向,是类似于音调抑 或是类似于噪声。 ( 8 ) 计算每个分区的s n r 。将两种掩蔽效应进行了定量化,规定对所有分区, 基于d s p 的m p e g - 4l d a a c 编码器的实现 n m t ( b ) b p 噪声掩蔽音调统一为6 d b ,t m n ( b ) n 音调掩蔽噪声统一为18 d b 。结合上面 得到的每个分区的音调属性,计算出每个分区的s n r 。 s n r ( b ) = t b ( b ) + r m n ( b ) + ( 1 一t b ( b ) ) 十n m t ( b ) ( 2 - 14 ) ( 9 ) 将s n r ( b ) 转换为能量比值。 b c ( b ) = 1 0 ( 一o ( 2 1 5 ) ( 1 0 ) 最终得到每个分区的实际能量阈值。 n b ( b 1 ) = e n ( b ) b c ( b ) ( 2 - 1 6 ) ( 1 1 ) 考虑预回声控制和静态阈值。 为了避免预回声现象,计算长f f t 和短l f f t 的预回声控制,另外,对安静阈值 的考虑也是必须的,因为在安静阈值以下的分量根本就不予考虑。n bz 例是上一 计算块的部分b 的闽值,q s t h r ( b ) 是安静时的阈值。 n b ( b ) = m a x ( q s t h r ( b ) ,m i n ( n b ( b ) ,n b 一7 ( 6 ) + r p e l e v ) ) ( 2 - 1 7 ) 对于短块,r p e l e v 设置为1 ,长块r p e l e v 设置为2 。 ( 1 2 ) 计算p e ( 心理声学熵值) 。p e 值用来判断帧的m d c t 变换块类型。 p e = - ( w h i g h ( b ) 一一o w ( b ) ) l o g l o ( n b ( b ) ( e ( b ) + 1 ) ) ( 2 一1 8 ) ( 1 3 ) m d c t 变换块切换判定。 ( 1 4 ) 以上的步骤都是以阙值计算分区( , p a r t i t i o n ) 为计算单位的,但量化编码却 是以比例因子频带( i s c a l e f a c t o r b a n d ) 为计算单位的,因此有必要将计算分区的阈值 结果转化为相应比例因子频带的闽值结果。阈值计算分区的索引用6 表示,而比例 因子频带的索引用疗表示。计算每个比例因子频带的s m r j 和最大可允许失真x m i n 。 下面的公式遵循着以比例因子频带为计算单位。 首先,计算出每个比例因子频带的f f t 能量: e p a r t ( n ) = r ( w ) 2 ( 2 1 9 ) 将闽值扩展到每一条f f t 谱线上,y a h 为单位,得到每一条频谱线的阈值: 黑n b ( b ) 硼( w “w h i 翥竺w l 虬o w ( b 鬻) = 一曲( 6 ) 一一 + 1 ) 、7 再叫a i 为单位进行频谱线闽值的合并,得到每一个比例因子频带的阈值: 哗聊2 m i n 证岫( w 一d w ( 蛾曲7 ( w _ h 嘞( 疗) ) ) ( 2 2 1 ) ( w h i g h ( n ) 一w l o w ( n ) - i - 1 ) 信号掩蔽比: s m r i 叻= e p a r t ( n ) n p 口r t ( n )( 2 - 2 2 ) 第二章a a c 编码技术研究 为了得至l j x m i n 例,计算出每个比例因子频段的m d c t 能, 量,这是由滤波器组计 算得到的: w j 曲 2 c o d e c e ( 以) = z 6 m d c , 一l i n e ( w ) ( 2 - 2 3 ) 一l o w 最终的掩蔽阈值,即量化迭代循环中的最大可允许失真,由下面公式得到: x m i n m ) = n p a r t ( n ) + c o d e c p ( 胆) e p a r t ( n )( 2 - 2 4 ) x m i n r 例作为量化迭代循环中的输入参数,对在编码码率和音频质量之间找到 一个最优,起到重要作用,在量化迭代中体现了心理声学模型的要求。 2 1 3 增益控制( g a i nc o n t r 0 1 ) 模块简介 增益控制为a a c 编码的可选模块0 1 4 1 1 7 1 ,用在可变采样率配置中。它由多相 正交滤波器组p q f ( p o l y p h a s eq u a d r a t u r ef i l t e r ) ,增益检测器( g a i nd e t e c t o r ) 和增 益修正器( g a i nm o d i f i e r ) 组成。多相滤波器将输入信号分离到四个相等带宽的频 带中,增益检测器输出满足比特流信息限制的增益控制数据,增益修正器控制划 分后的四个等带宽信号的增益信息,丽整个增益控制模块的功能是对不同频带的 信号使用不同的增益达到控制信号频谱幅度,从而压缩信号的编码比特。 2 1 4 滤波器组( f i l t e rb a r l k ) 模块和窗切换模块( b l o c ks w i t c h i n g ) 简介 滤波器组的首要任务是把声音取样划分为段,利用时域滤波器改变这些分段 里的数据,使各分段之间的转换更平滑1 4 1 。a a c 根据根据心理声学模型计算出的 感知熵的大小,动态的区分出长段( 2 0 4 8 个取样) 与短段( 2 5 6 个取样) 。a a c 在两种分段采用不同的切换法,主要根据输入信号决定。滤波器组把输入信号从 时域变换到频域,采用了改进的离散余弦变换m d c t ,它是一种线性正交交迭变 换,使用了时域混迭消除t d a c ( t i m ed o m a i n a l i a s i n g c a n c e l l a t i o n ) 技术。 t d a c 的变换编码也是一种子带编码,与正交镜像滤波方法之间具有对偶性。 正交镜像滤波在频率域内抵消混叠失真,t d a c 则在时域内抵消混叠失真。 m d c t 的表达式如下公式所示: 基于d s p 的m p e g 4l d a a c 编码器的实现 一1 ( 女) = 2 x ( n ) w ( n ) c o s 2 z n ( n + n o ) ( 女+ o5 ) 】 ( 2 2 5 ) n j 0 k = - 0 n 2 反向m d c t 的表达式如下公式所示: y ( 砷= 2 n w ( n ) x ( k ) c o s 2 z n ( n + n 。) 竹+ o 5 ) 】 ( 2 2 6 ) ;0 n 。= ( k 2 + 1 ) 2r m o n - 1 其中w m 为窗函数,a a c 标准中可选用的窗函数有两种【8 】:正弦窗和 k a i s e r - b e s s e l ( 凯塞一贝赛尔) 窗。正弦窗使得滤波器组能较好地分离出相邻的频 谱分量,适合于具有密集谐波分量( 频谱间隔 2 2 0 h z ) 时采用k b d 窗。a a c 系统允许正弦窗和k b d 窗之间的连续无 缝切换。 2 1 5 预测编码( p r e d i c t i o n ) 模块简介 在信号较平稳的情况下利用时域预测可进一步减小信号的冗余度【7 1 ,在a a c 编码器中预测是利用前面两帧的频谱来预测当前帧的频谱,再求预测的残差,然 后对残差进行编码。预测使用经过量化后重建的频谱信号,具体步骤如下【9 】: ( 1 ) 使用前两帧的重建频谱信号预测当前帧的频谱: ( 2 ) 将当前频谱与预测频谱相减得到残差信号: ( 3 ) 对残差信号量化; ( 4 ) 对残差信号反量化,利用预测残差和预测值重建当前帧频谱信号; ( 5 ) 更新预测器。 2 1 6 t n s ( t e m p o r a ln o i s es h a p i n g ) 时域噪声整形模块简介 噪声整形是音频信号处理中常用到的方法【7 1 ,它利用时域信号的预测器改变噪 声的频谱分布,使噪声集中到对人耳听觉比较不敏感的高频部分。时域噪声整形 利用了该原理,对频域信号进行预测滤波,以此改变噪声在时域的分布。噪声整 形的作用是把量化的噪声转移到输入频谱数据幅度较大的部分去。利用听觉的掩 第二章a a c 编码技术研究 蔽阈值使得噪声的感觉下降。在预测编码中,利用了帧与帧之间的冗余信息进行 编码;而在噪声整形中,利用一帧之内的冗余信息进行编码,即采用帧内线性预 测的方法。具体的做法是对一帧内的频谱信号变换比较平缓的信号,采用一帧内 的前几个频谱数据预测出当前位置的频谱数据,并与当前位置的频谱数据进行比 较得到预测残差。最后对帧内预测残差进行编码,这样减少了信号的冗余度,而 残差编码引起量化误差,让它形成在信号频谱幅度大的部分,因此称为噪音整形 编码。在编码时是否采用噪声成型取决于个数据帧的感知熵,因为感知熵在数 量上反映了一个数据帧内频谱数据的变化平坦程度。在进行编码时,若感知熵大 于预定值则使用噪声整形编码。 2 1 7 联合立体声编码模块简介( m s 、i s ) 联合立体声编码( j o i ms t e r e oc o d i n g ) 是一种空间编码技术,其目的是去掉空 间的冗余信息【3 j 。m p e g - 2a a c 包含两种空间编码技术:m s ( m i d s i d e e n e o d i n g ) 和声强耦合( i n t e n s i t y c o u p l i n g ) 1 9 om s 编码使用矩阵运算,不传送左右声道信号, 而是使用标准化的“和”信号与“差”信号,前者用于中央m ( m i d d l e ) 声道,后 者用于边s ( s i d e ) 声道,也称作“和一差编码( s u m d i f f e r e n c e c o d i n g ) ”。i ,s 编码 是基于声道间的不相关性,在音频信号的高频部分,人耳听觉系统主要根据临界带 滤波后的频谱包络而不是信号本身进行定位,因此可以将信号频谱分为谱包络和 载波两部分,包络部分使用较高精度进行编码,而对载波部分经过对不同的声道 进行组合后使用耦合声道进行编码。因此在编码时计算出参与耦合的声道的频谱 系数的平均值编码成耦合声道。这样减少了编码高频部分所需的比特数,对高频 部分的频谱系数进行了压缩。 2 1 8 量化、熵编码和比特分配模块简介 量化和熵编码是真正减少信号比特数的模块7 1 ,量化是有损的过程,它是降低 比特率的主要手段,而熵编码是无损过程,该过程降低的比特率有限,比特分配 负责控制量化过程,它将比特数按人耳听觉在不同子带的不同掩蔽程度分配给各 个子带,通过控制每个子带的编码比特数控制子带量化噪声,使之低于掩蔽门限。 如上所述,量化是分子带进行的,为了方便地进行量化,a a c 编码将1 0 2 4 个频率 基十d s p 的m p e g 4l d a a c 编蚂耩的宴现 系数分成多个缩放因子带,每个子带根据心理声学模块输出的掩蔽阈值采用不同 的子带缩放因子,从而使得量化噪声在频谱上得以修整。此外,量化是非均匀的, 在量化前,先采用3 4 次方的非线性函数对谱线进行一次处理,使得谱线在幅度小 的地方得以放大,而在幅度大的地方减小了幅度,从而减少了谱线的动态范围。 经过非线性处理后,谱线才进行真正的量化,最终的量化阶根据子带内谱线值的 变换进行自适应调整,即谱线值小的地方采用小的量化阶,反之采用大的量化阶。 熵编码对编码信息不带来损失【。”通常使用的霍夫曼编码,以一些先验的统计 为基准,产生若干霍夫曼码表,并以此进行编码。a a c 标准提供了1 2 张可供选择 的霍夫曼码表,在进行霍夫曼编码时,选用其中某一码表对频率系数的组合进行 编码,从而实现已量化好的音频系数的无损压缩。 比特分配输出量化模块中每个子带的缩放因子和总的全局缩放因子【7j 。通过控 制这些缩放因子来控制每个子带的量化噪声的分配,比特分配模块有两个目的: 将编码所需的全部比特数控制在允许比特率范围内,以及将每个子带的量化噪声 控制在掩蔽阈值之下。以下两个目的是矛盾的:控制量化噪声在掩蔽阈值下需要减 少子带的量化阶,即使用更多比特进行编码;控制全局比特数需要减少子带量化 阶。即使用更少的e e 特数进行编码。比特分配即通过反复的迭代循环来寻找到两 者之间的最佳平衡点。 2 1 9 组帧模块简介 最后要把各种必须传输的信息按a a c 标准给出的帧格式组成a a c 码流【1 0 】。 a a c 的帧结构非常灵活,除支持单声道、双声道、5 + 1 声道外,可支持多达4 8 个声 道,具有1 6 种语言兼容能力。a a c 中的数据块类型有:单声道元素、双声道元素、 耦合声道元素、低音增强声道元素、数据元素、声道配置元素、结束元素和填充 元素。每一个数据块类型都有一个以3 b i t 表示的唯一标志,例如5 + 1 声道时,左右 声道编成一个双声道元素,左右环绕声道编成另一个双声道元素,这两个双声道 元素以各自的标签加以区别,如图2 6 所示。图中帧头5 6 b i t , c r c l 6 b i t ,i dc p e 标志 双声道元素,i dl f e 标志低音增强声道元素,i de d n 标志结束元素。 与此同时,a a c 标准定义了两种文件格式 1 0 l :a d i f ( a u d i o d a t a i n t e r c h a n g e f o r m a t ) 和a d t s ( a u d i od a t at r a n s p o r tf o r m a t ) 。正如他们的名字所显示的那样, 前者适合于从磁盘文件开始解码,而后者适用于网络的流式文件解码。在a d i f 格 式中,只在文件头包含有解码信息。而在a d t s 格式中,含有固定头信息和可变头 信息,固定头信息包含同步字和对于每一帧都不变的信息,可变头信息包含对于 第二章a a c 编码技术研究 每一帧都可能有所变化的信息。在两种格式中,r a w d a t a b l o c k 的都是码流的基 本语法单元。对于每一个r a w d a t a b l o c k ,不需要其他的任何信息,就可以根据它 对每一输出声道解码出1 0 2 4 个声音采样值( 也就是通常所称的一帧数据) 。采样率 的信息通常用变量s a m p l i n g _ f r e q u e n c y _ i n d e x 指定,可以在p r o g r a mc o n f i g e l e m e n t 中,或者隐含在实际应用中。 图2 6a a c 码流帧结构 a a c 编码流程:编码时,时域信号首先经滤波器组分解成为频域谱线,同时 根据输入的时域信号进行心理声学模型分析,计算当前的掩蔽阈值。另外,心理 声学模型还输出中间边立体声( m s ) 和强度立体声处理所需的控制信息。时域噪声 整形f r n s ) 模块对滤波器组输出的部分谱线进行线性预测( l p c ) ,用樗到的残差信 号代替原谱线,t n s 控制噪声在时域窗内的分布形状,获得编码增益。强度立体声 模块利用人耳对高频信号的相位不敏感的特点,只传输高频信号的包络,大大降 低了所需比特数。时域预测与t n s 不同,它是对每一条谱线在前后帧之间进行后向 预测,利用帧间信号的相关性获得编码增益。m s 模块以和信号m 与差信号s 代替 左右声道信号,量化模块进行比特分配,尽量使量化噪声小于掩蔽域值。量化后 的信号与比例因子进行霍夫曼编码,最后组成a a c 码流。 2 2m p e g 一4a a c 标准简介 m p e g - 4 音频编码标准的第一版本是在1 9 9 8 年1 0 b 起草的并且提供了所谓“工 具”模块,对自然与合成音频对象进行编码,并将这些音频对象组合成一个音频景 象。由于m p e g - 4 标准化特别短的时间安排,只考虑了在标准的第版本中的模块, 还有许多模块没有固定。然而,由于在第一版本没有覆盖的这些模块提供重要的功 能,m p e g 决定继续开发这些模块作为标准的扩展,于1 9 9 9 年1 2 月起草了m p e g 4 音 频标准的第二版本。第二版本是完全向下兼容的第一版本的扩展。 在m p e g - 4 音频标准版本1 中定义了四种型l l 】:( 1 ) 语言型,包含

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论