(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf_第1页
(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf_第2页
(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf_第3页
(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf_第4页
(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)mpeg1音频第Ⅲ层编码器的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文 v 工6 2 4 5 30 m p e g 一1 音频第f f f 层编码嚣的研究与设计 摘要 m p e g 一1 音频第i 层( m p 3 ) 编码是数字音频压缩领域中个重要的研究方向。本 文讨论了基于数字信号处理器( d s p ) 的m p 3 实时编码器系统方案,主要的研究内容包 括m p 3 编码器系统方案的选择、音频压缩算法和m p 3 实时编码器系统方案的设计。 本文首先对基于多片与单片d s p 的m p 3 实时编码器方案进行了分析对比,提出 了基于单片高性能d s p ( t m s 3 2 0 v c 5 5 0 2 ) 的m p 3 实时编码器方案。接着研究了音频 压缩算法,重点讨论了其中的三个主要部分,即子带滤波器组和修正离散余弦变换、 心理声学模型、量化与编码。然后以t m s 3 2 0 v c 5 5 0 2 芯片为核心处理器设计了一个 m p 3 实时编码器。它的主要工作流程为:先用音频编解码器对音频信号进行采样得 到数字音频信号,然后用d s p 对数字音频信号进行m p 3 压缩编码并送入双口r a m , 最后通过p c i 总线将压缩编码后的m p 3 数据帧实时传送给p c 机。最后,本文还对 高速印刷电路板( p c b ) 设计的一些基本规则进行了探讨。 关键词:m p 3 ,数字音频压缩,数字信号处理器,印刷电路板设计 硕士论文m p e g 1 音频第1 i 】层编码器的研究与设计 a b s t r a c t m p e g 一1a u d i ol a y e rm f m p 3 ) c o d i n gi s o n eo fv e r yi m p o r t a n ta s p e c t si n d i g i t a l a u d i oc o m p r e s s i o nf i e l d n l i st h e s i sd i s c u s s e das c h e m eo fm p 3r e a l - t i m ec o d e rs y s t e m m a i nw o f k si n c l u d et h es e l e c t i o no fm p 3c o d e rs c h e m e a u d i oc o m p r e s s i o na l g o r i t h ma n d t h ed e s i g no f m p 3r e a l t i m ec o d e rs c h e m e f i r s t l y , t w ok i n d so fm p 3c o d e rs c h e m e w h i c ha p p l yo n eo rm o r ed i g i t a ls i g n a l p r o c e s s o r s ( d s p s 、t o i p 3c o d i n gr e s p e c t i v e l y , w a sa n a l y z e da n dc o m p a r e d a n dam p 3 c o d e rs c h e m eb a s e do no n eh i 曲- p e r f o r m a n c ed s pw a sp r o p o s e d s e c o n d l vt h r e em a i o r a s p e c t so fa u d i oc o m p r e s s i o na l g o r i t h mw e r ea n a l y z e d ,t h o s ea s p e c t sa r es u b b a n df i l t e r b a n ka n dm o d i f i e dd i s c r e t ec o s i n e t r a n s f o r i l l ( m d c t ) ,p s y c h o a c o u s t i cm o d e l , q u a n t i f i c a t i o n a n d c o d i n g t h i r d l y , t h ed e s i g n o fm p 3r e a l - t i m ec o d e rb a s e do n t m s 3 2 0 v c 5 5 0 2w a s p r e s e n t e d 1 1 嵋c o d i n gf l o wi n c l u d i n ga n a l o ga u d i os i g n a ls a m p l i n g a n dp c m c o d i n gu s i n gc o d e c m p 3c o d i n go fd i g i t a la u d i os i g n a lu s i n gd s p , m p 3 c o m p r e s s e d d a t af r a m et r a n s r n i s s i o nt o p e r s o n a lc o m p u t e r 伊c ) u s i n gp e r i p h e r a l c o m p o n e n ti n t e r c o n n e c tr p c i ) b u s m o r e o v e r , s o m eb a s i cr u l e so fh i g h s p e e dp r i n t e d c i r c u i tb o a r d ( p c b ) d e s i g nw e r ed i s c u s s e d k e y w o r d s :m p e g 一1a u d i ol a y e rg i ,d i g i t a la u d i oc o m p r e s s i o n ,d i g i t a ls i g n a lp r o c e s s o r , p r i n t e dc i r c u i tb o a r d d e s i g n i i 硕j 论文 m p e g 1 音频第1 i i 层编码器的研究与设计 1 绪论 1 1 引言 随着多媒体、无线通讯与互联网的融合,信息量不断增加,促使人类实现更为广 泛的信息多媒体交互,这其中最为关键的就是信息的数字化技术。信息数字化有许多 优点,如可以有效地提高传输和存储的质量,存储无失真,传输中抗干扰能力强,易 于加密,适合大规模集成等。大多数信源如声音、图像等都是模拟信号,p c m ( p u l s e c o d em o d u l a t i o n ) 编码技术将这些时间和幅度上都是连续的模拟信号转换为时间和幅 度上都是离散的数字信号,以便于在数字领域对信号进行处理、传输和存储等。 信息数字化也带来了一些问题,如数据量过大,传输时对带宽的需求大幅度增加。 例如我们生活中所接触的c d 音频的采样频率是4 4 1 k h z ,为了得到较高的信噪比, 对每个样值进行1 6 b i t 的量化编码,c d 音频又是立体声的,有两个声道,所以短短1 秒的模拟信号转换为数字信号后产生的数据量为 4 4 1 x 1 0 0 0 1 6 2 = 1 4 1 1 2 0 0 b i t 1 4 1 m b i t 所以,一张6 5 0 m b y t e ( 1 b y t e = 8 b i t ) 的c d r o m 只能存放约一小时的音乐。 又例如一路模拟彩色电视信号数字化,每帧有7 2 0 5 7 6 个样值,每个样值用2 4 b i t 表示,而每秒又有2 5 帧数据,则一路模拟彩色电视信号每秒的数据量为 7 2 0 5 7 6 2 4 2 5 = 2 4 8 8 3 2 0 0 0 b i t - 2 3 7 m b i t 对这些数据传输时,所占用的信道带宽比传输模拟信号时大得多,每h z 的带宽 为2 b i t s ,则实时传输c d 音频数据时,所需的带宽为 1 4 l m h z 2 7 0 0 眦 而直接传输音频数据所需的信道带宽仅为2 0 k h z ( 人耳所能感受到的音频信号的最高 频率约为2 0 k _ h z ) ,仅是传输数字信号的1 3 5 。实时传输一路彩色电视数字信号时, 所需的带宽为 2 3 7 瑚z 2 = 118 5 m h z 而直接传输一路模拟彩色电视信号所需的带宽仅为6 m h z 。 如此大的数据量给数字信息的传输和存储带来很大的困难,为了解决信息数字化 所带来的问题,提出了各种数据压缩编码方案,数据压缩是在尽量保持信号原有质量 的同时,减少信息的数据量。将压缩后的数据进行传输和存储,既提高了通信干线的 传输效率,又节约了存储空间,具有明显的社会效益和经济效益。声音、图像等多媒 体的信息数据有很强的相关性,就是含有冗余信息。数据压缩则是把这些冗余信息去 掉,保留相互独立的信息分量。 硕t 论文 m p e g - 1 音频第1 i i 层编码器的研究与设计 1 2m p 3 音频 m p e g 是一个名为i s o i e cj t c l s c 2 9 w g l l 的工作组,于1 9 8 8 年建立的,它 的任务是开发运动图像和相关音频及与之相关的( 可用于各种不同应用领域的) 编码 表示标准。从那时起,m p e g 就担当了视频和音频压缩技术的标准化工作。最初,它 的主要目标是用于数字存储媒体的视频和音频编码。与此同时,m p e g 的音频编码标 准找到了进入许多不同应用领域之路,包括数字音频广播;用于广播目的的i s d n 传 送;广播中的档案存储;数字电视的声音;因持网流格式:便携式音频设备;计算机 上的音乐文件的存储和交换。 m p e g 在1 9 9 3 年完成了m p e g - 1 标准的制定,m p e g - 1 标准分为系统、视频、音频、 一致性测试和软件模拟五部分,其中音频部分又分为三层:层一( m p e g 1l a y e ri ) 、 层- - ( m p e g 1l a y e r i i ) 和层三( m p e g - ll a y e r ) 。m p 3 是指m p e g ll a y e rm ,即 m p e g 1 标准音频部分l a y e r1 1 i 。这三层具有不同的算法复杂度,适应于不同的应用 要求。其中,l a y e ri 是m u s i c a m 算法的简化方案,主要用于编码速率为1 9 2 k b p s 的 应用场合,l a y e r l i 的目标编码速率为1 2 8 k b p s ,己被用于d a b 和v c d 的伴音编码, l a y e ri i i 算法最为复杂而压缩性能最好,目标编码速率为6 4 k b p s ,压缩比可达1 2 倍, 特别适合应用于因特网上的传输和存储。目前,m p 3 由于压缩比高,音质好,应用最 为广泛。虽然m p 3 对原始信号进行了高压缩比处理,但因为去除的大都是一些无关紧 要的信号,因此,单从人的听觉感觉上说,m p 3 压缩几乎对音质没有什么影响。在同 样的音质条件下,m p 3 的数据量最少,在同样数据量的条件下,m p 3 的音质最好。 目前,在因特网上,m p 3 已成为事实上的音频标准,有众多可以下载m p 3 音乐文 件的网站,有许多音乐制作者以m p 3 文件格式发布他们的音乐作品,m p 3 播放器已随 处可见,m p 3 编解码软件和硬件设备不断涌现。m p 3 格式音乐己通过互联网络,以席 卷全球之势,给数字音频领域带来股新的冲击。 1 3d s p 芯片的发展 d s p 芯片,又称数字信号处理器,是一种特别适用于进行实时数字信号处理的微 处理器。它采用程序和数据总线分开的哈佛总线结构,具有专门硬件乘法器,广泛采 用流水线操作,并提供了特殊的d s p 指令集,这些特点使得d s p 芯片能够实时完成数 字信号处理算法的大量运算,极大地促进了数字信号处理技术的进一步发展,同时也 拓展了数字信号处理的应用领域【l “。 第一个d s p 芯片诞生于1 9 7 8 年,是a i v i i 公司生产的$ 2 8 1 1 。1 9 7 9 年,美国的i n t e l 公司推出了商用可编程器件2 9 2 0 ,但这两种d s p 芯片都不具备单周期的硬件乘法器, 2 硕士论文m p e g i 音频第i i l 层编码嚣的研究与设计 其结构和性能与现在的d s p 芯片有很大的差距。1 9 8 0 年,曰本的n e c 公司推出的 u p d 7 7 2 0 是第一个具有硬件乘法器的d s p 芯片。随后于1 9 8 2 年,曰立公司开发了 6 1 8 1 0 ,t i 公司开发t t m s 3 2 0 2 1 0 等器件,这个时期的d s p 器件称之为第一代d s p , 其特点主要是: ( 1 ) 采用哈佛结构,数据总线和程序总线分离,可以同时进行程序的读取和数据 的存取。 ( 2 ) 片内有专门的硬件乘法器,具有将乘法器和加法器以流水线方式连接的总 线,能高速进行连续的乘法和累加运算。 ( 3 ) 在片的程序存储器和数据存储器。 ( 4 ) 备有与a d 、d a 转换器相接的接口,乘法器和累加器的位数在1 6 位以上,能 实现高精度的数据运算。 自8 0 年代以来,由于集成电路制作技术和数字信号处理理论的不断发展,d s p 芯 片也取得了突飞猛进的发展,使d s p 的性能不断提高,成本不断下降,可以做到以较 低的成本实现对大量数据的实时处理,从而使d s p 的应用越来越广泛。d s p 的处理能 力有了很大的提高,一次m a c ( 一次乘法和一次加法) 的时间已经从2 0 世纪8 0 年代初 4 0 0 n s 降低到t o n s 以下,运算速度提高了几十倍。制造工艺也有了很大的改进,从8 0 年代初的4 u m 的n 沟到m o s i 艺发展到现在的亚微米c m o s i 艺,片内r a m 增加一个 数量级以上。d s p 的引脚数量也由8 0 年代初的6 4 个增加到现在的2 0 0 个以上,结构变 得更加灵活,存储器有了很大的扩展,处理器之间的通信更加方便。d s p 芯片的发展 使d s p 系统的成本、体积和功耗有很大程度的下降。 d s p 的主要制造商有t i 、a d 、m o t o r o l a 、a t & t 、a m i 等公司,其中t i 公司的t m s 3 2 0 系列d s p 最为成功。自t i 在1 9 8 2 年推出第一个t m s 3 2 0d s p 至今,t m s 3 2 0 已经发展 成为个拥有c l x 、c 2 4 x 、c 2 8 x 、c 3 x 、c 4 x 、c 5 4 x 、c 5 5 x 、c 6 2 x 、c 6 4 x 、c 6 7 x 和 c s x 等系列的d s p 大家族。其中,c 3 x 、c 4 x $ 口c 6 7 x 属于浮点d s p ,c s x 属于多处理器 d s p ,其余都属于定点d s p 。同一系列的所有不同型号的d s p 具有相同的c p u 结构和 不同的c p u 外围电路配置。比如c 5 4 1 0 与c 5 4 0 2 ,它们的c p u 结构相同,不同之处在 于片内存储器的大小和外部接口的配置。 为了方便,常常把c 2 4 x 和c 2 8 x 称为c 2 0 0 0 系列,主要用于数字控制系统;把c 5 4 x 和c 5 5 x 称为c 5 0 0 0 系列,主要用于低功耗、便携式的无线通信终端产品;把c 6 2 x 、 c 6 4 x 和c 6 7 x 称为c 6 0 0 0 系列,主要用于高性能复杂的通信系统,如移动通信基站。 c 5 0 0 0 系列的d s p 在移动通信终端中应用广泛,其中c 5 4 x 最为成熟,它采用改进的哈 佛结构,并集成有丰富的硬件逻辑和外部接口资源,不仅提高了性能,也降低了成本 和体积。c 5 5 x 是在c 5 4 x 的基础上发展起来的,是目前功耗最低的新产品,c 5 5 x 的运 算速度与c 5 4 x 相比,也有很大的提高p j 。 硕j 。论文m p e g i 音频第l l i 层编码 i j 的研究与设计 1 4 本文所做的工作 目前,市场上还没有出现像m p 3 播放器一样流行的m p 3 实时编码器。在采用通用 d s p 芯片完成m p 3 编码方面,大都采用有两片性能较低的d s p 组成的双d s p 系统,这 样就大大增加了系统的复杂程度。本文通过对t i 公司的c 5 4 x 系列与c 5 5 x 系y w j d s p 性能 的对比,并结合p c i 总线,提出了用单片c 5 5 x 系ye j d s p 芯片实现编码算法的m p 3 实时 编码系统的实现方案。对m p 3 编码算法标准进行了分析与研究,并对编码器的硬件电 路进行了研究与设计。 本文在第2 章提出了实现m p 3 实时编码的双d s p 系统和单d s p 系统,通过对比, 选择了单d s p 系统,以简化硬件设计和软件编程。第3 章对m p 3 编码标准算法进行了 分析与研究,重点讨论了其中的三个主要部分,即子带滤波器组和修正离散余弦变换、 心理声学模型、量化与编码,这对于软件编程来说是必须的,也是最重要的。第4 章 对硬件实现电路进行了设计主要包括声音采集电路设计,外部存储器接口设计。 d s p 芯片模式的设置,p c i 接口设计。第5 章对高速p c b 设计进行了研究,这对于系统 能否正常运行来说是至关重要的。最后,对编码器的设计做了总结并指出了需要进一 步完成的工作。 4 硕士论文m p e g i 音频第1 i i 层编码器的研究与设计 2 m p 3 编码器实现方案 2 1m p 3 编码算法结构 m p 3 编码算法的过程如图2 1 所示【l 】口 图2 1m p 3 编码算法过程 m p 3 编码算法流程大致可以分为三部分:时频映射、心理声学模型和量化与编 码。每一部分的算法都很复杂,计算量很大,实现实时编码的关键也在于这三个主要 部分。其中时频映射部分包括子带滤波器组和m d c t ( 修正的离散余弦变换) ,量化编 码包括比特和比例因子分配和哈夫曼编码,心理声学模型的构建要进行1 0 2 4 点f f t 运算。 输入的p c m 音频数据是按帧进行处理的,每帧包含1 1 5 2 个p c m 样值,而每帧 又分为两个颗粒,也就是每个颗粒包含5 7 6 个p c m 样值。m p 3 的压缩算法实质上属 于有损压缩,而对于人耳来说,m p 3 的压缩算法属于无损压缩。这里应用的理论基 础是人耳的听觉系统的掩蔽效应,包括时域掩蔽效应和频域掩蔽效应,主要是应用频 域掩蔽效应。为了应用频域掩蔽效应,需对每颗粒的5 7 6 个p c m 样值作时频变换, 首先将p c m 样值送入子带滤波器组,经子带滤波器组后均匀地分为3 2 个子带信号, 每个子带包含1 8 个样值,然后,再对各子带作m d c t 变换,从而得到5 7 6 个等间隔 的频域样值。 经时频变换后所得到的左右声道频域样值需根据所要求的模式进行声道模式处 理,m p 3 标准提供了5 种声道模式: ( 1 ) 单声道模式:只有一个声道的模式。 硕士论文m p e g - 1 音频第1 1 l 层编码器的研究与设计 ( 2 ) 双声道模式:具有两个相互独立声道的模式。 ( 3 ) 立体声模式:具有两个声道且两个声道之间有一定关联的模式。 ( 4 ) 强度立体声模式:是在立体声模式的基础上,对某些比例因子带的样值,仅 对左右声道之和以及子带能量进行编码以获取更高的压缩率。 f 5 、和差立体声模式:对左右声道频域样值的和值及差值分别进行编码的立体声 模式。 频域样值经模式处理后,就进行量化和编码。所采用的是非均匀量化,量化过程 处于两重迭代循环中,而且每循环一次都要对每个频域样值执行一次量化,计算量较 大。对量化的结果进行哈夫曼编码,这样会增加算法的复杂度,但可以利用信号的统 计特性提高压缩率。这也是m p 3 压缩算法与m p e g 1 的层一和层二的主要区别之一。 量化是在心理声学模型的控制下进行的,原始的p c m 音频数据分为两路,一路 进入子带滤波器组另一路进入心理声学模型。心理声学模型是对掩蔽效应的具体应 用:首先对p c m 样值做1 0 2 4 点f f t 运算,然后对音频数据的频域特性进行分析, 依据己预先建立起来的统计模型数据求出各个比例因子带的信号掩蔽比,并依此指导 频域样值的量化,使得量化噪声尽可能地分配在不易被察觉的频带。 编码的最后一步是比特流打包形成m p 3 码流。也就是按照m p 3 标准所规定的码 流格式,把帧头、纠错码、副信息、主数据、附加数据等有关信息组合成适合于解码 的帧。因此,这个过程也称为帧生成过程。 2 2m p 3 实时编码器系统 m p 3 实时编码器系统框图如图2 2 所示。 图2 2m p 3 实时编码器系统框图 由麦克风产生的音频模拟信号经a d 转换器产生p c m 码流,也就是数字音频信 号。由专用的音频编解码器完成a d 转换,m p 3 压缩标准支持三种音频信号的采样 率:3 2 k _ h z 、4 4 1 k h z 或4 8 k h z ,采样精度为1 6 位。采用立体声模式,则同时输出 左右声道的音频数字信号。 由于m p 3 压缩标准对p c m 音频数据是按帧进行处理的,所以p c m 码流应该送 往一个帧缓冲区。每帧包含1 1 5 2 个音频数据,左右声道各有1 1 5 2 个音频数据。为了 6 硕1 论文m p e g 1 音频第1 i i 层编码器的研究与设计 使输入的数据不覆盖正在被处理的数据,应该建立两个帧缓冲区,一个帧缓冲区用来 接受正在采集的数据,另一个帧缓冲区用来存放正在处理的数据,两个帧缓冲区交替 使用,保证正在采集的数据与正在处理的数据不发生冲突。每个帧缓冲区有2 3 0 4 个 数据单元,用于存放左右声道的各1 1 5 2 个音频数据。由于所用的帧缓冲区并不占用 太大的存储单元,而现在的高性能d s p 芯片有较大的片内r a m ,所以可采用软件的 方式在d s p 芯片内部设置帧缓冲区,不必另加缓冲存储器,以简化硬件设计。 m p 3 压缩算法是m p e g 1 音频压缩算法中最复杂的一层,其运算量很大,可用 d s p 芯片完成压缩算法。如果采用4 4 1 k h z 的采样频率,一帧的延时约为2 6 m s 。要 完成对音频数据的实时压缩,则要在这2 6 m s 的时间内完成对一帧音频数据的m p 3 压缩算法,如果采用立体声模式,则要在这2 6 m s 内完成对左右声道的数据压缩,完 成帧数据的m p 3 压缩算法所允许的时间约为1 3 m s 。这就对d s p 的运算速度提出 了很高的要求,而现在常用的d s p 的速度达不到这种要求,必须采用高速d s p 进行 编码,或采用双d s p 系统进行编码。 表2 1c 5 4 x 与c 5 5 x 的d s p 对比 c 5 4 xc 5 5 x c p u 时钟频率 1 0 0 m h z2 0 0 3 0 0 m h z m a c s 12 累加器 24 数据读总线 23 数据写总线 12 程序读总线 11 地址总线 46 程序代码大小 1 6b i 估8 1 6 恐4 ,3 2 4 0 4 8b i t s 数据字大小 1 6 b i t s1 6 b i t s 辅助寄存器a l u s2 ( 每个1 6 - b i t )3 ( 每个2 4 一b i t ) 算术逻辑单元( a l u s )1 ( 4 0 b i t ) 2 ( 4 0 一b i t 、1 6 - b i t ) 辅助寄存器 88 数据寄存器 04 存储空间程序与数据分离 统一的存储空间 目前,t i 公司的d s p 应用最为广泛,性价比很高,本系统就采用t i 公司c 5 0 0 0 坝土论文m p e g 1 音频第1 1 1 层编码器的研究与设计 系列的d s p 芯片进行实时编码。c 5 4 x 与c 5 5 x 都属于c 5 0 0 0 系列的d s p ,它们的对 比如表2 1 所示1 1 3 c 5 4 x 的d s p 芯片应用较为普遍,但其c p u 时钟只有1 0 0 m h z , 单片c 5 4 x 的d s p 芯片的硬件资源及指令周期都无法满足实时实现m p 3 编码的要求, 因此,如果采用c 5 4 x 的d s p 芯片,可以采用双d s p 系统来实现m p 3 实时编码。 c 5 5 x 的d s p 芯片是1 r i 公司在c 5 4 x 的基础上,推出的新一代商性能、低功耗 d s p 芯片,其c p u 的时钟频率可达3 0 0 m h z ,硬件资源也有了增加。乘累加器( m a c l 比c 5 4 x 的增加一个,同时可以进行两个可以进行两个乘累加运算。增加了一个1 6 位的算术逻辑单元,同时可以进行一个复杂的算术逻辑运算和一个简单的算术逻辑运 算。增加了一条数据读总线和数据写总线,是芯片对数据的并行处理能力得到提高。 采用了变长度的指令代码字,是程序存储变得更加紧凑,节省存储空间。因此,单片 c 5 5 x 的d s p 芯片能够满足实现m p 3 实对编码的要求。 d s p 的存储空间很有限,无法存储大量的符合m p 3 标准的数据,因此,d s p 芯 片要把压缩处理后的数据实时地传送出去。现在p c 机已经很普遍,其存储容量很大, 对数据的处理能力很强,适合于接收经d s p 处理的数据。m p 3 码流每通道的比特率 为6 4 k b i v s ,如果采用立体声模式,则实时传输m p 3 码流的比特率为1 2 8 k b i t s 。现 在的p c 机与外部通信可以通过串口、并口,也可以通过u s b 口或p c i 总线。并口 主要用于与打印机的接口,不适合用于实时传输m p 3 的编码数据。串口采用r s 2 3 2 c 标准,r s 3 2 3 c 标准是美国e i a ( 电子工业联合会) 与b e l l 等公司一起开发的1 9 6 9 年公布的通信协议。它适合于数据传输速率在0 2 0 0 0 0 b s 范围内的通信,无法满足 实时传输m p 3 压缩数据的要求。 p c i 总线的诞生是i n t e l 、m i c r o s o f t 迅速发展壮大,m m 的垄断地位被打破的结 果,是由i n t e l 、i b m 、c o m p a q 、a s t 、d e c 等1 0 0 多家公司组成的p c i 集团提出的。 p c i 总线广泛应用于声卡、显卡、网卡、解压卡等,总线宽度为3 2 位,同步总线操 作可达3 3 m h z ,最大数据传输率可达1 3 3 m b y t e s ,所以,p c i 总线完全满足实时传 输m p 3 编码数据的要求。本设计采用p c i 总线完成数据的实时传输,将压缩后的数 据存于p c 机中。同时,选择p c i 总线还有一下优点【3 8 】: ( 1 1 成本较低,多路复用减少了引脚数目和p c i 部件的封装尺寸。 ( 2 ) 使用方便,能够自动配置参数,p c i 设备寄存器用来存放设备配置信息。 ( 3 ) 使用寿命长,支持多种处理器,支持5 v 3 3 v 信号环境。 ( 4 ) 可靠性强,可操作性好。 ( 5 ) 软件兼容性,p c i 部件和驱动程序可以用于各种不同的平台。 在调试时,可以将一部分音频数据经压缩后存于s d r a m 中,通过d s p 的j t e g 口传送给p c 机。 硕士论文m p e g 1 音频第1 i i 层编码器的研究与设计 2 3m p 3 实时编码器的实现方案 根据以上的分析,本文提出了包含两片t m s 3 2 0 v c 5 4 0 2 的双d s p 处理系统,由 单片t m s 3 2 0 v c 5 5 0 2 完成m p 3 压缩算法的单d s p 处理系统。 2 3 1 双d s p 的串行处理系统 由于c 5 4 0 2 提供了两个多通道缓冲串口( m c b s p ) ,可以提供全双工的串行通信, 充分利用这两个m c b s p 可以组成双d s p 的串行处理系统,其系统的结构框图如图 2 f 3 所示。 音频 信号 m c b s p op c i 总线 p c 机a ,d d s p ld s p 2 m c b s p lm e b s p 0 图2 3 双d s p 的串行处理系统框图 由图2 3 可见,a d 转换器对模拟音频信号进行采样,d s p l 通过多通道缓冲串 口m c b s p 0 接收a d 传送的数字信号,当接收完一帧数据时,d s p l 首先进行m p 3 压缩算法中的子带滤波和m d c t 的计算,然后进行1 0 2 4 点f f t 的计算并建立心理声 学模型。当d s p l 完成这些计算后,发送一个中断绘d s p 2 ,并通过多通道缓冲串口 m c b s p l 将计算结果传送给d s p 2 ,而d s p 2 通过多通道缓冲串口m c b s p 0 接收d s p l 的计算结果。d s p 2 则要完成比特和比例因子分配,并对量化的结果进行哈夫曼编码, 然后将编码结果按照m p 3 标准的要求组合成适合于解码的帧,最后将这一帧数据通 过p c i 总线传送给p c 机。 由上面所述知,时频映射和心理声学模型的建立由d s p l 完成,量化和编码及帧 形成由d s p 2 完成,d s p l 向d s p 2 传送数据可以通过d m a 控制器完成,并不占用 c p u 的处理时间。这样,每片d s p 所承担的计算量减少一半,可以在一帧的延时内 完成计算,从而可以达到实时编码。 2 3 2 双d s p 的并行处理系统 由于时频映射部分和心理声学模型建立部分并不相互依赖,它们都是以一帧的数 字音频数据为输入,因此,这两部分可以由两片d s p 并行完成。根据两片d s p 计算 9 颂士论文m p e g 1 音频第1 i i 层编码器的研究与设计 的结果,再由其中一片d s p 完成量化和编码及帧形成的计算。为了完成两片d s p 之 间的数据传输,又不占用c p u 的处理时间,可设计一个全局存储器,供两片d s p 分 别访问。其系统框图如图2 4 所示。 圈2 4 双d s p 并行处理系统框图 由图2 4 可见,d s p l 与d s p 2 的全局存储器为双端口r a m ( ds r a m ) ,它有两 组相互独立的地址线和数据线,可供d s p l 与d s p 2 进行访问,用于d s p 之间的数据 交换,使用方便。在该系统中,d s p l 为从处理器,用多通道缓冲串口m c b s p 0 接收 a d 传送的数字音频信号,同时把这些数据通过通过多通道缓冲串口m c b s p l 传送给 d s p 2 。d s p l 完成心理声学模型的建立,把所得结果存储在ds r a m 中,并向d s p 2 发送一个信号表示已完成心理声学模型的建立。d s p 2 为主处理器,它首先完成子带 滤波和m d c t 的计算,然后检测到d s p l 已完成心理声学模型建立,从ds r a m 中 读取数据,并进行量化和编码,最后将编码结果按照m p 3 标准的要求组合成适合于 解码的帧,并将这一帧数据通过p c i 总线传送给p c 机。 由上面所述知,心理声学模型的建立单独由一片d s p 完成,与子带编码和m d c t 同时处理,大大减轻了主处理器的负担,从而实现实时编码。 2 3 3 单片高性能d s p 的处理系统 t i 公司的c 5 5 x 系列的d s p 是在c 5 4 x 的基础上推出的一款性能更高,功耗更低 的d s p 芯片。由前面对c 5 4 x 与c 5 5 x 的比较知,c 5 5 x 的c p u 时钟频率可达c 5 4 x c p u 的3 倍,片内的数据总线和硬件资源都有了增加,由于拥有两个算术逻辑单元( a l u ) , 1 0 琐 论文m p e g 1 音频第l i 】层编码嚣的研究与设计 可以同时进行两个算术逻辑的运算。从运算速度和硬件资源来看,用单片高性能的 c 5 5 x 的d s p 芯片完全可以实现m p 3 的实时编码,其系统框图如图2 5 所示。 音频 信号 a d p c m 码流 c 5 5 xp c 机 d s p 图2 5 单片d s p 处理系统框幽 在用单片d s p 芯片实现m p 3 实时编码时,其系统结构得到简化。所有的计算均 有一片d s p 完成,避免了d s p 之间的通信,使控制电路得到简化。 比较以上三种方案,采用双d s p 系统时,d s p 芯片比较便宜,但控制电路比较 复杂,同时需要增加一些外围电路,使整个系统的成本并不低,软件编程也变得比较 复杂。采用单片高性能d s p 完成压缩算法时,系统的硬件设计得到简化,同时简化 软件的控制部分。所以,本文采用单片t m s 3 2 0 v c 5 5 0 2 芯片完成m p 3 的实时压缩算 法。 硕士论文m p e g - j 音频第l i i 崖编码器的研究与设计 3m p 3 编码的原理及技术 3 1 子带滤波器组 人的听觉系统可以被看作是一个有特定频率范围的滤波器组,这个滤波器组叫做 i 临界带宽滤波器组。为了充分利用人耳的临界带这一特性,将每个临界带内的噪声保 持在该子带的可察觉值以下,m p 3 编码采用了子带编码技术。子带编码就是利用带 通滤波器组把信号分割成若干个子带信号,对各个子带信号以奈奎斯特频率进行采 样,并将采样值进行通常的数字编码。 3 1 1滤波器组的基本原理 子带分析滤波器组是指有一个共同输入信号的一组滤波器组,如图3 1 所示。 x ( n )y o ( n ) y 1 ( n ) y m 1 ( n ) 图3 1 分析滤救器组 图中的h o ( z ) 、h l ( z ) h m 1 ( z ) 为带通滤波器( b p f ) ,信号经滤波后被划分为不同的 子带。由于滤波后得到的予带信号频带变窄,子带信号的取样频率可以比原始信号所 要求的取样频率低。假设每个b p f 均是理想的,第k 个b p f 的输出信号的频谱限制 在w k = f k f k 1 范围内,可以证明,对第k 个b p f 输出信号y “n ) 的取样频率氐的最 小值是: 心= 2 w 。意裂 , 式中i n t ( ) 为取整函数。 由上式可知,如果合理地划分子带,使得f k 1 w k 为整数,则上式可取得最小值 2 w k 。所以,子带信号的取样频率可以大大减少。 假设原信号的带宽b 被均匀划分为m 个子带,则每一子带宽度为 w k = b m k = 1 , 2 m( 3 2 ) 坝士论文 m p e g 一1 音频第1 i l 层编5 鸟器的研究与设计 所以,子带的取样频率为 f g k = 2 w k = 2 b m 又设取样的量化比特数为n ,则单个子带的传输码流为 b r k = 气n = 2 r d 3 m 而总的传输码率是各子带传输码率之和,即 b r = m 2 n b m = 2 n b 这恰好等于原来的传输码率。 3 1 2 分析滤波器组 在m p 3 编码标准中,分析滤波器运算流程图如图3 2 所示”1 。 向f i f o 缓冲器x 输入3 2 个新的p c m 样值 f o r ( i = 5 1 1 ;i 3 1 ;j 一) x 【i 】= x i - 3 2 】; f o r ( i = 31 ;i - - o ;i - - )x 【i 】= 下一p c m 样值 加窗处理 f o r ( i = 0 ;i 5 1 2 ;i + + ) z 【q ;c 【i 】+ x i 】 i l 上 求矢量y f o r ( i = 0 ;i = o ;i - _ ) x 【q = 下一子带样值 加窗处理 f o “i = 0 ;i n ;i 抖) z 刚x i 1 上 m d c t 变换;f o r ( i = 0 ;i n 1 2 ;i + + ) f i = z z k + m 【k 1 【i 】 上 输出n 2 条谱线的值f 【i 】 图3 3m d c t 流程图 图中变换矩阵m 【k 】【i 】为: m 【州= c o s ( 2 k + 1 + 雨n 2 x 2 i + 1 ) “ ( 3 1 2 ) 常数n 为3 6 或1 2 ,分别对应于长m d c t 和短m d c t 。 窗函数c 【i 】有四种形式:普通窗o 曲锄融w i n d o w ) 、 窗 ( s h o r tw i n d o w ) 、起始窗 ( s t a r tw m d o w ) 和终止窗( s t o pw i n d o w ) 。c 【i 】取值为: 1 6 硕士论文 m p e g i 音频第1 l i 层编码器的研究与设计 ( 1 ) 普通窗 ( 2 ) 短窗 ( 3 ) 起始窗 c i 】= ( 4 ) 终止窗 c i = s i n ( i + o 5 n 3 6 】 1 s i n ( i 一1 8 + 0 5 ) n 1 2 o 0 s i n 0 6 + 0 5 扭1 2 】 1 o i 1 8 1 8 s i 2 4 2 4 茎i 3 0 3 0 i 3 6 0 i 6 6 i 1 2 1 2 i 2 4 2 4 i 3 6 ( 3 1 3 ) ( 3 1 4 ) ( 3 1 5 ) ( 3 1 6 ) 其中短窗是专供m d c t ( n = 1 2 ) 使用的。 如果一个尖锐的声音突然出现,就会产生前回声,这将带来大量的量化噪声,严 重影响编码的质量。采用短窗则可以较好地抑制前回声,但采用短窗必须使用大量的 比特,这将影响整个算法编码效率。 采用自适应窗口切换技术可以可以很好地在编码效率和编码质量之间取得折中, 其代价是增加算法的复杂度。在m p 3 编码标准中,采用自适应窗口切换技术,只在 需要抑制前回声时才使用短窗,而在平时则使用普通窗。由普通窗切 换到短窗时,必须插入一个起始窗,由短窗切换到普通窗时,必须插入一个终止窗, 其切换规则如图3 4 所示。 图3 4 窗函数切换规则 硕士论文 m p e g 】音频第1 i j 层编码器的研究与 殳汁 当切换到短窗时,将长m d c t 划分为3 个短m d c t ,以提供更好的时域分辨率。 编码时,3 2 个子带可能同为长m d c t 或同为短m d c t ,也可能长、短m d c t 混合 使用。 3 3 心理声学模型 心理声学模型是m p 3 压缩算法的关键所在,其目的是求出各个编码子带的掩蔽 阀值,并以此控制量化过程。入耳听觉特性中的掩蔽效应理论是心理模型理论基础。 3 3 1 听觉掩蔽效应 掩蔽效应是人耳昕觉系统的一个重要特性,也是音频压缩编码的基础。掩蔽效应 是指一个声音的听觉感受受到另一个声音影响的现象,前者称为被掩蔽音,后者称为 掩蔽音。它是人类主观听感的一种特性,可以分为频域掩蔽效应和时域掩蔽效应两种 形式。 3 3 1 1 频域掩蔽效应 频域掩蔽是指一个强的单音频信号会掩蔽与之同时发生的附近频率的弱音。只要 两者的声压级足够大,频率差足够小,那么弱信号将被强信号掩蔽掉,人耳无法感受 到。在无噪声情况下,人耳对低于一定数值的信号不敏感,这个听阀称为绝对听阀。 在掩蔽情况下,必须加大被掩蔽音的强度才能被入耳昕到,此时的昕阀称为掩蔽昕阀。 图3 5 是一个中心频率为1 k h z 的窄带噪声在不同声压级时的绝对听阀曲线和掩蔽听 阀曲线1 2 2 】。 图3 5i k h z 处窄带噪声在不同声压级时的绝对听阀和掩蔽听阀 硕士论文 m p e g - 1 音频第m 层编码器的研究与设计 由图可见,入耳对不同频率的敏感程度差别很大,对2 k h z 到5 k h z 范围内的信 号最为敏感,声压级很低的信号都能被人耳听到。在高频区和低频区,能被人耳昕到 的信号的声压级要高得多。一个声压级较大的音可以掩蔽其它同时发生声压级较小的 音。低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用较小。一 个音只能掩蔽它频率附近的音,频率差越大掩蔽作用越小。 利用掩蔽昕阀和绝对昕阀可以大大减少编码的比特数,因为在阀值以下的音不能 被人耳感知,不必编码。频域掩蔽示意图如图3 6 所示i 埘。 8 0 4 0 鹋 b12 “哟岬m ,k h 图3 6 频域掩蔽示意图 图中掩蔽音s o 是一个中心频率为1 k h z 的声压级为8 0 d b 的窄带噪声,同时发生 的还有s l 、s 1 和s 2 ,其中s l 和s 2 完全处于s o 的掩蔽曲线之下,人耳完全听不见s 1 和s 2 ,在编码对就不用对s l 和s 2 编码。s l 没有被s o 的掩蔽曲线覆盏但对s l 编码时, 将量化噪声提高到a b ,从而减少了对s l 编码所需的比特数。 3 3 1 2 时域掩蔽效应 时域掩蔽效应是指一个音受在它之前或之后发生的音的影响,又分为后向掩蔽效 应和前向掩蔽效应。 前向掩蔽效应是指某一时刻出现的较强音频信号将稍早出现的另一较弱音频信 号掩蔽掉的现象。这是因为人耳对不同强度的声音有不同的响应时间。前向掩蔽效应 的存在,表明了即使一个弱音信号早于一个强音信号出现,但只要两者的时间间隔足 够短,而且强度差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论