多媒体数据压缩技术ppt课件_第1页
多媒体数据压缩技术ppt课件_第2页
多媒体数据压缩技术ppt课件_第3页
多媒体数据压缩技术ppt课件_第4页
多媒体数据压缩技术ppt课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.TianjinUniversity,多媒体数据压缩技术,什么是信号的频域空间?信号频域分析是采用傅立叶变换将时域信号x(t)变换为频域信号X(f),从而帮助人们从另一个角度来了解信号的特征。,.TianjinUniversity,频域分析,信号频谱X(f)代表了信号在不同频率分量成分的大小,能够提供比时域信号波形更直观,丰富的信息。,.TianjinUniversity,频域分析,时域和频域的对应关系,.TianjinUniversity,多媒体数据压缩技术,音频压缩标准电话质量的语音压缩标准应用于数字移动通讯。语音信号的频率范围300HZ-3.4KHZ三种语音编译码器:波形编译码器音源编译码器混合编译码器普通编译码器的音质与数据率,.TianjinUniversity,多媒体数据压缩技术,电话质量语音信号的频率范围是300HZ-3.4KHZ,采用标准的PCM:采样频率为8KHZ,量化位数为8b,所对应的速率为64kb/s。最简单的波形编码是脉冲编码调制(pulsecodemodulation,PCM)电话质量的语音压缩标准:G.711、G.721、G.723等(参见书P56),.TianjinUniversity,多媒体数据压缩技术,PCM是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,它仅仅是对输入信号进行采样和量化,但也是数据量最大的编码系统下图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。,.TianjinUniversity,多媒体数据压缩技术,.TianjinUniversity,多媒体数据压缩技术,高保真立体声音频压缩标准频率范围50HZ-20KHZ目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码(perceptualaudiocoding)。,.TianjinUniversity,多媒体数据压缩技术,进入20世纪80年代之后,尤其最近几年,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1Audio,MPEG-2Audio等标准它们处理10Hz20000Hz范围里的声音数据,使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据的目的。心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。,.TianjinUniversity,多媒体数据压缩技术,心理声学模型中的另一个概念是听觉掩饰特性,意思是一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。例如,同时有两种频率的声音存在,一种是1000Hz的声音,另一种是1100Hz的声音,但它的强度比前者低18分贝,因此,1100Hz的声音就会听不到比如在一安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。,.TianjinUniversity,多媒体数据压缩技术,“听阈频率”曲线,.TianjinUniversity,多媒体数据压缩技术,.TianjinUniversity,音频压缩标准,音频层根据压缩质量和编码复杂度分为Layer1、Layer2、Layer3三层,.TianjinUniversity,音频压缩标准,层1的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(digitalcompactcassette,DCC)。层2的编码器的复杂程度属中等,编码器的输出数据率为256kb/s192kb/s,其应用包括数字广播声音(digitalbroadcastaudio,DBA)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等。层3的编码器最为复杂,编码器的输出数据率为64kb/s,广泛用于INTERNET传播。,.TianjinUniversity,音频压缩标准,MPEG-1Audio(ISO/IEC11172-3)压缩算法是世界上第一个高保真声音数据压缩国际标准,并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分,但它也完全可以独立应用。数据的输入/输出图如下:,.TianjinUniversity,音频压缩标准,MPEG-1Audio的编码对象是2020kHz的宽带声音,因此它采用了感知子带编码。或叫做子带编码(sub-bandcoding,SBC)。利用子带编码达到既压缩声音数据又尽可能保留声音原有质量的目的。这种方法的具体思想是首先把时域中的声音数据变换到频域中的多个子带当中,对每个子带里的信号分别进行量化和编码,根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。,.TianjinUniversity,音频压缩标准,输入声音信号经过一个“时间-频率多相滤波器组”变换到频域里的多个子带中。滤波器组:实现时域到频域的转换,采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带,.TianjinUniversity,音频压缩标准,利用心理学模型控制量化和编码的一组数据人们利用模型来判断哪些频率中的音在整个音中对人们影响最大,因此编码时候决定分配给子带信号的量化位数最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成位数据流。,.TianjinUniversity,音频压缩标准,解码器对位数据流进行解码,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它们变换回声音信号,因此解码器比编码器简单得多。,.TianjinUniversity,音频压缩标准,MPEG的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层即称掩蔽模式通用子带集成编码与多路复用,层2对层1作了一些直观的改进,相当于3个层1的帧,每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且在低、中和高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。,.TianjinUniversity,音频压缩标准,由于层2采用了上述措施,因此所需的位数减少了,这样就可以有更多的位用来表示声音数据,音质也比层1更高。典型的码流为每通道128Kbit/S,广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。,.TianjinUniversity,音频压缩标准,.TianjinUniversity,音频压缩标准,ISO/MPEGaudio层1和层2编码器和解码器的结构,.TianjinUniversity,音频压缩标准,MUX(多路复合器)相当上图中的“数据流帧包装”,它按规定的帧格式对声音样本和编码信息(包括比特分配合比例因子等)进行包装。每帧都包含:用于同步和记录该帧信息的同步头,长度为32位用于检查是否有错误的循环冗余码(cyclicredundancycode,CRC),长度为16位,用于描述位分配的位分配域,长度为4位,比例因子域,长度为6位,子带样本域,有可能添加的附加数据域,长度未规定。,.TianjinUniversity,音频压缩标准,.TianjinUniversity,音频压缩标准,层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了赫夫曼(Huffman)编码器。虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同,但是层3还使用了改进离散余弦变换(modifieddiscretecosinetransform,MDCT),对层1和层2的滤波器组的不足作了一些补偿,.TianjinUniversity

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论