数据压缩技术_第1页
数据压缩技术_第2页
数据压缩技术_第3页
数据压缩技术_第4页
数据压缩技术_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据压缩技术第1页,课件共63页,创作于2023年2月第3章数据压缩技术多媒体技术的核心是计算机实时地综合处理声音、文字、图形、图像等信息,而为了使计算机能够处理这些信息,就必须对它们进行数字化,即把那些在时间和幅度上连续变化的声音、图形和图像信号等,转换成计算机能够处理的、在时间和幅度上均为离散量的数字信号。这个过程,就称为多媒体数据编码。20世纪90年代以来,移动通信等无线接入和多媒体技术的大量引入,同时受到频带的限制,迫使人们采用压缩编码,如今,数据压缩技术的应用已经有了一些封装性很好的软件工具和方法。第2页,课件共63页,创作于2023年2月3.1多媒体信息的计算机表示多媒体信息的主要类型有文本(text)、语音(voice)、音响(audio)、矢量图(vectorgraphics)、位图(bitmap)和视频(video)等。通常,数字化的视频和音频信号其数据量是十分巨大的。例如,一幅640×480点阵的彩色图像(16位色,即65536种颜色/像素)数据量约为4.92MB;BMP图像通常保存的颜色深度有2(1位)、16(4位)、256(8位)、65536(16位)和1670万(16777216)(24位)种颜色(其中位是表示每点所用的数据位)。对于电视信号,如果以每秒25帧图像的速度进行播放,则要求这种信号必须以不低于122.9Mb/s速度进行数据传输,才不至于造成失真;而音频信号,如果采样频率为44.1kHz,量化为16位双声道立体声,则650MB的光盘只能存放l个小时的播放量,并且要求其传输速率不低于1.4Mb/s。第3页,课件共63页,创作于2023年2月2011-11-4第4页,课件共63页,创作于2023年2月3.1多媒体信息的计算机表示为了达到令人满意的图像、视频画面质量和听觉效果,多媒体系统必须解决视频、音频信号数据的大容量存储和实时传输问题。而这些多媒体数据之间往往具有很大的相关性和冗余性,确实具有很大的压缩潜力。第5页,课件共63页,创作于2023年2月3.1多媒体信息的计算机表示以位图(BMP)图像为例,图像数据中像素与像素之间无论是在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大。在允许一定限度失真的前提下,可以对图像数据进行很大程度的压缩(例如转换成JPG格式)。这里所说的失真一般都是在人眼允许的误差范围之内,压缩前后的图像如果不做非常细致的对比很难觉察出两者之间的差别。见图3-1。第6页,课件共63页,创作于2023年2月图3-1bmp图片与jpg图片的比较a)bmp图片,900KBb)jpg图片,41.2KB第7页,课件共63页,创作于2023年2月3.2数据压缩编码技术为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能以及通信信道的带宽外,更重要的则是对多媒体数据进行高效实时的压缩,压缩的目的是要减少多媒体信息的存储量和传输量,因此,数据压缩编解码自然成为了多媒体技术中的核心技术。第8页,课件共63页,创作于2023年2月3.2.1多媒体的数据量、信息量和冗余量数据是用来记录和传送信息的,或者说数据是信息的载体。对于人类用计算机推理与计算来说,真正有用的不是数据本身,而是数据所携带的信息。多媒体数据,尤其是图像、音频和视频,其数据量是相当大的,但那么大的数据量并不完全等于它们所携带的信息量。在信息论中,这就称为冗余。第9页,课件共63页,创作于2023年2月3.2.1多媒体的数据量、信息量和冗余量多媒体数据中存在的数据冗余主要有以下几种类型。1)空间冗余:这是图像数据中经常存在的一种冗余。在同一幅图像中,规则物体和规则背景(所谓规则是指表面是有序的而不是杂乱无章的排列)的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。2)时间冗余:这是序列图像(电视图像、运动图像)和语音数据中所经常包含的冗余。图像序列中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关,这反映为时间冗余。同理,在语音中,由于人在说话时其发音的音频是一连续和渐变的过程,而不是一个完全时间上独立的过程,因而存在着时间冗余。空间冗余和时间冗余是当我们将图像信号看作是概率信号时所反应出的统计特性,因此有时这两种冗余也被称为统计冗余。第10页,课件共63页,创作于2023年2月3.2.1多媒体的数据量、信息量和冗余量3)信息熵冗余(编码冗余):信息熵冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余。4)结构冗余:数字化图像(例如草席图像)中表面纹理存在着非常强的纹理结构,称之为在结构上存在冗余。5)知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如人脸的图像有固定的结构等。这类规律性的结构可由先验知识和背景知识得到,此类冗余为知识冗余。6)视觉冗余:人类的视觉系统由于受生理特性的限制,对于图像场的变化并不是都能感知的。这些变化如果不被视觉所察觉的话,我们仍认为图像是完好的或足够好的。这样的冗余,称之为视觉冗余。第11页,课件共63页,创作于2023年2月3.2.2图像压缩预处理所谓图像数据压缩,就是要在不影响或少影响图像质量的前提下,尽量设法减少图像数据中的数据量。首要任务,就是去除各种图像数据中的冗余数据。删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度。为此,图像压缩技术使用一些通用的预处理工具,如滤波器、色差信息二次抽样、量化、预测编码、运动补偿、变长编码和图像内插等附加的能提供有效压缩因子的图像变换算法。第12页,课件共63页,创作于2023年2月3.2.3数据压缩方法数据压缩处理一般由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便于存储与传输;二是解码过程,即对编码数据进行解码,还原为可以使用的数据。第13页,课件共63页,创作于2023年2月3.2.3数据压缩方法按照出发点的不同,数据压缩方法有几种不同的分类结果。根据解码后的数据与原始数据是否完全一致,数据压缩方法可分为可逆(无失真)编码方法和不可逆(有失真)编码方法两类。用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。用不可逆编码方法压缩的图像,其还原后的图像较之原始图像存在着一定的误差,但这种误差上限定在一定范围内,就视觉效果而言一般是可接受的。因此,不可逆编码方法大多被用在把人类视觉作为对象的场合下。第14页,课件共63页,创作于2023年2月3.2.3数据压缩方法根据压缩原理的不同,数据压缩方法可分为预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码(又称子带编码)、结构编码、基于知识的编码等类别。此外,还有统计编码、行程编码和算术编码等方法。第15页,课件共63页,创作于2023年2月3.2.4无损压缩与有损压缩常用的压缩编码可以分为两大类:一类是无损压缩法,也称冗余压缩法、熵编码;另一类是有损压缩法,也称熵压缩法。第16页,课件共63页,创作于2023年2月3.2.4无损压缩与有损压缩1.无损压缩法无损压缩法去掉或减少了数据中的冗余,但这些冗余值是可以重新插入到数据中的,因此,无损压缩是可逆的过程。例如,需压缩的数据长时间不发生变化,此时连续的多个数据值将会重复;这时若只存储不变样值的重复数目,显然会减少存储数据量,且原来的数据可以从压缩后的数据中重新构造出来(或者叫做还原,解压缩),信息没有损失。因此,无损压缩法也称无失真压缩。典型的无损压缩法主要是基于统计的编码方案,如霍夫曼(Huffman)编码、Fano-Shannon编码、算术编码、游程编码(Run-length)、LZ编码等。第17页,课件共63页,创作于2023年2月3.2.4无损压缩与有损压缩无损压缩法由于不会产生失真,因此在多媒体技术中一般用于文本数据的压缩,它能保证完全地恢复原始数据,如磁盘文件的压缩。但这种方法压缩比较低,如LZ编码、游程编码、霍夫曼编码的压缩比一般在2:1~5:1之间。第18页,课件共63页,创作于2023年2月3.2.4无损压缩与有损压缩2.有损压缩法有损压缩法压缩了熵,会减少信息量。因为熵定义为平均信息量,而损失的信息是不能再恢复的,因此这种压缩法是不可逆的。常用的有损压缩方法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。新一代的数据压缩方法,如矢量量化和子带编码、基于模型的压缩、分形压缩和小波变换压缩等也已经接近或达到实用水平。第19页,课件共63页,创作于2023年2月3.2.4无损压缩与有损压缩有损压缩法由于允许一定程度的失真,适用于重构信号不一定非要和原始信号完全相同的场合,可用于对图像、声音、动态视频等数据的压缩。第20页,课件共63页,创作于2023年2月3.2.5数据压缩算法的综合评价指标数据压缩方法的优劣主要由所能达到的压缩倍数、从压缩后的数据所能恢复(或称重建)的图像(或声音)的质量、以及压缩和解压缩的速度等几方面来评价。此外,算法的复杂性和延时等也是应当考虑的因素。衡量一种数据压缩技术好坏的指标综合起来就是:一压缩比要大;二实现压缩的算法要简单,压缩、解压速度快;三是恢复效果要好。第21页,课件共63页,创作于2023年2月3.3多媒体文件在大多数系统中,普通的文本文件由字节的线性序列组成,而对多媒体而言,情况就复杂多了。首先,视频与音频完全不同,它们由不同的设备捕获(视频为CCD芯片,音频为麦克风),具有不同的内部结构(视频每秒有25~30帧,音频每秒有44100个样本),并且通过不同的设备来回放(视频为显示器,音频为扩音器)。第22页,课件共63页,创作于2023年2月3.3多媒体文件此外,大多数电影现在针对的是全世界的观众,而这些观众语言不同。这一情况有两种处理方法。对于某些国家,需要产生一个额外的声音轨迹,用当地语言进行配音,但是不包含音效。例如,在日本所有的电视都具有两个声道,电视观众看外国影片时可以听原声语言也可以听日语,遥控器上有一个按钮可以用来进行语言选择。在其他国家使用的是原始的声音轨迹,配以当地语言的字幕。除此之外,许多在电视中播放的电影现在也提供英文字幕,使讲英语但是听力较弱的人可以观看。第23页,课件共63页,创作于2023年2月3.3多媒体文件数字电影实际上可能由多个文件组成:一个视频文件、多个音频文件以及多个包含各种语言字幕的文本文件。第24页,课件共63页,创作于2023年2月3.3多媒体文件因此,文件系统需要跟踪每个文件的多个“子文件”。一种可能的方案是像传统的文件一样管理每个子文件,并且要有一个新的数据结构列出每个多媒体文件的全部子文件。另一方法是创造一种二维的i节点,使每一列列出每个子文件的全部块。一般而言,其组织必须能够使观众观看电影时可以动态地选择使用哪个音频及字幕轨迹。在各种情况下,还必须有保持子文件同步的某种方法,才能保证当选中的音频轨迹回放时与视频保持同步。第25页,课件共63页,创作于2023年2月3.3.1视频编码人类的眼睛具有这样的特性:当一幅图像闪现在视网膜上时,在它衰退之前将保持几毫秒的时间。如果一个图像序列以每秒50或更多张图像闪现,眼睛并不会注意到它。所有基于视频或影片胶片的运动图像系统都利用了这一原理产生活动的画面。为了理解视频系统,可以从简单的黑白电视开始。

为了将二维图像表示为作为时间函数的一维电压,摄像机用一个电子束对图像进行横向扫描并缓慢地向下移动,记录下电子束经过处光的强度。在扫描的终点处,电子束折回,称为一帧(frame)。这一作为时间函数的光的强度以广播方式传播出去,接收机则重复扫描过程以重构图像。第26页,课件共63页,创作于2023年2月3.3.1视频编码虽然每秒25帧足以捕获平滑的运动,但是在这样的帧率下,有许多人会感觉到图像闪烁(因为新的图像尚未出现以前旧的图像就已经在视网膜上消失)。增加帧率就会对稀缺的带宽提出更多的要求。因此要采取不同的方法,即首先显示所有的奇数扫描线,接着再显示所有的偶数扫描线。此处的半帧称为一个场(field)。实验表明,尽管人们在每秒25帧时感觉到闪烁,但是在每秒50场时却感觉不到,这一技术被称为隔行扫描,否则就称为逐行扫描。第27页,课件共63页,创作于2023年2月3.3.1视频编码彩色视频采用与单色(黑白)视频相同的扫描模式,只不过使用了三个同时运动的电子束而不是一个运动电子束来显示图像,对于红、绿和蓝(RGB)这三个加性原色中的每一颜色使用一个电子束。这一技术能够工作是因为任何颜色都可以由红、绿和蓝以适当的强度线性叠加而构造出来。然而,为了在一个信道上进行传输,三个彩色信号必须组合成一个复合信号。为了使黑白接收机可以显示传输的彩色电视节目,NTSC、PAL和SECAM三种制式都将RGB信号线性组合为一个亮度信号和两个色度信号,并使用不同系数从RGB信号构造信号。第28页,课件共63页,创作于2023年2月3.3.1视频编码由于人的眼睛对亮度信号比对色度信号敏感得多,所以色度信号不必非要精确地进行传输。因此,亮度信号应该用与旧的黑白信号相同的频率进行广播,从而使其可以被黑白电视机接收。两个色度信号则可以以更高的频率用较窄的波段进行广播。某些电视机有标着亮度、色调和饱和度(或者是亮度、色彩和颜色)字样的旋钮或调节装置,可以分别控制这三个信号。理解亮度和色度对于理解视频压缩的工作原理是十分必要的。第29页,课件共63页,创作于2023年2月3.3.1视频编码数字视频最简单的表示方法是帧的序列,每一帧由呈矩形栅格的图像要素即像素组成。对于彩色视频,每一像素RGB三色中的每种颜色用8个二进制位来表示,这样可以表示224≈1600万种不同的颜色,而人的眼睛没有能力区分这么多颜色。要产生平滑的运动效果,数字视频像模拟视频一样必须每秒至少显示25帧。然而,由于高质量的计算机显示器通常用存放在视频RAM中的图像每秒钟扫描屏幕75次或更多次,因此所有计算机显示器都采用逐行扫描。仅仅连续刷新(也就是重绘)相同的帧三次就足以消除闪烁。第30页,课件共63页,创作于2023年2月3.3.1视频编码换言之,运动的平滑性是由每秒不同的图像数决定的,而闪烁则是由每秒刷新屏幕的次数决定的。这两个参数是不同的。一幅静止的图像以每秒20帧的频率显示不会表现出断断续续的运动,但是却会出现闪烁,因为当一帧画面在视网膜上消退时下一帧还没有出现。一部电影每秒有20个不同的帧,在80Hz的刷新率下每一帧将连续绘制4次,这样不会出现闪烁,但是运动将是断断续续的。第31页,课件共63页,创作于2023年2月3.3.2音频编码音频(声音)波是一维的声(压)波。当声波进入人耳的时候,鼓膜将振动,导致内耳的小骨随之振动,将神经脉冲送入大脑,这些脉冲被收听者感知为声音。类似地,当声波冲击麦克风的时候,麦克风将产生电信号,将声音的振幅表示为时间的函数。第32页,课件共63页,创作于2023年2月3.3.2音频编码音频波可以通过模数转换器(ADC)转换成数字形式。ADC以电压作为输入,并且生成二进制数作为输出。图3-2a)中为一个正弦波的例子。为了数字化地表示该信号,我们可以每隔△T秒对其进行采样,如图3-2b)中的条棒高度所示。如果一个声波不是纯粹的正弦波,而是正弦波的线性叠加,其中存在的最高频率成分为f,那么以2f的频率进行采样就足够了。第33页,课件共63页,创作于2023年2月图3-2音频的采样与量化第34页,课件共63页,创作于2023年2月3.3.2音频编码数字样本是不准确的。图3-2c)中的样本只允许9个值,从-1.00到1.00,步长为0.25,因此,需要4个二进制位来表示它们。8位样本可以有256个不同的值,16位样本可以有65536个不同的值。由于每一样本的位数有限而引入的误差称为量化噪声。如果量化噪声太大,耳朵就会感觉到。对声音进行采样的两个著名的例子是电话和音频CD。数字化的声音可以十分容易地在计算机上用软件进行处理。第35页,课件共63页,创作于2023年2月3.4视频压缩所有的压缩系统都需要两个算法:一个编码算法:用于在源端对数据进行压缩,一个解码算法:用于在目的端对数据进行解压缩。这些算法具有某些不对称性,这对于理解数据压缩是十分重要的。第36页,课件共63页,创作于2023年2月3.4视频压缩首先,对于许多应用而言,一个多媒体文档(比如说一部电影)只需要编码一次(当该文档存储在多媒体服务器上时),但是需要解码数千次(当该文档被客户观看时)。这一不对称性意味着,假若解码算法速度快并且不需要昂贵的硬件,那么编码算法速度慢并且需要昂贵的硬件也是可以接受的。从另一方面来说,对于诸如视频会议这样的实时多媒体而言,编码速度慢是不可接受的,在这样的场合,编码必须即时完成。第37页,课件共63页,创作于2023年2月3.4视频压缩第二个不对称性是编码/解码过程不必是100%可逆的。也就是说,当对一个文件进行压缩并进行传输,然后对其进行解压缩时,用户可以期望取回原始的文件,准确到最后一位。对于多媒体,这样的要求是不存在的。视频信号经过编码和解码之后与原始信号只存在轻微的差异通常就是可以接受的。当解码输出不与原始输入严格相等时,系统被称为是有损的。所有用于多媒体的压缩系统都是有损的,因为这样可以获得更好的压缩效果。第38页,课件共63页,创作于2023年2月3.4.1视听业务视频编译码标准(H.261/263)1980年,国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过,这是CCITT制定的国际上第一个视频压缩标准,已成为可视电话和电话会议的国际标准。H.261名称为“视听业务视频编译码标准”,它最初是针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。第39页,课件共63页,创作于2023年2月3.4.1视听业务视频编译码标准(H.261/263)实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码,而非恒定质量可变码流编码。第40页,课件共63页,创作于2023年2月3.4.1视听业务视频编译码标准(H.261/263)由于H.261所针对的可视电话信号最初考虑是在一般电话网中传输的,带宽和码率是其考虑的核心问题。其每帧取样点数比较低,且采取抽帧传输的方法,无法满足数字电视压缩编码的要求,但H.261是此前压缩编码数十年研究的结果,成为以后JPEG和MPEG编码方法的重要基础。第41页,课件共63页,创作于2023年2月3.4.1视听业务视频编译码标准(H.261/263)H.263是关于低于64Kb/s比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像。H.263是在H.261建议的基础上发展起来的,其信源编码算法仍然是帧间预测和DCT混合编码。在H.261建议的基础上,H.263将运动矢量的搜索增加为半像素点搜索,同时又增加了无限制运动矢量、基于语法的算术编码、高级预测技术和PB帧编码等4个高级选项,从而达到了进一步降低码速率和提高编码质量的目的。第42页,课件共63页,创作于2023年2月3.4.1视听业务视频编译码标准(H.261/263)H.263采用运动视频编码中常见的编码方法,将编码过程分为帧内编码和帧间编码两个部分,相当于MPEG编码的I帧和P帧。帧内用改进的DCT变换并量化,在帧间采用1/2像素运动矢量预测补偿技术,使运动补偿更加精确,量化后使用改进的变长编码表(VLC)对量化数据进行嫡编码,得到最终的编码系数。第43页,课件共63页,创作于2023年2月3.4.2静止图像压缩编码标准(JPEG)在多媒体技术的发展过程中,静止和活动视频图像压缩标准的制定和推广起到了十分重要的作用。国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立“联合图像专家组”JPEG(jointphotographicexpertsgroup),在ITU、ISO和IEC等其他标准组织的支持下,该小组致力于制定适用于连续色调、多极灰度、彩色或单色静止图像数据压缩的国际标准,经过5年细致的工作,于1991年3月提出了JPEG标准“多灰度静止图像的数字压缩编码”,这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。第44页,课件共63页,创作于2023年2月3.4.2静止图像压缩编码标准(JPEG)它包含两部分:第一部分是无损压缩,即基于空间线性预测技术的无失真压缩算法,这种算法的压缩比很低;第二部分是有损压缩,这是基于离散余弦变换(DCT)和霍夫曼编码的有损压缩,也是目前主要应用的一种算法。这后一种算法进行图像压缩信息虽有损失,但压缩比可以很大,例如压缩比在20:1时,眼睛基本上看不出失真。JPEG标准对于多媒体而言是十分重要的,因为用于压缩运动图像的标准MPEG不过是分别对每一帧进行JPEG编码,再加上某些帧间压缩和运动补偿等额外的特征。JPEG定义在国际标准ISO10918中,它具有4种模式和许多选项。第45页,课件共63页,创作于2023年2月3.4.2静止图像压缩编码标准(JPEG)JPEG确实很复杂,但由于它通常可以获得20:1或更好的压缩效果,所以获得广泛的应用。解码一幅JPEG图像需要反过来运行上述算法。JPEG大体上是对称的:解码一幅图像花费的时间与编码基本相同。第46页,课件共63页,创作于2023年2月3.4.3

MPEG标准MPEG(motionpictureexpertsgroup)标准是ISO/IEC委员会针对全活动视频的压缩标准系列,是用于压缩视频的主要算法,并于1993年成为国际标准。MPEG包含MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等。该标准包括MPEG视频、MPEG音频和MPEG系统三大部分。MPEG视频是面向位速率约为1.5Mbit/s的全屏幕运动图像的数据压缩;MPEG音频是面向每通道位速率为64、128和192kbit/s的数字音频信号的压缩;MPEG系统则面向解决多道压缩视频、音频码流的同步和合成问题。第47页,课件共63页,创作于2023年2月3.4.3

MPEG标准1.数字声像压缩标准(MPEG-1)MPEG标准MPEG-1(ISO11172)设计用于视频录像机质量的输出(对NTSC制式为352×240),它使用的位率为1.2Mbps。MPEG-2(ISO13818)设计用于将广播质量的视频压缩至4Mbps到6Mbps,这样就可以适应NTSC或PAL制式的广播频道。第48页,课件共63页,创作于2023年2月3.4.3

MPEG标准2.通用视频图像压缩编码标准(MPEG-2)MPEG-2是一种既能兼容MPEG-1标准,又能满足高分辨率数字电视和高分辨率数字卫星接收机等方面要求的技术标准,它是由ISO的活动图像专家组和ITU-TS第15研究组于1994年共同制定的,在ITU-TS的协议系列中,被称为H.262。制定MPEG-2的初衷是得到一个针对广播电视质量(CCIR601格式)视频信号的压缩编码标准,但实际上最后得到了一个通用的标准,它能在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效地进行编码。第49页,课件共63页,创作于2023年2月3.4.3

MPEG标准3.低比特率音视频压缩编码标准(MPEG-4)运动图像专家组于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版,同年年底推出MPEG-4第二版,并于2000年年初正式成为国际标准。第50页,课件共63页,创作于2023年2月3.4.3

MPEG标准MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料收集与分散)等整合及压缩技术的需求而制定的国际标准。第51页,课件共63页,创作于2023年2月3.4.3

MPEG标准4.多媒体内容描述接口标准(MPEG-7)针对现有的国际标准中还没有能够解决多媒体信息定位问题的工具,运动图像专家组决定发展一个新的国际标准——MPEG-7,旨在解决对多媒体信息描述的标准问题,并将该描述与所描述的内容相联系,以实现快速有效的搜索。只有首先解决了多媒体信息的规范化描述之后,才能更好地实现信息定位。该标准不包括对描述特征的自动提取。它的正式名称是“多媒体内容描述接口”,该标准于1998年10月提出,于2001年最终完成并公布。第52页,课件共63页,创作于2023年2月3.4.3

MPEG标准5.多媒体框架(MPEG-21)MPEG-21的正式名称为MultimediaFramework(多媒体框架),其目的是建立一个规范且开放的多媒体传输平台,让所有的多媒体播放装置都能透过此平台接收多媒体资料,使用者可以利用各种装置、透过各种网络环境去取得多媒体内容,而无须知道多媒体资料的压缩方式及使用的网络环境。同样地,多媒体内容提供者或服务业者也不会受限于使用者的装置及网络环境,针对多种不同压缩方法来提供多媒体内容。该标准正是致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。第53页,课件共63页,创作于2023年2月3.5音频压缩CD品质的音频需要一个1.411Mbps带宽的传送,在因特网的实际传送中需要进行有效的压缩。已经发展出许多不同的音频压缩算法,最流行的算法是拥有三个层(变体)的MPEG音频,其中MP3(MPEG音频层3)功能最强大也最出名,它属于MPEG视频压缩标准里的音频部分。第54页,课件共63页,创作于2023年2月3.5.1音频压缩方法音频压缩可以用两种方法完成。在波形编码技术中,信号通过傅立叶变换变换成频率分量。另一种方法是感知编码,这种技术是在人类听觉系统中寻找某种细纹,用来对信号编码,这种信号听起来与人的正常收听相同,尽管在示波器上看起来却大相径庭。感知编码是基于心理声学的——人们如何感知声音的科学。MP3正是基于感知编码。第55页,课件共63页,创作于2023年2月3.5.1音频压缩方法感知编码的关键特性在于一些声音可以掩盖住其他声音。想象一个进行现场直播的长笛音乐会,突然间,附近的一群工人打开他们的风镐开始挖掘街道。这时没有人可以再听到笛子的声音,因为它已经被风镐的声音给掩盖了。从传送角度看,只编码风镐的频段就足够了,因为听众无论如何都听不到笛子的声音。这种技术就叫做频段屏蔽——在一个频段里响亮的声音掩盖住另一频段中较柔和声音的能力,这种较柔和声音只有在没有响亮声音时才可以听到。事实上,即使风镐停

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论