第七章多媒体数据压缩和音视频处理技术

上传人：q*** IP属地：湖北上传时间：2021-12-01 格式：DOCX 页数：37 大小：4.94MB 积分：30 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第七章多媒体数据压缩和音视频处理技术7.3多媒体数据压缩编码技术17.3.1 概述17.3.2 数据压缩的理论及主要技术27.3.3 静态图像压缩编码标准JPEG47.3.4 运动图像（视频）压缩编码标准MPEG77.3.5 常见图像压缩格式评价117.4 多媒体音频/视频数据的处理157.4.1数字音频的编辑处理157.4.2.数字视频制作和处理247.6常用多媒体工具软件347.6.1图像图形制作和图像浏览工具347.6.2音视频播放工具367.3多媒体数据压缩编码技术7.3.1 概述多媒体技术的出现大大的改善了人们传递信息的方式，使得信息能够以人类更容易接受和学习的方式进行传递，增强信

2、息传递的效率。但是同时由于多媒体数据中蕴含了多种媒体的信息（通常表现为大量数字化了的声音、图片和视频信息等），需要传递或者处理的数据量非常大。举例来说，假设有一帧分辨率为800 ×600的24位真彩色数字图像，如果没有经过压缩处理，则其存储数据量约为每帧11.52Mb（这里只计算了纯数据的容量，实际中会有一些控制数据会产生额外开销）。如果把这样的图片制作成动画来显示，按照每秒24帧的动态显示要求，每秒所需传输和处理的数据量为276.48Mb，这样的传输速率当前大多数网络环境都很难胜任。如果再加上声音数据，需要传输和处理的数据量将会变得更大。如果不进行处理，现有多数的计算机系统和网络环

3、境要实现动画和声音多媒体数据的实时传输就比较困难。为了节约数据的存储空间，获得连贯的高质量视频播放效果和听觉效果，实现多媒体数据的实时交换，除了不断提高计算机本身的性能及通信信道的带宽外，目前更有效的的方法是对多媒体数据进行有效的压缩。由于可以帮助减少如硬盘空间与连接带宽这样的昂贵资源的消耗，所以压缩非常重要，然而压缩需要消耗信息处理资源，这也可能是非常昂贵的。所以数据压缩机制的设计需要在压缩能力、失真度、所需计算资源以及其它需要考虑的不同因素之间进行折中。多媒体数据特别适合压缩，这个是由多媒体数据的特点和应用对象决定的。多媒体数据的特点是整体上数据的冗余度很大，这就决定了多媒体可以被大幅度压

4、缩。例如，一幅风景图像中的背景是蓝天和绿地，而这部分数据中许多像素值是相同的，如果逐点存储就会浪费许多空间，这种冗余方式称为空间冗余。又例如，在电视和动画的相邻序列中，只有运动物体有少许变化，仅存储差异部分即可，这称为时间冗余。此外还有结构冗余、视觉冗余等，这些都为多媒体数据的压缩提供了条件。另一方面，多媒体数据的最终应用对象是人，即要把数据以视听的方式呈现给人，实现人机信息交流，而我们人类具有模糊识别的能力，这便意味着即使在压缩过程中损失了一些细节数据（一定程度上），将不会影响人类从多媒体数据中获取信息。因此，采用合适的压缩技术，可以对多媒体数据的数据量进行大幅度压缩而基本不影响人们从多媒体

5、数据中获取信息。数据压缩的定义是在不丢失信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间。下面对压缩理论和数据压缩技术做简要介绍。 7.3.2 数据压缩的理论及主要技术数据压缩的主要理论基础是信息论，这个领域的研究工作是由信息论的创始人克劳德·艾尔伍德·香农（Claude Elwood Shannon拓展阅读：/wiki/Claude_Shannon）奠定的，他在二十世纪40年代末期到50年代早期发表了这方面的基础性的论文。另外密码学、

6、统计学和编码理论也是和数据压缩关系密切的学科。从数学上讲，可以将压缩看做是一种变换。具体操作时，数据的压缩实际上是一个编码过程，即把原始的数据进行编码压缩。数据的解压缩是数据压缩的逆过程，即把压缩的编码还原为原始数据。因此数据压缩方法也称为编码方法。随着基础学科理论的不断发展，目前数据压缩技术也日新月异，适应各种应用场合的编码方法不断产生。针对多媒体数据冗余类型的不同，相应地有不同的压缩方法。根据解码后数据与原始数据是否完全一致可将压缩方法分为无损压缩算法（lossy compression）和有损压缩算法（lossness compression）两大类。无损压缩算法是指去掉或减少数据中的冗

7、余，但这些冗余值是可以重新插入到数据中的，因此冗余压缩是可逆的过程。例如在一幅图像中，有一部分数据排列为“蓝色的点，蓝色的点蓝色的点”共计300个，压缩后的图像可以记录为“300个蓝色的点”，这样就节省了大量的存储空间。在多媒体技术中，无损压缩经常用于一般文本、数据的压缩，它能保证百分之百地恢复原始数据。但这种方法压缩比较低。统计编码就是一种无失真编码。它是根据信息出现概率的分布而进行的压缩编码。编码时某种比特或字节模式的出现概率大，用较短的码字表示；出现概率小，用较长的码字表示。这样，可以保证总的平均码长最短。无损压缩使用最广泛的是LZ（ LempelZiv )压缩算法。常用的无损压缩算法基

8、本都是从LZ压缩算法演化而来，例如GIF图像中用到的LZW(Lenpel-Ziv & Welch)压缩算法，PNG图像中用到的 DEFLATE压缩算法和Zip格式压缩文件中用到的LZR(Lepel-Ziv-Renau)压缩算法。无损压缩常用的技术如下： RLE(Run-length encoding)被称为行程长度编码，是一种非常简单的无损压缩方法，这种方法使用数据及数据长度这样简单的编码代替重复出现的连续数据。例如有一幅简单图像是白色背景上面有一些黑点，这样就会有很多白点为重复数据。如果用W表示白色的点，用B来表示黑色的点，图像中的一行就可以简单表示如下： WWWWWWWWWWWWB

9、WWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW对于这一行数据用RLE压缩后变为： 12W1B12W3B24W1B14WLempel-Ziv（LZ）压缩方法是最流行的无损存储算法之一。LZ 方法使用基于表格的压缩模型，其中表格中的条目用重复的数据串替换。对于大多数的 LZ 方法来说，这个表格是从最初的输入数据动态生成的。微软公司的 CAB 格式采用的压缩方式LZX就是基于LZ编码机制的。DEFLATE是另外一种 LZ算法的变体，它针对解压速度与压缩率进行了优化，可以获得比较高的压缩率，但是有时候压缩速度可能会比较缓慢， PNG格式图像

10、就使用的是 DEFLATE压缩算法。LZW （Lempel-Ziv-Welch）也是从LZ压缩算法演化而来，这种方法用于 GIF 图像。由于这个算法曾经是 Unisys 公司的专利（2003年6月专利到期限），因此在很长一段时间内影响了GIF图像的应用。另外还有Zip压缩文件采用的 LZR (LZ-Renau) 方法。有损压缩法是指在不影响人类理解的情况下，丢弃一些细节信息来获得更高的压缩比，这些丢弃的信息是不能再恢复的，因此这种压缩法是不可逆的（即解压后的数据和压缩前的数据不完全一样）。有损压缩多用于由人的视觉或者听觉对解压缩后的数据进行识别的场合。这些压缩算法利用了人在识别信息时的一些生

11、理特点。例如，人的视觉对于亮度的变化特别敏感而对颜色的变化不敏感；人的耳朵能够识别的声波频段范围非常有限等。因此很多最终由人类的视觉系统和听觉系统接收的图像、音视频数据就可以采用有损压缩，在压缩时可以丢掉一不敏感或者无法感知些数据，不会对数据所表达的意思产生误解，但却可以大大提高压缩比。有损压缩算法经常需要处理的一个问题就是在压缩解压时间、保留信息量和减小数据存储空间之间寻找一个折中。需要注意的是在某些特殊情况下，例如医学诊断或者刑侦等场合，为了不遗漏任何信息细节，一般不采用有损压缩算法。有损图像压缩技术应用最广泛的的是JEPG图像压缩技术，大量的用于数码相机和互联网上图像，可以大幅度地提高

12、了存储能力，同时图像质量几乎没有降低。在有损音频压缩中，经常利用心理声学的原理来去除信号中听不见或者很难听见的成分。人类语音的压缩经常使用更加专业的技术，因此人们有时也将“语音压缩”或者“语音编码”作为一个独立的研究领域与“音频压缩”区分开来，其中语音压缩比较常见的应用是因特网电话。不同的音频和语音压缩标准都属于音频编解码范畴。视频压缩技术中绝大多数都是有损压缩，有损视频压缩的一个最常用技术就是可同时对音视频数据进行压缩的MPEG-x系列技术。无论是无损压缩还是有损压缩，其压缩算法是基于软件的，也就是其需要一定的处理时间，因此在很多实时性要求比较高的环境中，会对硬件的性能提出一些要求从而保证其

13、实时性。而在文件备份、归档过程中的压缩一般不会有什么问题。另外需要注意，有些文件已经被压缩，进一步的外部压缩不会有任何好处，一些图形文件格式，如标签映象文件格式（TIFF），就已经包含了压缩。由于数据压缩在使用计算机存储、传输和处理数据的过程中非常常用，在数据压缩发展的早期出现了各种压缩算法，这些各具特色的压缩算法降低了文件的可移植性，除非在数据交换时把解压缩软件也与文件一起传送，否则将会出现一个用户的压缩数据传输给另一个用户时无法打开的现象。为了便于不同的用户之间能够更好的交流数据，有必要制定一些国际标准来规范压缩算法，以促进不同用户之间数据交流的效率。促进数据压缩算法标准产生的组织主要有国

14、际标准化组织ISO、国际电工委员会 IEC和国际电信联盟电信标准化部门 ITU-T。其制定的通用压缩编码标准认可度比较高且应用比较广泛的大致有四种：H.261、JPEG、 MPEG和DVI。其中H.261是1990年ITU-T制定的一个视频编码标准，属于视频编解码器。设计的目的是能够在带宽为64kbps的倍数的综合业务数字网（ISDN for Integrated Services Digital Network）上传输质量可接受的视频信号。随着新的软硬件技术发展，视频编码标准也在不断演化，但后来的视频编码标准基本都是在H.261的基础上进行改进。H.261使用两种类型的压缩：用于帧内的基于D

15、CT（离散余弦变换）的有损压缩和用于帧间压缩的无损编码，并在此基础上使编码器采用带有运动估计的DCT和DPCM（差分脉冲编码调制）的混合方式。这种标准与JPEG及MPEG标准间有明显的相似性，但关键区别是它是为动态使用设计的，并提供完全包含的组织和高水平的交互控制。现在的H.261成为了过时的标准，已经基本上看不到使用H.261的产品了，但是在视频编码历史上H.261的地位非常重要，是一个重要的里程碑式的标准。JPEG、 MPEG和DVI压缩算法将在后续部分详细介绍。7.3.3 静态图像压缩编码标准JPEG JPEG（发音为 depg）的本义是全称是联合照片专家组，英文全名为Joint Pho

16、tographic Experts Group。此小组创建于1986年，其由国际标准化组织、国际电工委员会和国际电信联盟电信标准化部门（前身为国际电报电话咨询委员会CCITT，1993年更名为国际电信联盟电信标准化部门）共同组成，并于1992年发布了JPEG图像压缩解压算法。通常所说的JPEG都是是指由这个专家组制定的这个静止图像压缩和解压缩算法，并在1994年被采纳成为国际标准。人们在提到JPEG压缩算法时往往指的的有损压缩，实际上在JPEG标准中也支持一种被称为Lossless JPEG的无损压缩方式，但Lossless JPEG并没有受到广泛的支持和应用。JPEG压缩算法通常包含色彩空

17、间转换、缩减取样、离散余弦变换、量化几个步骤。其中色彩空间转换和缩减取样两个步骤的目的是把图像色彩转换到由YUV色彩空间后，保留亮度成分（也就是“Y”，人眼敏感的成分）成分，而对其它人眼睛不敏感的成分色度“U”和饱和度“V”进行缩减（关于YUV空间的概念将在后面学习运动图像的编码标准时介绍）。缩减抽样步骤是JPEG压缩步骤中有损的一个步骤，会丢弃一些人眼不敏感的信息。后续的压缩步骤将分别对三个成分进行相同的处理。离散余弦变换是把图像转换到用频率表达的空间，进行转换的目的是便于后续步骤中有针对性的对图像中的高频成分进行压缩。离散余弦变化过程是一个可逆的过程。量化的过程本身是一种压缩，其原理在于人

18、类的眼睛对一个相对比较大范围内的微小亮度变化非常敏感，但在高频率的亮度变化时，对具体亮度值却难以分辨。因此量化的思路就是在进行离散余弦变换后的图像上，减小高频率成分的信息数量。量化的过程很简单，就是把转换后的图像中的每一个成分，除以一个针对于该成分的常数再舍位取最接近的整数即可。量化过程也是有损运算，而且是整个压缩过程中的主要有损运算。量化的过程经常会把很多更高频率的成分舍位成为接近0，且剩下很多会变成小的正数或者负数。从量化的原理也可以看出，JPEG压缩特别适合相机等拍摄的实景自然图像，压缩后可以获得很好的视觉效果。但并不适合于线条绘图、图标、图形或者含有文字的图像，这类图像使用经典的无损压

19、缩例如（PNG格式图像采用的DEFLATE压缩）会取得更好的视觉效果。JPEG压缩算法的压缩比是可以调节的，可以根据需要在图像质量和存储量大小之间寻找一个最佳值。通常情况下压缩比为10:1时只会给图像质量带来微小的损失。图7-3-1显示了不同压缩比带来的图像质量变化。(a) 未压缩图像，大小725K (b) JPG低压缩比，大小111K (c) JPG高压缩比，大小36K图7-3-1 不同JPEG压缩比例对比图需要注意的是JPEG标准本身只描述了如何将一个图像转换为字节的数据流，并没有说明这些字节如何在任何特定的存储媒体上进行存储。如果要把这些压缩后的数据流存放在计算机硬盘等存储媒体上，其存

20、储格式也需要规范。为了解决这个问题，在1991年一个名叫C-Cube Microsystems的公司联合其它公司创建了一个额外的标准，称为JFIF（JPEG File Interchange Format，JPEG文件交换格式）详细说明如何从一个JPEG数据流，产出一个适合于计算机存储和传输的文件。JPEG/JFIF 支持的最大图像尺寸是 65535×65535。JPEG/JFIF是万维网（World Wide Web）上最普遍的图片存储和传输格式。另外一个标准是由日本电子工业发展协会在1996年制定的。称为可交换图像文件（Exchangeable image file forma

21、t, EXIF），是专门为数码相机的照片设定的，可以记录数码照片的属性信息和拍摄数据。EXIF可以附加于JPEG、TIFF、RIFF等文件之中，为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息。在Windows 7操作系统中，最简单的查看EXIF信息的方法是右键单击JPEG图片打开快捷菜单，单击“属性”再切换到“详细信息”标签下即可，如图7-3-2。图7-3-2 Exif JPEG文件提供的图像信息在日常使用中，当有人说一个“JPEG文件”，一般而言是意指一个JFIF文件，或者是一个Exif JPEG文件。使用JPEG格式压缩的图片文件一般也被称为JPEG Files，使用的

22、最普遍的文件扩展名格式为“.jpg”和“.jpeg”。其它还有：“.jpe”、“.jfif”以及“.jif”。JPEG格式的数据也能被嵌进其他类型的文件格式中，例如在TIFF类型的文件中就可以嵌入JPEG数据，作为图像的缩略图；在压缩音频数据mp3中也可以嵌入JPEG数据作为歌曲或者唱片集的封面，这就是为什么在播放mp3歌曲时有的播放器能显示出该歌曲对应的唱片集的封面图像。关于JPEG标准的最新进展，值得一提的是JPEG 2000。JPEG 2000也是由联合照片专家组创建和维护的标准拓展阅读：/wiki/JPEG_2000。和经典的JPEG标准相比

23、，JPEG 2000是用基于小波变换替代了基于离散余弦变换。JPEG 2000的优势比较明显，它的压缩比更高，而且不会产生原先的基于离散余弦变换的JPEG标准产生的块状模糊瑕疵。JPEG 2000同时支持有损数据压缩和无损数据压缩。另外，JPEG 2000也支持更复杂的渐进式显示和下载。因此JPEG 2000通常被认为是未来取代基于离散余弦变换的的下一代图像压缩标准。JPEG 2000文件的文档后缀名通常为“.jp2”。虽然JPEG 2000在技术上有一定的优势，但是目前互联网上采用JPEG 2000技术制作的图像文件数量仍然很少，并且大多数的浏览器仍然不支持JPEG 2000图像文件的显示。

24、使用JPEG可能要承担版权和专利的风险，这也许是目前JPEG 2000技术没有得到广泛应用的原因之一。JPEG 2000标准本身是没有授权费用，但是因为编码的核心部分的各种算法被大量注册专利。如果要开发基于JPEG 2000的商用软件，一般不太可能避开这些专利费用而开发出免授权费的编码器。由于JPEG 2000在无损压缩下仍然能有比较好的压缩率，所以JPEG 2000在图像品质要求比较高的医学图像的分析和处理中已经有了一定程度的应用。7.3.4 运动图像（视频）压缩编码标准MPEG视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由

25、于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处，但是由于其运动导致视频压缩有其自身的特性，在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到概念有帧内压缩、帧间压缩、对称性、位速、AVI和YUV等。帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。采用帧间（Interfram

26、e）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。例如有一段60秒的视频，这个视频中的前景一直在变化，但是在背景中的同一位置始终有一把椅子。那么压缩算法可能就会把一帧图像中椅子的数据存储下来，以在接下来的帧中使用，从而实现压缩的效果。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它

27、通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。对称性（symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，然后再播放，因此可以采用不对称（asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如，压缩一段三分钟的视

28、频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。位速（bit rate）是指在一个数据流中每秒钟能通过的信息量，通常都是用每秒钟通过的比特量（bps）来表示。由于比特是一个很小的单位，因此实际中常用的单位是Kbps、Mbps和Gbps，分别代表103bps，106bps和109bps。位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。CD中的数字音乐比特率为1411.2Kbps（也就是记录1秒钟的CD音乐，需要1411.2×1024比特的数据），近乎于CD音质的MP3数字音乐需要的比特率大约是112Kbps128Kbps。另外如何选择

29、适当的位速取决于播放目标。如果要把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是 1150 Kbps，音频必须是 224 Kbps。AVI是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种有损压缩方式，但压缩比较高，因此尽管面面质量不是太好，但其应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在多媒体光盘上，用来保存电视、电影等各种影像信息。YUV有时候也写作YCrCb，是欧洲电视系统所采用的一种颜色编码方法。YUV主要用于优化彩色视频信号的传输并兼容老式黑白电视。与RGB视频信号传输相比，它最大的优点在于只需占用极少的带宽（RGB要求三个独立的

30、视频信号同时传输）。其中“Y”表示明亮度（Luminance或Luma），也就是灰阶值；而“U”和“V”表示的则是色度和浓度（Chrominance或Chroma），用于指定像素的颜色。如果把UV信息去掉，则剩下的就是和早期黑白电视兼容的亮度信息。RGB色彩空间可以通过公式直接转换到YUV空间。在前面学习JPEG压缩原理时，第一步就是把图像色彩从RGB转化到YUV空间。由于视频的每一帧都是由像素栅格构成的。如果在水平方向上（也就是每行）有W个像素，而在垂直方向上（每列）有H个像素，则称为帧大小为W×H。像素的唯一属性就是颜色，一般用一定数量的比特来表示。用的比特数越多，表达的颜色变化

31、就越丰富，这个称为视频的颜色深度。颜色深度为n则可以表达的颜色数为2n个。假设有一部时间长度为1个小时的视频，其帧大小为1280 x 720，颜色深度为24，按照帧率25进行播放。那么可以计算出此视频的以下属性：每帧像素数= 1280 * 720= 921600每帧比特数= 每帧像素数 *24b = 921600*24b = 22118400b 21Mb比特率 =每帧比特数*帧率 =21Mb/帧 * 25帧/s= 525 Mb/s视频大小 = 比特率*时间 = 525 Mb/s * 3600s = 1890000Mb = 236250MB231GB从这个计算可以看出，一部普通的时常为1小时的

32、视频数据，如果不进行压缩，其占用的存储空间已经非常巨大。随着数字视频的发展，一些三维视频技术也开始出现，可以预料，其数据量会越来也大。因此有必要研究视频的压缩技术，从而使视频的存储、处理和传输更加方便。和图像的压缩相似，数字视频压缩以后基本不影响作品的最终视觉效果。例如，虽然颜色深度为24的视频可以呈现的颜色有上千万种，但是人类肉眼只能辨别大约 1024 种。因为我们觉察不到一种颜色与其邻近颜色的细微差别，所以也就没必要将每一种颜色都保留下来。另外和图像相似、视频数据也有冗余的问题。例如在视频作品中经常可以看到在一个较短的时间段内，视频的背景很少发生变化或者就根本不发生变化。在这种情况下，这个

33、时间段内的多个帧的背景数据就会出现大量冗余数据，在视频数据的压缩中可以用类似行程长度编码的思路来设计压缩算法。标准的数字摄像机的压缩率为 5 比 1，有的格式可使视频的压缩率达到 100 比 1。需要注意的是，过分压缩也不是件好事。因为压缩得越多，丢失的数据就越多。如果丢弃的数据太多，产生的影响就越来越明显。过分压缩的视频会导致观看者无法辨认。和JPEG类似，MPEG是运动图像专家组（Moving Picture Experts Group）的简称。这个名字本义是指成立于1988年的研究视频和音频编码标准的“动态图像专家组”。MPEG是隶属于国际标准化组织和国际电工委员会的工作组，它的官方头衔

34、为：第一技术委员会第二十九子委员会第十一号工作组正式审核程序，英文为ISO/IEC JTC1/SC29 WG11。MPEG大约每2-3个月举行一次会议，每次会议大约持续5天，在会议期间，新的建议和技术细节先在小组中讨论，成熟后进入标准化的正式审核程序。现在人们所说的MPEG泛指由该工作组制定的一系列视频编码标准正式审核程序。该工作组从1988年至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准，MPEG-21正在制定中。MPEG的标志如图7-3-3。图7-3-3 MPEG的标志（图片来源：Moving Picture Experts Group）MPE

35、G图像编码是基于变换的有损压缩。光学信号线经过采样形成视频信号形成一系列帧图像，然后帧被分区成小块做变换编码，然后量化，最后进行熵编码。MPEG-1、MPEG-2、MPEG-4采用了的动量估计和动量补偿技术。在利用了动量补偿的帧中，被编码的是经过动量补偿的参考帧与目前图像的差。与传统图像编码技术不同，MPEG并不是每格图像进行压缩，而是以一秒时段作为单位，将时段内的每一格图像做比较，由于一般视频内容都是背景变化小、主体变化大，MPEG技术就应用这个特点，以一幅图像为主图，其余图像格只记录参考资料及变化数据，更有效记录动态图像。从MPEG-1到MPEG-4，其核心技术基本都是这个原理，各个版本的

36、区别主要在于比较的过程和分析的复杂性等。MPEG只规定比特流的格式与解码精确度，实际上相当于对解码的方法进行了规定。这样的好处在于任何人都可以依照MPEG标准以不同方式实现编码器程序，而MPEG标准的主要目的在于确保不同的编码器所产生的比特流可被其他解码器正确的解码。由于解码方法是通用的，因此可以大大减少因编码专利造成的商业利益纠纷外，也促进了标准的应用和普及。下面对各个时段的MPEG标准做简要介绍。MPEG-1是第一个官方的视频音频压缩标准，该标准是一个面向家庭电视质量级的视频、音频压缩标准。MPEG-1主要用于传输15Mbps数据传输率的数字存储媒体运动图像及其伴音的编码，经过MPEG-1

37、标准压缩后，视频数据压缩率为1/100-1/200，音频压缩率为1/6.5。MPEG-1提供每秒30帧352*240分辨率的图像，当使用合适的压缩技术时，具有接近家用视频制式（VHS）录像带的质量。MPEG-1允许超过70分钟的高质量的视频和音频存储在一张CD-ROM盘上。VCD采用的就是MPEG-1的标准。值得一提的是MPEG音频压缩的第三级（MPEG-1 Layer 3）简称MP3，是目前比较流行的音频压缩格式。 MPEG-2是广播质量的视讯、音频和传输协议。被用于无线数字电视、数字卫星电视、数字有线电视信号和DVD视频光盘技术中。传输速率为10Mbps，与MPEG-1兼容，适用于1.5-

38、60Mbps甚至更高的编码范围。MPEG-2有每秒30帧704*480的分辨率，是MPEG-1播放速度的四倍，适用于高要求的广播和娱乐应用程序。MPEG-3原本目标是为高分辨率电视（HDTV）设计，后来发现MPEG-2已足够HDTV应用，故MPEG-3的研发便中止。MPEG-4是2003年发布的压缩标准，主要是扩展MPEG-1、MPEG-2等标准以支持视频音频对象的编码、3D内容、低比特率编码和数字版权管理。MPEG-7并不是一个压缩标准，它是一个多媒体内容的描述标准。MPEG-21是一个正在制定中的标准，它的目标是为未来多媒体的应用提供一个完整的平台。主要MPEG视频编码标准应用关系如图7-

39、3-4。图7-3-4 目前比较成熟的MPEG视频编码标准的应用提到MPEG，就不得不提到国际电信联盟电信标准化部门制定的 VCEG标准。和MPEG类似，VCEG是Video Coding Experts Group的简称，也可直接称为VCEG，中文名称为视频编码专家组。VCEG开发制定了一系列视频通信协议和标准，包括H.261视频会议标准，和其后续版本H.263、H.263 plus、H.263 plus plus、H.264等。最新的标准是H.265（或称为High Efficiency Video Coding， HEVC）。H.264和H.265均是由VCEG和MPEG合作共同发布的标准

40、。其中H.264的第10部分由ISO/IEC和ITU-T联合发布，称为H.264/MPEG-4 Part 10。很多视频编解码标准可以很容易的在个人计算机和消费电子产品上实现，这使得在这些设备上有可能同时实现多种视频编解码标准，避免了由于兼容性原因使得某种占优势的编解码标准影响其它编解码标准的发展和推广。综合以上介绍，把一些主流的视频编解码标准按照它们成为国际标准的时间整理如表7-3-1所示。表7-3-1视频编码标准发展年份标准制定组织主要应用1984H.120ITU-T1990H.261ITU-T视频会议、视频通话1993MPEG-1 第二部份ISOIEC影音光盘（VCD）1995H.262

41、/MPEG-2 第二部份ISOIEC、ITU-TDVD影碟（DVD-Video）、蓝光（Blu-Ray）影碟、数字视频广播（DVB）、SVCD1996H.2636ITU-T视频会议、视频通话、3G手机视频（3GP）1999MPEG-4 第二部份ISOIEC更加注重多媒体系统的交互性和灵活性2003H.264/MPEG-4 AVC1ISOIEC、ITU-T蓝光（Blu-Ray）影碟、数字视频广播（DVB）、iPod视频、高画质DVD（HD DVD）2013High Efficiency Video CodingITU-T尚未普及7.3.5 常见图像压缩格式评价前面介绍的JPEG压缩编码方式外，比

42、较常用的还有无损图像压缩格式还有GIF和PNG，采用的压缩算法分别为LZW和DEFLATE压缩算法。其中GIF（Graphics Interchange Format）是一种位图文件格式，以8位色（即256种颜色）重现真彩色的图像。是目前广泛应用于网络传输的图像格式之一。PNG（Portable Network Graphics）简称便携式网络图形，也是一种无损压缩的位图图像格式，支持索引、灰度、RGB三种颜色方案以及Alpha通道等特性。PNG最初的开发目标是改善并取代GIF作为适合网络传输的格式而不需专利许可，目前也被广泛应用于互联网图像交换上。下面对这几种常见的压缩文件进行比较评价。评价

43、用参考图像如图7-3-5，其原始格式为颜色深度24位的位图格式。图7-3-5未压缩的位图格式图像（大小764K）1. JPEG 2000和JPEG的比较在有损压缩下，JPEG 2000一个比较明显的优点就是没有JPEG压缩中的马赛克失真效果。JPEG 2000的失真主要是模糊失真。模糊失真产生的主要原因是在编码过程中高频量一定程度的衰减。传统的JPEG压缩也存在模糊失真的问题。就图像整体压缩性能来说，在低压缩比情形下（比如压缩比小于10:1），传统的JPEG图像质量有可能要比JPEG 2000要好。JPEG 2000在压缩比较高的情形下，优势才开始明显。整体来说，和传统的JPEG相比，JPEG

44、 2000仍然有很大的技术优势，通常压缩性能大概可以提高20%以上。一般在压缩比达到100:1的情形下，采用JPEG压缩的图像已经严重失真并开始难以识别了，但JPEG 2000的图像仍可识别。有损压缩图像质量或失真程度一般用峰值信噪比（PSNR）指标来衡量。虽然峰值信噪比不能完全反映人类视觉效果，但是它仍是一个目前比较流行的量化指标。图7-3-6 显示了JPG2000和JPG格式压缩效果对比，压缩比大约为20:1，此时可以看到JPG的效果要略优于JPG2000。(a) JPG2000有损压缩（大小31K ） (b) JPG压缩（大小37K）图7-3-6 JPG2000和JPG格式压缩对比2

45、. PNG 和JPEG的比较由于采用的压缩算法不同，JPEG和PNG两种图像格式适用的图片内容也有差异。JPEG采用了一种针对照片图像的特定有损编码方法，这种编码适用于低对比、颜色过渡平滑、噪音多且结构不规则的图像，因此JPEG可以对真实世界照片（或类似）图像生成更小的文件。而如果用PNG文件格式来压缩存储此类数据，文件尺寸则会增大很多，虽然此时是无损压缩，但是和有损压缩的JPEG相比，图像质量的提高有限。如果需要保存的图像中含有文本、线条或类似的边缘清晰，有大块相同颜色区域的图像，PNG格式的压缩效果就要比JPEG好很多，并且不会出现JPEG那样的高对比度区域的图像有损。如果图像既有清晰边缘

46、，又有照片图像的特点，则需要根据实际应用需求在这两种格式之间权衡。由于JPEG是有损压缩，会产生迭代有损，在重复压缩和解码的过程中会不断丢失信息使图像质量下降。而PNG是无损的，因此如果要保存需要被反复编辑的图像，PNG格式更好一些。对于将要发布的图像，用JPEG压缩一次不会造成明显的图像质量降低。PNG和JPEG的另一个区别是JPEG不支持透明度。图7-3-7 显示了PNG和JPG格式压缩效果对比，压缩比大约为20:1。由于此图像边缘清晰，有大块相同颜色区域，因此可以看到PNG的压缩效果要明显优于JPG压缩。(a) PNG压缩（大小33K ） (b) JPG压缩（大小37K）图7-3-7

47、 PNG和JPG格式压缩对比3. GIF和JPEG比较GIF是CompuServe公司在 1987年开发的图像文件格式，因其体积小而成像相对清晰，特别适合于初期慢速的互联网而大受欢迎。GIF采用无损压缩技术，只要图像不多于256色，则可既减少文件的大小，又保持成像的质量。GIF颜色深度是8决定了GIF并不适合存储彩色丰富的照片，当然颜色深度很小也意味着存储的数据量很小。和JPEG图像一样，GIF也是互联网上很流行的一种图像格式。但GIF的特点是可以做成透明的，也可以做成动画，这些特点都是JPEG所无法实现的。因此对于有这些特殊需求的图像，适合用GIF图像格式压缩存放。由于GIF是无损压缩，因此

48、对于颜色简单的图像、或者图像中含有文本、线条或类似的边缘清晰、有大块相同颜色区域等不适合采用JPEG方式压缩的图像，GIF也是比JPEG更好的一个选择。一般情况下，JPEG允许压缩比大一些。GIF的压缩比小一些。因此对于比较大的图像，宜采用JPEG格式进行压缩存储。图7-3-8 显示了GIF和JPG格式压缩效果对比，压缩比大约为20:1。由于图像固有的特点（边缘清晰，有大块相同颜色区域），可以明显看到 JPG压缩效果要差一些。(a) GIF压缩（大小38K ） (b) JPG压缩（大小37K）图7-3-8 GIF和JPG格式压缩对比4. 图像压缩格式汇总在图像压缩的发展过程中，根据压缩图像

49、的特点不同，压缩最终应用的目的不同，压缩算法的设计各具特色，出现了各种各样的压缩算法。除了ISO组织、IEC和ITU-T等权威的标准化制定者，也有很多第三方组织结构提出一些压缩算法并获得了很好的应用。表7-3-2列出了前面学习的一些格式，也列出其它一些常见的图像压缩格式。表7-3-2常见图像压缩格式汇总制定者压缩格式ISO/IEC/ITU-TJPEG， JPEG 2000， JPEG XR， lossless JPEG，JBIG， JBIG2， PNG， WBMP其它APNG， BMP， DjVu， EXR， GIF， ICER， ILBM， MNG， PCX， PGF， TGA， TIFF，

50、QTVR，WebP7.4 多媒体音频/视频数据的处理7.4.1数字音频的编辑处理1. 概述数字音频是指使用脉冲编码调制、数字信号来录音。其中包含了数字模拟转换器、模拟数字转换器、贮存以及传输。相比而言，它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。数字音频处理涉及到很多种技术，如：音频采集、语音编码/解码、音乐合成、语音识别与理解、音频数据传输、音视频同步、音频效果与编辑等。限于篇幅，我们这里仅仅介绍利用音频处理软件Audition来对数字音频完成分割、裁剪、合并和混缩等一些简单的操作。2. Adobe Audition数字音频的制作和处理Adobe

51、 Audition是Adobe公司开发的一款多轨录音和音频处理软件。它是一个非常出色的数字音乐编辑器和MP3制作软件，其主界面如图7-4-1。和众多Windows操作系统下的程序相似，Audition的编辑界面由位于中央的工作区和左侧的素材框组成，在素材框上方的选项卡里可以选择效果调板和收藏夹调板。图7-4-1 Audition的主界面下面分别介绍如何使用Adobe Audition进行声音录制和对已有的音频进行编辑处理。（1）声音的录制选择“文件”菜单中的“新建”命令或者直接直接单击传送器调板上的录音键进行录音，可以新建一个音频文件。首先Audition会弹出一个“新建波形”窗口让用户来选

52、择采样率、通道和分辨率三个参数，如图7-4-2。图7-4-2 新建波形参数选择窗口选择参数后按下“确定”按钮即可按照指定的参数开始录音，在工作区可以看到声音的波形，如图7-4-3。图7-4-3 Audition开始录制声音在实际的音频制作中，为了能够获得更好的录制效果，拟制环境噪音，可以先录制10秒左右的环境噪音，然后再开始正式录音，这样在后期制作时可以利用前面10秒中的环境噪音采样对整个录音进行降噪处理。环境噪音样本文件可以单独存一个文件，也可以录制在正式录音的音频前段。如果环境噪音文件和正式录音录制在一起，可以在处理完毕后可以把环境噪音部分剪裁掉。录制完毕时再次单击传送器调板上的录音键停止

53、录音，然后对录音文件进行保存。保存时最好是选择“wav”或者是其他的无损或高质量的音频格式，以便于后续的编辑处理。（2）音频的编辑对于单个音频，比较常见的操作是剪裁和降噪。剪裁的方法非常简单，首先用鼠标在工作区拖动选择，选中部分会反色显示，如图7-4-4。然后在传送器调板按下播放按钮可以试听选择部分，鼠标可以调整选择区域，确认后利用“编辑”菜单中对应的命令或者直接按下delete键就可以完成选择部分的音频剪裁。图7-4-4 选择部分波形降噪处理是基于提前录制的环境噪音样本进行的。这里假设环境噪音是和正式录音被录制在同一个音频文件中。打开音频文件后，定位到正式录音前所录制的10秒钟环境噪音部分

54、，若要获得较好的降噪效果，在选择噪音样本时应当尽量选择一段平稳且单纯的环境噪音片段。然后在素材框上，选择效果调板，选择“修复”“降噪器（进程）”打开降噪器窗口，如图7-4-5。单击“获取特性”按钮进行分析获得噪音特性，结果如图7-4-6。图7-4-5 降噪器窗口图7-4-6 降噪器窗口获取噪音特性分析完成后可以将噪音的样本保存为单独的文件。关闭降噪器窗口回到工作区，选择整个波形，再打开降噪器，单击“加载”，将刚才保存的噪音样本打开，如图7-4-7。为了获得较好的降噪效果，一次降噪的降噪级别不宜太高，本例中选择15%。单击“确定”按钮完成降噪。图7-4-7 降噪器窗口载入噪音特性文件还有一种简

55、单的降噪方法就是适应性降噪，适应性降噪的特点是无需采样，Audition可以按照音频文件进行分析自动完成降噪。其操作方法是选择效果调板，选择“修复”“适应性降噪”，打开窗口，在窗口顶端“预设效果”下拉列表区域选择Light Noise Reduction预置，再勾选“高质量模式（缓慢）”，如图7-4-8。然后慢慢调整“降噪级别”一个参数即可。除了最主要的降噪器工具，还可以用“消除嘶声”工具，“自动移除咔哒声“工具和”破音修复“工具进行其他噪声的消除处理。图7-4-8 适应性降噪如果需要对多个音频文件进行编辑，则需要进入到多轨模式下进行。在菜单“视图”中选择“多轨视图”命令即可进入多轨模式。在文

56、件调板中导入多个要编辑的音频文件后，可以用鼠标拖动逐个放到工作区的对应轨道上。此时工作区上方的工具栏变成如图7-4-9所示。工具栏最左侧为工作区三种工作模式：编辑、多轨（当前选择状态）和CD，在CD的右侧为四个操作工具，从左到右依次为混合工具、时间选择工具、移动/复制剪辑工具和刷选工具。图7-4-9 多轨查看模式在多轨模式下，可以很灵活地对多个音轨的剪辑进行分离、复制、剪切、粘贴、合并、混缩等操作。所有的操作基本都遵循一个原则，即利用时间选择工具选择部分或者全部音频剪辑，通过分离合作、剪切、复制/移动等操作使得选中剪辑的变成一段独立的剪辑块。把每一段独立的剪辑块可以看成是一个对象，然后再利

57、用工具实现合并或者混缩等操作形成新的剪辑块对象。对于每一个剪辑块对象，在选中状态下，可以添加特殊的效果。其操作方法和前面降噪的操作类似，通过选择效果调板中对应的操作就可以完成。当对多轨音频编辑全部完成之后，删除不需要的音轨，选择“编辑”“混缩到新文件”命令，然后根据需求输出到文件。【实例7-4-1】：消除音频mp3中的原唱声音。打开需要进行操作的MP3文件。选中整个波形文件，然后选择“效果”“立体声声像”“声道重混缩”命令，打开通道重混缩对话框。分别如图7-4-10和图7-4-11所示图7-4-10打开声音重混缩对话框图7-4-11声道重混缩对话框在声道重混缩窗口顶部预设效果下拉列表中选择“V

58、ocal Cut”选项，然后单击“确定”按钮便可以完成原声消除。处理完成后返回到主界面窗口，便可以把处理后的音频以“另存为”的方式保存成一个新的只保留伴奏的mp3文件。上述操作非常简单，实际上对于不同的mp3文件处理的效果也有差异，比较常见的情况是按照上述步骤处理后原唱的声音没有消除干净，依然隐约能听到原唱的声音；还有就是伴奏的声音也发生了一些变化。因此在要求不高的场合这个操作已经可以满足需求。如果想获得更好的“消音”效果，那么需要 “效果”菜单里多个功能来综合实现，读者可以搜索相关材料自行阅读实现。7.4.2.数字视频制作和处理1. 概述数字视频的一大优点是可重用性，如果需要重用某一部分，只需要在计算机里执行复制和粘贴这样的操作即可；即使视频中没有任何可重用的部分，使用数

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七章多媒体数据压缩和音视频处理技术

文档简介

温馨提示

最新文档

评论

第七章多媒体数据压缩和音视频处理技术

文档简介

温馨提示

最新文档

评论

相关文档