多媒体技术简介_第1页
多媒体技术简介_第2页
多媒体技术简介_第3页
多媒体技术简介_第4页
多媒体技术简介_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体技术简介多媒体技术简介第三、四讲主要内容主要内容多媒体数据的获取技术数字化技术编码技术压缩技术多媒体技术标准存储格式。1 多媒体数据的获取技术多媒体数据的获取技术l计算机本身可以创建的媒体:文本、图形、动画和MIDI音乐l从外部输入到计算机内的媒体:图像、音频和视频l图像、音频和视频这三种媒体需要数字化,才能让计算机处理。2 数字化技术数字化技术l数字化:将模拟信号变成数字信号的过程l采样:把连续时间或者连续空间分布转化为离散值的过程,必须遵循奈奎斯特定理l量化:把连续的采样值转化为离散值的过程,分为线性量化和非线性量化l编码:把量化值表示成数字形式的过程l音频数字化、图像数字化、视频数

2、字化。3 编码技术编码技术l编码模型l压缩编码分类l统计编码:哈夫曼(哈夫曼(HuffmanHuffman)编码、香农)编码、香农- -费诺编码、费诺编码、算术编码、游程编码(算术编码、游程编码(RLCRLC)和)和LZWLZW编码编码( (第二类编码第二类编码) )l预测编码l变换编码l分形编码l矢量化编码l子带编码。4 压缩技术压缩技术l编码压缩的必要性与可能性编码压缩的必要性与可能性l多媒体数据存在着大量的冗余多媒体数据存在着大量的冗余:空间冗余、时空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余和纹理的统计冗余像区域的相同性

3、冗余和纹理的统计冗余l文本压缩技术文本压缩技术l图像压缩技术图像压缩技术l音频压缩技术音频压缩技术l视频压缩技术。视频压缩技术。5 多媒体技术标准多媒体技术标准l多媒体压缩标准l音频压缩标准l图像压缩标准l视频压缩标准l多媒体表示标准l同步多媒体集成语言lMHEG标准l多媒体元数据标准。6 存储格式存储格式l文本存储格式:.doc、.rtf、.pdfl图像存储格式l音频存储格式: .WAVWAV、.MP3.MP3、.MID.MID、其它格式其它格式l视频存储格式。音频音频幅幅值值t一个周期一个周期+空气压强空气压强0声音包含三个要素:音调、音强和音色。声音包含三个要素:音调、音强和音色。基频与

4、音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹或千赫兹(kHz)表示表示谐波与音色:谐波与音色:no称为基波称为基波o的的n次谐波分量次谐波分量(n就是高次谐波的方次,就是高次谐波的方次,no就是基波就是基波o的的n次谐波次谐波),也称为泛音。音色是由混入基音的泛音所决,也称为泛音。音色是由混入基音的泛音所决定的定的幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信幅度与音强:信号的幅度是从信号的基线到当前波峰的

5、距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。号音量的强弱程度。幅度越大,声音越强。音频数字化音频数字化l连续的音频波形可通过麦克风等输入设备转化为连续的电信号,要使计算机能够处理和传输音频信号,必须经过模/数转换过程l采样。对声音波形的采样就是按采样的频率间隔、不断地获取幅度的量值,使连续的声音波形转变为离散的数字量l量化。将信号范围分割成固定数量。图像数字化图像数字化l采样(Sampling)是对图像空间坐标的离散化,它决定了图像的空间分辨率,就是用一个网格(如右图所示)把待处理的图像覆盖 ,把每一小格上模拟图像的各个亮度取平均值,作为该小方格中点的值 l把采样后所得的各像素灰度

6、值从模拟量到离散量的转换称为图像灰度的量化。编码压缩的必要性与可能性编码压缩的必要性与可能性l众所周知,多媒体量化所需数据量大。音频、众所周知,多媒体量化所需数据量大。音频、图像和视频的庞大数据对计算机的处理速度、图像和视频的庞大数据对计算机的处理速度、存储容量都提出过高的要求。因此必须进行数存储容量都提出过高的要求。因此必须进行数据量压缩据量压缩l从传送的角度来看,在信道带宽、通信链路容从传送的角度来看,在信道带宽、通信链路容量一定的前提下,采用编码压缩技术,减少传量一定的前提下,采用编码压缩技术,减少传输数据量,是提高通信速度的重要手段。因此,输数据量,是提高通信速度的重要手段。因此,更要

7、求数据量压缩。更要求数据量压缩。多媒体数据存在着大量的冗余多媒体数据存在着大量的冗余l众所周知,视频由一帧一帧的图像组成,众所周知,视频由一帧一帧的图像组成,而图像的各像素之间,无论是在行方向而图像的各像素之间,无论是在行方向还是在列方向,都存在着一定的相关性,还是在列方向,都存在着一定的相关性,即冗余度。应用某种编码方法提取或减即冗余度。应用某种编码方法提取或减少这些冗余度,便可以达到压缩数据的少这些冗余度,便可以达到压缩数据的目的。目的。图形图形l图形不直接描述数据的每一点,而是描述产生这些点的过程与方法,在计算机图形学和数字图像处理中,图像是位图的概念,基本元素是像素;图形则是向量图的概

8、念,基本元素是图元,即图形指令。图像图像编码模型编码模型(图像图像)一个压缩系统包括两个不同的结构块:一个编码器和一个解码器一个压缩系统包括两个不同的结构块:一个编码器和一个解码器从原理来看主要分为三个阶段,第一阶段将输入数据转换为可以减少输入从原理来看主要分为三个阶段,第一阶段将输入数据转换为可以减少输入图像中像素间冗余的数据的集合。第二阶段设法去除原图象信号的相关性,图像中像素间冗余的数据的集合。第二阶段设法去除原图象信号的相关性,例如对电视信号就可以去掉帧内各种相关,还可以去除帧间相关。这样有例如对电视信号就可以去掉帧内各种相关,还可以去除帧间相关。这样有利于编码压缩。第三阶段就是找一种

9、更近于熵,又利于计算机处理的编码利于编码压缩。第三阶段就是找一种更近于熵,又利于计算机处理的编码方式。方式。压缩编码分类压缩编码分类统计编码统计编码l统计编码属无损编码,它是根据消息出现概率统计编码属无损编码,它是根据消息出现概率的分布特性而进行的压缩编码。统计编码又可的分布特性而进行的压缩编码。统计编码又可分为定长码和变长码,常分为如下几类:分为定长码和变长码,常分为如下几类:l哈夫曼(哈夫曼(HuffmanHuffman)编码)编码l香农香农- -费诺编码费诺编码l算术编码算术编码l游程编码(游程编码(RLCRLC)lLZWLZW编码。编码。预测编码预测编码l预测编码是根据离散信号之间存在

10、着一定的相关性,预测编码是根据离散信号之间存在着一定的相关性,利用前面的一个或多个信号对下一信号进行预测,然利用前面的一个或多个信号对下一信号进行预测,然后对实际值和预测值的差后对实际值和预测值的差( (预测误差预测误差) )进行编码进行编码l预测编码中典型的压缩方法有脉冲编码调制预测编码中典型的压缩方法有脉冲编码调制(PCM, (PCM, Pulse Code Modulation)Pulse Code Modulation)、差分脉冲编码调制、差分脉冲编码调制(DPCM(DPCM,Differential Pulse Code Modulation)Differential Pulse C

11、ode Modulation)、自适应差、自适应差分脉冲编码调制分脉冲编码调制(ADPCM(ADPCM,Adaptive Differential Adaptive Differential Pulse Code Modulation)Pulse Code Modulation)等等l预测编码可分为无损预测编码和有损预测编码。预测编码可分为无损预测编码和有损预测编码。变换编码变换编码l变换编码的原理如右图所示。从图中看出,变换编码的原理如右图所示。从图中看出,存储或传输都是在变换域中进行的,即传存储或传输都是在变换域中进行的,即传输或存储都不是空域图像而是变换域系数,输或存储都不是空域图像而是

12、变换域系数,分一般正交变换和小波变换。分一般正交变换和小波变换。分形编码分形编码l分形编码与分形几何相关。所谓分形几何就是研究无限复杂分形编码与分形几何相关。所谓分形几何就是研究无限复杂但具有一定意义下的自相似图形和结构的几何学。分形编码但具有一定意义下的自相似图形和结构的几何学。分形编码正是利用分形几何中自相似的原理来实现数据压缩的。首先正是利用分形几何中自相似的原理来实现数据压缩的。首先对图像进行分块,然后再去寻找各块之间的相似性,这里相对图像进行分块,然后再去寻找各块之间的相似性,这里相似性的描述主要是依靠仿射变换来确定的,一旦找到了每块似性的描述主要是依靠仿射变换来确定的,一旦找到了每

13、块的仿射变换,就保存下这个仿射变换的系数,由于每块的数的仿射变换,就保存下这个仿射变换的系数,由于每块的数据量远大于仿射变换的系数,因而图像得以大幅度地压缩据量远大于仿射变换的系数,因而图像得以大幅度地压缩 l分形图像编码和解码不够成熟,产生的压缩比不够高。压缩分形图像编码和解码不够成熟,产生的压缩比不够高。压缩效果还不十分理想,在当前图像压缩编码中还不能占据主导效果还不十分理想,在当前图像压缩编码中还不能占据主导地位。地位。子带编码子带编码l由于人眼对不同频域段的敏感程度不同,图像由于人眼对不同频域段的敏感程度不同,图像信号可以划分为不同的频域段。子带编码的基信号可以划分为不同的频域段。子带

14、编码的基本思想是利用一滤波器组,将采样将输入信号本思想是利用一滤波器组,将采样将输入信号分解为高频分量和低频分量,然后分别对高频分解为高频分量和低频分量,然后分别对高频和低频分量进行量化和编码。解码时,高频分和低频分量进行量化和编码。解码时,高频分量和低频分量经过插值和共轭滤波器而合成原量和低频分量经过插值和共轭滤波器而合成原信号。信号。矢量化编码矢量化编码l矢量量化编码利用相邻图像数据间的高度相关矢量量化编码利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一组由性,将输入图像数据序列分组,每一组由m m个个数据构成一个数据构成一个M M维矢量,一起进行编码,即一维矢量,一起进行编码

15、,即一次量化多个点。根据香农失真率理论,对于无次量化多个点。根据香农失真率理论,对于无记忆信源,矢量量化编码总是优于标量量化编记忆信源,矢量量化编码总是优于标量量化编码,矢量量化编码是有损编码。码,矢量量化编码是有损编码。文本压缩技术文本压缩技术l文本压缩必须是无损压缩l哈夫曼(哈夫曼(HuffmanHuffman)编码)编码l词典编码词典编码lLZ77LZ77lLZWLZW。图像压缩技术图像压缩技术l典型的图像压缩系统主要由三部分组成:变换部分、量化部分和编码部分音频压缩技术音频压缩技术l音频信息编码技术主要可分为三类音频信息编码技术主要可分为三类波形编码:这种方法主要基于语音波形预测,它力

16、图使重建的语音波波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制形保持原有的波形状态。常用的波形编码技术有增量调制(DM)(DM)、自适、自适应差分脉冲编码调制应差分脉冲编码调制(ADPCM)(ADPCM)、子带编码、子带编码(SBC)(SBC)和矢量量化编码和矢量量化编码(VQ)(VQ)等等等等参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参

17、数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供窄带信道上提供4.8kb/s4.8kb/s以下的低速语音通信和一些对延时要求较宽以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测的应用场合(如卫星通信等)。最常用的参数编码法为线性预测(LPCLPC)编码)编码混合编码:是指同时使用两种或两种以上的编码方法进行编码的过程。混合编码:是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的由于每种编码方法都有自己的

18、优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。数据压缩的目的。视频压缩技术视频压缩技术l视频压缩技术两个要点:l在空间上,图像数据采用JPEG压缩算法l在时间上,图像数据采用移动补偿算法l三种图像lI图像 利用图像自身的相关性压缩, 提供压缩数据流中的随机存取的点,采用基于ADCT的编码技术,压缩后,每个像素为1b-2blP图像 用最近的前一个I图像(或P图像)预测编码得到(前向预测)lB图像 B图像在预测时, 既可使用了前一个图像作参照, 也可使用下一个图像做参照或同时

19、使用前后两个图像作为参照图像(双向预测)。空间冗余l这是静态图像存在的最主要的一种这是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上数据冗余。一幅图像记录了画面上可见景物的颜色。同一景物表面上可见景物的颜色。同一景物表面上各采样点的颜色之间往往存在着空各采样点的颜色之间往往存在着空间连贯性,从而产生了空间冗余。间连贯性,从而产生了空间冗余。时间冗余l在视频的相邻帧间,往往包含相同的背景和移在视频的相邻帧间,往往包含相同的背景和移动物体,因此,后一帧数据与前一帧数据有许动物体,因此,后一帧数据与前一帧数据有许多共同的地方,即在时间上存在大量的冗余。多共同的地方,即在时间上存在大量的冗余

20、。结构冗余l在有些图像的纹理区,图像的像素值存在着明在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等。显的分布模式。例如,方格状的地板图案等。我们称这种冗余为结构冗余。我们称这种冗余为结构冗余。知识冗余l有些图像的理解与某些知识有相当大的相关性。有些图像的理解与某些知识有相当大的相关性。例如,人脸的图像有固定的结构。这类规律性例如,人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。此类冗余为知识冗余。视觉冗余l事实表明,人类的视觉系统对图像场的敏感性事实表明,人类的视觉系统对图像场

21、的敏感性是非均匀的和非线性的。然而,在记录原始图是非均匀的和非线性的。然而,在记录原始图像数据时,通常假定视觉系统是线性的和均匀像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同等对待,从的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码更多的数据,这就是视觉而产生了比理想编码更多的数据,这就是视觉冗余。冗余。图像区域的相同性冗余l是指在图像中的两个或多个区域所对应的所有是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。储,这就是图像区域的相似性冗余。纹理的统计冗余

22、l有些图像纹理尽管不严格服从某有些图像纹理尽管不严格服从某分布规律,分布规律,但是它在统计的意义上服从该规律。利用这种但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。称之为纹理的统计冗余。哈夫曼(Huffman)编码l其编码思想与其编码思想与Shannon-Fano编码方法基本一致,编码方法基本一致,但构造二叉树的方法则相反,不是自上而下,而是但构造二叉树的方法则相反,不是自上而下,而是自下而上、从树叶到树根生成二叉树。具体编码过自下而上、从树叶到树根生成二叉树。具体编码过程如下:程如下:l将信源符号

23、按概率递减顺序排列;将信源符号按概率递减顺序排列;l把两个最小的概率加起来,作为新符号的概率;把两个最小的概率加起来,作为新符号的概率;l重复步骤(重复步骤(1)和()和(2),直到概率达到),直到概率达到“1”为止;为止;l在每次合并消息时,将被合并的消息赋于在每次合并消息时,将被合并的消息赋于“1”和和“0”或或“0”和和“l”;l寻找从每一信源符号到概率为寻找从每一信源符号到概率为“1”处的路径,记录下路径处的路径,记录下路径上的上的“l”和和“0”;1.对每一符号写出从码树的根到终结点的对每一符号写出从码树的根到终结点的“l”、“0”序列。序列。香农-费诺编码简称为简称为S-F编码,是

24、一种变长编码,其基本思想编码,是一种变长编码,其基本思想是按信源符号出现的概率大小进行排序,出现概是按信源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码。具体编码过率大的分配短码,反之则分配长码。具体编码过程如下:程如下: l信源符号按概率递减顺序排列。信源符号按概率递减顺序排列。l把符号序列分成上下两部分,使上下两部分的概率和相把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等。等或接近相等。l对上部分子序列编码为对上部分子序列编码为“0”,相当于左子树,对下部分,相当于左子树,对下部分子序列编码为子序列编码为“1”,相当于右子树,相当于右子树l重复上述步骤,直到

25、每个子序列只包含一个符号为止。重复上述步骤,直到每个子序列只包含一个符号为止。 算术编码 算术编码也是一种信息熵编码方法,它用算术编码也是一种信息熵编码方法,它用0到到1之间的一个实数对输入的信息进行编码。用到之间的一个实数对输入的信息进行编码。用到两个基本的参数,一是信源符号的概率,二是两个基本的参数,一是信源符号的概率,二是信源符号对应和编码区间。一般的信源符号集信源符号对应和编码区间。一般的信源符号集x可表示为:可表示为:游程编码(RLC)l行程编码(行程编码(RLE)通过统计信源符号中的重复个数,)通过统计信源符号中的重复个数,并以并以格式来编码。适用于压格式来编码。适用于压缩包含大量

26、重复信息的信源。其基本思想是:按行存缩包含大量重复信息的信源。其基本思想是:按行存储一个颜色值和相同色值的像素个数,如下图。储一个颜色值和相同色值的像素个数,如下图。(a) 图像示例(168像素)0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 0 0 0 0 0 0

27、0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0(b) 示例图像的像素值(168像素) 16 0 02 0 11 01 03 0 02 0 01 01 13 0 02 0 01 01 13 0 02 0 01 01 13 0 02 0 11 01 03 0 16 0 16 0(c) RLE编码LZW编码l词典编码主要是利用编码数据本身存在字符串重复特性来实词典编码主要是利用编码数据本身存在字符串重复特性来实现数据压缩的。算法的核心就是如何动态地形成词典,以及现数据压缩的。算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。词典编码又可分

28、为两类:如何选择输出格式以减小冗余。词典编码又可分为两类:l第一类词典编码的思想第一类词典编码的思想是:查找正在压缩的字符序列是否在是:查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,并将指向重复字符串的指针作为输出编码。重复的部分,并将指向重复字符串的指针作为输出编码。指针P指向了重复字符串“abc”,所以,当再次出现相同字符串时,则输出指针P。第二类词典编码l第二类词典编码的思想第二类词典编码的思想是:从输入的数据中创是:从输入的数据中创建一个由短语组成的建一个由短语组成的“编码词典编码词典”,

29、编码数据,编码数据过程中当遇到已经在词典中出现的过程中当遇到已经在词典中出现的“短语短语”时,时,编码器就输出这个词典中短语的编码器就输出这个词典中短语的“索引号索引号”,而不是短语本身,如下图而不是短语本身,如下图:WAV文件格式lWAVWAV是是Microsoft WindowsMicrosoft Windows提供的音频格式。这提供的音频格式。这个格式是目前通用音频格式,它通常用来保存个格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软一些没有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。件和编辑软件都支持这一格式。lWAVWAV文件由三部分组成

30、:文件头文件由三部分组成:文件头( (标明是标明是WAVWAV文文件、文件结构和数据的总字节数件、文件结构和数据的总字节数) )、数字化参、数字化参数数( (如采样频率、声道数、编码算法等如采样频率、声道数、编码算法等) ),最后,最后是实际波形数据。一般来说,声音质量与其是实际波形数据。一般来说,声音质量与其WAVWAV格式的文件大小成正比。格式的文件大小成正比。MP3文件格式uMP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前,一般的音频编码即使以有损方式出现之前,一般的音频编码即使以有损方式进行压缩,能达到进行压缩,能达到4:14:1的压缩比例已经非常不错的压缩比例已经非常不错了。但是,了。但是,MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。u衡量衡量MP3MP3文件的压缩比例通常使用比特率来表示。文件的压缩比例通常使用比特率来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论