已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字媒体基础,数字媒体压缩技术,教学目标:(1)了解数字媒体数据压缩的原因。(2)理解数字媒体数据压缩技术的不同分类。(3)掌握通用的数据压缩编码算法。(4)了解各种数字媒体数据压缩的标准。,学习内容:,1数据压缩及分类2通用的数据压缩技术3数字媒体压缩标准,1.1压缩的可能性与信息冗余,经过数字化处理后的图形、图像、视频和音频等媒体信息的数据量非常大,如果不进行数据压缩,计算机系统就无法对它进行存储、交换和传输。1)数字图像2)数字视频3)数字音频(数据量的计算),1数据压缩及分类,1.1压缩的可能性与信息冗余,数据能够被压缩的主要原因在于媒体数据中存在数据的信息冗余。信息量包含在数据之中,一般的数据冗余主要体现在:1)空间冗余2)结构冗余3)时间冗余4)视觉冗余5)知识冗余6)信息熵冗余,1数据压缩及分类,1.2数据压缩分类,按信息压缩前后比较是否有损失进行划分:,无损压缩指使用压缩后的数据进行重构(还原或解压缩),重构后的数据与原来的数据完全相同。常用的无损压缩算法有霍夫曼(Huffman)算法和LZW算法。也称为可逆编码。有损压缩指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。也称为不可逆编码。,按数据压缩编码的原理和方法进行划分:,统计编码:主要针对无记忆信源,根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间的最优匹配。预测编码:是利用空间中相邻数据的相关性来进行压缩数据的。变换编码:是将图像时域信号转换为频域信号进行处理。分析合成编码:是指通过对源数据的分析,将其分解成一系列更适合于表示的“基元”或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。,无记忆信源,【无记忆信源】(1)存在一个或多个基本符号集;(2)将多个基本符号集做笛卡儿积,形成一定长度的联合概率空间;(3)运用外力的功(电动势)将单个符号或一定长度的符号序列从随机事件转化成必然事件,或者说,将一个随机系统转化成一个必然系统;并且回退到原始空间中来,该原始空间的概率分布不因为事件的发生而改变。【有记忆信源】(1)存在一个或多个基本符号集;(2)将多个基本符号集做笛卡儿积,形成一定长度的联合概率空间;(3)运用外力的功(电动势)将单个符号或一定长度的符号序列从随机事件转化成必然事件,或者说,将一个随机系统转化成一个必然系统;不能回退到原始空间中来,即原始空间的概率分布因为事件的发生而改变。,按照媒体的类型进行压缩划分:,图像压缩标准:JPEG等声音压缩标准:MP3运动图像压缩标准:MPEG、H.26x系列、AVS,目录,2通用的数据压缩技术,行程编码字典编码熵编码等PCMDMDPCM通用的压缩方法具有压缩比低、通用性强等特点,无损压缩技术,有损压缩技术,目录,2.1编码的理论基础,数据压缩技术的理论基础是信息论。根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵。熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。,信息与信息量,信息量是指信源中某种事件的信息度量或含量。一个事件出现的可能性愈小,其信息量愈多,反之亦然。若pi为第i个事件的概率为0pi1,则该事件的信息量为一个信源包括的所有数据叫数据量,而数据量中包含有冗余信息。信息量=数据量-冗余量,信息熵,信息熵就是将信源所有可能事件的信息量的平均。设从N个数中选定任一个数xj的概率为p(xj),假定选定任意一个数的概率都相等,即p(xj)1/N,则I(xj)log2N-log21/N-log2p(xj)=Ip(xj)上式中,p(xj)是信源X发出xj的概率。I(xj)的含义是信源X发出xj这个消息(随机事件)后,接收端收到信息量的量度。,信息熵(续),信源X发出的xj(j=1,2,n)共n个随机事件的信息量的统计平均,即H(X)=EI(xj)=H(X)称为信源X的“熵”,即信源X发出任意一个随机变量的平均信息量。其中,等概率事件的熵最大,假设有N个事件,此时熵为:H(X),信息熵(续),当P(x1)1时,P(x2)P(x3)P(xj)0,此时熵为H(X)P(x1)0由上可得熵的范围为:0H(X),信息熵(续),在编码中用熵值来衡量是否为最佳编码。若以Lc表示编码器输出码字的平均码长,其计算公式为:Lc(j=1,2,n)其中:P(xj)是信源X发出xj的概率,L(xj)为xj的编码长。,信息熵(续),平均码长与信息熵之间的关系为:LcH(X)有冗余,不是最佳。LcH(X)不可能。LcH(X)最佳编码(Lc稍大于H(X))熵值为平均码长Lc的下限。,2.2霍夫曼编码,霍夫曼编码(Huffman)是运用信息熵原理的一种无损编码方法,这种编码方法根据源数据各信号发生的概率进行编码。在源数据中出现概率大的信号,分配的码字越短;出现概率越小的信号,其码字越长,从而达到用尽可能少的码表示源数据。,霍夫曼编码的算法:,初始化,根据符号概率的大小顺序对符号进行排序。把概率最小的两个符号组成一个新符号(节点),即新符号的概率等于这两个符号概率之和。重复第2步,直到形成一个符号为止(树),其概率和等于1。分配码字。码字分配从最后一步开始反向进行,即从最后两个概率开始逐渐向前进行编码,对于每次相加的两个概率,给概率大的赋“0”,概率小的赋“1”(也可以全部相反,如果两个概率相等,则从中任选一个赋“0”,另一个赋“1”)。,霍夫曼编码构造出来的编码值不是唯一的。对不同信号源的编码效率不同。由于编码长度可变,因此译码时间较长;编码长度的不统一,也使得硬件实现有难度。,霍夫曼编码的特点:,2.3行程编码,行程编码又称行程长度编码(RunLengthEncoding,RLE),是一种熵编码。这种编码方法广泛地应用于各种图像格式的数据压缩处理中。行程编码的原理是在给定的图像数据中寻找连续重复的数值,然后用两个字符取代这些连续值。即将具有相同值的连续串用其串长和一个代表值来代替,该连续串就称为行程,串长称为行程长度。,2.3行程编码,假定一幅灰度图像,第n行的像素值为:用RLE编码方法得到的代码为:4160841140。代码斜黑体表示的数字是行程长度,黑体字后面的数字代表像素的颜色值。,行程编码分类:,定长编码定长编码是指编码的行程长度所用的二进制位数固定不定长编码变长行程编码是指对不同范围的行程长度使用不同位数的二进制位数进行编码。使用变长行程编码需要增加标志位来表明所使用的二进制位数。,2.4词典编码,词典编码(dictionaryencoding)技术属于无损压缩技术,主要是利用数据本身包含许多重复的字符串的特性。可以用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。,词典编码的种类:,第一种方法的思想是查找目前正在压缩的字符序列在以前输入的数据中是否出现过,然后用出现过的字符串代替重复的部分,它的输出仅仅是指向早期出现过的字符串“指针”。这里所指的词典是指用以前处理过的数据表示编码过程中遇到的重复部分。这类编码的所有算法都是以LZ77算法为基础的。,词典编码的种类:,第二种算法的思想是从输入的数据中创建一个“短语词典”,这类短语不一定有具体的含义,可以是任意字符的组合。在编码过程中遇到在“短语词典”中出现的短语是,编码器就输出这个词典中的短语“索引号”,而不是短语本身。,2.4.1LZ77算法,LZ77是以以色列计算机专家AbrahamLempel和JakobZiv在1977年开发和发表的。此算法的一个改进算法是由Storer和Szymanski在1982年开发的,称为LZSS算法。LZ77算法在某种意义上又可以称为“滑动窗口压缩”,该算法将一个虚拟的、可以跟随压缩进程滑动的窗口作为词典,要压缩的字符串如果在该窗口中出现,则输出其出现位置和长度。,LZ77算法中涉及的概念,输入字符流(inputstream):要被压缩的字符序列。字符(character):输入数据流中的基本单元。编码位置(codingposition):输入数据流中当前要编码的字符位置,指前向缓冲存储器中的开始字符。前向缓冲存储器(Lookaheadbuffer):存放从编码位置到输入数据流结束的字符序列的存储器。窗口(window):指包含W个字符的窗口,字符是从编码位置开始向后数也就是最后处理的字符数。指针(pointer):指向窗口中的匹配串且含长度的指针。,LZ77算法具体步骤,(1)把编码位置设置到输入数据流的开始位置。(2)找窗口中最长的匹配串(3)以“(Pointer,Length)Characters”的格式输出,其中Pointer是指向窗口中匹配串的指针,Length表示匹配字符的长度,Characters是前向缓冲存储器中的不匹配的第1个符。(4)如果前向缓冲存储器不是空的,则把编码位置和窗口向前移(Length+1)个字符,然后返回到步骤(2)。,2.4.2LZW算法,LZW压缩算法是一种新颖的压缩方法,它采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存贮数字,则不存贮串,从而使图像文件的压缩效率得到较大的提高。LZW编码是围绕称为词典的转换表来完成的。,LZW算法中的术语和符号,前缀(Prefix):在一个字符之前的字符序列。缀-符串(String):前缀字符。码字(Codeword):码字流(Codestream):词典(Dictionary):缀-符串表。当前前缀(Currentprefix):当前字符(Currentcharacter):当前码字(Currentcodeword):,LZW编码算法执行步骤,开始时的词典包含所有可能的根(Root),而当前前缀P是空的;当前字符(C):=字符流中的下一个字符;判断缀-符串P+C是否在词典中1)如果“是”:P:=P+C/(用C扩展P);2)如果“否”:把代表当前前缀P的码字输出到码字流;把缀-符串P+C添加到词典;令P:=C/(现在的P仅包含一个字符C);判断字符流中是否还有字符要编码1)如果“是”,就返回到步骤2;2)如果“否”:把代表当前前缀P的码字输出到码字流;结束。,2.5脉冲编码调制,脉冲编码调制(PCM)就是将模拟调制信号的采样值变换为脉冲码组。PCM编码包括如下三个过程:采样,将模拟信号转换为时间离散的样本脉冲序列。量化,将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。编码,用一定位数的脉冲码组表示量化采样值。,PCM系统原理图,PCM编码的优点,有很强的抗干扰性能方便的利用计算机编程,实现各种智能化设计。,2.6增量调制(DM),增量调制也称调制(DM),它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。,DM波形编码的原理,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象就称为增量调制器的“斜率过载”。在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声。,2.7差分脉冲编码调制,差分脉冲编码调制(DPCM)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差值脉冲编码调制是利用信号的相关性找出可以反映信号变化特征的一个差值量进行编码。,DPCM的基本工作原理,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同处在于,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码。,DPCM的原理图,目录,3数字媒体压缩标准,3.1声音压缩标准MP3是MPEG-1的标准草案中音频编码的Layer3。MP3最大特点是能以较小的比特率、较大压缩比达到近乎完美的CD音质,制作简单,交流方便。MP3压缩编码是一个国际性全开放的编码方案,其编码算法流程大致分为时频映射、心理声学模型、量化编码三大功能模块,这三个功能模块是实现MP3编码的关键。,MP3编码框图,MP4,MP4是MPEG-2AAC(ISO/IEC13818-7)技术(AdvancedAudioCoding)。MP4的特点是音质更加完美而压缩比更大。它增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等MP3没有的特性,使得在音频压缩后仍能完美的再现CD的音质。,3.2图像压缩标准,JPEG是国际标准组织(ISO)和国际电工委员会(IEC)制定出的第一套国际静态图像压缩标准:ISO/IEC109181号标准“多灰度连续色调静态图像压缩编码”俗称为JPEG,以其优异的性能,该标准一直到当前仍被因特网、数码相机等很多领域广泛应用。JPEG包含两种基本的压缩算法:无损压缩算法(基于差分脉冲调制)和有损压缩算法(基于离散余弦变换)。可达到1520的压缩比。,JPEG算法框图,JPEG算法压缩编码步骤,(1)使用正向离散余弦变换(FDCT)把信息从空间域变换成频率域的数据,并利用数据的频率特性进行处理;(2)使用加权函数对DCT系数进行量化,这个加权函数对于人的视觉系统是最佳的;(3)使用霍夫曼可变字长熵编码器对量化系数进行编码。,JPEG压缩编码算法的主要计算步骤,(1)正向离散余弦变换(FDCT)。(2)量化(quantization)。(3)Z字形编码(zigzagscan)。(4)使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码。(5)使用行程长度编码(RLE)对交流系数(AC)进行编码。(6)熵编码(entropycoding)。,JPEG2000,JPEG2000弥补了传统JPEG压缩技术缺陷,有以下优点:高压缩率支持无损压缩和有损压缩渐进传输对感兴趣区域压缩,3.3运动图像压缩标准,1、MPEG标准运动图像专家组MPEG是由国际标准化组织ISO和国际电工委员会IEC联合成立的,负责开发电视图像数据和声音数据的编码、解码和它们的同步标准。这个专家组开发的标准称为MPEG标准。,MPEG-1标准,MPEG-1标准于1993年公布,用于传输1.5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码。该标准包括五个部分,分别为:系统、电视图像、音频、一致性测试和软件模拟。MPEG-1的数据流包含:图像流、伴音流和系统流三种成分。,MPEG-1译码器方框图,图像流包含画面信息,伴音流包含声音信息,系统流实现图像和伴音的同步,所有播放MPEG图像和伴音数据所需的时钟信息都包含在系统流中。,MPEG-2标准,MPEG-2标准包括了系统、电视图像、音频、一致性测试、软件模拟、数字存储媒体命令和控制扩展协议、先进声音编码、编码器实时接口扩展标准、DSM-CC一致性扩展测试等。MPEG-2的主要特点是:1)MPEG-2解码器兼容MPEG-1和MPEG-2标准。2)其视频数据速率为3Mb/s15Mb/s,基本分辨率为720576像素,每秒可播放30帧画面。3)可以301或更低的压缩比提供具有广播级质量的视频图像。4)允许在画面质量、存储容量和带宽之间选择,在一定范围内改变压缩比。,MPEG-2的系统模型,MPEG-4标准,MPEG-4标准于1998年11月公布,是各种音频/视频对象的编码,包括了系统、电视图像、音频、一致性测试和参考软件、传输多媒体集成框架等。MPEG-4为多媒体数据压缩编码提供的是一种格式、一种框架,而不是具体算法,以建立一种更自由的通信与开发环境。MPEG-4的目标是支持多种多媒体的应用,特别是多媒体信息基于内容的检索和访问,可以根据不同的应用需求现场配置解码器。其编码系统也是开放的,可以随时加入新的有效的算法模块。,MPEG-4系统示意图,MPEG-7标准,MPEG-7标准于2001年公布,称为多媒体内容描述接口,包括系统、描述定义语言、电视图像、音频、多媒体描述框架、参考软件以及一致性测试七个部分。MPEG-7标准的目的是产生一个描述多媒体内容的标准,支持对多媒体信息在不同程度层面上的解释和理解,从而使其可以根据用户的需要进行传递和存取。MPEG-7注重的是提供视听信息内容的描述方案,并不包括针对不同应用的特征提取方法和搜索引擎。,MPEG-21标准,MPEG-21基于两个基本概念:分布和处理基本单元(DigitalItem,DI)以及DI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大宗混凝土采购合同范例
- 生产线厂家合同范例
- 唐山职业技术学院《软装设计》2023-2024学年第一学期期末试卷
- 涂料调配服务合同范例
- 唐山学院《化工安全设计》2023-2024学年第一学期期末试卷
- 企业改变用工合同范例
- 现金理财合同范例
- 医用产品售卖合同范例
- 深圳平面设计合同范例
- 燃气供销合同范例
- 农产品质量安全检测机构考核评审细则
- 单肺通气中的麻醉管理
- 装修申请审批表
- 建筑施工安全检查标准jgj59-2023
- GB/T 3098.1-2010紧固件机械性能螺栓、螺钉和螺柱
- GB/T 14857-1993演播室数字电视编码参数规范
- GB/T 14125-2008机械振动与冲击振动与冲击对建筑物内敏感设备影响的测量和评价
- 中国人民大学组织行为管理学
- 高中美术-美术鉴赏《人间生活》
- 核电质量保证-质量体系培训课件
- 脑电图(图谱)课件
评论
0/150
提交评论