多媒体技术及应用(武汉大学)课件.ppt_第1页
多媒体技术及应用(武汉大学)课件.ppt_第2页
多媒体技术及应用(武汉大学)课件.ppt_第3页
多媒体技术及应用(武汉大学)课件.ppt_第4页
多媒体技术及应用(武汉大学)课件.ppt_第5页
已阅读5页,还剩291页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,多媒体技术及应用武汉大学计算机学院吴产乐小组,2,Multimedia:Computing,CommunicationsandApplications.RalfSteinmetz,KlaraNahrstedt1995PrenticeHall,Inc.影印本和中译本:清华大学出版社2000年MultimediaCommunications:ProtocolandApplications.F.Kuo,W.EffelsbergPrenticeHall,Inc.清华大学中译本1998年ComputerNetworks,3rdEdition.A.S.Tanebaum1996PrenticeHall,Inc.清华大学出版社1996(大学计算机教育丛书:影印版)InternetworkingwithTCP/IPVolI:Principles,ProtocolsandArchitecture,3rdEdition.DouglasE.Comer,P-H,清华影印版IP交换技术协议体系结构:IPSwitchingProtocolsandArchitecture.Metz,C.Y等theMcGrawHillCo.,Inc.1999年机械工业出版社中译本,参考书目,3,参考书目,多媒体数字压缩原理与标准:DigitalCompressionforMultimediaPrinciplesandStandards.Gibson,J.D.等MorgomKaufmamnPublishers,Inc.2000年电子工业出版社李煜辉、朱山风、段上为等;多媒体技术教程胡晓峰吴玲达老松杨司光亚编人民邮电出版社2002.1现代通信新技术达新宇主编西安电子科技大学出版社2001年多媒体网络技术与应用鲁士文编著,清华大学出版社2002年多媒体技术(高级)钟玉琢等,清华大学出版社,1999年7月MPLS技术与实现李晓东编著,电子工业出版社,2002年12月,4,参考书目,High-SpeedNetworksandInternets:PerformanceandQualityofService,2ndEditionWilliamStallings,PrenticeHall高速网络与互联网性能与服务质量(第二版)电子工业出版社2003年NetworkManagement:PrinciplesandPractice(影印版)ManiSubramanian,高教出版社,PearsonEducation出版集团2001年移动IP技术孙利民等编著,电子工业出版社,2003年网格计算都志辉、陈渝、刘鹏编著,李三立审,清华大学出版社,2002年,5,多媒体技术与应用内容,多媒体通信技术概述多媒体:媒体与数据流多媒体数据压缩多媒体同步多媒体通信服务质量IntServ和DiffServIPQoSRSVP、MPLS、GMPLS,6,第一章多媒体通信技术概述1.1多媒体通信基础设施,国家信息化基础设施:NII及全球信息化基础设施GII一个由覆盖全国、完整统一的、大容量、高速率的现代化通信网(信息高速公路)和连接在这条公路上的各类信息资源、信息终端以及必要的法律规范所构成的,能使任何人在任何地点、任何时间都可以方便获取和交流信息的现代社会基础结构。五个层次(NII):第一层:传输层以光缆为主体的高速宽带传输网。第二层:网络层在第一层基础上根据不同类型信息交换要求设置的各类交换机、路由器组成的通信网。第三层:信息层连接在通信网上的各类信息源,即提供各类声音、数据、图像等信息资源的各种公用或专用信息库。第四层:应用层通过各种有线或无线接入网存取网络信息库资源的各类信息终端,以及应用这些终端实现的各行各业的信息应用。第五层:管理层管各个层次的,有关通信和信息业的政策、法规以及人才教育的社会环境。,7,1.2多媒体通信的关键特征,1.通信载体多样性信息多维化人类感觉空间:视觉、听觉、触觉、嗅觉和味觉在信息交互方面,计算机等类似设备远未达到人类处理信息的水平。多媒体要把机器处理的信息多样化,95%以上的信息量,8,1.2多媒体通信的关键特征,2.交互性:通信系统中人与系统之间的相互控制能力。终端与系统的交互通信能力。交互式使用、加工和控制多媒体信息的手段。多媒体终端用户对通信全过程有完备的交互控制能力。通过人机接口协议和应用层协议实现。实现真正多点之间、多种媒体信息之间的自由传输与交换。虚拟现实。数据信息知识3.同步性多媒体通信终端上显现的图像、声音和文字是以同步方式工作的。图像数据库、声音数据库、文本数据库中数据按特定关系组合。文字、声音、图像等信息可来自不同的信息源,并可通过不同的传输途径传输而来,但用户终端得到的是完全同步的多媒体信息。同步性是区别多媒体通信与多种媒体通信的重要标志。,9,1.2多媒体通信的关键特征,4.集成性采集、处理、存储、传输和显示多种信息表示媒体。1)多媒体信息媒体的集成:信息的多通道统一获取、统一存储与组织、表现合成。媒体间关系。2)处理多媒体设备设施集成:硬件:高速并行处理系统、大容量存储系统、多通道I/O及设计、宽带接口、多媒体网络;软件:多媒体OS、媒体交换格式、多媒体DBMS、创作用具、应用软件系统。它是集多种Codec、多种显示方式于一体,能与多种传输媒体进行接口,与多种存储媒体进行通信的系统。时间关系、空间关系、链接关系,10,1.3多媒体通信业务,基于群体的通信:多方参与、多条链接、资源和用户可以动态变化。1.3.1交互型业务会话型、电子信函型和检索型1)会话型业务两点或多点之间同时传递语音、图像和文件及高速数据传输。几方预定或即时发生。信息流量可以是双向对称或不对称。文本交谈、可视电话、视频会议,11,1.3多媒体通信业务,2)电子信函型业务包含图像、伴音、混合文件的电子邮件业务消息的存储、转发、处理功能点对点或者点对多点,对称或单向图、文、声信箱及传递3)检索型业务宽带可视图文、高分辨率图像检索、文件/数据检索点对点、点对多点远程教学、医疗、购物、娱乐等,12,1.3多媒体通信业务,1.3.2分配型业务按用户能否进行单独演示控制分类用户不能控制的常规电视、文件传送、高速不受限制数字信息传输广播型电视节目、电子报纸用户不能控制广播信息的起始时间及顺序用户能够进行单独演示控制的全频道广播视频通信:远程教学、新闻检索、节目点播点播型业务:用户可控制节目播放的起停和顺序,13,1.4多媒体通信的应用,1.4.1办公自动化:虚拟办公室交流、处理信息不同的地点1.4.2服务行业远程教育:电子学习或e-Learning(数字化学习)远程医疗:异地会诊、医疗信息库查询财政金融1.4.3科研和工程CAD(ComputerAidedDesign)CIMS(计算机集成制造系统),14,1.4多媒体通信的应用,1.4.4家庭新闻、教育、保健、医疗、体育休闲、消费、理财、管理等机顶盒、家庭媒体网关(硬件平台、1394接口、接入网插件、嵌入式OS、设备驱动程序、中间件系统、应用软件等)1.4.5其它领域军事和保安:指挥、调度、会议与现场检测交通管理:智能交通系统ITS保险业:房地产:,15,1.5多媒体通信的关键技术,多媒体通信终端技术、网络技术、应用系统技术1.5.1信号处理与识别技术纠错编码技术调制解调技术数字滤波技术信息安全与防护技术1.5.2多媒体数据压缩编码技术视频信息:不压缩140Mb/sH.261H.263HDTV信息:不压缩1Gb/sJPEG语音信号:不压缩64Mb/sMPEG-1,2,4,7,21;,16,1.5多媒体通信的关键技术,1.5.3宽带网络技术压缩后的多媒体数据率仍然很高HDTV20Mb/s不失真传输,带宽20MHz1.多媒体通信网高速宽带QoS保证和资源管理同步安全组播分布处理:CSCW(ComputerSupportedCooperativeWork)LAN、MAN、WAN、BackboneNetworksATM(B-ISDN)、IP网,17,1.5多媒体通信的关键技术,2.接入网全光网、无源光网、FTTHxDSL无线接入网3.下一代互联网1)NGI:白宫下一代Internet倡议2)VBNS:美国NSF的超高带宽网络服务3)Internet2:美国高校、企业、政府合作的Internet2,18,1.5多媒体通信的关键技术,4)Grid、ACI、ISG等:美国Argonne国家实验室GlobusToolkitRelease3.x资源共享基础设施:计算、存储、通信、信息、软件、知识,SLA(服务等级协定),单一映象、一体化服务P/G:Pervasive/Grid的GGG(GreatGlobeGrid)将取代B/S的WWW标准化在2004-2005年,主导2005-2020年IT大发展,2015-2020年创造20万亿美元的大工业美国科学基金会NPACI和NCSA、宇航总署IPG、能源部ASCIDISCOM、欧盟DataGrid、日本GCIIBM、SUN、HP、Intel、MS等大公司的GRID方案中科院Vega网络和清华ACI系统,19,第二章多媒体:媒体和数据流,媒体(Media)多媒体系统的主要属性多媒体系统的定义传统数据流特性连续媒体数据流特性计算机中的常见媒体多媒体的综合特性,20,2.1媒体(Media),媒体的定义承载信息的载体信息发布和表示的形式媒体的分类媒体可用不同标准分类,现用感知、表示、表现、存储、传输和信息交换对其进行分类表示值和表示空间(RepresentationValues采样点颜色之间的空间连贯性:区域中各点光强、色彩、饱和度同;离散像素采样表示颜色没有利用这种空间连贯性;改变颜色的像素存储方式,利用空间连贯性,减少数据量.2.时间冗余序列图像(电视、运动图像)表示常包含的冗余;相邻帧记录了相邻时刻的同一场景画面,移动物位置稍不同.,3.1.2多媒体数据压缩的可能性,3.1.2多媒体数据压缩的可能性3.结构冗余图像纹理区的像素值存在着分布模式:如方格状地板图案;已知分布模式,可通过某一过程生成图像.4.知识冗余有些图像的理解与某些知识有相当大的相关性,如人脸的图像有固定结构;规律性结构可由先验知识和背景知识获得知识冗余;由已有知识,对图像中物体构造其基本模型,创建对应各种特征的图像库:存储时只需保存图像的一些特征参数;知识冗余是模型编码主要利用的特征.,3.1.2多媒体数据压缩的可能性,5.视觉冗余(1).人类视觉系统对图像场的敏感性是非均匀的和非线性的;(2).记录图像时假定视觉系统是均匀和线性的,对不同敏感区同样对待,产生了视觉冗余.应对不同敏感部分分开编码;(3).视觉的非均匀性.视觉系统对图像的亮度和色彩度的敏感性相差很大,RGBNTSC的yIQ后发现,视觉系统的亮度y的敏感度远高于色度(I,Q)的敏感度可对IQ允许误差大于y的允许误差;亮度增加时,视觉系统对量化误差的敏感度降低,人眼辨别能力与物体周围的背景亮度成反比.在高亮度区,灰度值的量化可粗糙一些;,3.1.2多媒体数据压缩的可能性,人眼的视觉系统能把图像的边缘和非边缘区域分开处理边缘区和非边缘区分别编码的依据;人眼的视觉系统是把视网膜上的图像分解成若干个空间有向的视频通道后再进行处理编码时把图像分解成符合这一规律(视觉内在特性)的频率通道,可获大的压缩比;小波编码的特性.6.图像区域的相同性冗余图像中多个区域所对应的像素值相同或者相近,产生重复性存储;向量量化(Vectorquantization)是针对这种冗余的压缩编码方法.7.纹理的统计冗余某些图像纹理在统计意义上服从某些分布规律;利用分布规律减少图像数据量.,3.1.3多媒体数据压缩编码方法,基于重要性,矢量量化,滤波,子采样,混合编码,H.261,JPEG,MPEG,图3-1多媒体数据压缩编码方法,3.1.3压缩编码方法-PCM,1.脉码调制PCM(PulseCodeModulation)连续模拟信号的数字采样表示;Nyquist采样速率:c=2Hlog2L(b/s)Shannon公式:c=2Hlog2(1+S/N)(b/s);N级量化器,N=2b,每个采样用b位代码表示;PCM的编码/解码器(codec)是图像编码系统的起/终点,即A/DC和D/AC;其他编码方法是在模拟信号经PCM编码后的压缩编码方法.,3.1.3压缩编码方法-预测编码,2.预测编码DPCM(differentialpulsecodemodulation)和ADPCM(自适应DPCM)编码器存储和传输的是样本值与预测值之差预测误差编码;预测值由欲编码信号的过去信息决定;线性预测,比例系数由统计特性估计;预测可在相邻像素值之间,也可以在行之间;空间相关性使差值变化范围小于真值范围,用较少位数表示;利用人的视觉特性对差值进行非均匀量化,从而提高压缩比;对差值编码时进行了量化,这是一种有损编码.,3.1.3压缩编码方法-变换编码,3.变换编码利用图像块内像素值之间的相关性,把图像变换到一组新的基上,使能量集中到少数几个变换系数上.通过存储这些系数达到压缩的目的.如时域频域(声音、图像时低频信号).分布集中,进行采样编码,压缩数据;把整幅图分成许多矩形子图独立进行变换,变换域采样和量化;最优-KTL(Karhunen-LoeveTransform):消除相关性最有效,计算量大,无快速算法,在均方差最小意义下导出的最优变换,其基向量是输入向量协方差矩阵的特征向量;次优-DCT(DiscreteConsineTransform):与KTL类似,有快速算法,对固定(像素)块进行变换成DCT系数,空间频率为0的系数为直流分量,是所有像素的平均值,其余63个系数为交流系数,多数情况下高频系数为0或趋近于0.变换时将输入信号和DCT正交矩阵相乘完成DCT变换准最佳变换-DFT(DiscreteFourierTransform):近似最佳,但是运算次数多,需要复数运算.保留FFT在DFT中取实数部分进行DCT快速运算;WHT(Walsh-HadamardTransform);,3.1.3压缩编码方法-统计编码,4.统计编码Huffman编码出现频率大的符号用较少的位数表示,出现频率小的符号用较多位数表示;编码效率取决于编码符号出现的概率分布,越集中压缩比越高;各码字长度严格按照所对应符号出现概率的大小逆序排列.算术编码每一符号对应0,1)上一子区间,区间长度为该符号出现的频率,把编码的符号串(数值串)表示成实数0到1之间的一区间.初值为整个区间0,1),出现新的编码符号,先把完整的0,1)区间映射到上一次形成的区间,然后新区间取为0,1)上新符号对应区间所映成的像.可方便使用自适应编码,根据当前接收的数据不断更改概率模型;不需要传送像哈夫曼编码的表;信号源概率比较接近时,算术编码比哈夫曼编码效率高;,哈夫曼(Huffman)编码(一),香农的信息保持编码指出一种无失真的编码,使得编码平均码长逼近熵值这个下限,但无具体的编码方法;Huffman编码常用作这种熵保持编码,是最佳的,其他还有Shannon编码和Fano编码;变字长编码的最佳编码定理:在变字长码中,对于出现概率大的信息符号编以短字长的码,对于出现概率小的信息编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任何其他符号顺序排列方式得到的码字长度.最佳排列方式的码字平均长度:;规定P(ai)P(as),ninsni是ai的码长p(ai)是信源符号ai出现的概率,哈夫曼(Huffman)编码(二),Huffman编码的步骤:(1)概率统计,得到几个不同概率的信息符号;(2)按概率排序n个信息符号;(3)n个概率中,最小的两概率相加,概率为n-1个;(4)n-1个概率重新排序;(5)重复步骤(3)、(4);(6)重复n-2次,最后得到2个概率序列;(7)以二进制码元(0,1)赋字构成哈夫曼码字.Haffuman码字长度与信息符号出现的概率大小次序相反.,哈夫曼(Huffman)编码(三),Haffuman编码过程输入输入第1步第2步第3步第4步第5步信息符号概率2x1000.350.350.350.350.400.602x200.250.350.403x3000.200.253x4050.203x5104x611100.060.104x711110.041945年Shannon提出把熵H定义为:从一个随机变量中得到的平均信息量.上述过程中平均码长=(0.35+0.2)2+(0.15+0.10+0.10)3+(0.06+0.04)4=2.55bits/pel,哈夫曼(Huffman)编码(四),熵:=0.35log20.35+0.20log20.20+0.15log20.15+2*0.10log20.10+0.06log20.06+0.04log20.04=2.13bits/pel特点H(熵);(entroy)1就是SBC;当M大到等于块内的样本数,即每一子带只由一个样本(一根谱线)组成时,SBC便成为变换编码(DFT).从这个观点上看,预测编码和变换编码只不过是子带编码的两个特例.,3.2多媒体数据压缩编码的国际标准,国际标准:(视频)国际标准化组织ISO和CCITT(ITU-T)联合组成专家组JPEG(JointPhotographicExpertsGroup)JBIG(JointBilevelImageGroup)国际电子学委员会IEC和ISO组成的ISO/IECMPEG(MotionPictureExpertsGroup)国际电信联盟(ITU-T):H.261,G3,G4,3.2.1静态图像压缩编码国际标准-JPEG,JPEG-联合图像专家组:CCITT与ISO联合组成专家组;JPEG算法:连续色调,多级灰度,静态图像的数字图像压缩编码方法(彩色、灰度、静止图像)应用:a.静态图像压缩;b.电视图像序列的帧内图像压缩目的:a.达到或接近当前压缩比与图像保真度的技术水平;b.能适用于任何种类的连续色调的图像;长宽、内容、复杂度、统计特性时不受限的;c.计算复杂性是可控制的:软件可完成,硬件实现算法.,3.2.1静态图像压缩编码国际标准-JPEG,操作方式:a.顺序编码:上下、左右一次扫描完成编码(每一图像分量);b.累进编码:多次扫描,由粗糙到清晰的累进过程;按频段累进,按位累进;c.无损编码:解码后精确恢复源图像采样值,压缩比低;d.分层编码:原始图像空间分辨率进行变换,使水平与垂直方向分辨率以2的倍数因子下降.图像在多个空间分辨率进行编码,用JPEG进行.在信道慢,接收显示分辨率不高时,只需做低分辨率图像解码,用插值方法恢复图像分辨率,把分辨率已升高的图像作为原图像的预测值,并把它与原图像的差值采用基于DCT的编码.重复上述步骤,可以达到完整的分辨率编码.,3.2.1静态图像压缩编码国际标准-JPEG,1.JPEG的无损预测编码算法图3-1是JPEG的无失真预测编码的框图,预测编码具有硬件实现容易、重建图像质量好的优点,在此采用的是可以完全恢复的技术.无损压缩不使用DCT方法,而是采用一个简单的预测器.预测器可以采用不同的预测方法,不同的预测方法将决定有那些相邻的像素将被用于预测下一个像素.常用的预测方法如三领域预测法.JPEG的无失真预测编码对于中等复杂程度的彩色图像,可以达到大约2:1的压缩比.,3.2.1静态图像压缩编码国际标准-JPEG,2.JPEG的基于DCT的有损编码算法,88DCT正变换,块准备,熵解码器,88DCT逆变换,恢复块,源图像数据,编码器,压缩的图像数据,解码器,恢复的图像数据,图3-3基于DCT的有损JPEG编解码过程,样值,DCT系数,量化DCT系数,量化DCT系数,反量化DCT系数,离散余弦变换DCT:88大小子块的二维DCT块准备将一帧图像分成88的数据块(三种分量:光亮度Y和两个色差U和V,图像大小为480行,每一行有640个像素.色度分解为4:1:1,则亮度分量就是一个640480的数值矩阵,色差分量是一个320240的矩阵,为了满足DCT过程的要求,块准备必须划分出4800个亮度块和两分1200个色差块共7200个数据块);采样精度为p位无符号整数,采样数据在0,2p-1内,则变成在-2p-1,2p-1-1有符号整数内,以此作为DCT正变换的输入;FDCT解码器输出端经IDCT逆变换后等到一系列88的图像数据块,需将其数值范围由-2p-1,2p-1-1有符号整数变回到0,2p-1无符号整数范围内,才能获得重构图像.,3.2.1静态图像压缩编码国际标准-JPEG,二维88DCT正变换:二维88DCT逆变换:其中,C(u)=C(v)=,当u,v=0C(u)=C(v)=1,其他FDCT具有可分离的变换特性:行向一维DCT计算列向一维DCT计算2维快速余弦变换(2-FDCT)把88块不断快速分成更小的无交迭子块,直接对数据块进行运算.,3.2.1静态图像压缩编码国际标准-JPEG,量化对DCT系数F(u,v)进行量化处理压缩数据;量化是多对一的映射DCT编解码信息损失的根源;JPEG采用线性均匀量化器;64个DCT系数除以量化步长,四舍五入取整,FQ(u,v)=IntegerRoundF(u,v)/Q(u,v)量化表量化器步长Q(u,v)是量化表元素,随DCT系数的位置和彩色分量的不同有不同的值.量化表的大小是88与64个变换系数一一对应,用户规定,JPEG给了参考值;元素值为1255之间任意整数,变换系数与量化表元素一起作为编码器的输入.,3.2.1静态图像压缩编码国际标准-JPEG,逆量化逆量化表达式为:FQ(u,v)=FQ(u,v)Q(u,v)量化作用在一定的主观保真度图像质量前提下丢掉对视觉影响不大的数据;不同频率的余弦函数对视觉影响不同,可根据不同频率的视觉阈值选择量化表的元素大小;JPEG已作此工作。根据心理视觉加权函数可得出亮度、色度分量量化矩阵;亮度量化表(88),色度量化表(88),JPEG给出了参考值;DCT变换系数F(u,v)除以表中对应量化步长,幅值下降,高频系数零值数目增加.,3.2.1静态图像压缩编码国际标准-JPEG,DC系数编码和AC系数的游程编码DC系数编码坐标u=v=0的DC系数是直流分量,是64个空域图像采样值的平均值,其余63个均为AC分量,量化后通常出现较多的零值;相邻88块之间DC系数有较强的相关性;JPEG中DC系数采用差分脉冲DPCM,差值DIFF=DCj-DCj-1编码,图3-4DC系数差分编码,3.2.1静态图像压缩编码国际标准-JPEG,AC系数编码从AC01开始,沿对角线方向,以”Z”字形游程扫描至AC77结束,可增加游程中连续0的个数,非零值系数集中在前部,零值在尾部;量化后的AC系数会有许多零值;63个AC系数游程编码的码字由2个字节表示:Byte1:76543210NNNNSSSS2个非零值间连下一个非零值续0的个数要的比特数Byte2:下一个非零值的实际值,图3-5“Z”字形排列,3.2.1静态图像压缩编码国际标准-JPEG,熵编码对DC码和AC游程编码的码字作基于统计特性的熵编码;JPEG建议的两种方法:哈夫曼编码和自适应二进制算术编码;熵编码分两步:DC码/AC码中间符号序列赋以变长码字(1)熵编码的中间格式符号1(游程、尺寸)游程指连续0个数/尺寸指AC系数幅值编码的比特数;符号2(幅值)-210,210-1符号1(尺寸)高4位为0,DC差值的幅值编码所需的比特数;符号2(幅值)DC差值的幅值,范围-211,211-1,AC,DC,3.2.1静态图像压缩编码国际标准-JPEG,(2)可变长度熵编码将系数表示成符号1和符号2的序列,对其进行编码,零游程长度超过15,有多个符号1,块结束(EOB)用符号1(0,0)表示;DC和AC系数中符号1用哈夫曼表中变长码VLC编码,哈夫曼变长码表作为JPEG编码器的输入,但数据流中哈夫曼表的表示格式是间接说明,在解码时利用这间接说明重构真正的哈夫曼表.符号2用的码字长度,用变长整数VLI码编码,VLI的码字固化在JPEG中.VLI是变长码但不是哈夫曼码,VLI的长度存放在VLC中.,3.2.1静态图像压缩编码国际标准-JPEG,基本Huffman编码符号1的结构表交流系数AC的亮度分量典型的Huffman表,3.2.1静态图像压缩编码国际标准-JPEG,基本熵编码符号2结构亮度DC系数表,3.2.1静态图像压缩编码国际标准-JPEG,色度DC系数表,3.2.1静态图像压缩编码国际标准-JPEG,压缩比和图像质量基于DCT的JPEG压缩算法,对中等复杂程度的彩色图像压缩比与恢复图像的质量列表:亮度子块JPEG编码示例亮度子块按”Z”序列排列的系数:K:012345678930313263系数:125-20200010-10,3.2.1静态图像压缩编码国际标准-JPEG,DC系数12在(15-8,8-15)范围内,查表Size=4,分类4再查表,码字长3,码字为101.120,4位附加位1100,ZZ(0)=12的编码为1011100;ZZ(1)=5,与ZZ(0)之无0系数,NNNN=0;系数5在(7-4,4-7)范围,查表Size=3,SSSS=3,NNNN/SSSS=0/3哈夫曼码查表亮度AC系数编码为100,ZZ(1)=5的编码为100101;ZZ(2)=2,在(3,2,2,3)范围,NNNN/SSSS=0/2,查表为”01”,ZZ(2)-1=-3,其码字低位二进制为01,ZZ(2)=-2,编码为0101;ZZ(k)中非零值的实际值的编码规则如下:若ZZ(k)0,附加位为ZZ(k)的最低B位;若ZZ(k)15,选择F/0,码字为11111111001,NNNN=22-16=6H(熵);(entroy)1就是SBC;当M大到等于块内的样本数,即每一子带只由一个样本(一根谱线)组成时,SBC便成为变换编码(DFT).从这个观点上看,预测编码和变换编码只不过是子带编码的两个特例.,3.2多媒体数据压缩编码的国际标准,国际标准:(视频)国际标准化组织ISO和CCITT(ITU-T)联合组成专家组JPEG(JointPhotographicExpertsGroup)JBIG(JointBilevelImageGroup)国际电子学委员会IEC和ISO组成的ISO/IECMPEG(MotionPictureExpertsGroup)国际电信联盟(ITU-T):H.261,G3,G4,3.2.1静态图像压缩编码国际标准-JPEG,JPEG-联合图像专家组:CCITT与ISO联合组成专家组;JPEG算法:连续色调,多级灰度,静态图像的数字图像压缩编码方法(彩色、灰度、静止图像)应用:a.静态图像压缩;b.电视图像序列的帧内图像压缩目的:a.达到或接近当前压缩比与图像保真度的技术水平;b.能适用于任何种类的连续色调的图像;长宽、内容、复杂度、统计特性时不受限的;c.计算复杂性是可控制的:软件可完成,硬件实现算法.,3.2.1静态图像压缩编码国际标准-JPEG,操作方式:a.顺序编码:上下、左右一次扫描完成编码(每一图像分量);b.累进编码:多次扫描,由粗糙到清晰的累进过程;按频段累进,按位累进;c.无损编码:解码后精确恢复源图像采样值,压缩比低;d.分层编码:原始图像空间分辨率进行变换,使水平与垂直方向分辨率以2的倍数因子下降.图像在多个空间分辨率进行编码,用JPEG进行.在信道慢,接收显示分辨率不高时,只需做低分辨率图像解码,用插值方法恢复图像分辨率,把分辨率已升高的图像作为原图像的预测值,并把它与原图像的差值采用基于DCT的编码.重复上述步骤,可以达到完整的分辨率编码.,3.2.1静态图像压缩编码国际标准-JPEG,1.JPEG的无损预测编码算法图3-1是JPEG的无失真预测编码的框图,预测编码具有硬件实现容易、重建图像质量好的优点,在此采用的是可以完全恢复的技术.无损压缩不使用DCT方法,而是采用一个简单的预测器.预测器可以采用不同的预测方法,不同的预测方法将决定有那些相邻的像素将被用于预测下一个像素.常用的预测方法如三领域预测法.JPEG的无失真预测编码对于中等复杂程度的彩色图像,可以达到大约2:1的压缩比.,3.2.1静态图像压缩编码国际标准-JPEG,2.JPEG的基于DCT的有损编码算法,88DCT正变换,块准备,熵解码器,88DCT逆变换,恢复块,源图像数据,编码器,压缩的图像数据,解码器,恢复的图像数据,图3-3基于DCT的有损JPEG编解码过程,样值,DCT系数,量化DCT系数,量化DCT系数,反量化DCT系数,离散余弦变换DCT:88大小子块的二维DCT块准备将一帧图像分成88的数据块(三种分量:光亮度Y和两个色差U和V,图像大小为480行,每一行有640个像素.色度分解为4:1:1,则亮度分量就是一个640480的数值矩阵,色差分量是一个320240的矩阵,为了满足DCT过程的要求,块准备必须划分出4800个亮度块和两分1200个色差块共7200个数据块);采样精度为p位无符号整数,采样数据在0,2p-1内,则变成在-2p-1,2p-1-1有符号整数内,以此作为DCT正变换的输入;FDCT解码器输出端经IDCT逆变换后等到一系列88的图像数据块,需将其数值范围由-2p-1,2p-1-1有符号整数变回到0,2p-1无符号整数范围内,才能获得重构图像.,3.2.1静态图像压缩编码国际标准-JPEG,二维88DCT正变换:二维88DCT逆变换:其中,C(u)=C(v)=,当u,v=0C(u)=C(v)=1,其他FDCT具有可分离的变换特性:行向一维DCT计算列向一维DCT计算2维快速余弦变换(2-FDCT)把88块不断快速分成更小的无交迭子块,直接对数据块进行运算.,3.2.1静态图像压缩编码国际标准-JPEG,量化对DCT系数F(u,v)进行量化处理压缩数据;量化是多对一的映射DCT编解码信息损失的根源;JPEG采用线性均匀量化器;64个DCT系数除以量化步长,四舍五入取整,FQ(u,v)=IntegerRoundF(u,v)/Q(u,v)量化表量化器步长Q(u,v)是量化表元素,随DCT系数的位置和彩色分量的不同有不同的值.量化表的大小是88与64个变换系数一一对应,用户规定,JPEG给了参考值;元素值为1255之间任意整数,变换系数与量化表元素一起作为编码器的输入.,3.2.1静态图像压缩编码国际标准-JPEG,逆量化逆量化表达式为:FQ(u,v)=FQ(u,v)Q(u,v)量化作用在一定的主观保真度图像质量前提下丢掉对视觉影响不大的数据;不同频率的余弦函数对视觉影响不同,可根据不同频率的视觉阈值选择量化表的元素大小;JPEG已作此工作。根据心理视觉加权函数可得出亮度、色度分量量化矩阵;亮度量化表(88),色度量化表(88),JPEG给出了参考值;DCT变换系数F(u,v)除以表中对应量化步长,幅值下降,高频系数零值数目增加.,3.2.1静态图像压缩编码国际标准-JPEG,DC系数编码和AC系数的游程编码DC系数编码坐标u=v=0的DC系数是直流分量,是64个空域图像采样值的平均值,其余63个均为AC分量,量化后通常出现较多的零值;相邻88块之间DC系数有较强的相关性;JPEG中DC系数采用差分脉冲DPCM,差值DIFF=DCj-DCj-1编码,图3-4DC系数差分编码,3.2.1静态图像压缩编码国际标准-JPEG,AC系数编码从AC01开始,沿对角线方向,以”Z”字形游程扫描至AC77结束,可增加游程中连续0的个数,非零值系数集中在前部,零值在尾部;量化后的AC系数会有许多零值;63个AC系数游程编码的码字由2个字节表示:Byte1:76543210NNNNSSSS2个非零值间连下一个非零值续0的个数要的比特数Byte2:下一个非零值的实际值,图3-5“Z”字形排列,3.2.1静态图像压缩编码国际标准-JPEG,熵编码对DC码和AC游程编码的码字作基于统计特性的熵编码;JPEG建议的两种方法:哈夫曼编码和自适应二进制算术编码;熵编码分两步:DC码/AC码中间符号序列赋以变长码字(1)熵编码的中间格式符号1(游程、尺寸)游程指连续0个数/尺寸指AC系数幅值编码的比特数;符号2(幅值)-210,210-1符号1(尺寸)高4位为0,DC差值的幅值编码所需的比特数;符号2(幅值)DC差值的幅值,范围-211,211-1,AC,DC,3.2.1静态图像压缩编码国际标准-JPEG,(2)可变长度熵编码将系数表示成符号1和符号2的序列,对其进行编码,零游程长度超过15,有多个符号1,块结束(EOB)用符号1(0,0)表示;DC和AC系数中符号1用哈夫曼表中变长码VLC编码,哈夫曼变长码表作为JPEG编码器的输入,但数据流中哈夫曼表的表示格式是间接说明,在解码时利用这间接说明重构真正的哈夫曼表.符号2用的码字长度,用变长整数VLI码编码,VLI的码字固化在JPEG中.VLI是变长码但不是哈夫曼码,VLI的长度存放在VLC中.,3.2.1静态图像压缩编码国际标准-JPEG,基本Huffman编码符号1的结构表交流系数AC的亮度分量典型的Huffman表,3.2.1静态图像压缩编码国际标准-JPEG,基本熵编码符号2结构亮度DC系数表,3.2.1静态图像压缩编码国际标准-JPEG,色度DC系数表,3.2.1静态图像压缩编码国际标准-JPEG,压缩比和图像质量基于DCT的JPEG压缩算法,对中等复杂程度的彩色图像压缩比与恢复图像的质量列表:亮度子块JPEG编码示例亮度子块按”Z”序列排列的系数:K:012345678930313263系数:125-20200010-10,3.2.1静态图像压缩编码国际标准-JPEG,DC系数12在(15-8,8-15)范围内,查表Size=4,分类4再查表,码字长3,码字为101.120,4位附加位1100,ZZ(0)=12的编码为1011100;ZZ(1)=5,与ZZ(0)之无0系数,NNNN=0;系数5在(7-4,4-7)范围,查表Size=3,SSSS=3,NNNN/SSSS=0/3哈夫曼码查表亮度AC系数编码为100,ZZ(1)=5的编码为100101;ZZ(2)=2,在(3,2,2,3)范围,NNNN/SSSS=0/2,查表为”01”,ZZ(2)-1=-3,其码字低位二进制为01,ZZ(2)=-2,编码为0101;ZZ(k)中非零值的实际值的编码规则如下:若ZZ(k)0,附加位为ZZ(k)的最低B位;若ZZ(k)15,选择F/0,码字为11111111001,NNNN=22-16=615,NNNN/SSSS=6/1,查表为1111011,而-1-1=-2的编码为”0”,ZZ(9)ZZ(31)编码为11111111001+11110110;ZZ(32)ZZ(63)=0,ZZ(63)=0,直接用”EOB(0/0)”结束本块,其编码为1010.子块编码位流:1011100+100101+0101+1101110+1110101+11111111001+11110110+1010共54bits;原始图像子块:888=512bits压缩比512:54=9.48:1,3.2.1静态图像压缩编码国际标准-JPEG,JPEG2000-ISO15444新一代彩色静态图像编码方式:1998开始,2000.3算法确定;2000.12标准出台,内容主要包括以下6个部分:JPEG2000图像编码系统(核心部分);应用扩展(在核心上扩展更多特性);运动JPEG2000;兼容性(包容性和继承性);参考软件(目前主要为Java和C程序);复合图像文件格式(如传真式服务等).,静态图像编码JPEG2000(一),JPEG2000的算法JPEG:DCT算法为主的区块编码方式(经典谱分析工具);考察整个时域过程的频域特征或整个频域过程的时域特征,对于非平稳过程,效率不高.JPEG2000:DWT(DiscreteWaveletTransform,现代谱分析工具)对于时域或频域的考察都采用局部方式:子波在信号分析中对高频成分采用由粗到细渐进的时空域上的取样间隔,象自动调焦一样,并放大任意细节,是构造图像多分辨率的有力工具;对于非平稳过程十分有效.对彩色静态画面采用JPEG;对2值图像采用JBIG(JointBinaryImageGroup)编码;低压缩率采用JPEGLS编码;,静态图像编码JPEG2000(二),JPEG2000的特点高压缩率:比JPEG高20%-40%;压缩后图像细腻平滑;下载快,等待时间少,比JPEG快30%;无损压缩:预测法引进继承,既支持无损压缩,也可支持有损压缩;渐进传输:JPEG是按块传输下载,只能逐行显示;JPEG2000渐进传输,先轮廓数据后逐步加入像素;感兴趣区域压缩:ROI(RegionofInterest);子波在空域和频域上有局域性;兴趣区域用低压缩比获得好图像效果;交互式压缩色彩模式:JPEG:RGB;JPEG2000:256个通道信息,可用单一文件格式来描述另一色彩模式如CMYK模式;ICC,sRGB等图像处理简单:基于web方式多用途图像简单化,用户可以自由地缩放、平移、剪切,使用户能得到他们所需要的分辨率和细节.为JPEG文件加密版权信息:加密版权在图像处理过程中不损失,比水印技术更先进.JPEG2000考虑了人的视觉特性,增加了视觉权重和掩模,在不损害视觉效果情况下可大大提高压缩比率.,3.2.2运动图像压缩编码国际标准-MPEG,ISO/IEC的MPEG(运动图像专家组)1988,1990提出MPEG标准草案;1991年底,ISO/IEC11172号建议:数字存储媒体的位率约1.5Mbps的运动图像及其伴音的压缩编码方案;1992年,正式通过11172号建议,成为MPEG-1:1.5Mbps,TV质量,亮度分辨率360 x240,色度分辨率180 x120,30F/s;1993.11,汉城会议(ISO/IECJTIC/SC29/WG11)ISO/IEC13813号建议成为MPEG-2;1995.111998.11MPEG-4;1998.112000.11MPEG-7;MPEG-11多媒体框架(MultimediaFramework),将标准集成起来支持和谐的技术,以管理多媒体商务.,3.2.2MPEG-1标准(一),1.MPEG-1运动图像的数据压缩技术:帧内压缩和帧间压缩;帧内图像数据压缩:减少空域冗余信息;算法与JPEG算法大致相同:DCT变换编码技术;帧间图像数据压缩:减少时间轴方向的冗余信息,1616子块的运动补偿算法:运动补偿预测法:因果预测器运动补偿插补法:非因果预测器(预测误差都经DCT编码,进一步减少数据量),3.2.2MPEG-1标准(二),(1)时域冗余量减少MPEG要求对V(Video)信号做随机存取,对帧间运动补偿压缩数据位;MPEG的三类图像:帧内图(Intrapictures,I):随机存取的位置,压缩比不大;预测帧(Predetectedpictures,P):用先前帧,I或P,本身参考预测;插补帧即双向预测(BidirectionalPredictionPictures,B):压缩效果显著,预测时,需要先前和后续的信息.B不能作其他帧的预测参考帧.典型的三种帧序列:IBBBPBBBI;IBBPBBPBBI(PALIBBPBBPBBPBBI(NTSC),1,2,3,4,5,6,7,8,1,I,B,B,B,P,B,B,B,I,双向预测,前向预测,图3-6典型的帧序列,3.2.2MPEG-1标准(三),(1)时域冗余量减少宏块运动补偿方法减少帧序列冗余信息(时域),采用1616宏块的运动补偿;基于1616宏块的算法:每个宏块作为一个2维运动矢量处理,宏块作为预测单元,当前宏块是先前宏块的位移,位移内容包括运动方向和运动幅度.利用位移信息和先前的图像,可预测当前图像.1616的运动矢量块是预测误差,要编码,传送,供解码的恢复图像用;只对预测误差作有条件的传送;运动补偿有因果预测和非因果预测(双向预测编码、插补编码);运动补偿插补编码:基于时间轴上的多分辨率技术,可以以1/10s或者1/15s的时间间隔取出参考子图,然后对两个参考子图之间的图像,按运动规律得到1/30s时间间隔的各个插补子图;对时间轴(帧序列)方向低分辨率的子信号进行编码;对10F/S或15F/S低分辨率图像编码,作图像插值和附加运动校正:把校正信息加到前向和后向参考图像组合成高分辨率的图像信号30F/S;,3.2.2MPEG-1标准(四),电视图像帧序列参考帧:I,P;B不能作参考帧;插补帧:B;B的频度可选,B增加会减少B与参考帧的相关性;B与编码图像景物的依赖性:参考帧以0.1s间隔视频帧图序列例子:帧编码器输出帧图顺序、帧解码器输人帧图顺序、帧图传输顺序帧编码器输入帧图顺序帧解码器输出帧图顺序视频序列帧图显示顺序(2)运动表示(3)运动估算,3.2.2MPEG-1标准(五),(2)空域冗余量减少帧内图像与预测图像误差有很高的空域冗余信息;优先采用基于块的技术:(i)变换编码:DCT、视觉加权标量量化、游程编码和熵编码;(ii)矢量量化编码:静止图像采用等宽量化,而对运动信息量化器设计需作特殊考虑;DCT变换编码三个阶段:DCT;变换系数量化(量化,Z字扫描,游程编码)使大部分数据得以压缩,要求通过量化器,编码器使之输出一个与信道传输速率匹配的比特流;熵编码;,3.2.2MPEG-1标准(六),MPEG中,不仅帧内使用DCT,且对帧间预测误差也作DCT进一步压缩.DCT88块的图像采样数据预测误差数据DCT系数量化量化器结合游程编码压缩数据和与给定位速率匹配;自适应量化:JPEG帧内图的DCT编码;H.261(CCITT)宏块预测误差的DCT编码,达到视觉质量的关键手段之一.a.视觉加权量化量化误差的主观感觉随DCT系数的频率有很大变化,可对高频系数作比较粗的处理;精确的量化矩阵依赖许多外部参数:图像显示特性,观察距离,原图噪声数量.对某种应用或单独序列设计专用量化矩阵是合理的,并可与编码环境和压缩数据一起存储.,离散余弦

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论