（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：48 大小：2.28MB 积分：12 举报 版权申诉

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf_第2页

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf_第3页

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf_第4页

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要伴随着无线通信与多媒体通信技术的飞速发展，各种视频应用平台在产业化过程中逐渐走向成熟。面临高复杂度的视频编码和计算能力异构性的视频终端之间的矛盾，需要解决视频编码的复杂度可伸缩的问题。新一代视频编码标准h 2 6 4 a v c 采用了帧内编码、多尺寸块分割、多参考帧等新技术，使其压缩性能和网络适用性得到很大提高，同时也使复杂度得到很大提升。基于此，本文针对h 2 6 钳a v c 的多尺寸块分割技术产生的复杂度，深入研究了帧间模式选择算法和复杂度可伸缩方法。本文在分析了h 2 6 4 a v c 中帧间模式选择的过程及其算法复杂度，研究了现有复杂度伸缩算法的基础上，提出一种基于时间和空间相关性的复杂度可伸缩的帧间模式选择算法( i n t e rm o d e sd e c i s i o no fc o m p l e x i t ys c a l a b i l i t yb a s e do n t e m p o r a la n ds p m i a lc o r r e l a t i o n ，t s c ) 。该算法利用相邻宏块帧间编码模式之间的相关性，采用复杂度伸缩因子，控制帧间编码的复杂度在2 0 到1 0 0 之间灵活变化。其创新点主要体现在以下两个方面： ( 1 ) 利用相邻宏块的帧间编码模式的时间相关性和空间相关性，统计分析不同相邻宏块组合下，当前块的预测模式的优先级顺序，得到优先级表。这样，帧间模式依次按照优先级顺序参与预测，即使参与预测的模式减少，也能最大可能地保证最优模式处在所计算的模式之中； ( 2 ) 在帧间模式依次参与预测的过程中，引入复杂度伸缩因子，控制参与预测的帧间模式的数目，使计算资源集中在时间和空间相关性弱的区域，实现资源的优化配置。实验结果表明，本文算法能在视频质量和复杂度之间形成良好折衷，适应从高端设备到低端设备的计算能力差异。关键词：h 2 6 4 a v c 标准；帧间模式选择；复杂度可伸缩；相关性；伸缩因子 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fw i r e l e s sc o m m u n i c a t i o n sa n dm u l t i m e d i a c o m m u n i c a t i o nt e c h n o l o g y , a l lk i n d so fv i d e oa p p l i c a t i o np l a t f o r mm a t u r eg r a d u a l l y i i lt h ep r o c e s so fi n d u s t r i a l i z a t i o n h e r e i n ，v i d e oc o m m u n i c a t i o nf a c e sab i gc h a l l e n g e f r o mm a t c h i n gb e t w e e nh i g hc o m p l e x i t yo fv i d e oc o d i n ga n dd i f f e r e n tc o m p u t a t i o n c a p a c i t yo fv a r i o u st e r m i n a l s ，s o i ti sn e c e s s a r yt oe n a b l es c a l a b l ec o m p l e x i t yo fv i d e o c o d i n g t h eg e n e r a t i o nv i d e oc o d i n gs t a n d a r dh 2 6 4 a v c a d o p ti n t r ac o d i n g ， m u l t i s i z eb l o c ks e g m e n t a t i o n ，m u l t i p l er e f e r e n c ef r a m e sa n do t h e rn e wt e c h n o l o g i e s ， w h i c hm a k ei t sc o m p r e s s i o np r o p e r t ya n dn e t w o r ka d a p t a b i l i t yi m p r o v e dg r e a t l y , b u ta l s om a k ei t sc o m p l e x i t yi n c r e a s e di m m e n s e l y o nt h a tb a s i s ，s t u d i e di n t e rm o d e s e l e c t i o na l g o r i t h ma n dc o m p l e x i t ys c a l a b l em e t h o d sd e e p l yi nc o n n e c t i o nw i t ht h e c o m p l e x i t yo fh 2 6 4 a v c sm u l t i - s i z eb l o c ks e g m e n t a t i o n o nt h eb a s i so ft h ea n a l y s i so ft h ep r o c e s sa n da l g o r i t h m sc o m p l e x i t yo fi n t e r m o d es e l e c t i o n ，a n dt h es t u d yo ft h ee x i s t i e dc o m p l e x i t ys c a l a b i l i t ya l g o r i t h m s ，t h i s p a p e rp r o p o s e d an o v e la l g o r i t h m - t s c ( i n t e rm o d e sd e c i s i o n o fc o m p l e x i t y s c a l a b i l i t yb a s e d o nt e m p o r a la n ds p a t i a lc o r r e l a t i o n ) i tu t i l i z e dt h es p a t i a l c o r r e l a t i o na n dt e m p o r a lc o r r e l a t i o n ，a d o p t e dc o m p l e x i t ys c a l a b i l i t yf a c t o r , h e n c e t h ec o m p l e x i t yc a nc h a n g ef l e x i b l yf r o m2 0 t o1 0 0 t h em a i ni n n o v a t i o ni s m a i n l yr e f l e c t e di nt h ef o l l o w i n g ： ( 1 ) u t i l i z e dt h es p a t i a lc o r r e l a t i o na n dt e m p o r a lc o r r e l a t i o no ft h ea d j a c e n tm a c r o b l o c k ，a n a l y s e ds t a t i s t i c a l l yt h eo r d e ro fp r i o r i t yo fp r e d i c t e dm o d e si nd i f f e r e n t c o m b i n a t i o n so fa d j a c e n tm a c r o b l o c k i n t e rm o d e sp r e d i c t e di nt u r no fp r i o r i t ys c a l e ， m a k es u r et h em a x i m u mp o s s i b l em o d ec a nb et h eo n ew h i c hb ec a l c u l a t i o n e v e l li f t h en u m b e ro fp r e d i c t e dm o d e sd e c r e a s e ( 2 ) i nt h ep r e c e s so fi n t e rm o d e sp a r t i c i p a t ep r e d i c t i o n ，a d o p t e dc o m p l e x i t y s c a l a b i l i t yf a c t o r ，c o n t r o l l e d t h en u m b e ro fi n t e rm o d e si n v o l v e di n ，m a d et h e c o m p u t i n gr e s o u r c e sa r ec o n c e n t r a t e di n t h ea r e a sw h i c h ss p a t i a lc o r r e l a t i o na n d t e m p o r a lc o r r e l a t i o ni sw e a k l y , a n do p t i m i z e da l l o c a t i o no f r e s o u r c e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h m c a na c h i e v et h et r a d e o f f u b e t w e e nt h ev i d e oq u a l i t ya n di t sc o m p u t a t i o nc o m p l e x i t y , a d a p tt h ed i f f e r e n t c o m p u t i n gp o w e ro fd i f f e r e n te q u i p m e n t s k e y w o r d s ：h 2 6 4 a v cs t a n d a r d ；i n t e rm d e sd e c i s i o n ；c o m p l e x i t ys c a l a b i l i t y ； c o r r e l a t i o n ：s c a l a b i l i t yf a c t o r i i i 独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生。签名，：周耢导师c 签名，：貌日期a 彬丁吵武汉理下大学硕士学位论文 1 1 研究目的和意义第1 章绪论信息技术和网络技术的发展使得人类获取信息的方式发生了史无前例的变化，单一媒体模式也因为网络媒体的产生而迈入多媒体信息时代n 3 。与此同时，电话、传真、电报等传统的通信服务方式也发展为可视电话、视频点播、视频会议等以视频信息为主的多媒体通信方式。视频信息在多媒体信息中占有举足轻重的地位，因为它是包含内容最为丰富的一种媒体。视频信息的直观性、确定性、高效性，使人们了解其重要的应用价值，但是，视频信息的数据量庞大，对网络传输和数据存储都提出了很高的挑战心驯。各种类型终端设备的不同计算能力和视频编码的高复杂度正成为视频通信广泛应用过程中的重要矛盾，这些矛盾主要表现在以下三个方面： ( 1 ) 终端处理能力的差异不同的终端设备，其数据的处理能力各异。当应用视频通信系统时，必须在他们之间建立有效的视频通信，那么，他们各自的视频编解码器处理能力的差异不得不考虑。 ( 2 ) 终端显示能力的不同终端显示能力的差别包括刷新频率和显示尺寸的不同。譬如，智能手机和普通p c 的显示能力的就存在很大的差异。这些终端的视频编解码系统能够有效灵活的调整编解码帧率和图像尺寸，是它们建立其间的视频通信的必要条件。 ( 3 ) 有些终端计算能力随时间发生变化有些终端设备的计算能力会随着电源的消耗而下降，如手提电脑。动态的调整视频编码的复杂度，才能在这个过程中维持与其他终端的视频通信。自上世纪8 0 年代以来，各种视频编码标准不断推陈出新，伴随着视频编码效率的明显提高，编解码复杂度也不断增加，对终端的运算能力的要求也不断提高。2 0 0 3 年，视频编码标准h 2 6 4 a v c l 4 1 发布；2 0 0 6 年3 月，国内具有自主知识产权的a v s 5 标准作为国家推荐标准发布。与之前的m p e g 2 等标准相比，它们两者的编解码复杂度是相当巨大的。譬如，h 2 6 4 a v c 的编码复杂度约为 m p e g 2 的3 4 倍【6 l 。武汉理工大学硕十学位论文曾流行一时的低复杂度视频编码算法，为不同平台制定不同复杂度的的编码算法，对特定平台的视频通信应用发挥了重要作用。但随着视频通信终端的多样化，低复杂度的视频编码方法不能从根本上解决计算能力与编码复杂度之间的矛盾【7 】。另外，它的复杂度依赖于视频内容的变化，缺乏对视频内容的自适应性。 h 2 6 4 a v c 视频编码标准中复杂度最高的模块运动估计，作为一种高级的视频编码技术，比如多参考帧编码、多模式编码、分像素运动估计等有效的提高了编码性甜剐，但是由于较高的复杂度，使其无法得到有效合理的应用。本文复杂度可伸缩的帧间模式选择算法的研究目标是设计一种新的模式选择方法，能够根据不同的终端的运算能力而动态调整帧间模式选择的复杂度，屏蔽视频通信终端的异构性，提高视频通信质量。复杂度可伸缩的帧间模式选择算法的研究具有十分重要的学术与应用意义。 ( 1 ) 推进视频编码领域基础问题的研究复杂度可伸缩的帧间模式选择算法的研究目标决定了它不同于一般的低复杂的帧间模式选择算法，它要在不同的复杂度水平上达到尽可能高的视频通信质量。因此，帧间模式选择的复杂度分析必须考虑视频编码的复杂度码率一失真的联合优化问题。这一个问题是视频编码领域的基础问题，也是复杂度伸缩的研究难点。对这个问题的研究将推进视频编码基础技术的发展。 ( 2 ) 为计算能力异构终端之间的视频通信提供技术支撑复杂度可伸缩的帧间模式选择将使计算能力迥异的视频终端之间建立可靠的视频通信成为可能。提供高速无线传输速率，为多媒体业务提供必要的带宽是第三代移动通信( 3 g ) 标准最为鲜明的特点。复杂度可伸缩的帧间模式选择将为基于3 g 网络的智能手机等移动终端的视频通信提供技术支撑。它将为移动终端上的视频监控、视频点播和视频会议等业务的开展提供保障。 1 2 国内外研究现状 h 2 6 4 a v c 采用了参考帧编码、多模式编码、分像素运动估计等当今视频编码领域先进的编码技术，编码效率远远超过其他所有的视频编码标准，但与此同时也使复杂度巨大的提升【9 1 【1 0 1 。h 2 6 4 a v c 高效的编码效率使其跟适合高端应用，但是对于低端设备，如此高的计算复杂度却是难以承受的。所以，很多学者都致力复杂度可伸缩的视频编码算法的研究。多数研究是以丢弃部分码流来 2 武汉理工大学硕十学位论文降低解码复杂度1 1 1 j ，从而只能获得较低的解码质量，而且众所周知，视频的编码复杂度要远远高于解码，仅仅只是调节解码端的复杂度还不能真正的解决问题。图1 1 表示的是h 2 6 4 a v c 编码器中对复杂度影响较大的几项技术分别所占的比例。研究表明，h 2 6 4 a v c 引入先进的编码技术后，帧间编码部分的复杂度已经超过整个编码器的6 0 。所以从帧间模式选择入手研究复杂度伸缩，应该可以取得明显的效果。 l i a n gyj 利用图像宏块之间的时间和空间相关性，提出了一种可同时适用于帧内编码和帧间编码的复杂度可伸缩算法【1 2 1 。该文献提出一种“混合模式选择”的策略，它由“模式预判决”和“后处理”两部分组成。但是该策略在“预判决” 宏块比例增大的情况下，性能严重下降，使得该算法并不适宜实际应用。 z h a n gdm 针对h 2 6 4 a v c 采用多模式及多参考帧预测等技术后，编码复杂度随参考帧的数量和使用的模式的数量呈线性递增的情况，提出一种复杂度可伸缩的运动估计算法1 1 3 】。该算法在实际的应用中，复杂度伸缩能力比较有限。运动估计 j4 x 4 帧内预测 = = = = = = = = = 蚕蚕吾d c t 变换哪l 舳傩其他图1 - 1h 2 6 舭气v c 中主要算法复杂度比例 y a n gz 提出复杂度可配置和复杂度上限可控的运动估计算法【1 4 】f 1 5 】，该算法重点对运动估计的复杂度进行可伸缩性设计，保证了视频编码的实时性。文献 1 6 】提出通过阈值和搜索距离来限制搜索点的数目，实现复杂度可伸缩。文献 1 7 1 则通过限制运动矢量的搜索区域和运动矢量的评估数量来实现复杂度可伸缩。文献0 8 1 设置两个参数控制运动估计的计算复杂度，一个参数控制最大搜索距离，另一个是参数控制最大搜索步幅。文献【1 9 】根据i 帧和p 帧的编码特点，提出复杂度可伸缩策略，但是只适用于类似电话会议的运动不剧烈的视频，具有很大的局限性。 3 礅1 2 0 提出利用空间相关性，通过选取部分模式作为候选模式来实现帧间 3 武汉理工大学硕+ 学位论文模式判决复杂度的可伸缩。但是，这种方法对每一个宏块一视同仁地分配计算资源，这就使得部分宏块计算资源浪费，部分宏块计算资源不足。文献 2 1 1 通过控制s k i p 块的比例，达到复杂度伸缩的目的。文献f 2 2 1 通过控制绝对误差和( s u m o f a b s o l u t ed i f f e r e n c e ，s a d ) 的计算数目对帧间编码模式复杂度进行伸缩，但是它只适用于1 6 x 1 6 块，没有利用分块运动估计。文献 2 3 1 利用伸缩因子控制候选模式的数目，进行复杂度伸缩，但是没有充分利用相邻宏块间的时空相关性。 1 3 本文主要研究内容本文在深入研究h 2 6 4 a v c 标准中帧间预测技术和复杂度伸缩算法的基础上，提出一种基于相邻宏块编码模式相关性的复杂度可伸缩算法，在计算复杂度和图像质量之间实现良好折衷。本文的研究内容主要包括以下几个方面： ( 1 ) 学习数字视频压缩编码技术的基本原理，深入研究帧间预测技术； ( 2 ) 学习复杂度可伸缩的研究方法，并对各种复杂度可伸缩算法进行深入研研究； ( 3 ) 学习h 2 6 4 a v c 视频编码标准，分析新技术的引用，对其复杂度的影响，特别是变块运动估计技术；对相邻宏块的编码模式相关性进行统计分析： ( 4 ) 在深入学习帧间模式选择的特点和复杂度可伸缩算法后，将两者有机的结合，得到一种新的复杂度可伸缩的帧间模式选择算法； ( 5 ) 在j m 8 6 模型上实现这种新算法，并对实验结果进行分析。 1 4 本文章节安排本文主要包括五个章节，各章节的主要内容如下：第l 章为绪论，主要介绍了课题研究的目的和意义，该领域国内外研究现状，本文的主要研究内容以及文章结构。第2 章首先介绍了h 2 6 4 a v c 视频编码标准的编解码器的组成模块和关键技术；接着并对其帧间模式选择算法进行了深入的分析，包括块划分、率失真优化和基于率失真的算法分析和复杂度分析，为后续的研究工作提供理论依据。第3 章首先研究复杂度可伸缩的方法，分析现有的复杂度可伸缩的算法；接着，统计分析相邻宏块间编码模式的空间相关性和时问相关性，得出基于该相关性的帧间模式选择的优先级表；然后，结合优先级表和复杂度伸缩方法， 4 武汉理t 大学硕士学位论文提出一种基于空间与时间相关性的复杂度可伸缩的帧间模式选择算法；最后，定义该算法中参数，和设计算法流程。第4 章是对提出的复杂度可伸缩算法加以实现，并分析实验结果。第5 章为全文工作的总结和对下一步工作的展望，对全文内容进行总结陈述，并提出当前工作的未尽事宜以及未来工作的重点。 5 武汉理1 = 大学硕士学位论文第2 章h 2 6 4 a v c 的帧间模式选择算法与以往的视频编码协议相比，h 2 6 4 a v c 协议取得了更好的编码效率，这也是h 2 6 4 a v c 协议在编码过程中采用更为复杂的编码技术的结果。其中，宏块多模式的划分，是该视频压缩技术性能得到很大改善的一个重要因素，但同时帧间模式选择的复杂度也大大增加。 2 1h 2 6 4 a v c 标准简介 2 0 0 3 年公布的新一代视频编码标准h 2 6 4 a v c 较以往的视频编码标准具有更加优越的性能，更适用于实时视频通信、交互式点播、网络流媒体传输等数字多媒体领域1 2 4 1 。由于其高效率的压缩表现和高可靠的传输方式，以及对于不同网络良好的兼容性使得越来越多的视频压缩都采用了h 2 6 4 a v c 标准，应用日益广泛。 2 1 1h 2 6 似a v c 编解码框架和以往的视频编码标准类似，h 2 6 4 a v c 标准并没有对编解码器的结构做出规定，而只是规定了码流的语法1 8 j 和该比特流的解码方法，各个厂商的编码器和解码器在此框架下能够互通，在实现在更具有灵活性，并且有利于厂商之间相互竞争，推进技术的不断创新。 h 2 6 4 a v c 的编码器和解码器的功能组成分别如图2 - 1 和图2 2 所示。从图 2 - 1 和图2 2 可以看出，h 2 删c 的编解码器功能块的组成基本上依然沿用了 h 2 6 1 、h 2 6 3 、m p e g - 1 、m p e g 4 等标准的，但是在各功能块的细节上却有着差别。由于视频信号的内容时刻变化，有时候场景静止不动，大面积平坦；有时候物体运动剧烈无序，空间细节很多，内容的多样性就要求相应的视频编解码技术具有自适应：信道多变，特别是在环境恶劣时，比如无线网络，有时候信号衰弱耗损较小，有时候严重衰落；又譬如i n t e r n e t 网，有时畅通无阻，有时传输缓慢，有时拥塞不堪，为了减轻甚至消除这种由信道畸变带来的不良影响，就必须采用自适应的方法。这两方面的多变性，决定了自适应压缩技术的复杂性。h 2 6 4 a v c 利用实现的复杂性获得了压缩技术的明显改善。 6 武汉理工人学硕十学位论文图2 1h 2 6 4 a v c 编码框图由图2 1 所示，h 2 6 4 a v c 编码器依然沿用变换和预测的混合编码法。视频信号的帧或场e 输入编码器后，以宏块为单位进行处理。首先，按帧内或者帧间的编码预测的方法进行处理。如果采用帧间预测编码，由当前片中的已编码的参考图像经运动补偿后产生预测值p r e d ( 图中用p 点表示) ，用e 一，表示参考图像。大量的研究证明，在过去或未来的( 指显示次序) 已编码解码重建和滤波的帧中选择参考图像，可以提高预测精度，进而提高压缩比。预测值p r e d 和当前块相减后，得到残差块d 。，该块经过块变换、量化后产生一组量化后的变换系数x ，再经熵编码，和解码需要的边信息，譬如预测模式、量化参数和运动矢量等，一起组成一个压缩后的码流，经n a l ( 网络自适应层) 公传输和存储用。为了提供进一步预测所需的参考图像，编码器也需要和解码器一样的重建图像的功能。所以，经反变换和反量化后的d 。需要再与预测值p 相加，得到以t ( 未经滤波的帧) 。这样也就形成了一个编解码的环路，其中必定会参杂噪音，为了参考帧的图像质量得到保证，压缩图像性能得以提高，h 2 6 4 a v c 编码器中设置了个环路滤波器，滤波后的输出重建后的图像e ，可作为参考图像图像使用。 7 武汉理t 大学硕士学位论文图2 - 1 中的编码器输出的压缩后的h 2 6 4 a v c 压缩比特流，输入到图2 2 中的解码器，经熵解码后得到量化后的一组变换系数x ，接着经过反量化和反变换，得到残差d 。利用从该比特流中解码出的头信息，解码器就会产生一个和编码器中的原始p r e d 相同的预测块p r e d 。将解码器产生的的p r e d 加上残差见，产生蛾，再滤波，就能得到重建后的e ，也就是最后解码输出图像了。 2 1 2h 2 删c 关键技术与以往的视频编码标准相比，h 2 6 4 a v c 标准具有一系列新的特性，大大提高了其编码效率，主要包括以下几点： ( 1 ) 帧内预测模式：以往的视频压缩编码标准都是采用帧间预测模式，而 h 2 6 4 a v c 首次引入了帧内预测模式，当前编码块的像素值可以通过帧内已编码像素的加权和来进行预测，有效降低了编码图像帧的空间冗余度，提高了压缩性能； ( 2 ) 多尺寸块分割：对图像帧采取了更为精细的块划分方式，包括1 6 x 1 6 、 1 6 x 8 、8 x 1 6 、8 x 8 、8 x 4 、4 x 8 以及4 x 4 等，使得图像帧中的运动区域得到更为精确的划分，提高了匹配度，但同时也带来了编码过程中计算复杂度的提高； ( 3 ) 多参考帧：h 2 c 标准采用了比以往视频编码标准更多的参考帧数，多帧参考使得当前帧在编码时有了更为灵活的选择，有效提高了大部分类型视频序列的编码性能； ( 4 ) 四分之一像素精度：h 2 6 4 a v c 采用了四分之一像素精度进行运动搜索，大大提高了运动估计的精度； ( 5 ) 熵编码：h 2 6 4 a v c 标准使用基于上下文的变长编码c a v l c 和二元算数 8 武汉理t 大学硕士学位论文编码c a b a c ，增加了计算复杂度，但提高了编码效率。 2 2 帧间模式选择算法 2 2 1 块划分 h 2 6 4 a v c 帧间预测是利用已编码视频帧场和基于块的运动补偿的预测模式。与以往的标准帧间预测的区别在于块尺寸更广( 从1 6 x 1 6 到4 x 4 ) 、亚像素运动矢量的使用( 亮度采用1 4 像素精度m v ) 及多参考帧的应用等等。在以往的视频标准中，m p e g 2 采用了1 种尺寸的运动补偿，即1 6 x 1 6 。 m p e g 4 采用了1 6 x 1 6 ，8 x 8 这2 种。h 2 6 4 a v c 为了使帧间运动补偿更加有效，宏块的分割采用了7 种尺寸。每个宏块的分割方式有4 种，分别为1 个1 6 x 1 6 ，或者2 个1 6 x 8 ，或者2 个8 x 1 6 ，或者4 个8 x 8 。其运动补偿的方式也相应的优 4 种。而8 x 8 的子宏块又可以进一步的分割为4 种方式，分别为1 个8 x 8 ，或者 2 个4 x 8 ，或者2 个8 x 4 ，或者4 个4 x 4 。如图2 - 1 所示。这些分割和子宏块使得各宏块之间的关联性大大提高。这种分割下的运动补偿即为树状结构运动补偿。 1 6 1 61 6 x 88 1 6 8 x 8 m oo1 t y p e 00l l23 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一、，蒜h h 图2 - 1 宏块及子宏块的分割这些宏块的分割和亚分割可以组成很多的分割方式。不同的分割方式，产生大小不同的块，这些块对块匹配的精度有很大的影响。当使用较小的块时，运动估计更精确，并且产生的运动残差较小，可以起到降低码率的作用。但是，压缩后的码流中不仅包括预测残差数据，还包括运动矢量和分割选择信息。当 9 武淡理r 大学碗学竹论文宏块分割较小时，就需要更多的比特柬表征运动矢量和分割选择，这是因为每个分割或子宏块都需要一个自己独屯的运动矢昔。例如，1 个1 6 ) ( 1 6 的老块若是不再分割，则只需要传输1 个运动矢量，但若是分割为2 个1 6 x 8 的块，则需要传输2 个运动矢量，以此类推，当分割为1 6 个4 x 4 的块，则需要传输1 6 个运动矢量，这就使得表征运动矢量的比特数增加。所以，分割尺寸的选择极大的影响了压缩性能。一般而言，图像平坦区域适合选取大的分割尺寸，而多细节区域则适合选择小的分割尺寸。除了以上介绍的模式，对于p 帧还有一种重要的s k i p 模式，主要用于编码图像中静止或具有全局运动的部分。由于这种模式不需要对残差信号和运动矢帚进行编码因此编码一个宏块h 需很少的比特。宏块的色度成分( c r 和c b ) 是相应亮度块的一半( 水平和垂直各一半) 。色度块和亮度块的分割方式相同，只是水平和垂直方向的尺寸各减半。例如： 1 6 x 8 的亮度块其相应色度的块的尺寸为8 x 4 ；4 x 8 的亮度块其相应色度块的尺寸为2 x 4 等等。同理，色度块的m v 也是相应亮度块m v 的一半( 水平分量和垂直分量都减半) 。为了使传输信息量最小。h2 6 4 a v c 编码器为帧的每个部分选择最佳分割尺寸，并将选择的分割加到残差帧上。图2 2 是一个没有进行运动补偿残羞帧。如泼圈所示，残差显示为扶色的帧变化小的区域，选择的是1 6 x 1 6 分割方式；残差显示黑色或白色的多运动区域选择的是更加有敬的小尺寸。 2 2 2 率失真优化留2 - 2 残莘帧 211 已经介绍了宏块的7 种分割方法，那么对于具体的老块，编码器应采取哪种的编码模式，才能使编码性能最佳昵? 这时必定需要某种枷：准柬判断。武汉理工大学硕十学位论文为了既保证质量，又不能使码率过高，这个标准一般主要在信噪比和码率之间进行权衡【2 5 1 。h 2 6 4 a v c 有低复杂度模式和高复杂度模式两种方式来选择最佳预测模式。但由于低复杂度模式只考虑失真度，忽略了实际的需要编码的位数，从而不能精准的衡量编码效果。而高复杂度模式这种代价判决标准采用的是率失真优化模式，综合考虑了失真度和码率。所以h 2 6 4 a v c 推荐使用高复杂度模式作为判决模型。现有的视频压缩标准中，率失真优化的方法多种多样，但论效率和计算复杂度，始终还是拉格朗日率失真优化模型表现更为优越【2 6 1 。 ( 1 ) 拉格朗日优化理论设有s = ( s 。，s ：，& ) 、0 k = ( 0 k ，吼：，d 删) 和i = ( 1 1 ，1 2 ，k ) 三个集合，其中s 包含一帧中所有宏块样本的值，d 包含宏块s r 能选择的所有编码模式，j 包含对应于宏块s k 的编码模式，其中i 瓯。给定限定码率砭时，为了使编码后的失真度尽量达到最小，信源样本序列所选定的编码模式必须满足以下关系式： r ( s ，) sr c 时m i no ( s ，d( 2 1 ) 其中，r ( s ，) 表示当前帧在编码模式集，下的编码比特率，d ( s ，i ) 则表示当前帧在编码模式集，下的失真度。为了满足实际应用中简单实用的要求，采用拉格朗日乘数法解决编码模式的选择问题，将式2 - 1 转化为： i 。一a r g m i n ( s ，iia )( 2 - 2 ) ，( s ，ia ) 一o ( s ，) + a r ( s ，)( 2 - 3 ) 其中，久表示拉格朗日乘数，d 表示情况最优时各个宏块选取的编码模式的集合。对于宏块集合s 及其采用的编码模式集合，当编码后的失真度和编码比特率的前行组合j ( s ，i i a ) 最小时，此刻的编码模式就是最优模式。这个代价模型使失真度和编码比特率间达到了较好的平衡。 h 2 6 4 a v c 视频编码标准中，最基本的编码单元为宏块，所以每个宏块的编码模式选定后，就可以运用累加每个宏块的失真度和编码比特数的方法求出一帧图像的失真度和编码比特数。 r d ( s ，i ) = 罗d ( s 女，i ) ( 2 - 4 ) 武汉理工人学硕士学位论文 r ( s ，i ) = yr ( s k ，i ) ( 2 - 5 ) 符虽然严格来说，因为单个宏块的s 。在编码模式l 下的编码比特数r ( s 。，i ) 必须在所有宏块计算完后才能获得，所以各个宏块的最优编码模式是相互关联的，但是若考虑到它们的相关性，势必会使问题变得相当复杂，不利于实际应用。为此，假设每个宏块的模式选择是相互独立的。这样便可以将整帧图像的率失真代价函数简化为对每个宏块的率失真代价函数的累加，如下式所示： i 。一a r g m i n ( s ，iia ) 一a r g m i n j ( s i ，iia ) 一a r g m i n j ( s i ，iia )( 2 6 ) 后刁后=d j ( 叉，tia ) 一d ( s k ，i t ) + a r ( s i ，i k )( 2 7 ) 其中，厶表示第k 个宏块采用的模式。该模式应该包括各种预测编码的模式以及相应的变换系数和量化参数等。对于帧间预测模式，还应包括该宏块的一个或多个运动矢量。 ( 2 ) 失真度与比特率的计算由式( 2 3 ) 知道，拉格朗日率失真代价函数分为失真度和率失真两部分，函数的大小由这两部分共同决定。失真度有s s d ( 平方误差和) 和s a d ( 绝对平方和) 两种模型，分别如下： s s d - is i x 删y 卜j i x 肌y 】1 2 ( 2 8 ) ( x ，岁黟。 s a d 一罗ls i x ，y ，卜s i x ，y ，】i ( 2 9 ) ( ，岁郾其中，s i x ，y ，t 】为当前宏块的原始像素值，s 【x ，y ，f 】表示已编码重建后的像素值。无论是s s dj 丕是s a d 都与量化参数q p 有关。因为q p 增加时，s x ，y ，f 】与s 【x ，y ，t 】的差值增大，即失真度升高；q p 减小时，失真度降低。比特率为对残差d c t 系数进行熵编码和传输运动矢量、编码模式等所形成的比特率。在本文所用的j m 8 6 平台中，指的是所有传输到n a l 层的比特数。 ( 3 ) a 的确定公式( 2 - 3 ) 包含一个拉格朗同系数a ，要想得到率失真代价函数值，就必须先确定a 。大量实验证明，系数a 与q p 有着极其密切的关系。如下关系式：九伽，尸z0 8 5x2 ( q p 。1 2 邶( 2 1 0 ) 1 2 武汉理一l 大学硕士学位论文 k 萨m a x ( 2 ，m i n ( 4 ，譬当) ) k p ( 2 - 1 1 ) 每个宏块的最有编码模式都需要进行运动估计和率失真优化操作后确定，通过最小化运动估计代价确定编码模式、运动矢量和参考帧。代价函数如下式：，删椭( ，r e fia 。，砌) ad i s t o r t i o n ( s ，c ( m v ，r e f ) ) + a ，讲拥r ( m v ，r e f ) ( 2 1 2 ) 其中，m v 表示参考块的运动矢量，r e f 是选择的参考帧，九一为拉格朗日乘子。r ( 椰，胜f ) 为编码运动矢量和参考帧等信息的比特数，可以通过查表得到，其中包括m v 与其预测值的差值编码比特数和r e f 的编码比特数。s 和c 分别表示当前块和参数块的像素值，我们用d i s t o r t i o n ( s ，c ( m v ，冗e f ) ) 表示当前块与参考块之间的失真度，与式( 2 8 ) 和( 2 9 ) 对应，其定义式如下： s a d ( s ，c ( m v ，r e f ) ) 一罗ls ( x ，y ) 一c o m 。，y m ，) j ( 2 1 3 ) 磴焉日 s s d ( s ，c ( m v ，e a 三f ) ) ；罗is ( x ，y ) 一c o m ，y 一聊，) 2 ( 2 1 4 ) 砖黏其中， ( x ，y ) 表示块尺寸的大小，( m ，m 。) 表示运动矢量。当使用s a d 计算 d i s t o r t i o n ( s ，c ( m r ，r f f ) ) 时，a 。嘲一k ；当使用s s d计算 d i s t o r t i o n ( s ，c ( u v ，r f f ) ) 时，入m 嘶| 佣= j 九d e o ( 4 ) 编码模式的确定当拉格朗日参数k 与量化参数q p 选定后，h 2 6 4 a v c 的编码器通过最小化拉格朗日代价函数来选定每个宏块的编码模式。宏块s 。的拉格朗日率失真代价函数如下： ( s 。，j ilq p ，k ) 一d 冗阳( 叉，丘iq p ) + a m d 胞尺艇c ( s t ， iq 尸)( 2 - 1 5 ) 其中，以为宏块瓯的编码模式。编码模式不同时，编码后的失真度 p 舾c ( 瓯，厶l q p ) 署l 比特率r 艘c ( 瓯，丘i 妙) 的计算方法也有所不同。当为帧内模式时，r 脚( s k ，i n t r aj 妒) 为熵编码后比特率， d 胱( & ，i n t r a lq p ) 由宏块的原始像素与重建后的像素决定，对应式( 2 - 8 ) 和 ( 2 9 ) ，也有两种计算方法，如下所示： s a d 一罗m x ，y ，小- s 【x ，y ，f 】i ( 2 1 6 ) ( ，：嚣纠 s s d 一罗fj 【x ，少，t l s 【x ，y ，t 1 2 ( 2 1 7 ) o j 钌邑其中，彳为当前宏块，s 为原始像素值，s 是编码重建后的像素值。 1 3 武汉理f t 大学硕士学位论文当为s k i p 模式时，因为没有残差信号，所以失真度和比特率与量化参数无关。在h 2 6 乱a v c 标准中，失真度由宏块的原始像素之和预测像素值决定，比特率则近似为l b i t m b 。当为帧间模式时，由于采用了运动估计，拉格朗日代价函数的计算相对于前两种模式下的要复杂一些。首先利用公式( 2 1 2 ) 确定最佳参考帧和最佳参考运动矢量，再利用公式( 2 1 5 ) 确定最佳编码模式。其中失真度和比特率的计算方法与帧内模式下的一样。 2 2 3 算法分析 h 2 6 4 a v c 标准只对编码后的码流的格式和解码器这两部分做了定义，对于如何编码，却没有给出明确的步骤。虽然这样使其具有很有的灵活性，但是因为编码过程决定了压缩性能，所以它为视频研究者提供了参考软件j m 模型，为编码过程提供指导。这个模型是h 2 6 4 a v c 的官方测试源码，能够实现 h 2 6 舭w c 的所有特性，所以学术研究的算法都是在j m 上实现，并与j m 进行比较。所以，本文选择j m 8 6 【2 7 】作为本文算法研究、实现和比较的平台。接下来，本文对j m 8 6 模型中的帧间模式选择算法进行分析。为了表述的方便，本文将帧间的s k i p 模式和另7 种模式( i n t e r l 6 x 1 6 ， i n t e r l 6 x 8 ，i n t e r 8 x 1 6 ，i n t e r 8 x 4 ，i n t e r 4 x 8 ，i n t e r 4 x 4 ，i n t e r 8 x 8 ) 分别设为m o d e 0 、 m o d e l ，m o d e 2 ，m o d e 3 ，m o d e 4 ，m o d e 5 ，m o d e 6 ，m o d e 7 0 ( 1 ) 在m o d e l 、m o d e 2 、m o d e 3 三种模式下进行预测。这个过程包括运动矢量的搜索和参考帧的选择。运动矢量搜索的目的就是要找出使率失真代价函数 j ( m ，九一) 最小的运动矢量。 j ( m ，九讲砌) = d i s t o r t i o n ( s ，c ( 彤) ) + 九甜拥r ( m p )( 2 - 1 8 ) 其中，m 一( 朋，m ，) r 表示运动矢量，p 一( 儿，p ，) 7 表示预测的运动矢量，而 r ( m p ) 就表示预测的误差信息。整像素的运动矢量搜索，d & t o r t i o n ( s ，c ( m ) ) 采用的s a d 函数，而亚像素的运动搜索，d i s t o r t i o n ( s ，c ( 朋) ) 采用的是s a t d 函数。参考帧的选择是遍历所有参考宏块，使下式的值最小。 j ( r e p o ；s a t d ( s ，c ( r e f , ，咒( r f 1 ) ) ) + 九一( m v c o s t ( r e p o ) + r a t e ( r e p o ) ( 2 - 1 9 ) 其中m y c o s t ( r e f ) ；r ( m ( r e f ) 一p ( r e f ) ) ，m 和p 的定义与式( 2 1 8 ) 中相同。

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）h264avc中帧间模式选择的复杂度可伸缩算法.pdf

文档简介

温馨提示

最新文档

评论

相关文档