（电子科学与技术专业论文）h264运动估计算法的研究与实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：80 大小：2.68MB 积分：0 举报 版权申诉

已阅读5页，还剩75页未读，继续免费阅读

（电子科学与技术专业论文）h264运动估计算法的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

r e s e a r c ha n di m p l e m e n t a t i o no fh 2 6 4m o t i o ne s t i m a t i o na l g o r i t h m b y h u a n g p i n g b e ( h u n a nu n i v e r s i t yo fa r t sa n ds c i e n c e ) 2 0 0 6 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fs c i e n c e e l e c t r o n i cs c i e n c ea n dt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r a s s o c i a t e p r o f e s s o rw a n g s h a o y u a n a p r i l ，2 0 11 眦73 眦560 眦9 iiii- 哪y 湖南大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：砻彳日期：驯f 年夕月和日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 l 、保密口，在年解密后适用本授权书。 2 、不保密阢 ( 请在以上相应方框内打“ ) 作者签名：蕉子导师签名：日期：加l 年确邪日日期：阳f 年岁月弦日硕士学位论文摘要 h 2 6 4 视频编解码标准是i t u - t 视频编码专家组和i s o i e c 动态图像专家组提出的视频编解码标准。它的主要目标是改善编码效率和网络适应性。在保证图像质量的情况下，h 2 6 4 标准比h 2 6 3 标准节约5 0 的码率。h 2 6 4 标准获得高性能的同时，增加了编解码器的时间复杂度，其编码复杂度大约是h 2 6 3 标准的3 倍，解码复杂度为h 2 6 3 标准的2 倍。运动估计的原理如下，首先将视频序列分成不重叠的小块。其次在参考帧内，根据相应的匹配准则、搜索策略，找到差异最小的匹配块。运动估计技术是视频编解码器中最耗时的单元，大约占视频编码总时间的一半以上。本文首先简单介绍了h 2 6 4 视频编码标准和视频编码中的关键技术，重点介绍了运动估计技术的原理，深入分析一些经典的运动估计算法的原理、优点、缺点。本文对运动估计算法在搜索策略、提前退出、最佳搜索范围等方面做了优化。在保证图像质量的前提下，有效的降低了运动估计算法的时间复杂度，提高编码效率。本文的工作主要集中在以下几个方面： 1 根据最佳运动矢量的分布特性，将搜索区域分为动态的9 个区域，在最佳运动矢量出现概率最大的区域进行详细搜索，在其他区域进行粗略搜索。 2 合理的利用当前宏块的左宏块、左上宏块、上宏块的最佳搜索范围来预测当前宏块的搜索半径，实现搜索范围的自适应调整。 3 利用前一帧视频序列的运动估计开销，预测当前宏块的运动估计开销，实现提前退出阀值的自适应调整。关键词：h 2 6 4 标准；运动估计；运动矢量；搜索策略；搜索范围； i i a b s t r a c t h 2 6 4i sal a t e s ti n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d i tw a s j o i n t l yd r a f t e d b yt h e v i d e oc o d i n ge x p e r t sg r o u p ( v c e g ) o f i t u ta n dm o v i n gp i c t u r ee x p e r t sg r o u p ( m p e g ) o fi s o i e c t h ea i mo ft h i ss t a n d a r di st oi m p r o v ev i d e oc o d i n ge f f i c i e n c y a n dn e t w o r k t r a n s p o r t a t i o n c o m p a r e dw i t hh 2 6 3 ，h 2 6 4i m p r o v e sa b o u t5 0p e r c e n t o fc o m p r e s s i o ne f f i c i e n c y ，b u tt h ec o d e ct i m ec o n s u m p t i o nm u c hm o r et h a n t h a to f h 2 6 3 g e n e r a l l y ，i n m o t i o ne s t i m a t i o n a l g o r i t h m ，i m a g e i sf i r s td i v i d e di n t o n o n 。o v e r l a p p i n gm a c r ob l o c k s ，a n dt h e na c c o r d i n gt ot h e g i v e nb l o c km a t c h i n g m e a s u r ea n ds e a r c h i n gs t r a t e g y ，s o m eb e s t - m a t c h e db l o c k sa r ef o u n di nt h er e f e r e n c e o rp a s tf r a m e m o t i o ne s t i m a t i o na l g o r i t h mi st h em o s t t i m e c o n s u m i n gs e c t i o no ft h e v i d e oc o d e c ，a c c o u n t i n gf o r5 0p e r c e n to ft h et o t a lv i d e oc o d i n gt i m e s i nt h i sd i s s e r t a t i o n ，t h eh 2 6 4c o d i n gs t a n d a r da n ds o m e i m p o r t a n tt e c h n o l o g i e so f v i d e oc o d i n ga r ef i r s t i n t r o d u c e d ，t h e nt h em o t i o ne s t i m a t i o np r i n c i p l e sa n dt h e a d v a n t a g e sa n dd i s a d v a n t a g e so fs o m ec l a s s i cm o t i o ne s t i m a t i o n a l g o r i t h m sa r e d e e p l ya n a l y z e d ；t h em a c r o b l o c ks e a r c h i n gs t r a t e g i e s ，s e a r c h i n ge a r l ye x i tc o n d i t i o n s a n db e s t 。s e a r c h i n gr e g i o ns i z eo fm o t i o ne s t i m a t i o na l g o r i t h m sa r eo p t i m i z e d ；ah i g h c o m p r e s s i o nc a p a b i l i t yf o rad e s i r e di m a g eq u a l i t yi sa c h i e v e d ，t h ec o m p u t a t i o n a l c o m p l e x i t yi sg r e a t l yd e c r e a s e d ，a n dt h ec o d i n ge f f i c i e n c yi sa l s oi m p r o v e d t h em a i n w o r k so ft h ed i s s e r t a t i o na r ef o c u s e do nt h ef o l l o w i n ga s p e c t s ： 1 a c c o r d i n gt ot h ed i s t r i b u t i o nc h a r a c t e r i s t i c s ，s e a r c h i n ga r e ai s d i v i d e di n t o n l n es u b 。r e g i o n s ，i n c l u d i n go n ed e t a i l e d s e a r c h i n gr e g i o na n de i g h tc o a r s es e a r c h i n g r e g i o n s 2 a c c o r d i n gt os e a r c h i n gr e g i o no fl e f tm a c r ob l o c k ，l e f t u pm a c r ob l o c k u p p e r m a c r ob l o c k ，a na d a p t i v es e a r c h i n gr e g i o na l g o r i t h mi s i m p l e m e n t e d 3 a c c o r d i n gt ot h em o t i o ne s t i m a t i o no fp a s tf l a m ei nv i d e os e q u e n c e sc o s t ，a n a d a p t i v es e a r c h i n ge a l ye x i tt h r e s h o l di si m p l e m e n t e d k e y w o r d s ：h 2 6 4c o d i n gs t a n d a r d ；m o t i o ne s t i m a t i o n ；m o t i o nv e c t o r ；s e a r c h i n g s t r a t e g y ；s e a r c h i n gr e g i o n ； i 硕士学位论文目录学位论文原创性声明一i 学位论文版权使用授权书i 摘要i i a b s t r a c t ：i i i 第1 章绪论l 1 1 研究背景、目的及意义1 1 2 研究现状3 1 3 研究内容4 1 4 论文的组织结构一5 第二章h 2 6 4 视频编码关键技术6 2 1h 2 6 4 编码器结构6 2 2 帧内预测一7 2 3 帧间预测7 2 4 整数变换与量化8 2 5 熵编码1 0 2 6 率失真优化：1 0 2 7h 2 6 4 的网络抽象层1 0 2 8h 2 6 4 句法、语义1 1 2 9 本章小结1 2 第三章典型的块匹配运动估计算法研究1 3 3 1 运动估计算法简介1 3 3 1 1 块匹配运动估计算法原理1 3 3 1 2 块匹配运动估计算法关键技术1 3 3 1 3 算法性能的评价1 4 3 2 经典的块匹配算法1 5 3 2 1 全搜索法f s 1 5 3 2 2 三步搜索算法1 6 3 2 3 新三步搜索算法1 8 3 2 4 四步搜索法( f s s ) 1 9 3 2 5 菱形搜索法d s 2 0 3 2 6 六边形搜索算法2 3 3 2 7 加强预测区域搜索算法( e p z s 算法) 一2 4 3 3 本章小结2 5 i v h 2 6 4 运动估计算法的研究与实现第四章运动估计算法的优化2 6 4 1 搜索策略的优化一2 6 4 1 1u m h e x a g o n s 算法分析：2 6 4 1 2 子区域划分策略一2 8 4 1 3 算法流程3 1 4 1 4 算法仿真及结果分析3 3 4 2 搜索区域的自动调整3 5 4 2 1 搜索区域相关性3 6 4 2 2 算法流程3 7 4 2 3 算法仿真及结果分析3 8 4 3 提前退出算法4 l 4 3 1 u m h e x a g o n s 提前退出算法一4 l 4 3 2 开销的相关性分析4 2 4 3 3 模式之间运动估计开销分析4 2 4 3 4 算法流程4 4 4 3 5 实验仿真4 4 4 4 本章小结一4 7 第5 章总体测试4 8 5 1 和u m h e x a g o n s 性能比较：4 8 5 2 和三步法性能的比较5 2 5 3 和菱形法的比较5 4 5 4 和六变形法的比较一5 6 5 5 本章小结5 8 结论以及展望5 9 参考文献6 1 附录a ( 攻读学位期间撰写的学术论文) 6 4 v 硕十学位论文第1 章绪论 1 1 研究背景、目的及意义随着计算机、数字通信和网络技术等各种数字化技术的发展，信息数字化几乎遍布生活的各个方面，改变了人们的生活和工作方式。数字信号处理技术、物理媒体与网络技术、超大规模集成电路技术突飞猛进的发展，使得多媒体通信成为研究和应用的热点。其中，最为关键的技术是数字视频的处理和传输技术，它将电视技术、计算机技术和通信技术结合在一起，在电视系统、计算机网络和通信产业中得到了广泛的应用，己经进入到千家万户的日常生活中n 。从上个世纪9 0 年代开始，国际电信联盟i t u 和国际标准化组织i s o 先后颁布了一系列的视频编解码标准，并且这些标准都已经应用到很多领域。i t u - t 制定的标准一般为了满足实时应用，i s o 的m p e g 标准主要是为了满足视频存储、广播视频和视频流而制定的。在一些标准中为了区分不同应用场合，分为不同的级。 1 9 9 0 年i t u t 制定了h 2 6 1 视频编解码标准。h 2 6 1 支持的图像格式有c i f 格式和q c i f 格式。该标准只支持整像素的运动估计，不支持亚像素、多参考帧。在宏块模式的划分方面只支持亮度值的1 6 1 6 模式和色度值的8 * 8 模式，运动矢量的范围只能限定在1 6 以内。该视频编解码标准是所有视频编解码标准中第一个成功应用的数字视频标准，并且成为以后h 2 6 x 标准的基础。h 2 6 1 标准主要应用于视频会议，码率大约为6 4 k b p s 到2 m b p s 。h 2 6 1 使用混合编码框架，能进行帧间预测和帧内预测。在量化方面h 2 6 1 采用了多个量化器技术，采用步长为8 的量化器来量化帧内d c 系数，而对于a c 系数则采用可选的步长来进行量化，步长范围从2 到6 4 强3 。 h 2 6 2 是i t u - t 和i s o 组成的联合视频开发组推出的一种视频编码器，该编码器广泛应用于消费类电子视频设备、数字电视广播、d v d 和有线电视中。该协议扩展了h 2 6 1 ，为隔行视频引入了新的预测模式，他提供了大约4 m p b s 的电视广播。 i t u t 在1 9 9 5 年推出h 2 6 3 标准，和以往的视频编解码标准相比该标准的性能有了革命性改变。h 2 6 3 继承于h 2 6 1 标准但是增加了很多特性，该标准支持半像素运动估计、多参考帧、双向预测，并且该标准首次提出了中值预测。和h 2 6 1 标准相比，h 2 6 3 支持的图像格式更多，例如支持了c i f 格式的图像，并且支持的图像尺寸也更大。h 2 6 3 最初设计的目的是为了应用于视频会议。随后i t u - t 对该标准进行了改进，1 9 9 8 年推出了该标准的第二个版本h 2 6 3 v 2 ，2 0 0 0 年推出 t t 2 6 4 运动估计算法的研究与实现了第三个版本h 2 6 3 v 3 。h 2 6 3 的改进版本能支持h 2 6 3 标准的所有技术，并且改进后协议的编码效率有了很大的提高。改进标准可以将搜索范围扩大到3 2 。在编码方面改进算法利用了基于语义的算术编码，从而降低了码率。 m p e g 组织在1 9 9 0 制定了m p e g - 1 标准。该编码标准和h 2 6 1 的编码标准有很多相似性，都采用混合编码框架。和h 2 6 1 标准相比，m p e g l 增加了很多新的功能，包括支持双向的参考帧序列、支持多参考帧。该协议还支持半像素运动估计和预测。m p e g - 1 提出了图像组的概念，一个图像组包括一个i 帧和随后的预测帧、双向预测帧。h 2 6 2 和h 2 6 3 只给出了视频压缩的内容，而m p e g - 1 不仅给出了视频压缩的内容还给出了音频信号的表示和视频信号的表示，使用m p e g 一1 视频编解码器能够实现音频信号和视频信号的转换。 m p e g 组织在1 9 9 8 年推出了m p e g - 4 视频编解码标准，该标准主要应用于视像电话，视像电子文件和电子新闻等。该标准传输速率低，大约在 4 8 0 0 6 4 0 0 0 b i t s s e e 之间，并且该标准有很好的压缩性能，对于静态图像可达到 4 0 0 倍，动态图像可以达到8 0 0 倍的压缩比。m p e g 一4 采用了图层结构，可以根据视频的内容，选择视频序列中的对象将其分离出来进行压缩，对不同的对象可以采用不同的编码方式。m p e g - 4 不再限制运动矢量的大小，运动矢量最大可以达到 2 0 4 2 。 h 2 6 4 是$ t u - t ( 国际电信联盟) 的v c e g ( 视频编解码专家组) 和i s o i e c 的m p e g ( 活动图像视频编码专家组) 组成的联合视频开发组推出的一种混合视频编解码标准，是当前的主流视频编码标准之一。该标准于1 9 9 8 年开始起草，一年以后完成第一个草案，到2 0 0 3 年正式发行。h 2 6 4 编解码标准着重于解决压缩的高效率和传输的高可靠性，应用十分广泛。具体来说，h 2 6 4 支持三个不同档次的应用：1 基本档次：主要用于“视频会话”，如会议电视、可视电话、远程医疗、远程教学实时应用等。该档次支持帧内预测和帧间预测，支持基于上下位的自适应变长熵编码。2 。扩展档次：主要用于网络的视频流，如视频点播。该档次支持视频流的切换。3 主要档次：主要用于消费型电子应用：如数字电视广播、数字视频存储等。h 2 6 4 的广泛应用依赖于高效的压缩技术。利用m p e g 2 压缩的一路高清晰度电视( b d t v ) 约需2 0 m b i t s 的带宽，利用h 2 6 4 a v c 进行同样的压缩大概只需5 m b i t s 的带宽。从传输费用而言，h 2 6 4 a v c 前景十分可观。和以往的标准相比，h 2 6 4 主要特点有： 1 估计精度高，在h 2 6 4 标准中亮度信息采用整像素、二分之一像素、四分之一像素。m p e g - 1 、m p e g - 2 对于亮度信息采用整像素和二分之一像素。 2 不同大小和形状的宏块模式，h 2 6 4 支持7 种宏块模式，分别为模式l ( 16 16 ) 到模式7 ( 4 * 4 ) ，这样对于细节比较多的图像可以采用模式7 ，而对于细节比较少的图像可以采用模式7 ( 1 6 宰1 6 ) 。m p e g l 的宏块尺寸只有1 6 1 6 硕士学位论文一种。m p e g - 2 宏块尺寸只有1 6 1 6 、8 * 8 两种，这样对于大量细节的视频序列匹配误差较大。 3 多个参考帧，在一些特定的情况下，如快速的场景切换、物体存在遮蔽现象等，使用多参考帧有非常好的效果。h 2 6 4 支持最多1 5 个参考帧，支持两个参考帧序列，一个前向参考帧序列和一个后向参考帧序列，对于b 帧可以采用双向参考帧，对于p 帧采用前向参考帧序列。m p e g 一1 、m p e g 一2 都只能有一个参考帧。 4 精确的帧内预测，h 2 6 4 帧内预测模式分为4 * 4 模式和16 16 模式。4 * 4 模式有9 种可选的预测模式，1 6 木1 6 有四种可选的预测模式。 5 相互独立的层结构，h 2 6 4 将视频编码分为两个独立的层，视频编码层和网络适配层。视频编码层的主要任务是用高效的方式表述视频数据，也就是进行视频数据的压缩。网络适配层则根据网络的特性对数据进行封装打包，使其适应于网络传输。 6 整数d c t 变换。h 2 6 4 采用了基于整数的d c t 变换，整数变换简单，在整个变换过程中没有小数，减少了变换带来的误差。 7 熵编码。h 2 6 4 使用了基于上下文自适应编码和上下文自适应二进制编码，这两种编码方式易解码，抗干扰能力强，压缩比高。 1 2 研究现状 h 2 6 4 视频编解码标准具有的新特性越多，计算量也越来越大。运动估计算法是h 2 6 4 中最耗时的部分，占据了视频编码6 0 以上的时间1 。运动估计算法的性能直接关系到h 2 6 4 能否适应于实时应用。为了解决h 2 6 4 实时应用场合时间复杂度过高的问题，必须寻找到一种速度快、精确度高的运动估计算法。运动估计算法一共可以分为两类h 咱3 ：一种是基于像素递归算法。另外一种是块匹配算法。第一种算法基于递归思想，该算法沿梯度方向对周围的搜索点做跌代。第二种算法将编码图像分成大小固定的宏块，在参考帧中找到编码宏块所在的位置，比较编码宏块和参考帧中的像素值的差异，对位置的差异和像素值的差异进行编码。第二种算法的计算量比第一种小，所以大部分视频编解码器采用了块匹配的运动估计算法。本文中研究的算法都是关于块匹配的运动估计算法。在块匹配算法中最简单、直接的算法是全搜索算法，该算法只需要遍历搜索范围中的搜索点，就可以得到最佳运动矢量，但是该算法的计算量太大，不能用于实时处理。为了能让编码器适应实时处理，必须对运动估计算法进行优化。现行的快速算法大概从如下几个方面对运动估计进行优化：搜索模板、搜索范围、提前退出、开始点预测。搜索模板是指以搜索窗的预测点做为起始点，按照固定的步骤匹配搜索范围内的搜索点。经典的搜索模板有，三步搜索法、新三步搜索法、四步搜索法、菱 h 2 6 4 运动估计算法的研究与实现形搜索法、六边形搜索算法等。这几种算法认为在搜索范围内只有一个最优点、并且最优点的距离离最小误差点最近。搜索模板发展较早，实现简单，缺点是容易陷入局部最优。搜索范围直接关系到算法的计算量，对于全搜索算法，搜索范围和计算量成指数关系。对于起始点预测准确的视频序列，最佳搜索点位于起始点周围的概率很大。只需要采用小的搜索范围就能得到最优搜索点。采用大的搜索半径增加了计算复杂度，不会提高匹配精度。对于运动剧烈的视频序列，最佳运动矢量分布在中心点附近的概率减少，采用小的搜索范围很可能得不到最佳搜索点。自动调整搜索范围的大小是解决问题的关键，对于起始点预测准确的搜索点采用较小的搜索范围，对于起始点预测不准确的搜索点采用较大的搜索范围。提前退出策略是指当运动估计过程中，当前的运动估计开销已经满足某个条件，则可将该点认为是最佳搜索点，结束运动估计。现行的算法中主要有两种提前退出策略，一种是全零块的检测，另外一种为设置多级阀值。阈值的选择是提前退出策略的关键。对于一些位于物体边界上的宏块，最佳匹配点的运动估计开销会很大，采用前面两种提前退出算法，得到了最佳匹配点也会继续进行匹配搜索。由于视频序列的时间相关性、空间相关性，可以采用前一帧视频序列运动估计开销值来预测当前宏块的运动估计开销，从而实现阀值的自动调整。起始点的预测是指利用相邻宏块的最佳运动矢量来预测当前宏块的运动矢量。一般预测方式分为上层预测、左侧预测、中值预测，其中中值预测的效果最佳。 1 3 研究内容本文主要研究了h 2 6 4 标准及其协议，并对其中的运动估计技术进行重点分析，提出了运动估计算法的优化方案。将改进后的算法加入到运动估计优化方案中，利用h 2 6 4 标准测试软件j m i o 2 中的模型，在v c 6 0 开发平台上进行仿真实验，并对优化结果进行了详细分析。通过与经典算法、相关参考文献中所提到算法进行比较，改进后的算法显著提高搜索速度，减少了搜索点，而p s n r 值基本保持不变。本文研究内容主要分为以下四个方面。第一对搜索策略的改进。统计最佳运动矢量在搜索范围中的分布特性。将搜索范围动态的划分成9 个区域，其中最佳矢量落在最佳区域l 的概率为7 7 ，在其他的最佳区域中为2 3 。计算出最佳区域并在最佳区域l 中进行详细搜索，为了避免得到局部最优解在其他区域进行粗略搜索，得到了最佳运动矢量的近似值以后，采用六边形模板、小菱形模板在最小开销点附近进行搜索，从而得到最佳运动矢量。硕j ：学位论文第二最佳搜索范围的自适应调整。利用全搜索算法统计了最佳搜索范围在时间和空间上的关系。在空间上利用当前宏块的左宏块，左上宏块，上宏块的最佳最佳范围来预测当前宏块的最佳范围。在时间上利用当前帧视频图像的前一帧、前两帧图像对应宏块的最佳搜索范围来预测当前宏块的最佳搜索范围。从而实现最佳搜索范围的自动调整。第三提前退出阀值的自适应调整。统计运动开销在时间和空间的关系。利用全搜索算法统计了当前宏块和左宏块，上宏块，左上宏块运动估计开销之间的关系。同时统计当前帧和前一帧、前两帧视频图像中运动估计开销之间的关系。利用视频序列中前一帧视频图像的最小运动开销，预测当前宏块的提前退出阀值，从而实现提前退出阀值的自适应调整。 1 4 论文的组织结构第一章：介绍了一些视频编解码标准。介绍h 2 6 4 标准的一些特性，和应用场合。介绍运动估计算法的现状。第二章：介绍h 2 6 4 视频编解码标准的一些关键技术，运动估计、熵编码、模式划分、帧内、帧间编码等技术。第三章：介绍了运动估计算法的原理。深入分析三步法、新三步法、四步法、菱形模板、六边形模板等经典的运动估计算法的基本原理、优点、缺点。第四章：运动估计算法的优化，从搜索策略、搜索范围的自动调整、提前退出阀值的自动调整等方面对运动估计算法进行优化。优化后的算法和非对称十字多边形算法进行比较。并进行仿真实验，给出实验结果。第五章：总体测试，比较u h e x a g o n s 算法、三步法和优化后算法的性能。 h 2 6 4 编码器的结构如图2 1 所示，输入的视频图像以宏块为单位被编码器处理。参考帧是已经编码图像的重建图像。编码器的输入就是当前需要编码的宏块和已经编码的被用来作为参考的宏块。h 2 6 4 支持多参考帧组，可以采用前向预测和后向预测。h 2 6 4 编码步骤如下：硕j 二学位论文 1 选择预测方式。h 2 6 4 支持帧内预测和帧间预测。 2 对于帧内编码模式，利用当前宏块的相邻宏块进行预测。对于帧间编码模式，采用运动估计得到运动矢量。 3 预测值和当前宏块块相减，得到一个残差块，将残差块进行块变换、量化、排序、熵编码最后得到压缩后的码流。 2 2 帧内预测由于视频序列在空间上的相关性。在一个图像序列中相邻宏块的最佳运动矢量、像素值都存在一些相关性。帧内预测是利用与当前被编码块空间相邻的象素值来预测需要编码的象素3 1 。对亮度分量而言，帧内预测可以分4x4 块和1 6x 1 6 宏块两种块模式。其中4 4 亮度块有9 种可供选择的预测模式，模式0 ( 垂直预测) 、模式1 ( 水平预测) 、模式2 ( 直流预测) ，模式3 ( 对角线向左下方预测) 、模式4 ( 对角线向右下方预测) ，模式5 ( 垂直向右下方预测) ，模式6 ( 水平向右下方预测) 、模式7 ( 垂直向左预测) 、模式8 ( 水平向上预测) 。这些预测模式适用于有大量细节的图像。而16xl6 亮度块只有4 种预测模式来预测整个完整的 1 6 1 6 象素块，模式0 ( 垂直预测) 、模式1 ( 水平预测) 、模式2 ( 直流预测) 、模式3 ( 平面预测) 。这些预测模式适用于象素相似度较高的平坦区域的图象编码。色度分量的预测值由以编码的左上方色度像素预测得到。h 2 6 4 视频编码标准中在帧间编码的宏块也可以采用帧内预测模式，在该模式下降低码率是以增加编码的时间复杂度为代价的。 2 3 帧间预测由于现实生活中物体运动的连续性，所以视频序列具有时间相关性。帧间预测正是利用了视频图像的时间相关性，使用已经编码的视频图像来预测当前块的预测值n 利。对于亮度块，帧间预测的宏块模式划分为7 种，模式1 ( 1 6 1 6 ) 、模式2 ( 1 6 8 ) 、模式3 ( 8 1 6 ) 、模式4 ( 8 * 8 ) 、模式5 ( 8 * 4 ) 、模式6 ( 4 * 8 ) 、模式7 ( 4 * 4 ) 。如图所示： h 2 6 4 运动估计算法的研究与实现 1 6 宰1 6 1 6 * 8 8 * 88 * 4 n 刮 8 木16 8 木8 4 * 84 * 4 图2 2 宏块分割其中模式1 、模式2 、模式3 为称之为宏块，模式4 、模式5 、模式6 、模式7 称为亚宏块。大尺寸的模式适应于像素相似度较高的平坦区域的图像，小尺寸的宏块模式适应于大量细节的图像。对于色度块( c r ，c b ) 的宏块模式划分和亮度块相似，只是尺寸为亮度块的1 4 ，例如亮度宏块的宏块模式1 尺寸为1 6 1 6 ，而色度块的宏块模式1 为8 * 8 。以前的视频编解码标准将视频序列固定的划分为1 6 1 6 的宏块，这种采用固定的宏块划分带来了较高的误差。h 2 6 4 采用的7 种模式虽然提高了信噪比，但是编码器和解码器的时间复杂度确有了很大的提高。h 2 6 4 支持的帧类型包括，i 帧、p 帧、b 帧、s p 帧。其中i 帧只能做帧内预测。p 为前向预测帧。b 帧为双向预测帧，可以采用参考帧组中的前向组和后向组。s p 帧是 h 2 6 4 中的预测切换帧，他的用途主要在比特流的切换。 2 4 整数变换与量化以往的标准采用的是8 * 8 尺寸的整数变换，h 2 6 4 采用的是4 * 4 的整数变换。使用整数变换与量化是为了减少图像的传输码率。整数变换和d c t 变换的差异主要表现在以下方面：1 所有的运算和数据都是整型的。2 无匹配误差。运算简单无乘法和除法运算。整数变换与量化步骤如图所示：硕i 二学位论文田图2 3 编码及量化 h 2 6 4 标准采用了4 * 4 整数离散余弦变换。其中变换公式如下： y = a x a ， ( 2 1 ) 么= 口口口口 bc - - cb 口一口一口口 c 一66 一c ( 2 2 ) 其中】，表示变换结果，彳为变换系数，其中a 、b 、c 为实数。量化是为了降低图像的编码长度，量化公式如下： f = r o u n d ( 三) ( 2 3 ) 卵其中y 为整数离散余弦变换结果，f 为量化结果，印表示量化步长。h 2 6 4 标准中一共有5 2 个量化步长，从0 到5 1 。对于精度要求高的序列，采用小的量化步长。对于压缩比要求高的序列，采用大的量化步长。 h 2 6 4 运动估计算法的研究与实现 2 5 熵编码以前的视频编解码标准中采用的是特制且固定的变长编码，在任何时候认为其统计特性是固定的，但是在现实生活中这种情况很少存在。h 2 6 4 熵编码采用了基于上下文的可变长编码，该编码方式基于霍夫曼编码。该方法完全依据字符出现概率来构造带权路径长度最小的二叉树从而实现平均码字最短。编码步骤如下： 1 对非零和拖尾系数个数进行编码。 2 对拖尾系数符号进行编码。 3 对非零系数进行编码。在h 2 6 4 中可变长编码分为两种，一种是基于上下文的自适应变长编码，另一种是基于上下文自适应的算术二进制编码。基于上下文的自适应变长编码自适应性强，编码效率高，但是压缩效率低的缺点，不适应于需要高压缩比的场合；基于上下文自适应的算术二进制编码将数据映射成为二进制位串，从而提高了压缩效率，但是增加了算法的时间复杂度。 2 6 率失真优化为了在图像的质量和码率之间得到一个折衷，h 2 6 4 编码器采用了基于 l a g r a n g i a n 系数的率失真算法。使用率失真算法主要是，实现在给定的失真条件下使码率最小。h 2 6 4 中用到的率失真公式如下：，= d + a r( 2 4 ) 其中，为开销，a 表示拉格朗日系数，r 表示所需要的比特数。h 2 6 4 标准中开销，分为三种：运动估计开销、参考帧选择开销和模式选择开销，对应的比特数分别表示运动矢量所需比特数、选定的参考帧所需要的比特数、选定的模式所需要的比特数。 2 7h 2 6 4 的网络抽象层网络抽象层做为视频编码层和传输层的接口，主要负责为视频编码层数据的打包和图像参数的设置，网络抽象层支持u d p 协议和i p 协议。该层的数据流包括网络层自己的头信息，网络层的结构信息，视频编码层的数据信息。在码流中开始前缀用码流o x 0 0 0 0 0 1 表示，为了防止在实际编码中出现和开始位置的码流重合，出现o x 0 0 0 0 0 1 码流的时候插入一个字节o x 0 1 。码流的传输过程为，1 分配内存缓冲区。2 读取三个字节到内存中，判断是否是开始前缀，网络抽象层的开始前缀为o x 0 0 0 0 0 1 。如果读取的3 个字节是开始前缀则跳到下一步，如果不是则硕一：学位论文继续跳到下一步。3 读入一个字节到缓冲区，判断当前3 个字节是否是开始前缀，如果是开始前缀跳到下一步，否则继续当前步骤。4 读取一个字节数据。判读读取的数据是否是文件尾。如果不是文件尾，则就将文件指针指向下一个位置，将当前指针的位置和开始前缀位置之间的数据存入到缓冲区。如果读取的数据是文件尾，计算出最后一个网络抽象层单元的长度并将数据保存到缓冲区。5 将网络抽象层单元的参数放入到相应的结构中。 2 8 h 26 4 句法、语义 h 2 6 4 视频编码器输出的码流实际上就是符合h 2 6 4 标准的句法元素。每个句法都表示了特定的意义：如宏块类型，量化参数等。语义阐述了句法元素的具体意义。每个比特流都属于一个句法，为了节约码流，句法的元素采用了层次结构。视频序列口口口口图2 4句法元素的层次结果在一个图像中的每个片都有的相同数据，可以存储在图像一级的句法元素中，如果存储在片中则会浪费码流。在以往标准的句法分层结构中，每一层句法都有一个头信息，头信息和该句法的数据是管理和被管理的关系。如果头信息丢失，则该句法的整个数据都会无效。h 2 6 4 的分层结构解决了这个问题。h 2 6 4 标准句法分为5 层：序列参数集、图像参数集、片层、宏块层、子宏块层。在5 层结构中 h 2 6 4 标准取消了序列层和图像层，采用序列参数集、图像参数集合来替代。序列参数集、图像参数集不对应特定的序列和图像，同一个序列的图像可以被不同的序列中的图像引用。片层的句法包括自己携带信息所在图像中编号和大小等基本信息。语法是句法元素的组织结构，语法提供了判断、循环等描述方法。h 2 6 4 采用了类c 结构。描述子是指从比特率中提取句法元素的方法。 h 2 6 4 运动估计算法的研究与实现 2 。9 本章小结本章主要介绍了h 2 6 4 视频编解码器的结构，和该标准的一些关键技术，包括帧内预测、帧间预测、熵编码、量化、分层结构以及h 2 6 4 的句法等。 1 2 硕士学位论文第三章典型的块匹配运动估计算法研究 3 1 运动估计算法简介由于在现实生活中物体运动的连续性，导致在一个连续的视频序列中前后两帧视频图像之间的差异会很小，可能只是物体之间的相对位置发生了变化，或者这两帧视频图像在边界上变化较大。对于视频编码器而言，如果对整个视频图像进行编码，则会造成很大的码流浪费。编码器只需要对两幅图像的差异进行编码。解码器根据这些差异和参考帧就可以得到正确的视频图像。提取物体的相对运动的过程就是运动估计( m o t i o ne s t i m a t i o n ) ，提取的相对位移就是最佳运动矢量【1 5 3 1 1 块匹配运动估计算法原理运动估计是视频编码中最重要步骤，也是最耗时间的部分。它根据一定的模式选择标准，先把一个图像分成互不重叠的宏块、亚宏块，这些宏块或者亚宏块中所有的象素值相差都在一定的限定范围，也就是说整个块的信息是很平坦的。编码帧中的每一个宏块、亚宏块称为编码块，在参考帧中一定搜索范围内找到与编码块最相似的块，这个最相似的块就是最佳匹配块。接着计算最佳匹配块与当前块之间的位移，这个位移就是最佳运动矢量m v ( m o t i o nv e c t o r ) 。这个匹配块与编码块不可能是完全一样的，两个块之间有一定的差异的，这个差异称为差残。块匹配运动估计算法一般分为如下四个步骤进行：步骤1 ：在参考帧中的特定区域内用一定的搜索算法找到当前块的匹配块。步骤2 ：计算该宏块的运动估计开销。步骤3 ：当找到当前块的匹配块之后，就可以对各种块模式进行比较得出编码代价最小的模式作为最优的编码模式。步骤4 ：对当前块进行运动补偿之后再计算残差值。 3 1 2 块匹配运动估计算法关键技术块匹配算法主要包含以下几个关键部分：搜索策略，搜索范围，估计精度，匹配块大小选择，起始点选择。搜索策略是块匹配中最关键的部分。搜索策略的好坏直接关系到块匹配算法的时间复杂度和精度。好的搜索策略应该是在降低时间复杂度的同时得到准确的结果。现行的快速运动估计算法根据最佳匹配点在搜索区域的概率分布，结合 h 2 6 4 运动估计算法的研究与实现搜索模板的性质可以很

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电子科学与技术专业论文）h264运动估计算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（电子科学与技术专业论文）h264运动估计算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档