（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：68 大小：4.32MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf_第2页

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf_第3页

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf_第4页

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf_第5页

已阅读5页，还剩63页未读，继续免费阅读

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

江苏大学硕士学位论文摘要摘要为了节约传输带宽、存储空间，视频编码早已成为国内外研究和工业应用的热点之一。至今国际上已制定了一系列的视频编码标准，如m p e g x ，h 2 6 x 等。为了推动中国视频技术的发展，我国于2 0 0 2 年6 月成立了“数字音视频编解码技术标准工作组，联合国内从事数字音视频解码技术研发的科研机构和企业，制定具有我国自主知识产权的数字音视频编解码标准a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 标准。a v s 标准具有性能高、复杂度低等优点，具有广阔的发展前景。在视频编码系统中，运动估计技术对降低视频序列时间冗余度、提高编码效率起着非常关键的作用。一方面，运动估计的准确程度将决定视频编码效率。另一方面，运动估计算法的复杂度将直接决定视频压缩编码系统的复杂度。本文针对a v s 视频编码标准中复杂度较高的运动估计技术进行了深入的研究，包括整像素运动估计和分数像素运动估计。对于整像素部分，考虑到u m h e x a g o n s ( u n s y m m e t r i c a l c r o s sm u l t i h e x a g o n g r i ds e a r c h ) 算法在高效的起始点搜索后，还要再继续进行六边形或小菱形的搜索，造成一定的搜索冗余；另外算法中的部分搜索模板过于固定，没有根据不同的块大小采取不同的措施，也造成不同程度的搜索冗余。在此基础上，本文提出在原算法的起始点预测后，添加一个阂值判断以提前终止搜索，减少不必要的运动估计耗时；另外，对原算法中的一些固定的搜索模板，进行了自适应的调整，提高了搜索效率。对分数像素部分，原算法在处理块尺寸大小为1 6 x1 6 、1 6 8 和8 1 6 的块时采用h f p s ( h i e r a r c h i c a lf r a c t i o n a lp e ls e a r c h ) 算法。h f p s 算法属于亚像素的全搜索法，它的特点无疑是性能最佳，但最大的缺点就是速度最慢。考虑到亚像素运动估计时运动矢量集中在初始搜索点附近的规律，本文提出一种基于十字搜索模型的、能自适应调整搜索模板的算法，通过预先判断匹配点的位置，决定下一步的搜索模板。实验结果表明，和原算法相比，这两种算法都只需要牺牲很少的比特率，就可以在保证不影响编码质量的前提下，减少运动估计耗时，实现了预期的研究目标。关键词：a v s ；视频编码；运动估计；提前终止；自适应江苏大学硕士学位论文a b s t r a c t a b s t r a c t t os a v et h en e t w o r kb a n d w i d t h , s t o r a g es p a c e ，v i d e oc o d i n gh a sb e c o m eo n eo ft h eh o t i s s u e so fr e s e a r c ha n di n d u s t r i a la p p l i c a t i o n s s of a rt h ei n t e m a t i o n a lc o m m u n i t yh a ss e tas e r i e s o fv i d e oc o d i n gs t a n d a r d s ，s u c ha sm p e g - x ，h 2 6 x t oi m p r o v et h ev i d e ot e c h n o l o g yi nc h i n a , a v sv i d e os t a n d a r di sd e v e l o p e db yt h ea u d i ov i d e oc o d i n gs t a n d a r dw o r k i n gg r o u po fc h i n a , w h i c hw a sa p p r o v e di nj u n e2 0 0 3 a v sv i d e os t a n d a r dp r o v i d e sag o o dt r a d e o f fs o l u t i o n b e t w e e nc o m p l e x i t ya n de n c o d i n ge f f i c i e n c y i nv i d e oc o d i n gs y s t e m ，m o t i o ne s t i m a t i o np l a y sa v e r yi m p o r t a n tr o l ei ne l i m i n a t i n gi n t e r - f r a m er e d u n d a n c ya n di m p r o v i n gt h ep e r f o r m a n c eo f v i d e oc o d e no no n eh a n d ，t h ea c c u r a c yo fm o t i o ne s t i m a t i o na f f e c t st h ee f f i c i e n c yo ft h ev i d e o c o d e r o nt h eo t h e rh a n d ，t h ec o m p l e x i t yo ft h ee n c o d e rl i e so nt h a to ft h em o t i o ne s t i m a t i o n a l g o r i t h m t h i sp a p e rs t u d i e st h em o t i o ne s t i m a t i o nw i t hh i g hc o m p l e x i t yi na v s ，i n c l u d i n gt h ei n t e g e r p i x e lp a r t a n dt h e s u b - p i x e lp a r t f o r t h e i n t e g e rp i x e lp a r t o f u m h e x a g o n s ( u n s y m m e t r i c a l c r o s sm u l t i h e x a g o n g d ds e a r c h ) ，t h eo r i g i n a la l g o r i t h mc o n t i n u e st h e h e x a g o ns e a r c ho rd i a m o n ds e a r c ha f t e rt h ei n i t i a ls e a r c hp o i n tp r e d i c t i o n 、析t l lg o o de f f e c t t h a t p r o d u c e ss o m er e d u n d a n ts e a r c h , w h i c hi st h es a m ea ss o m es e a r c hp a t t e mi sf i x e dw i t h o u t c o n s i d e r i n gd i f f e r e n tc a s e s o nt h eb a s eo ft h a t ，a ne a r l yt e r m i n a t i o ni sa d d e da f t e rt h ei n i t i a l s e a r c hp o i n tp r e d i c t i o na n dt h es e a r c hp a t t e r ni sa d a p t e dw i t ht h ed i f f e r e n tb l o c kt y p e f o rt h e s u b - p i x e lp a r t , t h eo r i g i n a la l g o r i t h mu s e st h eh f p s ( h i e r a r c h i c a lf r a c t i o n a lp e ls e a r c h ) a l g o r i t h mi ft h eb l o c kt y p ei s1 6 x 1 6 、1 6 x 8a n d8 x 1 6 h f p sa l g o r i t h mi sak i n do ff u l ls e a r c h a l g o r i t h mo fs u b p i x e lw i t ht h eb e s tp e r f o r m a n c e ，b u tt h em o s tt i m e c o n s u m i n g c o n s i d e r i n gt h a t t h em o t i o nv e c t o r so fs u b - p i x e li su s u a l l ya r o u n dt h ei n i t i a ls e a r c hp o i n t ，a na l g o r i t h m 晰l a d a p t i v es e a r c hp a t t e mb a s e do nd i a m o n dp a t t e r ni sp r o p o s e di nt h i sp a p e r i td e c i d e st h en e x t s t e pa f t e rj u d g i n gt h eb e s tm a t c h i n gp o i n t sp o s i t i o n t h et e s ts h o w st h a tt h ei m p r o v e da l g o r i t h mc o u l dr e d u c et h et i m e - c o n s u m i n gi nm o t i o n e s t i m a t i o nw i t ho n l yal i t t l ed e c r e a s ei n b i tr a t ea n dh a r d l yl o s si ni m a g eq u a l i t y i tb a s i c a l l y a c h i e v e st h ea n t i c i p a t i v eg o a l k e y w o r d s ：a v s ；v i d e oc o d i n g ；m o t i o ne s t i m a t i o n ；e a r l yt e r m i n a t i o n ；a d a p t i v e i i 江苏大学学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于保密口，在年解密后适用本授权书。不保密团。学位论文作者签名：丁鸯 2 0 0 8 年l 月l 歹日指导教师签名：一3 也，2 0 0 8 年口月6 日独创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已注明引用的内容以外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位敝作者躲j 易日期：2 0 0 8 年i ) ，月l5 日江苏大学硕士学位论文第一章绪论 1 1 课题研究背景及意义随着信息技术和计算机互联网的飞速发展，人类的生活、学习和交流方式产生了巨大变化。多媒体信息已成为人类获取信息的最主要载体，同时也成为电子信息领域技术开发和研究的热点。大信息量的音视频数据被广泛使用，如常见的v c d 、d v d 等都是将大量的音视频数据经过处理后供用户使用的。多媒体信息中，视频信息是一种比较特殊的媒体，人类接收的信息大约有7 0 t 1 】来自视觉，而且视频信息具有直观性、可靠性等一系列优点。视频技术的应用范围很广，如网上可视会议、网上可视电子商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。因此，视频信息是人类最有效和最重要的信息获取形式。由于视频数据量非常大，即使现在c p u 、磁盘、传输信道的性能都迅猛发展，但是，从下面的事实可以看出，压缩技术仍有一段路要走。比如，n t s c 制式的电视图像以6 4 0 x 4 8 0 的分辨率、2 4 b i t 像素、每秒3 0 帧的质量传输时，其数据传输率达2 1 1 m b i t s ，5 秒的未压缩视频图像将占用1 g b i t 的存储空间。如此海量的数据量，单纯靠扩大存储器容量、增加数据传输率的办法是不现实的。可见，如何压缩视频数据量成为多媒体技术发展的关键问题，它是降低传输和存储成本，缓解网络带宽和存储空间限制的一个重要手段。大部分信息都具有高度的相关性，或者说，它们本身包含着冗余。视频信号上存在大量的冗余，并且这种冗余在编解码后可以无失真地恢复。视频信号的冗余主要表现为时间冗余和空间冗余。一般情况下画面的大部分区域信号变化缓慢，尤其是背景部分几乎不变，因此，视频图像在相邻像素间、相邻行间、相邻帧间存在强相关性，这种相关性就表现为空间冗余和时间冗余。视频图像的空间冗余一般通过离散余弦变换 2 ( d i s c r e t ec o s i n e t r a n s f o r m ，d c t ) 、离散小波变换( d i s c r e t ew a v e l e tt r a n s f o r m ，d w t ) 等变换来去除，而消除视频图像的时间冗余则通常使用运动估计和运动补偿来完成。另外，由于人眼对图像的细节分辨率、运动分辨率和对比度分辨率的感觉是有一定界限的，所以可以利用人的这一视觉特性，牺牲一定的客观失真来换取数据压缩。前提是满足对图像质量的一定要求，不影响主观效果。作为多媒体技术的核心及关键，视频压缩编码近年来在技术和应用上都取得了很大的进展，它的进步和完善正深刻影响着现代社会的方方面面。江苏大学硕士学位论文 1 2 数字视频编码技术的发展历程在过去的二十多年里，视频压缩一直是一个活跃的研究和发展领域，期间许多不同的压缩解压系统和算法被提了出来，促进了一系列主要视频压缩国际标准的发展。 1 2 1 国外视频编码标准国际上数字视频编解码标准主要有两大系列：国际电信联盟( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ，i t u ) 和国际标准化组织( i n t e r n a t i o n a lo r g a n i z a t i o nf o r s t a n d a r d i z a t i o n i n t e m a t i o n a le l e c t r ot e c h n i c a lc o m m i s s i o n ，i s o i e c ) 。国际电信联盟组织( i t u ) 提出了h 2 6 x 系列( 如：h 2 6 1 、h 2 6 2 、h 2 6 3 等) 视频编码标准，主要用于网络实时传输的视频会议和可视电话等方面。该组织面向全球所有对此感兴趣的单位，在每三个月一次的会议上，讨论各个科研单位的技术提案，以此完善编码技术标准。国际标准化组织( i s o h e c ) 起草了m p e g x 系列( 如：m p e g 1 、m p e g 2 、m p e g 4 ) 视频编码标准，主要用于视频存储( d v d ) ，视频广播、视频流( 如互联网视频以及无线视频) 。其中m p e g 1 和m p e g 2 标准在视频存储方面取得了极大成功，而所提出的 m p e g 一4 标准则是突破了原有的编码概念，提出了基于对象的编码方法。此外，该组织还针对多媒体内容标识和普通的多媒体架构分别提出了m p e g 一7 和m p e g 一2 1 两类标准。由于两大标准化组织所提出的视频编码标准分别针对不同的应用领域，因此必然存在着应用局限性，因此从1 9 9 7 年起，i s o h e cm p e g 联合i t u tv c e g 组成j o i n tv i d e ot e a m ( j v t ) ，负责h 2 6 l 标准的制定，其主要目的是建立一套简单高效的视频编码标准。2 0 0 3 年，该系列标准已经发展到h 2 6 4 版本，正式命名为a v c ( a d v a n c e dv i d e oc o d i n g ) ，并分别作为i t u 的h 2 6 4 标准以及i s o i e c 的m p e g 4 的第1 0 部分。制定此标准的主要目的就在于增强图像的压缩效率和改善图像数据在网络中的传输。h 2 6 4 因其更高的压缩比、更好的i p 和无线网络信道适应性，必将在数字视频通信或存储领域得到越来越广泛的应用。同时也要注意，h 2 6 4 获得优越性能的代价是计算复杂度的增加，据估计，编码的计算复杂度相当于h 2 6 3 的三倍，解码复杂度大约相当于h 2 6 3 的两倍。以上这些视频编码标准的制定，极大地推动了视频编码技术的发展，同时更为信息产业的进步注入了强大的动力。图1 1 表示出了视频编码标准发展历程，图中横粗虚线以上表示由i t u 制定的编码压缩标准，横粗虚线以下表示由i s o i e c 制定的标准，压在横粗虚线上的方框表示由i s o i e c 与i t u 联合制定的编码压缩标准。 2 豳 _ _ 5 m 器e g _ p _ 渊一 1 9 9 0 1 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 3 图1 1 视频标准发展历程由图l1 可见，视频压缩标准可分为两大系列：m p e g x ；h 2 6 x 。它们在数据格式和输出码率之间有如表l1 所示的对应关系。表1ii t u 标准与i s o i e c 标准对应关系 f 面介绍i s o i e cm p e g 系列标准技术特点： ( 1 ) m p e g 1 1 3 】 m p e g i 制定于1 9 9 2 年，全称为“动态图像和伴音的编码”标准。该标准详细说明了电视图像和声音的压缩、解压缩方法，以及播放m p e g 数据时所需的图像与声音的同步。m p e g 一1 适用于在1 5 m b i l s 以下的数字媒体，同时也适用于远程通信及局域网等。 m p e g i 制定的目标码率是1 2 m b i t j s ，对于c i f ( 3 5 2 x 2 8 8 ) 格式的图像可以达到实时播放是为只读c d r o m 光盘的视频存储和播放所制定的。 ( 2 ) m p e g - 2 t 4 h2 6 2 m p e g 2 制定于1 9 9 4 年，称为“运动图像及其伴音的编码”标准，是由1 s o i e c 和 i t u 联台制定的第一个国际标准，在i t u 系列建议中被称为h2 6 2 。该标准是针对标准数字电视和高清晰数字电视在各种应用下的压缩方案和系统层的详细规定，编码码率从 3 m b i t s 到1 0 0 m b i t s 。m p e g - 2 特别适用于广播级的数字电视的编码和传送，被认定为 3 江苏大学硕士学位论文 s d t v 和h d t v 的编码标准。它与m p e g 1 兼容，增加的功能为：处理隔行扫描视频信号的能力；更高的色度信号取样模式；可伸缩的视频编码方式。 ( 3 ) m p e g 4 【5 】 m p e g 4 制定于1 9 9 8 年，称为“音视频对象的编码标准。该标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立起一种能被多媒体传输、存储、检索等应用普遍采用的统一数据格式，并根据不同的应用需求，现场配置解码器，开放的编码系统也可随时加入新的有效的算法模块。为了支持对视频内容的访问，m p e g - 4 提出了“视频对象的概念。与m p e g 1 、m p e g - 2 不同，m p e g 4 不仅是针对一定比特率下的视频、音频编码，更加注重多媒体系统的交互性和灵活性。m p e g 4 标准主要应用于可视电话( v i d e op h o n e ) 、可视邮件( v i d e oe m a i l ) 和电子新闻( e l e c t r o n i cn e w s ) 等。接下来介绍i t uh 2 6 x 系列标准技术特点： ( 1 ) h 2 6 1 1 6 1 h 2 6 1 于1 9 9 0 年制定，目的是规范i s d n ( i n t e g r a t e ds e r v i c ed i g i t a ln e t w o r k ) 网上的会议电视和可视电话应用中的视频编码技术。虽然h 2 6 1 是最早的运动图像压缩标准，但它详细制定了视频编码的各个部分。它允许“采用p 6 4 k b i t s 的图像业务的图像编解码”，所以也简称p 6 4 。由于h 2 6 1 是用于电视电话和电视会议的，因而它的图像编码算法必须是实时处理，且由于图像与语音密切配合，要求最小的延迟时间。当p 取l 或2 时，速率只能达到1 2 8 k b i t s ，速度较低，只能传清晰度不太高的图像，所以适合于面对面的电视电话。当p 6 时，码率 _ 3 8 4 k b i t s ，速率较高，可传输清晰度好的图像，所以适用于电视会议。 ( 2 ) h 2 6 3 7 】 h 2 6 3 制定于1 9 9 6 年，是一种低码率图像压缩标准。它在h 2 6 1 的基础上做了许多改进以进一步改善图像质量，提高压缩比。h 2 6 3 不仅着眼于公共开关电话网络( p s t n ) 传输，而且还兼顾通用开关电信网络( g s t n ) 等无线业务，适用于码率低于6 4 k b i f f s 的视频压缩系统。在此基础上，i t u 陆续推出了h 2 6 3 v e r s i o n 2 ( h 2 6 3 + ) 和h 。2 6 3 v e r s i o n 3 ( h 2 6 3 + + ) ，后二者是在h 2 6 3 的基础上扩展而，与h 2 6 3 兼容，有更好的压缩性能和更广的应用范围。 ( 3 ) h 2 6 4 1 8 】 h 2 6 4 于2 0 0 3 年发布，作为i s o i e c 与i t u 的联合视频组t 制定的最新国际视频 4 江苏大学硕士学位论文标准，该标准是作为面向可视电话、电视会议的新一代编码方式。它在h 2 6 1 、h 2 6 3 和 h 2 6 l 等视频压缩标准的基础上，进行了进一步的改进和扩展。其目的是为了进一步降低编码率，提高压缩效率，同时提供一个友好的网络接口，使得视频流更适合在网络上传送。它适用的范围比较广，除了各种高、低码率的视频压缩系统外，还可用于实时通信系统、视频存储、视频流服务器及在高误码率传输的无线网络中传输视频数据。 1 2 2 我国自主研发的视频编码标准a v s 中国数字音视频编解码技术标准工作组，简称a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 工作组【9 】【1 0 】信息产业部科学技术司于2 0 0 2 年6 月批准成立。工作组的任务是：面向我国的信息产业需求，联合国内企业和科研机构，制( 修) 订数字音视频的压缩、解压缩、处理和表示等共性技术标准，为数字音视频设备与系统提供高效经济的编解码技术，服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用【l 。在2 0 0 3 年1 2 月1 8 日至1 9 日举行第七次会议上，工作组完成了a v s 标准的第一部分( 系统) 和第二部分( 视频) 的草案最终稿( f c d ) ，和报批稿配套的验证软件也已完成。2 0 0 4 年完成了a v s l 0 标准的音频和数字版权管理与保护部分的制定工作。2 0 0 4 年度第一季度启动第二版的a v s 视频标准面向新一代移动通信的视频编码标准制定。2 0 0 4 年1 2 月底，a v s 标准系统与视频部分顺利通过审定，主要面向高清晰度电视、高密度光存储媒体等应用。a v s 目前定义了一个档次( p r o f i l e ) 即基准档次，该基准档次又分为4 个级别( 1 e v e l ) ，分别对应高清晰度与标准清晰度应用。数字音视频产业包括数字电视在内目前广泛采用的信源编码标准是m p e g 2 。我国相关科研和使用部门在制定数字电视标准时也都考虑过接收m p e g 2 标准。然而，这并非是一个最好的选择，除了昂贵的专利费，从另一方面考虑，m p e g 2 是1 9 9 4 年完成的，近 1 0 年的技术进步已经让m p e g 2 技术越来越落后了。国际上目前正考虑用h 2 6 4 m p e g 4 a v c 取代m p e g 一2 。我国积极参与了新国际标准的制定并做出了一定的技术贡献，但是，新的标准仍是一个收费标准，肯定不会比m p e g 2 初期的收费便宜。以机项盒为例， m p e g 一2 每年大约收取1 0 0 亿，而另一个国外标准h 2 6 4 更是可以获取5 0 0 亿元。中国移动如果采用h 2 6 4 国外标准来做t d 业务，2 0 0 8 年到2 0 0 9 年，它将为此付出2 2 2 亿元专利费，2 0 1 0 年，将是1 0 8 5 亿元。而中国a v s 标准则只对编解码设备收取专利费，不对运营商与最终用户收取，且每台设备的专利费只收入1 元钱。而且从国际标准来说，由于技术上需要平衡各方利益，并不一定是最好的技术组合，我国的a v s 则不需要考虑这些 5 嚣大学硕i 学位论文因素，可以做得更好。据预测，数字音视频产业将在2 0 1 0 年成为国民经济第一大产业。a v s 作为数字音视频产业“牵一发动全身”的基础性标准，为我国构建“技术一专利_ 标准_ 芯片与软件_ 整机与系统制造_ 数字媒体运营与文化产业”的产业链条提供了难得机遇，如图1 2 所示。媒体运营商一电视台一音像发行电信运营内容提供商 ( 高清晰) 数字电视广播电视直播卫星移动视频通信宽带网络流媒体视频会议与视频监控激光视盘播放机用户一电趣缸机顶盆一计算机一手机 j 电电信鞋备系统家i 乜、谢赀 ! 了躺肼码芯“与软件标准技术、算浊、擎利能源编码理论圈12 a v s 产业链示意瞄 a v s 对于数字电视运营意义重大。数字电视运营系统包括三个主要环节：制作、播 f j j 、传输。其中制作( 电视台演播室) 和传输( 数字电视传输网) 是投入艟大的部分，但二者都与播出节日所采用的格式无关，因此采用a v s 不影响这些设备的既有投入。a v s 唯一要求增加的是编码器，而采用a v s 得到的回报远大于替换编码器的投入：至少可以节省一半传输带宽资源、为标清业务部署的传输系统可以直接提供高清业务。从电视网看，传输的节目容量扩大一倍。从国有资源看，地面广播中节省一半的无线频谱资源，意义十分重大。简言之，a v s 最直接的产业化成果是未来l o 年我国需要的35 亿颖解码芯片，最直接效益是节省超过1 0 亿美元的专利费，a v s 最大的应用价值是利用面向标清的数字电视传输系统能够直接提供高清业务、利_ j 当前的光盘技术制造出新一代高清晰度激光视盘机，从而为我国数字音视频产业的跨越发展提供了难得契机。a v s 将在标准工作组的基础上，联台家电、i t 、广电、电信、音响等领域的芯片、软件、整机、媒体运营方面的强势企业，共同打造中国数字音视频产业的光辉未来。 6 江苏大学硕士学位论文 1 3 运动估计在视频编码中的重要性视频压缩主要利用了视频数据中的冗余信息，其中空间冗余靠d c t 变换和矢量量化来消除，编码冗余利用熵编码来消除，而冗余度远大于空间冗余度和编码冗余度的帧间时间冗余则是利用运动估计来消除。由于帧间时间冗余度的重要性，运动估计自然成为视频压缩编码系统中非常重要的模块，它直接影响到视频数据压缩编码的效率和编码质量。运动估计越准确，编码效率就越高，解码出来的视频质量就越好。同时，运动估计的计算复杂度在整个视频数据压缩编码系统中最大，占整个系统计算量的5 0 以上。因此，运动估计性能的好坏不仅很大程度上决定了视频图像压缩编码的质量，还根本性地决定了整个视频压缩编码系统的实时性能。如何提高运动估计的效率，使运动估计算法的搜索过程更健壮，更快速，更高效成为目前研究的热点。 1 4 本文的主要工作和结构安排本课题的主要目的在于研究分析运动估计的基本原理和现有的运动估计算法，并针对 a v s 标准中采用的运动估计算法进行深入的研究。本论文的主要工作体现在： ( 1 ) 对a v s 和其他国际视频标准作简单介绍，将h 2 6 4 与a v s 的关键技术作进一步的性能比较，并通过测试实验证实a v s 是非常有竞争力的一种高效的视频编码标准。 ( 2 ) 详细研究了现有的一些经典运动估计快速算法，分析了各自的优势弊端。 ( 3 ) 针对a v s 参考软件r m 5 2 jr l ，对运动估计算法进行了研究，总结了一些改进方案。整像素运动估计部分，通过加入提前终止搜索判断和自适应调节搜索模板，避免陷入搜索冗余；分数像素运动估计部分，提出了一种基于十字模型的搜索方式替代原先的算法。实验结果表明，新算法在保持视频质量的同时，可以显著地降低运动估计的时间，使编码性能整体获得提高。基于以上已经完成的工作，论文的章节安排如下：第一章：主要介绍了视频图像压缩的必要性，国内外视频编码技术的发展历程以及本文的研究对象运动估计在视频编码中的重要作用。第二章：首先介绍了视频压缩的基本原理和a v s 标准相关的理论基础，然后针对a v s 视频编解码框架对其中的组成部分和关键技术做了较为详细的介绍，并与h 2 6 4 进行相应的比较，最后通过实验给出了对a v s 的性能评价。第三章：深入分析运动估计技术，包括运动估计和运动补偿的基本原理、块匹配准则等，同时介绍了一些经典快速运动估计算法，并分析了各自的优缺点。 7 江苏大学硕士学位论文第四章：针对a v s 参考软件r m 5 2 jr l 中的运动估计算法进行了详细的分析研究，分别对整数和分数部分的运动估计算法分别提出了改进，给出了各项实验结果，验证了各改进方案的有效性。第五章：总结与展望。主要对文中用到的技术和研究工作进行总结，提出不足和需要改进之处以及对将来的展望。 1 5 本章小结本章主要介绍了课题的研究背景及意义，回顾了国内外视频编解码标准的形成、特点和应用领域等基本问题，并对运动估计在视频编码中的地位做了总结。 8 江苏大学硕士学位论文第二章a v s 视频编码技术 2 1 视频编码原理虽然表示视频信号需要大量的数据，但这些数据往往是高度相关的，这些相关性会引起信息的冗余，因此可以通过去除冗余信息来实现对视频数据的压缩。静止图像压缩的一个主要目标是在保证一定重建质量的前提下，尽量去除图像本身存在的空间冗余数据。而压缩视频信号，就是在去除空间冗余数据的同时，还要去除时间冗余及其他冗余以达到较高的压缩比和较低的数码率。视频信号中的冗余主要有以下几个方面： ( 1 ) 空间冗余空间冗余是指在同一帧画面中，相邻像素间存在的相关性，特别是当这些相邻像素位于同一个视频对象中时，相关性极强，如图像中的背景区域。 ( 2 ) 时间冗余通常对于一个视频序列，除非场景切换，否则前后帧在时间上都是连续的。在前后两帧图像中的内容往往非常相近，只是由于镜头的转动和对象的移动使得空间位置发生变换，运动越缓慢，空间未指定的变化越小。因此视频序列在时域上也存在着极强的相关性。 ( 3 ) 编码冗余由信息论的有关原理可知，它为表示图像数据的一个像素点，只要按其信息熵的大小分配相应比特数即可。然而对于实际图像数据的每个像素，很难得到它的信息熵，在数字化一幅图像时，对每个像素使用相同的比特数表示，这样必然存在冗余。空间冗余、时间冗余和编码冗余统称为统计冗余，因为它们都决定于图像数据的统计特性。 ( 4 ) 结构冗余在有些图像的部分区域内存在着非常强的纹理结构，或是图像的各个部分之间存在某种关系，如自相似性等，这些都是结构冗余的表现。 ( 5 ) 知识冗余在有些图像中包含的信息与某些先验的基础知识有关，例如一幅头肩图像中，头、眼、鼻和嘴的相互位置信息就是一些常识。这种冗余称为知识冗余。 ( 6 ) 视觉冗余【1 2 】在大多数情况下，重建图像的最终接收者是人的眼睛。为了达到较高的压缩比，可以利用人类视觉系统的特点。人眼的视觉特性，对某些空间频率感觉迟钝。因此视频中不同的频率成分，对人眼系统而言，其重要程度是不一样的。例如人眼对亮度信号变化的敏感 9 江苏大学硕士学位论文性高于色度信号的变化。因此可以对色度信号进行降采样，同时保持主观视觉质量不变。视频压缩编码方法的分类没有统一的标准，从不同的角度出发有不同的分类方法。一种是从编码前后信息是否有损失的角度出发，分为有损压缩编码和无损压缩编码。无损压缩编码也称为熵编码或信息保持编码，这种压缩编码尽量去除图像中的冗余部分，保证不丢失其中的任何有用信息，从而保证被压缩的信息解码恢复之后与原来保持一致，无失真地恢复原来图像内容。有损压缩编码则是在压缩过程中会损失部分信息熵，它是一种失真编码，也就是说以丢失部分有用信息为代价而获得相应的压缩效果。常用的熵编码有霍夫曼编码、算术编码和游程编码，而且这三种熵编码方法已被各种图像和视频编码国际标准所采纳。另一种分类方法是按压缩编码技术所依据和使用的数学理论和计算方法，可分为统计编码、预测编码、变换编码和矢量量化编码等。统计编码是基于信号统计特性的编码方法，是一种无损编码。预测编码是利用邻近像素之间的相关性，首先根据当前编码像素值和预测值得出预测误差信号，然后再对预测误差信号编码。显然，预测误差信号与原来信号相比，相关性和幅值( 相当于能量) 更小，最常用的预测编码是差分脉冲调制编码d c p m t l 3 】。变换编码通过多维变量坐标系中适当的坐标旋转和变换，把接近均匀散布在各个坐标轴上的原始图像数据，变换到新的坐标系中，使这些图像数据集中在少数新坐标上，从而减少各坐标变量之间的相关性，变换编码后的能量集中在少数系数上。常见的变换编码有k l ( k a r h u n e n l o e v e ) 变换【1 4 1 、d c t 、小波变换( w a v e l e tt r a n s f o r m ) 1 5 1 等。还有一种按照描述视频源的信源模型来进行分类，可分为基于波形编码和基于内容编码两大类。基于波形编码的信源模型通常是采用像素来表示图像的，像素是最基本单元，尽可能精确地用像素值表示在该像素点的光强和颜色值，不考虑一组像素可能代表一个具体物理对象这一事实情况。上述两种分类方法中所涉及的如熵编码、变换编码、预测编码技术，以及同时结合编码和预测编码方法的混合编码都属于此类，这类编码技术也称为第一代视频编码技术。另一类是其信源模型的基本单元不是像素而是对象的编码方法，称为基于内容( 对象) 的编码技术。它把一帧图像分割成许多不同对象并独立地编码这些对象，对于每一个对象，要编码和发送的信息是对象的运动、纹理和形状信息。基于对象的分析综合编码、物体基编码和语义基编码都属于这一类。显然，以对象特征信息来描述图像是一种比用像素来描述的更高层次的编码方法，可以达到更高的压缩率。 1 0 江苏大学硕士学位论文 2 2a v s 标准相关理论基础 2 - 2 1 视频捕获自然中的图像在时间和空间上都是连续的，而数字化的再现要求对真实图像中空间和时间上进行采样，如图2 1 所示。每一个时空域的采样( 图像或像素) 都用一个或者一组数字表示它们的亮度和颜色。为了一幅二维图像的采样，摄像头把外部光线投影到传感器上，比如c c d ( c h a r g ec o u p l e dd e v i c e ) ，对于彩色图像每一种彩色分量都先被过滤出来再投影到c c d 阵列上。。卜时序采样图2 1 视频序列的时序采样和空间采样 c c d 阵列传感器的输出是模拟的视频信号，用变化的电信号表示图像，接着对每个点进行采样就产生了一幅每一个采样点上都有确定值的图像，最普遍的图像采样格式是一个采样点以正方形或者长方形网格分布的矩形矩阵。在网格的每一个交叉点上采样，然后用小正方形图像元素表示每一个采样就可以重构图像。采样点的数量会影响图像的视觉效果。粗糙稀疏的采样产生低分辨率的采样图像，而增加采样数量后的图像则具有更高的分辨率。运动图像是通过在一个矩形窗口中以一定时间间隔连续拍照进行捕获的，将这一组帧序列回放就产生了运动的效果，越高的帧率采样，得到的视频就越自然，同时也会有更多的数据量要存储。低于1 0 f s 的帧率有时会被用在低码率的视频通信上( 因为数据量相对较小) ，但是在这种帧率下运动会出现明显的跳跃和不自然；在低码率的视频通信中更常用的帧率是1 0 - - - 2 0 f s ，这时图像较平滑，但快速的运动仍然会有跳动；2 5 - - 一3 0 f s 的帧率是电视图像标准；5 0 一- 6 0 f s 的帧率则会有非常自然的运动效果，但代价是需要很高的带宽。江苏大学硕士学位论文运动的图像可能被采样成一组帧的形式( 逐行采样) 或一组场( 隔行采样) 的序列。在隔行的模式下，每一个时间点的一幅图像中只有一半的数据被采样。场是由一个完整的帧中的奇数行或者偶数行组成的，而隔行采样的视频是由一系列连续的场构成的，每一场包含了帧中一半的信息。如图2 2 所示，帧样本矩阵的第一行、第三行、第五行，依次类推，构成一个场，称为顶场；第二行、第四行、第六行，依次类推，构成另一个场，称为底场。这种采样方式的优点是在同样的带宽下可以传送的场数是相应的逐行采样中帧数的两倍，同时保持运动的不失真。图2 2 视频序列 2 2 2 色彩空间一般的数字视频应用都需要播放彩色的视频信号，所以需要一种方式捕获和重现颜色的信息。一幅黑白图像，每个采样点只需要一个值表示亮度即可。而在彩色图像中，至少需要3 个值来表示每个采样点的色彩。表示亮度和色彩的不同方法，有不同的色彩空间确定。这里将分别介绍r g b 彩色空间和y c b c r 彩色空间。 - 1 r g b 彩色空间任何彩色图像可由不同比例的红、蓝、绿组合而成，即三基色原理。这种表示彩色图像的方法即r g b 彩色空间。在捕获图像的时候，首先要把场景中红绿蓝3 中色彩分量提取出来，每一种分量单独使用一组传感器。色彩在阴极射线管显示器( c r t ) 液晶显示器 ( l c d ) 中显示的时候分别按照红绿蓝3 种分量的强度显示每一个像素。当人们从一定的距离观看时，独立的色彩分量相互混合就产生“真实的彩色”。在r g b 色彩空间里，3 种颜色分量的重要性相同，必须以相同的度量来存储它们。 2 y c b c r 彩色空间由于人类视觉系统对色度的敏感程度低于亮度，我们可以通过提高亮度精度和降低色 1 2 n 苏大学顺i 学位论文度精度，来更有效地表示彩色图像。在y c b c r 空间，只有亮度和色差传输。我们用y 表示亮度( l u m a ) 分量，它是不同权重的r ，g ，b 的平均；用蓝色色差c b 、红色色差c r 表示色度( c h r o m a ) 分量，每一个色差表示了r g b 与y 的差如公式( 21 ) 所示： y - 02 9 9 r + 05 8 7 g 十01 1 4 1 3 c b = 05 6 4 ( b 一1 n( 21 ) c r - - 07 1 3 ( r - y ) y c b c r 相对r g b 而言有一个重大的优点，就是我们可以用比y 更低的分辨率来存储 c b c r ，这样可以在实现视频数据压缩的同时，对视觉质量没有明显的影响。对于普通的观察者，r g b 图像与降低c b c r 分辨率的y c b c r 图像没有什么区别，所以这也是图像压缩中简单而有效的方式之一。 y c b c r 图像是为了减少存储或传输数量，在显示图像之前，通常还要再转换成r g b ，如公式( 2 2 ) 所示： r = y + 】4 0 2 c r g - y - 03 4 4 c 7 1 4 c r( 2 2 ) b = y + l7 7 2 c b y c b c r 的采样格式一般有以下三种： ( 1 ) 4 ：4 ：4 格式 4 ：4 ：4 采样是指每一分量( y ，c b ，c r ) 都有相同的分辨率，因为在所有的像素位置上都进行采样。4 ：4 ：4 采样保留了所有的色差分量，彩色

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）avs视频编码标准中运动估计技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档