




已阅读5页,还剩62页未读, 继续免费阅读
(电路与系统专业论文)avs向h264转码的关键技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要随着多媒体技术的不断发展和广泛应用,数字视频压缩及处理技术得到了深入研究和广泛应用。因此,用户可能需要通过不同的传输网络,不同终端设备,根据个性化的喜好来存取相同的多媒体资源,这就需要根据实际需求,对已经编码的视频数据进行相应的转换,这一转换过程即称为视频转码。本文研究的主要内容就是我国自主知识产权的a v s ( a u d i ov i d e os t a n d a r d ,音视频标准) 标准向国际最优秀的h 2 6 4 标准转换过程中的一系列关键技术,并最终实现一个快速视频转码系统。通过对三种常用视频转码器的结构进行分析,本文提出了一种改进的级联转码结构来实现a v s 向h 2 6 4 的转码,这种结构充分利用a v s 码流中的相关信息,提高了转码的效率,并使转码后新的码流有较好的视频质量。通过对a v s 以及h 2 6 4 帧内预测编码进行比较和分析,本文提出了一种帧内预测模式的快速映射算法,首先利用a v s 变换系数中直流系数方差对帧内预测模式进行分类,然后进一步利用a v s 码流中的帧内预测模式信息,对预测模式进行映射和判断,从而确定最佳帧内编码模式。这种方法能够大大缩短帧内预测的时间并且预测准确度高。在帧间转码部分,本文提出了一个基于多参考帧的运动估计和帧间模式决策算法,首先从输入的a v s 码流中得到宏块的运动信息,包括宏块参考索引、运动矢量水平垂直分量差值等,在进行h 2 6 4 编码时,直接将a v s 已有模式映射到h 2 6 4 编码模式中,对于h 2 6 4 具备而a v s 没有的模式类型,需要按照h 2 6 4 的模式类型再进一步编码细分,得到更具体的模式信息以及运动矢量信息m v ,最后通过r d o ( r a t e d i s t o r t i o no p t i m i z a t i o n ,率失真优化) 计算代价函数的方法确定最终的编码模式。这种方法不仅准确性高,而且大大缩短了帧间运动矢量估计所花费的时间,提高了转码效率。最后,根据本文前面提出的转码系统结构,结合帧内、帧间转码模式映射快速算法,在p c 机上搭建了一个a v s 向h 2 6 4 的快速转码系统。利用一系列标准序列对系统进行性能测试,结果表明,该系统能够正确实现a v s 向h 2 6 4 的视频转码,转码器的性能和编码效率均令人满意,这种改进的级联转码结构在保证图像质量的同时,可以有效地降低转码的计算量,大大提高视频流的转换效率。关键词:视频转码,a v s ,h 2 6 4 ,快速模式映射a b s t r a c ta bs t r a c tw i 也也er a p i dd e v e l o p m e n to fm u l t i m e d i at e c l l 】i o g y ,也ed i g i t a jv i d e oc o m p r e s s i o na 1 1 dp r o c e s s i l l gt e c l l i l 0 1 0 9 yh a sb e e nr e s e a r c h e dd e 印1 y s o ,m e r ei san e e dm a ta c c o r d i n gt ot h ed i 虢r e n tf a v o r i t e st 0a c c e s st h es a m er n u l t i m e d i as o u r c e st l l r o u 曲d i f f e r e mt r a n s f o n nr l e t sa n ds e t s ,u n d e rt h ea s y r l c 王l r o i l o u sn e te n v 衲m n e n t s s o ,i ti sh a v et om a k es o m ec l 瑚g e sa c c o r d i n gt om ee n v i r o 咖e n t ,a n dn l i sp r o c e s si sc a j l e dv i d e o 行a 璐c o d i l l g t h em a i nr e s e a r c hd i r e c t i o no ft h i se s s a yi st 0a n a l y z et h ek e yt e c h n o l o g i e so ft r a l l s c o d i n gf r o ma v st 0h 2 6 4 ,a i l dm a k eaf a s t 缸a 1 1 s c o d i i 坞s y s t e mc o m e 缸u ef m a l l y a r e rs t u d ya 1 1 da 1 1 a l y z e也em r e ec o m m o nd i 伍:r e n tv i d e o 仃a l l s c o d m ga r c l l i t e c t u r e ,t h i se s s a yp r e s e n t sac h a n g e dc a s c a d ep i x e l 一d o m 血昀n s c o d e rt 0c o m p l e t e l et r a n s c o d i n g 舶ma v st oh 2 6 4 t h i sa r c l l i t e c n l r ei m p r o v e st h ee 疏c t i v eo fm e 协a n s c o d e ra n dc a np r o v i d eb e t t e rv i d e oq u a l i t yo fm es t r e 锄a f t e r 咖1 s c o d i n g a 舭ri n s t m c t i o na n dc o m p a r i n go fi n 缸ap r e d i c t i o np a r to fa v sa n dh 2 6 4 ,t h j se s s a yp r o p o s e da ni n t r ap r e d i c t i o nm o d ef 如tm a p p i r 培a r i t 胁e t i c f i r s t ,m et r a i l s c o d e rw i l lm a k et h em o d ed e c i s i o nb a s e do nt l l ev a r i a n c eo ft h ei c tc o e f ! f i c i e n t so ft h e8 8b l o c k si i lt h ei n p u ta v sv i d e o t h e n ,t 1 1 et r a l l s c o d e rw i uu s et h ep r e d i c t i o ni n o d ei 1 1 f o m l a t i o ni i lt h ea v ss t r e 锄t h ep r e d i c t i o nm o d e 、i l lb ed e c i d e du s i n gaf a s tm 印p i n ga l g o r i t l m l t h i sm e t h o dw i l ld e d u c em et r a l l s c o d i n gt i m ei a 玛e l y d 嘶n gm ei n t e rt r a n s c o d i n gp r o c e s s ,t h i se s s a yp r o p o s e dan e wa l g o r i t l l mo nm o t i o ne s t i m a t i o na 1 1 dm o d e sp r e d i c t i o n nu s e st h em o t i o ni n f o m a t i o n 如mt h ea y ss 订e 锄,i 1 1 c l u d i n g l em a c r ob l o c kr e f e r e n c ei 1 1 d e x ,m o t i o nv e c t o rh o r i z o n t a la n dv e r t i c a ld i 虢r e n c e w h e ne n c o d i n gm eh - 2 6 4b i ts t r e 锄,w et a k em em o d e si n f 0 n n a t i o n 舶m l ea v sa n dm a p p i n gt h em o d e st ot h eh 2 6 4 ,i fn l em o d e st i l a ta v ss t r e a md o e s n th a s ,w e ut a k et h em o d ed e c i s i o n2 u c c o r d i n gt ot l 托h 2 6 4s t a n d a r dt 0d e c i d em ei n t e rp r e d i c t i o nm o d e sa n dm v s a r e rc o m p u t i i 培l cr d oc o s tf u i l c t i o nw e 1 lc h o o s et i l eb e s tn l o d eo ft h ec u r r e n tm a c r ob l o c k t 1 1 i sm e t l :l o di l a s1 1 i g h e ra c c u r a c ya n dc o u l dr e d u c et 1 1 ec o m p l e x 姆o ft h et r a n s c o d i n gs t a g e a “a s t ,t h i se s s a yd e s i g na 1 1 dc o m p l e t eaf a s tv i d e ot m s c o d i n gs y s t e m 丘o ma v st oh 2 6 4 a r e ras e r i o u st e s to fs t a n d a r ds e q u e n c e s ,t h er e s u ns h o w st l l a tt l l e由s c o d e rc o u l d 仃a n s c o d em ea v ss t r e 锄t oh 2 6 4c o n e c t l y ,a i l dc o u l dg i v eas a t i s 研n gp e 怕n n a i l c e t m sa r c l l i t e c n 鹏c o u l dp r 0 、r i d eh i 曲q 砌埘o f 龇p i c n l r e 锄dr e d u c et l i ec o m p u t a t i o n a lc o m p l e x i 劬i m p r o v et h ee 衢c i e n c yo f 也e 缸m s c o 出n gp r o g r e s s k e yw o r d s :t r a n s c o d i n g ,a v s ,h 2 6 4 ,缸tm o d em a p p i n ga l g o r i t h mi i独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得j 塞工业太堂或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:矽伽毯日期:旦翌:! 二!关于论文使用授权的说明本人完全了解j 竖塞王业太堂有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵守此规定)签名:讹& 恁导师签名:孔凝日期:垒芝呈兰第1 章绪论1 1 课题研究背景第一章绪论随着多媒体技术的不断发展和广泛应用,数字视频压缩及处理技术得到了深入研究并日趋成熟。国际标准组织根据应用场合的不同设立了一系列视频编码标准,如针对多媒体数据存储及其数字电视应用制订的m p e g 系列标准 1 】 3 】;针对视频会议以及视频电话制定的h 2 6 x 系列标准 4 8 】等等。每种视频标准都适用于不同的应用场景,针对不同目标而使用。压缩好的媒体数据可以通过各种各样的网络进行传输,不同的网络有不同的信道特性( 比如带宽不同) ,同时接入网络的终端设备也是多种多样的,可能是普通p c 、个人数字助理、机顶盒、移动电话等,这些终端的显示能力、处理能力、所支持的编码标准格式等都存在着差异。另外不同用户对于媒体内容的喜好也不同,这样就形成了完全异构的网络环境。由此产生了通用多媒体访问( u m a :u i l i v e r s a lm u l t i m e d i aa c c e s s ) 的概念【9 】【1 0 j ,它的目标是在异构网络环境下用户通过不同的传输网络、采用不同的终端设备、根据个性化的喜好存取相同的媒体资源,如图( 1 1 ) 所示。正l 、丑d 目l d c a 彗n n g图1 1 不同设备的多媒体访问f i g l lt h em u l t i m e d i aa c c e s so f d i 仃e r e ms e t s由于异构网络环境中众多因素和需求使得事先压缩好的视频数据不可能满足这些多方面的要求,这就需要对已经编码的视频数据根据实际的应用需求进行相应的转换,这一转换过程即称为视频转码( v i d e ot r a n s c o d i n g ) 。由于视频转码具有动态改变压缩视频编码参数及编码格式的能力,因此它在多媒体存取中发挥了重要的作用。下图给出了视频转码的一个典型应用。在服务北京工业大学工学硕士学位论文器端,输入的视频内容采用比较高的比特率进行编码存储;在客户端,用户可以使用不同的终端收听观看该节目,其中,传输视频内容的通信网络有各种不同的选择,这些网络有不同的带宽和不同的差错率,这些都将影响视频传输的质量。当视频服务器接收到一个请求,它首先根据用户的请求启动搜索引擎查找相应的视频数据,然后根据网络结构特征、终端处理能力对数据进行相应转换,最后将生成的码流进行传输,用户就可以在本地观看自己喜好格式的视频节目。图1 2 根据用户需求、网络特征和终端设备处理能力进行多媒体内容的转化f i g l - 2m u l t i m e d i ac o m e n tt r a n s f o 九na c c o r d i n gt oc u s t o m e r sd e m a l l d so nn e t 、v o r k sa n da b i l 埘o fe n d u s e rd e v i c e s视频转码是网络基础端设备的核心也是实现各种类型视频设备之间无缝传输的关键,可以说转码技术决定了视频市场的未来。鉴于视频转码的重要性,本文将从视频转码体系结构和关键技术等方面由浅到深地进行分析和研究,并通过这些研究进而完成了a v s 到h 2 6 4 视频转码器的关键技术分析及方案设计。1 2 研究现状视频转码的目的是使转码的时间尽可能缩短同时保持较好的图像质量。传统的视频转码主要分为:帧率码率转换,比特率转换、空间分辨率转换、信息插入转换、不同标准之间的转换等等。比特率转换用于带宽变化情况下传输码流,可以通过重量化来减少比特率。分辨率转换主要是解决用户显示分辨率限制等问题时采用的,如下采样减少空间分辨率。信息插入转换是指在视频压缩码流中根据视频应用的需要插入所需的信息,目前常用的有:标识的插入、水印的插入、错误恢复措施的插入。不同标准的码流转码可以确保混合网络的自适应性。前几年的视频转码技术主要集中于同构视频转码,如m p e g 2 不同等级之间的转码如h 2 6 3 空间转码【1 2 】,m p e g 4 的转码【1 3 】等。而近几年转码热点主要集中在不同标准之间即异构转码上。目前国际上通用的压缩标准包括m p e g 2 、2第1 章绪论m p e g - 4 、h 2 6 3 、h 2 6 4 等,它们都采用基本相似的框架,即采用d c t 变换和量化减小像素域中冗余,采用运动估计与运动补偿减小时间域上的冗余。各个视频压缩标准的相似性给视频标准的转换提供了可能性,之前由于目前很多的压缩视频码流是采用m p e g 2 标准压缩的,所以更多的研究集中在如何将m p e g 2的码流转换为其它的码流格式。随着h 2 6 4 的推出,由于它优越的性能,视频标准转换研究关注的重点将移到其它压缩标准的码流转换为h 2 6 4 的码流。下面对目前转码领域研究的几个方向作一概括性的介绍。1 2 1 比特率转换比特率转换的目的主要是实现有效传输、节省带宽和与特定的编码类级别相兼容。实现码率转换的直接方法是标准解码器与标准编码器的级联,即先对码流进行解码,然后按新的目标码率对解码重建图像进行编码。实现压缩视频码流的码流转换的主要方法有两种:第一种是频率截断法,这种方法简单,但是丢弃每个块的高频d c t 系数会产生严重的偏差,而且不易于控制产生的码率;第二种是重新量化法,通过改变量化值的方法把编码码流的码率调整到新的目标值上,这种方法能够补偿重量化所引起的转换偏差,现在的码率转换方法多用这种方法。文献【1 4 分析了引入重量化误差的原因,提出了可用于固定码率和可变码率转换编码的可选择量化方法。在码率转换过程中,前期的研究工作主要集中于视频流码率转换器结构设计【1 5 】【1 6 1 ,后来考虑到运动补偿可以在频率域直接进行,出现了各种实现d c t 域的运动补偿算法【1 7 】,包括减少重量化偏差【1 8 】【1 9 1 和码率控制算法刚等。目前码率转换的主要研究问题是如何改善由于重量化误差和漂移造成的图像质量下降同时减少解码的复杂性。1 2 2 分辨率转换由于不同的接收端的显示能力和处理性能都不同,这就需要不仅能够完成视频压缩码流的码率转换,还要改变视频的空间分辨率( 即图像大小) 和时间分辨率( 即帧率) 大小。在空间分辨率转换中,主要研究的是如何将大图像转换为小图像。因此运动矢量就需要重新估计,需要从输入的视频压缩码流中已存在的多个运动矢量中找到使得图像残差最小的运动矢量作为新的运动矢量。在时间分辨率转换中,主要研究的是帧率转换,将高帧率的码流转换为低帧率的,比如由3 0 帧秒转换到1 5帧秒。由于参考帧的丢弃,输入码流中相当于此参考帧的运动矢量失效,因此需要从输入运动矢量中估计得到相对于新参考帧的运动矢量。3北京工业大学工学硕士学位论文无论是在空间分辨率还是在时间分辨率转换中,得到的新的运动矢量一般都是偏离最优运动矢量,为了使得新的运动矢量更接近最优运动矢量,在此处采用运动矢量的优化可以取得较好的效果。具体方法就是以新的运动矢量为中心,然后设定较小的运动估计窗的范围来进一步搜索使图像残差更小的运动矢量【2 。1 2 3 信息插入转换信息插入转换是指在视频压缩码流中根据视频应用的需要插入所需的信息,目前常用的有:标识的插入、水印的插入、错误恢复措施的插入。从实现和作用上来说,标识的插入与可见水印的插入基本相似,都是在视频压缩码流中加入可见的信息来表明此压缩码流的拥有者。以台标为例,台标是电视台的专有标志,在电视节目中叠加台标是必须的工作。目前台标的插入方法主要有以下三种:( 1 ) 完全解码后加入台标,然后再将视频序列完全编码,此种方法运算量很大,不利于系统设备的简化。( 2 ) 局部区域解码,加入台标后,再进行局部区域编码【2 2 】,即对压缩码流中每帧图像涉及台标插入的区域进行局部编码,加入台标,然后再对此区域局部编码,由于避免了对每帧图像都进行完全解码和编码的操作,因此运算量大大减少。( 3 ) 在d c t 域中直接叠加台标【2 3 】:在d c t 域中直接将台标插入到图像中,由于避免了i d c t d c t 运算,可以大大节约运算量。在很多应用场合下,视频码流压缩和传输在时间上是分离的,即一般先将码流压缩好,然后存储在设备中供以后使用,因此在压缩时无法知道信道的状况,也就无法合适地选择错误恢复措施来提高在误码情况下的接收端解码图像质量。加上压缩视频码流经常要在各种异构网络中传输,每种网络的带宽和误码率都不一样,一次压缩后得到的码流是无法适应各种网络的信道状况的如果在各个异构网络的连接处,通过设置网络视频网关,并在视频网关中根据网络当时的信道状况,适当的加入错误恢复的措施,可以大大的提高接收端解码图像质量。常用的误差恢复措施有:再同步标记插入、可逆变长编码和自适应帧内宏块刷新、参考帧选择、前向纠错码和数据重传等。1 2 4 异构转码异构转码就是在不同标准间进行转换,在很多视频应用中,前端视频服务器中存储的码流是一种压缩格式,而不同的接收端所能支持的压缩格式可能各不相同。为了满足一种解码器( 如h 2 6 3 ) 希望接收其它码流格式( 如m p e g 2 ) ,以及在低带宽、恶劣环境下传输视频数据的要求,需要在异类码流之间做转换编码。4第1 章绪论对同类标准间的转换编码,源图像和目标图像的很多特性相同,如图像编码类型、参数定义和编码技术等,参数的再利用要简单一些。而不同标准的转换编码,源图像和目标图像的很多特性是不同的,因此,源图像包含的信息不能直接利用,转换编码器要重新分析并提取有用信息使转换编码更有效。同时由于不同的标准在语法上有一定区别,除完成分辨率和码率转换外,还要进行语法转换【2 4 】。目前国际上通用的压缩标准包括m p e g 1 、m p e g 2 、h 2 6 3 、m p e g 4 、h 2 6 4等,这些标准在编码框架、码流的构成等方面既有区别,又有共同点,部分标准文本还互相引用,这就使得不同格式、标准间的兼容和转换具有可行性。不同种类视频转码可以为不同网络技术间提供透明连接,一般用于具有相似压缩算法的:标准间转换,如均为基于运动估计和补偿、d c t 变换和量化的编码标准之间的转码瞄j 。异构转码的主要问题是如何有效地改变压缩视频码流的语法结构,使其能符合目标压缩标准的语法要求,从而能在支持目标压缩标准的解码器中解码显示。由于目前很多的压缩视频码流是采用m p e g 2 标准压缩的,所以更多的研究集中在如何将m p e g 2 的码流转换为其它码流格式。随着新的视频压缩标准h 2 6 4 的推出,由于h 2 6 4 具有更高的编码效率和很强的抗干扰性,适合网络传输,因此将在各个领域得到广泛应用,与现行标准间的转换成为必然的要求。目前异构转码的主要研究问题集中在如何将其它标准的码流转换为h 2 6 4 的码流。1 3 本文的研究内容及结构1 3 1 研究内容a v s 是我国在数字音视频核心技术和工业标准上争取主动的一次尝试,在a 、,s 标准中大多数是我国自主的专利技术,国外的专利只占少数,加上简洁的一站式授权以及新颖的专利池的管理策略较好地解决了专利问题。另外,a v s 在性能上和h - 2 6 4 和m p e g 2 相比有比较明显的优势,压缩效率比m p e g 2 提高2 3 倍,和h 2 6 4 相当,实现复杂度明显低于h 2 6 4 。本文研究的主要内容就是对a v s 向h 2 6 4 转码过程中的关键技术进行分析,并最终实现了一个快速的转码系统。由于面向的是数字高清电视、移动电视等应用,因此使用的是a v s 的第二部分视频标准,本文从以下几方面考虑视频转码技术的设计和改进:( 1 ) 在i 帧转码方面,提出了一种a 、,s 向h 2 6 4 转码的帧内模式映射快速算法北京工业大学工学硕士学位论文( 2 ) 在p 帧转码方面,提出了一种帧间模式选择和m v 重用的快速算法。( 3 ) 基于上面两个算法的特点,在p c 机上搭建了一个a v s 到h 2 6 4 的视频转码系统。1 3 2 论文结构本文的主要任务是在信噪比( p s n r ) 下降不多、节约大量时间的情况下实现a s p 2 到h 2 6 4 基本档次的转码,并比较它们同直接级联转码模式( c p d t :c a s c a d e dp i x e l - d o m a i nn 锄s c o d i n g ) 的p s n r 、转码时间及码率。下面是本文的结构安排:第一章是本文的绪论部分,介绍了目前视频转码的背景、研究现状以及当前转码的几种不同方向,包括码率转换、空间分辨率和时间分辨率转换、信息插入转换、视频标准转换等,并概括了本文研究的主要内容和文章的结构。第二章主要介绍三种经典的转码体系,包括基于像素域的级联转码体系结构、基于像素域的快速级联转码体系结构、基于d c t 域的转码体系结构,并根据a v s 向h 2 6 4 转码的特点确定了本文的转码结构。第三章介绍a 、,s 到h 2 6 4 的i 帧转码的关键技术,并提出了一种快速的i 帧的预测模式映射算法,大大提高了帧内模式决策的速度。在p s n r 、转码时间及码率等方面与参考系统相比较都是具有明显优势的。第四章介绍a v s 到h 2 6 4 帧间转码的关键技术,包括运动估计、d c t 系数重构、帧率转换等,并提出一种p 帧的分块模式快速映射算法。第五章是本文转码系统的搭建,详细介绍了本转码系统的软件模块以及程序的流程。最后给出了本文转码和直接级联模式的性能比较。最后是文章的参考文献及致谢。6第2 章a v s 到h 2 6 4 视频转码的研究与设计第二章a v s 向h 2 6 4 视频转码的方案设计随着大众对多媒体服务需求的不断提高,视频编码标准不断推新和发展,应用范围越来越广。i s o i e c 颁布的m p e g 系列标准在这样的发展趋势下,得到了非常迅速的普及。而i t u t 颁布的h 2 6 4 标准以其超高的压缩效率而成为近来多媒体产业关注的焦点和行业流行趋势。我国自主知识产权的a v s 标准与h 2 6 4一样,都使得预测变换编码的效率取得较大突破,而且a 、,s 采用了许多先进的技术来保证编码性能,其中大多数是我国自主的专利技术,再加上简洁的一站式授权以及新颖的专利池的管理策略较好地解决了专利问题,将来产品生产减少相。当可观的专利费用,因此未来我国高清晰数字电视领域必将采用a v s 标准,这就使得a v s 与国际主流的h 2 6 4 标准共同存在,因此实现这两种标准之间的转码是具有重要意义的。2 1 转码器设计2 1 1 转码器设计标准在设计转码器时,应当注意以下三点【2 5 】:( 1 ) 应当充分利用原码流中的信息,以提高转码的效率。( 2 ) 应当保证转码后新的码流有较好的视频质量。也就是说,转码后的码流解码图像的质量应与使用新编码标准对原始图像进行编码得到码流解码后的图像质量相当。特别注意,不能忽视由误差积累( 时间误差或空间误差的累积)产生的图像漂移问题。因为在g o p 较长的情况下,漂移现象严重,使得视频质量过差无法被用户接受。( 3 ) 转码过程中所需的操作应当尽可能少,以便满足实时系统的要求。硬件的复杂度要尽可能低,以便能推广使用。2 1 2 转码器设计的要点在转码过程中要考虑的几个关键因素是:视频质量、运算复杂度、处理延迟、硬件复杂性这些因素,其中视频质量和运算复杂度最为关键。如果转码器应用到实时环境中,处理延迟和缓存要求也是非常重要的因素。这里,转码器设计的关7北京工业大学工学硕士学位论文键是尽量避免复杂的运算瓶颈,同时要保持视频质量、降低延迟。分析a v s 到h 2 6 4 的视频转码过程,其中i 帧的预测模式估计、p 帧的分块模式决策、运动估计( m e ) 、运动补偿( m c ) 等模块消耗了大量的运算时间。主要模块有:( 1 ) i 帧的预测模式映射( 2 ) p 帧的预测模式分块映射( 3 ) 运动估计其中模式映射过程占整个转码时间的5 0 以上,是最费时的过程。因此,为了降低运算复杂性,在转码器设计时,首先应该从a v s 码流的信息中提取i 帧的预测模式信息,从而避免i 帧的模式预测过程,有效地降低计算复杂性。其次,在转码器的设计过程中,应充分利用a v s 码流中宏块的分割模式以及运动矢量信息,从而加快帧间转码的速度。由此可见,a 、,s 向h 2 6 4 转码的设计重点在于如何充分利用a v s 码流中的有效信息加快h 2 6 4 的编码,避免计算量较大的模式决策阶段的运算瓶颈,提高转码速度,保持良好的视频质量。2 2 转码器的三种典型结构a v s 到h 2 6 4 的视频转码需要进行预测模式映射、运动矢量重用、宏块类型转换等步骤。这就需要首先建立起一个视频转码的框架,典型的视频转码结构有三种:像素域级联转码结构( c p d t 结构) 、改进的像素域转码结构和d c t 域转码结构。下面分别介绍这三种典型的转码器结构。2 2 1 基于像素域的级联转码结构视频转码最简单的方式就是解码器和编码器直接级联,即先解码视频流,然后再重新编码,压缩成需要的视频压缩码流【2 6 】【2 7 1 。具体结构如图( 2 1 ) 所示。图( 2 1 ) 中,v l d 表示输入码流变长解码,q 表示量化,i q 表示反量化,d c t 和i d c t 分别表示正变换和反变换,m c 表示运动补偿,v l c 为输出码流变长编码。这种转码结构的解码器和编码器是独立的,所以它的结构灵活,无图像质量漂移,可以完成不同分辨率,不同码率,不同帧率,不同编码模式和不同标准之间的转换编码。但由于这种结构需要进行宏块编码模式的重新确定和运动矢量重搜索等消耗大部分转码时间的操作,计算量大,不利于实时实现。8第2 章a v s 到h 2 6 4 视频转码的研究与设计转图2 l像素域级联转码器f i g2 lc a s c a d e dp i x e l d o m a i nt r m s c o d e r值得注意的是,这种转码结构可以直接用标准的解码器和编码器直接级联实现,无须作任何修改,可以在不要求实时的情况下达到高质量转码;但是由于d c t 变换、逆d c t 变换、重新确定运动矢量和宏块编码模式等消耗了大部分的转码时间,所以出现了另外两种视频转码结构,以提高转码速度。2 2 2 改进的像素域级联转码结构预测模式的确定和运动估计是视频编码最消耗时间的模块,约占编码时间的6 0 7 0 ,如果能够最大限度的利用输入码流的信息,就可使计算量大为减少。使用输入码流的运动矢量信息而不重新进行运动估计,可以节约3 倍以上的计算时间【2 8 】。在输入码流中携带的有用信息,比如图片类型、运动矢量、量化步长和d c t 系数等,可以根据这些有用信息设计不同复杂度、不同效率和视频压缩质量的转码结构。由于可以在编码端重用输入码流的运动信息和编码模式信息而不降低图像质量,又因为d c t 和i d c t 运算是线性运算,可以通过重新排列d c t和i d c t 运算次序来减少d c t 和i d c t 操作。因而得到了改进的像素域级联转9北京工业大学工学硕士学位论文码器结构,如图( 2 2 ) 所示。图2 2 改进的像素域级联转码器f i g2 2t h ec h a n g e dc a s c a d e dp i x e l d 0 m a i n1 m s c o d e r图( 2 2 ) 中,v l d 表示输入码流变长解码,q 表示量化,i q 表示反量化,d c t 表示离散余弦变换,i d c t 表示离散余弦逆变换,m c 表示运动补偿,v l c为输出码流变长编码。如果是在同一种视频编码标准内部进行转码,那么它与基于像素域的级联式体系结构在本质来说是一致的【2 9 1 ,但由于基于像素域的快速转码结构减少了一次d c t 逆变换、一次运动补偿和一次帧的缓存,因而大大减少了计算量,从而在某种程度上克服了基于像素域的级联转码结构计算量大的缺点。需要注意的是,由于这种转码结构需要假设运动矢量、宏块编码模式在编码器和解码器中保持一致,这就给这种结构的使用带来局限性。如果没有满足这个假设条件的话就会产生漂移,造成图像质量的下降。2 2 3 基于d c t 域的转码结构由于可以重用输入视频流的运动矢量,d c t 和i d c t 变换是线性运算,且运动补偿可以在d c t 域实现,那么就没有必要实现图( 2 1 ) 和图( 2 2 ) 所示的d c t 和i d c t 功能,可以使转码器得到进一步的简化。d c t 域视频转码结构能够避免比较费时的d c t 、i d c t 和运动估计的计算,使得该结构有较低的复杂度【3 0 1 【3 。具体结构如图( 2 3 ) 所示。l o第2 章a v s 到h 2 6 4 视频转码的研究与设计图2 3d c t 域视频转码器f i 薛- 3v i d e ot r a i l s c o d i n go nd c td o m a i n图( 2 3 ) 中,v l d 表示输入码流变长解码,q 表示量化,i q 表示反量化,m c d c t 表示d c t 域运动补偿,v l c 为输出码流变长编码。输入的码流经过反量化得到d c t 系数,再对d c t 系数进行d c t 域的运动补偿,再进行量化和熵编码得到转码后的输出码流。图( 2 3 ) 中的反馈回路和图( 2 2 ) 中的反馈回路功能一样,都是为了补偿重量化产生的误差,避免误差在p 倍帧的传播。这种结构直接利用解码码流中的运动矢量,去掉了d c t 和i d c t 模块,简化了视频转码结构。当运动矢量为0 或者为8 的倍数的时候,d c t 域中的运动补偿不需做任何运算,因此对于低速运动或者无运动的视频序列来说,d c t 域视频转码结构比简化像素域转码结构的计算量要小的多。d c t 域视频转码结构的基本思想是将像素域的处理过程等价转换为d c t 域的处理过程,因此要将像素域的一些公式转换为等价的d c t 域公式,在等价转换的过程中需要提前计算存储一些常数矩阵,以方便运算。不过需要注意的是,由于这种转码结构体系对输入码流的信息依赖性比较高,使得转码的灵活性受到限制,例如当要求改变运动矢量、改变帧编码类型、改变块编码模式、改变分辨率等应用时,就很难采用这种结构体系,需要对结构进行修改,以满足用户的不同要求。2 3a v s 标准与h 2 6 4 标准的技术特点比较如果要实现a 、,s 标准码流到h 2 6 4 标准码流的转换,就必须对二者的技术特点和码流的结构有准确认识,本节对两种标准进行简要概述并比较。北京工业大学工学硕士学位论文2 3 1h 2 6 4 标准特点概述h 2 6 4 是在i t u t 和i s o 】 e c 等组织先前制定的编码标准的基础上提出的,从技术上讲它延续了早期标准的总体框架和结构即基于块的变换预测结构,但h 2 6 4 与先前许多标准相比最为主要和关键的改进体表现在每一个模块的具体实现上,通过提高每个模块的编码复杂度从而得到整体较高的压缩比。下面简单介绍h 2 6 4 的编码技术特点。1 帧内模式预测帧内模式预测是用邻近块的像素( 当前块的左边和上边) 做外推来实现对当前块模式的预测,预测块和实际块的残差被编码,以消除空间冗余。尤其是在变化平坦的区域,利用帧内模式预测可以大大提高编码效率。当宏块做帧内编码时,对于每个4 4 的亮度块( 除了边缘块要特别处理以外) ,每个像素由它左上角的1 7 个最邻近的已编码像素中的若干个像素的不同加权来预测,这样可以除去相邻块之间的空间冗余度,从而取得更为有效的压缩。按照所选取的预测参考的点不同,亮度共有9 类不同的模式。2 运动估计与运动补偿h 2 6 4 采用了更加先进的技术,以提高运动估计和运动补偿的精度和效率。( 1 ) 支持1 4 或1 8 像素精度的运动矢量。h 2 6 4 在l 4 像素精度时可使用6 抽头滤波器来减少高频噪声,对于1 8 像素精度的运动矢量,可使用更为复杂的8 抽头的滤波器。在进行运动估计时,编码器还可选择“增强”内插滤波器来提高预测的效果,从而提高运动估计的精度。( 2 ) 定义了s p 帧。h 2 6 4 定义了一种新的s p 图像类型,它可以在不同的视频流或一个视频流的不同部分进行切换,通过在解码器的运动补偿预测过程中放置一个前向交换和量化操作来实现。s p 图像主要用于基于服务器的视频流的应用中。( 3 ) 多帧参考。在h 2 6 4 中,允许编码器使用多于一帧的先前帧用于运动估计,例如第2 帧或第3 帧刚刚编码好的参考帧,编码器将选择更够给目标宏块更好效果的预测帧,并为宏块指示哪一帧是预测帧。( 4 ) 更加灵活的宏块分割方式。在h 2 6 4 的运动预测中,宏块有两种分解模式。在不使用非限制运动矢量模式下,每一个宏块( m b ) 作为一个块,使用一个运动矢量;在非限制运动矢量模式下,每一个宏块可分解为4 个8 8 块,每块使用一个运动矢量。在h 2 6 4 的运动预测中,宏块的分解由两种模式扩展到了多种不同的模式,在这种方式下,每个宏块可以分解为1 个1 6 1 6 块、2 个81 6 块、2 个1 6 8 块或4 个8 8 块,并拥有与块数相对应的运动矢量。如果1 2第2 章a v s 到h 2 6 4 视频转码的研究与设计宏块被分解成4 个8 8 块,每个8 8 块还可以再分解成多个小块,这时宏块拥有和小块数量相对应的运动矢量,这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形状,大大提高了运动估计的精确程度。3 整数变换在变换方面,h 2 6 4 使用了基于4 4 数据块的类似于d c t 的变换,但使用的是以整数为基础的空间变换,不存在反变换因为取舍而存在误差的问题。变换公式为】,= 脚1 ,其中x 为要被变换的4 4 像素块,而h 为:h =1l2l11l一211一l一21121( 2 1 )这种整数变换其实是d c t 变换的一种近似,但它将d c t 变换中的浮点运算改为整数运算,可减少系统的运算量。同时,它用减小量化精度的方法降低数据量,用对更小的数据块( 4 4 ) 进行处理来减小失真,从而进一步提高了图像质量和编码效率。4 去除方块效应滤波器为了降低由h 2 6 4 高压缩比产生的明显的块失真效应,h 2 6 4 采用了去除方块效应滤波器,所有的宏块均按扫描顺序进行有条件的滤波。根据宏块中每一个块的位置和量化参数的不同,对每一条块边界设置不同的滤波强度,自适应的调整滤波效果。在宏块中按一定的顺序对4 4 块的水平和竖直边界滤波。首先对亮度分量的4 个垂直边界滤波,其次对亮度分量的4 个水平边界滤波,再次对色度分量的2 个垂直边界滤波,最后对色度分量的2 个水平边界滤波。去除方块效应滤波器的滤波将影响临近块边界的至多3 个像素。通过这种自适应调整强度的滤波算法,有效地改善了解码图像的主观视觉质量,在编码器中用滤波后的宏块做运动补偿时,可以减小预测残差,提高压缩效率。5 熵编码在h 2 6 4 中提供了两种可选的熵编码模式:通用变长编码( u 、,l c ) 和基于内容的自适应算术编码( c a b a c ) ,在性能上c a b a c 比u v l c 有1 5 的提高。h 2 6 4 标准的熵编码准则为:对变换系数、基本档次( b a s e l i n ep r o f i l e ) 和扩展档次( e x t e n d e dp r o f i l e ) 采用基于上下文的自适应变长编码( c a v l c ) ,主档次似a i np r o f i l e ) 采用基于上下文的自适应二进制算术编码( c a b a c ) ;对其他语法元素采用指数哥伦布码。1 3北京工业大学工学硕士学位论文2 3 2a v s 标准特点概述a v s ( a u d i ov i d e oc o d i n gs t a i l d a r d ) 是我国第一个拥有自主知识产权的音视频编解码标准,它包含9 个部分,其中第2 部分( a v s p 2 ) 为视频编码标准。当前,a v s p 2 主要面向高清晰度电视( h d t v ) 、高密度光存储媒体等应用中的视频压缩。a 、,s 和h 2 6 4 在编码性能上相近,但是实现复杂度较低,下面简要介绍a v s 的技术特点。在a v s 标准中,帧图像被分为3 类:( 1 ) i 图像,解码时不参考其它图像。( 2 ) p 图像,解码时的参考图像在当前图像之前( 显示顺序) 。( 3 ) b 图像,解码时的参考图像在当前图像之前和之后( 显示顺序) 。1 变换和量化a v s p 2 采用了经典的基于块的变换和量化方法,主要有以下几个特点:( 1 ) 变换块尺寸。由于4 4 的块尺寸小,会在编码数据中引入较多的附加开销,并且4 4 块的去相关性不足,还需要对变换后的直流系数做h a d 锄a d 变换。所以,a v s p 2 采用8 8 块大小进行变换,在高分辨率情况下,8 8 变换块的性能比4 4 变换更优越。( 2 ) 缩放。为了减少总的乘法次数,a v s p 2 与h 2 6 4 一样,将变换部分的乘法( 缩放) 放到量化部分考虑,不同的是在h 2 6 4 中编码器只进行正向的缩放,反向缩放在解码器中进行,而a v s p 2 则将正向和反向缩放都放在编码器中进行,解码器只需进行反量化,从而减少了解码器的复杂度,降低了解码终端的成本。( 3 ) 量化参数。h 2 6 4 中量化参数( q p ) 每增加6 ,量化步长增加1 倍,而在a v s p 2 中,q p 每增加8 ,量化步长才增加1 倍。2 熵编码a v s p 2 对所有可变分布的语法元素均使用指数哥伦布码,采用二维可变长编码( 2 d v l c ) 的方法,而对均匀分布的语法元素采用定长编码。3 帧内模式预测a v s p 2 采用空间域的帧内模式预测,即在空间域中利用当前块的临近像素直接对每个系数做预测,然后对残差进行熵编码。a v s p 2 的帧内模式预测以88 块为单位,定义了5 种8 8 亮度块模式和4 种8 8 色度块模式,大大减化了帧内模式预测的复杂度。在这些预测模式中,a v s p 2 改进较大的是d c 模式,如图( 2 - 4 ) 所示。每个像素用其水平和( 或) 垂直方向的3 个相应参考像素来预测,而h 2 6 4 则用预测像素的平均值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版小学三年级下册数学口算试题
- 气管插管的护理
- 溺水季节安全培训
- 羊水栓塞知识
- 电测听操作规范
- Unit4-A-Lets-learn贵州公开课教案
- 仿生与仿人微纳流体系统设计-全面剖析
- 截瘫康复患者的护理查房
- 清洁机器人标准体系构建-全面剖析
- 三维建模软件的用户界面优化-全面剖析
- 汽车维修质量保证制度
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 2024年广州市卫生健康系统招聘“优才计划”考试真题
- 重点营业线施工方案
- 餐饮店菜品成本计算表
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年江苏南京事业单位招聘(787人)高频重点模拟试卷提升(共500题附带答案详解)
- GB/T 33136-2024信息技术服务数据中心服务能力成熟度模型
- 《保护地球爱护家园》课件
- 雾化吸入疗法合理用药专家共识(2024版)解读
- 2024年度产学研合作与科研奖励协议3篇
评论
0/150
提交评论