(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf_第1页
(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf_第2页
(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf_第3页
(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf_第4页
(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(通信与信息系统专业论文)低比特率视频通讯编码技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 。为了在窄带信道上实现视频通信,本文对基于i t u t 的低比特率视频通信 编码标准h 2 6 3 的视频编码器的原理和实现方法作了深入的研究。主要讨论了基 于h 2 6 3 协议的视频编码器的实现,以及提高编码效率的h 2 6 3 可选模式的实现。 这些可选模式的选用提高了编码性能,但同时也增加了运算的复杂度,影响了编 码的实时性。为了解决质量和实时性的矛盾,本方案在保证质量的前提下,针对 运算时间较长的运动估计模块,给出了零运动矢量提前判断的方法,从而省去了 约5 0 的匹配块搜索运算,提高了h 2 6 3 编码器的编码速率;对运算量较大的 d c t 给出了快速算法,并对全零d c t 系数块采用提前判断的方法,从而省去了 约4 0 的d c t 运算,进一步提高了h 2 6 3 编码器的编码速率。 关键词:h 2 畸罗低比特率视频编码运动估计d c t r a b s t r a c t i nt h i sp a p e r t 1 1 et h e o r ya n di m p l e m e n t i n gm e t h o do f v i d e oe n c o d e rb a s e do nt h e i t u th 2 6 3v i d e oc o d i n gf o rl o wb i tr a t ec o m m u n i c a t i o ns t a n d a r da r es t u d i e d d e e p l yi no r d e rt os a t i s f yt h ed e m a n do fn a r r o w - b a n dv i d e oc o m m u n i c a t i o n t h e i m p l e m e n t i n go fv i d e oe n c o d e rb a s e do nh 2 6 3 s t a n d a r di sd i s c u s s e d ,a n dt h r e e n e g o d a b l ec o d i n go p t i o n sa r ea l s od i s c u s s e d t oi m p r o v e p e r f o r m a n c eo f e n c o d e r t h e t h r e eo p t i o n sc a ni m p r o v ec o d i n ge f f i c i e n c y , b u tt h e ya l s oe n h a n c et h ec o m p l e x i t vo f o p e r a t i o no fe n c o d e r s ot h e ya f f e c tt h er e a lt i m eo p e r a t i o no f e n c o d e r o nc o n d i t i o n t 1 1 a tq u a l i t yo f p i c t u r er e s t r u c t u r e di si n s u r e d w i t hav i e wt ot h em o t i o ne s t i m a t i o n a l g o r i t h m st h a t c o s t st h el o n g e s tc o d i n gt i m e ,t h em e t h o do fp r e j u d g m e n to fz e r o m o t i o nv e c t o ri s a d o p t e d i nt h i s p a p e r ,w h i c hm a k e sa b o u t5 0p e r c e n t m o t i o n e s t i m a t i o nc o m p u t a t i o n1 e f to u t ,s ot h ee n c o d i n gs p e e do fe n c o d e rc a nb ef u r t h e r i n c r e a s e d w i t hav i e wt od c tt h a tc o s t st h el o n g e rc o m p u t i n gt i m e ,f a s td c ti s p r o p o s e d a n dt h em e t h o do fp r e j u d g m e n t o fa n m a c r o - b l o c ko fa l lz e r ot o e 伍c i e n to f d c tj s a d o p t e di n t h i sp a p e r , w h i c hm a k e sa b o u t4 0p e r c e n td c t c o m p u t a t i o n r e d u c e d c o n s e q u e n t l y ,t h ee n c o d i n gs p e e d o f h 2 6 3e n c o d e rc a r lb ef i s h e ri n c r e a s e d k e y w o r d :h 2 6 3v e r yl o w b i tr a t ev i d e oc o d i n gm o t i o ne s t i m a t i o nd c t 绪论 绪论 近年来,数字通信与计算机技术的飞速发展,以及超大规模集成电路( v l s i ) 技术和宽带数字网技术的发展,使得基于i p 网的多媒体业务得到进一步发展。人 们对数字视频业务如可视电话、会议电视、安全监视、远程教育、高清晰度电视 ( h d t v ) 、视频点播( v o d ) 和网上购物等也产生了越来越浓厚的兴趣。因此,研 究数字视频业务是很有现实意义的。 进行视频信息传输面临的主要问题是:原始图像信号数据量较大。这将给存 储器的存储容量、通信信道的传输率( 带宽) 以及计算机的处理速度增加极大的压 力。虽然网络的发展使有效带宽变得越来越宽,但网络用户数量的增长速度以及 应用种类的增长速度也非常快,所以单纯增加信道的带宽是不经济也不现实的。 随着计算机技术的发展,计算机的处理速度也增加不少,但是由于互联网是一个 可以随机接入的时空共享信道,网络通信中同一群组中的各个用户可能在机器类 型、操作系统、外设性能、c p u 处理能力等方面存在巨大差异;连接各用户的网 络区段也会在带宽、延时和误码率等方面存在差别,所以单纯的部分计算机的更 新不可能完全解决上述问题。如果采用先进的视频压缩技术将视频信息的数据量 压缩,则可以节省存储空间,并且可提高通信的传输效率,从而可以满足网络通信 中不同的用户,使得视频通信业务成为可能。因此,视频信号的有效压缩成为视 频传输系统研究的核心。 截止到目前,各标准化组织已定制了许多有关视频压缩的标准。国际标准化 组织( i s o ) 和国际电信联盟一电信标准分部( i t u t ) 已推出了一系列有关视频压缩 的标准,例如,在静止图像压缩方面,i s o 推出了j p e g 标准;在运动图像方面, i s o 推出了用于v c d 的m p e g 1 ,用于广播电视和d v d 的m p e g 2 标准,以及 用于存储播放场合的低码率运动图像编码标准m p e g - 4 ,i t u t 推出的用于i s d n 的电视电话会议标准h 2 6 1 ( p x 6 4 ) 以及用于会议场合的低码率运动图像编码标准 h 2 6 3 标准。视频传输系统依赖的标准是有关运动图像方面的标准,包括高码率的, 也包括低码率的。 在p s t n 上提供多媒体业务有相当的市场需求,这是因为,虽然近年来各国 建立了各种宽带通信网,如i n t e m e t 、i n t r a n e t 、a t m 网等,在宽带网中实现视频通 信是必然趋势,但从世界范围看,成熟的、廉价的公共交换电话网( p s t n ) 仍是 主要的通信网,还将长期存在。然而它们限定的现有传输速率对数字视频通信提 出了严峻的挑战。尽管最新的x 9 0m o d e m 技术的发展,使得在p s t n 上的比特率 有所增加,但仍限制在5 6 k b p s 以内。因此,问题的关键是如何在低比特率下进行 2低比特率视频通讯编码技术的研究 视频通讯。i t u t 的h 2 6 3 标准是用于低比特率多媒体通信的,加上低码率语音编 码的发展,在p s t n 上的多媒体业务已能实用。近年来h 3 2 3 以及与h 3 2 3 相关联 的标准的制定,特别是为i p 网的特殊性要求而提出的h 2 6 3 + 和g 7 2 9 等的完成, 使得在基于i p 的多媒体会议业务的研究有了突破性进展。总之,研究低比特率活 动图像编码h 2 6 3 标准是实现p s t n ,i p 网上多媒体通信的核心问题之一,是实现 视频的实时性传输的关键问题。 本文主要工作是研究了h 2 6 3 协议和编码关键技术,并在此基础上设计和实现 了基于h 2 6 3 标准的视频软件编译码器。还研究了提高编码效率的h 2 6 3 标准的3 个可选模式,以及提高编码速率的关键技术。 全文的内容安排如下: 第一章首先介绍了h 2 6 3 标准在h 3 2 3 终端协议族的功能作用,以及h 2 6 3 标准相对于h 2 6 1 标准采用的新算法和新思想。然后介绍了h 2 6 3 视频信号的编 解码器的整体框架,最后着重介绍了编解码器中的多路视频编码器的分层思想及 语义。 第二章首先研究了实现h 2 6 3 视频编码器的核心编码算法,然后在这个基 础上研究了3 种可选编码模式来提高编码器的编码效率。 第三章主要研究了影响编码器编码速率的计算量最大的两个主要模块:运动 估值搜索算法和d c t 运算。首先,讨论了多种块匹配准则,选出本方案采用的准 则。然后对运动估值的几种搜索算法进行了详细的研究,选取了较好的搜索算法, 还给出了预先判别全零运动矢量的方法,从而减少了不必要的搜索,进一步加快 了编码器的运算速度。最后给出了预先判别全零d c t 系数块的方法,从而省去了 大量的d c t 运算,还给出了d c t 快速算法,进一步加快了编码器的编码速率。 第四章首先给出了软件实现的语义图和主要算法的详细流程图,最后给出 了提高运算速度的软件测试结果,并得出相应的结论。 第一章h 2 6 3 标准概述3 第一章f i 2 6 3 标准概述 1 1h 2 6 3 标准简介 h 2 6 3 是i t u t 建议的作为h 3 2 4 终端使用的视频编解码标准,后来又被h 3 2 3 协议族收录,成为h 3 2 3 协议族中的一员。 h 3 2 3 终端是能够在分组交换网络中提供实时、双向通信的节点设备。h 3 2 3 终端功能框图如图1 1 所示。 l 视频c o d e ci i 视频i o 设备卜 _ 1h 2 6 1 ,h 2 6 3r _ _ 接收 通路 音频c o d e c 延时 l 音频i o 设备卜一 g 7 1 1 ,g 7 2 3 g 7 2 8 ,g 7 2 9 h 2 2 5 层 p 警应用广 l f l 2 4 5 控制1 i lh 2 2 5 呼叫l l 系统搀制用户k - l 控制 j l接1 1 1 1 l h 2 2 5 j fr a s 控制【 图1 1 h 3 2 3 终端框图 h 2 6 3 视频编解码器在h 3 2 3 协议族中的功能为:采用特定的视频编解码算法 产生数字化视频信号并进行相应的解码。视频编码不进行b c h 纠错,且允许以不 对称的视频比特率、帧速率、图像分辨率运行。类似于音频编解码器,视频编解 码器使用的编解码算法是在能力交换期间通过h 2 4 5 建议协商得到的,视频流也 应根据h 2 2 5 0 建议规定的格式进行打包传送。对于多点会议,h 3 2 3 终端需实施 音频混合的功能。 h 2 6 3 标准是i t u t 为了满足低码率视频通讯编码而制订的,其基本构造是基 于i t u t 的h 2 6 10 x 6 4 ) 标准的,它采用一种结合了可减少时间冗余的帧间预测和 可减少空间冗余的残留信号编码的方法,对待传送的符号采用了游程编码。 h 2 6 3 还参照m p e g 标准引入了i 帧、p 帧、p b 帧( n - - i 选项) 三种帧模式和 i n t e r ( 帧间编码) 、i n t r a ( 帧内编码) 两种编码模式,其中i 帧总是以i n t r a 模式编码:p b 帧中的b 图像总是选用i n t e r 模式编码,p 帧( 及p b 帧中的p 图 像) 可以采用i n t r a 或i n t e r 模式进行编码,具体选用那种模式由运动补偿算 4低比特率视频通讯编码技术的研究 法决定。 为了提高压缩比,h 2 6 3 标准较h 2 6 1 标准又采用了一些新的措施:取消了 h 2 6 1 中可选的环路滤波器,将运动补偿的精度提高到半像素精度:改进了运动估 值方法,充分利用了运动矢量的相关性来提高预测质量;减轻了块效应;精简了 部分附加信息的编码,提高了编码效率。 除了基本的视频信源编码外,为了改进性能,h 2 6 3 标准还包含4 个可选的编 码方案:非限制运动矢量,先进预测模式,p b 帧,基于语法的算术编码。所有这 些选项都可以结合使用或单独使用。 1 2h 2 6 3 信源格式 图像格式指图像宽高比和每帧图像的大小。图像被编码为一个亮度信号】,和两 个色差成分c 。和c ,这些分量和编码代表了它们按c c i r 6 0 1 建议的取样值,黑 :1 6 ,1 刍= 2 3 5 ,零色差= 1 2 8 ,峰值色差= 1 6 或2 4 0 。这些值都是标准值,并且编码 算法功能块的输入值从1 到2 5 4 。采用】,gc ,色彩空间的重要性是它的亮度信号 y 和色度信号gc ,是分离的。如果只有y 信号分量而没有ge 分量,那么这样表 示的图就是黑白灰度图。 h 2 6 3 标准的五种标准的图像格式为:s u b q c i f ,q c i f ,c i f ,4 c i f 和1 6 c i f 。 对每种图像格式而言,在正交排列时,亮度的取样结构都是d ) 【个像素每行,d y 行 每幅图像。两个色差成分的取样都是d x 2 个像素每行,d y 2 行每幅图像。d x ,d y ,d x 2 和d y 2 的值由表1 1 给出。 对于每种图像格式,亮度和色度取样如图1 2 中所示,色度取样必须被定位 在和亮度块边界一致的块上。取样像素的纵横比和图像格式的纵横比一致,也和 h 2 6 1 标准中定义的q c i f 和c i f 一致。 表1 1h 2 6 3 各种图像格式的像素个数每行和行数每幅图 亮度取样的像亮度取样的行色度取样的像色度取样的行 图像格式 素个数( d x )数( d y )素个数( d x 2 )数( d y 2 ) s u b - q c i f 1 2 89 66 44 8 q c i f 1 7 61 4 48 87 2 c i f3 5 22 8 81 7 61 4 4 4 c i f7 0 45 7 63 5 22 8 8 1 6 c i f1 4 0 81 1 5 27 0 45 7 6 第一章h 2 6 3 标准概述5 (xxx xx ooo (xxx xx (xxx xx 0oo (xxx xx (xxx xx ooo x亮度样点 o 色差样点 块边界 图1 2亮度和色度取样的位置 一般来讲影像都是由r ( 红色) 、g ( 绿色) 、b ( 蓝色) 三种来表示色彩的,在 经过公式转换后可将r g b 变成一个亮度信号】,和两个色差信号g 和c ,用y 、g 、 c 三个信号即可组成一个完整的颜色。而且人眼在处理颜色上,最敏感的是亮度 信号,其次才是色差信号,我们利用了y 、g 、c ,可分离的优点来做处理。从表 1 _ 1 中可知,】,、c 。、c ,的比值是4 :l :1 ,而不是4 :4 :4 ,但这并不影响视觉 效果,下面举例来说明这一点。假设有个图像( 4 4 ) 数据流是这样的: 亮度信号:墨eele 虼马k 墨x 。k 。k :x ,k 。k ,k 。 色度信号:c mg 2c ”c 6 4 色度信号:c ,lc ,2c ,3c “ 表1 2 表示一个( 4 x 4 ) 的还原图像的数据表示表格。各点都有三个y 、c 。、c , 值,所以依照这样的方法就可以还原q c i f 图像。从表1 2 可知只要使用4 :1 :1 的数据量,就可以表示4 :4 :4 的原始资料,而且人的肉眼对这样的改变是不敏 感的,以这样的方式可以节省1 4 的数据流,这是在使用数学压缩方法前,针对 原始资料做的处理。 y i c b z c r ly 2 c b i c r ly 3 c b 2 c r 2h c b 2 c r 2 y 5 c b l c r ly 6 c b l c r ly 7 c b 2 c r 2 y o c b 2 c r 2 y 9 c b 3 c r 3y i o c b 3 c r 3y u c b l c r 4y t 2 c b 4 c r 4 y 1 3 c b 3 c r 3y 1 4 c b 3 c 1 3y 1 5 c b 4 c r 4y 1 6 c b 4 c r 4 h 2 6 3 中的所有的译码器必须能够对s u b - q c i f 格式操作,也应该能使用q c i f 格式。一些译码器能对c i f 、4 c i f 和1 6 c i f 格式操作。编码器应该能够对s u b - q c i f 和q c i f 格式的一种进行操作,编码器决定究竟采用哪一种图像格式,并且不要求 6低比特率视频通讯编码技术的研究 同时支持两种图像格式。一些编码器也可以对c i f 、4 c i f 和1 6 c i f 格式进行操作。 译码器可支持的格式将由外部手段告知,如h 2 4 5 标准。如果希望得到所有可能 的图像格式和视频编码算法可求助于终端描述,例如h 3 2 4 标准,h 3 2 3 协议。 1 3 块组、宏块和块 h 2 6 3 标准规定每帧图像都被分为许多块组( g o b ) ,每个块组( g o b ) 又由 k * 1 6 行组成,k 值由图像格式决定,对s u b q c i f ,q c i f 和c i f 格式而言k = l ,对 4 c i f 而言k = 2 ,对1 6 c i f 而言k = 4 。每幅图像的g o b 个数也由图像格式决定, s u b q c i f 格式的g o b 个数为6 ,q c i f 格式的g o b 个数为9 ,c i f 、4 c i f 和1 6 c i f 格式的o o b 个数均为1 8 。每幅图像中g o b 的编号方式是按对g o b 块由上而下 的垂直扫描进行,最上的o o b 块为0 号,以最下的g o b 块结束。图1 3 给出了 c i f 图像格式中o o b 的排列。每个g o b 的数据包含了一个g o b 头( 也许是空的) , 紧接着是宏块数据。o o b 数据按o o b 编号的顺序依次传送的。 g o b 0 g o b l g o b 2 g o b 3 g o b 4 g o b 5 g o b 6 g o b 7 g o b 8 g o b 9 g o b l 0 g o b l l 0 0 8 1 2 g o b l 3 g o b l 4 g o b l 5 g o b l 6 g o b l 7 图1 3c i f 格式中块组的排列 每个g o b 被分为多个宏块( m b ) 。每个宏块包含1 6 行每行1 6 个像素的y 信 息,和8 行每行8 个像素的g 和c ,信息。在s u b * q c i f ,q c i f 和c i f 格式中,一 个g o b 包含一个宏块行;在4 c i f 格式中有2 个宏块行:在1 6 c i f 格式中有4 个 第一章h 2 6 3 标准概述7 宏块行。有关宏块在块组中的排列,以c i f 格式为例在图1 4 中说明。另外如图 1 5 所示,每个宏块包含四个亮度块和两个空间相关的色差块,每个亮度块或色度 块包含8 行每行8 像素的y 、c 6 、c ,。 图1 4c i f 格式中宏块在块组中的排列 对宏块的编号是按从左到右的顺序对宏块行进行水平扫描而得出的,从上面 的宏块行开始以下面的宏块行结束。对宏块数据的传送也是按宏块编号的顺序来 进行的( 见图1 4 ) 。块数据的传送则是按宏块中块编号的顺序进行的( 见图1 5 ) 。 l2 34 y gc , 图1 5 宏块中块的排列 模式的选择和块传送的标准不由h 2 6 3 标准给出,而且作为编码控制策略的 一部分在实际应用中会有许多不同。编码器对传送的块进行变换,并对结果系数 进行量化和h u f f m a n 编码。 1 4h 2 6 3 视频信源编码算法简介 视频信号的编解码是可视电话、会议电视的关键技术之一,图1 6 给出了视 频编解码算法的概要图表说明。如图1 6 所示,由信源编码器、多路视频编码器、 图1 6 视频信号的编码器和解码器框图 8低比特率视频通讯编码技术的研究 编码控制和发送缓冲区组成视频编码部分,信源解码器、多路视频解码器和接收 缓冲区组成视频解码部分,左侧为视频信号的输入和输出端,右侧编码后的比特 流的输入和输出。图中信源编码器的主要任务是对视频信号进行压缩。多路视频 的结构和意义将在下面详细介绍。由多路视频编码器传输到发送缓冲区的码流的 大小随图像内容的变化而有所不同,发送缓冲区将此信息传给编码控制器( c c ) , 由c c 再去控制信源编码器中量化器的量化步长,由此可实现自动码率控制( 量化 步长决定码率) 。编码控制器的主要任务除了根据发送缓冲区的码流信息调节量化 步长外,还控制编码模式,即决定是帧内还是帧间编码,然后将控制信息传给信 源编码器。 多路视频是通过一个分为四个层的分层结构来管理的,四个层由上到下分别 是图像层、块组层、宏块层和块层,其构架如图1 7 所示。图像层中每帧图像的数 图像层 块组层 宏块层 块层 图1 7h 2 6 3 分层结构 据包含一个图像头,并紧跟着块组数据,最后是一个e n d o f - s e q u e n c e 码和填塞位。 其中包括有图像开始码( p s c ) ( 2 2 b i t s ) 、时域参照( t r ) ( 8 b i t s ) 、类型信息( p t y p e ) ( 1 3 b i t s ) 和量化器信息( p q u a n t ) ( 5 b i t s ) 等十三个选项。 每个块组层( g o b ) 包含了一个块组层头,紧跟着宏块数据。每个g o b 包含 了一行或多行宏块。对于每帧图像的第一个g o b ( 0 号) ,不需要传送g o b 头。 而对于其他的g o b ,g o b 头可以为空,这决定于编码策略。译码器可以通过外部 手段( 如h 2 4 5 标准) 发送信号给远程编码器要求只传送非空g o b 头。 每个宏块中包含了一个宏块头和后续的块数据。c o d 只出现在用p t y p e 指定 为“i n t e r ”的图像帧中,对于这些图像的宏块,当c o d 指定或p t y p e 指示为 “i n t r a ”时会出现宏块类型& 色度的编码块样式( m d p b c ) 。如果p t y p e 指示 了“p b 帧”,对于b 块的宏块( m o d b ) 会出现。只有在m o d b 中指定时才会出 现c b p b ( 指示将传送宏块的b 系数) 和b 宏块的运动矢量数据( m v d b ) ( 变长) 。 第一章h 2 6 3 标准概述 9 当m c p b c 和c b p y 中指定时会出现“块数据”。这些将在第四章详细解释。 块层如果不在p b 帧模式,一个宏块包含四个亮度块和两个色度块。在p b 帧 模式下,一个宏块包含1 2 个块,其中包含缺省h 2 6 3 模式下的6 个p 块数据,然 后是6 个b 块数据。 1 0低比特率视频通讯编码技术的研究 第二章h 2 6 3 编译码器的设计和实现原理 2 1h 2 6 3 编译码器总体设计方案 概括图2 1 说明了h 2 6 3 信源编码器,其主要原理是预测、块变换和量化。编 码器包括帧内编码和帧间预测编码两种编码模式。帧内编码采用的d c t ( 正交变 换的一种) 编码后,可去除图像的空间变化的多余信息;帧问编码采用了运动补 偿帧问预测编码方式,它可消除图像的时间变化的多余信息。通过采取以上两措 施,可使数据量得到大大的压缩。再经过变字长编码,对出现概率大的像素用较 少的码字表示,对出现概率小的像素用较长的码字表示,又使数据得到压缩。其 主要思想是将输入的图像分为块组、宏块、块,然后根据编码控制器判断图像类 型及宏块的类型,最后根据宏块类型进行编码。若宏块采用帧内编码,则取宏块 中的亮度、色度采样信息,以块为单位直接进行d c t 变换,量化,然后对d c t 去多 路视 频编 码器 图2 1 信源编码器框图 量化系数进行z i g z a g 扫描,最后对扫描后的信息进行变长编码( v l c ) ;若宏块采 用帧间预测编码模式,则需采用一定的搜索算法在前一帧图像中寻找此宏块的最 第二章h 2 6 3 编译码器的设计和实现原理11 佳匹配块作为此宏块的预测块,并且记录运动矢量的大小,然后计算此宏块与最 佳匹配块( 此宏块的预测) 的差值,而后对此差值进行d c t 变换,量化,z i g z a g 扫描,变长编码( v l c ) 。最后将变长编码输出的数据送入缓存器中,若缓存器将 要溢出,则缓存器将输出一个信息给编码控制器,编码控制器则将步长变大,这 样编码器输出的码字将会减少,不至于使缓存器溢出:反之,编码控制器将步长 变小,使量化器进行细量化,从而使输出数据增加。 解码是上述过程的逆过程。 本方案还选用了h 2 6 3 标准的可选择模式:无限运动矢量模式,高级预测编 码模式,p b 帧模式。 2 1 1 离散余弦变换( d c t ) d c t 是线性变换编码的一种,首先我们介绍线性编码的特点,采用线性编码 的意义,以及选择d c t 的原因。 线性变换编码不直接对图像数据编码,而是首先将图像数据进行某种线性变 换,得到一组变换系数,然后对这些系数实现量化、编码、传输。在接收端,对 收到的变换系数进行相应的逆变换,再恢复成图像信号。这样做的理由是对变换 系数进行压缩编码,往往比直接对图像数据本身进行压缩更容易获得高的效率。 以大家熟悉的傅立叶变换为例,它是以通常在欧氏空间描述的图像信号变换到频 率空间( 频域) 去描述。傅氏变换的物理意义是频谱展开,对一幅图像进行二维 傅立叶变换就是在纵向和横向两个方向进行二维频谱展开。由于信号与其频谱之 间有一一对应关系,因此,传输的频谱在接收端同样可以恢复信号,而传送的频 谱往往比传送信号本身简单。由于电视信号的能量主要集中在低频部分,能量密 度随频率升高而迅速下降,加之考虑到人眼对图像中的高频细节不甚敏感的特点, 因此,在频率域编码时,可以用较多的码位对幅度大的低频分量进行量化,而用 较少的码对幅度小的高频分量进行量化,对于频率特别高的分量甚至可以舍弃不 传。从而就整体而言,码率可以明显下降。 从理论上讲,线性变换编码,可以压缩码率的原因在于图像信号存在很强的 相关性。这种强相关性在频率域的反映是功率域滤波的方式获得大的压缩比。线 性变换除了傅立叶变换( d f t ) 外,还有沃尔什一哈达玛变换、斜变换、离散余弦 变换( d c t ) ,卡洛( k l ) 变换等等。由于d f t 存在有复数域运算与运算量大的 弱点,常常使实时处理发生困难,而且k l 变换矩阵随信号而变化且难于实现, 综合考虑到d c t 具有固定的变换函数及变换矩阵接近于最佳变换的特点,d c t 被 认为是对语言和图像信号进行变换的准最佳变换,故受到广泛应用。 总之,当前对d c t 变换编码进行研究是很有现实意义的,这是因为它非常适 1 2低比特率视频通讯编码技术的研究 合于电视类图像的压缩编码,具有压缩比高、误码影响小等明显优点,综合性能 超过预测编码。现在离散余弦变换已成为图像编码的核心技术之一。 d c t 是先将整体图像分成n n 像素块,然后对n x n 像素块逐一进行d c t 变换。n 为像素数,在h 2 6 3 中n = 8 ,即对8 x 8 大小的块进行d c t 和i d c t 。8 x8 大 小的块的d c t 和i d c t 公式分别定义如下: f = 百1c o ) c ( v 墨7 善7 几,y ) c o s ( 2 x + 1 6 1 ) u 石c o s 竽 ( 2 _ ) = 0v = 0 l u1 u f(x,y)=去耋壹co)c(v扩o,v)cos竽cos(2y矿+1)vnv=o ( 2 _ 2 ) = o u1 u f 1 c 0 x c 0 ) = 西 1 当u 。v = 0 其它 上式中的( 而y ) 代表8 x 8 原参考图像的像素值,f 0 ,v ) 代表8 x 8 d c t 变换后 的系数。编码时对8 8 大小的图像数据块进行d c t ,变换后输出8 8 个变换系 数,这些系数都有明确的物理意义,u 代表水平像素号,v 代表垂直像素号。当 u = 0 ,v = 0 时,f ( 0 ,o ) 是原6 4 个样值的平均,相当于直流分量,即为“d c 系数”, 随着u 、v 的增加,相应系数分别代表逐步增加的水平空间频率分量和垂直空间 频率分量的大小,即为代表交流分量的“a c 系数”。i d c t 是f d c t 的逆过程, 它把6 4 个d c t 变换系数经逆变换运算,重建一个6 4 点的输出图像。 多数图像的统计特征表明,经d c t 后,大幅值的系数往往集中在低频率区内。 这样可以给那些小幅值系数分配很少的存储空间,甚至可以不传送,从而压缩了 数据的容量。 总之,d c t 具有以下特点: i 、在变换域里描述视频图像要比空间域里简单。 2 、变换后的系数相关性明显下降,信号的能量主要集中在少数几个变换系数 上,采用量化、游程编码和变长编码可有效地压缩其数据。 3 、有快速算法,有利于实现实时视频压缩。 尽管理论上能得到精确的变换、反变换,但是在实际中使用这种精确的算法是 不可能的。不过i d c t 的误差必须满足h 2 6 3 标准中的有关规定。 2 1 2 量化及反量化 一个块经过d c t 变换后,形成一个大幅度系数都集中在低频区域,而高频系 数都比较小,量化后许多高频系数被化为零,而使得后来的编码更为减少。虽然 第二章h 2 6 3 编译码器的设计和实现原理1 3 量化后的码字与量化前d c t 系数有差距,但由于人眼对低频分量部分比较敏感, 而对高频分量不太敏感,所以如果量化值取的适当,其画面不仅可让人接受,其 压缩出来的码字也会相当的少。一般来讲,量化因子越小画面越好,但压出来的 码字也越多。 在h 2 6 3 标准中对于同一宏块使用相同的量化步长来完成量化,量化器参数 的取值范围是: 1 ,3 1 ,但第一个i n t r a 块是个例外。i n t r a 块的第一个系数 ( d c 系数) ,一律按步距为8 进行量化,即: l e v e l = f 8( 2 3 ) 其中l e v e l 是d c t 系数量化后绝对值,c o f 是d c t 变换系数。 对于反量化,本方案采用的是h 2 6 3 标准给出的重建系数公式。如果d c t 系 数量化后的l e v e l = “0 ”,则重建系数r e c = “0 ”。对于所有非零系数( 而不是针 对i n t r a d c ) 的重建级别的公式如下: i r e c l = q t :a u r x ( 2 i l e v e z 4 + 1 ) 如果q u a n t 为奇数 ( 2 4 ) l r e c l = q u a n t x ( 2 i l e w z l + 1 ) 一1 如果q u a n t 为偶数 ( 2 5 ) 其中,q u a n t 为量化器参数,取值范围为【1 ,3 1 。 计算完重建系数绝对值i 心i 后,正负号被添加到重建系数r e c 上,具体公式 如下: r e c = s i g n ( l e v e l ) l r e q ( 2 - 6 ) 其中s i g n ( l e v e l ) 由h 2 6 3 标准中t c o e f 的最后一个比特位给出。 如果选用了p b 帧模式,则编码流中出现量化参数d b q u a n t ,其中p 块使用 q u a n t ,对于b 块使用另一个量化参数b q u a n t 。两者之间的关系如表2 i 所 表2 1d b q u a n t 码值以及q u a n t 和b q u a n t 之间的关系 d b q u a n tb o u a n t 0 0( 5 * o u a n t ) 4 0 1( 5 * q u a n t ) 4 1 0( 7 * 0 u a n t ) 4 1 l( 8 q u a n t ) 4 示。q u a n t 的取值范围是l 到3 1 ,b q u a n t 的范围也是l 到3 l ,若由表得出的 值大于3 l ,则被剪切到3 1 。 量化的效果是减少了非零d c t 系数的个数,这给后边的z i g z a g 扫描创造了条 件,也有利于后边的熵编码。量化步长的大小直接影响视频压缩率的大小,若步 长较大,则图像压缩比较大,但图像质量可能会下降;步长太小,图像质量会相 1 4 低比特率视频通讯编码技术的研究 对好一些,但此时图像压缩比会减小,直接会影响传输速率。所以量化步长的大 小可以根据具体要求( 一般指信道要求) 取折衷值。 2 1 3 z i g z a g 扫描及变长编码 d c t 系数量化后,读出数据和表示数据的方式也是减少码率的一个重要因素。 读出的方式可以有多种选择,如水平逐行读出、垂直逐列读出、之字形读出和交 替读出等,其中之字形读出是最常用也是最适合d c t 系数的一种,这是由于经过 d c t 以后,幅值大的系数集中在左上角,即低频分量区,而之字形读出实际上是 按照二维频率的高低顺序读出的。 本方案中d c t 量化系数是被按照“之”字形的顺序扫描排列为一个一维数组, 扫描后一维数组中的第一个位置为直流系数( d c 系数) ,其它6 3 个交流系数( a c 系数) 按低频到高频的顺序排列,由于d c t 的能量集中特性,即大幅值的系数往 往集中在低频率区内,小幅度系数在高频部分的特性,按照此顺序将数据读出, 为游程编码创造了条件,这种读出方式也将有利于提高后面的变长编码( v l c ) 的效率。之字形扫描( 或z i g z a g 扫描) 路径如图2 2 所示。 7厂7广7厂+7 ( 刀 ( 1 ) ( 刀 ) 么_ 么 _ 么 _ 么 图2 2 之字形扫描顺序 d c t 量化系数经过图2 2 的之字形扫描后排列好的一维数组,再用游程编码 表示。所谓游程编码是指一个游程码可以同时表示编码系数的值和此系数前面的 几个零,其数据结构可用( l a s t 。r u n ,l e v e l ) 的组合表示。其中l a s t 是表 示此d c t 量化系数是否为最后一个非零系数,若此系数为此块中的最后一个非零 系数,则l a s t 为“1 ”;若此系数后边还有更多的非零系数,则l a s t 为“0 ”。 游程长度r u n 是指非零d c t 量化系数之前的连续0 的个数。l e v e l 表示d c t 量 化系数的绝对值大小。 如图2 3 所示的6 4 个d c t 量化系数经过z i g z a g 扫描后,可用三组游程码字 第二章h 2 6 3 编译码器的设计和实现原理1 5 ( 0 ,l ,6 ) 、( 0 ,3 ,一2 ) 和( 1 ,5 6 ,1 ) 表示。每组游程码的第一个数据表示该 组游程码是否为最后一组需要变长编码的码字,前两组游程码的第一位“0 ”表示 该两组游程码均不是最后一组需要变长编码的游程码,第三组游程码的第一位 “1 ”,则表示该组游程码为最后一组需要变长编码的游程码;此三组游程码字中 的第二个数据分别为l 、3 和5 6 ,它们均指的是游程,即用z i g z a g 扫描时连零的 个数:此三组游程码字中的第三个数6 、一2 和1 分别为非零d c t 量化系数的幅值。 由此可以看出,采用游程编码可以去掉一些冗余的零系数,大大减少需要编码的 数据量,从而提高了压缩率。 06- 2 0 0o00 00000000 00000000 00000o00 00000000 0000o0o0 0o0ooo00 000000l0 图2 3 游程编码举例 d c t 量化系数经过z i g z a g 扫描后,6 4 个d c t 系数就可以用少量的游程码表 示,然后对这些游程码进行变长编码( v l c ) 。 变长编码( v l c ) 是一种无失真编码方法,由信息论知识我们知道:若码字 长度严格按照所对应的信息符号出现的概率大小相反的顺序排列,则平均码字长 度一定小于其它任何符号顺序排列方式,即编码是最佳的。其物理概念为:对概 率( 每秒出现次数) 大的信息符号用短码表示,对概率小的信息符号用长码,则 平均码长是最短的。根据该定理,h u f f i n a n 于1 9 5 2 年提出了一种最佳编码方法, 即h u f f r a a n 编码方法,由于其码长不固定,故称变长编码法,即v l c ( v a r i a b l el e n g t h c o d i n g ) 。现以图2 4 举例说明这种方法。 先对各信源符号口。的出现概率由上到下按其大小排列;然后对概率最小的f l 。、 a ,分别分配码l 和0 ,将这两个概率值相加得0 1 1 记为只,再把t 2 。与a ,作为一个 符号,将两者概率和只和剩余的信源符号按出现概率从上到下按大到小顺序重新 排列:a ,的概率0 1 5 与e 概率0 1 1 为最小,则分配吼为码字1 ,分配瓯a ,组合 的码为0 ,依此类推,直至只。最后可得a l 码字为1 1 ;啦为1 0 :a ,为0 1 1 a 。为 0 0 0 1 :m 为0 0 0 0 ,从而实现了概率大的符号分配短码,概率小的符号分配长码的 最佳分配。 1 6低比特率视频通讯编码技术的研究 码码信 源 符 长字号 1 1 a l 1 0 口, 0 1 1 a 3 0 1 0 a 4 0 0 1 a 0 0 0 l a 6 0 0 0 0“ 出 现 概 窒 0 2 0 0 1 9 0 1 8 0 1 7 0 1 5 0 l 0 0 0 1 最只只只只 0 6 10 1 0 0 圈2 4h u f f m a n 编码( v l c ) 本方案中,采用的即是z i g z a g 扫描结合游程编码,由于大部分d c t 系数被量 化为零,这样之字形数据读出在多数情况下出现的连零的机会比较多。这样采用 较少游程码就可以表示多个d c t 量化系数,并且在高频部分,如果都是零,在读 到最后一个非零系数后只要将l a s t 置为“l ”,就可以结束此块的编码,因此也 节省了许多码字,达到数据压缩的目的。在h 2 6 3 标准中给出了这些游程码字对 应的变长码,其中变长码还包含一个表示电平符号的标志位,“0 ”表示正,“l ” 表示负。 2 1 4 具有运动补偿的帧间预测编码 对于活动图像,相邻帧之间的时间间隔很短。统计实验的结果表明:在一定 阈值( 一定误差范围内) 的前提下,大部分像素保持不变,即活动图像在时间上 具有很大的相关性。因此,在图像运动量不大的场合,用前一帧对应位置的像素 来对当前帧进行预测,可以获得很好的效果,这就是帧间预测。 帧间预测不直接传送当前帧( k 帧) 的像素值x ,而是传送x 与前一帧的对应 像素x t 之间的差值。如图2 5 所示。考虑到图像中存在着运动物体,我们传送x 与前一帧经位移后所对应的像素x “( 匹配像素) 之间的差值,这种方法称为具有 运动补偿的帧间预测。 显然,具有运动补偿的帧间预测给出的预测误差要比简单的帧间预测低,因 而可以达到更高的压缩比。需要指出,在传送经运动补偿的帧间预测误差的同时, 还需将该块对应的运动矢量传送给译码器,以便译码器能够从已收到的前一帧 ( k l 帧) 信息中恢复出该块来,这比传送当前图像所需的数据量要小得多。而要 这样做,一个首先要解决的问题是如何从序列图像中提取有关物体的运动信息, 这通常称为运动估值。 第二章h 2 6 3 编译码器的设计和实现原理1 7 时间 图2 5 帧间预测 用k 一1 帧预测k 帧图像的方式称为前向预测。如果待测子块在k 1 帧,而搜索 区处在k 帧,也就是从后续的k 帧预测前面的k - 1 帧图像,这种方式称为后向预测。 为了提高压缩比,往往还采用由前、后两帧来预测中间帧的方法,称为双向预测, 此时有两个运动矢量需要作为附加信息传送给解码器。 总之,实现帧间编码的关键技术是运动估计和运动补偿技术。具体运动处理 过程如图2 6 所示。其原理可描述为: ( 1 ) 当前帧在过去帧( 前一帧) 的窗口中寻找匹配部分,从中找到运动矢量; ( 2 ) 根据运动矢量,将前一帧位移,求得对当前帧的估计( 预测) ; ( 3 ) 将这个估计( 预测) 和当前帧相减,求得估计( 预测) 的误差值: ( 4 ) 将运动矢量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论