(计算机应用技术专业论文)基于三维小波变换的视频编码器设计.pdf_第1页
(计算机应用技术专业论文)基于三维小波变换的视频编码器设计.pdf_第2页
(计算机应用技术专业论文)基于三维小波变换的视频编码器设计.pdf_第3页
(计算机应用技术专业论文)基于三维小波变换的视频编码器设计.pdf_第4页
(计算机应用技术专业论文)基于三维小波变换的视频编码器设计.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于三维小波变换的视频编码器设计 摘要 小波作为一种重要的时频分析工具,克服了传统傅罩叶变换的弱点,具有良 好的局部化特性,因而在图像处理领域被广泛应用。对于图像序列( 视频) ,小 波分析也是一个重要的研究方向。 基于小波变换的视频编码器有很多种,其中含运动补偿的三维小波视频编码 器因其在支持容错和可扩展码流输出方面的显著特性,一直是国内外的研究热点 之一。 本文共分五章,对三维小波视频技术进行了探讨。论文第一章对文章的选题 背景和国内外技术状况进行了介绍;第二章介绍了数字视频编码技术的基础知 识;第三章介绍了小波变换在视频编码中的应用;第四章介绍了基于运动补偿和 提升方案的时域滤波技术;第五章提出了一种新的时域( 帧i 日j ) 滤波方案并详细 介绍了实验的细节问题,并对实验结果进行了分析。 本文的主要研究内容和成果有: 1 、现有的三维小波视频编码器的主要弱点是在时问方向的滤波效果不理想, 本文对此提出了一种新的改进方案,能够在基本满足视觉要求的前提下提 高压缩率。 2 、用新的视频框架设计了一个三维小波视频编解码系统。该系统具有较好的 空间和时问的伸缩性,能够实现精确的码率控制,能提供嵌入式码流。 关键词:小波变换,视频编码,运动补偿,运动估计,提爿小波,时域滤波 d e s i g no f v i d e oc o d e cb a s e do n 3 dw a v e l e tt r a n s f o r m a b s t r a c t a sa ni m p o r t a n tt o o l i nt i m ea n df r e q u e n c ya n a l y s i s ,w a v e l e t t r a n s f o r ma v o i d st h ed e f e c to ff o u r i e rt r a n s f o r m i th a st h ea b i l i t yo fl o c a l f e a t u r ed e s c r i p t i o n ,a n di s w i d e l yu s e di nd i g i t a li m a g ep r o c e s s i n g w a v e l e ta n a l y s i si sa l s oa ni m p o r t a n tr e s e a r c hd i r e c t i o no fi m a g e s e q u e n c e s ( v i d e o ) s t u d y t h e r ea r eal o to ft y p e so fv i d e oc o d e cb a s e do nw a v e l e tt r a n s f o r m v i d e oc o d e cb a s e do nm o t i o nc o m p e n s a t i o nt e c h n o l o g ya n d3 - dw a v e l e t t r a n s f o r ma t t r a c t m a n yr e s e a r c h e r s e f f o r t s d u et oi t s p r o m i n e n t c h a r a c t e r i s t i c si ns c a l a b l eb i t - r a t ea n de r r o rt o l e r a n c e t h et h e s i si so r g a n i z e da sf o l l o w s :i nc h a p t e r1w ei n t r o d u c e t h eb a c k g r o u n do fm o t i o nc o m p e n s a t i o na n dt e m p o r a la n a l y s i s m e a n w h i l e ,w ei n t r o d u c et h es t a t e - o f - t h e a r to fv i d e oc o d e cd e s i g n c h a p t e r2i n t r o d u c e st h eb a s i so fd i g i t a lv i d e oc o d e c c h a p t e r3 i n t r - o d u c e st h e a p p l i c a t i o n so fw a v e l e t si nv i d e oc o d e c c h a p t e r4e x p l a i n st h et e c h n o l o g i e sb a s e do nm o t i o nc o m p e n s a t i o na n dl i f ts c h e m e i nc h a p t e r5 ,an e ws c h e m eo ft e m p o r a l ( i n t e r f l a m e ) f i l t e r i n gi s p r o - t h em a i nr e s e a r c hw o r ka n dr e s u l t sa r ea st h ef o l l o w i n g 1 t h ep r i m a r yw e a k n e s so ft h ec u r r e n t3 - dw a v e l e tv i d e oc o d e ci s o ft h et e m p o r a lf i l t e r i n g t oi m p r o v et h ep e r f o r m a n c eo f3 - dw a v e l e t v i d e oc o d e c ,an e wt e m p o r a lw a v e l e tf i l t e rb a s e do nm o t i o nc o m p e n s a t e d a n d l i f t i n g s c h e m ei s p r o p o s e d i nt h i st h e s i s ,w h i c hc a ni m p r o v e c o m p r e s s i o nr a t i ow h i l es t i l ls a t i s f yt h eh u m a nv i s i o nr e q u i r e m e n t 2 a3 - dw a v e l e tv i d e oc o d e ci sd e s i g n e db a s e do nt h en e wv i d e o f r a m e w o r k i th a st h ef e a t u r e so f t e m p o r a l s p a t i a ls c a l a b i l i t y i tc a na l s o p r o v i d ea c c u r a t eb i t - r a t ec o n t r o la n de m b e d d e dc o d i n gf u n c t i o n k e y w o r d s :w a v e l e tt r a n s f o r m a t i o n ,v i d e oc o d i n g ,m o t i o nc o m p e n s a t i o n , m o t i o ne s t i m a t i o n ,l i f t i n gw a v e l e t s ,t e m p o r a lf i l t e r i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导i 进行的研究工作及取得的 研究成果,据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获馒蚤f 诤哎j 或其他教育机构 的学位或证书而使用过的材料。与我一。同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 鞭涂刘仁者辩渤 抖哟h 如占年“月f “ 学位论文版权使用授权书 本学位论文作者完全了解交c 拾氓各 有关保留、使用学位论文的规定, : 有拇限掣并向圈家有关部门或机构送交论文的复印件枇磁盘,允许论文被查阅和 借】! : 。本人授权交静戎葡以将学位论文的全部或部分内窑编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存汇编学位论文。 t 强墅蛄i 岸倘谛文在解密后舞用本。援r ,移书) 学位论文作者签名 喜; 签字目期:占砧午1 1 月l r 日 7 ;位j 色t j 背毕j l l :点向: 工作单位 通讯地址 锄鼢黟 签字目期:夕们z 年,月日 电话 怫端 1 1 选题背景 第一章引言 掘统计,人类从外界所获得的信息中有近7 0 是来自视觉系统。视频技术 在传递信息过程中是十分重要的。尤其是在过去的几十年中,随着网络与通信 技术的飞速发展,通信应用领域不断拓广,新的多媒体通信业务不断出现,如 可视电话、电视会议、远程医疗及点播电视等。这些综合业务包括数据、话音 和视频,其中视频业务尤为重要。 视频信息数字化之后的数掘量非常大,巨大的数据量给视频信息的存储、 传输和检索带来极大的障碍。表卜1 列出了几种常见视频信号的编码速率( 未 经压缩) 。一张c d r o m 的容量是6 5 0 m b ,一张d v d 的容量为4 9 g b ,这样,对于 未压缩的电视信号,一张c d r o m 仅可以存储大约2 3 5 秒钟的节目,一张d v d 光盘仅可以存储大约3 分钟的节目。以视频会议中常用的q c i f 格式视频信号为 例,每帧图像尺寸为1 7 6 1 4 4 像素,平均每像素为1 2 比特,则每帧的数掘量 为3 0 4k b ,每秒播放3 0 帧,则比特流速率将达到9 1m b p s ,无法直接在i s d n 信道上传输。 视频类刑视频幽像尺寸帧速率( h z )比特,像素码速率( m b p s )典犁府_ 1 1 j o c i f1 7 6 x 1 4 43 01 29 1 电视电话 c i f 3 5 2 x 2 8 83 01 21 82会议电视 i t u - r6 0 17 2 0 x 5 7 62 51 61 6 5 9酱通电视 e d t v 9 6 0 5 7 62 51 62 2 1 2增强删电视 i t u - r7 0 91 9 2 0 1 1 5 22 5l 68 8 4 7 高清晰度电视 表1 - 1儿种甫址视频信号f 1 勺编码速率 解决这些1 口j 题的方法,单纯叫扩人存储器窖肇、蟀 加通信十线的传输速率 的办江、足l 、脱实的。行之有效的办、法就是采 】数j l c l 7 , 缩技术,己的蔓要目的就 是在保证复原视频的质量符合特止应月j 场合盟求的拍提卜j ,以曝量少的数掘表 征视频。以压缩的形式将视频数掘进行存储和传输,既节约了存储空间,又提 高了通信干线的传输效率,同时也使计算机实时处理视频信息,提供高质量的 视频节目成为可能。目前,许多研究正致力于寻找不同的方法进行视频压缩编 码以减少表示视频所需的数据量。小波分析理论的发展,为这一领域注入了新 的活力。 1 2国内外技术发展状况 视频压缩编码由于其广泛的应用领域一直是计算机和通信等学科的热门研 究课题,目前已经有多种成熟的方法得到应用,若干编码标准也已经由国际电 信联盟( i t u - t ) 、国际标准化组织( i s o ) 制定出来,比较常用的有h 2 6 1 、1 4 2 6 3 、 h 2 6 4 、m p e g 2 、m p e g 4 等。 傅罩叶变换是信号处理领域中研究最早应用最广的分析工具。图像和视频编 码中最常使用的工具是一种简化了的傅里叶变换一d c t ( 离散余弦变换) 变换。但 是随着应用与研究的不断深入,基于分块o c t 技术的原有编码逐渐暴露其不足,尤 其在低比特率环境下,压缩图像不可避免地出现了方块效应和飞蚊噪声。这是因 为一般情况下图像信号是高度非平稳的,并且图像中的一些突变结构例如边缘、 纹理信息远比图像平稳性重要,用余弦基作图像信号的非线性逼近其结果不是最 优的。另外在视频信号分析中,有时需要将信号在时域和频域中的特性结合起来 分析,这些都是d c t 变换无法解决的。 小波分析,这门十年静j 发展起来的新兴学科,首先在二维图像压缩中取 得了重大成果,并在j p e g 2 0 0 0 核心算法中获得成功应用。它克服了传统的傅罩 叶变换的一些弱点,能对图像进行时频局部化,对图像的平滑部分进行睾h 处理, 对细节部分进行精细处理。同时,它也能将图像分解到多个尺度上,进行多分 辨分析。这样,就可根掘各尺度上的子图像的特性的不同,而进行不同的处理, 用此压缩方法所重建的图像更符合人眼的主观特性,彻底消除了块效应,图像 的编码效年也得到了很大提高,因此,小波编码备受众多研究者的青睐。1 9 9 2 年l e w ls 年f lh 肌w 1e s 第一次实现了基于小波的零树编码,小波零利作为一种新 的编们疗法; 台不同尺度i | ,j 小波系数之问的关系,很好地昕决了低比特率j 手f 高运算复杂腰之问的矛盾,i e w i s 等人提出的压缩算法并不完美,但它的雄本 思想为后人所吸收,并对设计改进型编码其具有一定的指导意义。此后陆续出 现了许多其它n 勺基于零树的编码方案变种如e z w 、s p i h t 、e p w l c 、胁c o t 、s f q 、 c r e w 、 s r 和小波包编码等等。其中e b c o t ”算法被定为j p e g 2 0 0 0 标准的核心 算法。 与此同时,基于小波的视频编码系统研究活动也非常活跃。小波视频编码是 指以离散小波变换( d w t ) 为核心的视频编码方案。静止图像和运动图像的差 别在某种意义e 来说是不大的。运动图像可以看成是静止图像的一个序列。当然, 完全按照静止图像处理运动图像并不合理,因为没有考虑图像帧之i 日j 的相关性。 小波编码方案目前还没有形成国际标准,根掘压缩处理流程的不同可以分成 很多种,它们在性能上各有优劣。其中,含运动补偿的三维小波视频编码是二维 空间小波图像压缩向三维视频空问的推广。这种方案先对视频信号的时问、水平 和竖直方向上进行三维小波变换,然后对所有的小波系数进行熵编码。由于经过 了时日j 维滤波,所以图像帧与帧之i i 丑j 的关系是交互的,不存在单一关键帧的概 念。其次由于该方案采用了时问维处理技术,在运动方向上对相邻图像进行低通 和高通滤波,因此可以在不采用传统回归预测方式的基础上柬消除时l 日j 冗余。并 且由于首先在时i 甘j 维进行了滤波,因此时日j 、空| 日j 的可伸缩性相对固定,从而该 方案具有调节到一个特定码率的能力。综合考虑编码的压缩性能和可伸缩性等因 素,帧问小波滤波方案的综合性能出色,本文中采用了这种结构。 我国在视频编解码技术方面也加大研发力度,2 0 0 5 年a v s ( 数字音视频编解 码技术标准) 产业联盟在北京人民大会拳萨式成立。据介绍,a v s 产业联盟是在 中国成立的第一个音视频产业联盟,甚至是国际上第一个在音视频领域成立的 联盟组织。a v s 产业联盟也是全球第一个大规模推广新的数字音视频标准的行 业组织。a v s 是我国第一个具有自主知识产权的数字音视频编码技术标准,该 研究起点高。技术先进,突破了数字音视频解码芯片的核心技术,总体上达到 国际先进水平,在若干关键算法及其实现上具有独创性,为我国在计算机、通 讯和消费电予领域的幽际竞争提供了重要的 术支撑。a v s 产业联盟以协i 司创 新、优势j i 补、提 核心毙争力、建立白手帕数字音视频产_ p 链为宗旨。官的 健康发展就预示着我h 数,劳m 。a i ,“业帮体州起。 1 3 本文内容 本文提出了一个基于运动补偿和提升方案的三维小波视频压缩编解码系 统。该系统的输出码流是基于小波零树结构的,具有嵌入式编码、精确的码率 控制和较为简单的实现等特点。 本文内容安排如下: 第一章:引言。介绍了选题背景和国内外技术状况。 第二章:数字视频编码的基本理论。我们首先从视频压缩编码的基本原理入手, 对数据冗余、彩色空间等基本概念进行了论述,给出了一个视频压缩的基本模 型。并根据本文的工作有选择地对一些传统的编码技术及量化技术进行了概述。 最后,介绍了现今通用的对视频压缩编码算法的评价标准。 第三章:小波变换在视频编码中的应用。本章从小波变换的基础理论开始,介 绍多分辨率分析与m a l l a t 算法以及小波提升算法。此外,我们还介绍了小波在 视频编码的优势和在实际编码过程中应注意的问题等。这一章和第二章共同构 成了本文工作的重要基石。 第四章:基于运动补偿和提升小波的时域滤波技术。三维小波视频编码一般由帧 白j 滤波,帧内滤波和熵编码组成。本文主要是在时域滤波方面提出了改进方案。 在这章中,我们对时域滤波中的主要技术:运动补偿、运动估计及提升方案进 行了比较详细地介绍。本文工作采用了基于运动补偿和提升框架的时域滤波方 案。其中使用的帧结构是由罗琳等人提出的,本文在其基础上将原有的运动补偿 的双向预测改为自适应的预测方向以期原帧图像与预测图像的差值达到最小。 第五章:基于三维小波变换的视频编码器。这一章我们提出了基于运动补偿和提 升方案的三维小波视频编码器的构架并介绍了本文视频编码器的时域滤波部分 在实现中的一些细节问题,并给出了论文工作的实验结果与分析。 本文的主要成果在于提出了个瓤的基于三维小波变换的视频编码器的构 架,并实现了编解码系统的时域滤波。由于在工作中我们采用了比较新颖的框 架结构和比较先进的编码技术,对具进行简单地扩腱就能增加新的功能,实现 新的改进: 4 第二章数字视频压缩编码基础 2 1 基本概念 视频是一种三维连续函数,即它的亮度是其位青及时间的连续函数。为了能 在计算机上进行数掘处理,首先要在空l 日j 和亮度上对图像进行数字化。在空i 日j 位 置上的数字化,图像序列可以看作是一个有限的数列或矩阵,此过程称为采样: 而亮度上的数字化是将得到的图像亮度离散为整数值,此过程为量化。数字图像 就是经过采样和量化后的图像数掘。图像矩阵中的元素就是像素( p i x e l ) ,这是 一个二维数组,而一组图像序列可以看作是图像矩阵加上一个时问维之后形成的 三维像素矩阵,它是全体像素的集合。 视频压缩要解决的问题是尽量减少表示数字视频时需要的数据量。减少数 据量的基本原理是除去其中多余的数据。以数学的观点来看,这一过程实际上 就是将三维像素矩阵变换为一个在统计上无关联的数据集合。这种变换在视频 存储或传输之前进行。在以后的某个时候,再对压缩视频进行解压缩来重构原 视频或原视频的近似。利用某种编码方法在一定程度上消除这些相关特性或冗 余,把信号进行压缩的过程称为编码,恢复原信号的过程常称为解码。 2 2 数据冗余“胡 在数字视频压缩中,虽然视频信息的数掘量非常庞大,但是它是可以压缩 的。因为原始视频数据是高度相关的,存在着很大的冗余度。消除冗余数据是 压缩数掘量的重要方法。所谓冗余数掘是指那些代表了无用的信息,或者是重 复地表示了其他数掘已表示信息的数掘。在不同应用中,哪些信息是无用的( 有 时也包括不重要的信息) 或是已由其他数据表示了的均可能4 i 同,所以需采取 相戍的方法进行压缩。 通j 立消除或减少,c 余数掘,可以达到较少的数捌量衷迭旧样多信息量的 目的。0 7 炙1 i i “l 和n 2 分刖代表用束表达相同信息的2 个数杯! | 二台巾f i j f t i 息载 体i 弘位的个幺,卸;么jj :缅簪c rl 叮表示为: c r - - n l n 2( 2 一1 ) 一般情况下c r 在开区日j ( 0 ,一) 中墩值,实际中常需要压缩数掘量,所 以c r 应大于l 。 视频数据的冗余包括以下几种,当这些冗余中的一种或多种得到减少或消 除时,就实现了数掘压缩。 ( 1 ) 空问冗余。视频序列的每一帧内相邻像素之i 日j 存在较大的相关性; ( 2 ) 时间冗余。视频序列的相邻帧之自j 存在较大的相关性; ( 3 ) 信息冗余。由信息论的有关原理可知,为了表示图像数掘的一个像素点,只 要按其信息熵的大小分配相应的比特即可。然而对于实际图像的每个像素,很 难得到它的信息熵,因此在数字化幅图像时,用相同的比特数柬表示每个像 素点,这样必然存在冗余; ( 4 ) 结构冗余。在有些图像的部分区域存在着非常强的纹理结构,或是图像的各 个部分之问存在某种关系,例如自相似性等; ( 5 ) 心理视觉冗余。在大多数情况下,重建图像的最终接收者是人的眼睛,可以 利用人类视觉系统的特点,达到较高的压缩比。因为人类的视觉系统是世界上 最好的图像处理系统,但是它远远不是完美的。人类的视觉系统( h u m a nv i s u a l s y s t e m ,h v s ) 对于图像场的感觉是非均匀和非线性的,它并不是对于图像的任 一 何变化都能感知。因而允许在对图像的编码和解码处理中引入定的失真,只 要这些失真并不被人眼所觉察; ( 6 ) 知识冗余。图像中包含的信息与某些先验的基础知识有关,例如人脸像中, 头、眼、鼻和嘴的相互位旨等信息就是一些常识。 2 3 彩色空间n 埘 彩色是一种心理感觉,它与照明源的辐射能量的分布及观察者的视觉有关。 根掘人眼结构,所有颜色都可以看作是3 个基本颜色红( r ,r e d ) ,绿g , g r e e n ) 和蓝( b ,b l u e ) 的按不同的比例混台而成。三种颜色的光线越强,到达我 们眼睛的光就越彩,它gj o :j 比例4 :l 亓j ,技川斤到的颜色也就小刚。、二i 种摧本 颜色按4 q , i j 媸腹帽加时,总们光线增j 虽,jr - j 以得到任何一种颜包。这些一:硅 色相加的结果如图2 一l 所示。使用三基色摸型的典型例子赳彩色电视。 人们区分颜色常用三种基本特性量:亮度、色调和饱和度。亮度与物体的 反射率成正比,如果无彩色就只有亮度一个自由度的变化。色调是与混合光谱 。 中主要波长相联系的。饱和度与一定色调的纯度有关,纯光谱色是完全饱和的, 随着白光的加入。饱和度逐渐减少。色调和饱和度合起来称为色度。 l 茎l2 - 1 二基色模型 为了使用人的视角特性以降低数掘量,通常把r g b 空l 、b j 表示的彩色图像变 换到其他彩色空问。目的采用的彩色空削变换有三种:y i q 、y u v 和y c r c b 。 每一种彩色空1 日j 都产生一种亮度分量信号和两种色度分量信号,而每一种变换 使用的参数都是适应某种类型的显示设备。其中,y i q 适用于美国国家电视台 标准委员会( n t s c ) 彩色电视制式,y u v 适用于p a l 和s e c a m 彩色电视制 式,而y c r c b 适用于计算机用的显示器。 以p a l 彩色电视制式是使用的y u v 模型为铡,它的亮度信号( y ) 和色度信 号( 1 l v ) 是相互独立的,所以这些单色图可以分别进行编码。黑自电视能接收彩 色电视信号也就是利用了分量之问的独立性。y u v 表示法的另一个优点 是可以利用人眼的特性来降低数字彩色图像所需要的存储容量。人眼对彩色细 节的分嘶能力远比对亮度细节的分辨能力低。因此我们可以把彩色分量的分辨 率降低而不明显影响图像的质量,从而减少所需的存储容量。 无论是用y t q 、y u v 还是y c r c b 模型柬表示彩色图像,由于现在所有的 显示器都采用r g b 值柬驱动,返就要求存显示每个像素之。m 必须要把彩色分 鲢池转j 置成r g b 值。这种转换受化仉人照的i i i t , - i h j 。:童芷个耍往软硬件 i 殳计r h :j 嫂,1 ;合考虑的凼索。 各种彩色空| i b j 可以牛h 互转换。 y = 0 2 9 9 r + 0 5 8 7 g + o 11 4 b u = 一0 1 4 7 r - 0 2 8 9 g + o 4 3 6 b v = 0 6 1 5 r - 0 5 1 5 g 一0 1 0 0 1 3 也可用矩阵表示 o 5 8 7 0 2 8 9 0 5 1 5 r g b 到y u v 的转换关系如下表示: 2 4 数字视频编码系统概述 ( 2 2 ) ( 2 3 ) 视频编码系统出预处理、量化和二进制编码构成,编码后的码流生成了压 缩视频数掘,经存储或传输后在解码端重构出视频。视频编解码系统的基本组 成如图2 2 所示。编码的主要步骤描述如下: ( 1 ) 首先由预处理用信源模型的参数描述数字化的视频序列。视频编码算法的 组成在很大程度上是由视频序列建模所采用的模型确定的。视频编码器寻求用 它的模型描述视频序列的内容。视频模型可做出图像序列的像素之i b j 在时l 日j 和 空l 日j 上相关性的假设,它也可考虑物体的形状和运动或照度的影响。 ( 2 ) 经预处理的视频模型参数被量化成有限的符号集。量化参数取决于比特率与 失真问所期望的折中。 ( 3 ) 用无损编码技术把量化参数映射成二进制码字;这种技术进一步利用量化参 数的统计特性。产生的比特流在信道上传输。 解码器的过程与压缩编码过程萨好相反。 闰2 - 2 视额编解码系统的垦奉缃成 州别丌i 0 0 慢 h 弘眦 m 怒一 1。,l l i 10,j y u 矿 。l 2 5 编码方法分类m 1 根掘解码后的数据与原始数掘是否完全一致进行划分,图像压缩方法分为: 无失真编码和限失真编码。无失真编码又称为信息保持编码( l o s s l e s sc o d i n g ) 或可逆编码( r e v e r s i b l ec o d i n g ) ,限失真编码又称为非信息保持编码( l o s s y c o d i n g ) 或不可逆编码( i r r e v e r s i b l ec o d i n g ) 。前者的解码图像与原始图像严格相 同,压缩是完全可恢复的或无偏差的,编码过程中不允许使用量化器,因为量 化总会带来不可恢复的失真。其最高压缩比取决于图像的信息熵。而后者的解 码图像与原始图像可存在着一定的误差,但视觉上一般是可以接收的。它主要 针对自然界中那些结构复杂,细节丰富、灰度层次较多的数字图像,由于它们 的数掘量很大,仅仅用无失真编码往往达不到压缩比的要求。但考虑到人眼的 视觉特性,即视觉冗余,就可以在一定的失真率下进行图像压缩。在限失真编 码中允许的失真越大,可达到的压缩比越高,但应该把失真控制在视觉阚值以 下或人眼可容忍的程度。 可逆编码一般是基于信息熵原理的,不可逆编码则是多种多样的。 2 5 1 可逆编码概述 可逆编码是以信息熵理论为基础,信息熵编码起始于香农( s h a n n o n ) 4 0 年代 术在贝尔实验室的工作,其主要原理是利用数据样本在给定数扼流中的出现概率 重新进行比特分配。根掘信息熵理论,让出现概率大的用短的码字表达,反之用 长的码字表达。这样使得最终的平均码长很小。熵编码器输出的平均码长可以接 近信源的信息熵,即码长的下限。可逆编码目前己经派生出多种基于统计的编码 方法,现在较常用的包括哈夫曼编码、算术编码和游程编码。 ( 1 ) 哈夫曼编码 哈夫曼( h u f f m a n ) 编码是消除冗余最常用的技术之一。当对信源逐个编码 时,哈夫曼编f 屿能给:f 最短的码字。哈夫曼算法是由计算概率丌始到生成二叉 树然后在生成编码表的方洼,特别适用j :所有信源符号的出现概率分如都是1 2 的整数次幂的情况。 哈丈曼编5 足f l , 小等长最值编鸽乃江,这怛的最佳足指它的平均舭长时 十h 刚概串分佃的价 l ! ;i 【e :它f 肼4干1 :仃叛编,j 浊都短。哈大曼绷必殒l l :迎 信源的概率分稚,这一般是无法做到的,通常采用对大量数掘进行统计后得到 的近似分布柬代替。但是不同的图像类型其概率分缸总有差异,这导致实际应 用时无法达到最佳性能。通过利用根据输入数据序列自适应的匹配信源概率分 布的方法可以较好地改进哈夫曼编码的性能,但这种方法运算复杂大且不适合 用硬件实现。 此外,哈夫曼码没有错误保护功能,在译码时,如果码串中仅有一位错误, 会导致后面的所有编码完全错误,这种现象称为错误传播( e r r o rp r o p a g a t i o n ) 。 计算机对这种错误无能为力,无法检查与纠i f 错误。此外因为哈夫曼码还是一 种可变长度码,因此很难随意查找或调用压缩文件中间的内容,然后再译码, 这就需要在存储代码之| j i 加以考虑。 ( 2 ) 算术编码 哈夫曼编码在信源符号的出现概率都是1 2 的整数次幂的时候是最合理的。 然而在绝大多数情况下,这种条件并不满足。算术编码是一种对于数据的概率 分布没有上述约束要求的编码。因此有人说,算术编码才是一种真j 下意义的信 息熵编码。 算术编码的基本原理是任何个数掘均可以表示成0 和1 之日j 的一个问隔, 该间隔的位詈与输入数据的概率分布有关。可以根据信源的统计特性束设计具 体的编码器,也可以针对未知概率类型的信源设计能够自适应适配其分布的算 术编码器,并且这两种形式的编码器均可以用硬件实现。有关的实验数掘表明 在未知信源概率分布的大部分情形下,算术编码要优于哈夫曼编码。 ( 3 ) 游程编码 实际应用中存在一类数掘:在一个串中同样的符号被重复很多次。例如传 真数掘中含有很多连续的1 或连续的0 值。游程编码是针对此类数据的一种可 逆编码。游稃编码虽然并未进行比特重分配,但它依然是基于统计的方法。 当进行游程编码时,对输入流进行扫描,记住相同样本的个数然后以( v 1 ) 的形式进行编马,其中v 代表样本值,1 代表相邻的具有陔样本值的样本个数。 例如用f 4 ,1 2 ) 柬代表“4 4 4 4 4 4 4 4 4 4 4 4 ”。 泓日编码很适合于有很多缝续相川位组j 铲列值图像l 黑闩图像) 、 静“彩位蚓像拒d c t 变换后的系数如1 5 i i :刊以通过z 肜 1 i i f l 术形成适台j :游彩 编码的序列。游程编码”,以用予量化后出现人量的零系数的情况,利用游私柬 表示连零码,降低表示零码的数掘量。 2 5 2 不可逆编码 不可逆编码至少包含8 类不同原理的编码方法。由于篇幅所限,本文仪介 绍几种常用的和近柬研究比较活跃的方法。 ( 1 ) 预测编码 预测编码( p r e d i c t i v ec o d i n g ) 是一种针对统计冗余进行压缩的方法。有线性 预测和非线性预测两类。它们可以在一幅图像内进行( 帧内预测编码) ,也可以 在多幅图像之问进行( 帧问预测编码) 。预测编码基于图像数掘的空问和时间冗 余特性,用相邻的己知的像素( 或图像块) 来预测当前像素( 或图像块) 的值,然后 再对预测误差进行量化和编码。这些相邻像素( 或图像块) 可以是同一行的,也 可以是的几行的或前几帧的。相应的预测编码分别称为一维、二维和三维预测。 其中一维和二维预测属于帧内预测,三维预测属于帧日j 预测。 预测编码的关键在于预测算法的选取,而算法的选取又与图像信号的概率 分布很有关系。实际中常根掘大量的统计结果采用简化的概率分南形式束设计 最佳预测器。预测编码方法基本上是针对输入的数掘是一个平稳过程( 或称信号 是稳定信号) 而设计的。当输入的数掘不是平稳过程的时候,可采用自适应预测 编码,以提高预测效率。 线性预测编码又称为差分脉冲编码调制,即d p c m ( d i f f e r e n t i a lp u ls e c o d em o d u l a t i o n ) 。帧内预测编码一般采用基于像素预测形式的d p c m ,其特点 是算法简单,易于硬件实现,缺点是对信道噪声及误码很敏感,会产生误码扩 散,使图像质量大大下降。帧内d p c m 的编码压缩率很低,因此现在已很少独 立使用,一般要结合别的方法协儿。 帧| 、h j 预测编码主要利用活动图像序列相邻帧之习j 的相关性,即图像数掘的 时l 、h j 冗余束达到压缩的目的,可以获得比帧内编码高的多的压缩比。帧m 预测 编刚i f - 为消除幽像序列帧问相关性的主要手段之一,存视频幽像编州中占有很 重雀的地似m j 预测编码股足针对图像块f l j j i i ! 测编妈它录 i j 的技术臼帧 币奠;:、刚二帧内塥江,延动补偿法和自适i 交件帧i 喇懒槲5 法气! l 中远功补伫p 刚编码j 见l 铍各种视频| 冬l 像编枷准采用。错钏了很女朋自结果。 这类图像编码方法的主要缺点在于对图像序列不同的区域,预测的性能不一样, 特别是在快速运动区域,预测的效率很差。而且为了降低预侧算法的运算复杂 度和提高预测精度,一般要对图像进行分块后再预测,这势必造成分块边缘的 不连续 预测编码方法的建立基于如下假设:一个数掘样本可以近似地被它过去的 样本的组合所估计释到( 预测) 。根掘过去样本的选择和组合方式的不同可以构 成各种不同的预测编码器。最常用的线性预测可以表达如下。 设当日h 样本为s ( n ) ,预测样本值: 其中,a ,称为预测系数,p 是预测的阶数。设e ( 1 1 ) 为实际值和预测值之问 的误差,则 e ( n ) 称为线性预测误差。当e ( i 1 ) 的幅度变化范围和平均能量比原来的样本s ( n ) 要小的时候就实现了压缩。d p c m 是一种典型的线性预测编码方法。 由于预测编码是滤波器理论中的一个最简单模型,所以理论上比较完备。 在实现方面也极为简单,只需要最多不超过预测阶数的简单运算器和移位寄存 器就可以了。 ( 2 ) 变换编码 变换编码( t r a n s f o r m i n gc o d in g ) 也是一种针对统计冗余进行爪缩的方法。 所谓变换编码是将图像时域( 空j 日j 域) 信号变换到系数空| 丑j ( 频域) 上进行处理的 方法。因为由时域映射到频域上总是通过某种变换上进行的,所以称为变换编 码方法。在空日j 上具有强相关的信号,反映在频域上是在某些特定的区域中能 量集中在一起,采用适当的量化和墒编码就可以有效的压缩数掘。而且图像经 过某些,变换后,系数的空| 日j 分铂一频率特中j 可能与人眼的视觉特性相匹配,幽 此可以利h 1 人类视觉系统的乍州心胛牲t 0 求得到较好的编0 q 系统”“_ “1 。 变换编码有曲个最明显的特点:是j 以搿到高的压缩比,二是比预测编码 4 2 、, 1一珂 ,l s口 ,一 = 、, 聆 ,l j r 0 2 、, 一 聆 ,l s口 p h 一 、j 玎 l j = 、j 珂 l s一 、, 玎 ,l s i i 、j 玎 ,l p 等其他方法的计算复杂性高。在变换后,山于在频率域l :信息是按照频谱的能 量域步| j i 率分御排列的,只要对频域平面量化器进行合理的( 非均匀的) 比特分配, 高能量区给以较高的比特数,低能量区给以低的比特数,就可以得到较高的压 缩能力。 变换编码通常是将空间域相关的像素点通过正交变化映射到另一个频域 上,使变换后的系数之| 日j 的相关性降低。在变换后的频域j 二应满足:( 1 ) 所有的 系数相互独立:( 2 ) 能量集中于少数几个系数上;( 3 ) 这些系数集中于一个最小的 区域内。满足以上条件的系数中,只要保留少数重要的系数就能够很好的恢复 出图像,人眼几乎察觉不出那些损失的系数。 k - l ( k a r h u n e n - l o e v e ) 变换是在上面的思路下构造出来的最佳线性变换方 案。它由数掘本身的相关矩阵对角化后构成,因此变换后产生的变换系数完全 不相关。但是,k l 变换的变换矩阵由图像数掘本身求得,不同的图像数掘有 不同的变换矩阵。因此计算量很大,不是一种实用的变换方法。k l 变换虽然 是均方误差准则下的最佳变换,但在实际编码工作中,较多采用的是离散余弦 变换( d c t ,d i s c r e t ec o s i n et r a n s f o r m ) 。对大多数图像信源来说,d c t 变换 是现行变换编码中最接近k l 变换的方法。 ( 3 ) 子带编码 图像的子带编码( s b c ) 是从语音的子带编码移植过来的。它将图像信号首先 通过若干个带通滤波器,从而将原始图像的频谱分成几个频率段;然后再对不 同的频率段采取不同的后续编码方法,实现对原图像的压缩。人类视觉系统对 噪声的敏感程度在不同频率段中是不同的。这种自然生理现象可被利用柬对不 同频率段采取失真度不同的压缩。s b c 是对整个图像进行的,不存在方块效应。 典型的s b c 是以两个滤波器( 高通、低通) 将原图像在频率域罩分成两个子带; 可以将予带进一步再分成两个子带形成多层次、多频带的子带分解过程。 予带编码有许多优点:可以针对箨了带的统汁特性及其对人眼视觉的不同积 极性,进行适当的比特分配,选抒的编码方案;对各个了带可实现并行处理:误 筹不会在于舒1 日j 扩散。子带编码的运舅复杂心低,就质量和j f 缩比而言,它与变 换编弼年h j 支近,但它消除了变换编鹏t 1 的,尺放f j 一,f i i 。1j e 鲜l 比挺商时,振铃效应 变甜i 吖娃。 2 6 量化与标量量化例口1 2 6 1 量化 量化是一个相当直观的数据压缩方法,其过程相当于将输入数掘的取值范围 加以限制。量化过程实际的做法是利用量化查找表使一个输出值对应于若干个输 入值。量化算法是基于人的视觉特性对不同亮度值域的敏感程度不一样的特点, 在一定输出图像质量的6 u 提下,调节量化查找表达到最佳的压缩比。 量化可分为三类:( 1 ) 标量量化( 2 ) 向量量化( 3 ) 序列量化。标量量化是最早被 研究的,在这种量化中,每一个采样使用同一个量化器进行量化,每个采样的量 化都与其它所有采样无关,因此也可称作零记忆量化或一维量化。后两种量化则 是利用采样i 日j 的相关性进行量化,它们的量化是一次对多于一个采样值进行的, 因此从理论上说应该具有更好的压缩能力。但是后两种无论是在软件上还是在硬 件上,实现起来都要比第一种复杂的多。标量量化其思想简单,且易于硬件实现, 因此至今为止,仍为许多快速压缩编码系统所选用。 2 6 2 标量量化 杯量量化( s q ) 的定义为:设r 是实空j 、日j 或实空间的子集。对于x r ,选择n 个点,y = y i ,y 2 ,y n ,y i r ,给出r 的一种划分巾,使得 i rn 髟= i n yr i = r y i r i ( 2 - 6 ) 则量化器是一种多对一的映射:q :足专y ,y = y x r ,f = 1 , 2 ,j z , 量化器将产生误差,即量化误差或量化噪声,量化误差q = y ( x ) 一z 。其 中,x 为量化器的输入,y ( x ) 为量化器的输出,对量化器的量化程度一般采用均 方设等。 卡,j 、萝星化器丰要:二利一7 形式: “) 均匀昂| 也器:具糖化叫隔是等长的输i l 乜l ,在多化隔”勺叶- ,i : ( 2 ) 非均匀射化器;其箭化问隔是小等长的; ( 3 ) 自适应量化器:其量化间隔随传送数掘而变。 当输入数捌的概率密度是均匀的时候,均匀量化器是最优的,但事实上输入 概率密度并非总是均匀的,对此f l o y d 和m a x 分别利用相同失真量度分析了量化噪 声,得到了最佳量化器的设计方法。最佳量化器的设计方法主要包括两点: ( 1 ) 每个问隔界限都应在相邻两个输出量值之i 日j 的中点; ( 2 ) 每个量值都应在该量值作代表区i 日j 间隔内的输入概率密度函数的重心。 f l o y d m a x 算法复杂,硬件实现较困难,因此对于实际系统末说很少采用 f l o y d - m a x 量化器。量化器的最佳设计有两种方法,第一种方法是:当量化器的分 层总数已给定时,根掘量化误差的方值为最小值柬设计量化器。第二种方法是: 使量化器的量化分层总数尽量小,而又保证量化误差不超过视觉的可见度阈值函 数来设计量化器。 对于己知分布概形及其数字特征的数据过程,比较容易依概率分布安排量化 器的代表量值,以得到具有最小量化失真的优化量化器;如果分伟是均匀的,那 么采用均匀量化器比较理想:如果分白不均匀,采用变长量化器比较理想。 2 7 视频编码系统的性能评价嘲 编码方法的好坏优劣是根掘其压缩比、失真度和实现的难易程度等许多因 素来综合评价的,各种编码技术各有利弊,所得结果也与视频的具体内容和对 编码的要求有关。那么,应该依据一个怎样的标准对视频编码系统做出评价呢? 下面简要探讨这一问题。 对视频编码系统来说。评价其性能的优劣有很多的标准,如压缩时问,复 杂程度等。然而,其中最为人们所关注的是其恢复图像的质量,因为最终人们 用到的就是压缩系统恢复的图像,既要以尽可能少的比特数来传输或存储图像, 又要做到尽可能的使用户获得满意的重建视频图像。 一般的,图像质量可分为图像的逼真度和可懂度,图像逼真度描述处理后 的图像和原始图像之ih j 的偏离程瘦:而图像u n 度则表示人或机器能从+ 到f 象中 抽取有笑信息的程度。j i 苦柚绍:! j 沦被处理后的图像手原始图像之i 日j 细j 、的z 别;后行则。般涉及两崩之| i l jj 、旧莲圳此对图像质量的计价分为曲帅 式: 2 7 1 客观评价 对图像逼真度的定量描述,办即客观评价,一般可用原图像和压缩恢复图 像的均方误差m s e ( m e a ns q u a r ee r r o r ) 和压缩图像的信噪比s n r ( s i g n a lt o n o i s er a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论