(信号与信息处理专业论文)基于pstn的活动图像编码和传输系统研制.pdf_第1页
(信号与信息处理专业论文)基于pstn的活动图像编码和传输系统研制.pdf_第2页
(信号与信息处理专业论文)基于pstn的活动图像编码和传输系统研制.pdf_第3页
(信号与信息处理专业论文)基于pstn的活动图像编码和传输系统研制.pdf_第4页
(信号与信息处理专业论文)基于pstn的活动图像编码和传输系统研制.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 本文提出了一种对视频图像进行编码和传输系统的软件实现方案。 在该方案的基础上,结合对图像采集卡的编程,可以实现对采集到的视 频信息进行编码,然后将压缩好的码流通过p s t n 传输到和现场计算机 建立拨号连接的远端计算机,由远端计算机进行实时显示或存储,从而 达到远程监视的目的。该系统的主要功能模块:图像采集模块、编码模 块、发送和接收模块、解码显示模块均是在v i s u a lc + + 6 0 的编程环境下 开发的。各个模块以线程的方式独立工作,通过事件对象来实现各个线 程之间的同步和共享数据。其中,图像采集的实现主要是通过调用厂商 提供的接口函数对图像采集卡进行编程:编解码方案采用的是符合 h 2 6 3 、h 2 6 3 + 标准的视频编解码器;通信模块主要是通过调用w i n 3 2 通信a p i 和电话a p 函数实现的。在本文的最后给出了对整个系统进行 测试的部分实验结果。t 以上详细内容在第五部分给出。 由于公用交换电话网( p s t n ) 设计的最初目的是为了传输语音信号, 所以它的可利用带宽较窄,无法满足直接传输视频信息的海量数据的要 求,如何压缩我们采集到的视频数据就成了开发该系统的关键。因此, 在文中的第二部分简要介绍了一些传统的和新兴的数字图像压缩方法。 近年来,随着数字视频应用的日益广泛,许多学术部门和企业部门 都致力于视频压缩方法的研究,并且产生了很有代表性的一些国际标准, 比如国际电联的h 2 6 l 、h 2 6 3 等,国际标准化组织的m p e g 1 、m p e g 2 等。针对不同应用对码率、图像质量、复杂程度、容错能力和时延的不 同要求,可以选择不同的标准。在文中的第三部分简要介绍了这些标准。 尽管人们对视频会议、可视电话和视频电子邮件这样的视频应用的 需求飞速增长,但是公用交换电话网和无线网络的传输速率依然很低。 这些应用对压缩性能和信道抗干扰能力的要求都是以前的基于块的视频 编码标准h 2 6 1 所不能提供的。因此,针对上面的需求,国际电联又制 定了h 2 6 3 标准,为了改进压缩质量,该标准增加了4 个可选编码模式。 山东大学硕士学位论文 h 2 6 3 + 是h 2 6 3 的第二个版本,是h 2 6 3 标准的扩展,又增加了1 2 个 可选项。尽管编码结构以h 2 6 1 为基础,但是h 2 6 3 、h 2 6 3 + 却在极小 地增加复杂程度的情况下换取了低码率下图像质量的显著提高。标准选 取的理由在第五部分第二节中给出。1 关键词:图像采集,图像编码,图像传输,线穆、 山东大学硕士学位论文 a b s t r c t as c h e m eo fa c c o m p l i s h i n gas y s t e mt h a tc a ne n c o d ea n dt r a n s m i t v i d e ob yp r o g r a m m i n gi sp r o p o s e d w i t ht h eu s eo fa ni m a g e a c q u i s i t i o n c a r d ,t h em o v i n gp i c t u r ed a t ac o l l e c t e db yp i c k 一叩h e a d i sf i r s te n c o d e da n d t h e nt r a n s m i t t e dt oac e n t r a lc o m p u t e rt h r o u g hd i a lu pc o n n e c t i o n t h e c e n t r a lc o m p u t e r d i s p l a y st h ei m a g e so n t h es c r e e ni nr e a lt i m e ,o rs a v e st h e b i ts t r e a mi fn e c e s s a r y a l lm o d u l e si nt h i s s y s t e m ,s u c h a s e n c o d i n g , c o m m u n i c a t i o n ,d e c o d i n g ,d i s p l a y i n ge t c ,a r ed e v e l o p e du n d e rt h ev i s u a l c + + 6 0e n v i r o n m e n t e a c hm o d u l ei nt h i ss y s t e mc a nw o r k s e p a r a t e l yi nt h e t h r e a dm o d e ,w h i c hc a nr e a l i z es y n c h r o n i z a t i o na n dd a t a s h a r i n gb ye v e n t o b j e c t s i nt h es y s t e m ,t h ec o l l e c t i n gm o d u l ei s r e a l i z e db yp r o g r a m m i n g t h r o u g ht h ei n t e r f a c e f u n c t i o n so f f e r e db ym a n u f a c t u r e r t h ee n c o d e ra n d d e c o d e ra r eb a s e do ni t u td r a f th 2 6 3a n dh 2 6 3 + f o rt h e c o m m u n i c a t i o nm o d u l e ,w i n 3 2c o m m u n i c a t i o na p if u n c t i o n sa n dt e l e p h o n y a p if u n c t i o n sa r ea d o p t e d f i n a l l y ,t h ee x p e r i m e n tr e s u l t sa r eg i v e n a l l d e t a i l sa b o v ea r ei n t r o d u c e di nt h ef i f t hp a r t t h ep u b l i cs w i t c h e dt e l e p h o n en e t w o r k s ( p s t n ) i sd e s i g n e df o r t h et r a n s m i s s i o no fv o i c es i g n a lo r i g i n a l l y ,s oi t sb a n d w i d t hi st o o n a r r o wt ot r a n s m i tt h ev i d e o s i g n a l b e c a u s eo fi t s h u g e d a t a q u a n t i t y s oh o w t oc o m p r e s st h ev i d e os i g n a lc o l l e c t e db yp i c k - u p h e a di st h ek e yt ot h i s s y s t e m t h e r e f o r e ,s o m et r a d i t i o n a l a n d n e w b o r nm e t h o d so fd i g i t a li m a g ee n c o d i n ga r ei n t r o d u c e di nt h e s e c o n dp a r t i nr e c e n t y e a r s ,t h e r eh a sb e e ns i g n i f i c a n ti n t e r e s ti nd i g i t a l v i d e o a p p l i c a t i o n s c o n s e q u e n t l y ,a c a d e m i a a n d i n d u s t r y h a v e w o r k e df o r w a r d d e v e l o p i n g v i d e o c o m p r e s s i o nm e t h o d s ,a n d s e v e r a ls u c c e s s f u ls t a n d a r d sh a v ee m e r g e d ,e 。gi t u th 2 6 1 、 h 2 6 3 ,i s om p e g - l 、m p e g 2 ,a n ds oo n t h e s es t a n d a r d sa d d r e s s aw i d er a n g eo fa p p l i c a t i o n sh a v i n gd i f f e r e n tr e q u i r e m e n t si nt e r m o fb i tr a t e ,p i c t u r eq u a l i t y ,c o m p l e x i t y ,e r r o rr e s i l i e n c ea n dd e l a y , e t c t h e r ei sm o r ed i s c u s s i o na b o u tt h e s es t a n d a r d si nt h et h i r d i 山来大学硬士学位论文 p a r t a l t h o u g h t h ed e m a n d f o r d i g i t a l v i d e oc o m m u n i c a t i o n a p p l i c a t i o n ss u c h a sv i d e o c o n f e r e n c i n g ,v i d e ot e l e p h o n ya n dv i d e o e - m a i lh a si n c r e a s e dc o n s i d e r a b l y t r a n s m i s s i o nr a t e o v e rp s t n a n dw i r e l e s sn e t w o r ka r cs t i l ll i m i t e d t h i sr e q u i r e sc o m p r e s s i o n p e r f o r m a n c ea n dc h a n n e le r r o rr o b u s t n e s sl e v e r st h a tc a n ta c h i e v e b yp r e v i o u sb l o c k - b a s e dv i d e oc o d i n gs t a n d a r d ss u c ha sh 2 6 1 a s ar e s u l t ,t h ei n t e r n a t i o n a ls t a n d a r dh 2 6 3 ,w h i c ha d d r e s st h ea b o v e r e q u i r e m e n tb e c o m e st h en e wl o w b i t - r a t e v i d e oc o d i n gs t a n d a r d i ti n c l u d e sf o u ro p t i o n a lm o d e sa i m e da t i m p r o v i n gc o m p r e s s i o n p e r f o r m a n c e h 2 6 3 v e r s i o n2 ,a l s ok n o w na s h 2 6 3 + ,i s t h e e x t e n s i o no f h 2 6 3 ,p r o v i d i n g 1 2n e w n e g o t i a b l e m o d e sa n d a d d i t i o n a lf e a t u r e s w h yh 2 6 3a n dh 2 6 3 + a r ea d o p t e di nt h e s y s t e mi se x p l a i n e di nt h es e c o n ds e c t i o no f t h ef i f t hp a r t k e yw o r d s :i m a g ea c q u i s i t i o n ,i m a g ee n c o d i n g ,t h r e a d ,i m a g e t r a n s m i s s i o n - i v 山东大学硕士学位论文 一引言 1 1 信息社会对视频业务的需求 自从1 8 3 5 年莫尔斯( s f b m o r s e ) 发明了电报,1 8 7 6 年贝尔 ( a g b e l l ) 发明了电话后,这两种通信方式一直是人类进行信息交流 的主要方式。人们通过感觉器官收集到的各种信息中,最主要的是视觉 信息。据统计,人类依靠视觉获取的信息占全部获取信息的6 0 ,依靠 听觉获取的信息占2 0 ,其他还有依靠触觉( 1 5 ) 、味觉( 3 ) 、嗅觉 ( 2 ) 等获取的各类信息 2 1 。 除了传真、静态图像外,一般说来,视频信号均是宽带的。众所周 知,电视信号的频带宽达4 6 m h z ,大概相当于9 6 0 路电话的信道宽度。 即使是变化比较缓慢的可视电话信号,其频带宽度也达到1 m h z 。 以数字0 和l 表示的信息可以实现高质量的传输,并便于进行处理。 但是视频图像信号数字化以后,数据量是十分巨大的。例如,在图像数 据库中,用到的2 4 位真彩色静止图像,若分辨率为1 0 2 4 7 6 8 ,则会产 生2 3 m 的数据。视频图像要求更高的数据传输速率,具有广播质量的电 视信号需要1 0 m b i t s 的数据传输速率,而高清晰度电视( h d t v ) 信号要 求有1 0 0 m b i t s 以上的数据传输速率。 显然,由于带宽( 或数据传输速率) 的限制,视频业务的应用受到 了很大的限制。而视频编码的一个主要任务就是引入图像编码技术,对 数据进行压缩。正是数据压缩技术的进步,才推动了视频业务的迅速发 展,使得c o r o m 、电子相机、可视电话、会议电视、视频监控、视频邮 件、视频点播( v o d ) 和t t d t v 等成为可能。也只有真正实现了视频信息 的传输,多媒体的概念才具有完整性。而所有这些的基础,就是好的图 像编码算法的不断出现。 山东大学硕士学位论文 1 2 数字图像压缩编码的发展 图像压缩编码作为数字视频的核心技术,自1 9 4 8 年b m o l i v e r 等人提出电视信号的数字化( 线性p c m ) 后成为了研究热点,在五、六 十年代,由于当时计算机和电路实现等条件的限制,仅对预测和亚抽 样,内插复原法进行过一些基础性的研究,但也对人类视觉系统( h v s ) 作了可贵的工作。七十年代初,预测法的研究已成熟,并开始进行实 际硬件研制;七十年代中期,变换法成为研究热点;七十年代末,运 动补偿技术成为运动图像压缩技术的关键问题,并有较多的研究。八 十年代,块截断编码( b t c ) 和矢量量化( v q ) 成为研究热点,特别是v q 技术因其良好的性能,而倍受关注。学者们把1 9 8 8 年以前研究的编码 方法称为经典法,八十年代末期也成为“经典法”的成熟期,以自适应 离散余弦变换( a d c t ) 为首选压缩方法的三个国际标准相继建立:电视 电话,会议电视的h 2 6 1 建议、静止图像的j p e g 建议和运动图像压缩 的m p e g 建议。三个国际标准逐步走向实用化,并得到广泛的应用。 另一方面,八十年代末以来,学者们将目光转向了极有发展前途的新方 法:如模型基编码、分形图像编码、神经元网络和小波变换图像编码, 并称之为“现代法”。另外,对一些具有潜在压缩能力的编码方法,如 矢量量化、子带编码、塔型编码等进行了更充分的研究,展开了现代 。 图像压缩编码的研究。 1 3 本文的结构安排 本文提出了一种对视频图像进行编码和传输的系统的软件实现方 案。在该方案的基础上,结合对图像采集卡的编程,可以实现对采集 到的视频信息进行编码,然后将压缩好的码流通过p s t n 传输到和现 场计算机建立拨号连接的远端计算机,由远端计算机进行实时显示或 存储,从而达到远程监视的目的。鉴于整个系统所采集和传输的是数 字视频信息,而且传输介质是带宽仅为4 k 的p s t n 线路,为了保证整 山东大学硕士学位论文 个系统的实时性,必须要对视频数据进行压缩,所以本文的第二部分 主要讲述了数字图像的主要压缩方i i 去。 针对视频压缩,国际上制定了许多标准,在本文的第三部分对部 分标准做了简要地介绍,使大家了解为什么我们最终选择了国际电联 的h 2 6 3 建议。 由于该系统的主要功能模块都是在v i s u a lc + + 6 0 的开发环境下 通过编程实现的,而各个功能模块都是以线程的方式工作的,所以第 四部分简要介绍了一下该系统开发所用的多线程技术。 最后,在本文的第五部分,系统地介绍了整个系统,并给出了实 验结果和结论。 山东大学硬士学位论文 二数字图像压缩的主要方法 2 1 传统的图像编码技术 2 1 1 预测编码 预测编码有线性预测和非线性预测两类,它们可以在一幅图像中进 行( 帧内预测编码) ,也可以在多幅图像之间进行( 帧问预测编码) 预 测编码基于图像数据的空间和时间冗余性,用相邻的已知像素( 或图像 块) 来预测当前像素( 或图像块) 的取值,然后在对预测误差进行量化 和编码。这些相邻像素( 或图像块) 可以是同时扫描的,也可以是前几 行或前几帧的,相应的预测编码分别称为一维、二维和三维预测,其中 一维和二维预测是帧内预测,三维预测是帧间预测。预测编码的关键在 于预测算法的选取,这与图像信号的概率分布很有关系,实际中常根据 大量的统计结果采用简化的概率分布形式来设计最佳的预测器,有时还 使用自适应预测器以较好地刻画图像信号的局部特性,提高预测效率。 线性预测编码又称为差分脉冲编码调制。即d p c m ( d i f f e r e n t i a l p u l s ec o d em o d u l a t i o n ) 帧内预测编码一般采用像素预测形式的d p c m , 其优点是算法简单,易于硬件实现,缺点是对信道噪声及误码很敏感, 会产生误码扩散,使图像质量大大下降。同时,帧内d p c m 的编码压缩 比很低,因此现在已很少独立使用,一般要结合别的编码算法。 帧问预测编码主要利用活动图像序列相邻帧间的相关性,即图像数 据的时间冗余来达到压缩的目的,可以获得比帧内预测编码高得多的压 缩比。帧间预测编码作为消除图像序列帧间相关性的主要手段之一,在 视频图像编码方法中占有很重要的地位帧间预测编码一般是针对图像 块的预测编码,它采用的技术有帧重复法、闽值法、帧内插法、运动补 偿法和自适应交替帧内,帧问编码法等,其中运动补偿预测编码现已被各 种视频图像编码标准采用,得到了很好的结果。这类图像编码方法的主 山东大学硕士学位论文 要缺点在于对图像序列不同的区域,预测性能不一样,特别是在快运动 区,预测效率很差。而且为了降低预测算法的运算复杂度和提高预测精 度,一般要对图像进行分块后再预测,这样势必造成分块边缘的不连续。 2 1 2 变换编码 与预测编码技术相比,消除图像数据空间相关性的一种更有效的方 法是进行信号变换,使图像数据在变换域上最大限度的不相关。尽管图 像变换本身并不带来数据压缩,但由于变换后系数之间相关性明显降低, 图像的大部分能量只集中到少数几个变换系数上,采用适当的量化和熵 编码可以有效地压缩图像地数据量。而且图像经某些变换后,系数的空 间分布和频率特性有可能与人眼的视觉特性匹配,因此可以利用人类视 觉系统的生理和心理特点来得到较好的编码系统。 变换编码通常是将空间域相关的像素点通过正交变换映射到另一个 频域上,使变换后的系数之间的相关性降低。在变换后的频域上应满足: ( 1 ) 所有的系数相互独立:( 2 ) 能量集中于少数几个系数上;( 3 ) 这些系数集 中于一个最小的区域内。保留少数重要的系数就能够很好地恢复出图像, 人眼几乎觉察不出那些损失的系数。 k l ( k a r h u n e n l o e v e ) 变换是在以上思路下构造出来的最佳线性变 换方案 3 4 】:它是用数据本身的相关矩阵对角化后构成的。这种变换将产 生完全不相关的变换系数。如果图像数据之间是高度相关的,经过k l 变换,变换后的系数将出现多个零值,同时,某些系数的值会很小。k l 变换的变换矩阵是由图像数据本身求得的,不同的图像数据有不同的变 换矩阵,这样造成反变换矩阵的不唯一性;加之k l 变换矩阵的构造计 算量很大,因而它不是一种实用的变换方法。尽管如此,k l 变换毕竟 是线形变换压缩编码方法的一个最佳方案,通常成为一个可以让其他线 形变换用来比较的基准。 k l 变换虽然是最小均方误差准则下的最佳变换,但在实际编码工 作中,人们更常采用离散余弦变换( d c t ) 。对大多数图像信源来说, 山东大学硕士学位论文 d c t 是在现行变换编码方法中最接近k l 变换的方法。 对变换后图像系数的编码一般采用门限编码加区域编码的形式。以 d c t 为例,根据变换系数的能量分布,可以将图像划分为不同的区域。 其中变换后幅值较大的图像系数大多集中于图像块的左上角。与其他系 数相比,这些低频系数具有的能量最大,包括了图像的大部分内容,在 变换图像中的地位最重要,应使它们的量化误差最小。同样,对于图像 块的其他区域,也应采用与该区域相配的量化和编码形式。另一方面, 变换图像中有许多系数的幅度很小,只具有原图像中很小比例的能量, 对图像质量影响甚微,因此般采用设定阈值的方法。置小于阈值的变 。 换系数为零,从而大大提高编码效率。经门限和区域编码后,变换图像 的大部分为零,如何采用有效的方法将非零系数和零系数组织起来,在 带来最少冗余的同时保证最大的连零系数出现概率,是变换图像编码中 的又一关键问题。在d c t 图像编码方法中,对变换系数进行z i g z a g 摔 序非常巧妙地解决了这一问题,但是对有些图像变换算法,这种技术却 并非最佳一 在一般图像中,对应边缘轮廓位置附近包含大量高频信息,代表了 图像数据的精细结构。按人眼的视觉特性,这些边缘轮廓信息对于图像 的主观质量很重要,在编码时应给予特别考虑。然而由于传统的正交变 。 换时频局域性很差,变换后的系数失去了高频成分,从变换后的图像得 不到图像边缘轮廓等局部信息,因此在量化编码时无法采用特殊的方法。 在传统的变换图像编码中,大多是靠丢弃高频系数来提高压缩比的,从 而严重影响了复原图像的主观质量,这是传统变换编码方法的缺点之一。 传统变换编码方法的另一缺点是提高编码压缩比时会出现块效应。这是1 因为为了降低变换算法的运算复杂度和提高编码效率,传统图像变换均 采用了分块交换技术。图像块大,相关性就高,压缩比就大:但是块的 尺寸太大又会丢失数据的平稳性,从而引入误差,包括失去高频细节、 引入沿物体边界的噪声和可见d c t 图块边界。根据经验,块的大小为8 8 和1 6 1 6 是比较好的选择 山东大学硕士学位论文 实现实用的变换编码系统,主要分4 个步骤:第一步是选择变换类 型,d c t 是应用最广泛的一种类型;第二步是选择方块的大小,较好的 方块尺寸是8 x 8 或1 6 x1 6 :第三步是选择变换系数,并对其进行高效 的量化,以便传输或存储;第四步是对量化系数进行比特分配,通常是 综合使用排序、游程编码和h u f f m a n 编码i z j 。 2 1 3 矢量量化( v q ) 香农( s h a n n o n ) 率失真理论指出,即使对无记忆信源,矢量编码总 是优于标量编码。基于v q 的图像压缩方法是利用相邻图像数据之间的 高度相关性,将输入的图像数据序列分组。每一组的m 个数据被描述成 为一个含有m 个元素的矢量。 实际的矢量量化图像系统中编码器和解码器内置有相同的码本 ( c o d e b o o k ) ,码本由所有可能矢量值集合的有序子集组成。v q 的码本 是根据训练矢量集合来设计的,常用的是l b g 算法。编码器根据特定的 距离准则( 或称代价函数) 在码本中对输入图像进行矢量匹配,然后对 匹配码的码本序号进行编码,从而实现了由一个矢量所需要的比特数到 一个码字序号所需比特数的压缩。 矢量量化是一种有损编码算法,它可以获得较高的压缩比。其解码 方法比较简单,只是根据接收到的序号,从与编码端一致的码本中找出 该序号对应的码字,实现对原数据的近似重现,但是编码端计算量很大。 为了减小失真,码本的体积自然增大,必然使矢量匹配的搜索时间增长。 另外,由于对原数据分块,在高压缩比时,与d c t 方法一样会出现方块 效应和边缘突起。对于矢量量化关键的技术是最佳v q 码本的设计和快 速的搜索算法。 v q 一般用在低比特率的场合,分为随机型v q 和格型v q 两种。随 机型v q 是一种很有效的数据压缩技术,可以大大降低比特率,广泛用 于语音和图像压缩编码中。人们结合图像信源的特点,提出了多种矢量 量化方案,如:变换域v q 、有限状态v q 、增益波形v q 、地址v q 、 山东大学硕士学位论文 预测v q 和分类v q 等等。但随机型v q 的主要缺点是编码复杂,码本 的适应性差,这是因为实际图像变化复杂,图像信源不平稳,从而在一 定程度上降低了v q 的性能。与随机型v q 相比,格型v q 具有许多优 点,它无需存储庞大的码本,编码复杂度低,具有快速算法,失真小。 因此,格型v q 是当前比较重要的一个研究方向,但是它的压缩比不如 随机型v q 。 2 1 4 子带编码( s b c ) 图像的子带编码是从语音的子带编码移植过来的。它将图像信号首, 先通过若干个带通滤波器,从而将原始图像的频谱分成几个频率段;然 后再对不同的频率段采取不同的后续编码方法,从而实现对原图像的压 缩。人类视觉系统对噪声的敏感程度在不同频率段是不同的。这种自然 生理现象可被用来对不同频率段采取失真度不同的压缩s b c 是对整个 图像进行的,不存在方块效应。典型的s b c 是以两个滤波器( 高通、低 通) 将原图像在频率域里分成两个子带:也可以将子带进一步再分成两 个子带形成多层次、多频带的子带分解过程。 s b c 对图像实施一组滤波,以此将图像分为各个频谱分量。每个分 量表示一幅子图像,例如对一幅静止图像的子带分解,将存在对应输入 i 图像低频分量的一幅小子图像,这幅小子图像可以直接视为原始图像的 缩小拷贝。对这幅小子图像加上频带顺次升高的频谱分量,这些频谱分 量中包含着足以恢复原始图像清晰度所必需的边缘信息,即可恢复出原 始图像。 子带编码有许多优点:可以针对各子带的统计特性及其对人眼视觉 , 的不同重要性,进行适当的比特分配,选择最优的编码方案;对各个子 带可实现并行处理:误差不会在子带问扩散。子带编码的复杂度低,就 质量和压缩比而言,它与变换编码相接近,但它消除了变换编码中的块 效应。但当压缩比提高时。振铃( r i n g ) 效应变得明显。 金字塔编码( p y r a m i dc o d i n g ) 类似于子带编码,它对原始图像依次 山东大学硕士学位论文 滤波、降采样,形成由空间分辨率不同的若干画面组成的塔形数据结构, 进而对不同分辨率的图像采用不同的编码方案。解码时逐层累积,从轮 廓到细节重建图像。这样的等级图像结构特别适于检索型的应用场合, 此时用一个低分辨率的画面就可以很快识别出所需的内容。金字塔编码 的另一个优点是可以根据需要给不同的塔形赋予不同的优先级。另外, 金字塔编码对滤波器的限制较少,可以采用非线性滤波,如中值滤波, 它并不要求使用严格的半带低通滤波器。 由于金字塔编码不要求严格半带低通滤波器,降采样后产生的频率 混叠使差值信号不能进行再抽样,不利于实现高效率压缩编码。 2 2 新兴图像编码技术 二十世纪八十年代中后期,相关学科的迅速发展和新兴学科的不断 出现为图像编码的发展注入了新的活力。人们对图像信息需求的剧增也 有力地促进了图像压缩编码技术的进步。同时,关于人类的视觉生理、 心理特性的研究成果也打开了人们的新视野,许多新型的图像压缩编码 方法相继提出:m k u n t 于1 9 8 5 年提出利用人眼视觉特性的第二代图像 编码技术;1 9 8 8 年m b a r n s l e y 提出基于迭代函数系统( i f s ,i t e r a t e d f u n c t i o ns y s t e m ) 的分形图像编码技术,1 9 8 9 年s m a l l a t 、1 d a u b e c h e 将小波分析理论应用于图像编码,以及9 0 年代初发展起来的基于模型的 图像编码方法等。 2 2 1 第二代图像编码方法 传统编码方法中没有考虑人眼对轮廓、边缘的特殊敏感性和方向感 知特性,其理论基础是信息论和数字信号处理技术,出发点是消除图像 数据的线性相关性等统计冗余信息,其编码压缩图像数据的能力已接近 极限,压缩比难以提高,例如对静止图像而言,这类方法的压缩比一般 为1 0 2 0 倍左右。 第二代图像编码方法不局限于s h a n n o n 信息论的框架,要求充分利 山东大学硕士学位论文 用人类视觉系统的生理和心理特性以及信源的各种性质以获得高的压缩 比这类方法一般要对图像进行预处理,将图像数据根据视觉敏感性分 割,主要包括模型基编码、分形编码和小波变换编码。 按处理方法的不同,它们可以分为两种典型的编码技术,一种是基 于分裂合并( s p l i ta n dm e r g e ) 的方法,先将图像分为纹理和边缘轮廓, 然后各自采用不同的方法编码;另一种是基于各向异性滤波器的方法, 先对图像进行方向性滤波,得到不同方向的图像信息,再根据人眼的方 向敏感性对各个通道采用特定的方法单独编码。 第二代图像编码方法目前对静止图像可以获得3 0 6 0 倍的压缩比, 然而复原图像的质量不尽如人意。原因之一在于我们对人眼视觉特性的 了解仍然较为肤浅,不能仅仅靠利用人眼视觉特性来得到高压缩比的图 像编码方法。原因之二是图像的分裂合并算法、各向异性滤波算法并未 提供一种很好的机制来利用已知的人眼视觉特性,而且这两种方法本身 。 也需要很多改进,纹理轮廓编码的效率也有待提高。这些都阻碍了第二 代图像编码的进一步发展,然而这种编码方法强调利用人眼视觉特性的 思想对后来各种图像编码方法的研究产生了深刻的影响。 2 2 2 模型基编码 1 9 8 3 年,瑞典f o r c h h e r m e r 等人提出模型基编码方法,随后日本 h a m a s h i m a 等人也展示了其成果,并出现了模型基编码( m o d e l - b a s e d c o d e ) 的研究热潮模型基编码是一种基于景物的信息的方法,它使用 了结构化的图像模型来表达图像信号,其主要优点是用结构的方式来描 述图像内容,故也称为结构编码1 2 1 。 经过十几年的努力,已出现了技术方案。这些方案可粗略地分为 两类:第一类是基于限定景物的模型基图像编码,景物中物体的三维 模型为严格已知;第二类是针对未知物体的模型基图像编码,需要实 时构造物体的模型有关文献称第一类方法为语义基图像编码,第二 类为物体基图像编码唧这两种方法各有优缺点。语义基方法可以有 l 山东大学硕士学位论文 效地利用景物中已知物体的知识,以实现非常高的压缩比。但它只适 合处理已知的物体,并需要较复杂的图像识别和分析技术。物体基方 法可以处理更一般的对象一已知的或未知的。因为无需模式识别和先 验知识,对图像的分析便简单得多,可不受可视电话中头肩图像的限 制,因而有更广泛的应用前景。由于未能充分利用景物的知识物体基 图像编码效率无法同语义基相比。 为了实现语义基图像编码,需要对人物的头肩这类特定的景物预先 建立它们的三维模型。开始通信时,先把通信双方的基本特征传输给对 方。接着头部开始运动,并伴随着不同的表情。这时,在发送端要抽取 头部的运动和表情等参数,将这些参数编码后传送给对方。在接收端根 据已知的三维模型和接收到的各种参数,用图像综合技术重建图像。这 个系统中。必须具备以下关键技术:人物头脸及肩部三维模型的建立; 运动参数及表情参数的估值;图像综合。 物体基图像编码可看作是方块编码的广义形式。方块编码仅仅利用 了方块内各像素之间的统计特性,但未考虑图像景物的内容,因而方块 的边缘通常难以与实际物体相吻合,造成高压缩比时的方块效应。另外, 图像中若有一块很大的移动区域,采用方块编码时就不得不将该运动区 域分割成许多小方块,对每个方块的运动信息都要估值、编码和传输, 造成大量重复。为了克服这些缺点,图像分割不应该按照事先规定的方 块进行,而应该参照景物中具体物体的形状。对于每一个分割出来的物 体用运动、形状、颜色三个参数描述,然后对这三个参数进行编码传输。 即使参数出现了误码,重建图像也不会出现方块效应那样的失真。 模型基图像编码压缩比可以达到1 0 :1 1 0 5 :1 。恢复图像类似于动 画,只有几何失真而无一般压缩方法中的颗粒量化噪声。这种失真同量 化误差相比更难以为人觉察。由于编码失真的性质有了本质的变化,传 统的以像素为单位计算原始图像于重建图像间的逼真度的方法仅能评价 量化误差,不能测量几何失真和物理失真,因而不适用模型基图像编码。 研究采用什么函数才能定量计算图像的失真度,是模型法需要研究和解 山东大学顼士学位论文 决的一个关键问题。 2 2 3 分形编码 分形用于图像压缩编码是b a r n s l e y 等人于1 9 8 7 年提出的,它利用 图像的白相似性,将这种自相似性用某种函数映射关系的形式表达出来, 在这些函数映射关系满足一定条件的前提下,可以通过迭代计算重建图 像。分形图像压缩利用图像的自相似性对图像进行压缩,可获得极高的压 缩比,引起了各国学者的关注。分形压缩编码的理论建立在如下两个定 义和两个定理的基础上: 定义l :压缩映射: 令似,d ) 为一个完备度量空间,w :x 寸x 为其上的映射,v x ,y x , 存在实数s ( o j 1 ) ,满足 d 舨n 顶力) 妇g ,力( 2 1 ) 则w 为z 上的压缩映射,s 称为压缩因子。 定义2 :迭代函数系统i f s ( i t e r a t e d f u n c t i o ns y s t e m ) : 完备度量空间,d ) 上的一组压缩映射w :肖_ j 的集合 ( ) = u ( ) 称为迭代函数系统。墨为w j 的压缩因子。s = m a x ( s , ) 称为 , 该迭代函数系统的压缩因子。 定理1 :不动点定理 设似,d ) 为一个完备度量空间,w :x z 为其上的压缩映射,则 以) = x 只有一个解而,其中而由w 唯一决定,即w 存在唯一的不动点, 由不动点定理可知 v x x ,l i i i l 矿b ) = 工o( 2 - 2 ) 矿b ) 表示对x 的一次迭代 对于尺寸为2 5 6 x 2 5 6 的图像,可以看作是6 5 5 3 6 维空间的一个 点若找到一个以为不动点的压缩映射w ,则由任意的起始图像经过 山东大学硕士学位论文 w 的多次迭代变换。可以得到x 吨。如果描述w 的数据量少于描述x 吨的 数据量,则用w 记录图像x 。可以达到压缩图像的目的。 迭代函数系统也是一个压缩映射,因此可以用它来压缩图像。分形 图像压缩就是要寻找一个迭代函数系统,它的不动点是待编码的图像或 者与待编码的图像很相近。 定理2 :拼贴定理 完备度量空间伍,d ) 上的迭代函数系统矽( ) = u w ( ) ,其压缩因子 j 为s ,不动点为x ,x 有: d b ,y ) s 曼筚丛趔 ( 2 3 ) l j 根据拼贴定理,迭代函数系统可以从任意的起始点经过反复迭代达 到其不动点分形解码就是利用图像的迭代函数系统从任意的起始图像 开始,经过多次迭代运算,重建原图像。 分形图像压缩还基于图像的自相似性。图像自相似性的一种表达方 式为:图像中的某一块经过某种变换后,可以完全或近似代替图像的另 一块。对图像进行分形编码时,图像,被分割为互不重叠的r ( v m g e ) 块 和可重叠的d ( d o m a i n ) 块。d 块的尺寸不小于置块假设块的形状为正 方形,r 块的尺寸为4 4 ,d 块的尺寸为8 8 。d 块的划分可以这样进 行:将8 b 的窗口从图像的左上角开始,在水平和垂直方向上分别以 s t e p x 、s t e p y 为步长滑动,每滑动一次,窗口内的像素就形成一个d 块。当s t e p x 和s t e p y 的尺寸小于d 块的尺寸时,d 块就形成重叠。 对给定的置块,所有的d 块进行仿射变换,并计算d 块进行仿射变 换后与马块之间的误差,当寻找到块4 和一个压缩映射,使得d ,经w , 映射后与墨间的误差小于预定的阈值时,就认为焉可以由d j 经w ,映射后 代替。 对于给定的d 块,需要作以下形式的仿射变换: = ;| ; 捌 陋4 , 工y1。w1l 口cd 6 1 jf i y x 。0 1 j l r ,l j a 盖h 乏 c z - s , m ( ,y ,b p 埘g 。,y 。卜q ( 2 - 6 ) 其中,x 0 ,y 0 l k 幽) 是变换前、后的像素的坐标值,a = i 习是 坐标变换矩阵,常取表2 - 1 所示的8 种变换:,0 是坐标偏移量; 表2 - 1a 矩阵的定义及描述 序号a 矩阵变换意义序号a 矩阵变换意义 0 恒等变换 4 嘲 关于4 5 。线 对称 l 50 1 x 轴对称 5 b3 9 0 。旋转 2 1 17 y 轴对称 6 ? 卅 2 7 0 。旋转 3 1 1 瑚 1 8 0 旋转 7 口1 1 关于1 3 5 线对称 t m ( x o ,k ) 珊g 。,y 。) 是变换前、后的像素的灰度;p ,g 分别是灰度压缩 因子和灰度偏移因子。 d 块首先要进行收缩变换、坐标变换,变为与r 块尺寸一样大的方 块f ,帮块进行灰度变换来近似r 块。胄块与其近似块的误差为: e r r o r = 矿1 j 一p r i j - q y ( 2 - 7 ) 当e r r o r 取最小时,参数p , q 由下式计算: 山东大学硕士学位论文 ( 2 8 ) g = 吉医u 厂p 。r ,j ( 2 - 9 ) 其中。,i ,分别是r 、f 块中点的灰度值,2 是r 块中的点 数。 对于r 块,记录与其匹配的d 块的位置、所用的变换以及参数,p ,q 就形成该r 块的编码( i f s 代码) 。所有的r 块的i f s 代码组成图像的编码。 解码时,由任意的起始图像开始,经过数次迭代运算,即可恢复原 图像。对于每一个r 块i f s 代码,从它记录的d 块的位置取出d 块,用 记录的变换参数对该d 块进行仿射变换形成r 块,把生成的r 块贴到它 相应的位置,对所有的r 块 f s 代码都处理完毕。分形解码就完成一次 迭代。解码时往往要经过多次迭代才能收敛。 分形图像编码的关键在于寻找图像的i f s 码,也即迭代运算算子w , 目前已有专利算法,对某些图像可得到3 0 7 0 倍的压缩比。然而分形图 像编码的理论基础决定了它只有对具备明显自相似性或统计自相似性的 图像才有较高的编码效率,一般图像并不都具有这一特性,因此编码效 率不是很高【3 5 1 。而且分形图像编码方法实质上是通过消除图像的几何冗 余度来压缩数据的,根本没有考虑人眼视觉特性的作用。另一方面,分 形图像编码是一种不对称的编码技术,编码器建立图像i f s 码的算法十 分复杂,而对应的解码过程却十分简单,用软件就可实时完成。分形图 像编码技术的这一特点,使其难以适合可视电话这类需实时压缩、解压 缩的多媒体业务。分形编码通常用于对图像编码一次,而需译码多次的 信息传播应用中。 对于静止图像和帧差数据来说,分形编码更适于前者,这是由于分 形编码尚难以实现与帧间编码方法的良好结合 山东大学磁士学位论文 2 2 4 小波变换编码 小波变换编码是近年来随着小波交换理论的研究而提出的一种具有 很好发展前景的编码方法它是一种多分辨率分析方法,由于小波变换 具有很好的时频或空频特性,特别适合按照人类视觉系统特性设计图像 压缩编码方案,并且在数字信号处理、图像编码、语音识别、机器视觉 等领域得到日益广泛地应用。与d c t 编码技术相比,小波变换具有许多 新特点,比如:它对图像进行全局分解,量化失真随机分布于整幅图像 之中,人眼不易觉察这种失真,更不会出现方块效应;将图像逐层分解 成不同尺度下的子带图像,可以实现图像的逐层浮现传输等。 小波变换是指将信号分解成一组小波基函数的加权和,这组基函 数是由一个带通函数形( ) 平移和伸缩组成。在图像编码中常用的是离 散正交( 或双正交) 紧支集的二进制小波变换,设小波函数为: 既,= 2 - ( = 1 2 ) w ( t 2 。一万) ( 州,刀刁( 2 - 1 0 1 。 对于任意平方可积函数_ ,- ( f ) r ( 矗) ,其小波变换定义为: 颐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论