基于内容感知的图像压缩算法及性能比较_第1页
基于内容感知的图像压缩算法及性能比较_第2页
基于内容感知的图像压缩算法及性能比较_第3页
基于内容感知的图像压缩算法及性能比较_第4页
基于内容感知的图像压缩算法及性能比较_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 绪论1.1 课题研究的目的和意义图像是用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼并进而产生视知觉的实体。图像信息以其信息量大、传输速度快、作用距离远等一系列优点,成为人类获取信息的主要来源及利用信息的重要手段。科学研究和统计表明,人类从外界获得的信息约有 75%是从图像中获得的。随着计算机的发展,图像处理理论和技术受到了各界的广泛重视,已取得了令人瞩目的成绩,并正向更加深入及更高的层次发展。而图像缩放作为图像处理技术的一个组成部分,亦是如此。当今世界瞬息万变,为了能够获取到最快,最全,最新的各种各样的信息,越来越多的人们开始使用便携式的数字化产品,它们

2、在人们相互之间进行信息传递,分享和交换中起着举足轻重的作用。通过数码相机、摄像机等人们能够方便地获取高分辨率的数字图像,为了信息共享和交流,将这些图像显示在像手机、PDA 等这些移动设备上则是必需的。当我们将一幅常规的图像显示在小型设备上时,一般都需要调整图像的大小,即将大尺寸的图像缩小,将图像缩小的传统方法是直接缩放图像尺寸以适应目标屏幕(参见文献1),目前大部分手机、PDA 等移动终端广泛采用这种解决方案。该方法可以实时进行 x 与 y 方向的线性或高阶插值。然而当原图分辨率与目标屏幕的宽度与高度之比不一致时,通过直接缩放的方法会使适应后的图像产生整体比例失真;若要使得比例保持一致,则不能

3、充分利用移动终端宝贵的屏幕资源,使图像产生黑边;并且,即使做到比例保持一致,也会由于目标屏幕的低分辨率而丢失重要信息,如图中的文字因缩小而变得不可阅读。另一种方法是对图像进行某种形式的剪裁(Cropping)(见文献2-6)。最简单的是保留输入图像的中心部分。此法可以实时进行,现代的宽屏电视机通常就是采用这种方法。但是,当含有重要信息的物体偏离中心太远时,这种方法就会失效。另外,当目标屏幕分辨率大大低于原始图像分辨率时,剪裁方法也是不恰当的。因为太多感兴趣的信息会被丢弃。更复杂一些的方法如 pan-and-scan7,则需要人工干预,以选择图像中最合适的部分,特别是需要生成高质量适应图像的场合

4、。但这种方法通常针对一种单一的输出分辨率,并且当感兴趣的信息与剪裁窗口不匹配时导致失败。此类方法往往完全丢弃图像的背景信息,不利于用户对图像的理解,并且不能保护图像中的重要信息。目前使用的 Adobe photoshop 和 Gimp 等商业软件中,对图像的缩放都是人工的采用裁剪(Cropping)和等比例缩放(Scaling)。当图像中仅包含一个显著物体区域时裁剪(Cropping)能起很好的作用;等比例缩放(Scaling)却会使显著物体变形。由于源图像分辨率和显示终端屏幕尺寸的差异,基于内容的图像缩放不仅要考虑几何学上规定的参数,更要考虑图像的内容对图像进行处理,在图像缩放的同时更好的保

5、持图像的完整性、并且使用户能抓住源图像中的重要信息,即将高分辨率图像更好地显示在较小的屏幕上。可见基于内容的图像缩放算法的研究具有很强的现实需求性和应用背景。1.2 国际国内研究状况和进展基于内容首先要考虑图像中像素显著度的计算和人脸检测问题。文献8-15中提出了多种计算显著度的算法,是目前的主流方法。人脸检测研究的学者很多,成果也很丰富(参见文献16-23).通过显著度的计算,那些具有高显著度值的图像区域即用户感兴趣的重要物体区域,需要在缩放过程中尽量保护,同时检测出的人脸我们也视为显著物体。有时,图像中的文字也是显著物体,也要进行检测并保护24。近来,基于内容的图像缩放作为图像处理的一个新

6、课题得到了人们的普遍重视。鱼眼视图25(Fisheye View)是一种放大某一显示画面中的某块小的局部区域的透镜技术,放大区域的周围退到背景显示,但仍然是可见的。2005 年 F.Liu and M.Gleicher 提出鱼眼算法(Fisheye-View Warping)(见文献26),模拟鱼眼效果的非均匀变换算法,起到增强图像中的显著物体,同时压缩其余部分的效果。该算法利用 Ma11的基于对比模糊增长分析图像内容,并运用贪婪算法寻找一个能包含显著区域的矩形区域,称之 ROI(region of interest)。关于模糊理论可参看文献27。在变换中,对 ROI 区域中(显著区域)像素做

7、线性变换,ROI区域外(非显著区域)像素根据 2 次贝塞尔曲线做源图像到目标图像的非线性变换。该算法优于自动剪切算法,在突出显著区域的同时,仍保留了那些非显著区域,鱼眼算法有很强的鲁棒性,当把显著区域误认为不太重要时,只是对其产生了一些扭曲,而不会像自动剪切那样把它全部抛弃。此法的不足之处在于只能处理仅包含单个显著物体且位于图像中心的情形,并且容易扭曲边界附近的图像结构;当 ROI 区域被过分强调时候,忽视了图像的非显著区域。2007 年 S.Avian and A.Shamir 提出雕刻线的方法(Seam Carving),可以在删除图像中相对不重要的信息的同时,保护重要物体不被丢弃,该方法

8、创造性的提出图像能量的概念,并且比较成功的应用在图像缩放这块领域,(见文献28)。该方法首先根据图像的梯度、亮度等信息计算图像中每个像素的能量,根据动态规划中最佳原理在水平(或垂直)方向上找到一条八连通的最低累计能量线;然后删除图像中最小能量线,达到图像缩放的目的。这些能量线具有较低显著度,因此在图像中较少被注意到。雕刻线方法也可以应用于图像内容的放大与较小物体的移除,有很好效果。然而,雕刻线方法并不能适用于所有的图像。在某些情形不能保护图像中的重要物体(如人体);当图像过于紧凑,图像中没有非显著区域时该算法也不能有很好的效果;有时图像内容的布局也会阻止能量线穿过重要的物体,引起显著物体的一些

9、变形。(a) 原图(b) 等间隔采样缩小(d) 本文方法的效果(c) 能量线删除法结果图1-1雕刻线法图像缩放应用于视频领域已有一些研究(参考文献29-33)。2007 年 Wolf 提出非一致内容驱动视频缩放算法29,与一致缩放算法和裁剪相比效果很好,但是对与视频技术来说这种方法最大的弊端是速度慢。2008 年 Rubinstein 提出了改进的雕刻线视频缩放算法30,能有效处理多尺度视频,但是仍有不少弊端,首先与原来压缩的视频相比需要很多额外的存储空间,其次速度慢并且不能在高宽上同时进行缩放。清华大学胡事民等提出一种视频的适应算法(参考文献32)。该方法根据每个像素的重要性以及像素间的连续

10、性要求,预先计算像素的累积收缩图,由此实时生成视频的多种尺寸的版本。该算法新颖之处在于使用了随机行走模型计算累计收缩图并引入了缩放函数。假设源图像分辨率w h,当要将源图像的宽度减少一个像素时,定义每个像素的收缩量: sx,y=1/(Ex,yj=1h1Ex,j x=1,2.w 式(1-1)其中 E ( x , y )表示像素(x,y)的显著度。x方向上每行累积收缩量: ux,j=0 j=0ux,j-1+sx,j 其它 , 式(1-2)所以 E ( x , y )越大, u ( x , y -1)和 u ( x , y )的差越小。如果仅仅简单的将x方向上视为一维的情况而不考虑图像内容,将会产生

11、锯齿的效果,因此二维的随机行走模型在行方向上用一维随机行走模型,并增加垂直边的约束以尽量保证图像不同行间的连续。可以通过在随机行走模型中给垂直边设定权值来实现:W (u( x , y ), u ( x , y-1) = K1+K2E(x,y) 式(1-3)这里K1和K2都是正数。如果宽度减少k 个像素,仅仅将每个像素收缩量乘以k ,可能会出现某些像素的收缩量超过 1.可能出现像素顺序改变的现象,导致一些不期望的效果。为了避免这种现象,应保证没有超过 1 的收缩量,可通过缩放函数 Sk,s=min(k0s,1) 式(1-4)来实现,其中k0通过 y=1hmink0s1x,y,1=k 式(1-5)

12、计算。该算法可用于 1D(信号)、2D(图像)、3D(视频)的缩放,与以往的一些视频缩放方法比,速度快、占用存储空间少。图像的背景信息对于图像内容的理解有重要作用,因此在适当增强图像重要物体的同时应尽量保持其背景信息。对背景复杂的图像还应当保持其所包含的显著结构信息。另外,对于包含多个显著物体的图像,需要在缩放后的图像中定位每个物体,并按比例增强。2007年V.Setlur33 提出了 segment and pasting 的方法,该方法通过减少物体间空隙,去扩大显著物体区域的尺寸,使得缩放后图像中显著物体能更好的被识别。V.Setlur 首先将源图像分割成若干区域,利用视觉注意机制和人脸检

13、测算法计算像素显著度,从而选出那些包含显著物体的ROI 区域,如果所有显著物体都包含在某一个 ROI 区域中,就简单的对源图像进行裁剪。否则将源图像中那些 ROI 区域分割出来;再用 inpainting 技术(见参考文献34-41)将背景重建,并缩放至目标大小;对于分割出来的 ROI 区域等比例缩放粘贴到更新后的背景中。该方法旨在基于视觉注意机制,构造一个拓扑受约束的缩影,适用于源图像和目标图像纵横比不同的图像缩放;经缩放后能很好的识别出分散于图像中的多个显著物体;对图像背景的处理采用一致的收缩,对粘贴到收缩背景上的多个显著物体保持各自的纵横比。但是该方法所采用的技术,如图像分割和图像修复等

14、往往已经比较复杂且不够鲁棒性。2008 年 Y. S. Wang 等提出一种四边形网格化的图像缩放方法(参见文献42)。该方法在保护显著特征的同时,允许图像以任何比例缩放。此法计算每个局部区域的最优缩放因子;迭代更新图像,使图像的每一部分尽可能地匹配这些最优缩放因子。图像内容的形变量由表示每个像素视觉显著度决定。由于缩放所产生的图像扭曲被分布到图像中的均匀过渡区域,从而使可感知重要特性受到最小影响。即使缩放仅仅发生于水平或者垂直方向,该方法仍能将扭曲分散到空间各个方向上,最终使均匀的过渡区域吸收这些扭曲。该算法用一个网格 M 来表示一幅图像,由顶点和边组成的水平和垂直网格线将图像分成许多四边形

15、。作者采用将图像梯度和图像显著度Itti et al。1998两者结合起来的方法决定像素的重要性,这样能更好的检测识别重要物体,只有结构上重要(图像梯度值大)和更吸引眼睛(高显著度)的区域才被认为是重要的,而四边形的重要性就采用了四边形内所有像素重要性的平均值。给定目标图像的尺寸,我们要计算一个最优的变形网格,使得重要性比较大的四边形做一致的缩放,而那些不太重要的四边形可以有较大扭曲(比如非一致的挤压或拉伸);由于重要物体通常覆盖一系列四边形,所以同时也要最小化那些网格线的弯曲。也就是说网格变形要做到在边界约束条件下对四边形变形能量项和网格线弯曲能量项的最优。由于其网格为四边形,因此该法并不能

16、很好地保护图像中的结构信息不受变形,例如那些方向倾斜的特征线,当包含特征线的相邻四边形受不同的挤压后特征线的不同段将有不一致的形变,产生扭曲;该算法将四边形收缩到一条线或者一个点,即使这些四边形属于不太重要的区域,直接的移除仍必然导致一些不连续;为了保护重要物体的纵横比,将拉伸那些均匀过渡的区域,导致四边形内的线性插值显得人工化;对于那些没有均匀过渡区域的图像,该算法的作用类似于常规的一致缩放。2008 年南京大学时健提出了一种基于三角网格参数化的图像缩放方法(参考文献43)。该方法根据图像区域的重要度自适应、非均匀地缩放图像中多个重要区域,显著地区域相对于其他区域被明显增强和突出。该方法的关

17、键在于把图像表示为特征网格,从而将图像适应问题转化为网格的参数化,即求取一个与该特征网格同拓扑,且具有目标屏幕尺寸的网格。另外,该方法在参数化的过程中增加了对边界、重要区域和背景结构的约束,并将其融合到参数化的能量方程中,能够在保持并增强图像中重要物体的同时,使适应图像的结构不发生明显形变。此法在增强显示图像重要区域的同时尽量保持背景所包含的重要结构信息,有助于人们对图像正确的视觉感知和理解;并且能在不借助图像分割技术的前提下,处理包含多目标物体的图像。但是对于重要物体,其放缩比例需要显式给出。此法需要根据图像中重要物体的分布,将源网格划分成不同的区域,以计算出非重要区域中网格每条边的理想缩放

18、比例。1.3 论文各部分的主要内容针对现有方法存在的不足,本文提出一种全新的基于内容的图像缩放算法,利用有限元的方法(参考文献44-49),将图像的缩放过程视为图像中各物体的受力变形过程,或是物体的吸能过程。可以充分利用有限元的现有算法,将复杂的优化问题转换为一个求解线性方程组的问题,图像缩放后在保持图像完整性的同时突出显著区域或重要物体信息,并且大大减少了图像的形变。第一章,绪论;主要介绍基于内容图像缩放的研究背景与意义、以及国际国内研究的现状和进展,并对论文整体的安排进行介绍。第二章,数字图像处理理论基础;主要介绍数字图像处理的基础知识,重点介绍图像显著区域的提取、网格剖分、有限元的方法。

19、第三章,提出一种新的基于内容的图像缩放算法;详细介绍利用有限元的方法来实现基于内容的图像缩放。第四章,对本文实验结果分析,评价;总结本文所做的主要工作并指出论文中不足,展望以后的研究方向,表达了在实践中推广的愿望。第二章 图像缩放的理论基础2.1 数字图像处理的基础知识2.1.1 图像与数字图像我们对图像并不陌生,它是人类通过各种观测系统以不同的手段和形式观测客观世界而获得的,可直接或间接作用于人眼并进而产生视知觉的实体。人类的视觉系统也就是一个观测系统,通过它得到的图像就是客观实物在人心目中形成的影象。我们生活在一个信息时代,科学的研究和统计表明,人类从客观世界获得的信息总量中约有 75%来

20、自于我们的视觉系统,也就是从图像中获得。这里图像的定义是比较广泛的,例如照片、图形、电影、视频、计算机断面扫描、核磁共振、遥感,乃至地球物理勘探等各类二维或三维数据的总称。图像中带有大量的信息,一图值千字,百闻不如一见都是说明了这个事实。在空间上,客观世界是三维的,但一般从客观世界得到的图像是二维的。一幅图像可以用一个二维数组 f ( x , y )来表示,这里x和 y 表示二维空间 XY 中一个坐标点的位置,而 f 则代表图像在点( x , y )处某一种性质F 的数值。一般常用的图像是灰度图,这时 f 就表示图像的灰度值,它常对应于客观实物被观察到的亮度。这里需要指出,我们一般是根据图像内

21、不同位置的不同性质来利用图像的。常见的图像是连续的,即 f , x ,y 的值可以是任意实数,可表达为fx,y:(x,y)R2R+ 式(2-1)式 2-1 中 f ( x ,y )称为图像在( x ,y )点的灰度值。不失一般性,可将一幅图像的最大灰度值归一化为 1,从而式(2.1)改写为fx,y:(x,y)R2R+ 0,1 式(2-2)为了能使用计算机对图像进行加工处理,需要将连续的图像在坐标空间 XY 和性质空间F 的数值都离散化。这种离散化了的图像就是数字图像,其数学表达式为Ir,c:r,c1,2,M;1,1,N0,1,D-1 式(2-3)式 2-3 中I 代表离散化后的f,( r ,

22、c )代表离散化后的( x , y ),其中r 代表图像的行(row),c 代表图像的列(column)。这里的 I , c ,r 都取整数。图 2-1 给出了 2 幅典型的数字图像。在屏幕显示中常采用图(a)所用的坐标系统,它的原点O(origin)在图像的左上角,横坐标标记图像的列,纵坐标标记图像的行。 I ( r , c )既可以代表( r , c )行列交点处的图像值,也可以代表这幅图像。在图像计算系统中常用图(b)所用的坐标,它的原点在图像的左下角,横坐标为 X 轴,纵坐标为Y 轴。f ( x , y )即可表示在( x , y) 坐标处像素的值,也可代表这幅图像。 O C YR o

23、图 2-1 数字图像示例2.1.2 采样与量化数字图像可以由连续图像通过采样和灰度量化得到,也可以直接通过数字成像设备获取。一幅图像要被计算机处理,必须在空间和灰度上都离散化。空间坐标的离散化叫做空间采样,而灰度的离散化叫做灰度量化。假如一幅图像 f ( x , y )被取样,产生的数字图像有M 行和N 列。现在,坐标(x,y)的值变成了离散量。为了表达清楚和方便起见,应该用整数标记这些离散坐标。于是,原点的坐标值是(x,y)=(0,0)。沿着图像的第一行,下一个坐标值用(x,y)=(0,1)来表示。图 2-2 显示了本文所采用数字图像的坐标约定。 . . . . . . . . . . .

24、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 图 2-2 本文数字图像坐标约定X假设用安排在 1 个M N数组中等间距的采样来近似 1 幅连续的图像 f ( x , y )即:fx,y=f0,0 f0,1 f0,N-1f1,0 f1,1 f1,N-1.fM-1,0 fM-1,1 fM-1,N-1 式(2-4)这个表达式的右侧就定义了一幅数字图像。矩阵中的每个元素称为图像元素、图像单元或像素。用更正规的数学术语来描述取样和量化,令Z

25、 和R 分别表示整数集和实数集。可以把取样过程看做是将 xy平面分为网格,每一网格中心的坐标是笛卡尔积Z2 的一对元素,Z2是所有有序元素对(zi,zj)的集合,且zi和zj是 Z 中的整数。因此,如果(x,y)是Z2中的整数,且f 是把灰度级值(即实数集 R 的一个实数)赋予每个特定坐标对(x,y)的函数,则 f ( x , y )就表示了一幅数字图像。很明显,这个函数的赋值过程就是前面所描述的灰度级值量化过程。数字化过程对M ,N 值和每个像素所允许的离散灰度级数L,需要做一个判定。对M 和N 除了必须取正整数外没有其他要求。然而,出于对处理、存储和取样硬件的考虑,灰度级典型的取值应该是

26、2 的整数次幂:L=2k 式(2-5)这里,假设离散灰度级是区间0,L-1内等间距的整数。例如,常见的数字灰度图像的量化级数为L = 28 = 256,它的灰度值可用 8 位二进制数表达。有时灰度级取值范围称为图像的动态范围。我们把占有灰度级全部有效段的图像叫做高动态范围图像,当相当可观数目的像素呈现出这样特征的时候,图像就会有较高对比度。与之相反,低动态范围的图像看上去像是冲淡了的灰暗格调。2.1.3 空间和灰度级分辨率决定一幅图像空间分辨率的主要参数是取样值。空间分辨率基本上算是图像中可辨别的最小细节。假定我们画一幅宽度为M 的垂直线的图,在线间还有宽度为M 的线。线对是有一条线与它紧邻的

27、线组成的,空间分辨率通常用每单位距离内可分辨率的最小线对数目表示。这样,线对的宽度即2M ,并且每单位距离有1/2M 对线。例如,每毫米 100 线对。同样的,灰度级分辨率是指在灰度级别中可分辨的最小变化。但在灰度级中,测量可分辨率的变化是一个高度主观的过程。大多数情况该值取 8 比特,在某些特殊的灰度增强的应用场合可能会取 16 比特。对于具有较多细节的图像,如果保持灰度级不变而仅仅改变其空间分辨率,就可能在图像中各区域的边缘处看到棋盘模式,并在全图看到像素粒子变粗的现象。如图 2-3 所示,(a)为一幅空间分辨率为 512512,256 级灰度的图像,其余各图灰度级不变,分别是空间分辨率为

28、 256256,128128,6464,3232,1616 的图像。可以看到,(d)已出现明显锯齿状;(e)图已经难以辨认出图像内容;(f)图完全不知其中为何物。图 2-3 图像空间分辨率变化效果当没有必要在原始场景中分析细节等级和对关于像素的物理分辨率进行实际度量时,通常空间分辨率为M N像素、灰度级分辨率为L级的数字图像就是指大小为M N,灰度级为L级的数字图像。2.1.4 放大和收缩数字图像图像的放大和收缩关系到取样和量化,因为放大可以看作是过采样,而收缩可以看作欠采样。这两种操作与取样和量化一幅原始连续图像之间的关键区别是放大和收缩适用于数字图像。放大要求执行两步操作:创立新的像素位置

29、和对这些新位置赋灰度值。假定,有一幅大小为 500500 像素的图像,想把它扩大为 1.5 倍,即 750750 像素。概念上看,一种最容易的形象化放大方法是在原始图像上放一个虚构的 750750 的栅格。很显然,栅格的间距应小于一个像素,因为,我们在一个较小的图像上去拟合它。为了对覆盖层上的任何点进行灰度赋值,我们在源图像上寻找最靠近的像素并把它的灰度值赋给栅格上的新像素。当对覆盖栅格的全部点都赋完值后,简单地把它扩展到原来指定的大小,以得到放大的图像。这种灰度赋值法叫做最近邻域内插。当想要以整数倍增加图像的大小时,可采用像素复制的方法。例如,把图像增大一倍,可以复制每一列,这就使图像在水平

30、方向增加一倍,然后复制已增大了的每一行以使图像在垂直方向上增大一倍。使用相同的方法可以任何整数倍增大图像(3倍、4 倍)。复制仅仅是为了达到希望的大小以要求的倍数去操作。每个像素的灰度复制过程由这样的事实决定,即新位置的值准确复制旧位置的值。虽然最近邻域插值较快,但它有不希望的特征,即它会产生棋盘格效应,在高放大倍数时这一效应特别明显。一种稍有改进的赋值方法是采用 4 个最邻近点的双线性内插,如图 2-4 所示。令(xy)代表放大图像中一点的坐标(把它想象为前边讨论的栅格上的点),并令v (xy)代表它被赋予的灰度值。对双线性内插来说,所赋灰度值由下式给出:vxy=ax+by+cxy+d这里,

31、4 个系数由点(xy)的四个最近邻点 A、B、C、D 写出的 4 个未知方程决定。图 2-4 双线性插值图像收缩可以与刚刚讨论过的放大相类似的方法操作。像素复制的等效过程是行列删除。例如,把图像缩小,可以每隔一行(或一列)删除一行(或一列)。可以用放大栅格模拟用非整数参数收缩,设想用扩大的栅格在原图上拟合,做灰度级最近邻域或双线性内插,然后把栅格收缩到原来规定的大小。还可以使用更多邻点的内插,使用更多邻点意味着在更复杂表面对点赋灰度值,通常会产生平滑一些的结果。但是,这些传统的图像缩放算法在几何上进行统一比例的缩放,不能实现纵横比不一样的图像放缩,且由于这些方法不考虑图像的基本内容,从而导致原

32、始图像中比较重要的信息可能收缩以至于不能很好的识别,图像内容不同程度的发生形变,大大降低了图像的可读性。2.2 显著度计算图像缩放应当在保持图像基本信息完整的同时充分突出图像中存在的重要物体或显著区域。而图像区域的重要程度可以通过视觉关注度模型计算评估并应用人脸检测等高层检索算子检测获得。2.2.1 视觉关注度模型对图像的分析和理解可以分为两类:第一类是低层视觉,主要包括图像的形状、颜色和纹理等特征的内容;第二类是语义信息,往往要借助人类的知识推理,包括对图像内容含义的理解以及原来客观场景的解释。由于目前计算机视觉和图像理解的发展水平所限,基于语义信息的图像处理技术发展的还不是很成熟,所以目前

33、图像处理算法大部分是利用图像的颜色、形状、纹理等低层视觉特征来进行的。基于内容的图像缩放的基本指导思想对显著目标采用低缩放比而对非显著目标采用高缩放比,这就要首先对图像内容有较好的分析和理解。提出一个完整的视觉计算理论并建立一个有效的图像理解系统一直是图像信息领域研究者广为关注的问题。为了保证图像缩放的视觉质量,研究基于内容图像缩放的学者试图将注意机制引入到图像缩放技术,虽然目前计算机模拟的视觉注意与人眼的真实感知之间还存在相当大的差距,但是由于焦点转移的顺序和人眼注意的内容已经能基本上保持一致,所以已经可以对目标的显著程度作一种近似的估计。从视觉信息处理的角度来看,视知觉机制中包含了相互联系

34、的自上而下(Bottom-up)的加工和自下而上(Top-down)的加工两种不同方式。自上而下的加工是这样一种信息处理过程:首先对相关知觉对象有知识经验,然后由知识经验形成对知觉对象的期望或者假设,这种期望或者假设制约着视觉认知过程中的各个阶段信息处理过程,自上而下的加工又被称之为任务驱动加工(Task-driven processing)。自下而上的加工的信息处理过程是指由显示刺激开始的,通常先分析较小的知觉单元,然后再转向较大的知觉单元,经过一系列连续阶段的信息处理最终达到对现实刺激的解释,自下而上的加工又被称作数据驱动加工(Data-drivenprocessing).任务驱动加工和数

35、据驱动加工是两种不同的信息处理机制,两者的结合形成了统一的视知觉系统。由于在不同的情况下,视知觉对这两种加工存在不同的侧重,所以在不同的应用需求下,我们需要选择不同的加工模型来分析和处理图像。视觉注意机制本质上是神经生物学方面的概念,被用来刻画观测者对于图像的认知程度。评估视觉显著度的可计算模型已有大量的研究工作,这些模型一般基于底层的图像亮度、对比度并结合高层的图像内容和场景理解,通过一些启发式规则来计算图像区域的重要度。Itti等人首先计算颜色、亮度和朝向三个低层特征图,将每个特征图中与相邻区域不同的地方视为显著区域,最后将这些特征图整合归为一张特征图,随后经过一系列的迭代,显著的像素得以

36、集中,该方法是一种以生物认知体系为指导的视觉关注度计算模型。S.Avian 的雕刻线的方法中提出了能量函数的概念,对每个像素显著度的计算采用了梯度的 1 范数、2 范数,熵能量,图像分割以及梯度的直方图等方法。Y. S. Wang 的四边形网格化的图像缩放算法中使用了图像梯度和 Itti 显著图结合的方法,也取得较好效果。Ma 等人提出一种基于局部对比分析的显著图的生成方法,通过模拟人类感知,用模糊增长的方法从显著图中提取显著区域和物体,此模糊增长的过程模拟了自下而上的人眼视觉机制。由于该算法简单实效而被广泛应用。本文利用该算法为图像中的每个像素计算显著度值,其中具有高显著度值的图像区域即用户

37、感兴趣 的重要物体,如图 2-5 所示(a)源图像 (b)saliency map图2-5 源图像与 saliency 图2.2.2 人脸检测人脸检测是指用知识的或者统计的方法对人脸建模,比较所有可能的检测区域与人脸模型的匹配度,从而最终得到可能存在人脸的区域。由于我们日常生活所拍摄照片中人脸通常是最常见、最显著的事物主体,所以在图像的缩放过程中应能准确识别并尽量的保护,避免扭曲。可见,人脸检测属于显著度计算中的一个重要组成部分。由于人脸检测问题所包含的内容十分广泛,所以从不同的角度可以有多种不同的分类方法。根据利用人脸知识的不同,现有的人脸检测方法可以分为基于特征的人脸检测和基于图像的人脸检

38、测两大类。人脸检测中最常见的方法是基于特征的方法,这类方法研究的学者最多,成果也最丰富。根据使用特征类型的不同,这类方法又主要分为低层特征分析方法、组群特征分析方法以及变形模型方法三种。其中,低层特征分析方法主要是根据像素的颜色信息和灰度等进行图像分割,因为是出于对图像中低层次的特征进行的分析处理,所以这类方法提取出来的信息一般比较模糊;组群特征的分析方法则是根据人脸器官的几个分布,将人脸的信息重新整合成一个更具有整体性的人脸,这样通过族群特征的分析,特征的模糊性减少了,人脸和人脸上的器官就可以被定位出来了;变形模型方法往往结合复杂形状模型,如蛇模型、点分布模型等,这些模型使得非刚性的、复杂的

39、特征诸如眼珠和嘴唇的跟踪最终成为可能。由于人脸图像的复杂性,显示地描述人脸特征具有一定的困难,因此基于图像的人脸检测方法越来越受到重视,这类方法主要是把人脸检测看做是一个广义的模式识别问题,通过训练从而将样本分为人脸和非人脸两中不同的类别。这类方法主要包括线性子空间方法、神经网络方法和其他统计的方法,其中线性子空间的方法主要有主元分析方法、线性判别分析方法和因素分析方法等,其他统计方法有隐马尔科夫模型方法、基于 kullback 信息理论的方法,支持向量机方法、Bayes 决策方法以及 Adaboost 方法等。本文主要利用 Adaboost 方法来实现图像中人脸的检测。经过许多学者们共同的努

40、力,人脸检测的速度有了一定的提高,自 Viola 和 Janes 提出了积分图像的概念和基于 Adaboost 方法训练人脸检测分类器的方法,才建立了第一个真正意义上的人脸检测实时系统。该系统首先由积分图像快速、容易地计算出大量的简单特征,再用 Adaboost 学习算法挑选一些重要特征,并构造一系列的弱分类器,弱分类器再通过线性组合构造出一个强分类器,然后采用一个分类器逐渐复杂的多分类器级联机构来实现人脸的检测,该法大大提高检测速度,使得人脸检测走向真正意义上的实用。2.3 有限元方法简介有限元法是求解复杂工程问题的一种近似数值解法,现已广泛应用到力学、热学、电磁学等各个学科,主要分析工作环

41、境下物体的线性和非线性静动态特性等性能。其中用有限元法来解弹性体的小变形问题是很有效的。2.3.1 有限元方法的步骤用有限元的方法求解一个问题的本质是要求解联立代数方程组,使用有限元的方法解决问题共包括几个步骤,如下:(1)离散化域这个步骤包括将域分解成单元和节点。解决方案的精确度取决于所使用的离散化方法,这一步采用的是 delaunay 三角剖分。(2)写出单元刚度矩阵写出域内每个单元的单元刚度矩阵。(3)集成整体刚度矩阵这一步用直接刚度法实现。(4)引入边界条件诸如支座、外加载荷和位移等。(5)解方程这一步骤分解整体刚度矩阵并用高斯消元法求解方程组。(6)后处理得到额外的信息,如支反力、单

42、元节点力和单元应力。2.3.2 弹簧元有限元类型包括:弹簧元,杆元,二维和三维桁架元,平面、空间梁和钢架元,用于平面应力和平面应变问题的二维弹性元,以及三维立体元。本文有限元分析运用的是弹簧元。弹簧元是总体和局部坐标一致的一维有限元。值得注意的是,弹簧元是可用的最简单的有限元。每个弹簧元都有两个节点,如图 2-6 所示。这里将弹簧元的刚度定义为k 。因此,单元刚度矩阵给定如下(参见文献47-49):k=k -k-k k 式(2-7)图 2-6 弹簧元显而易见,由于弹簧元只有两个自由度每个节点有一个自由度,一次弹簧元的刚度矩阵是一个2 2矩阵。因此,如果一个弹簧元系统有n个节点,那么整体刚度矩阵

43、K 的大小将是 n n(这是因为每个节点只有一个自由度)。用直接刚度法得到单元刚度矩阵( 1,2,3, ,n),再将单元刚度矩阵集成整体刚度矩阵,就可以得到整体刚度矩阵K ,用代码实现可表示为:K(i,j)=K(i,j)+k(1,1);K(i,j)=K(i,j)+k(1,2);K(i,j)=K(i,j)+k(2,1); K(i,j)=K(i,j)+k(2,2); 式(2-8)例如,一个联结系统中节点 4 和节点 5 的弹簧元的单元刚度矩阵k ,可以将它的行和列加到整体刚度矩阵K 中的第 4、5 行和 4、5 列,从而将单元刚度集合成到整体刚度。一旦得到整体刚度矩阵K ,就可以列出以下方程组:

44、K U = F 式(2-9)式 2-9 中,U 是结构节点位移矢量,F 是结构节点载荷矢量。边界条件被赋值给矢量U和F 。这样,矩阵方程 2-9 可以用分解和高斯消去法求解。一旦求得未知的位移和支反力,就可以用下式求得单元的节点力,如下所示: f = k u 式中 f 是2 1的单元节点力矢量,u 是2 1的单元节点位移矢量。2.4 网格剖分对象的离散化、有限元的求解、计算结果的处理这三部分是有限元法求解问题的基本过程。大量数据统计表明,这三个阶段所消耗的时间分别占有限元求解总时间的 40%-50%、5%及 50%-55%。可以看出,对象的离散及结果的处理占据了有限元求解问题中大部分的时间。如

45、果采用人工的方法离散对象和处理计算结果,不但极易出错,而且费时费力;尤其当分析的模型比较复杂时,采用人工的方法将很难进行,这些都将对高级有限元分析程序的推广和使用产生严重的影响,已成为有限元分析的最大瓶颈。随着计算机及计算技术的快速发展,离散的自动化已成为现实,出现了开发对象的自动离散及有限元分析结果的计算机可视化显示的热潮。2.4.1 有限元网格剖分要求网格剖分是有限元分析的第一步,是将工作环境下的物体离散成简单单元的过程。该步骤的剖分效果直接影响整个有限元分析的质量和效率。常用的网格单元包括:一维杆元、集中质量元、二维三角形、四边形元和三维四面体元、五面体元和六面体元。他们的边界形状主要有

46、直线型、曲线型和曲面型。所以网格剖分不是任意的,应满足以下几点的要求:1.合法性。一个单元的结点不能落入其他单元的内部,在单元边界上的结点均应作为单元的结点,不可丢弃。2.相容性。单元必须落在待分区域内部,不能落入外部,且所有单元的并集等于整个待分区域。3.逼近精确性。待分区域的顶点(包括特殊点)必须是单元的结点,待分区域的边界(包括特殊边及面)被单元边界所逼近。4.良好的剖分过渡性。单元之间过渡应相对平稳,否则,将影响计算结果的准确性甚至使有限元计算无法计算下去。5.网格剖分的自适应性。在几何尖角处、应力温度等变化大处网格应密,其他部位应较稀疏,这样可保证计算解精确可靠。实验中发现在显著区域

47、比较接近图像边缘或者显著区域比较狭长时,网格剖分会比较密集,这样虽然保证了计算解精确可靠性,但是却使得图像在缩放中,运行速度受到极大地影响。2.4.2 有限元网格剖分方法二维的有限元网格单元有三角形单元和矩形单元等,矩形单元做剖分,如果要计算导数,它的效果比三角形单元剖分要好些。但是三角形单元很简单灵活,且在 Y.S.Wang2008 年提出的图像缩放方法中,由于其网格为四边形,并不能很好地保护图像中的结构信息不受变形,对于图像中那些方向倾斜的特征线,当包含特征线的相邻四边形受不同的力作用后特征线的不同段将有不一致的形变,产生扭曲。如果我们采用三角形单元就不会发生这样的现象,因为图像中这些特征

48、线将作为三角形的边,当受力不一样时,三角形的边只是发生拉伸和收缩的变化,而不会使特征线发生形变。另外,在用有限的单元表示显著区域时,Y.S.Wang 中四边形网格属于结构化网格,所有内部节点都有相同数量的邻近节点和相同数量的邻近单元,即所有的内部节点都具有相同的度,对于形状不规则的显著区域很难精确的表示;相反,三角形网格属于非结构化网格,它可以适应任意复杂的几何形体,与几何形体的形状关系不大,结合一定的控制方法,可以生成质量很高的单元,能比较精确表示图像中的显著区域。因此本文中有限元的网格剖分单元选取三角形单元,这是本文的优点之一。K. Ho-Le 对网格剖分算法进行了系统分类,主要包括拓扑分

49、解法、结点连元法、网格模板法、映射法和几何分解法这五大类。当前,主要是上述方法的混合使用及现代技术的综合应用。结点连元法是先生成结点,后连接结点构成单元。其中最常用的是 Delaunay 法:令P=P1,P2,Pn是平面上n个点,平面上与Pi 距离较与其他各点的距离都短的集合,构成一个多边形,表以 V(Pi),称为Pi点的 Voronoi 域。Pi可能是无界域,最多含有 n -1的凸域。且每条都是Pi点和其他点连线的垂直平分线。 n 个Pi,i =1, 2,n,构成了一个关于顶点为P 的 Voronoi 图,记以 Vor ( P )。 Vor ( P )图的每条边都是P 中某两点的垂直平分线。

50、P 的这种两点连线构成 Vor ( P )的对偶图 D ( P ),即 Delaunay 得三角剖分。如图 2-7 所示,顶点为P1,P2,P8,其中实线代表 Voronoi 图,虚线代表 Delaunay 三角剖分图。图 2-7 Delaunay 与 Voronoi 图本文采用受约束的一致 Delaunay 网格剖分,因为 Delaunay 具有“最小角最大”和“空球”准则的优点。所以,只有 Delaunay 三角剖分才是各种二维三角剖分中同时满足全局和局部最优剖分方法。 “空球”准则指的是 Delaunay 三角剖分中任意三角形的外接圆(四面体为外接球)内不包括其他结点;“最小角最大”准则

51、指的是在不出现奇异性的情况下,Delaunay 三角剖分最小角之和均大于任何非 Delaunay 剖分所形成三角形最小角之和。现阶段实现 Delaunay 三角剖分的方法很多。Lee 和 Schachter 的操作虽然有效,但却很难实现。而 Watson、Cline 和Renka、Sloan 因操作容易、时效率较好等优点而被广泛采用。为了进一步提高效率,Sloan研究其算法操作,提出了时间复杂性为 O(N)(N为结点总数)的操作方法,从而提供了快速Delaunay 三角剖分的有效途径。本文采用了 Jonathan Shewchuk 副教授实现的 Triangle 来生成Delaunay 三角网

52、格,效率高且网格质量很好。第三章 有限元图像缩放算法3.1 图像缩放算法简介图像缩放也被称作图像重采样、图像分辨率转换、尺度变换。传统的方法主要采用插值方法,包括:最邻近插值、双线性插值、三次卷积法。最邻近插值的思想很简单,将目的图像的某个坐标通过反向变换计算得到一个浮点坐标,对其进行简单的取整处理就得到一个对应原照片图像的整数坐标,这个整数型坐标对应的像素就是目的像素的像素值。具体算法为:设要处理的目的图像的坐标为( x , y ),对应源图像的浮点坐标(xy),对该坐 标 取 整 得 到 对 应 原 照 片 图 像 的 整 数 坐 标(x0,y0)目 的 图 像 在 该 坐 标 的 像 素

53、 值f ( x , y ) = f(x0,y0)。显然该方法就是取该浮点坐标最邻近点对应的像素值。可见,最近邻插值简单且直观,但得到的图像质量不高。对于一个目的像素,通过反向变换计算得到浮点坐标为( i + u ,j + v),其中 i ,j 均为非负整数, u ,v 为 0,1) 区间的浮点数,则这个像素的值 f ( i + u ,j + v)可由源图像中坐标为( i ,j )、( i + 1,j)、( i , j + 1)、( i + 1, j+ 1)所对应的周围四个像素的值决定,即:f=i+u,j+v+1-u1-vfi,j+1-uvfi,j+1+u1-vfi+1,j+uvf(i+1,j+

54、1)其中 f ( i ,j )表示原图像( i ,j )处的像素值,以此类推。这就是双线性插值法,双线性插值法计算量大,但缩放后图像质量高,不会出现像素值不连续的情况。由于双线性插值具有低通滤波器的性质,使高频分量受损,所以可能会使图像轮廓在一定程度上变得模糊。三次卷积法考虑一个浮点坐标( i + u ,j + v)周围的 16 个临近点,像素值 f ( i + u ,j + v)可由如下插值公式得到: f ( i + u ,j + v ) = A * B * C 图(3-2)其中, A = S ( u + 1) S ( u + 0 ) S ( u - 1) S ( u - 2) ,B=fi-

55、1,j-1 f(i-1,j+1)f(i-1,j+1)f(i-1,j+2)fi+0,j-1 f(i+0,j+0)f(i+0,j+1)f(i+0,j+2)fi+1,j-1 f(i+1,j+0)f(i+1,j+1)f(i+1,j+2)f(i+2,j-1) f(i+2,j+0)f(i+2,j+1)f(i+2,j+2)C=Sv+1Sv+0Sv-1Sv-2,Sx=1-2*absx2+absx3,0absx14-8*absx+5*absx3,1absx20, abs(x)2 与双线性内插法相比,立方卷积法不仅考虑了直接邻点的灰度值对采样点的影响,还考虑了邻点间灰度值变化率的影响,因此后者所求得的待采样点灰度值更接近原(采样)值。此方法用进一步增大计算量来换取待采样点精度的进一步提高,因此并不是最佳的插值算法。这些传统的图像缩放算法在几何上进行统一的比例缩放,基本上不考虑图像里面的基本内容,从而导致原始图像中比较重要的信息可能收缩以至于不能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论