




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业设计(论文)说明书毕业设计(论文)说明书 学学 院院 软件学院软件学院 专专 业业 软件工程软件工程 年年 级级 2007 级级 姓姓 名名 张仁宇张仁宇 指导教师指导教师 操晓春操晓春 2011 年年 6 月月 15 日日 毕业设计(论文)任务书毕业设计(论文)任务书 题目:基于单幅照片的重定焦 学生姓名学生姓名 张仁宇张仁宇 学院名称学院名称 软件学院软件学院 专专 业业 软件工程软件工程 学学 号号 3007218140 指导教师指导教师 操晓操晓春春 职职 称称 研究员研究员 一、原始依据(包括设计或论文的工作基础、研究条件、应用环 境、工作目的等。 ) 在摄影学上, 人物突出清晰背景相对模糊对摄影师来说是一幅理想的肖像照 片。现在的情况是,专业的摄影设备器材相对昂贵,而且对于没有摄影基础的人 来说难以操作,纵使有好的设备也不能拍出专业的,有艺术感的照片。而随着工 艺的发展,普通的数码相机( point-and-shoot camera )越来越普及,但是大部分的 傻瓜式相机并没有提供足够的离焦来达到这样的效果, 主要原因是这种相机光圈 要相对小很多以使拍摄时视野范围内的景物都能达到一种清晰的效果, 减少人工 的操作,但这种方式带来的直接后果是不能对重要的物体突出。虽然说我们可以 借助软件对照片进行后期的处理,但现有的软件使用的都是简单模糊操作,没有 考虑到图片的景深信息,导致使用错误模糊操作,使得处理后的图片不够真实。 我们提出的基于单幅图片的重定焦可以使得普通相机拍出的照片也能达到 足够的离焦效果,突出重要的物体。与当前存在的算法不同的是,我们考虑到整 幅图片的景深信息,结合摄影的几何规则加以模糊,使获得的图片更有真实感。 二、参考文献 1 darrell t., wohn k.: pyramid based depth from focusj. in ieee cvpr (1988). 2 ashutosh saxena, sung h. chung, andrew y . ng.: 3-d depth reconstruction from a single still imagej. ijcv , aug 2007. 3 ashutosh saxena, sung h. chung, andrew y . ng.: learning depth from single monocular imagesj. in nips 18, 2005. 4 soonmin bae., fredo durand.: defocus magnificationj. computer graphics forum, v olume 26, issue 3 (proc. of eurographics 2007) 5 d. scharstein and r. szeliski. a taxonomy and evaluation of dense two-frame stereo correspondence algorithmsj. international journal of computer vision (ijcv), 47(1):742, 2002. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标 与技术参数,并根据课题性质对学生提出具体要求。 ) 目前的方法中,对于离焦的操作大多没有考虑到图片的景深信息,添加的模糊 主要是基于像素的空间分布,这样的后果往往是处理后的图片看起来很不真实, 不够自然。 针对上述方法的缺陷,提出一种基于图片本身的景深信息的方法,应用透镜 成像的几何规则对图像进行模糊。其实际效果,相当于对于同一场景使用不同参 数的相机重新拍摄了一次,这样经过处理的图片会显得更加真实自然。 根据单幅图片获得整幅图片的 3-d 结构信息,另一部分是应用透镜成像规则 模糊聚焦处以外的部分。获得单幅图片的景深信息,ashutosh saxena 等人提出 的方法可以很好的解决这个问题。 获取单幅图片的景深信息基于ashutosh saxena 的工作。在研究了相机的参数及相机的成像模型后,提出一种更加符合实际的模 糊模型,达到更加准确的模糊结果。 指导教师(签字) 年 月 日 审题小组组长(签字) 年 月 日 天津大学本科生毕业设计(论文)开题报告 课题名称 基于单幅照片的重定焦 学院名称 软件学院 专业名称 软件工程 学生姓名 张仁宇 指导教师 操晓春 一、 课题的来源及意义 在摄影学上, 人物突出清晰背景相对模糊对摄影师来说是一幅理想的肖像照 片。现在的情况是,专业的摄影设备器材相对昂贵,而且对于没有摄影基础的人 来说难以操作,纵使有好的设备也不能拍出专业的,有艺术感的照片。而随着工 艺的发展,普通的数码相机( point-and-shoot camera )越来越普及,但是大部分的 傻瓜式相机并没有提供足够的离焦来达到这样的效果, 主要原因是这种相机光圈 要相对小很多以使拍摄时视野范围内的景物都能达到一种清晰的效果, 减少人工 的操作,但这种方式带来的直接后果是不能对重要的物体突出。虽然说我们可以 借助软件对照片进行后期的处理,但现有的软件使用的都是简单模糊操作,没有 考虑到图片的景深信息,导致使用错误模糊操作,使得处理后的图片不够真实。 我们提出的基于单幅图片的重定焦可以使得普通相机拍出的照片也能达到 足够的离焦效果,突出重要的物体。与当前存在的算法不同的是,我们考虑到整 幅图片的景深信息,结合摄影的几何规则加以模糊,使获得的图片更有真实感。 二、 国内外发展状况 离焦的效果一直是计算机视觉领域中从 2-d 重建 3-d 场景比较热门的课题, 相机的聚焦与离焦常常被用于利用构建三位场景,当然使用的是多张图片。 这些 方法主要是利用对同一场景, 而聚焦不同拍摄的多张图片来估计每个像素的深度 信息。这些方法要求知道对焦平面与相机的距离,以及相机本身的焦距。 当然,添加离焦效果不是一定需要重建图片的景深信息。eltoukhy 和 kavusi 使用不同聚焦设置拍摄的照片来合成一张具有更广景深的照片。 zkan和trussell 以及 fogel提出一种恢复离焦照片的方法。这当然和我们所要的做刚好是相反的 了,他们想恢复模糊图片而我们则是添加模糊。 给定一幅对应的景深图, 照片的离焦效果也可以使用空间均匀变化的模糊近 似获得,但是物体间的边缘的模糊并不是均匀变化的。类似的技术在某些商业软 件中已经获得应用,如 adobe photoshop 和 depth of field generator pro。 三、 研究目标、研究内容 比较当前存在方法,本文提出的是一种新的方法,结合已经存在的技术,对 达到更好的离焦效果,从而将焦点定焦在重要的物体上,达到突出的目的。目前 的方法中,对于离焦的操作大多没有考虑到图片的景深信息,添加的模糊主要是 基于像素的空间分布,这样的后果往往是处理后的图片看起来很不真实,不够自 然。 针对上述方法的缺陷,本文提出的方法基于图片本身的景深信息,应用透镜 成像的几何规则对图像进行模糊。其实际效果,相当于对于同一场景使用不同参 数的相机重新拍摄了一次,这样经过处理的图片会显得更加真实自然。 本文提出的方法主要分为两个部分, 一是根据单幅图片获得整幅图片的 3-d 结构 信息,另一部分是应用透镜成像规则模糊聚焦处以外的部分。获得单幅图片的景 深信息, ashutosh saxena 等人提出的方法可以很好的解决这个问题。 本文获取单 幅图片的景深信息基于 ashutosh saxena 的工作。在研究了相机的参数及相机的 成像模型后,提出一种更加符合实际的模糊模型,达到更加准确的模糊结果。 四、 研究方法、研究手段 本文的准备和写作过程中,将采用理论结合实践的方法。首先,对所要研究 的问题进行分析,建立合理的模型,然后进行试验以论证模型的正确性。具体过 程中将采取如下的研究方法和手段: 1) 阅读文献资料、国内外关于离焦和聚焦问题论文及报告; 2) 建立理论分析框架:界定问题、概念、假设、方法 3) 建立模型,总结对离焦聚焦效果的方法及流程 4) 试验论证,重复进行试验来验证模型正确性,根据试验结果对模型进行 优化 5) 研究结果:基于单幅照片的重定焦 上述方法使用迭代的方式,通过试验来优化模型,直到模型能够达到预期的 效果。 五、 进度安排 第 1 3 周 查阅文献及搜集资料; 第 4 5 周 创建问题的理论分析框架; 第 6 8 周 建立模型,得出解决问题的一般性流程 第 9 11 周 进行试验验证模型的准确性 第 12 13 周 根据试验结果优化模型 第 14 16 周 答辩准备,整理论文及相关资料 六、 主要参考文献 1 darrell t., wohn k.: pyramid based depth from focusj. in ieee cvpr (1988). 2 ashutosh saxena, sung h. chung, andrew y. ng.: 3-d depth reconstruction from a single still imagej. ijcv, aug 2007. 3 ashutosh saxena, sung h. chung, andrew y. ng.: learning depth from single monocular imagesj. in nips 18, 2005. 4 soonmin bae., fredo durand.: defocus magnificationj. computer graphics forum, volume 26, issue 3 (proc. of eurographics 2007) 5 d. scharstein and r. szeliski. a taxonomy and evaluation of dense two-frame stereo correspondence algorithmsj. international journal of computer vision (ijcv), 47(1):742, 2002. 6 j.l. barron, d.j. fleet, and s.s. beauchemin. performance of optical fl ow techniquesj. international journal of computer vision (ijcv), 12:4377, 1994. 7 n. cornelis, b. leibe, k. cornelis, and l. van gool. 3dcity modeling using cognitive loopsj. in video proceedings of cvpr (vpcvpr), 2006. 8 e.b. sudderth, a. torralba, w.t. freeman, and a.s.willisky. depth from familiar objectsj: a hierarchical model for 3d scenes. in computer vision and pattern recognition (cvpr), 2006. 9 o. cossairt, c. zhou, and s. k. nayar, diffusion coding photography for extended depth of fieldj. acm trans. on graphics (also proc. of acm siggraph), aug, 2010. 选题是否合适: 是 否 课题能否实现: 能 不能 指导教师(签字) 年 月 日 选题是否合适: 是 否 课题能否实现: 能 不能 审题小组组长(签字) 年 月 日 摘 要 在摄影学上,拍摄一幅如风景的照片时,背景模糊前景锐利是摄影师比较期 望得到的,这样的照片能突出重点,而且往往具有更高的观赏性。但是并不是所 有的相机都能拍摄出这样的照片,大部分的相机(我们常说的傻瓜相机)由于只 有半径很小的透镜,也就半径很小的光圈,达不到充分离焦背景的要求,导致所 拍的照片处处都是锐利的。在本篇论文中,我们提出一套全新的图像处理框架, 使得这种效果的获得仅需要一张普通的照片。 我们首先应用一种深度估计技术来 估计图片的深度信息;在此之后,我们应用一种基于全局对比度的显著性区域检 测方法来获取全局的显著性区域。在得到深度信息和显著性区域之后,我们应用 高斯模糊来模糊显著性区域以外的背景区域而同时保持显著性区域锐利, 这样这 种背景虚化的效果就可以达到了。 关键词:显著性;深度估计;景深;真实感模糊;离焦 1 abstract in photography, a defocused background, such as landscape, is often desired for photographs. unfortunately, most point-and-shoot cameras which have small diameter of lenses dont have the ability to defocus background. in this work, we propose a new framework that can achieve this focusing effect automatically after the acquisition of an image. our approach first employs a depth estimation technique to get the depth of the image. then a global contrast based salient detection method is used to extract global salient region. with depth information and salient region, this bokeh effect can be generated by using gaussian blur and kept focus onto salient region. key words:focusing; saliency;depth estimation; depth of field; realistic depth blur. 1 目 录 第一章 绪论 1 1.1 相机模型 . 2 1.2 相机的局限性 . 3 1.3 论文的组织结构 4 第二章 框架结构 . 5 2.1 相关工作 . 5 2.2 框架概述 . 5 第三章 照片预处理 8 3.1 深度信息估计 . 8 3.2 显著性区域检测. 11 第四章 真实感模糊计算 11 第五章 实验结果 14 第六章 结论 16 参考文献 18 附录 19 外文资料 中文译文 致谢 天津大学 2011 届本科生毕业设计(论文) 1 第一章 绪论 在很多情况下,譬如说肖像照和风景照时,为了突出显著的物体或区域,摄 影师们会刻意将照片拍成背景模糊而同时前景或者说显著性大的区域仍然锐利, 也就是我们常说的背景虚化, 这样照片往往具有更高的艺术价值和观赏性。 但是, 此类照片的拍摄往往具有一定难度,受到硬件和拍摄人员技术的限制。现在的大 多数傻瓜式相机(point-and-shoot camera)只具有较小的镜头,这就的镜头的光圈 直径也会很小,可调节的范围很小,从而缺乏这种离焦背景的能力,拥有较大光 圈的单反式相机(single-lens-reflex camera, slr)却很容易拍摄出这样的照片,将 照片的景深限定在一个较小的范围内。 在一个特定的场景中, 如果相机与物体的距离已知, 景深(depth-of-field, dof) 只与相机镜头的光圈大小有观。如上文提及的,少量的离焦效果,对于拍摄风景 照和肖像照都是十分理想的, 但是很多相机不能够提供足够的离焦能力而无法拍 摄出理想的照片,这对于摄像师的创造力来说是一种很大的限制。事实上,照片 背景虚化的质量往往被用来评价一幅照片的艺术价值。在本篇论文中,我们提出 了一种全新的图片处理框架使得普通的没有离焦效果的照片也能够达到这样的 离焦效果,这种方法是基于显著性的,也即是保持显著的物体或区域仍然锐利而 只模糊背景区域。 图 1-1 两幅不同焦距设置拍摄的照片 我们的方法首先根据提供的图片来图片中场景的深度信息, 基于单张图片估 计深度信息在计算机视觉中是一项很难的任务,在本篇论文中我们使用的是由 ashutosh asxena. et. al.1提出的方法,选用这种方法的主要原因是它考虑了图片 的全局结构。在获得了图片的深度信息后,我们使用一种基于全局对比度的显著 性检测方法来获取图片的显著性区域, 做这一步处理的原因是因为人们总是倾向 于突出场景中突出的部分。得到图片的深度图(depth map)和显著性区域(salient regions)后,景深部分距离相机的最大距离和最小距离可以很容易的计算出来, 对图片应用模糊处理后, 我们就可以得到想要的离焦效果同时这种模糊是具有真 实感地。 天津大学 2011 届本科生毕业设计(论文) 2 本篇论文得主要贡献有: 从单幅图片中获得真实感模糊 基于显著性的自动定焦 1.1 相机模型 现实世界中的光学成像系统中,譬如说人眼,只有有限的景深。当物体处在 一定距离(焦平面)显得锐利些,比焦平面更远或者比焦平面更近时,会逐渐地变 得越来越模糊。然而,这些视觉上的细节会被针孔相机模型忽略,这样的图片看 起来处处锐利,缺乏真实感。而薄透镜模型能够提供一种更加真实的光学模型, 为接下来的模糊模型提供很好的基础。 图 1-2 薄透镜模型 对于一个具有焦距的透镜来说,如果物体距透镜的距离为,透镜的像平 面距透镜的距离为,一幅锐利的图片会形成当且仅当像距、物距、焦距满足以 下关系: 1 + 1 = 1 否则,光线从物体通过透镜会与像平面相交形成一个近似的圆,称为模糊圈 (circle of confusion)2. 人眼对模糊圈大小的识别有一定的阈值, 当模糊圈的半径 大于阈值时,这个阈值我们称之为可接受模糊圈直径,图片就会表现出模糊,而 半径越大,模糊地效果就会越明显,越容易察觉。模糊圈的直径可以由以下公式 算出: = | ( ) ( )| 式中的就是透镜的直径,代表的是物体距离透镜的距离。 图 1-2 表示一种基本 的薄透镜成像模型。在点 a 处发射的光线在像平面上产生了一个距离焦点 a很 远的模糊圈,从 c 出发射的光线在像平面产生一个距离焦点 c相对较近的模糊 圈,而从 b 处发射的光线透过透镜汇聚到焦平面并且满足透镜公式。 这里我们使用的是一种相对简化的透镜模型, 更加复杂的透镜模型考虑了光 天津大学 2011 届本科生毕业设计(论文) 3 圈的形状,色差的影响,镜头的畸变等。然而,这些复杂的相机模型会导致高昂 的计算代价,同时景深效果通常是光学系统中最容易观察的效果,所以,利用好 简化的薄透镜模型已经足够达到我们需要的效果, 更复杂的模型我们将不予考虑。 1.2 相机的局限性 经过上文中对相机模型研究,我们已经可以清楚知道相机是如何成像,如何 形成常见的景深效果的, 下面我们将从更加量化的观点来研究景深和相机参数之 间的关联。 图 1-3 从左至右分别由光圈设置 f-22,f-8,f-4 拍摄的照片 如果场景和相机的位置给定,景深(dof)直接和镜头的光圈大小相关,光圈 大小通常我们用 f-数字,即相机的焦距和光圈直径的比值来表示。降低光圈直径 即增大 f-数字值能够增大景深效果,获得更广的景深;然而,降低光圈直径的同 时也降低的曝光量,加强了衍射效果,这就限制了通过调节光圈直径来获得景深 效果, 也即无法通过充分降低光圈直径获得更广景深的同时保证获得高质量的照 片。 图 1-4 薄透镜模型 图 1-4 描述的是一幅标准的透镜模型3。在距离透镜距离 s 处的物体,通过 透镜投影到像平面。和处的物体分别被透镜投影到距离透镜和处, 从像平面上观察和则只能看到模糊的点。上文已提及,景深的大小是由透 镜的光圈直径控制的, 当物体和在像平面上形成的模糊点的直径与人眼可 天津大学 2011 届本科生毕业设计(论文) 4 接受的模糊圈的直径相等时,景深的近点和远点就在和处。由相似三角形 可知, = 和 = 显然,处的物体投影到像平面处满足透镜成像公式 1 + 1 = 1 同样地,对和的物体应用此公式 1 + 1 = 1 1 + 1 = 1 联立以上等式,可以得到 = +( ) = ( ) 当和人眼可接受的模糊圈直径大小相等时,和分别就是 dof 的近点和远 点,所以 = = 2( ) ()2 2( )2 对于人眼来说, 的通常是相同的, 所以景深的大小直接受光圈直径和透镜 焦距的制约。在前文我们提及,普通的傻瓜式相机光圈直径较小,可变的范围 也就很小,只能获得较大的景深,即只能使得图片处处锐利,不能突出重点。 1.3 论文的组织结构 本文的主要工作是提出了一种新的图像处理框架, 能够为普通相机拍摄的照 片也能具有景深的效果,突出重点。 论文的第一章主要概述了本文的工作, 介绍了本文采用的一种具有真实感的 相机模型及普通相机的局限性。第二章将讲述图像处理框架的结构,处理流程。 第三、四章是本文的重点所在,重点介绍了框架的处理细节及所应用的技术。第 五章展示处理框架的实验结果。第六章是本文的结论部分,总结了处理框架的工 作流程,并提出了进一步研究的问题。 天津大学 2011 届本科生毕业设计(论文) 5 第二章 框架结构 2.1 相关工作 目前已有很多方法可以用来生成这种景深的效果,当然,结果好坏不一。 bae 和 durand 通过检测单幅图片中模糊程度来估计模糊核(blur kernel)4,如果 想想修改模糊的程度只需定量的修改估计的模糊核, 这种方法可以在原来模糊地 基础上加深模糊,对一张处处都锐利的图片并不能达到想要的效果。benjamin huhle et. al.5提出了另一种变焦的方法在获得单幅图片之后,他们通过拍摄同一 场景的高动态光照渲染(high dynamic range)照片,同时拍摄场景的 range data(一种近似场景深度信息的数据),在获取这些数据之后,就可以真实地将照 片定焦在场景的任何地方。还有很多类似的方法,他们通过相片的定焦/离焦来 获取场景的深度信息, 这些方法都使用了同一场景不用定焦设置的多幅照片来估 计照片每个像素的深度信息,从而得到整个场景的深度图。我们所做的工作与此 相反,我们只需要单张图片。 eltoukhy 和 kavusi6使用多幅不同焦距设置拍摄的照片来组合产生一幅扩 展景深的照片。trussell 和 fogel7提出一种使用很多幅同一场景模糊照片来重建 此场景的清晰照片的方法。与他们所作的工作不同的是,他们希望从模糊图片中 重建出一幅清晰的图片, 而我们希望的是由清晰的图片构建出具有景深效果的图 片。 2.2 框架概述 我们的框架从整体来说,指定一幅输入图片,自动产生一幅定焦的具有景深 效果的照片,定焦在显著性最大的区域,无人工干预。自动完成定焦在显著性最 大的区域的原因是人们在拍摄照片的时候, 更愿意忽略看起来不那么重要的区域, 突出显著性大的区域。 下图表示的是框架的整体流程: 整个流程主要分为三个部分:照片预处理部分(image pre-processing),数据 优化部分(data optimization),真实感模糊(realistic depth blur)。 在获得了一幅图片之后,我们将对图片做两种处理:由单张图片获取场景的 深度信息,图片中每个像素的深度数值,即深度图(depth map),这里使用的是 由 ashutosh asxena. et. al.1提出的方法,具体细节将在接下来的章节详细描述, 场景的深度信息不需要十分精确,但至少要能表示处场景中物体的排列关系,那 些物体在那些物体的前面; 另一项需要做的工作就是检测出图片中显著性最高的 区域, 所谓显著性最高的区域就是说从人类视觉的角度来说最吸引你眼球的区域, 在图片中可能表现是与周围的物体颜色反差很大,在图片中此区域独一无二等。 天津大学 2011 届本科生毕业设计(论文) 6 在接下来工作中,我们是要定焦在显著性最高的这块区域,也就是将要保持这块 区域锐利但是模糊这块区域以外的其他地方,这块区域就是我们常说的景深。在 前面的步骤中我们已经获取了图片的深度图, 我们可以很容易的知道景深的近点 和远点的深度信息。利用我们所建立的模糊模型就可以对场景进行模糊操作,获 得我们所需要的效果。 图 2-1 处理框架 上面所描述的是我们的框架的标准流程,但是并不能获得很好的效果,主要 原因有以下两点:从单幅获取场景的深度图,分辨率只有 150320,粒度远远小 于输入图片的分辨率,这样会导致模糊的时候,原来边缘融合的物体被应用相同 的模糊强度,表现不出物体之间的层次感,没有真实感。同时,获得的显著性区 域往往是与周围反差最大的区域,在对待普通的照片时没有多大问题,但当处理 肖像照时,往往难以检测出人脸,忽略这一部分。所以在考虑了以上两个问题的 天津大学 2011 届本科生毕业设计(论文) 7 基础上,我们提出了解决方案。针对获得的深度图分辨率小于输入图片分辨的问 题,我们使用上采样提高深度图的分辨率,使得深度图的分辨率能够和输入图片 的分辨率相同大小,同时为了消除简单上采样引入的噪声问题,我们使用去噪消 除引入的噪声,将在接下来的章节详细叙述。针对显著性检测难以检测出人脸的 问题,我们在中间检测显著性区域的过程中引入人脸检测,提高人脸在显著性检 测中的权重。实验结果表明,在引入上述的解决方案后,实验获得的结果明显好 于没有引入上述解决方案的实验结果。 以上是整个处理框架的流程,在接下来的章节中我们将详细叙述每步的具体 流程。 天津大学 2011 届本科生毕业设计(论文) 8 第三章 照片预处理 3.1 深度信息估计 图像的深度信息即是图像中每点的像素值对应到点到某一参照平面的距离。 图像的深度估计今年来已成为机器视觉领域中一个十分热点的研究对象, 其根本 目的在于通过对图像数据的运算得到图像中不同的物体对象间的空间位置关系。 深度估计在图像理解(如目标识别,场景层次、姿态感知)、3d 重建8、机器人视 觉等方面都已得到了广泛的应用。 在如何获得场景深度信息方面,目前主流的方法有两种。一种是使用深度感 应器,例如三位激光扫描仪,其原理是利用光线的反射特性,通过反射时间计算 物体到扫描平面的绝对距离,这种方法有着精确度高的优点,但同时存在设备成 本较高的缺点。另一种方法是基于一个场景的多幅图像或图像序列,利用多视几 何9,通过求取视差,获得深度信息,例如基于双目、三目的三维立体化深度信 息获取方法。这些方法的优点是条件充足,易于实施,然而缺点是需要摄像机内 部参数,对专业知识素养的要求比较高。 本文所要采用的方法是利用单目图像进行的深度估计,基本原理是:以模式 识别原理为框架,采用 mrf(markov random field)方法建立深度估计模型。实 践证明,该方法成本低,即无需昂贵的测距设备,有无需摄像机内部及外部的专 业参数,应用前景广泛。 马尔科夫随机域(mrf)及其变种已成为机器学习研究中主要研究方法,而且 已经成功解决了很多局部特征信息不足必须得考虑全局信息的问题。譬如说,纹 理分割、物体分类、图片标注等。ashutosh asxena. et. al.提出的方法是基于利用 马尔科夫随机域建立起获取深度信息和深度之间的关系。 他们首先使用 3-d 距离 扫描仪来获取大量的训练数据,同时获得对应的场景图片,这样现在就有场景图 片和它对应的准确无误(ground truth)的深度数据。利用训练数据集,可以建立起 预测深度的马尔科夫模型;与其他方法不同的是,我们只建立深度与图片特征的 后验分布而不是建立起深度与图片特征的联合分布关系。 人类具有从单目图片中获取深度信息非常好的能力, 因为人眼可以通过一些 细微的线索来帮助判断。比如说纹理的变化、纹理的交融、已知物体的尺寸、离 焦效果、雾等。很多物体的纹理从不同的距离来看会有很大的不同。类似这些的 很多单眼线索(monocular cues)都是上下文的信息, 并不是孤立的, 从一小块图片 来看是无法得出它的一些全局特征。尽管说一些局部的纹理变化、颜色变化可以 给出一些深度信息,但是这些特征往往是不足以得出图片的真实深度值。举个例 子来说,如果我们有一张干净蓝色天空的照片,取出其中一小块图片,单看这一 小块图片我们是很难判断这块图片距离我们很远或者它仅仅是某个蓝色物体的 天津大学 2011 届本科生毕业设计(论文) 9 一部分。由于对待这些情况存在这些不确定性,我们需要从整体上来理解图片来 获取图片的深度信息。 ashutosh asxena. et. al.等人提出将图片分割成更小的块,对每个小块分别估 计深度值。其中,使用到两种深度值来表示每个小块:绝对深度值,用来估计每 个小块的绝对深度值和相对深度值用来估计该小块与其他图片小块的相对深度 值。在估计深度的过程中,三种局部的属性:纹理变化、纹理梯度和雾10被用 来估计图片的深度信息。 仅仅使用图片的局部特征是远不足于估计图片小块的绝对深度值, 我们需要 使用更全局的图片特征。解决此问题,使用的是在不同尺度下使用图片的局部特 征。因为不同深度上的物体在不同的分辨下观察会有很大的差异11,使用不同 尺度下的图像特征能够使我们抓住这些变化。为了获取更多的全局信息,在不同 的空间尺度下计算图像特征也能够帮助我们考虑到不同尺寸的物体。举例来说, 一个更靠近观察者的物体显得会更大些,远离观察者的物体会显得小些。为了使 获得图片小块的全局特征,我们不仅仅使用从小块本身计算出来的特征,同时也 使用图片小块的相邻小块的特征。然后在三种不同的图片尺度下重复这一步骤, 这样每个图片小块的特征向量就同时包括它的相邻小块和其他的图片小块。 一个图片小块的深度值依赖于它本身的特征, 但同时与图片中的其他部分紧 密相连系。比如说,在一个建筑物上的两个相邻的图片小块在深度值很大程度上 是近似的。我们使用一种 gaussian mrf 来建模图片小块深度值与它相邻图片小 块深度值的关系。为了能够表示不同图片尺度下深度关系,定义()如下:在 每一图片尺度 = 1,2,3下,(s+ 1) = (1/5)() ()*+ .这里,()表示 图片小块在尺度下的 4 个相邻图片小块。也就是说,在较大尺度下的深度值受 更小尺度下平均深度值的制约。公式如下: (|;,) = 1 , ( (1) ) 2 21 2 .() ()/ 2 22 2 () =1 3 =1 =1 - m 表示图片中图片小块总的数量;x是图片小块绝对深度特征向量;和是 gaussian mrf 模型的变量,z 是归一化常量。利用训练数据最大化条件概率 p(d|x;)就可以估计出等式中变量的值。 结果如下: 天津大学 2011 届本科生毕业设计(论文) 10 图 3-1 深度估计结果,第二列是真实值 天津大学 2011 届本科生毕业设计(论文) 11 从结果中可以看出,对于普通的室外场景的图片,该方法能够较准确的估计 到场景的深度值,对于室内场景也可以取得令人较为满意的结果。 3.2 显著性区域检测 人类可以很容易地判断图像中的显著性区域,并注意到图像的重要部分。由 于我们可以通过显著性区域来优先分配图像分析与合成所需的计算资源, 所以通 过计算来检测图像的显著性区域意义重大。显著性源于视觉的独特性、不可预测 性、稀缺性以及奇异性,并且是由颜色、梯度、边缘等图像属性所致。视觉显著 性和我们如何感知、处理视觉刺激紧密相关,并且正在被包括认知心理学12, 神经生物学13和计算机视觉14在内的多个学科进行研究。关于人类视觉注意的 理论假设人类视觉系统只详细地处理图像的某个局部,而不是整幅图像。 程明明等人提出依据图像的对比度来进行自底向上、 数据驱动的显著性检测。 人么普遍认为,为了优先响应高对比度刺激,人类的大脑皮质细胞在他们的接受 域可能是硬编码的。15 生物视觉研究关于视觉显著新的观察认为, 视觉系统对视觉信号的对比度是 很敏感的。据此提出基于输入图像的颜色统计特征提出了基于直方图对比度 (histogram contrast, hc)的图像像素显著性检测方法。具体来说,一个像素的显 著性值用它和图像中其它像素颜色的对比度来定义。例如,图像中像素的显 著性值定义为: () = (,) 其中(,)为像素和像素在 l*a*b*空间的颜色距离度量16。上式可以按照 像素顺序展开为以下形式: () = (,1) + (,2) + + (,) 其中 n 为图像 i 的像素数。我们可以看到,由于忽略了空间关系,在这种定义下 具有相同颜色值的像素具有相同的显著性值。因为我们可以对上式进行重排,使 得相同颜色值 cj 的像素归到一起,得到每个颜色的显著性值: () = () = (,) =1 其中c为像素i的颜色只,为图像中所含的颜色总数,为c在图像中出现的概 率。 人们会更加注意到图像中和周围无题对比度非常大的区域17。 除了对比度之 外,空间关系在人类注意力方面也起到非常大的作用。相邻区域的高对比度比很 远区域的高对比度更容易导致一个区域引起视觉注意。 在计算像素即对比度时引 天津大学 2011 届本科生毕业设计(论文) 12 进空间关系计算代价会非常大, 因此区域对比度(region contrast, rc)是一种很好 替代方法,以此来将空间关系和区域级对比度计算结合到一起。在 rc 方法中, 首先将图像分割成若干区域18,然后计算区域及颜色对比度,再用每个区域和 其他区域对比度加权和来为此区域定义显著性值。权值有区域空间距离决定,较 远的区域分配较小的权值。 首先,用易于图的图像分割方法将输入图像分割成若干区域。然后为每个区 域建立颜色直方图。对每个区域,通过测量它与图像其它区域的颜色对比度来 计算它的显著性值, () = () (,) 其中()为区域的权值,(,)为两个区域的颜色度量。这里用里的像素 数()来强调大区域的颜色对比度。两个区域1和2的颜色距离为: ( 1,2) = (1 ,) 2 =1 1 =1 (2,)(1,2,) 其中(,)为第 i 个颜色,在第 k 个区域的所有种颜色中出现的概率,k = 1,2。注意到使用区域概率密度函数中颜色出现概率作为权值,以强调主要的 颜色之间的区别。 更进一步,通过在上式中引进空间权值,可以将空间信息加入进来,来增加 区域的空间影响效果。近邻的区域增大影响,较远的区域减少影响。特别地,对 任意区域,基于空间加权区域对比度的显著性定义为: () = exp( ( ,) 2 ) () ( , ) 其中 ( ,)为区域和的空间距离,控制空间权值强度。越大,空间权 值的影响越小,导致较远区域的对比度会对当前区域显著性做出较大的贡献。两 个区域的空间距离定义为两个区域重心的欧氏距离。 以上计算得到的仅仅是图片的显著性图, 而我们希望得到的是能表示图片中 显著性最大区域的蒙板, 也即显著性图(salient regions map)。 接下来利用计算出 来的显著性图片,将图片中显著性值最大的区域分割出来。在我们的方法中,我 们迭代应用 grabgut 来改善二值化显著性图像后得到的分割结果。传统的 grabgut 方法是由人工选中矩形区域来进行初始化操作,而我们用一个固定值二 值化后的显著性图来得到显著性分割,并用这个显著性分割来自动地进行 grabgut 初始化。 初始化之后, 我们迭代运行 grabgut 来改进显著性分割结果(在 实验中最多迭代 4 次)。在每一次迭代后,我们用膨胀和腐蚀操作来得到新的 trimap 以进行下一次迭代。膨胀后仍然落在外面的区域设置成背景,在腐蚀区 天津大学 2011 届本科生毕业设计(论文) 13 域内的设置成前景,其余的区域为 trimap 中的未知。grubcut 本身是用高斯混合 模型和 grapcut 进行迭代,来改善每一步的区域分割效果,靠近初始显著性物体 区域的部分成为显著性物体的几率更大。因此,我们的新的初始化方法可以 使 grabcut 包含显著性区域附近的显著性区域, 并根据颜色特征的差异排除非显 著性区域。在算法实现中,我们设置了狭窄的图像边界区域(15 像素宽)作为背景 来提高边界区域的收敛速度。 天津大学 2011 届本科生毕业设计(论文) 14 第四章 真实感模糊计算 所谓真实感模糊, 即是使得模糊的效果看起来是由于相机焦距设置自然拍摄 的结果。从模糊的结果来看就是越远处的物体也模糊,焦平面附近的物体清晰易 于辨认。在第一章中,我们介绍了薄透镜的相机模型,接下来我们将根据相机模 型来建立我们的模糊模型。如图 xx 所示是一种标准的透镜模型: 在距离透镜 s 处地物体,经过透镜形成的像在透镜的另一层距透镜 v处。在 距离透镜和出的物体镜头形成的像在透镜另一层分别距透镜和处,如 果我们在 v处观察和形成的像则只能看到模糊的点。如果模糊点的直径与 人眼可接受模糊圈(circle of confusion)直径的大小相等,则景深的远点和近点就 是和。从相似三角形,我们可得 = 和 = 显然, = = + 像平面距透镜的距离可由距透镜距离 s 的物体确定,根据凸透镜成像公式, 1 + 1 = 1 同样,对和应用凸透镜公式,有 1 + 1 = 1 1 + 1 = 1 代入以上俩公式, = +( ) = ( ) 在图片预处理阶段,我已经获得的图片的深度图和显著性最大的区域。在模糊阶 段,我们将定焦在显著性最大的区域,也就是说景深的近点就是显著性最大的区 域的最近点,景深的远点就是区域的最远点。联立以上等式,我们就可以得到光 圈的直径值 d: 天津大学 2011 届本科生毕业设计(论文) 15 = 2 ( ) 显然,焦平面到透镜的距离 s 也可以得出: = 由以上可知,模糊圈大小与相机焦距,光圈大小,物体距 s 距离有关。现在,给 定一张照片我们要对它添加离焦的效果,相当于对同样的场景,换用不同参数的 相机重新拍摄一次, 而在这过程中, 场景保持不变, 即物体之间的相互距离一定, 相机的位置不变;变化的是相机的焦距,光圈大小,由于模糊圈 c 对人眼来说通 常为 1/30mm。所以,只要我们确定相机焦距,光圈大小,以及焦平面距离透镜 的距离 s 就可以确定模糊直径 coc 的值。 现在假设有一物体,距离透镜的距离为 z,则其在像平面上形成模糊点的直径的 大小可以通过下式得出: = | ( ) ( )| 在图片中每个像素的 coc 计算出来以后,我们应用一个高斯模糊就可以达到我 们想要的效果了。 在第三章我们介绍了在对图片添加模糊之前需要做预处理来获得模糊操作 所使用的数据,图片的深度图(depth map)和显著性最大的区域(salient map)。在 获得深度图和显著性图后,因为我们的处理流程是将定焦在显著性最大的区域, 即保持显著性最大的区域仍然锐利,而模糊其它的区域,所以显著性最大的区域 中距离透镜最近的点就是景深的近点,距离透镜最远的点就是景深的远点,由式 xx 我们可以得出光圈的直径 d,而且焦平面距离透镜的距离也可以通过式 xx 得出,这样对于深度图中的每个像素点的深度值,我们都有一个对应的模糊圈直 径的值与之对应。我们使用高斯模糊来模糊原图片中的每个像素,就可以将景深 效果加入到想要处理的图片之中。 (,) = (,) (,) 其中,(,) = 1 22 0 2+ 2 22 1, 是 diffusion parameter, = 。 天津大学 2011 届本科生毕业设计(论文) 16 第五章 实验结果 我们已经使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年高考政治全国卷逐题回顾与预测专题05公民的政治生活-针对高考第16题含解析
- 项目审计程序与技巧考核试题及答案
- 陕西规划课题申报书
- 项目管理考试中的高频考点与试题答案
- 精通微生物检验技师证书考试的试题及答案
- 行业分析对证券投资的重要性试题及答案
- 规划课题课题申报评审书
- 项目管理考试全流程掌握试题及答案
- 专业人士制作的证券从业资格证考试试题及答案
- 项目资源优化配置实务试题及答案
- 委托律师签署协议书
- 图文工厂转让协议书
- 货物贸易的居间合同
- 2025-2030中国疗养院行业市场深度分析及前景趋势与投资研究报告
- 2025年国企山东济南公共交通集团有限公司招聘笔试参考题库附带答案详解
- 高二入团考试试题及答案
- 福建省漳州市医院招聘工作人员真题2024
- (三模)吉林市2025届高三第三次模拟测试 历史试卷(含答案详解)
- 湖北省圆创教育教研中心2025届高三三月联合测评物理试题及答案
- 科室医疗质量管理小组职责
- 陈仓《我有一棵树》阅读答案
评论
0/150
提交评论