毕业设计---大规模数据驱动的阴影检测.docx_第1页
毕业设计---大规模数据驱动的阴影检测.docx_第2页
毕业设计---大规模数据驱动的阴影检测.docx_第3页
毕业设计---大规模数据驱动的阴影检测.docx_第4页
毕业设计---大规模数据驱动的阴影检测.docx_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业设计(论文)说明书学 院 软件学院 专 业 软件工程 年 级 2007 级 姓 名 指导教师 2011年 6月 15日毕业设计(论文)任务书题目:大规模数据驱动的阴影检测学生姓名 学院名称 软件学院 专 业 软件工程 学 号 3007218124 指导教师 职 称 一、原始依据阴影作为场景光照作用下形成的最为显著的效果之一,为发现场景属性,如:物体大小、形状和运动,提供了有利线索;但它同时也使视觉识别任务,如:特征检测、物体识别和场景解析,变得更复杂。近些年,已经有多个课题组提出方法消除图片中光照的影响,也有课题组提出方法来移除图片中的阴影。本课题大规模数据驱动的阴影检测旨在识别单张图片中的阴影,其研究动机主要来自两个方面:第一,阴影作为视觉中最普遍存在的场景元素之一,能否对其进行有效识别对后续视觉任务的完成具有重要的影响,现阶段阴影识别技术已取得长足的发展,但其作为视觉领域的一个基础问题仍然是一个值得研究的开放的话题,有许多难题亟待解决;第二,受现阶段大规模数据驱动技术的激励,使用大规模数据驱动技术来解决视觉应用中难以参数化建模的复杂问题开辟了,相对于机器学习来说,一种全新的研究思路,呈现出广阔的研究空间。本课题需要识别的阴影来自单张日常生活中的图片,由于日常生活场景的复杂性必然导致阴影识别的复杂性,加之用户拍摄图片的环境、设备和方式的差异性将进一步提升阴影检测的难度。本课题的深入研究必须具备两个条件:第一,数据资源和设备资源,数据资源就是用于大规模数据驱动的图片,这可以从flickr、google、百度等图片网站上获取,这些大多是用户上传的随处可得的日常生活中的照片,预计需要下载百万张图片。设备资源可以看成是对大规模图片的有效存储和检索,由于数据量较大,在实现过程中需要对数据进行分布式的存储和检索,需要使用4-6台商品计算机;第二,识别方法,数据的获取可能相对较容易,如何利用数据中的信息才是本课题研究的重点,必须充分利用大规模数据中冗余的的场景信息来辅助挖掘单张图片中的场景信息,这也是大规模数据驱动数据的灵魂所在。本课题主要面向学术研究,具体应用可以在阴影识别的基础上进一步拓展,在暂不做过多的描述。二、参考文献1jean-francois lalonde, alexei a. efros, srinivasa g. narasimhan: detecting ground shadows in outdoor consumer photographsj. in: european conference on computer vision, 2010.2jiejie zhu, kegan g.g. samuel, syed z. masood, marshall f. tappen: learning to recognize shadows in monochromatic naturalimagesj. in: international conferenceon pattern recognition, 2010. 3bryan c. russell1 alexei a. efros, josef sivic1 william t. freeman andrew zisserman: segmenting scenes by matching image compositesj. in: neural informationprocessing systems, 2009.4elena salvador, andrea cavallaro, touradj ebrahimia: cast shadow segmentation using invariant color featuresj. in: computer vision and image understanding, 2004.5ce liu, jenny yuen, antonio torralba: nonparametric scene parsing: label transfer via dense scene alignmentj. in: international conference on pattern recognition, 2009.三、设计(研究)内容和要求本课题重点研究单张用户图片中阴影的检测,研究方案为使用大规模数据驱动技术。 研究工作按毕设进度有序进行,最终研究成果必须和european conference on computer vision 2010detecting ground shadows in outdoor consumer pho-tographs中发表的实验结果进行比较,要求阴影检测的查全率和查准率达到或超过其公布的实验数据。同时,在整理毕业论文文集之前,须撰写英文论文。 指导教师(签字)年 月 日审题小组组长(签字)年 月 日天津大学本科生毕业设计(论文)开题报告课题名称大规模数据驱动的阴影检测学院名称软件学院专业名称软件工程学生姓名 指导教师 本课题大规模数据驱动的阴影检测是在研读数篇计算机视觉相关领域国际顶级会议论文的基础上,并在操晓春老师的精心指点下确立的,旨在使用大规模数据来检测单张图片中的阴影。阴影可以说无处不在,人眼可以快速地识别出图片中的阴影,计算机算法的识别效果却不是很理想。在计算机视觉研究的早期,阴影的出现弱化了许多视觉应用的效果,包括分割、物体检测、场景分析、跟踪等。尽管现在存在许多标准的方法、软件和评估数据库来完成重要的视觉任务,包括从边检测到人年检测,但在过去的40年里阴影相关的研究却很少。现在使用多张图片、标有时间的图片序列或者用户输入的阴影方法已经取得了丰硕的成果,但对单张图片自动进行稳定可靠的阴影检测来说仍然是个开放的话题。这主要是由于户外阴影的形状和外貌依赖于多个隐含因素,如:颜色、光照的大小和方向、投影物体的几何形状、被投影物体的形状和材料等。现阶段单张图片阴影检测的大部分工作都是基于光照不变量。不幸的是,不变量的稳定计算需要高质量的图片(拥有较大的动态变化范围、较高的强度分辨率,并且相机参数、颜色变化能够准确的测量和补偿),这样这些方法就不适合日常生活图片的处理,如:来自flickr和google上的图片。由于当前计算机视觉的大量研究工作都是基于日常生活中的图片,所以提出一套新颖的高效的阴影检测方法迫在眉睫。使用大规模数据来解决计算机视觉领域难以参数化建模的相关难题已经成为当前国际上研究的热点。如:carnegie mellon university教授alexei(alyosha) efros长期致力于计算机视觉和计算机图形学领域的研究工作,其当前主要研究兴趣就在于利用互联网上大量存储的并且日益增长的视觉信息,如:数字相册、网络摄像头、电影等,来学习、理解和合成周围的视觉世界;massachusetts institute of technology教授antonio torralba及其指导的学生正在使用随处可得的视觉信息来帮助识别场景和物体。当前国内不少科研团队,如:微软研究院、清华大学等,在大规模图像和视频检索方面进行了大量的研究并在基于草图的视觉检索、文本视觉信息混合检索、语义检索方面取得了显著的成就。然而,国内在大规模视觉检索的基础上,利用大规模数据驱动技术解决计算机视觉领域相关难题方面还处在初始发展阶段,见诸发表的文章也相对较少。本课题可以看成是使用大规模数据驱动技术进行场景理解方面的一个新尝试。相机拍下的单张照片中蕴含丰富的场景信息,如:物体空间位置关系、物体运动趋势、天气状况、阴影等等,所有这信息我们人眼能迅速的识别出来;然而对于计算机来说却不是这样,计算机由于缺乏像人类这样在成长过程中长期知识积累的过程而识别二维平面中蕴含的三位场景信息。让计算机具备像人类一样的识别能力最直接的方法可以从两个方向去考虑:第一个方向,让计算机模拟人类成长过程并学习获得场景识别的能力,这是人工智能研究的范畴,这方面已经取得了显著的成就但也遭遇了未解的难题,在此不做过多的讨论;第二个方向,给计算机配备一个知识库,当遇到识别问题时可以直接从知识库中获取知识。随着互联网的发展渗透以及移动数码设备的广泛使用,互联网上的图片和视频数据正在日益激增并且可以轻松获取。本课题着重从第二个方向考虑阴影识别问题,通过从互联网上获取大量图片构建初始的图片数据库,然后对图片进行特定的处理形成针对图片阴影识别的知识库辅助计算机识别单张图片中的阴影。本课题的解决方法主要基于一个日常生活观察和一个统计发现:日常生活观察为户外场景中构成地面的材料是有限的,常见的为:沥青、砖块、石头、泥土、草地和混泥土等,这样地面上的阴影只会在有限的可控制的范围内变化;统计观察为在使用阴影相关描述符对图片数据库进行查询时,数据库对图片中阴影的支持度远远大于对非阴影的支持度,这提供了解决方案的事实基础。处理过程可以分为两个阶段:第一阶段,首先对输入图片进行过分割,然后利用阴影相关描述符对分割出的边和数据库中的边(提前分割好)进行匹配,最后根据数据库支持度标识输入片中的边为阴影边或非阴影边;第二阶段,对第一阶段中标识出的阴影边进行聚合得到完整的阴影区域。现阶段已经具备最新阴影检测的理论基础,提出了上述阴影检测思路并进行了理论上的可行性分析。同时,实验室工程组已经积累上百万张可供阴影检测的图片,为图片数据库的搭建做好了准备。现在就毕业设计进度做如下安排:2011年3月11日2011年3月12日开题报告会。2011年3月13日2011年3月31日选择有效的阴影特征描述符、搭建小型数据库对方案可行性进行验证。2011年4月01日2011年4月24日 调整实验方案,搭建大规模数据库实现整个方案。2011年4月25日2011年4月30日 毕业设计中期报告会。2011年 5月1日2011年5月22日对实验方案进行理论提升和公式化,书写英文论文。2011年 5月23日2011年6月22日 完成论文及答辩。主要参考文献:1jean-francois lalonde, alexei a. efros, srinivasa g. narasimhan: detecting ground shadows in outdoor consumer photographsj. in: european conference on computer vision, 2010.2jiejie zhu, kegan g.g. samuel, syed z. masood, marshall f. tappen: learning to recognize shadows in monochromatic natural imagesj. in: international conference on pattern recognition, 2010.3bryan c. russell1 alexei a. efros, josef sivic1 william t. freeman andrew zisserman: segmenting scenes by matching image compositesj. in: neural information,processing systems, 2009.4elena salvador, andrea cavallaro, touradj ebrahimia: cast shadow segmentation using invariant color featuresj. in: computer vision and image understanding, 2004.5ce liu, jenny yuen, antonio torralba: nonparametric scene parsing: label transfer via dense scene alignmentj. in: international conference on pattern recognition, 2009.选题是否合适: 是 否课题能否实现: 能 不能指导教师(签字)年 月 日选题是否合适: 是 否课题能否实现: 能 不能审题小组组长(签字)年 月 日摘要阴影常常会扰乱许多计算机视觉算法,如:图片分割、物体检测、移动物体追踪,等。有效的图片阴影检测必将显著提高这些视觉算法的性能。本论文提出了一个全新的基于概率统计方法自动检测单张户外图片地面阴影的方法。不同于前人的工作,我们的方法不依赖任何几何假设,如:相机位置、地面/物体几何属性;更重要的是,我们摒弃了现在主流的基于机器学习的阴影检测框架。该方法基于一个重要的日常观察:构成户外场景地面的材料通常是相对有限的,最常见的包括沥青、砖块、石头、泥土、草地、混泥土,等。同时,大规模数据驱动技术作为当前国际研究的热点常被用来解决视觉领域难以参数化建模的相关问题,如果用于阴影检测,则可以有效解决前人工作中遇到的模型选择、参数设置、用户介入过多等相关难题。基于以上两点,单张图片中的地面阴影不会像常规阴影那样大范围变动,并且可以巧妙地使用大规模的无标注阴影图片库来有效鉴别。我们的阴影检测系统由四个主要步骤构成,包括: (a)从图片分割边周围提取阴影敏感特征;(b)使用大规模数据驱动技术进行阴影判别;(c)使用条件随机域最优化方法组合检测到的阴影边构成连续的阴影轮廓;(d)结合现有的单张图片地面检测器。实验在许多具有不同地面材料和阴影形状的非常有挑战行的图片上的展示了很好的阴影检测效果。由于许多视觉应用感兴趣的物体(如:行人、车辆、标识)常常和地面绑连接在一起,我们相信我们提出的自动无参阴影检测器能找到广阔的应用空间。关键词:阴影检测;数据驱动;支持度;颜色比;松弛度因子;条件随机域abstract shadows often confound algorithms designed to solve computer vision tasks such as image segmentation, object detection and tracking, etc. detecting shadows from images can significantly improve the performance of such vision algorithms. in this paper, we present a novel statistic based algorithm to automatically detect shadows cast by objects onto the ground, from a signal consumer outdoor photograph. unlike previous work, our approach does not rely on any geometric assumption, such as camera position, ground surface/object geometry. whats more, we abandoned the current popular machine learning based shadow detection framework. our key observation is that the types of materials constructing the ground in outdoor is relatively limited, most commonly including asphalt, brick, stone, mud, grass, concrete, etc. at the same time, large scale data-driven technology has been widely studied and mainly used for solving a variety of computer vision tasks which are hard for parameter model construction. if used for shadow detection, it can effectively solve tough problems encountered in previous work, such as model selection, parameter setting, over human intervention. based on above points, the appearance of shadows on the ground are not widely varying as general shadows and thus, can be identified tactfully using unlabeled large scale set of images. our shadow detecting system consists of a four-tier process including (a) computing shadow sensitive features around each image edge, (b) identifying shadows using large scale data-driven technology, (c) a crf-based optimization to group detected shadow edges to generate coherent shadow contours, and (d) incorporating any existing classifier that is specifically trained to detect ground in images. our results demonstrate good detection accuracy on many challenging images having different ground materials and shadow shapes. since most objects of interest to vision applications (like pedestrians, vehicles, signs) are attached to the ground, we believe our shadow detection system can find wide applicability.key words: shadow detection; data-driven; support ratio; color ratio; looseness factor; crf目录第一章绪论11.1研究背景和意义11.2国内外研究进展21.3主要研究内容2第二章基础知识42.1阴影形成原理42.2常用色彩模型比较52.3特征提取62.4大规模数据聚类方法7第三章阴影检测算法研究93.1图像中阴影的特点和性质93.2阴影检测算法流程93.3阴影特征提取103.4特征提纯133.5支持度计算143.6构建阴影轮廓153.7结合场景布局163.8实验及结果分析16第四章结论184.1工作展望184.2工作总结18参考文献19 致谢19 第一章 绪论1.1 研究背景和意义自从电子计算机问世以来,随着硬件和软件技术的不断进步,人类对计算机应用的要求越来越高。在21世纪的今天,计算机已经在我们的生活中无处不在,从衣食住行的各个方面为我们提供高效便捷的服务。特别是近二十年来随着互联网和多媒体技术的高速发展,计算机在我们的生活中占据着越来越重要的位置,我们获得的信息量呈几何级数的速度增长,获取信息的方式也越来越方便,并且信息的表现形式也不再局限于原来的文字和静态的图片,而是包括声音、视频、动画等多种媒体形式,所以有人说:我们生活在一个信息爆炸的时代,或称为信息时代。人类接收信息的主要来源是视觉,占据了约70%的比重。我们从视觉系统得到的信息就是图像,简言之,图像是自然界景物的客观反映和人类视觉系统的主观感受相结合的产物。而计算机视觉则是希望计算机能够从图像或图像序列中获取对世界的描述。这种信息的获取是以准确的分析和处理数字图像为基础的,也被称为数字图像处理技术。数字图像处理技术发展到今天,许多技术己日臻成熟。在各个领域的应用取得了巨大的成功和显著的经济效益。如在工程领域、工业生产、军事、医学以及科学研究中的应用已十分普遍。通过分析资源卫星得到的照片可以获得地下矿藏资源的分布及埋藏量;利用红外线、微波遥感技术可侦查到隐蔽的军事设施;x射线ct己广泛应用于临床诊断,由于它可得到人体内部器官的断层图像,因此,可准确地确定病变的位置,为诊断和治疗疾病带来了极大的方便。在安全保障及监控方面图像处理技术更是不可缺少的基本技术。阴影是在自然界中普遍存在的一种物理现象,是由于光源被物体遮挡而产生的。图像中阴影的存在对计算机视觉领域的相关问题有不同的影响,这种影响有有利的也有不利的。比如我们可以从阴影中得到物体的几何信息、场景空间结构、光源方向等,对三维场景重建、空间物体运动分析有重要的作用;在虚拟现实、3d游戏中为物体添加阴影,可以提高场景的真实感。但是更多的时候,图像中的阴影会对计算机视觉的相关问题产生不利的影响,如在航空图像中,阴影的存在会影响后继的图像匹配、模式识别和地物提取等多种遥感图像处理操作;在医学成像中,阴影会影响医生对病变图像的分析;在视频监控中,阴影和运动目标结合在一起,导致计算机对目标物体的提取和追踪出现错误。因此,有必要对图像中的阴影进行检测和分析,并根据需要,进而消除或减弱阴影的影响。1.2 国内外研究进展阴影可以说无处不在,人眼可以快速地识别出图片中的阴影,计算机算法的识别效果却不是很理想。在计算机视觉研究的早期,阴影的出现弱化了许多视觉应用的效果,包括分割、物体检测、场景分析、跟踪等。尽管现在存在许多标准的方法、软件和评估数据库来完成重要的视觉任务,包括从边检测到人年检测,但在过去的40年里阴影相关的研究却很少。到目前为止,使用多张图片、标有时间的图片序列或者用户输入的阴影方法已经取得了丰硕的成果,但对单张图片自动进行稳定可靠的阴影检测来说仍然是个开放的话题d. r. martin, c. c. fowlkes, and j. malik. learning to detect natural image boundaries using local brightness, color, and texture cuesj. ieee transactions on pattern analysis and machine intelligence, 2004. 2, 3, 26(5):530549.。这主要是由于户外阴影的形状和外貌依赖于多个隐含因素,如:颜色、光照的大小和方向、投影物体的几何形状、被投影物体的形状和材料等。现阶段单张图片阴影检测的大部分工作都是基于光照不变量。不幸的是,不变量的稳定计算需要高质量的图片(拥有较大的动态变化范围、较高的强度分辨率,并且相机参数、颜色变化能够准确的测量和补偿),这样这些方法就不适合日常生活图片的处理,如:来自flickr和google上的图片。由于当前计算机视觉的大量研究工作都是基于日常生活中的图片,所以提出一套新颖的高效的阴影检测方法迫在眉睫。使用大规模数据来解决计算机视觉领域难以参数化建模的相关难题已经成为当前国际上研究的热点。如:carnegie mellon university教授alexei (alyosha) efros长期致力于计算机视觉和计算机图形学领域的研究工作,其当前主要研究兴趣就在于利用互联网上大量存储的并且日益增长的视觉信息,如:数字相册、网络摄像头、电影等,来学习、理解和合成周围的视觉世界;massachusetts institute of technology教授antonio torralba及其指导的学生正在使用随处可得的视觉信息来帮助识别场景和物体chong, h.y., gortler, s.j., zickler, t.: a perception-based color space for llumination-invariant image processingj. acm transactions on graphics (sig-graph 2008), 2008.。当前国内不少科研团队,如:微软研究院、清华大学等,在大规模图像和视频检索方面进行了大量的研究并在基于草图的视觉检索、文本视觉信息混合检索、语义检索方面取得了显著的成就。然而,国内在大规模视觉检索的基础上,利用大规模数据驱动技术解决计算机视觉领域相关难题方面还处在初始发展阶段,见诸发表的文章也相对较少。本课题可以看成是使用大规模数据驱动技术进行场景理解方面的一个新尝试。1.3 主要研究内容 本文将对单张图片中的阴影检测进行研究,在充分分析阴影属性的基础上,结合现有阴影检测原理和大规模数据驱动技术,提出了一个全新的阴影检测方法,并通过实验对算法进行了检测和分析。因此本文的主要内容有:1、 阴影形成的基本原理,给出阴影的定义,总结分析阴影的特点;2、 常用颜色模型分析和比较;3、 比较现有阴影特征提取方法,并提出自己的阴影特征提取算法;4、 数据聚类算法分类和总结;5、 分析现有的阴影检测算法的优缺点及限制条件,并提出自己的阴影检测算法,通过实验进行验证分析。希望通过以上的研究,为以后从事这方面研究的同仁提供一定的启发作用。第二章 基础知识2.1 阴影形成原理阴影,又称影子,是一种光学现象,阴影不是一个实体,只是一个投影。 阴影的产生:是由于物体遮住了光线这一科学原理。光线在同种均匀介质中沿直线传播,不能穿过不透明物体而形成的较暗区域,形成的投影就是我们常说的影子。(这里说的光是可见光线)。产生阴影的条件:阴影形成要光和不透明物体两个必要条件。 影子分本影和半影两种:仔细观察电灯光下的影子,还会发现影子中部特别黑暗,四周稍浅。影子中部特别黑暗的部分叫本影,四周灰暗的部分叫半影。这些现象的产生都和光的直线传播有密切关系。假如把一个柱形茶叶筒放在桌上,旁边点燃一支蜡烛,茶叶筒就会投下清晰的影子 。如果在茶叶筒旁点燃两支蜡烛,就会形成两个相叠而不重合的影子。两影相叠部分完全没有光线射到,是全黑的,这就是本影;本影旁边只有一支蜡烛可照到的地 方,就是半明半暗的半影。物体在电灯光下能生成由本影和半影组成的影子,也是这个道理。电灯是由一条弯曲的灯丝在发光,不只限于一点。从这一个点射来的光给物体遮住了,从另一些点射过来的光并不一定全被挡住。很显然,发光物体的面积越大,本影就越小。如果我们在上述茶叶筒周围点上一圈蜡烛,这时本影完全消失,半影也淡得看不见了。 科学家根据上述原理制成了手术用的无影灯。它将发光强度很大的灯在灯盘上排列成圆形,合成一个大面积的光源。这样,就能从不同角度把光线照射到手术台上,既保证手术视野有足够的亮度,同时又不产生明显的本影,所以取名无影灯。2.2 常用色彩模型比较2.2.1 rgbrgb是三个颜色红red、绿green、蓝blue的缩写,rgb属于加性色系,因为这三个颜色混合相加可以得到青色,品红,黄色,白色和所有其他颜色在电视机、显示器上使用的所有颜色zhu, j., samuel, k.g.g., masood, s.z., tappen, m.f.: learning to recognize shadows in monochromatic natural imagesj. in: ieee conference on computer vision and pattern recognition, 2010.。图2-1为rgb颜色模型示意图,(a)加性颜色红色、绿色、蓝色可以混合出青色、紫红色、黄色和白色;(b)减性颜色青色、紫红色、黄色可以产生红色、绿色和蓝色,还有黑色。图2-1主颜色和次主颜色在1930年,cie(国际照明委员会),通过使用红(700.nm波长)、绿(546.1nm)、蓝(435.8nm)三个主颜色进行颜色匹配实验,标准化了rgb颜色表示。rgb(红绿蓝)是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采用rgb颜色空间,因为它的细节难以进行数字化的调整。它将 色调,亮度,饱和度三个量放在一起表示,很难分开。它是最通用的面向硬件的彩色模型。该模型主要用于彩色监视器和一大类彩色视频摄像。2.2.2 xyz由于混合负光相关问题的存在,cie开发了一个叫xyz的新颜色空间,该空间包含了正八分仪中的所有纯光谱颜色(y轴映射到关照强度,可感知的相对亮度,纯白色映射到等值对角向量)。rgb到xyz的变换公式为:当我们需要分离光照强度和色度时,最方便的颜色值表示方法是xyz(光照强度加两个最显著的色度组件)。2.2.3 l*a*b虽然xyz颜色空间有许多方便的属性,这包括分离光照强度和色度,但它事实上并没有很好地预测人类在光照和色度方面的感知差异。因为人类视觉系统响应大致是成对数形式的(我们能感知到的相对亮度差异大约为1%),cie定义了一个叫l*a*b的颜色空间非线性重映射xyz空间,这里光照强度和色度差异在感知上更加一致jean-francois lalonde, alexei a. efros, srinivasa g. narasimhan: detecting ground shadows in outdoor consumer photographsj. in: european conference on computer vision, 2010.。(一个叫l*u*v的可选的感知激励颜色空间在同一时间被开发和标准化。)l*光照组件被定义为:yn是归一化的白色光强值,并且:是立方根的有限斜率近似,=6/29。同样的方式,a*、b*组件定义为:本论文中阴影特征的提取正是基于不同的颜色空间,此处的关于颜色空间的简单介绍对后文阴影特征提取的深入理解能起到很好的铺垫作用。2.3 特征提取特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应 用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点jiejie zhu, kegan g.g. samuel, syed z. masood, marshall f. tappen: learning to recognize shadows in monochromatic naturalimagesj. in: international conferenceon pattern recognition, 2010.。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取 最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。 常见的特征定义有:边、角、颜色、纹理、形状等等。由于本文提取的阴影特征主要基于颜色和纹理,因此在这里我们主要介绍颜色和纹理特征。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性 质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特 征不能很好地捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色 特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。常用的颜色特征提取与匹配方法有:颜色直方图 、颜色集 、颜色矩、颜色聚合向量、颜色相关图bryan c. russell1 alexei a. efros, josef sivic1 william t. freeman andrew zisserman: segmenting scenes by matching image compositesj. in: neural informationprocessing systems, 2009.。 纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表 面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特 征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配 成功。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。但是,纹理特征也有其缺点,一个很明显的缺点是当图像的分辨率变化的 时候,所计算出来的纹理可能会有较大偏差。另外,由于有可能受到光照、反射情况的影响,从2-d图像中反映出来的纹理不一定是3-d物体表面真实的纹理elena salvador, andrea cavallaro, touradj ebrahimia: cast shadow segmentation using invariant color featuresj. in: computer vision and image understanding, 2004.。在检索具有粗细、疏密等方面较大差别的纹理图像时,利用纹理特征是一种有效的方法。但当纹理之间的粗细、疏密等易于分辨的信息之间相差不大的时候,通常的纹理特征很难准确地反映出人的视觉感觉不同的纹理之间的差别。 常用的纹理特征提取方法包括:统计方法、几何法、模型法、信号处理法。2.4 大规模数据聚类方法聚类算法将一系列数据聚团成多个子集或簇,其目标是建立类内紧密、类间分散的多个簇。换句话说,聚类的结果要求簇内的数据之间要尽可能的相似,而簇间的数据之间要尽可能不相似。聚类是无监督学习的一种最普遍的形式。无监督也意味着不存在对文档进行类别标注的人类专家。聚类中,数据的分布和组成结构决定最后的类别归属。聚类算法的一个关键输入是距离计算方法。在数据聚类当中,距离计算方法往往采用欧式距离。不同的距离计算方法会导致不同的聚类效果。因此,距离的计算方法是影响聚类结果的一个重要因素。扁平聚类算法会给出一个扁平结构的簇,他们之间没有任何显式的结构来表明彼此的关联性。而层次聚类算法则会产生层次性的聚类结果。了解硬聚类和软聚类之间的差别也相当重要。硬聚类计算的是一个硬分配过程,即每个数据仅仅属于一个簇。而软聚类算法的分配过程是软的,即一个数据的分配结果是在所有簇中的一个分配。在软分配结果中,一个数据可能对多个簇都具有隶属度。作为一种降维方法,隐性语义索引就是一个软聚类算法。本文将使用kmeansce liu, jenny yuen, antonio torralba: nonparametric scene parsing: label transfer via dense scene alignmentj. in: international conference on pattern recognition, 2009.聚类方法对提取出的阴影阴影特征进行粗略地分簇,下边简要介绍kmeans原理:kmeans算法接受输入量k,然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一个聚类中的对象高度相似,不同聚类中的对象相似度较少。聚类相似度是利用各聚类中对象的均值获得一个“中心对象”(引力中心)来计算的。kmeans算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心,对于剩下的所有对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给其最相似的(聚类中心所代表的)聚类,然后再计算每个新聚类的聚类中心(该聚类中所有对象的均值)。不断重复上述过程知道标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有一下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。kmeans+是对kmeans算法的一种改进,它不同于kmeans算法的地方是初始聚类中心的选择不是任意选择的,而是必须符合一定的关系,这样就使得聚类算法所得到的聚类结果相对于随机选择初始聚类中心来说更加合理。第三章 阴影检测算法研究3.1 图像中阴影的特点和性质阴影区域和其周边的非阴影区域具有如下特点:1、 由于光线被部分遮挡,阴影区域具有较低的亮度;2、 一般来说,阴影区域和非阴影区域具有不同的色度;3、 阴影不明显改变原有地表的纹理特征;4、 阴影与产生阴影的遮挡物具有相似的轮廓;在计算机视觉的相关应用中,阴影在数字图像中的存在,既有有利的方面又不利的影响。有利之处在于:1、 从阴影的形状可以得到遮挡物体的几何信息和场景的空间布局;2、 可以利用阴影来确定光源的位置、强弱和大小等信息;3、 在三维虚拟现实技术和计算机游戏中,加入物体模拟阴影,可以增强观察者的立体感和空间感,进而提高场景的真实感。不利之处在于:1、 阴影影响图像的可视性,例如在航空图片中,阴影区域的地物特征会由于阴影的噪声效应而边模糊,进而影响图像分析;2、 阴影的存在会降低图像分割的准确性,从而导致视频监控、目标追踪、物体识别、图像标注等计算机视觉应用出现错误。3.2 阴影检测算法流程图3-1算法流程图本算法主要分两大模块:离线数据库模块和在线判别模块。两大模块均包含特征提取。离线数据库模块对提取出阴影特征进行了特征提纯。在线判别模块利用数据库中的特征对输入图片中的每个特征计算支持度,这些支持度值进一步整合进crf模型得到连续完整的阴影轮廓。3.3 阴影特征提取阴影特征提出主要分两个步骤进行:图片过分割和特征计算。.2.1 图片过分割图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。近年来,研究人员不断改进原有的图像分割方法并把其它学科的一些新理论和新方法用于图像分割,提出了不少新的分割方法。本文使用的分割算法为经典的分水岭分割算法lalonde, j.f., efros, a.a., narasimhan, s.g.: illumination estimation from a single outdoor imagej. in: ieee international conference on computer vision, 2009.。 图3-2图片过分割效果分水岭算法的概念及原理:分水岭分割方法,是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭。分水岭的概念和形成可以通过模拟浸水过程来说明。在每一个局部极小值表面,刺穿一个小孔,然后把整个模型慢慢浸入水中,随着浸水的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭。分水岭的计算过程是一个迭代标注过程。分水岭比较经典的计算方法是l. vincent提出的。在该算法中,分水岭计算分两个步骤,一个是排序过程,一个是淹没过程。首先对每个像素的灰度级进行从低到高排序,然后在从低到高实现淹没过程中,对每一个局部极小值在h阶高度的影响域采用先进先出(fifo)结构进行判断及标注。分水岭变换得到的是输入图像的集水盆图像,集水盆之间的边界点,即为分水岭。显然,分水岭表示的是输入图像极大值点。因此,为得到图像的边缘信息,通常把梯度图像作为输入图像,即:gx,y=gradfx,y= fx,y-fx-1,y2fx,y-fx,y-120.5式中,f(x,y)表示原始图像,grad.表示梯度运算。分水岭算法对微弱边缘具有良好的响应,图像中的噪声、物体表面细微的灰度变化,都会产生过度分割的现象。但同时应当看出,分水岭算法对微弱边缘具有良好的响应,是得到封闭连续边缘的保证的。另外,分水岭算法所得到的封闭的集水盆,为分析图像的区域特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论