图像感兴趣区域提取技术研究---毕业论文_第1页
图像感兴趣区域提取技术研究---毕业论文_第2页
图像感兴趣区域提取技术研究---毕业论文_第3页
图像感兴趣区域提取技术研究---毕业论文_第4页
图像感兴趣区域提取技术研究---毕业论文_第5页
免费预览已结束,剩余25页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本 科 毕 业 论 文图像感兴趣区域提取技术研究显著度图的生成算法Region Of Interest Extraction ResearchSaliency Map Algrithm姓 名:学 院:软件学院系:软件工程专 业:软件工程年 级:学 号:校内指导教师: 年 月摘 要随着科学技术的发展,人类的信息载体也越来越多样化,图像作为重要的信息载体,一方面对于信息传递给我们带来了很大的方便,但另一方面其与日俱增的庞大的数据量,给图像的人工分析带来了很大的困难,所以人们想到使用计算机自动处理图像信息。在该领域的研究中,研究者们发现,图像的观察者只对图像的某一部分感兴趣,如在观察人时,我们可能只对他的脸部感兴趣,在医学中,医生只对病变部位感兴趣等。ROI(Region of Interest,感兴趣区域)检测技术因此应运而生。感兴趣区域即图像中最能引起用户兴趣,最能表现图像内容的区域,如能提取出这些区域将会大大提高图像处理和分析的效率和准确度。如今ROI提取技术已经在许多领域得到了应用,如JPEG2000压缩编码、机器视觉中目标区域定位与识别、视频信息中字幕及标识的自动提取与识别、智能交通系统中车牌区域的自动提取与识别、医学图像分析等。ROI检测技术在图像分析与处理领域中起着越来越重要的作用。本论文的研究重点是如何根据输入的图像生成显著度图(Saliency Map)。显著度图是指所有像素的显著值(Saliency,像素在颜色、亮度、方向等方面与背景的对比度)所构成的图。本论文首先对ROI的提取方法进行了详细介绍,包括基于用户交互的提取方法、基于变换的提取方法以及基于视觉注意的提取方法。然后按照基于视觉的提取方法介绍了如何提取视觉特征、如何利用视觉特征生成显著度图以及如何利用显著度图生成最终的感兴趣区域。接着详细介绍了一个提取感兴趣区域的例子。实验结果证明,该方法能够快速有效地得到图像特征和图像中的感兴趣物体,取得良好的检索效果。最后对ROI检测技术的应用前景进行了展望。关键字:感兴趣区域;ROI;图像检索AbstractWith the development of science and technology, information carriers are increasingly diversified. As an important carrier, the image information has brought us great convenience with the transmission of information, but on the other hand, the ever-growing large amount of data has also brought great difficulties to the manual analysis of images, so using a computer image processing of information is put into use. Researchers have found that image observers are only interested in a certain part of image , for example, we may only pay attention to the face while observing a person, and it is similar that doctors are only interested in lesions. ROI detection technique therefore came into being. ROI is the region of the image that people will be most interested in and it can most represent image content. If it can be extracted, efficiency and accuracy of the image processing and analysis will be greatly improved. Today, techology of ROI extraction has been applied in many areas. For example, JPEG2000 compression decoding, location and recognition of the target region in machine vision, automatic extraction and recognition of subtitles and marks in video information, automatic extraction and recognition of the license plate in Intelligent Transport System, analysis of medical images, etc. ROI detection plays an increasingly important role in the field of image analysis and processing.This paper focus on how to generate saliency map from an input image.Saliency map is composed of all saliencies(contrast to background in color, brightness, direction,etc.) of the pixels. This paper first introducts methods of extraction of ROI in detail, including the method based on user interaction, method based on transform and method based on visual attention. Then it introducts how to extract visual features, how to generate saliency map using visual features and how to generate ROI using saliency map. And then it gives an example. The experimental results show that this method can be quickly and efficiently extract image features and objects in which people are interested to obtain good retrieval results. Finally, it makes prospect of the ROI technology.Key words: region of interest; ROI; image retrieval目录第1章 引言.1第2章 感兴趣区域ROI提取的方法.32.1 概述.32.2 基于用户交互的提取方法.32.3 基于变换的提取方法.42.3.1 基于拐点的方法.4 2.3.2 基于灰度变化的方法.52.4 基于视觉注意的提取方法.7 2.4.1 自底向上的注意模型.8 2.4.2 自顶向下的注意模型.9第3章 显著度图的生成.103.1 提取视觉特征.113.1.1 生成高斯金字塔.113.1.2 提取特征.133.2 根据视觉特征生成显著度图.15 3.2.1 消除噪声.15 3.2.2 综合所有特征.17第4章 根据显著度图提取感兴趣区域.184.1 注视点聚类的方法.184.2 区域生长法.18第5章 ROI检测技术应用前景展望.21致谢.22参考文献.23ContentsChapter1 Introduction.1Chapter2 Extraction of region of interest.32.1 Introduction.32.2 Method based on user interaction.32.3 Method based on transform.42.3.1 Method based on inflexion.42.3.2 Method based on gray-scale changes.52.4 Method based of visual attention.72.4.1 Bottom-up attention model.82.4.2 Top-down attention model.9Chapter3 Generation of significant map.103.1 Extraction of visual features.113.1.1 Generate Gauss-Pyramid.11 3.1.2 Extract features.133.2 Generate significant map according to visual features.153.2.1 Eliminate noise.15 3.2.2 Integrate all features.17Chapter4 Extraction of ROI according to significant map.184.1 Clustering gaze.184.2 Region growth.18Chapter5 ROI detection techology outlook.21Acknowledgements.22References.23图像感兴趣区域提取技术研究第1章 引言随着信息化社会的发展,各种通信技术、多媒体技术越来越多地融入到人们的生活中,人们也越来越多地要接触到图像信息。用图像来表达信息具有简明扼要的特点,一幅好的图片所表达的信息量可以与一段文字相媲美,却大大节省了人们阅读和理解所花费的时间,所以每天都会有大量的图像信息不断产生。据估算,进入21世纪之后,全世界每年新产生的图片将达到800亿幅以上,并且这个数字还在以惊人的速度增长。随之而来的便是“信息爆炸”的问题。 随着互联网技术的迅猛发展,信息的交换速度越来越快,包括图像在内的信息交换量也越来越大。如何用最少的交换容量来表达最大的图像信息就成为了图像处理技术中的一个重要课题。这就涉及了图像数据压缩的方法。针对静态图像,专家提出了JPEG和JPEG2000等图像压缩标准,在基本保证图像质量的情况下,使用JPEG编码可以达到10-40倍的压缩效果,而使用JPEG2000编码甚至可以达到上百倍的压缩效果。针对动态视频,同样有MPEG-1、MPEG-2、MPEG-4和MPEG-7等压缩标准。但是这些压缩编码标准都只是从纯粹的数学算法角度对图像信息进行压缩,而事实上图像处理是以人为最终归宿的,图像的质量也是与人眼的视觉相匹配的。所以如何结合人眼的视觉对图像数据进行压缩处理就成为了一个新的课题。根据科学家对人眼视觉模型的研究,当观察者在观察一幅图片时,往往会首先将感兴趣的对象从整幅图像的背景中剥离出来,然后将更多的对包含该对象的区域进行集中观察。例如在一幅人像照片中,往往前景(即人物)更容易引起关注,而背景则成为衬托,包含相对较少的信息。由此便引出了一个“感兴趣区域”(Region of Interest)的概念。感兴趣区域是图像中最能引起观察者兴趣、最能表现图像内容的区域,它含有的信息量最大,用这些区域就足以描述整幅图像的内容。基于感兴趣区域的图像表示方法是用部分来概括整体,突出了图像的主要部分,从而消除了次要部分对观察者带来的干扰。对于一幅静态图像,如果能够实现自动提取图像的感兴趣区域,并在此基础上结合各种编码标准实现的图像压缩无疑会是效率最高的,而且可以保留原图像的绝大部分有用信息,更符合人眼的视觉特性和实际的视觉需要。事实上在JPEG2000标准中已经使用了感兴趣区域的方法,对标注为感兴趣区域的部分进行压缩,从而达到高压缩比与图像质量之间的一个平衡。此外,感兴趣区域提取技术还适用于在小屏幕上观察图片。随着无线移动技术的日益发展,手机承担起了越来越多的商务功能,会有更多的图片显示的任务从PC转移到手机上。而手机的屏幕相对较小,利用感兴趣区域提取技术,可以从一幅分辨率较高的图片中提取出面积较小的一部分,这样既不会降低用户所见图片的清晰度,又涵盖了图片中的大部分信息,保证了用户对图像信息的理解。由此可以看出,对自动提取图像感兴趣区域的研究,对于图像数据压缩、显示以及其它大规模图像处理工作具有重要的理论和实践意义。第2章 感兴趣区域ROI提取的方法本章描述如何提取图像的感兴趣区域。感兴趣区域是图像中最能引起用户兴趣、最能表现图像内容的区域。区域是图像底层物理特征与高层语义特征之间的中层描述,它在低层特征的基础上对图像进行更深一步的处理。在分割的区域层次上再进行分析和理解就有可能获取图像的某些语义特征。区域分割方法是最常采用的提取区域的方法,在一定程度上描述了图像的语义特征。但是区域分割只是一个集合划分过程,它不能有效地减少图像的冗余信息。感兴趣区域是图像的部分区域,并不构成一个划分。但是感兴趣区域是图像中最能体现内容的部分,含有的信息量大,所以用这些区域足以描述图像的内容。基于感兴趣区域的图像表示方法是用部分概括整体,减少了冗余信息。更重要的是,它区分了图像各部分的重要程度突出了图像的主要内容,从而消除了次要内容带来的干扰。同时,基于感兴趣区域的图像内容表示方法回避了图像的精确分割的困难。2.1 概述基于感兴趣区域的图像检索技术是一种新兴的有效的图像检索技术,它很好地体现了图像的语义特征。基于感兴趣区域的图像检索技术分为如下几步:(1)感兴趣区域的检测与提取;(2)感兴趣区域的特征描述;(3)图像间相似度计算。其中,感兴趣区域的检测与提取是核心问题。感兴趣区域的提取是基于用户感兴趣区域的图像检索技术的一个核心内容,根据感兴趣区域的提取方法不同,现有的基于感兴趣区域的检索方法分为三大类:(1)基于交互的方法;(2)基于变换的方法以及刚刚出现的;(3)基于视觉特征的方法。2.2 基于用户交互的提取方法在理想的情况下提取图像中的感兴趣区域应该以用户的评价为标准,选择用户感兴趣的区域作为图像的感兴趣区域。而且用户是图像的最终使用者,不同的用户有不同的背景和要求。所以最省事、最灵活的方法是把感兴趣区域的定义交给用户来完成。通过人机交互由用户选择图像中的若干区域作为感兴趣区域。这样的方法以用户为中心,能充分发挥用户在检索过程中的作用,准确捕获用户检索意图,有简单高效的优点。这种方法适合于卫星遥感图像,医学图像等内容比较单一的图像库中。在一定程度上基于用户交互的感兴趣区域选取获得了成功。但是,这种方法中区域搜索和特征提取需要实时完成,所以检索速度较慢。最好的方法是能让系统自动地完成感兴趣区域的提取和索引,并有较高的速度,所以感兴趣区域的自动提取方法成为研究的重点。2.3 基于变换的提取方法基于变换的方法主要有:(1)基于拐点的方法;(2)基于灰度变化的方法。2.3.1 基于拐点的方法有的研究者认为,拐角点是图像的重要部分。因为拐角点能够很好的概括图像中物体的轮廓。Schmid等用拐点检测器提取拐点作为感兴趣点,并应用于图像检索。他们对不同的拐点检测器做了评价,发现用Harris拐点检测器提取感兴趣点效果最好。Harris拐点检测器是对Moravec拐点检测器的一种改进。Moravec拐点检测器是由H.P.Moravec提出的,其基本思想是通过图像局部的灰度变化量来判断拐点。Moravec采用一个方形移动窗口内图像灰度的变化量来衡量图像的局部灰度变化:Ew (x,y) = wu,v|Ix+u,y+v - Iu,v|2.(2-1)其中是输入图像,是移动窗口,是窗口的移动量。如果图像某个区域的灰度几乎不变,窗口在这个区域内移动时变化量E很小。在边缘附近,如果窗口垂直于边缘移动无论哪个方向上E都很大。Harris和Stephens对上述方法做了改进。首先相对于移动量,对做泰勒展开:Ew(x,y)= (2-2)Ew(x,y) =Ax2+2Cxy+By2.(2-3)其中A = ,B = ,C = ,是卷积算子。然后他们用圆形的高斯窗口代替原来的方形窗口:.(2-4)是相对于窗口中心的坐标。这样,变化量可以写成:, . (2-5)对称矩阵的两个特征值可以反映图像灰度的变化。在边缘附近,其中一个特征值较大而另一个较小。在拐点处,两个特征值都比较大。根据这两个特征值定义一个对旋转不变的响应函数:. (2-6)选取较大的点作为拐点。拐点检测器最初是在形状识别问题中提出来的,当应用于自然图像时拐点检测器有一定的局限性。这是因为拐点检测器依赖于图像的几何信息,根据这个特定的假设,虽然可以利用图像的局部几何信息从而较好地描述图像的形状特征,但也受到很大的限制。由于拐点集中在纹理区域,所以用拐点检测器提取的感兴趣点集中分布于纹理区域,而在纹理少的区域分布得很稀疏。这种疏密过于不均的分布不利于完整地描述图像各部分的内容。比如在照片等自然图像中,很多区域并没有规则的纹理,因此拐点检测器不能提取这些区域的信息。2.3.2 基于灰度变化的方法Sebe等人认为图像中灰度变化大的地方是图像的重要部分。拐点之所以重要是因为在拐点处有两个边缘,图像的灰度垂直于边缘的两个方向上变化都较大。在图像中,除了拐点,很多平滑的边缘也表现了图像的重要内容。所以,为了克服拐点检测器的缺点,他们使用非标准的边缘也表现了图像的重要内容。所以,为了克服拐点检测器的缺点,他们使用非标准的Haar小波和Daubechies小波变换选取小波系数大(绝对值)的点作为感兴趣点,称这些点为显著点。小波系数反映了图像在不同尺度上的变化。大尺度下小波系数的绝对值大表明对应的图像区域有较大的灰度变化。由于使用了紧支撑正交小波,所以可以消除数据的冗余,而且小波系数保留了图像的空间位置信息,所以可以追根溯源,在小尺度下找到引起灰度变化的那些像素点。用不同尺度的小波函数对图像进行变换后得到不同尺度的细节图像,。在尺度上的一个系数,对应尺度上的个孩子系数记为:(2-7)其中是小波的正则度,是图像的宽度。显然系数和它的孩子系数都是从图像中相同的个像素中计算出来的。表示了这个像素构成的区域在尺度上的灰度变化,而它的孩子系数代表了这个像素的不同子集在尺度上的变化量。最显著的子集就对应与尺度上这个系数的最大值(绝对值)。由于这个最大值对灰度变化的贡献最大,可以认为该最大值是这个像素构成的区域的显著性的起源。这样逐级搜索下去。直到找到最小尺度下的一个系数。这个系数对应输入图像中的个点。选取这个点中具有最大灰度的点作为感兴趣点。定义该感兴趣点的显著值为:, .(2-8)其中表示函数的迭代次数。对每个小波系数都进行一次搜索,得到相应点的显著值。由于搜索过程对各尺度的系数都进行了一次,所以从不同尺度开始的路径会有重叠,从大尺度的系数开始的路径可能是小尺度的系数对应的路径的一部分。在大尺度下有较大小波系数的点有较大的显著值,它们首先被提取出来(它们对应较大的全局灰度变化),这是因为它们的显著值有一部分得益于大尺度下的小波系数。通过设定一个阈值,也可以把具有较小灰度变化的点提取出来,这些点具有较小的显著值。这样提取的感兴趣点是图像中灰度变化较大的点,不会集中在纹理区域,能比较完整地表示图像的内容。基于变换的方法提取出的感兴趣区域和人的观察结果有一定的差距。这是因为它们只利用了图像的灰度信息。这和人对图像认知方式不同,人观察图像的过程是一个多特征融合的过程,选取的注视点是在颜色、纹理、形状等多个方面容易引起注意的区域。因此,感兴趣区域应该考虑多种特征对人注意的影响。认知心理学发展了一些视觉注意的数学模型,可以较好地模拟人观察图像时注视点的选取过程。2.4 基于视觉注意的提取方法视觉注意(Visual attention)是人类视觉(Human vision)研究领域的重要课题,通俗地讲,视觉注意就是研究人在观看图像时,到底对什么更加注意。从本质上讲,视觉注意是属于神经生物学范畴的概念,它意味着人具有精神或观察能量能够集中的技能。从事视觉注意机制研究的学者大多是心理学家或生物神经学家。因此,图像处理和计算机视觉领域并没有对此产生很大的研究兴趣,但是近几年来,已经有一些学者将注意机制的一些方法应用到图像处理应用中,比如,国内的斯白露,韩军伟等。研究视觉注意机制的一个重要实验被称为眼动实验(Eye movement),即:通过大量实验样本(人)在观察图像时眼睛的转动频率和视点位置的移动归纳出若干能够影响视觉注意的低层因素和高层因素。目前,总结出来的低层视觉特征有:(1) 对比度(Contrast):人往往会更加关注图像中颜色或亮度反差较大的地方;(2) 尺寸(Size):尺寸大的物体更能吸引人的注意;(3) 形状(Shape):细长条的物体更能引起人的注意;(4) 颜色(Color):人类视觉对某些颜色较为敏感如红色;(5) 运动(Motion):运动的区域能够强烈的吸引人的注意。影响视觉注意的高层因素包括:(1) 位置(Location):人往往对位于图像中心的区域更加关注;(2) 前景和背景(Foreground & Background):人们往往更关心图像中的前景区域;(3) 人(People)图像中的人或者人脸手等都更加吸引观察者的注意;(4) 观察者自身的素质(Context):观察者自身的职业受教育情况、性别等都会影响他们注意机制。实验表明,人在观看图画时,大部分注视点都集中在被评为信息量大的区域上,如观看人脸时注视点相对集中在眼睛和嘴角上。Yarbus认为,人的眼睛和嘴是脸部表情功能的部位,信息量大,所以被注视的次数较多。Noton和Star让被试观察图像并记录他们的眼动轨迹,他们发现,第一次注视一幅图像与过一段时间再看这幅图像时眼睛的观察顺序大致相同。眼睛按一个固定的路线间歇地、重复地去扫描,从而形成了一个系列扫描路线。由于人的图像认知过程存在着这些共性, 认知心理学家提出了许多视觉注意的数学模型来模拟人的注视点的转换过程。这些模型主要可以分为两大类:自底向上的(Bottom Up)和自顶向下的(Top Down)模型。2.4.1 自底向上的注意模型自底向上的注意模型是以数据驱动为前提的,不考虑特定的认知任务对注意和眼动的影响,这是因为有些刺激在环境的衬托下、或者这些刺激本身就是非常显著的(如万绿丛中一点红),能容易地吸引人的注意力。这种显著性很大程度上是和观察者的任务无关的,并且以一种快速的、数据驱动的方式起作用。自底向上的注意模型对这种显著性(Saliency)进行建模,选出显著值大的点做为注视点。这些方法大都采用适当的滤波器对场景的不同特征(如纹理颜色方向运动等) 进行滤波,把特征的响应作为显著值。比较具有代表性的自底向上的注意模型有Itti等提出的显著图(Saliency Map)模型,和Rao等提出的图标表示模型(Iconic Representation)。Itti等提出的显著图是一幅表明图像各点的显著性的二维图像,显著图中的点和输入图像的像素有拓扑上的对应关系。他们认为不同视觉特征( 如颜色方向等) 对显著性有不同的贡献,但它们之间没有相互作用。对于视觉注意来说重要的是特征的对比,而不是特征的局部的绝对值。他们使用不同尺度的高斯差函数对图像的不同特征滤波,把得到的各个特征的响应求和,作为图像中该点的显著值。然后用动态神经网络选取显著值最大的点作为注视点。Rao等人把高斯微分函数作为滤波器对图像的点在m个方向k个尺度上进行滤波,滤波的响应构成一个mk维的特征向量。他们把这个特征向量称为像素点的图标表示。这是因为这个向量比较完全地概括了像素点的特征,提供了足够的描述力来区分图像中不同的点,所以可以基于这个向量选取注视点。这个向量的另外一个优点是计算速度快,对输入图像的平移、旋转等变换具有不变性。他们把这种图标表示应用于主动视觉中物体的定位和识别(选取注视点),然后确定该物体是物体库中的哪一个他们的方法适合于在场景中识别固定种类的物体。2.4.2 自顶向下的注意模型自顶向下的观点认为眼睛运动的模式取决于不同的特定任务,所以这种方法考虑了先验知识对注视点的影响。Dimitri等人提出了一种自顶向下的注意模型,由于涉及到先验知识,这个模型需要学习和训练。从分好类的图像集(如“户内”、“海滨”等)中选取一部分作为训练样本,先对训练图像进行图像分割,然后计算分割出来的物体在每类图像中出现的概率。在识别阶段,然后就可以结合先验概率采用逐步求精的方式对图像中的物体进行识别:首先根据输入图像的分割结果,利用贝叶斯公式得到对场景最有可能的解释(属于哪一类,有哪些物体),然后寻找新的可以区分这些不同解释的物体,直到某个解释的概率值超过某个阈值,则认为这个假设成立,图像属于这一类。这种搜寻过程较好地模拟了眼睛注视点的转换。由于自顶向下的注意模型需要根据图像的类别对模型进行训练,所以还需要图像分类和图像分割技术的配合。我们的应用目标是通用图像库的检索,图像的类别较多,为每一类都进行训练工作量很大,而且不利于扩展新类别。第3章 显著度图的生成显著图方法理论依据是视觉系统中感受野,侧抑制网络的信息处理方式。感受野是指视网膜上的一定区域或范围,当它们受到刺激时能激活神经细胞的活动。通过实验发现感受野使视神经细胞对信号对比度的敏感程度要大于对信号强弱的敏感程度。并且感受野具有钩边效应能够敏锐地监测边缘。视觉系统的外膝体细胞和初级视皮层中狭长的感受野使得皮层细胞对刺激的方向敏感。侧抑制是视网膜神经细胞之间存在的一种竞争现象,当临近的两个视神经感受器同时受到光照时,其中每个感受器单元的脉总目发放频率都要比它们单独受到刺激时的发放频率低。显著度图很好地用数学模型模拟了视神经系统这种信息处理方式。显著图方法的基本思想是把像素在亮度、颜色和方向等方面与背景的对比定义为该点的显著值(Saliency),所有点的显著值构成一张显著图(Saliency Map)。显著值的大小表示各点吸引注意的强弱程序。 显著图的生成分为如下2步:(1)视觉特征的提取。把图像分解为多种视觉特征(亮度、颜色和方向等),各种特征和它邻域内的点以中心-外周拮抗的方式作差,表示特征在背景中的对比。对比越强,该点的显著性就越大。为了消除领域大小对对比值的影响,对比在多个尺度上进行,生成多尺度的特征图。多尺度的表示方式是通过高斯金字塔方式实现的。生成的特征图和输入图像之间保持拓扑对应关系。(2)显著图生成。为了从数量上表示图像各点对注意的吸引程度,把特征图叠加形成一个显著图。显著图和输入图像之间保持拓扑对应关系,显著值越大的点就越容易吸引人的注意。这样就可以根据显著值的空间分布选择注视点。特征叠加时面临两个问题。特征之间的比较问题,以及信噪比问题。由于特征图表示的是不同的视觉特征,它们之间有很大的独立性,无法直接比较,如10的方向差别5%的亮度对比之间的比较。所以需要把特征图的取值归一化到相同的范围,这样可以消除不同形态的特征之间的幅值差别。叠加多个特征图时面临一个信噪比问题。一个特征图只针对一种特征进行调制,所以图像中显著的物体通常只在少量的几个特征图中有较大的响应(信号)。而干扰物体的特征往往会分别在许多其他特征图中激起很强的响应(噪音)。这样特征图的直接叠加会导致显著物体的显著值被干扰物体的显著值所削弱,甚至完全被淹没。这种情况可以用高斯差函数来解决,在特征图上用高斯差函数反复做卷积,卷积的迭代过程可以抑制特征图中过多的同种特征的显著点,增强少数几个显著值较大的点,使竞争的胜者比较均匀地分布在特征图上。这样在叠加多个特征图时会把同时有多种显著特征的点突现出来。得到代表图像各点显著性的显著图。3.1 提取视觉特征3.1.1 生成高斯金字塔根据早期视觉中视皮层所提取的特征把输入图像分解为亮度、颜色和方向等一系通道。为了表示图像中不同大小的物体特征提取在不同的尺度上进行。先把输入图像表示为9层的高斯金字塔其中0层是输入图像。第0层到 8 层分别是用55的高斯滤波器对输入图像进行滤波和采样形成的大小为输入图像的1/2 到1/256。第层图像高和宽都是第0层高和宽的一半,以此类推,高层图像是前一层图像面积的1/4。高斯函数使用55的正方形方法进行模糊。每个像素的值,是周围正方形各个像素值的加权平均值。图3-1:坐标分布如图3-1所示,进行高斯模糊时,将对每个像素求加权平均值。当前像素的坐标为(0, 0),正方形中各个像素各自有一个坐标。将这些坐标代入高斯函数:Value = ,.(3-1)可以求得每个像素的一个值。离(0,0)的位置越远,这个值就越小。接下来把这些值的总和归一化为1,再求每个位置的百分比,就得到每个位置的权值。把权值乘以对应位置像素的值,然后全部加起来,就得到(0,0)位置像素的值。这个过程应用于图像中的每个像素,就可以得到高斯模糊的结果。第1层是第0层经高斯模糊然后高和宽各取一半得到的。同理,第2层是第1层经第1层是第0层经高斯模糊,然后高和宽各取一半得到的。以此类推,就得到高斯9层金字塔。图3-2是实验结果:图3-2:高斯金字塔3.1.2 提取特征接下来对金字塔的每一层提取各种视觉特征:亮度、红色、蓝色、黄色、绿色和方向,分别形成亮度金字塔、色度金字塔和方向金字塔。.(3-2).(3-3).(3-4).(3-5).(3-6).(3-7)公式(3-2)是亮度金字塔,(3-3)是红色金字塔,(3-4)是绿色金字塔,(3-5)是蓝色金字塔,(3-6)是黄色金字塔,(3-7)是方向金字塔。每一层的特征图跟原来的图大小一样。特征图表示了图像中每个像素的特征值。例如亮度,黑色(RGB=(0,0,0)亮度最低,白色(RGB=(255,255,255)亮度最高。亮度图也是灰度图,因为每个像素的R、G、B值都是一样的。方法是把每个像素的RGB值相加除以3,替换原来的RGB值即可。图3-3是本论文生成的亮度图金字塔:图3-3:特征图举例吸引视觉注意的是特征的对比而不是特征的绝对值。因此下一步将在特征金字塔的不同尺度间作差。本论文叙述的方法将在1-4、2-5、3-6、1-5、2-6、3-7层的特征金字塔间作差。由于不同尺度的特征图大小不同,在作差时需要把大尺度下的特征图插值,得到和小尺度下的特征图一样大小的图像。然后逐个像素作差。例如第4层特征图的高是第1层特征图高的1/8,因此,和作差时将在中每隔8个像素取一个值与4作差,最后得到与4大小相同的图像。由于像素的RGB值只能在0到255之间,作差以后将取绝对值,如果大于255则取255。这样经过这一步之后根据亮度金字塔可以得到6张特征图,宽高分别是原图的1/16、1/32、1/32、1/64、1/64、1/128,如图3-4所示:图3-4:不同尺度做差结果3.2 根据视觉特征生成显著度图3.2.1 消除噪声接下来生成显著图。显著图的作用是用标量描述图像各点对注意的吸引程度,这样注视点的选择就转换成在显著图中选取最大值的问题。为了消除干扰噪声,突出显著物体,对每个特征图分别用二维高斯差函数进行卷积运算,并把卷积结果叠加回原特征图,使同种特征以侧抑制的方式在空间上竞争。这个过程可以描述为:(3-8) (3-9)其中(3-9)式是高斯差函数,、和、表示特征在空间上的相互兴奋和抑制作用,可通过实验调节。如和分别取0.5和1.5。和分别取特征图宽度的2%和25%。*是卷积算子,是常数抑制项取0.02。算子对负数取零卷积和迭代过程进行多次(如10次),这样当特征图中存在很多个显著点时,就会通过这种局部竞争使它们都得到不同程度的抑制,从而使少数几个最显著的点均匀地分布在整个特征图上。当特征图中只有较少的几个显著点时,卷积和迭代会增强这些点的显著值。这种竞争的结果使每个特征图只保留少数的几个显著点,从而在叠加多个特征图时能把同时有多种显著特征的点突现出来。由于高斯差函数较好地描述了神经元之间长程抑制、短程增强的关系,所以上述卷积运算模拟了同种特征内部在局部空间上的竞争。这种竞争的结果是少数几个均匀分布的胜者,而其余具有较大初始值的区域由于距离较近而相互抑制得到削弱,从而有利于快速地选择最显著的点。与高斯函数一样,高斯差函数是将周围55的像素的坐标值代入高斯差函数求值。然后将这些值归一化到1使这些值变成百分比。这样每个像素都得到一个百分比。然后用这个百分比乘以每个像素的值,加到原来的像素值,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论