基于内容的图像检索综述-毕业论文_第1页
基于内容的图像检索综述-毕业论文_第2页
基于内容的图像检索综述-毕业论文_第3页
基于内容的图像检索综述-毕业论文_第4页
基于内容的图像检索综述-毕业论文_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学本科毕业论文本科毕业论文(科研训练、毕业设计)题 目:基于内容的图像检索综述姓 名:学 院:软件学院系:软件工程专 业:软件工程年 级: 学 号:指导教师(校内): 职称: 年 月 日摘 要随着多媒体、网络技术的飞速发展,图像应用的日益广泛,基于内容的图像检索CBIR(Content Based Image Retrieval)成为当前多媒体信息检索研究的热点之一。它是指直接采用图像内容进行图像信息的检索主要思想是根据图像所包含的颜色、纹理、形状以及对象的空间关系等低层图像特征和语义等高层特征来分析图像信息,建立图像的特征向量作为其索引,检索的方法目前主要是根据图像的多维特征矢量进行相似查询。提取哪些特征,如何提取特征以进行高效、准确的检索是基于内容的图像检索技术中的核心问题。本文在广泛查阅国内外有关基于内容的图像检索技术文献资料的基础上,首先回顾了基于内容图像检索技术的理论及其应用研究的整个发展过程,全面综述了在图像检索,详细分析图像的内容特征。尤其是基于内容的图像检索领域的技术和现状。以基于颜色特征的图像检索实例系统为基础,研究颜色空间内,直方图对图像的描述。以颜色直方图为特征,引入欧氏距离的相似性度量方法实现基于内容的图像检索。最后探讨了基于内容的图像检索系统存在的问题以及今后研究的方向。关键词:图像数据库;图像检索;特征提取;相关反馈AbstractWith the development of the multimedia network technology, the application of the image is extensive, the rapid increase of image application, Content-based Image Retrieval (CBIR) becomes most active one in multimedia retrieval field. In order to analysis the information included in an image, the CBIR system always analyses the color, texture, shape, and other low-layer image features, to establish retrieval vectors as retrieval index. In present time, the main CBIR method is similarity retrieval based on multi-dimension feature vector of image. Extracting features from image is the key issues in CBIR.In this paper, on the base of widely referring to the material about Content-Based Image Retrieval of home and abroad, the whole evolution of the theory on the Content-Based Image Retrieval technique and application study are reviewed at first, then the technology of Content-Based Image Retrieval and current situation are explained in an all-round way. The histogram of the image description in the color space is researched, based on the color characteristics of the image retrieval instance systems. In addition the Euclidean distance similarity metric method of content-based image retrieval by Color histogram feature is introduced. At last the problem in the CBIR system and the direction of study are probed.Key words: Image database, Image Retrieval, Feature Extraction, Relevance Feedback目录 第一章 引言1第二章 图像检索技术的发展22.1 传统的基于文本的图像检索技术22.2 基于知识和视觉特征的图像管理32.3 基于内容的图像检索技术3第三章 基于内容的图像检索技术研究63.1 基于内容的图像检索基本原理63.2 基于内容的图像检索系统63.3 图像的内容特征83.3.1 基于颜色特征的图像检索93.3.2 基于形状特征的图像检索113.3.3 基于纹理特征的图像检索123.4 基于三种特征检索存在的问题14第四章 基于内容的图像检索技术的研究现状164.1 著名的图像检索系统介绍164.2 图像检索系统的性能指标和评价准则184.2.1 图像检索系统的性能指标184.2.2 图像检索系统的评价准则194.3 图像检索系统的应用204.3.1 图像检索系统的应用类型204.3.2 图像检索系统的应用领域21第五章 基于内容的图像检索技术应用实例225.1 图像检索系统的实现225.1.1 颜色空间内特征提取225.1.2图像匹配235.1.3 特征索引235.1.4用户反馈245.2 颜色空间内特征提取255.3 特征匹配过程29第六章 基于内容的图像检索技术存在的问题及技术展望306.1 基于内容的图像检索技术存在的问题306.2 基于内容的图像检索技术展望31第七章 结束语32致谢33参考文献3445ContentsChapter 1 Introduction1Chapter 2 The Development of Image Retrieval22.1 Traditional Technology of Image Retrieval Based on Text22.2 Image Management Based on Knowledge and Vision Character32.3 Technology of Image Retrieval Based on Content3Chapter 3 Researching Image Retrieval Based on Content63.1 Basic Theory of Image Retrieval Based on Content63.2 Image Retrieval System Based on Content63.3 Content Character of Image83.3.1 Image Retrieval Based on Color Character93.3.2 Image Retrieval Based on Shape Character113.3.3 Image Retrieval Based on Texture Character123.4 Problems of Retrievals Based on Three Kinds of Characters14Chapter 4 Researching State of Image Retrieval Based on Context164.1 introduction of famous Image Retrieval system164.2 Evaluation and Principle of Image Retrieval System184.2.1 Evaluation of Image Retrieval System184.2.1 Principle of Image Retrieval System194.3 Application of Image Retrieval System204.3.1 Application Type of Image Retrieval System204.3.2 Application Field of Image Retrieval System21Chapter 5 The Application Example of Image Retrieval Based on Content225.1 Designing of Image Retrieval System225.1.1 Abstract Character in Color Space225.1.2The Matching of Image235.1.3 The Index of Charater235.1.4 The Client of Feedback245.2 Abstract Character in Color Space255.3 The Process of Charater Matching29Chapter 6 Problems and Prospect of Image Retrieval Based on Content306.1 Problems of Technology of Image Retrieval Based on Content306.2 Prospect of Technology of Image Retrieval Based on Content31Chapter 7 Summary32Acknowledgement33References34第一章 引言随着多媒体、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题。图像所含的信息量很大,俗语一图值千字就说明了这个事实,但是由于图像信息数据量大,抽象程度低,因此信息膨胀带来的问题很严重。传统的图像检索基于文本方式,使用关键字或自由文本描述图像数据库种的每幅图像,采用文本匹配检索。但目前计算机视觉技术还不成熟,达不到对图像的描述性关键字和语义信息的自动提取,而人工提取一方面对图像的注解所需工作量太大,且图像注解带有的主观性和不精确性可能导致检索的失败;另一方面,图像的某些可视信息,例如:纹理,形状等,很难用文本描述。所以,灵活、高效、准确的图像检索策略是解决这些问题的关键技术之一。进入90 年代,随着信息处理技术日益发展和深化,相应标准的出台为图像信息的加工、处理和检索提供了条件。另外随着信息需求的不断增加和日益迫切,原有的图像检索系统已远远不能满足要求,由手工进行图像注解这一方法所带来的困难也变得十分尖锐。为了克服这些困难,研究者们提出了基于内容的图像检索(CBIR Content Based Image Retrieval)方法。CBIR 是 1992 年出现的概念,它的目标是为了解决图像的检索问题。CBIR在提出后得到了迅速的发展,现已扩展到基于内容的多媒体信息检索。CBIR的思想很适用于多媒体数据库,因此,它的出现为多媒体数据库的发展开创了一条新的道路。其思路是:把图像的可视特征,例如颜色、纹理结构、轮廓、位置关系等作为图像的内容来进行匹配、查找。利用已有的算法,特征抽取和匹配完全可以由机器自动完成,这就克服了手工注释的低效和二义性。事实上,可视特征是对图像内容的压缩、抽象,与人类的观察角度具有相当程度的相似性,因此CBIR的查询结果能够满足用户的一定要求。CBIR不同于以往的基于文本的检索方法 ,它是根据图像的颜色、形状、纹理等特征来查询图像 ,融合了计算机图像处理 ,模式识别、数据库等关键技术。第二章 图像检索技术的发展2.1 传统的基于文本的图像检索技术早在70年代,数据库专家就开始研究如何对图像数据进行有效管理,其主要方法是对图像文件建立关键词或文本标题以及一些附加描述信息,然后将图像的存储路径和图像关键词之间建立联系。简而言之,基于文本的图像检索的基本思想是,用文本作为关键字索引,利用基于文本的数据库管理系统(DBMS)管理图像的文本信息。基于文本的图像检索技术是最早应用于图像检索的一种检索方式,也是目前主要的方式,如医学影像数据库等。随着互联网及多媒体计算机技术的迅速发展,数字图像的应用和传播日益广泛,传统基于文本的图像检索技术的缺点也就暴露在我们面前:(1)文本检索依赖的关键字不能够自动产生,从而不利于对信息系统的管理计算机化。(2)图像加注文本信息仍由手工完成,随着图像数据来源日益广泛,这种方法显得费时费力,而且还导致关键字的不准确性,这是由人的主观因素产生的,因为不同的人,对于不同的事物会有自己描述,即使同一个人,在不同的环境下,对同一个事物的描述也会不尽相同,具有很强的主观性,缺乏通用性和一致性。(3)文本描述信息是非常主观的,不同的人对同一幅图像数据可能有不同的理解,因此当用户在查询时输入的关键词和数据库中的关键词不一致或这些关键词根本不存在时,将导致查询的失败; (4)“一幅画胜过一千句话”,只靠几个关键词很难将图像所反映的内容描述清楚。另一方面,如果为了很好的描述图像内容而选用太多的关键字时,关键字也就失去了其原本的作用;(5)由于媒体信息是发表在Internet网络环境中,不同国家不同民族很难用同一语言对图像进行标注,而且对图像语义理解的差异很大 。(6)不符合人类的视觉感知原理,因为人的感知并不都能用文字加以准备表达的,特别是那些对于描述者来说根本没有先验知识的事物,就更难用文字进行表达。对事物的文字表达,本身就是人对事物进行识别的结果,而目前对事物的自动识别还只是比较初级的研究阶段。2.2 基于知识和视觉特征的图像管理事实上,对图像视觉特征进行管理在70年代就曾经引起了人工智能和模式识别等领域的关注,并取得了一定成就。这时的图像数据库主要是应用在某一特定的领域,往往和其它信息系统结合在一起使用,主要设计地理信息系统 、病人X照片的归档、检索和诊断系统、以及人脸识别和指纹识别系统。在70年代到80年代初,张系国教授采用关系数据库子系统和图像存储子系统集成设计了图像数据库系统GRAIN,对图像数据进行查询,主要包括属性检索、结构检索、相似检索以及这几种方式的综合检索。REDI是普渡大学傅京孙教授完成的,REDI 是一个综合数据库系,它与一个图像数据理解系统之间保留有接口,该系统通过图像处理和模式识别方法提取出图像的结构信息和特征,查询操作采用关系查询语言,它涉及到空间关系和常规的查询。在随后张系国教授又提出了用二维符号串来表达一幅逻辑图像的空间关系,并将此方法用于图像检索系统中。当时的图像数据库的典型应用是地理信息系统。随后一些人工智能研究者在研究和开发专家系统的过程中,采用图像数据来加强对问题的理解能,运用了图像的一些模式特征,并对这些特征进行了一定的语义解释。在现在的指纹识别系统和人脸的照片管理系统中已经取得了较成功的运用 ,这类具体系统已不胜枚举。这个时期的图像数据库规模小而且仅应用在特定的领域,检索方面也都以精确模式匹配为主。 2.3 基于内容的图像检索技术随着多媒体、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题,灵活、高效、准确的图像检索策略是解决这一问题的关键技术之一。传统的图像检索基于文本方式,使用关键字或自由文本描述图像数据库中的图像,采用文本匹配检索;但目前计算机视觉技术还不成熟,达不到对图像的描述性关键字和语义信息的自动提取,而人工提取一方面费时,另一方面带有主观性;同时图像的某些可视信息,例如:纹理、形状等,很难用文本准确描述。 因此,人们提出了基于图像内容的图像检索(CBIR)技术。它的主要思想是:充分利用图像数据的丰富信息,如颜色、形状、纹理等特征,作为特征索引建立图像特征数据库,计算查询图像与目标图像的相似性距离,按相似度匹配进行检索。其目的是试图解决图像数据库系统中手工建立文本标注信息的缺点。作为传统数据库检索的拓展,基于内容的图像检索系统(CBIR)主要是根据图像的内容进行检索。同传统的关系数据库检索相比,它主要具有以下的特点: (1)直接从图像内容中提取信息线索基于内容的检索突破了传统的基于表达式检索的局限,它直接对图像内容进行分析,抽取特征,利用这些内容特征建立索引,并进行索引,是一种信息检索技术。 (2)基于内容的检索是一种近似匹配 由于对内容的表示不是一种精确描述,因此,CBIR采用相似性匹配的方法逐步求精,以获得查询结果,这是一个迭代过程,这一点与常规数据库检索中的精确匹配方法不同。(3)大型数据库的快速检索 实际的图像数据库不仅数据量巨大,而且种类和数量繁多,因此,要求CBIR技术也像常规的信息检索技术一样,能快速实现对大型库的检索。 (4)应具有很强的交互性 即用户能够参与检索过程,以获得用户所希望获取的图像。用户查询时,系统根据用户提供的待查询图像的特征按照一定的的原则在图像特征数据库中进行匹配搜索,通常查询的结果是一系列图像,按照相似程度依次排列。1)直接从图像内容中提取特征,进行图像的近似匹配。图像中内容本身不包含语义信息。而传统数据库中的符号数据本身具有语义信息。2)传统的数据库中,符号数据可以用基本数据类型精确表示,检索匹配是精确匹配。而图像数据是一段二进制流,对图像进行像素和像素的精确匹配不科学。事实上,人对图像的相似和不相似判断是根据图像中所包含的内容,很难将其精确描述。内容的表达是近似的,图像匹配是一种近似匹配。3)图像数据的表达不是单一的,可以多种表达方式并存。表达方式的选择要依赖于特定的用户和特定的应用区域。随着识别技术的发展还可能采用更新或更好的表达方法。4)由于对内容表达的不精确,因此检索得到的结果可能包含一些不相关的图像,这种情况对基于内容的检索是允许的,但重要的一点是在检索中不要将相关的图像漏掉。5)特征提取和索引的建立,可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。第三章 基于内容的图像检索技术研究3.1 基于内容的图像检索基本原理所谓基于内容的图像检索是指由软件对图像进行自动分析,提取图像的内容特征如颜色(Color)、形状(Shape)或纹理(Texture)等,以及这些特征的组合 ,作为特征向量存入图像特征库。在进行图像检索时,对每一幅给定的查询图像进行图像分析提取特征向量,利用相似性匹配算法计算查询示例图像与特征库中图像特征向量的相似度,根据相似度的大小输出检索结果。基于内容的图像检索技术的关键在于特征提取,以及在图像特征基础上进行的相似性匹配算法,融合了计算机图像处理、模式识别、数据库等多门学科关键技术。3.2 基于内容的图像检索系统基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的架构。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进行。用户通过指定一幅图像(称为示例图像)等方式来构造查询,然后由系统查找与示例图像在视觉内容上相似的图像,按相似度大小,返回若干幅图像给用户。基于内容的图像检索系统(CBIR)主要分为四个层次,系统框架抽象如下图3.2.1:图3.2.1CBIR抽象框架(1)特征提取 对图像数据进行自动或半自动的特征提取,提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的,如整幅图像,也可能是针对某个目标,如图像中的子区域等。图像的特征,包括图像的画面内容特征(例如图像颜色分布、纹理结构、轮廓等),图像的主题对象特征(例如图像所描述的人、车、建筑等),图像的著录特征(例如作者、时间、地点以及其它的物理特征),以及图像的移动和组合特征(例如影像中反映的场景)。传统图像检索将注意力局限在图像的著录特征上,而基于内容的图像检索则主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来进行检索。这种技术依靠计算机自动抽取图像特征和编制特征索引,检索时可依据用户输入的图像特征自动比较特征索引库中的对应特征信息,将最佳匹配结果和相关信息输出。(2)图像匹配 图像匹配是在图像数据库中检索有无所关心的目标物。在选取了特征之后,需要选择或寻找适当的判别准则,从而判断出待识别的图像的特征与数据库中的哪些图像的特征最接近。常用的度量准则是距离度量法。在计算机图像处理中常用两种匹配方法,即全图匹配和特征匹配。全图匹配,是把目标的每一像元对图像数据库中每个图像的每一离散像元都作相关匹配用来寻找图像数据库中有无该目标。特征匹配则仅仅对该目标的某些特征作匹配运算。显然,后者的工作量比前者少得多,因而检索目标的速度可大大提高。(3)特征索引 特征被提取出来以后,需要用一种索引结构去组织这些特征,以支持基于特征的相似性检索。根据上面所述,我们可以看到一个图像可能有许多不同角度的特征,每个特征需要多个参数来表达。当数据库中包含成千上万的图像数据时,为了有效地查询,合适的存取、访问结构就变得非常重要了。在常规数据库中,向用户返回满足查询条件的记录,而不需要逐个检查数据库中的每个记录。图像索引的提取可以分为手工提取、半自动提取和自动提取,这在很大程度上依赖于图像处理技术的发展;图像索引的表示可以分为关键字索引、色彩特征索引、形状索引和纹理索引等。(4)用户反馈基于用户反馈(Relevance Feedback)的检索是将人包括在检索环路中,以弥补自动语义分析面临的困难,通过交互式的反馈,来决定采用何种类型特征组合及多大特征权值进行检索,从而使数据库中的图像分类更接近使用者的愿望,使检索结果符合使用者的个性化要求。该研究方向是当前的研究热点。3.3 图像的内容特征图像的特征提取是基于内容图像检索的基石,特征选取的好坏对整个CBIR系统有着重要的影响,直接关系到整个系统的检索准确度、检索效果和检索效率。广义上讲,特征既包括文本特征(关键字、标注等),又包括视觉特征(颜色、纹理、形状、外观等)。视觉特征又可分为一般特征和领域特征,前者包括颜色、纹理、形状、外观等)。视觉特征又可分为一般特征和领域特征,前者包括颜色、纹理、形状和物体间方位关系等,而后者根据不同的应用有所不同,如人脸识别、指纹识别的专有特征等。本文中提到的特征都是视觉特征范畴中的一般特征。对特征提取技术的基本要求是准确和快速,特征选取时要考虑下列四个原则:(1)图像的区分能力:应能很好的区分视觉上差异较大的图像;(2)图像的描述能力:一次查询中能检索到的最大图像数(无关图像排除能力);(3)特征计算复杂度;(4)特征的存储空间需求;由于感知的主观性,许多特征具有从不同角度来描述此特征的多种表示,对一个给定的特征不存在一个最优的特征表示。典型的低级视觉特征包括颜色、纹理和形状。颜色特征常采用直方图、图象矩和参考颜色表等方法;纹理特征常采用灰度共生矩阵、纹理谱、Tamura 纹理和小波纹理等纹理描述子;形状特征常采用傅立叶描述子和不变矩。3.3.1 基于颜色特征的图像检索颜色是一种重要的视觉信息属性,也是图像内容组成的基本要素,是人识别图像的主要感知特性之一,在图像查询与检索中是一种很有用的特征。相对于其它特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种变形都不敏感,表现出相当强的鲁棒性,而且颜色特征计算简单,因此成为现有检索系统中应用最广泛的特征。颜色特征的描述方法主要有颜色直方图,颜色相关图,颜色矩,颜色一致性矢量等。由于人眼对不同颜色的分辩能力不同,而RGB色彩空间并不能反映人的视觉特性,所以一些研究者提出了符合人类视觉特性的色彩空间模型。直方图定义:一幅数字图象的直方图可以定义为一个离散函数 (31)其中i表示灰度级,L 表示灰度级种类数,表示图象中具有灰度级i的像素总数,N表示图象总的像素数。公式表征了图象中具有灰度级i的像素出现的频率。图象直方图提供了该图象外观的一个全局描述,因此在图象特征索引中广为使用。颜色直方图(color histogram)是最简单也是最常用的颜色特征,从概率角度讲,颜色直方图反映的是三个颜色通道强度的联合概率。其核心思想是在特定颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一个量化通道在整幅图像中所占的比重。常用的颜色空间有RGB,LAB,HIS,HSV,空间等。主要的量化方法有颜色空间划分、颜色空间聚类、参考颜色等。颜色直方图描述了图像颜色的统计分布特性,具有平移,尺度,旋转不变性。但它自身具有对噪声干扰敏感、高维度索引、不包括颜色分布空间信息等缺点,限制了其在图像检索中的应用。针对它对噪声敏感的缺点,研究者们提出了累加直方图 、模糊直方图等改进的颜色直方图。累加直方图利用颜色空间内颜色柄(bin)的空间关系,较好的消除亮度变化对检索的影响,己经被证明是一种较好的颜色特征表达方式。模糊颜色直方图是累加直方图的扩展,它从概率的角度用模糊的观点来描述像素在颜色直方图中的分布,一个像素是否属于一个颜色柄由它的隶属度描述,因此更好的表达了图像颜色空间信息。针对颜色直方图缺乏颜色分布信息的缺点,提出了颜色一致性矢量(CCV color coherence vectors)方法。CCV充分考虑了空间信息,它不仅统计了整幅图像中各颜色的像素值,还统计了图像中各颜色最大区域的像素值,检索效果较好,但CCV没有考虑各颜色最大区域的形状以及与背景的关系。颜色相关图法(color correlogram)是一种效果较好的表达方式,它不仅强调局部颜色空间关系,而且强调这种空间关系的全局分布。颜色相关图的主要思想是用像素对相对于距离的分布来描述信息,它反映了像素对的空间相关性、以及局部像素分布和总体像素分布的相关性,不过其计算复杂度较高。为了克服在颜色直方图方法中的量化误差,Stricker提出颜色矩(color moment)的方法,此方法 的数学依据是任何的颜色分布都可以由它们的矩表示。而且因为大部分的信息都集中在低阶矩上,所以只提取一阶矩(平均量),二阶中心矩(方差)和三阶中心矩(挠度)作为颜色特征向量再用加权欧式距离计算颜色相似性。为了在大型数据库中实现快速匹配,Smith和Chang提出颜色集作为颜色直方图的近似,并讨论了颜色直方图和颜色集之间的关系。综上所述,人们对颜色特征的研究已经比较多,但它们都分别从不同的方面对颜色特征问题进行了研究,但目前主要存在的问题是颜色空间选择并不统一,有人使用 RGB 颜色空间,更多人使用 HSV,YUV 等视觉意义上的颜色空间,而且这些方法之间关于色彩的度量方法也不统一,给各种方法检索效果的评价带来了一定的难度。3.3.2 基于形状特征的图像检索形状是图像目标的显著特征之一,形状检索是基于内容图像检索的一个重要方面相对于颜色和纹理检索来说,形状检索比较困难,主要是抽取和描述图像中目标的形状特征非常困难。利用形状特征进行图像检索有三个问题值得注意首先,形状常与目标联系在一起,有一定的语义含义,因而形状特征可以看作是比颜色或纹理要高层一些的特征。要获得有关目标的形状参数,经常要先对图像进行分割,所以形状特征的提取会受到图像分割效果的影响。而且,在没有有关应用领域的知识时,自动分割方法很难将相应的目标准确地提取出来。其次,目标形状的描述是一个非常复杂的问题。事实上,至今还没有找到形状的确切数学定义,包括几何的、统计的或形态学的测度使之能与人的感觉相一致。人对形状的感觉不仅是一个视网膜的生理反映结果,而且是视网膜感受与人关于现实世界的知识这两者之间综合的结果。最后,从不同视角获取的图像中目标形状可能会有很多差别,为准确进行形状匹配,需要解决平移、尺度、旋转变换不变性的问题。目前用于图像检索的形状描述方法主要有两类基于边缘和基于区域的方法。前者利用图像的边缘信息,而后者则利用区域内的灰度分布信息。基于边缘的形状特征提取是在边缘检测的基础上,用傅立叶描述子,小波轮廓描述子,矩等特征来描述物体的形状,适用于图像边缘较为清晰且容易获取的图像。傅立叶描述子(Fourier descriptor)建立在傅里叶变换的基础上,具有旋转、比例不变性的特点,常用于比较分析图像的轮廓相似性。把多尺度分析和通用傅立叶描述子结合起来,得到多尺度通用傅立叶描述子,并将其用于灰度图像检索。实验结果表明,多尺度通用傅立叶描述子具有多尺度分析效果,不仅能较好的克服图像灰度噪声带来的干扰,而且具有旋转、比例不变性,在灰度图像检索中能取得较好的结果。小波轮廓描述子基于小波变换,用平移、尺度归一化的变换系数描述形状轮廓。为了描述数字图像目标轮廓,便于计算机图形表达,提出一种适于描述序列点轮廓的小波描述子。研究表明,与傅立叶轮廓描述子相比,小波轮廓描述子能通过较少的点数以较高精度描述轮廓的信息,描述结果也更直观。基于区域的形状特征提取的主要思路是通过图像分割技术提取出图像中感兴趣的物体,依靠区域内像素的颜色分布信息提取图像特征,适合于区域能够较为准确的分割出来、区域内颜色分布较为均一的图像。具体的有重心,偏心率,球状性,不变矩等。不变矩的主要思想是使用对变换不敏感的基于区域的几个矩作为形状特征,提出了个这样的矩在他工作的基础上出现了很多改进的版本 提出了一种基于形状不变矩的图像全局形状特征提取算法,实验结果表明,使用该算法提取的形状特征向量具有对平移、旋转和尺度变化的不变性,适用于基于图像形状的检索。3.3.3 基于纹理特征的图像检索纹理是与物体表面材质有关的一类重要的图像特征,目前也是基于内容的图像检索的一个重要手段。但至今对纹理还没有一个严格的定义,通常它是指图像像素灰度级或颜色的某种规律变化,且这种变化是空间统计相关的。纹理可以是物体表面不同物理性质(如粗糙度等)的某种规律变化,也可以是物体表面不同颜色对光的不同反射结果。纹理分析一直是计算机视觉的一个重要研究方向,其方法主要分为四类统计法,结构法,模型法,频谱法。(1)统计法分析纹理的主要思想是通过图像中灰度级分布的随机性来描述纹理特征。最简单的统计法是借助于灰度直方图的矩来描述纹理。但这种方法没有利用像素相对位置的空间信息,为了利用这些信息,Haralick等人提出用共生矩阵来表示纹理特征。该方法研究了纹理的空间灰度级相关性,构造出一个基于图像像素间方向和距离的共生矩阵,并且从矩阵中提取出对比度、能量、熵、相关等统计量作为特征量表示纹理特征。实验表明:对比度,反转矩,熵具有最强的纹理分辨能力。Tamura等人基于对人类视觉的研究提出用一些不同的方法来描述纹理特征,给出了六个不同的描述纹理特征的术语:粗糙度(coarseness),对比度(contrast),方向度(directionality),线性度(linelikeness),规则度(regularity),粗略度(roughness)等。其中最重要的特征是纹理的粗糙度,方向度和对比度。Tamura纹理和共生矩阵表示的主要区别在于:前者的所有纹理属性都是视觉意义上的,而后者的某些纹理属性不具有视觉意义(如信息熵)。这一特点使得Tamura的纹理表示在图像检索中使用的较多,因为它可以提供友好的用户界面。QBIC系统和MARS系统采用的就是这种纹理表示方法。(2)结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。要用结构法描述纹理,两方面的工作需要完成:1)获得纹理基元纹理基元描述局部纹理特征,对整幅图像中不同纹理基元的分布进行统计可获得图像的全面纹理信息。2)纹理基元排列规则。纹理基元的排列规则方法一般借助字符串描述,其中规则是利用形式语法建立的。结合纹理的结构分析方法,提出一种区域状结构,并把这种结构作为尺度空间中的特征。在基于区域状特征结构的尺度空间中,结构状纹理分析可转化为尺度空间中对特征结构的分析,从而实现了对纹理的多尺度分析。模型法利用一些成熟的图像模型来描述纹理。如基于随机场统计学的马尔可夫随机场(MRF)、多尺度自回归模型(MRSAR)等。这些模型的共同特点是通过少量的参数表征纹理。MRF方法认为图像是一个2D的随机数矩阵,每个像素的灰度看作一个随机变量。可以用马尔可夫随机场的系数来对纹理建模,即假设纹理是一个满足条件不相关的平稳随机过程。理论上,MRF可以产生任何模式的纹理,但在实际应用中,MRF模型对于描述在微观结构上一致的图像纹理具有较好的效果,如草地、沙地或动物的羽毛等,但对点状、条状或大尺度结构的纹理则需要额外的辅助方法加以描述。MRSAR够在多个不同的相邻像素集合范围下计算纹理特征,实验结果表明MRSAR纹理特征能够较好的识别出图像中各种纹理特征,区分不同纹理模式的能力较强,但同时计算开销也较大。(4)频谱法借助于频率特性来描述纹理特征。Smith和Chang利用从小波子带中提取的统计量(平均值和方差)作为纹理特征。这个算法在112幅Brodatz纹理图像中达到了90%的准确率。为了利用中间带的特征,Chang和Kuo开发出一种树型结构的小波变化来进一步提高分类的准确性。他们的结论是小波变换的结果最符合人眼分辨的结果。据研究,纹理对于检索卫星图像非常有效,也可以很好的支持基于分割的识别技术,但由于纹理很少能提供语义信息,因此通常作为检索过程的辅助手段或者与其他特征结合使用。目前对纹理特征的检索一般采用示例查询方法。 3.4 基于三种特征检索存在的问题通过对基于内容的图像检索的主要研究技术的分析以及对目前大量的实验的调查,基于内容的图像检索的研究中仍存在如下问题:基于图像颜色特征的索引存在的主要问题是人对颜色特征的视觉感知方面考虑的仍然不够,虽然目前大多数基于颜色特征的图像检索采用了和人对颜色感知相一致的HIS颜色空间,但关于两种颜色之间的相似度的定义和视觉上人对相似颜色的判定仍有一定的差距。从颜色特征的表示来看,各种形式的颜色直方图是最常用的表示方法,一般指定相同的颜色集,采用几十到几百维的高维直方图,实际上人对两图像画面的颜色的相似性判定主要考虑少数几种主要的颜色。不同的图像有不同的颜色集,对包含不同颜色集两图像之间的相似性判定仍需要进一步研究。为进一步提高颜色特征的检索效果,要从颜色物理、视觉、心理几方面进行综合深入研究。对于形状特征的图像检索。形状边界的自动提取一直是困扰图像处理领域多年的难题。在目前的检索系统中大多采用手工勾勒的方式,因此形状特征提取是一件非常繁重的工作,对于大批量图像数据此问题将显得更为突出。各种形状特征表达方法对形状信息的丢失非常严重;只有少量的形状特征表达方法和形状的几何变换无关;另外形状度量方法仍不具有很好的形状区分能力,不能有效表达形状之间的相似性。研究形状特征检索仍是基于内容检索中较具有挑战的研究课题。 基于图像纹理特征的索引目前存在的主要问题是各种方法所选择的纹理特征集依赖于具体的纹理图像,往往是一种方法所选择的纹理特征集对表达一个纹理图像库比较有效,但对另一个纹理图像库来说就不一定行。对于不同的纹理图像库如何进行纹理特征集的自动切换仍需要较长的时间研究。第四章 基于内容的图像检索技术的研究现状4.1 著名的图像检索系统介绍自从90年代早期开始,基于内容的图像检索已经成为一个非常活跃的研究领域。迄今,已有许多商用和研究性的图像检索系统面世。大多图像检索系统支持一个或多个的检索方式:(1) 随机图像浏览;(2) 基于样图的图像检索;(3) 基于草图的图像检索;(4) 基于文本的图像检索(包括关键字);(5) 根据定制图像类别进行导航;国内外许多机构都在进行相关的研究工作,并取得了不少的成就。现在Internet 网上已经有许多关于基于内容图像检索的原型系统,其中最为著名的系统有:(1)QBICIBM的QBIC(Query By Image Content)是第一个商品化的基于内容的图像检索系统其系统框架和技术对后来的图像检索系统具有深远的影响 。QBIC 支持基于例子图像、用户构造的略图、选择的颜色、纹理等的查询。QBIC中使用的颜色特征有平均RGB、YIQ、LAB、和 MTM坐标的颜色直方图。所采用的纹理表示是Tamura提出的纹理表示的一种改进,即是粗糙度、对比度和方向性的结合 。形状特征包括形状面积、圆形度、偏心度、主轴偏向和一组代数矩不变量。QBIC是少数几个考虑了高维特征索引的系统之一,在其索引子系统中,首先使用了KL变换减少维数并采用R树为多维索引结构。在QBIC的新系统中,基于文本的关键字查询与基于内容的相似性查询结合在一起。QBIC的系统结构包括图像人库、特征计算、查询阶段三部分组成,支持基于例子图像、手绘略图、选择的颜色、纹理等的查询。QBIC的基于内容检索的技术已经制成独立产品,如IBM 数字图书馆、超媒体管理器、DB2 数据库的图像扩展等工具软件。(2)VirageVirage 公司开发的Virage 是一种基于内容的图像搜索引擎。与QBIC 相似,支持基于颜色、颜色布局、纹理和结构(对象边界信息)的可视化查询。但Virage 比QBIC 更进一步,它也支持由上述四个原子查询的任意组合。Virage 技术的核心是Virage Engine 以及在图像对象层上的操作。Virage Engine 主要有3 方面的功能:图像分析、图像比较和图像管理。它将查询引擎作为一个插件,它即可作用到通用的图像查询,也对其进行扩展并应用到特定的领域。 (3)RetrievalWareRetrievalWare 是由Excalibur 技术公司开发的基于内容的图像检索工具。它的重点在于将神经网络用于图像检索中,其搜索引擎利用颜色、形状、纹理、亮度、颜色分割等作为查询特征,它也支持这些特征的组合,允许用户调整每种特征的权重。(4)MARSMARS(Multimedia Analysis and Retrieval System)是美国Illinois 大学开发的。它与其它系统在研究范围和技术上都有不同,它是计算机视觉、数据库管理和信息检索(IR)多个领域交叉的结果。其主要目的不在于找到单一的最佳特征表达,而是如何把不同的视觉特征组织成为一个可以动态适应于不同应用和不同用户的有意义的检索机制。MARS 在图像检索中形式化地提出了相关反馈(Relevance Feedback)结构,并在检索中不同层次上结合了该技术,包括矢量优化,自动匹配工具选择和自动特征适应。(5)PhotobookPhotobook是MIT 多媒体实验室开发的用于浏览和搜索图像的一套交互式工具。Photobook包括三个子部分,分布用于提取形状、纹理特征,用户可以在每个部分中按照对应的特征进行查询。在Photobook的最近版本中 ,Picard等人提出在图像注释和检索中包括人 这一提出建立在没有一种单独的特征可以最好的对图像建模,而且人的理解又是主观的这样一种观测之上 。因此他们提出了模型集的方法,结合了人的因素。实验结果表明该方法在交互式图像注释中很有效 。(6)VisualSEEK和WebSEEKVisualSEEK是一种视觉特征搜索工具,其姊妹系统WebSEEK是面向WWW的文本/图像搜索工具,两个都是由哥伦比亚大学开发的。其主要的研究是图像区域的空间关系查询和从压缩域中抽取视觉特征。系统所采用的视觉特征是颜色集和基于小波变换的纹理特征。为了加速检索过程,他们采用了基于二叉树的索引算法。VisualSEEK支持基于视觉特征和它们之间空间关系的查询。WebSEEK是面向Web的搜索工具,包括三个主要模块:图像/视频收集模块、主题分类和索引模块、搜索浏览和检索模块,并支持基于关键字和视觉内容的查询。(7)NetraNetra是UCSB Alexandria Digital Library (ADL)发展的图像检索系统原型 。Netra在分块图像区域中使用颜色、纹理、形状和空间位置信息来从数据库中搜索和检索相似的区域。Netra系统的主要研究特征是它基于Gabor过滤器的纹理分析,基于神经网络的图像分类构造和基于边流的区域看分块。除此之外,国内的一些研究单位,如中科院自动化所国家模式识别实验室、清华大学、上海交通大学、复旦大学等,也进行了研究并开发了一些实验系统。4.2 图像检索系统的性能指标和评价准则为判定各个检索系统的性能和不同技术所得到的检索结果,需要一定的计量准则。在不同的应用中,需要不同的适合该应用的方法和准则。目前,对检索系统性能的评价还没有统一的标准。以下介绍一些需要考虑的性能指标和常用的评价准则 。 4.2.1 图像检索系统的性能指标(1)计算复杂度:为完成一个典

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论