【毕业学位论文】(Word原稿)视觉信息检索技术 video information retrival-计算技术图像识别_第1页
【毕业学位论文】(Word原稿)视觉信息检索技术 video information retrival-计算技术图像识别_第2页
【毕业学位论文】(Word原稿)视觉信息检索技术 video information retrival-计算技术图像识别_第3页
【毕业学位论文】(Word原稿)视觉信息检索技术 video information retrival-计算技术图像识别_第4页
【毕业学位论文】(Word原稿)视觉信息检索技术 video information retrival-计算技术图像识别_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

视觉信息检索技术 博 士 生:施 智 平 指导老师:史忠植 研究员 中国科学院计算技术研究所 2005 年 1 月 目 录 第 1 章 基于内容的多媒体检索技术综述 . 3 第 2 章 图像特征的提取与表达 . 9 色特征的提取 . 9 理特征的提取 . 12 状特征的提取 . 15 像的空间关系特征 . 19 维图像特征的索引 . 20 第 3 章 相似度量方法 . 22 觉特征的相似度模型 . 22 像特征的性能评价 . 24 第 4 章 视频分割 . 29 . 29 C 图像 . 32 . 34 第五章 视频数据的浏览和检索技术 . 36 频非线性浏览 . 36 频数据的检索 . 37 动信息 . 37 动信息的提取 . 38 动信息的应用 . 39 频片断分类方法 . 42 第六章总结 . 43 第一部分 综述 第 1 章 基于内容的多媒体检索技术综述 基于内容的多媒体信息检索技术是数字图书馆的关键技术之一 ,是海量多媒体信息资源得以高效、充分地获取和利用的技术支持。它的成熟发展和在数字图书馆建设中的推广应用 ,将从根本上提升数字图书馆的信息检索能力和对用户的信息贡献力度。 1 关于基于内容的多媒体信息检索技术 对于数字图书馆环境下 ,以多媒体、超文本为主要存储形式的海量数字化信息资源 ,关键词已经难以足够形象和准确 地描述多媒体信息所呈现的视觉或听觉感知 ,致使适用于文本信息资源的关键词检索方式显得相形见绌 ,而基于内容的多媒体信息检索技术在数字图书馆建设中逐渐显示出无比的优越性。 所谓基于内容的信息检索 (对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取 ,并基于这些特征进行相似性匹配的信息检索技术。它与传统数据库基于关键词的检索方式相比 ,具有如下特点 : 破了关键词检索基于文本特征的局限 ,直接从媒体内容中提取特征线索 ,使检索更加接近媒体对象。 取特征的方法多种多样 ,例如 ,可以提取图像的形状特征、颜色特征、纹理特征 ,视频的动态特征 ,音频的音调特征等。 机交互式检索。基于内容的检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等 ,通过人机交互的方式来捕捉和建立多媒体信息低层特征和高层语义之间的关联 ,即所谓相关反馈技术。其目的是在检索过程中根据用户的查询要求返回一组检索结果 ,用户可以对检索结果进行评价和标记 ,然后反馈给系统 ,系统根据这些反馈信息进行学习 ,再返回新的查询结果 ,从而使检索结果更接近用户的要求 。 似性匹配检索。基于内容的检索是按照一定的匹配算法将需求特征与特征库中的特征元数据 (行相似性匹配 ,满足一定相似性的一组初始结果按照相似度大小排列 ,提供给用户。这与关键词的精确匹配算法有明显不同。 步求精的检索过程。用户通过浏览初始结果 ,可以从中挑选相似结果 ,或者选择其中一个结果作为示例 ,进行特征的调整 ,并重新进行相似性匹配 ,经过多次循环后不断缩小查询范围 ,做到逐步求精 ,最终得到较为理想的查询结果。 综上所述 ,基于内容的多媒体信息检索技术的开发重点和技术优 势主要包括以下两项 :对多媒体信息内容特征的识别和描述技术、对特征的相似性匹配技术。可见 ,这种检索技术是一项涉及面很广的交叉学科的应用技术 ,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础 ,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型 ,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。 2 基于内容的图像检索 基于内容的图像检索技术是通过分析图像的内容 ,提取其颜色、形状、纹理等可视特征 ,建立特征索引 ,存储于特征库中 ;在检 索时 ,用户只需把自己对图像的模糊印象描述出来 ,就可以通过多次的近似匹配 ,在大容量图像库中查询到所需图像。 于颜色特征的检索 颜色是描述一幅图像最简便而有效的特征 ,在基于颜色特征的检索算法中通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布 ,横轴表示颜色等级 ,纵轴表示在一个颜色等级上 ,具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索 ;如果用户希望对图像中的部分颜色加以指定 ,可以采用基于图像分割的直方图检索方法 ,即将一幅图像划分为 nn 个子图像 ,将对应位置的子图像颜色特征与数据库中的图像进行对比匹配。 于纹理特征的检索 纹理是基于内容图像检索的一条主要线索 ,它包含了关于图像表面的结构安排和周围环境的关系。在 70 年代初期 ,人提出了纹理特征的共生矩阵表示法。他首先根据像素间的方向和距离构造一个共生矩阵 ,然后从共生矩阵中抽取有意义的统计量作为纹理表示。 人则从视觉的心理学角度提出了纹理表示方法 ,表示的所有纹理性质都具有直观的视觉意义 ,这使得 理表示在图像检索中非常具有吸引力 ,而且可以提 供一个更友好的用户界面。进入 90 年代 ,小波变换理论被应用于纹理表示之中。 在基于图像纹理特征的实际检索中 ,一般采用示例查询 (式。用户给出一个所需图像的示例 ,系统会按照示例搜索与之相似的图像 ,用户在这些相似图像集合中确定检索目标。 于形状特征的检索 形状是描述图像内容的本质特征 ,在实际检索中 ,形状特征的表达和匹配经常采用最为简便的方法 ,即用形状参数 (如矩、面积、周长等定量测度来描述图像形状并进行匹配 ;也可以分割图像 ,进行边缘提取 ,得到目标的轮廓线 ,针对轮廓线进行形状特征检索。 于知识的图像检索 基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合 ,人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库 ,针对一个图像需求 ,搜索引擎依次调入每一幅图像的内容描述 ,结合知识库中的相关知识 ,以图像需求为目标进行推理 ,如果需求目标得到满足 ,则确定这幅图像符合检索要求。 3 基于内容的视频检索 基于内容的视频信息检索是当前多媒体数据库发 展的一个重要研究领域 ,它通过对非结构化的视频数据进行结构化分析和处理 ,采用视频分割技术 ,将连续的视频流划分为具有特定语义的视频片段 镜头 ,作为检索的基本单元 ,在此基础上进行代表帧 (提取和动态特征的提取 ,形成描述镜头的特征索引 ;依据镜头组织和特征索引 ,采用视频聚类等方法研究镜头之间的关系 ,把内容相近的镜头组合起来 ,逐步缩小检索范围 ,直至查询到所需的视频数据。这里 ,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。 于代表帧的检索 代表帧 是用于描述一个镜头的关键图像 ,它反映镜头的主要内容。代表帧的选取方法很多 ,比较经典的是帧平均法和直方图平均法 ,其特征的提取与一般静态图像一样 ,包括颜色特征、纹理特征和轮廓特征等。 视频被抽象为代表帧之后 ,视频检索就变成按照某种相似度来检索数据库中与需求相似的代表帧。目前常用的查询方式是示例查询 ,即根据用户提交的视频例子 ,在视频特征库的支持下 ,检索到相似的代表帧 ,用户就可以通过播放观看它代表的视频片段 ,并挑选相似的图像 ,选择这些图像中所有相近的代表帧 ,重新进行更精确的查询。 于动态特征的检索 视频数据的动态特征是检索时用户所能给出的主要内容 ,例如 ,镜头的运动变化、运动目标的大小变化、视频目标的运动轨迹等。这些动态特征的提取与代表帧的提取不同 ,不能从静态图像中获得 ,必须对整个视频序列进行分析。 基于动态特征来搜索镜头是视频检索的进一步要求。检索时可以利用运动方向和幅度特征来检索运动的主体目标 ,还可以将动态特征与代表帧特征结合起来 ,检索出动态特征相似但静态特征不同的镜头。 频浏览 视频浏览是视频数据库的重要组成部分 ,当用户对所要检索的目标不十分明确时 ,往往需要对视频数据进 行快速浏览以便寻找感兴趣的内容 ,目的是排除次要内容 ,以较少的图像尽可能全面地表达出所需视频数据的主要内容特征。 4 基于内容的多媒体信息检索系统开发概况 统 由 究中心开发 ,是基于内容的检索系统的典型代表。 统允许使用示例图像、用户构建的草图、选择的颜色和纹理模式、镜头和目标运动以及其他图形信息等 ,对大型图像和视频数据库进行查询。 统 由 媒体实验室于 1994 年开发研制。图像在存储时按人脸、形状或纹理特性自动分类 ,图像根据类别通过显著语义特征压缩编码。 统 这是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括 :多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。 统 由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像 /视频检索系统 ,提供了一套工具供人们在 检索图像和视频信息。 另外还有许多类似的系统 ,例如 ,加利福尼亚 大学 校的 利诺依大学的 及哥伦比亚大学的 。 5 基于内容的多媒体检索技术的发展趋势 基于内容的多媒体信息检索技术与传统数据库技术、 索引擎技术相结合 ,可以方便地实现海量多媒体信息资源的存储和管理 ,并可以检索 页中丰富的多媒体信息。在可预见的将来 ,基于内容的多媒体检索技术将会在数字图书馆建设中得到广泛应用。 但随着多媒体内容的增多和存储技术的提高 ,目前的技术开发还远远不够 ,有待于进行更深层次的研究和探索。基于内容的 多媒体检索技术的发展趋势主要集中在以下几方面 : 合的多特征检索技术 多媒体具有各种视觉和听觉特征以及其他时间和空间关系 ,对于同一种特征 ,也有不同的表示方法 ,例如 ,同样是颜色特征 ,可以有直方图特征、颜色距 (颜色集(主颜色等多种特征表示法 ,它们从不同的角度表示媒体的特征。而如何有机地组织多种特征 ,并按照用户的查询要求合并各种特征的检索结果 ,将是一个值得研究的问题。 综合还意味着采纳其他学科领域的成果 ,如传统的基于文本的信息检索技术、人工智能技术等。基于内容的检索系统并不排斥传统常规的检索途径 ,相反 ,要充分利用现有的文本检索功能 ,并集成到基于内容的检索系统中 ,向用户提供完备的检索能力。 层概念和低层特征的关联 人们在日常生活中习惯使用的事物概念 ,例如 ,楼房、汽车、海滩 等是用以表达具体含义的概念 ,在多媒体信息查询中也经常使用 ,而且属于多媒体数据的高层语义内容。目前 ,基于低层特征的检索技术已基本成熟 ,如果能够建立这些低层特征与高层语义概念的关联 ,将实现媒体语义的计算机自动抽取。针对多媒体信息检索系统而言 ,在响应时间和大容量 数据库约束的前提下 ,可以采用语义模板、用户交互、机器学习、神经网络等方法 ,突破从低层特征获取高层语义的壁垒。 维索引技术 对于大容量的多媒体数据库 ,在基于内容的检索过程中 ,特征矢量常常高达 102量级 ,大大多于常规数据库的索引能力 ,因此 ,需要研究新的索引结构和算法 ,以支持快速检索。目前 ,一般采用先减少维数 ,再用适当的多维索引结构的方法。虽然过去已经取得了一些进展 ,例如 ,但仍然需要研究和探索有效的高维索引方法 ,以支持多特征、异构特征、权重、主键特征方面的查 询要求。 序媒体的内容结构化 典型的时序媒体是视频和音频。它们是一种非结构化的连续媒体流数据 ,需要进行结构化分析和处理 ,才能进行特征的提取。目前镜头分割技术相对成熟 ,计算机可以基于镜头进行浏览。但是 ,对于一段镜头非常多的视频 ,浏览起来很不方便。另外 ,镜头并不是人们关心的语义单元 ,而是些零散的剪切单元。因此 ,目前的研究热点是结合多类特征 (音频、视频、文本等 )抽取视频的语义和叙事结构 ,在多个层次上组织视频内容。 户查询接口 现代多媒体信息系统的一个重要特征就是信息获取过程的可 交互性 ,用户在系统中是主动的。除了提供示例和描绘查询的基本接口之外 ,用户的查询接口应提供丰富的交互能力 ,使用户在主动的交互过程中表达对媒体语义的感知 ,调整查询参数及其组合 ,最终获得满意的查询结果。 第二部分 基于内容的图像检索技术 近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊人的速度增长。无论是军用还是民用设备,每天都会产生容量相当于数千兆字节的图像。这些数字图像中包含了大量有用的信息。然而,由于这些图像是无序地分布在世界各地,图像中包含的信息无法被有效地访问和利用。这就 要求有一种能够快速而且准确地查找访问图像的技术,也就是所谓的图像检索技术。自从 20世纪 70 年代以来,在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成为一个非常活跃的研究领域。数据库和计算机视觉两大领域是从不同的角度来研究图像检索技术的,前者基于文本的,而后者是基于视觉的。 基于文本的图像检索技术( 历史可以追溯到 20 世纪70 年代末期。当时流行的图像检索系统是将图像作为数据库中存储的一个对象,用关键字或自由文本对其进行描述。查询操作 是基于该图像的文本描述进行精确匹配或概率匹配,有些系统的检索模型还是有词典支持的。另外,图像数据模型、多维索引、查询评价等技术都在这样一个框架之下发展起来。然而,完全基于文本的图像检索技术存在着严重的问题。首先,目前的计算机视觉和人工智能技术都无法自动对图像进行标注,而必须依赖于人工对图像做出标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还不可避免地带有主观偏差。也就是说,不同的人对同一幅图像有不同的理解方法,这种主观理解的差异将导致图像检索中的失配错误。此外,图像中所包含的丰富的视觉特 征(颜色或纹理等)往往无法用文本进行客观地描述的。 90年代初期,随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像检索技术( 运而生。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研究领域中的许多技术发展起来,一大批研究性的或商用的图像检索系统被建立起来。这个领域的发展主要来归功于计算机视觉技术的进步,在文献 中有对 这一领域的详细介绍。 应该认识到,基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构架。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进行。 用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓的通过例子图像的检索( by 另外,基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进检索结果。 基于内容图像检索的体系结构划分为两个子系统:特征抽取子系统和查询子系统,如图 2 图像数据 目标标识 特征提取 索引 / 过 滤 检索引擎 查询接口 知识辅助 图像 库 特征 库 知识 库 用户 特征提取子系统 查询子系统 预处理 2于内容图像检索的体系结构 各个模块的主要功能如下: 1预 处理 包括图像格式的转换、尺寸的统一,图像的增强与去 噪 等功能,为图像的特征提取打下基础。 2 目标标识 目标标识为用户提供一种工具,以全自动或半自动(需要用户 干预)的方式标识图像中用户感兴趣的区域或目标对象,以便针对目标进行特征提取并查询。当进行整体内容检索时,利用全局特征,这时不用目标标识功能。目标标识是可选的。 3特 征提取 对图像数据库进行特征提取,提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的,即整幅图像,也可以是针对某个目标的,即图像中的子区域,如人脸等。 4. 数据 库 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息 , 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识 , 有利于查询优化和快速匹配 ,知识库中知识表达可以更换以适用各种不同的应用领域。 接口 友好的人机交互界面是一个成功检索系统不可缺少的条件,它可以大大提高检索的效率。在基于内容检索中,由于特征值为高维向量,不具有直观性,因此必须为其提供一个可视化的输入手段。可采用的方式有三种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。同时应支持多种特征的组合。另外,查询 返 回的结果需要浏览,应在用户界面提供浏览功能。 检索是利用特征之间的距离函数来进行相似性检索。模仿人的认知过程,近似得到数据库的认知排队,存 在一些不同的相似性测度算法,检索引擎中包括一个较为有效可靠的相似性测度函数集。 7. 索引 /过滤 检索引擎通过索引 /过滤模块达到快速搜索的目的,从而可以应用到大型数据库中。过滤器作用于全部数据,过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征,可以用 在这一部分中,我们将主要讨论有关基于内容的图像检索方面的一些相关问题和方法。第 2章中给出了一系列图像视觉特征的提取、表达和索引方法。第 3章中讨论了图像相似度衡量方法和其它检索相关技术。在第 4章中,我们介绍了图像检索中相关反馈的机制 和途径。最后,第 5章中总结了现有的一些图像检索系统,并对这一领域的未来方向作出展望。 第 2 章 图像特征的提取与表达 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。由于基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研究,本章中我们主要介绍图像视觉特征的提取和表达。 视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关 ,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别的研究范围,并涉及许多专业的领域知识,在此我们就不再详述,而只考虑通用的视觉特征。 对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上,图像特征的不同表达方式从各个不同的角度刻画了该特征的某些性质。在本章中,我们主要介绍那些由实践证明对图像检索比 较有效的特征和相应的表达方法。本章的第 1、 2、 3节中我们将分别介绍图像的颜色、纹理和形状特征,第 4节中介绍包含有空间信息的图像特征,最后一节简述了多维索引技术和降低维度技术。 色特征的提取 颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。 面向图像检索的颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间来描述颜色特征;其次,我们 要采用一定的量化方法将颜色特征表达为向量的形式;最后,还要定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。在本节中,我们将主要讨论前两个问题,并介绍颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等颜色特征的表示方法。 色直方图 颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。 当然,颜色直方图可以是基于不同 的颜色空间和坐标系。最常用的颜色空间是 因在于大部分的数字图像都是用这种颜色空间表达的。然而, 此,有人提出了基于 为它们更接近于人们对颜色的主观认识。其中 的三个分量分别代表色彩( 饱和度( 值( 从 给定 色空间的值 (r,g,b),r,g,b0,1, ,255, 则转换到 间的 (h,s,v)值计算如下: 设 ), 定义 , : ),m i n ( ,),m i n ( ,),m i n ( 则 ),m 2 5 5/ 60),5(),m i n (),m ),3(),m i n (),m ),3(),m i n (),m ),1(),m i n (),m ),1(),m i n (),m ),5(其它和和和和和其中 r, g, b 0 1 , h 0 6, s, v 0 1 。从 1中找到。 计算 色的距离由多种不同的方法。例如在 2中提出了如下的颜色距离计算公式: 其中 ( (分别代表两种 种相似度量方法相当于一个圆柱形颜色空间中的欧拉距离,该空间中的颜色值表示为 (v)。在 3中这样的圆柱空间被进一步变形称为圆锥性空间,其中的颜色表示为 (v)。这些改变使 低了直方图对 h和 计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小 区间成为直方图的一个 个过程称为颜色量化( 然后,通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方法,例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量(维度)均匀地进行划分。相比之下,聚类算法则会考虑到图像颜色特征在整个空间中的分布情况,从而避免出现某些 量化更为有效。另外,如果图像是 们可以预先建立从量化的 查找表( 从而加快直方图的计算过程。 上述的颜色量化方法会产生一定的问题。设想两幅图像的颜色直方图几乎相同,只是互相错开了一个 时如果我们采用 算两者的相似度,会得到很小的相似度值。为了克服这个缺陷,需要考虑到相似但不相同的颜色之间的相似度。一种方法是采用二次式距离 4(见 另一种方法是对颜色直方图事先进行平滑过滤,即每个 样,相似但不相同颜色之间的相似度对直方图的相似度 也有所贡献。 选择合适的颜色小区间(即直方图的 目和颜色量化方法与具体应用的性能和效率要求有关。一般来说,颜色小区间的数目越多,直方图对颜色的分辨能力就越强。然而,不利于在大型图像库中建立索引。而且对于某些应用来说,使用非常精细的颜色空间划分方法不一定能够提高检索效果,特别是对于不能容忍对相关图像错漏的那些应用。另一种有效减少直方图 像素数目最多)的 为这些表示主要颜色的 中大部分像素的颜色。实验证明这种方法并不会降低颜色直方图的检索效果。事实上,由于忽略了那些数值较小的 色直方图对噪声的敏感程度降低了,有时会使检索效果更好。两种采用主要颜色构造直方图的方法可以在文献 5,6中找到。 色矩 另一种非常简单而有效的颜色特征使由 7。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩( 、二阶矩( 三阶矩( 足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达为: 其中 此,图像的颜色矩一共只需要 9个分量( 3个颜色分量,每个分量上 3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围( 作用。 色集 为支 持大规模图像库中的快速查找, 为对颜色直方图的一种近似 8。他们首先将 并将颜色空间量化成若干个 后,他们用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等,每种对应于不同得评分)。因为颜色集表达为二进制的特征向量,可以构造二分 查找树来加快检索速度,这对于大规模的图像集合十分有利。 色聚合向量 针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点, 提出了图像的颜色聚合向量( 它是颜色直方图的一种演变,其核心思想是将属于直方图每一个 果该 该区域内的像素作为聚合像素,否则作为非聚合像素。假设 i个 像的颜色聚合 向量可以表达为 。而 就是该图像的颜色直方图。由于包含了颜色分布的空间信息,颜色聚合向量相比颜色直方图可以达到更好的检索效果。 色相关图 颜色相关图( 图像颜色分布的另一种表达方式 16。这种特征不但刻画了某一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之间的空间相关性。实验表明,颜色相关图比颜色直方图和颜色聚合向量具有 更高的检索效率,特别是查询空间关系一致的图像。 假设 i) 则表示颜色为 c(i)的所有像素。颜色相关图可以表达为: 其中 i, j 1, 2, , N, k 1, 2, , d, | 表示像素 色相关图可以看作是一张用颜色对 索引的表,其中 的第 c(i)的像素和颜色为 c(j)的像素之间的距离小于 果考虑到任何颜色之间的相关性,颜色相关图会变得非常复杂和庞大 (空间复杂度为 O(。一种简化的变种是颜色自动相关图( 它仅仅考察具有相同颜色的像素间的空间关系,因此空间复杂度降到 O( 理特征的提取 纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征 12。它是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系 13。正因为如此,纹理特征在基于内容的图像检索中得到了广泛的应用,用户可以通过提交包含有某种纹理的 图像来查找含有相似纹理的其他图像。 由于纹理特征对模式识别和计算机视觉等领域的重要意义,对纹理的分析研究在过去的三十年中取得了重大的成果。在本节中,我们将着重介绍那些在基于内容的图像检索中所常用的那些纹理特征,主要有 回归纹理模型、方向性特征、小波变换和共生矩阵等形式。 基于人类对纹理的视觉感知的心理学的研究, 14。别是粗糙度( 对比度( 方向度( 线像度( 规整度( 粗略度( 其中,前三个分量对于图像检索尤其重要5。接下来我们就着重讨论粗糙度、对比度和方向度这三种特征的定义和数学表达。 粗糙度。粗糙度的计算可以分为以下几个步骤进行。首先,计算图像中大小为 2k 2有 其中 k = 0, 1, , 5 而 g(i, j)是位于 (i, j)的 像素强度值。然后,对于每个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均强度差。 其中对于每个像素,能使 E 值达到最大(无论方向)的 k 值用来设置最佳尺寸x,y)=2k。最后,粗糙度可以通过计算整幅图像中 达为 粗糙度特征的另一种该进形式是采用直方图来描述 不是像上述方法一样简单地计算 种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。 对比度。对比度是通过对像素强度 分布情况的统计得到的。确切地说,它是通过 4 = 4/ 4来定义的,其中 4 是四次矩而 2 是方差。对比度是通过如下公式衡量的 : 该值给出了整个图像或区域中对比度的全局度量。 方向度。方向度的计算需要首先计算每个像素处的梯度向量。该向量的模和方向分别定义为 其中 别是通过图像卷积下列两个 3 当所有像素的梯度向量都被计算出来后,一个直方图 值。该直方图首先对 的值域范围进行离散化,然后统计了每个 于给定阈值的像素数量。这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。最后,图像总体的方向性可以通过计算直方图中峰值的尖锐程度获得,表示如下 : 上式中的 于某个峰值 p, 表该峰值所包含的所有的 p 是具有最高值的 回归纹理模型 最近二十年中有大量的研究集中在应用随机场模型表达纹理特征,这方面 型取得了很大的成功。自回归纹理模型( 是 在 个像素的强度被描述成随机变量,可以通过与其相邻的像素来描述。如果 其强度值 g(s)可以表达为它的相邻像素强度值的线性叠加与噪音项 (s)的和,如下所示: 其中 是基准偏差,由整幅图像的平均强度值所决定, (r) 是一系列模型参数,用来表示不同相邻位置上的像素的权值。 (s) 是均值为 0而方差为 2 的高斯随机变量。通过上式可以用回归法计算 参数 和标准方差 的值,它们反映了图像的各种纹理特征。例如较高的 表示图像具有很高的精细度,或较低的粗糙度。又比如,如果 很高,表明图像具有垂直的方向性。最小误差法( 极大似然估计( 以用来计算模型中的参数。此外, 具有与图像的旋转无关的特点。 定义合适的 的范围。然而,固定大小的相邻像素集合范围无法很好地表达各种纹理特征。为此,有人提出过多维度的自回归纹理模型( 16,能够在多个不同的相邻像素集合范围下计算纹理特征。文献 17,18中给出了 验结果表明 波变换 小波变换( 是一种常用的纹理分析和分类方法 19,20。小波变换指的是将信号 分解为一系列的基本函数 mn(x)。这些基本函数都是通过对母函数 (x)的变形得到,如下所示: 其中 m和 样,信号 f (x) 可以被表达为: 二维小波变换的计算需要进行递归地过滤和采样。在每个层次上,二维的信号被分解为四个子波段,根据频率特征分别称为 H。有两种类型的小波变换可以用于纹理分析,其中是金字塔结构的小波变换( 树桩结构的小波变换( 归地分解 是对于那些主要信息包含在中频段范围内的纹理特征,仅仅分解低频的 此, 会分解其它的 小波变换表示的纹理特征可以用每个波段的每个分解层次上能量分布的均值和标准方差。例如 三层的分解, 般来说,由 子集。此外,根据在文献 21中所作的性能对比,不同的小波变换在对纹理分析方面没有很显著的差别。 它纹理特征 除了上述的 有许多其它的纹理特征。早在 70年代, 示纹理特征的方法 13。该方法对从数学角度研究了图像纹理中灰度级的空间依赖关系。它首先建立一个基于象素之间方向性和距离的共生矩阵,然后从矩阵中提取有意义的统计量作为纹理特征。许多其他研究人 员沿着这个方向提出了扩展的方案。例如 13中提出的统计特征,在实验中得出能量、相关性、惯量和熵是最有效的特征 22。 23能够最大程度地减少空间和频率的不确定性,同时还能够检测出图像中不同方向和角度上的边缘和线条。 24,25中提到了很多方法根据过滤输出结果来描述图像特征。 此外,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论