



免费预览已结束,剩余7页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘结课 题 目 数据挖掘在图像相似性检索当中的应用 目录1.引言32数据挖掘技术理论与发展33.图像数据挖掘简介53.1图像数据挖掘的定义53.2图像数据挖掘的过程54.数据挖掘在图像相似检索中的应用64.1基于特征描述的CBIR64.2数据挖掘在CBIR中的应用模型64.2.1关键字查询模型84.2.2图像查询模型85总结9引用9数据挖掘在图像相似性检索当中的应用 摘要:随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统的检索方案无法满足现在人们日益增加的要求。图像数据挖掘就是在这样的大环境中产生的。图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。本文主要简单的介绍了数据挖掘还有图像数据挖掘的一些简单的知识,以及数据挖掘在图像相似检索上的一些应用。关键词:数据挖掘,图像检索,应用模型1.引言随着科学技术的迅速发展,图像的存储,图像的获取,使得我们能够便捷的获取大量的有用的图像数据,例如:遥感数据图像,医疗数据图像等。可是随着计算机网络的发展,我们需要检索的图像内容也在迅猛的增加,互联上的一些传统的检索方案无法满足现在人们日益增加的要求。如何在日趋庞大的图像数据当中挖掘出对于我们来说的有用的信息,并且利用这些信息中所含有的巨大的利用价值。图像数据挖掘就是在这样的大环境中产生的。图像数据挖掘是用来挖掘大规模的图像数据中隐含的知识、图像内或者图像间的各种关系,以及其他隐藏在图像数据中的各种模式的一种模式的一种技术。早期的图像数据挖掘仅仅就是针对图像的某一些预处理,包括基于数据挖掘的图像分割、基于数据挖掘的额图像特征提取1。随着图像挖掘的发展,数据图像挖掘的实现,需要包括计算机视觉,图像处理,图像检、数据挖掘,机器学习、数据库和人工智能等的综合学科共同实现,其中某些领域已经发展地非常成熟, 而图像挖掘到数据挖掘还在成长研究期, 处于经验阶段2。本文中我们主要介绍了数据挖掘的一些简单的理论,图像数据挖掘的一些简单的相关知识,以及数据挖掘在图像的相似性检索上的一些简单的应用模型。2.数据挖掘技术理论与发展 数据挖掘(Data Mining简称DM)又称为数据库中的知识发现(Knowledge Discovery Database简称KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前KDD的主要对象仍然是关系数据库3。数据挖掘的全过程定义描述如图1.1所示 图1.1知识挖掘全过程数据挖掘的过程主要包括以下四个步骤:(1)数据采集(2)数据预处理(3)数据采掘(4)评价、解释模式模型 以上的数据挖掘过程是一个交互式的迭代的过程,其中需由用户做出许多选择,每一个步骤,一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。数据挖掘的实质就是从数据中发现未知的关系和模式,而发现的关系和模式就是我们的目标知识。数据是指一个有关事实的集合,它是用来描述事物有关方面的信息,一般说来这些数据应该是准确无误的。模式是一个用语言来表示的一个表达式,它可以用来描述数据中数据的特性。3.图像数据挖掘简介3.1图像数据挖掘的定义图像数据挖掘(Image Mining,IM)是指从大规模的图像集中提取或挖掘出有用的信息或知识4。从理论上来讲,图像数据挖掘是数据挖掘的一个很重要的分支。尽管如此,图像数据挖掘并不是传统的数据挖掘理论和技术在图像数据上的简单的扩展或者延伸。因为图像数据的组织结构有不同于其他数据的组织结构特点,因为,所涉及到的挖掘的方法,跟挖掘的领域知识比一般对数据挖掘的技术更加的广泛3。图像数据挖掘概念的两个根本点是“大规模图像集”和“提取挖掘出有用的信息和知识”。从“大规模图像集”的角度,涉及到图像获取、图像存储、图像压缩、多媒体数据库等领域5,6; 从“挖掘出有用的信息和知识”角度,其又涉及到图像处理和分析、模式识别、计算机视觉、图像检索、机器学习、人工智能、知识表现等领域。因此,图像数据挖掘是一个多学科交叉的新兴领域,其所涉及到的其他领域大部分也都处于发展阶段,其自身也是处于试验阶段。3.2图像数据挖掘的过程本文提出的是一个基于目标识别的图像挖掘的框架, 图像挖掘在目标识别的基础上实现, 期望得到目标之间及目标和背景之间的潜在关系, 得到的潜在关系可以用于后续的目标识别的任务。图像数据挖掘的一个关键的问题是图像数据本身的表示问题,这也是图像处理和模式识别的关键问题。一般可以用颜色、纹理等特征来表示图像基本特征。高级概念可以看成是一种特征模式。比如、河流可认为是具有某种颜色特征的长条形;庄稼区可以认为是具有某种颜色分布和纹理特征的大片区域。底层的基本特征与高层概念之间必然存在着某种映射关系,这种关系可以用数据挖掘的方法来发现。图像挖掘过程所示:4.数据挖掘在图像相似检索中的应用 4.1基于特征描述的CBIR文章的前面我们已经提到了,数据挖掘在图像上的研究,就是为了从大规模的图像集当中,提取挖掘出有用的信息和知识。本文主要就数据挖掘在我们图像的相似性检索上的具体应用。相似检索系统主要有:基于描述的检索系统,基于内容的检索系统(CBIR)。本文主要讲的是基于内容的检索系统。基于内容的检索系统是通过对图像的低级别特征如颜色构成、纹理、形状等的匹配实现相似性搜索。对基于内容的检索,通常有两种查询方法:基于图像样本的查询,该方法找出所有与给定的图像样本相似的图像。图像特征描述查询,该方法给出图像的特征描述或概括并把其转换为特征向量,与数据库中已有的图像特征向量相匹配3。本文主要讲的是基于特征描述的CBIR。4.2数据挖掘在CBIR中的应用模型数据挖掘在CBIR中的应用模型,简单来说就是我们输入一个关键词/一幅图图片,例如“小狗”,系统自动会在我们的左右图片库中查询出所有与小狗有关系的图片,并且返还给需要的用户。听起来确实就是我们会在搜索引擎用直接查询图片。可是现实生活中,我们的图片库数量庞大,我们并不可能做到,人工来对每一张图片进行标识,比如一幅图片,人工标记为:有小狗,有蓝天,有太阳怎样能够准确,且全面的找到我们用户所需要图片,就需要我们的数据挖掘。数据挖掘就是提取有用的我们需要的信息。例如我们对图像提取特征,发现所有有类似的一种特征的图片可能是同一类图片,然后计算机就能够将这一类图片标记出来,便于日后的查找。本文详细建立的是一个以关键词检索图片、以图片检索图片的一个数据挖掘在CBIR上的应用模型。这个模型当中我们定义了几个简单的算法:(1) 图像预处理图像预处理算法并不是必须的,采用图像预处理主要为了将图像处理成为统一的大小,去噪或者其他一些操作,便于后面的操作。(2) 特征提取本文采用的特征提取算法为颜色直方图。我们图像每一个像素的颜色值是由RGB三个维度的三个值(每一个值的范围为0255)来确定的,我们将一幅图提取颜色特征就是根据在三个维度,每一个值的频率来确定一个颜色直方图。(3) 建立词汇树本文采用的是BOVW( Bag of vision Word), 顾名思义,即将某些Word打包,就像我们经常会把类似的物品装到一个柜子,或者即使是随意打包一些物品,也是为了我们能够方便的携带,在对大数据作处理的时候,为了能够方便的携带这些数据中的信息,与其一个一个的处理,还不如打包来的容易一点。(4) 建立一个挖掘模型挖掘模型,就是根据我们已经建立的一个词汇树,建立一个挖掘的模型,简单来说就是一个视觉词汇,我们会在后面标注:出自哪张图片,代表的是什么物体等等一些我们所需要的信息。4.2.1关键字检索模型以关键字,关键词检索图片,顾名思义,就是输入关键字、关键词,系统根据关键字/词找到相关的图片返还给用户。刚刚已经提到定义的一些算法,根据这些算法最后建立的一个挖掘模型,魔门就能够很容易的实现我们的关键词、关键字的检索。如下图所示,用户输入一个关键词/字,我们会再建立的挖掘模型里,找到我们标注的有关的关键的所有词,并且找出原图,返还给我们的用户。预处理图片集图片库特征提取特征bovw词汇树挖掘模型关键词相关图片用户4.2.2图像检索模型以图片检索图片,就是我们用户上传或者输入一张图片,系统根据图片找到相似的图片返还给用户。与关键词/字检索检索相同的是,都是与建立的挖掘模型相似匹配。不同的是,系统在接收到用户提交的查询图片,他首先用预先定义好的特征提取的算法对我们的图片进行特征提取,特征提取之后,从我们建立的词汇树上找出一个最能够代表这张图片的一个视觉词汇,然后用这张视觉词汇在我们的挖掘模型上进行信息的匹配。我们的挖掘模型可以根据视觉单词,还有一些计算方法,例如汉明句子,EMD距离等,找出最相近的K张图(K是我们自己定义的常数,这个k可以变化),返还给我们的用户。图片集图片库特征提取特征bovw词汇树挖掘模型待检索图片预处理处理后图片特征提取特征视觉单词分数功能最接近的k张图用户预处理5.总结本文简单的介绍了数据挖掘的一些简单的知识,同时也简单的介绍了一些简单的数据挖掘中的应用。根据现有的一些数据挖掘在图像中的一些应用,建立了数据挖掘在基于内容的图像检索中的应用。本文就数据挖掘在图像检索中的两个应用,并且提出了现在图像处理中最常用的几个算法来进行检索。数据挖掘可以挖掘出很多有用的信息,数据挖掘近几年来发展的很好,但是我觉得他可以应用的的地方远远超出了我们每一个人的想象。引用1 杜琳, 陈云亮, 朱静. 图像数据挖掘研究综述J. 计算机应用与软件, 2011, 28(2):125-128.2 薄华, 马缚龙, 焦李成. 图像数据挖掘的模型和技术J. 西安邮电大学学报, 2004, 9(3):81-85.3 王迪. 图像数据挖掘的分类算法研究D. 长春理工大学, 2009.4 Zhang J,Hsu W,Lee M L Image mining: Issues, frameworks and techniquesC/ /International Workshop on Multimedia Data Mining ( withACM SIGKDD 2001) , 20015 Osmar R Zaiane,Jiawei Han,Ze Nian Li,et al MultimediaMiner: A System Prototype for Multimedia Data M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入驻培训机构协议合同标准文本
- 刷墙保质量合同样本
- 代加工窗帘合同标准文本
- 众筹会员合同标准文本
- 企业彩铃合同样本
- 别墅护栏拆除合同样本
- 副食购买合同标准文本
- 乡村振兴扶贫基地合同样本
- 动画版权合同标准文本
- 人事考试合同样本
- 2023年中考语文一轮复习考点梳理+对点训练(原卷版+解析版)(打包7套)
- 幼儿绘本故事:如果不洗澡
- 农业机械使用与维护课程标准
- 汽轮机上缸吊出及翻缸风险分析及管控措施
- 普通高中学生综合素质档案填写样表
- 大连理工大学机械制图习题集答案.
- 管道机器人毕业设计正文
- 小学生数学习惯养成总结-ppt课件
- 地铁工程施工作业流程化管理的主要控制措施_工程管理
- 49.5MW风电场变电所电气部分设计
- 喷淋水力计算表
评论
0/150
提交评论