下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种基于语义空间谱聚类的自动图像标注方法郭玉堂1,2,韩昌刚2 1合肥师范学院计算机科学与技术系,合肥 2306012安徽大学计算机科学与技术学院,合肥 230039摘 要: 由于“语义鸿沟”的存在,低层特征相同或相似的图像,其语义有可能完全不同。如何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域研究的难点之一。在详细分析现有的图像标注方法优缺点的基础上,提出了一种基于语义一致性的谱聚类图像标注方法。该方法首先在语义空间内,对训练图像先按语义聚类,使得语义相同或相近的图像处于同一类中,再对每个语义类按区域特征聚类,把相似区域聚类到同一个块中,然后运用多伯努利模型求出语义类中每个块
2、与语义间的联合概率分布,利用该联合概率分布模型为未标注图像进行标注。实验结果表明所提出的方法明显提高了标注准确度。能有效地建立图像的低层特征与语义特征间的一致性。关键词: 图像标注 K-调和均值 图谱聚类 语义鸿沟Automatic Image Annotation Using Semantic Subspace graph spectral clustering AlgorithnGuo Yu-tang1 , Han Chang-gang21Department of Computer Science and Technology in Hefei Normal College, Hefei
3、 230061,China2School of Computer Science and Technology in Anhui University, Hefei 230039,ChinaaieytAbstract: Due to existing the semantic gap, images with the same or similar low level features are possibly totally different on semantic level. How to find the underlying relationship between the hig
4、h-level semantic and low level features is one of the difficult problems for image annotation. In this paper, a new image annotation method based on graph spectral clustering with the consistency of semantics is proposed with detailed analysis on the advantages and disadvantages of the existed image
5、 annotation methods. This method firstly cluster image into several semantic classes by semantic similarity measurement in the semantic subspace. Within each semantic class, images are re-clustered with visual features of.region Then, the joint probability distribution of blobs and words was modeled
6、 by using Multiple-Bernoulli Relevance Model. We can annotate a unannotated image by using the joint distribution. Experimental results show the the effectiveness of the proposed approach in terms of quality of the image annotation, the consistency of high-level semantics and low level features is e
7、fficiently achieved.Key Words: image annotation, K-Harmonic Means, graph spectral clustering, semantic gap基 金项 目:安徽省自然科学基金项目(11040606M134)、安徽省高校自然科学基金重点项目(KJ2009A150)1 引言自动图像标注指的是指借助计算机视觉、机器学习与模式识别等多学科技术,从一组已标注好的图像集合中学习图像特征与文本标注两种模态间的相关性,为未标注的图像推理出最为可能的标注或关键字。一旦图像被成功标注,图像检索问题就可以转化就可以用这样一组关键词来进行,当前技术
8、已相当成熟的文本检索方法就可以用于图像检索1中。因此,图像语义标注得到了国内外相关领域的研究人员的广泛重视。目前,国内外已经有许多学者提出了各种不同的方法,并取得了相当多的成果。如共现模型2、翻译模型 3-4、交叉媒体相关模型 5和多伯努利相关模型6等。聚类分析是机器学习领域中的一个主要分支,是人们认识和探索事物之间内在联系的有效手段。近几年来,基于聚类分析的自动图像标标注技术运应而生,并取得了可喜的效果。在参考文献7-8中,聚类用于一组训练图像的低层特征,利用统计学方法获得低层特征与标注词间的一组映射。用获得的映射规则标注图像。这些方法都基于一种假设:视觉特征相同或相似的图像,其语义也应相同
9、相似。由于语义鸿沟的存在,实际情况并非如此,那些有着相似的视觉特征的图像它们的语义并不相同,甚至相差很远。如“天空”与“大海”是不同的语义,但它们的视觉特征却很相似。如何挖掘图像的高层语义与低层特征之间的内在联系是当前图像标注领域中研究难点之一。本文提出基于语义子空间谱聚类的图像自动标注方法。为了建立图像的低层视觉特征与标注文本特征间的相关性,在训练集上分别提取图像的低层视觉特征和语义特征。在语义子空间内,以图像标注词作为特征向量,利用调和均值谱聚类算法对图像进行聚类,形成若干个语义类。用每个类的中心词作为该类的标签,再在图像空间内对每个语义类中的图像分割成区域,提取每分割后的每区域的低层特征
10、,根据区域的低层特征的相似关系,再次利用谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成若干个块。然后运用多伯努利模型求出语义类中每个块与主题词的联合概率分布,通过两次聚类有效地建立图像的低层特征与语义特征间的一致性。这样,我们就在图像语义与低层特征之间架建了一座桥梁。利用该联合概率分布我们可以为未标注图像进行自动标注。2基于语义子空间谱聚类的图像自动标注2.1 基于K-调和均值谱聚类如果把一幅图像看作一个文档,图像的标注词看作文档的关键词,那么我们对图像的标注词为特征进行聚类,就采用文本聚类方法对图像进行聚类了。目前流行的聚类方法主要有以K-Means为代表的基于划分的方法和谱聚类方
11、法等。谱聚类方法是基于图理论,根据数据间的相似性进行聚类,由于与数据点的维数无关,只与数据点的个数有关,因此适用于非测度空间。它得到广泛关注9。但传统的谱聚类算法对初始中心选择的比较敏感,使得其运行结果不稳定,且易于陷入局部极小点。同时,文本聚类问题本身也有其特殊性,文本向量通常为稀疏向量,含有较多的0,这也为聚类中心的选择带来困难。为此,我们通过引入K-调和均值,改善谱聚类算法的性能。K-调和均值(K-Harmonic Means,KHM)算法10是一种基于中心的聚类算法,该算法通过计算数据点到聚类中心距离的调和平均来构造其性能函数。算法表述如下:算法1:基于 K-调和均值谱聚类算法输入:n
12、个数据点,聚类数目k输出:数据点集的类别Step 1: 构造相似矩阵,其中,。其中是参数. Step 2: 构造Laplacian矩阵。其中是对角矩阵,Step 3: 计算的前k个最大的特征值所对应的特征向量,生成矩阵;Step 4: 将矩阵的行向量转变为单位向量,得到矩阵。Step 5: 采用KHM算法,把矩阵的每行聚成k类;由于KHM算法用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,克服了对初始值敏感的问题。2.2 基于语义子空间的图像聚类设是用于标注图像的关键词词汇表,m是词汇表的大小,设是训练图像集,是图像的一组标注词。如果把图像看作一个文档,则可视为文档的关
13、键词。对每个图像,我们构造其关键词的矢量。如果词汇表中第k个关键词,则。否则。由此我们可得到训练图像集中图像的标注词特征向量: (1) 两特征向量,之间的距离定义为,利用余弦距离计算的值。在文本空间内,以图像标注词向量作为特征,利用K-调和均值谱聚类算法对进行聚类,形成n个语义类。用每个类的中心词作为该类的语义(类标签)2.3 图像低层特征与语义映射关系在每个语义类中,我们把图像分割成区域,提取分割后的区域的低层特征(包括形状、空间位置、颜色和纹理等)用特征矢量表示。采用24维矢量表示。根据区域的低层特征的相似关系,再次利用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块(blob
14、)中,形成K个块。通过优化块的个数K,使得每块内尽可能集中,块与块间距尽可能远离。为了确定最优K值,通过设置不同的K进行多次聚类,对不同的K值,计算各块之间的距离和每个块内距根据Davies-Bouldin指数11,式(2): (2) 取得最小值时的K应为最优的K值,也即: (3) 从而,在每个语义类内,我们获得了k个块。这些块继承了所在类的语义。通过两次聚类,训练图像集被分割成若干个语义类,每个语义类用可用块的中心特征和该类的关键词表示: (4) 在一个语义类中,块与关键词的联合概率分布通过下式求得: (5)式中是类的先验概率,表示类中关键词的条件概率,根据多伯努利模型可得: (6)上式中是
15、平衡系数;如果类有标注词,取值为1,否则为0。表示标注词在类中出现的次数,表示类中图像个数。可能通过下式计算得到: (7)其中表示块中区域的个数。算法描述如下:算法2:区域块与标注词语义映射算法输入:训练图像集; 标注词词汇表 ; 输出:区域块与语义词的联合概率表。Step 1: 对每一训练集中图像,提取其颜色、纹理、形状等低层特征,并组成特征向量。根据公式(1)提取标注词特征向量Step 2: 以标注词特征向量为特征,利用K-调和均值谱聚类算法对图像进行聚类,形成n个语义类。并计算每个类的中心词作为该类的语义Step 3: 对每一图像,运用分割算法进行区域分割,提取分割后的每区域的低层特征(
16、包括形状、空间位置、颜色和纹理等)用特征矢量f 表示;Step 4: 根据区域的低层特征的相似关系,再次利用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成K个语义块。 Step 5: 利用公式(5)。计算块与词的联合概率并保存。2.4图像标注过程利用公式(5)我们可以为未标注图像进行自动标注。对输入的待标注图像,首先进行分割,提取各区域特征,对每一个确定它所在块: (8)然后,计算词汇表中每一个标注词对图像的概率: (9)其中: (10)表示区域像素的个数。 (11)输出前N个概率最大的词汇作为I的最终标注结果。算法描述如下:算法3:图像标注算法输入:区域块与主题词的联合
17、概率表; 待标注图像;输出:前N个概率最大的词。Step 1: 对输入的待标注图像,首先进行分割,提取各区域特征Step 2: 利用公式(8)对每一个确定它所在块Step 3: 利用公式(9)计算每个标注词对图像的概率Step 4: 输出前N个概率最大的词。3 实验结果与分析为了便于进行比较,我们采用Duygulu等人的Corel数据集作为实验数据,这是由于近年来在该数据集上公布的、可供参考的实验成果最为全面。实验中我们仍然使用平均查准率(average precision)与平均查全率(average recall)作为图像标注的性能指标。我们根据图像的标注词特征向量,采用利用K-调和均值谱
18、聚类算法对每组图像进行聚类,形成87个语义类。用每个类的中心词作为该类的语义(类标签)。图(1)是语义类实例(a) Jet plane sky (b) cloud sky sun图1 语义类Fig.1 Examples of semantic classes在每一个语义类,利用图像分割方法12把每幅图像分割成2-10个区域并提取每个区域的形状、空间位置、颜色和纹理等24维区域特征向量。根据区域的低层特征的相似关系,再次调用K-调和均值谱聚类算法把同一语义类中的相似区域聚类到同一个块中,形成K个语义块。实验中K取4-5效果较好,这和式(3)计算结果一致。这样,每一组Corel图像集共形成了369
19、个语义块。然后计算每个语义块与标注词的联合概率。对待标注图像,首先进行分割,形成2-10区域,同样提取每个区域的形状、空间位置、颜色和纹理等区域特征向量。计算每个区域与语义块的相似度,采用公式(10)计算图像与词汇表中的每个标注的联合概率,输出前5个概率最大的词汇作为I的最终标注结果。在Corel数据集上,我们把当今其它优秀算法的性能指标作为基准,比较了本文提出的基于谱聚类的图像自动标注系统的标注性能。Avg-precisionAvg-recall00.050.4CMRMMBRMProposed algorithmTM图2 Corel数据集上不同标注系
20、统的性能比较Fig. 2 Performance comparison with different annotation on Corel data set与其它基于聚类的图像标注方法相比较,本文提出的方法无论是平均查准率,还是平均查全率都得到改善。我们从图(2)中可以看出,本文提出的方法在Corel数据集上超过了TM、CMRM和MBRM的性能。4 小结本文提出了一种简单、有效的图像自动标注方法。为了建立图像的低层特征与语义特征间的相关性。被提算法首先在语义子空间内,对训练图像先按语义聚类,使得语义相同或相近和图像处于同一语义类中,再对每个语义类按区域特征聚类,使得相似区域聚类到同一个块中。
21、通过这两次聚类有效地建立图像的低层特征与语义特征间的一致性。然后利用多伯努利模型求出区域块与语义词的联合概率分布,在图像语义与低层特征之间架建了一座桥梁。有效缩短了语义鸿沟。在Corel数据集上,进行实验比较,结果表明所提出的方法较好地提高了图像标注准确度。参考文献1 Liu Y,Zhang D S,Lu G J,et al. A survery of content-based image retrieval with high-level semanticsJ.Pattern Recognition. 2007, 40(1): 262-2822 Mori Y,Takahashi H,Oka
22、 R. Image-to-word transformation based on dividing and vector quantizing images with wordsOL. http:/citeseer.ist. /368129.html3 Duygulu P,Barnard K,de Freitas J F G, et al. Object recognition as machine translation:learning a lexicon for a fixed image vocabularyM. Leture Noyes in Computer Sci
23、ence. Heidelberg: Springer. 2002, 23(53):97-1124 Barnard K, Duygulu P, Forsyth D,et al. Mathing words and picturesJ. Journal of Machine Learning Research.2003,3(2):1107-11355 Jeon J,Lavrenko V,Mnmatha R. Automatic image annotation and retrieval using cross-media relevance modelsC. Proceedings. of th
24、e 26th Annual Intelnational ACM SIGIR Conference on Research and Development in information Retrieval,Toronto.2003:119-1266 Feng S L, Manmatha R, Lavrenko V. Multiple Bernoulli relevance models for image and video annotationC. Proc. Of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington D C, 2004:1002-1009 7 Stan D, Sethi I K. Mapping low-level image features to semantic conceptsC. Proceedings of the Storage and Retrieval for Media Databases. 2001:172-179.8 Jin W, Shi R, Chua T S. A semi-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度购房定金及房产交易税费减免协议
- 二零二五年度石材加工与石材雕刻艺术传承合同
- 二零二五年企事业单位内部食堂运营管理协议
- 二零二五年度零风险的企业股权让渡合同
- 2025年度汽车保险代理订车协议及购车合同规范
- 二零二五年度基础教育教师聘用合同
- 二零二五年度药师聘用合同(含药品研发项目管理)
- 二零二五年度北京科技创新型中小企业园区拆迁补偿与孵化服务协议
- 2025年度餐厅员工入职协议及食品安全责任承诺书
- 物业维修管理协议书(2篇)
- 安庆汇辰药业有限公司高端原料药、医药中间体建设项目环境影响报告书
- 档案工作管理情况自查表
- 初中英语人教版 八年级上册 单词默写表 汉译英
- pcs-9611d-x说明书国内中文标准版
- 无人机航拍技术理论考核试题题库及答案
- T∕CMATB 9002-2021 儿童肉类制品通用要求
- 工序劳务分包管理课件
- 工艺评审报告
- 中国滑雪运动安全规范
- 毕业论文-基于51单片机的智能LED照明灯的设计
- 酒厂食品召回制度
评论
0/150
提交评论