用于图像场景分类的空间视觉词袋模型_第1页
用于图像场景分类的空间视觉词袋模型_第2页
用于图像场景分类的空间视觉词袋模型_第3页
用于图像场景分类的空间视觉词袋模型_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 卷 第 期 年 月计 算 机 科 学 用于图像场景分类的空间视觉词袋模型王宇新郭(大连理工大学计算机科学与技术学院禾何昌钦冯振,贾棋大连)(大连理工大学软件学院大连)摘 要 以传统的词袋模型为基础,根据同类场景图像具有空间相似性的特点,提出了一种用于图像场景分类的空视觉词袋模型。 首先将图像进行不同等级的空间划分,针对对应空间子区域进行特征提取和 均值聚类,形成该区 的视觉关键词,进而构建整个训练图像集的空间视觉词典。 进行场景识别时,将所有空间子区域的视觉关键词连接 一个全局特征向量进行相似度计算。 最终的场景分类结果使用 滤波器和 两种特征在支持向量机 上获得。关键词 场景分类,词袋,

2、空间聚类,空间视觉词典,支持向量机中图法分类号文献标识码 , (, ,)(, ,) , :“” ,人类视觉感知的一个显著特点是能够很快掌握一图像所表达的含义。通过实验证明,仅仅 组快速的图像流,观察者也能识别出每一幅图像的语 和一 些图像中的对象及其属 性。 这 种 通 过 快 速引言随着数码设 备的普及和信息存储与传 输技术的快速发 展,图像数据发生爆炸 性 增 长。 如何用计算机对大 量 且 不 断 增加的图像进行分析和理解,成为一项越来越紧 迫 的 任 务。 因此基于内容的检索技术已成为国内外研究的热点,并成为 世纪初必须攻克的关键技术之一。本文将重点关注图像场景识别和分类问题。 传统的

3、场景 分类方法通常使用色彩、纹理和形状等图像底层视觉特征直 接与监督学习方法相结合进行图像场景分类;或 者 对 场 景 中的目标进行有效的分析,以完成场景的整体识别,具有代表 性的如王涛、胡事民和孙家广院士提出的基于颜色空间特征 的图像检索方法;或者采用文本主题模型的方法将 图 像 分 类到不同的语义类别中:将图像的局部不变特征聚类为一组 视觉词汇,并用词袋()模型来表示,最后用 ()或 ()等主题分析模型找出图像的潜在语义和 最可能属于的主题,从而完成场景分类。)观察图像所获得 的视觉和语义信息称为 图。 在拍摄照片时,摄影师总是尽可能把能反映图或者语义的对象和特征显示在图像中心。 这一拍摄

4、习 大多数针对同类目标的图像都有相同的拍摄角度,即像具有空间相似度。 例如,许多城市的图像是这样一种高楼下面连接着人行横道,而顶上是蓝天;高速公路是大的平面向水平线方向延伸,期间充满了一些凹凸。 这果我们把图像划分为一些空间子区域,对应的子区域该有相似的特征,如图 所示。上述主题分析模型是根据图像中视觉词汇出现的况进行分类的,既没有考虑视觉词汇在空间的分布特点有利用图像中区域语义构成的上下文信息,而这些是被忽视的。 空间金字塔模型的提出更是给了研究者 的启示。 本文提出了一种用于图像场景识别的空间视到稿日期: 返修日期:王宇新(),男,博士生,讲师, 会员,主要研究方向为图像 处 理、计算机系

5、统结构,:;郭 禾( )授,博士生导师, 高级会员,主要研究方向为计算机系统结构、计算机视觉;何昌钦( ),男,硕士生,主要研究方向为图像识别;(),男,博士生,主要研究方向为基于内容的图像检索;贾 棋(),女,博士生,讲师,主要研究方向为计算机视觉、人工神经网提取并聚类,以形成该区域的视觉关键字,进而构建整个训练图像集的空间视觉词 典。 进行场景识别时,把 所 有 空 间 子 区 域的视觉关键词连接起来形成一个全局特征向量进行相似度 计算,以获得最终的场景分类结果。空间视觉词典我们已经知道大多数图像具有空间相似度,并 且 在 空 间 子区域内聚 类能得到属于对应空间子区域的原 型 特 征。

6、因 此,提 出 一 种 “空 间 视 觉 词 袋”模 型,它是视觉词袋模型的扩 展。 具体来说,首先有层次地把图像进行空间划分(如图 所 示),再把空间对应子区域聚集在一起,构建属于对应空 间 子 区域的空间词典,过程如图 所示。图不同层次的图像空间划分图空间子区域具有相似性示例空间视觉词袋模型词袋模型与视觉词典词袋()模型原是自然语言处理领域用 于 文 本信息检索和文本 分 类 的 技 术。 用它做图像表示 模 型(我 们称之为视觉词袋模型),需要将二维的图像信息映射成视觉 关键词集合,这样既保存了图像的局部特征又有效地压缩了图像的描述。为了使用视觉词袋模 型,首先要在学习阶段 建 立 视

7、觉 关 键词的集合:在训练图 像 集 中,提取出所有局部特征,然 后 对 这些特征进行聚类,得到的结果是训练集中的普 遍 特 征。 我 们称这些原型特征为“视觉词典”。图空间视觉词典的构建形式上,定义,为第 个空间子区域的 级划分, 为 级划分下空间子区域的数目,这 样 就 得 到 (, ,)。 同时可以定义 , 为 级 划 分 下 第 个 空 间 子 区 域 内的视觉词典, , 。基于空间视觉词袋模型的场景分类过程一旦得到了每一个空间子区域的视觉词典,视 觉 词 袋 表 示就能通过常规的方 式 得 到。 对于每一幅图像,空 间 子 区 域 内的每一个像素的特征表示被投影到相应空间词典的一个单

8、 词通道上。 每个子区域的第 直方图通过统计有多少像素在 单词通道 上得到,这个直方图表示在空间子区域内 的 视 觉 词典的词频,见式()。空间聚类视觉词袋模 型在从训练图像集的图片 中提取低级特征 后,需要使用一种无监督的算法,如 均值算法,对这些低 级别特征进行给定聚类中心数目的聚类。 给定一组观察值的 序列( , , , ),这里,每一个观察值都是一个 维 的 实 值向量。 均值聚类的目标是划分这 个观察值到 个序列 里 , ,(),见式(),其中 是 的均值。(,)() ()(),式中, 是 指 示 函 数,()是返回映射到像素 的 关 键词 通过这种方式 就引入了空间子区域的空间相似

9、信息。,。() 为了识别一个场景的 类 别,需要把所有空间 子 区 域 的 视觉关键词连接起来,得到一个全局特征向量。 最 终 的 分 类 识 别率通过支持向量机来获得,整个过程如图 所示。通过把一个聚类中心当作一个视觉关键词,就 能 把 每 一个从图像中提取的特征映射到它最接近的视觉词典上,并且 能把图像表示为一个视觉词典上的直方图特征。图不同范围的聚类示例图空间视觉词袋模型分类过程在视觉词袋模型中,聚类是最重要的。 词典的语义准确 性对最后的识别率有着直接的影响,它取决于词典中的特征图像间的相似度度量相似度。 令 ( ,)和( )分别为两幅不同图像和 在, () 级别 划 分 下 的 第

10、个子区域的视觉词袋表示。 我 们 用 相似度来衡量二者之间 的 距 离,计 算 方 法 见 式(),相 似 度 示 例如图 所示。通过强度值比较得到的 位数可以以任何顺序组(采用从上到下、从左 到 右 的 顺 序),得 到 一 个 位 二 进与它对应的十进制数范围在,区间。 如 图 ()、 , ( )()( )() ,( ),( ) ,示,变换后的图像不仅包含了全局特征,而且捕捉到了节特征。 ( )()( )(),()在级别划分下,图像 和 之间的距离用式()进 行 计算。( ( ), ( )( ,) ( ) , ,()原始图像()变换后图像图 变换示例视觉词袋模型采用聚类来获得词典,词 典

11、中 的 单图像集中最 普 遍 的 特 征。 而我们的模型是基于空 间 相的,换句话说,就是想找出图像集的空间对应子区域内遍的特征。 中 提取了中心变换直方图分 重要的特征,从一定角 度 上 说,和视觉词典具有类 似 的 所以我们想获得空间 的实验结果来加以比较。图不同图像间的相似度示例特征提取实验与分析本文提出的是一种能适用于各种类型特征 的 通 用 框 架,本节将简单介绍两种用在实验章节的图像特征:表述人类的 纹理识 别 力 的 “”滤 波 器 和 中 心 变 换 的 主 成 分 分 析 。 滤波器 区域是灵 长 类 动 物 的 大脑皮层的视觉区域,是 最 简 单、最早的视觉皮层区。 它在处

12、理静态和动态对象 信 息 以 及 在模式识别中具有重要作用。 许多多尺度滤波器模型能描述 人类的纹理识别 力,这些滤波器满足了 区 域 中 简 单 皮 层 细胞感受野的定义。本文模型是基于空间对应子区域的相似度的,我 们 是 从 人类认知识别角度找到这一特性的。 所 以 首 先 选 择 滤波器作为一种特征类型,并采用高斯函数的一阶导数和二 阶导数去构造积分对,见式()。 实验首先使用 和 提供的图像数据库测试,此数据库包含 类 场 景 图 片,每 类 中 有 到 大小为 像素的图像,如图 所示。 分类识别支持向量机 来获得。图 和 图像数据库(,) () ()表 显示了使用 滤 波 器 作为基

13、本提取特征,每()景用 幅 图 像 做 训 练,其余图像做测试时的实验 结(,) ( ) ( ) 式中,()表示一个具有标准差为 的高斯函数。 是衡量滤波器延伸率的一个标准。 滤波器组具有 个尺度自由 度、 个角度自由度,它们比 滤波器具有更广的感受野。 为了更好地阐述模型 的 优 点,同时采用另外 一 种 完 全 不 同于 滤波器的 特 征 ( ),即中心变换直方图的主成分分析。 主 成分分析 ()是一种统计分析 方法,它能从多元事物中提取主要因素,从而反映事物的本质。 中的中心变换比较了中心像素与周围 像素的强 度值,举列如下:()表示空间划分级别,表示每个子区域内聚类量(视觉关键词数),

14、做对比的是经典的词袋模型方法。表 特征的实验 结果()(经典词袋空间视觉词袋经典词袋空间视觉词表 中可以看出无论空间怎样划分,聚类中心有多文方法都比传统的不含空间信息的词袋方法的识别率当子区域内聚类中心数合理时(如),空间划分 越 细 王涛,胡事民,孙家广基于颜色空间特征的图像检索软件学报,(): , , ,(): , ,: : ,(): ,: ,: ,: (): (),: ,: 李远宁,刘汀,蒋树强,等基 于 的视频匹配方法 通信学报,(): , ,: , ,(): , :, ,? ,(): , : ,: , : ,:,: : , : ,因素比更多的视觉关键词具有更高的辨别力。空间词典中的视

15、觉关键词能够捕捉子区域内普遍特征的 广义上的词汇,而 能够从多元事物中提取主要因素从而 反映事物的本质。 我们同样在空间视觉词典框架内计算每个 子区域的 特征。 表 显示了使用 的实验结果,可 以看到空间 方法的识别率远高于经典 方法。表 特征的实验 结果()经典算法空间 实验是由等构建的 包 含 个 物 品分类(如人脸、飞机、古物、钢 琴 等)共 幅图像的图像库,如图 所示,很多类型的物品图片也具有空间相似性。图 图像数据库按照 的 方 法 在 图 像 库 上做物体识别的实验:每个类别中训练 幅 图 片,测 试 图 片 是每类 幅。 表 给出空间划分级别 时 使 用 和 特征时的平均识别率,可以看出空间相似度被发掘 出来后识别率大大提高。表 实验 结果()()经典词袋空间视觉词典经典算法空间 结束语 本文基于传统的词袋模型提出了一种空间视觉词袋模型。 图像被划

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论