图像语义自动标注介绍_第1页
图像语义自动标注介绍_第2页
图像语义自动标注介绍_第3页
图像语义自动标注介绍_第4页
图像语义自动标注介绍_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、介绍人:李思辉 图像语义自动标注 课题介绍 1 问题提出背景问题提出背景 随着数字影像技术与互联网技术的迅速发展, 互联网上有约数以百亿记的图像,如何快速的检 索到用户需要的图片成为一个关键问题。 目 前 商 业 化 的 图 像 搜 索 引 擎 如 baidu 、 Google、Yahoo等都是以文本关键字的形式来查 询,其关键字主要依靠人工标注及Web文本,工 作量巨大,且缺乏一定的客观性。 2 目前图像检索方式目前图像检索方式 (1)基于文本的图像检索(Text-based Image RetrievalTBIR) 通过关键字检索,图像库中的关键字由人工标注,现有互联网搜索 引擎主要使用此

2、方式。 优点:将图的检索问题转为文本的检索问题,效率高,技术成熟。 缺点:需要人工给每幅图片标注对应的若干个语义词,工作量巨大。 (2)基于内容的图像检索(Content-based Image Retrieval CBIR) 输一幅图像,通过计算图像的可视特征(如颜色、纹理、形状等) 来实现图像的匹配与检索。 优点:无需人工标注,由计算机自动计算特征并匹配。 缺点:“语义鸿沟”使检索出的结果不能完全反映检索者的意图。 基于内容的检索结果基于内容的检索结果 1 基于内容的检索结果基于内容的检索结果 2 此概念于1992年由T.Kato在论文“Query by Visual Example -

3、Content based Image Retrieval” 中提出。最早应用是IBM的 QBIC系统,是为一个俄国博物馆制作的绘画作品查询系统。 目前基于内容的图像检索系统,例如:谷歌搜图、百度 识图等,因为“语义鸿沟”的原因,都不能很好的匹配用户 的检索意图。 所谓“语义鸿沟”是指基于图像底层可视特征(颜色、 纹理、形状等)的匹配,并不能完全反映用户更高层次的语 义查询,例如:生命、呵护、沉思 图像检索问题的思考? (1)如何克服方式1中人工标注的难题? (2)如何克服方式2中“语义鸿沟问题”? 答案:让机器代替人去做。 答案:让机器进行多示例学习。 结论:结论: 让机器通过多示例学习后自

4、动完成图像内容 语义的标注,即图像语义自动标注。 3 什么是图像语义自动标注什么是图像语义自动标注 图像自动标注(Automatic Image Annotation ,AIA)就是让计算机自动地给 图像加上能够反映其内容的语义关键词。自动标注的使用可以有效改善目前 的图像检索困境。使检索在保留基于文本关键词搜索的同时,免去了人工标 注的巨大工作量,也一定程度的跨越了“语义鸿沟”。 它是图像语义理解研究领域的一个热点。由Mori等人在1999年提出。 涉及技术:涉及技术:图像处理(增强、去噪、分割等)、计算机视觉(特征提取)、模式 识别(分类和理解)、机器学习(建立分类器)等。 4自动标注方法

5、原理自动标注方法原理 利用已标注图像集或其他可获得的信息自动学习语义概念 空间与视觉特征空间的关系模型,并用此模型标注未知语义的 图像。即试图在图像的高层语义和低层视觉特征之间建立一种 映射关系,一定程度上解决“语义鸿沟”问题。 (1)基于整幅图特征的语义映射;(自然场景、纹理、建筑,不区分前后景) (2)基于规则块或同质区域的语义映射; (比(1)多了位置区分) (3)基于图中物体识别的语义词射;(语义更准确、更丰富) 5 用于标注实验的数据集 目前较为公认的图像集是目前较为公认的图像集是Corel-5k Corel-5k 它由科雷尔公司收集整理,分成三部分: (1)4000张像作为训练集;

6、 (2)500张作为验证集用来估计模型参数; (3)500张作为测试集评价算法性能; 5000张图片按照每100张一个主题,共分为50个主题。 图像库中的每张图片被标注35个标注词,训练集中 总共有374个标注词,在测试集中总共使用了263个标注词。 6 特征提取的主要方法特征提取的主要方法 (1)基于颜色的特征提取 由于颜色特征具有对尺度、平移和旋转等不变的特性, 同时颜色特征是我们辨别物体的主要方法,所以基于颜色的 特征提取是目前图像特征提取的最常用方法。 常用的颜色特征提取方法有: 颜色直方图法 颜色矩法 颜色聚合向量法 颜色相关图法 颜色集法 6 特征提取的主要方法特征提取的主要方法

7、(2)基于纹理的特征提取 纹理是物体表面固有的一种特性,它具有区域特性和 旋转不变性,反映了不同对象之间的区分。所以纹理也是 图像的主要提取特征。 常用的纹理特征提取方法有: 局部二值模式法 灰度共生矩阵法 随机场模型法法 基于小波变化法 基于Gabor滤波器法 自回归纹理模型法 结构法 6 特征提取的主要方法特征提取的主要方法 (3)基于形状的特征提取 形状是刻画物体的基本特征之一,用形状区别物体非 常直观。通过形状特征的提取可以识别图像中所包含的事 物或对象,从而提取出其中感兴趣的目标。 常用的形状特征提取方法有: 边界特征值法 几何参数法 形状不变矩法 傅里叶形状描述法 6 特征提取的主

8、要方法特征提取的主要方法 (4)基于空间关系的特征提取 空间关系是指图像中多个目标之间的相互位置或方向 关系。这些关系可分为连接、邻接、交叠、包含等。空间 关系加强了图像内容的描述和区分能力。 空间关系特征提取方法: 基于图像的规则子块分割,建立子块索引法。 基于图像中对象或区域的分割,建立对象索引。 7 图像相似度的计算图像相似度的计算 判断两幅图像是否相似,就是计算两幅图像的特征向量, 然后将特征向量看做多维空间中的点,然后计算两点之间的 距 离, 距离 越 短越相 似 。常 用的 距离 度量 公式 有: Minkkowsky距离,Manhattan距离,Euclidean距离,加权 Eu

9、clidean距离,Chebyshev距离,Mahalanobis距离等。 当然还有其它方法,例如:支持向量机的分类学习方法, 它将图像的匹配过程看成是相似图像的分类过程。 8 图像标注的主要方法图像标注的主要方法 (1)基于分类的标注算法 将标注问题看成是图像语义分类问题。将每个语义关键词 都看成是一个类别标记,则图像标注问题就转化为图像分类问 题。 按照每个标注词将训练集分为正例和反例; 提取所有正例的全局特征和反例的全局特征; 根据正反例特征值构造分类器; 用每个标注词分类器为待标注图像分类; 在所有标注词中选取分类值最高的几个作为标注词; (具体方法模型:多示例学习、 SVM、语言索引

10、法、多样性密度法、高斯混合模型等) 8 图像标注的主要方法图像标注的主要方法 (2)基于概率关联模型的标注算法 在概率统计模型的基础上,分析图像区域特征与语义关键 词之间的共生概率关系,并以此为待标注图像进行语义标注。 (两篇内容最相似的文章,其相同单词出现的概率就最高) 将训练集中每幅图像进行区域分割;(每个区域可为一个视觉单词) 提取每幅图像的区域视觉特征;(颜色、纹理、形状等;即提取视觉单词) 将所有图像的区域视觉区域视觉特征聚类; (即建立视觉单词字典) 用统计方法计算每个区域视觉特征与标注词的相关概率; (?) 根据待标注图像的区域视觉特征对其标注最相关的几个标注词; (具体方法模型

11、: Co-occurrence 模型、翻译模型、 LDA、CMRM、CRM、MBRM模型) 8 图像标注的主要方法图像标注的主要方法 (3)基于图学习的标注算法 将已标注图像和未标注图像放在一起,将每一幅图像 视为一个图节点,以图像间的相似关系作为边,实现标注 信息从已标注图像到未知图像的传播,从而完成对待标注 图像的标注任务。 同样的方法也可用于标注词,并依据标注词之间的语 义相关性进一步改善基于图学习生成的标注。 9 标注的评价指标标注的评价指标 相关 不相关 检索到 A B 未检索到 C D (1)查全率 = A/(A+C) (2)查准率 = A/(A+B) 该评价指标主要借鉴于文本检索

12、领域的查全率和查准率,针对图 像的非精确度匹配原则,有待于寻找一种更适合的评价标准。 10 WordNet在标注中的作用 WordNet是由Princeton大学的心理学家、语言学家和计算 机工程师联合设计的一种基于认知语言学的英语词典。它按 照单词的语义将其组成一个“单词网络”,体现了不同单词 间的语义层次和关系(相近、对立、包容等)。在自然语言 理解和人工智能的应用研究上都具有重要的价值。 在图像语义自动标注中,可以借助WordNet的结构化语 义信息来衡量词汇之间的关系,从而更好的选取适当的语义 词(生物、鸟类、白鸽),以及剔除冗余的语义词(计算机、 电脑)。 11 课题研究可能的切入点

13、课题研究可能的切入点 (1)颜色、纹理、形状这些底层特征间的权重、优先序。 (2)文本检索比较成熟,从文本检索中找一些启发。 (3)基于区域的不均匀块分割(快速、易分割、位置相关) (4)基于视觉权重的图像特征提取(基于心理学的视觉焦点) (5)从图像+相关文本+人反馈的综合角度提出新的方法思路,从质上 改变鸿沟现状。 12 问题与疑惑问题与疑惑 (1)“语义鸿沟”似乎永远无法逾越,目前所有工作只是缩小“鸿沟”而 已。人工标注的训练集也不是最客观、无“鸿沟”的。 (特征语义,对象语义,空间关系语义,场景语义,行为语义以及情感语义) (2)若训练集共有500个标注词,那么构造出的分类器给出的词也就是那 500个,这如何足够去描绘丰富的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论