




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两南人学硕+ 学何论文 摘要 基于开放逻辑的图像语义标注方法初探 逻辑学专业硕士研究生林田 指导教师何向东教授 摘要 互联刚图像信息数据晕的增长迫使我们要开发出更有效率的图像检索技术。目前,最简单和便 利的网上检索方式是通过提供文本语义信息,由用户输入交互式查询页面进行检索。然而,在语义 层面上的图像自动匹配尚未有令人满意的解决方案。 现有的图像检索方案可分为两人类,基于文本的图像检索( t b i r ) 和基于内容的图像检索。t b i r 具有语义相关性,它体现在图像和他所处的背景文本之间的确有语义上的联系;c b i r 是语义无关的, 除非我们给某个图像特征人工指定一个语义标签。这两种数据都不适合与互联网语义检索引擎所需 应对的不断增长的海量数据。t b i r 提取的信息太有限,会影响对背景信息的解读从而降低检索结果 的精确性;c b i r 处理的仅仅是图像特征的相似性问题,它仍然需要一个将语义同图像自动准确对应 的机制,而这种机制只是在理论上可行。 显然,由于技术上的局限,仅仅依靠t b i r 或是c b i r ,甚至是两者的简单综合,都无法完成这 个庞大的任务。但我们观察到,c b i r 方法有数据友好的重要特点,它作为一个图像分析工具来说是 必需的:而t b i r 则是典型的用户友好型工具,它是对人类语义表达的直接接近。鉴于此,本文提 出,在两者之问插入一个中问层是必要的。我们的方案是引入一个类似于语义网络的推理系统,并 以开放逻辑( 李未) 作为维护其庞大知识库中规则和事实的工具。利用这种方法,我们就可以建立 起整个图像语义的结构,并构造底层特征和高层语义的桥梁。如果我们把c b i r 比作视神经对视觉 信息的初步处理,而把t b i r 比作我们的语言表达能力,那么我们就可以说,这个推理系统的作用 相当于人的大脑。我们都知道,人脑是人类最终要的器官,也是我们智慧的秘密之源。 关键词;图像语义检索c b i r 开放逻辑人工智能 两南大学硕十学位论文 a b s t r a c t 鼍ii e - -i 鲁蔓曼皇曼皇篡皇璺曼曼曼 al o o ki n t ot h ei m a g ese m a n t i cm a r k i n gs t r a t e g y b a s e do no p e n l o g i c m a s t e rd e g r e ea p p l i c a n t :l i nt i a n s u p e r v i s i n gp r o f e s s o r :h ex i a n g d o n g a bs t r a c t t h es t o c k p i l i n go fo n l i n ei m a g ed a t ah a sf o r c e du st od e v e l o pe q u i v a l e n tc o u n t e r m e a s u r e sf o rt h et a s k o f d a t am a n a g e m e n t t h ee a s i e s ta n dm o s tc o n v e n i e n tw a yo fi s s u i n ga no n l i n es e a r c hi st oi n p u td e s i r i n g s e m a n t i cc o n c e p t sv i at e x td a t ai n t oaw e bb a s e di n t e r a c t i v ei n t e r f a c e ,y e ts of a r , n os a t i s f y i n gs o l u t i o n so f a u t o m a t i cc o n t e n tm a t c h i n gw e r ep r o v i d e do ns e m a n t i cl e v e l t h ep r i n c i p a ln l e a r l 8a v a i l a b l en o wc a nb ed i v i d e di n t ot b i r , t e x tb a s e di m a g er e t r i e v a la n dc b i i l c o n t e n tb a s e di m a g er e t r i e v a l t b i ri sr e l a t e dt oi m a g es e m a n t i c sf o rt h eb a c k g r o u n di n f og i v e nb y i m a g ec o n t e x t ,c b i r ,s o m e h o w , i ss e m a n t i ci r r e l e v a n tu n l e s sp a r t i c u l a rl a b e l ( s ) w e r ea s s i g n e dt ot h a t i m a g ec h a r a c t e r b u tn o n eo ft h e mw o u l db ef e a s i b l ef o rar e a l - t i m es e m a n t i cs e a r c he n g i n ea p p l i e do n t o t h ee v e re x t e n d i n gi n t e r a c ta n di t sm a s s i v ed a t a t b i re x t r a c t so n l yl i m i t e di n f o r m a t i o nf r o mt h ec o n t e x t t h a tw i l lh i n d e rt h ea c c u r a c yo ft h es e a r c ho u t c o m e ,w h i l ec b i rd e a l ss i m p l yt h es i m i l a r i t yb e t w e e ng i v e n i m a g ef e a t u r e s d e m a n d i n ga na c c u r a t ep a i r i n gs t r a t e g yf o rc o m p l e xs e m a n t i ci n f oa n di t si m a g ef e a n 盯e c o u n t e r p a r tt h a to n l yp r a c t i c a li nt h e o r y c l e a r l yw ec a n n o tr e l yo nt b i ro rc b i ra l o n ef o rt h e i rt e c h n i c a ll i m i t a t i o n s ,n o rt h ec o n j o i n i n go ft h e t w o o b s e r v i n gt h a tc b l ri sd a t af r i e n d l yf o ri t se s s e n c eo fb e i n ga ni m a g ea n a l y s i st o o la n dt b i ri su s e r f r i e n d l yo nt h a ti ts e r v e sa sa na p p r o x i m a t i o nt oh a m a ne x p r e s s i o n , h e n c eh e r ei nt h i sa r t i c l e ,w ep r o p o s e d t h ei n s e r t i o no fat h i r dl a y e r :t h em i d d l el a y e r , as e m a n t i cn e t w o r ka l i k ed e d u c t i o ns y s t e m , t h e ni n t r o d u c e o p e nl o g i c ( l iw e i ) a st h em a i n t e n a n c eo ft h i sm a s s i v ek n o w l e d g eb a s eo fd e d u c t i o nr u l e sa n df a c t s t h r o u g ht h i sl a y e r , t h ef r a m e w o r ko fi m a g es e m a n t i c sw a so u t l i n e d ,a n dt h el i n k sb e t w e e ni m a g ef e a t u r e a n da d v a n c e ds e m a n t i c sw e r ee s t a b l i s h e d i fc b i rc a l le v e rb ec o m p a r e dt ot h ep r i m a lp r o c e s s i n go f h u m a nv i s i o n , a n dt b l rt ob ec o m p a r e dw i t ht h el a n g u a g ee x p r e s s i o n , t h e no u rs y s t e mi su n i q u eo nt h a ti t a c t sl i k et h eh u m a nb r a i n , a n dt h eh u m a nb r a i n a sw ea l lk n o w , i sw h e r es e c r e t sh i d d e n k e y w o r d s :i m a g es e m a n t i c s ;c b i r ;o p e nl o g i c ;a i i i 独创性声明 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加 了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同 仁在文中作了明确说明并表示衷心感谢。 学位论文作者:林田 签字日期:刀7 p 年岁月9 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。 学位论文作者签名:菇旧导师签名: 呕噤、j 签字日期:20 10 年与月勺日签字日期:年月 日 两南人学硕十学付论文 文献综述 皇曼曼曼皇曼舅舅皇皇曼鲁寡量葛曼曼鲁量皇一一i i ; 一 i 舅曼皇曼曼鼍皇皇曼皇曼皇曼曼曼舅皇曼皇曼皇曼吕皇皇舅曼量量曼皇曼曼曼曼曼曼曼璺罾鼍 文献综述 图像检索技术研究历程 近几年,数字图像、数字视频的数量及其应用呈爆炸性增长 1 】,迫切需要高效能的图像检索工 具。 图像检索技术产生于2 0 世纪7 0 年代末,早期的基于文本( i b mt e x t b a s e di m a g er e t r i e v a l ) 的 图像检索技术,是通过对图像进行手工注解,利用关键字匹配进行检索。如g o g r a p h 、g e t t y a a t 就 属于此类检索系统【2 】。t b i r 的优点是简单、易于实现;缺点是更新速度慢,带有主观性和不精确 性,不能满足用户对图像原始特征信息的检索。 根据用户需求,图像检索分为两类:有语义特征需求和无语义特征需求,如教育、人文、艺术、 刑侦以及新一代人机交互界面 3 】等都属于前者。有语义特征需求的图像检索在数字媒体应用中占很 大比例,越来越多的用户不仅需要支持关键字查询的图像检索t 具,而且希望在目标图像的内容、 语义、情感、甚至审美方面,获得满意的查询结果。社会需求催生了基于内容的图像检索( c b 瓜 c o n t e n t - b a s e di m a g er e t r i e v a l ) 技术。 2 0 世纪9 0 年代初,基于内容的图像检索成为图像检索技术的主流【4 】。c b i r 技术直接提取颜色、 纹理、形状、区域、对象及其布局等图像视觉特征,通过对这些特征进行提取、标注、匹配,客观 反映图像本质特性。迄今,c b i r 研究在全局特征选择、图像视觉特征相似性度量方法、图像区域分 割、区域特征描述和对象提取及其空间关系等方面取得了进展,诞生了一些基于内容特征的图像搜 索系统【5 【6 】 7 儿8 】。 尽管从2 0 世纪9 0 年代至今,c b i r 技术在图像底层特征提取方面取得t f t 大进步【l 】 9 】,一定 程度地克服了基于文本检索的局限,但是在图像的内容、语义、情感、甚至审美方面,还远未能满 足用户需求。制约c b i r 效率的瓶颈是:图像视觉特征与其语义概念之间的“语义鸿沟( s e m a n t i c g a p ) ”问题 9 】。 图像语义是指寓于图像中的作者的思想、情感和用户对图像内容的理解,它无法仅依靠图像底 层物理特征获得,而是依赖于人的知识、经验、环境、场景 4 】。图像高层语义的提取与底层特征提 取虽有一定的联系,其原理、机制却有着本质不同。1 9 9 6 年,e a k i n s 提出命题表征的层次模型【8 , 根据e a k i n s 模犁图像语义分为三层: 底层:图像视觉特征包括颜色、纹理、形状等,反应图像本身的客观属性: 中问层:图像中对象及其空间关系,它是介于视觉特征和高层语义的中间层: 高层:场景语义、行为语义和情感语义,这类特征带有较强的主观色彩,需要进行更高级的推 理。 e a k i n s 模型将图像语义分析引向探索三个层级特征提取、三个层级特征之问联系及其语义综合 的方法,难点是图像高层语义的提取| n j 题。 1 两南人学顺十学何论文 文献综述 图像语义分析现状及问题 图像语义分析是近年i e e e 、a c m 、h c i 等国际会议及其出版物的热点课题。2 0 0 6 年1 1 月在希 腊雅典举办了首届s a t ( s e m a n t i c sa n dd i g i t a lm e d i at e c h n o l o g i e s ) 专题国际会议 图像语义分析的二三个关键问题:( 1 ) 图像语义提取;( 2 ) 图像语义标注;( 3 ) 图像相似度测量。 三者互相依存、互相联系。图像理解是图像标注的前提,准确的图像特征语义标注为相似度测量提 供依据。 图像检索系统通过范例获得用户检索需求。图像训练集、范例集语义标注的正确性直接影响图 像检索系统的可靠性。本文以图像语义理解和图像标注为切入点,分析了领域研究现状及问题。目 前范例集标注基本上是手工操作,如多媒体概念词典l s c o m 【l o 】耗费1 0 ,0 0 0 人时完成3 , 3 0 0 ,0 0 0 个 标签,定义它的语义概念集;卡内基梅隆大学开发了一个交互式网络游戏 1 l 】,以动员大量志愿者投 入单调、乏味的图像标注工作。为了提高图像语义标注效率,已有不少关于自动,半自动标注的研究 工作,主要研究方向:交互界面、可视语言、机器学习、相关反馈策略等。v a i l a y a ,g u s t a v o 等提出 监督语义标注方法【1 2 】【1 3 】;t h o m a s 提出通过无监督机器学习概率方法 1 4 】,y i x i nc h e n 提出一种基 于图像簇的检索技术,该技术是建立在“具有相同语义的图像归于同一簇”基础上,簇的划分则是通 过无监督的机器学习再反馈到用户【1 5 】;张亮等提出图像检索中基于长期学_ = l 的动态用户模型,该模 犁是在贝叶斯概率模型基础上,利用长期学习记录的用户相关反馈序列作为用户模式来描述用户,动 态更新对当前用户的估计,预测用户行为【1 6 】;段立娟等提出了一种自适应的相关反馈方法,该方法 结合了相关反馈图像检索系统的时序特性,动态地修正交互信息给系统带来的影响,目的是使图像 检索结果与人的上观感知更加接近 1 7 】。 尽管已有一些研究成果,目前图像自动标注图像语义仍是举世公认的棘手问题,语义标注的速 度及其准确性远未满足用户需求,统计数据显示,目前图像语义标注准确率仅达到1 5 1 1 。 影响图像标注准确率的原因是图像语义理解问题。图像内容语义和图像视觉特征问既有联系又 存在巨大差异,许多研究者致力于构建两个特征域问的映射,以实现对图像本质的理解。但是由于 图像语义的复杂性、内隐性、环境因素和人类情感因素的作用,现有的方法难以获得准确的图像高 层语义信息。 2 两南大学硕十学何论文问题的提出 i 问题的提出 1 1 互联网信息检索 互联网诞生彳i 到4 0 年,便快速成长为一个覆盖全球的庞大的信息和资源共享平台,它为人类的 信息交换提供了巨大便利。正因为这个数据库的庞大,如何有效地管理和提取所需信息便成了一个 重要的课题。2 0 世纪9 0 年代初,由桌面文件检索工具和互联网技术监测1 工具发展而来的网上搜索 引擎诞生。所谓“引擎”指的是实现一个庞大程序最主要功能的核心代码,而搜索引擎就是实现客 户端信息检索功能的核心。搜索引擎的出现为人们在互联网上管理和提取信息提供了巨大的便利, 人们变被动地吸收知识为主动选择自己所需的知识,同时与别人分享自己的知识,如果说互联网是 人类文明突飞猛进的发动机的话,互联网上的信息检索就成了推进这一现象的助燃剂。 早期的搜索引擎只能处理文字信息,这与早期互联网上的内容以文字为主有关。随着网络线路 和节点设备运算、存储和输送能力的不断提高以及多媒体设备的普及,在浩如烟海的互联网信息中, 多媒体信息所占的比例越来越大。如何有效地处理多媒体信息的检索就成了日益迫近的问题。 就文字搜索引擎而言,它自身的某些进展值得我们在寻求图像信息检索时加以借鉴。传统的搜 索引擎一直在经历着不断的改进,而其中针对传统搜索引擎能的最大问题即搜索结果的相关性问题 进行的技术改进成为努力的主要方向。不同的搜索结果筛选策略被应用,在这种努力中诞生了一种 全新的搜索平台垂直搜索引擎。传统搜索引擎通过分析用户偏好改进搜索结果,而新的垂直搜 索引擎则通过对信息进行预结构化来优化搜索结果。简而苦之,传统搜索引擎是先搜索再筛选:垂 直搜索引擎是先筛选再搜索。垂直搜索引擎的典型例予是一些互联网专门数据库如“世界电影资料 库( i m d b ) ”2 它通过利用事先设计好的格式输入信息,构造庞大的数据库,满足了用户高速搜索 与电影电视相关的专门信息的需求;而商业上成功的例子是一些消费类网站,它们的页面一般类似 于报纸上的分类信息,并采用一种透明( 实际上是半透明) 的机制决定每条消费信息在搜索结果中 的相对位置,虽然看上去不太像搜索引擎,实际上也属于搜索引擎的一类。类似的策略传统搜索引 擎如g o o g l e 等也有所使用,即它的“p a g e r a n k ( 页面评级) ”技术,其核心思想是根据网站的外部 链接和内部链接的数量和质量俩评价网站的价值。g o o g l e 认为每个对网站的引用都是一个对网站的 投票,这与消费类9 6 9 站由消费者手动投票的基本思想是一致的,由于对于网站的链接数量可以由网 页本身的信息直接计算,因此这一机制是完全不透明( 自动化) 的。对于g o o g l e 来说,每个网页的 评级就是它为该网页保留的一点点结构化信息,因此它已经不是个彻底的平面搜索引擎了。 1 2 图像检索技术现状 什么是图像语义? 简单地说,就是副图像所引起人脑内的主观印象。在语义学研究中,还要 1 埘技术参数,如互联网节点数量乖l l p 地址等的监测:不是内容监测,如防火长城。 2 h t t p :w w w i m d b c o m 3 两南大学顾十学何论文 问题的提出 求这种主观印象能以某种表达式的方式表达出来。对科研而言,只有表达出的语义才能成为研究的 对象;对计算机处理而言,语义表达式则是计算机处理的对象。由于语义本身常常体现在语言的不 同层级上,语义学也就包括了词汇语义学、句法语义学等。前面说到。现阶段的图像语义标注方法, 一般都是以单词标注的,因此我们将要处理的就是在单词这样的表达式中所体现的图像语义。 从计算机图形学的角度,图像可以看作是结构化信息,然而从语义的角度讲,同样字节数的图 像包含的“意义”往往要比文字多很多。而且对图像本身的结构化描述就是个大问题。由于这种原 因,目前的图像信息检索可以分为两个大类,即基于文本的图像检索和基于内容的图像检索。 1 2 1 基于文本的图像检索 目前投入商业使用的图像搜索引擎基本上是基于文本的图像检索。基于文本的图像检索其核心 原理与文本检索无异,而文本信息上要有两个来源。其一是在图像入库时人工标注的语义信息,也 就是图像标签,这类标签包含着该图片的语义信息,而图片应当与哪些语义概念对应,完全由人工 决定。现有的图像语义标注计划如g o o g l ei m a g el a b e l e r 3 和哥伦比亚大学l s c o m 项目 1 0 】。前者利 用交互游戏方式实现人工图像语义标注,后者标注3 , 3 0 0 ,0 0 0 个标签共使用上万人时的人力,看得出 这是一项十分费时费力的工作。目前很多网络图像空问也鼓励用户对上传的图片进行标注,但可以 预见的是,标注的速度永远赶不上图像增加的速度。 图像语义信息的另一个来源是图像本身所处的上下文。一般来说,多媒体图像都是以图文混排 的形式出现在网页上的,因此,图像所处的位置往往与图像的上下文具有一定相关性。特别是在比 较正式的文档中,图像的上下方还会出现该图像的说明。通过对这些文本内容的检索,我们可以筛 选出具有一定相关性的图像,目前实现商用的图像检索软件如g o o s ei m a g e 和百度图像搜索等都采 用此方法。这种方法最人的优点是它的自动化,它完全省去了任何层次上的人为干预。 不管是对图像的文字标签进行检索还是对图像内容进行检索,都是将图像语义检索问题化为传 统的文木检索问题。文本检索技术成熟,资源占用少冈而速度更快,因而目前最为成熟的也正是这 些技术。可以看出,如果将图像检索化为文本检索,会给我们的t 作带来巨大的便利。然而目前的 两种图像语义标注方法中,人工方法存在效率太低的问题,上下文检索又存在准确性差的问题 1 8 】, 这让我们不能不问:能否将图像语义标注建立在图像本身的某种特征建立联系,让计算机通过这种 较简单的对应关系,获得理想的搜索结果。 1 2 2 基于内容的图像检索 图像特征检索的发展轨迹可以刻画为三个阶段:图像特征文本描述、图像表层视觉特征和图像 语义内在特征。要实现基于语义内容的图像检索,首先必须攻克基于图像视觉特征内容的这个难关。 前面已经提到,一幅图像所包含的内容极其丰富,仅就视觉内容而言,至少包括颜色、纹理、 形状和空问位置这几个方面,每个方面都需要不同的数据结构进行储存。自9 0 年代以来,针对不同 3h t t p :i m a g e s , g o o d e c o m i m a g e l a b e l e r 4 两南人学7 顷十学何论文 问题的提出 笪曼曼曼曼曼! 曼曼曼蔓曼曼曼皇曼曼曼曼皇曼舅曼皇曼曼_ h i i 毫曼曼量曼曼曼曼曼曼曼曼曼曼 的图像特征和数据类型,研究者们提出了- 小同的搜索算法。这些算法简单地说就是一种“以图找图” 的搜索策略,它是一种机械方法,而4 i 是智能方法。 i b m 于1 9 9 3 年推出的q b i c ( q u e r yb yi m a g ec o n t e n t ) 检索系统是一个典型的此类系统4 ,它 综合了基于例子图像、手绘例图和指定颜色、纹理等的查询,可以算是表层视觉特征检索的集大成 者5 。可以看得出来,这种基于内容的检索方式并不包含任何语义内容,换句话说,它只是考察图像 特征与图像特征之问的相似度,而对他们背后的语义联系视而不见。其他基于内容的图像检索系统 其功能与q b i c 相似,在此不一一赘述。 基于内容图像检索还不等于语义检索,然而它却向着语义检索迈进了一步。这种方法的缺点是 显而易见的,用户输入图像特征的复杂性,使它在很多方面不适用于互联网搜索。提供示例图像往 往相当不容易,有时候寻找示例图像可能比寻找目标图像更吃力;而通过手绘例图输入搜索目标, 又要求用户具有一定的美术基础,而且对输入设备也有苛刻限制。如果能够有一种方法把这些图像 特征同简单的语义概念相对应,用户在任何能够输入文本信息的终端上,只需键入待检索的文本, 就可根据相应图像特征进行检索,也就跨越了这道语义鸿沟。基于图像语义特征的检索是基于内容 图像检索未来的发展方向。 1 3 问题分析 在“文献综述”中,我们提到了图像语义分析的三个关键技术,分别是: 图像语义提取:即图像理解包括图像底层、中间层特征提取和图像语义综合。图像语义综合依 赖一定的上下文情景,上下文蕴涵了大量的语义信息;分离对象的语义综合不是简单的叠加,而是 结合图像视觉局部、全局特征及用户的知识、经验、期待、偏好等主观因素的推理过程。 图像语义标注:这项工作的困难源于,如何选取图像概念空间维度,既准确、客观,又便于相 似度测量和图库管理,此外还应适应不同用户。 图像相似度测量:即图像语义距离测度,这是有效进行图像匹配的前提,而语义相似的图像可 能有较大视觉特征空间距离,由于没有一种通用的算法,目前还未找到确定的语义概念空间与视觉 特征空问的映射关系。 语义提取问题涉及到的主要是知识表示的问题。采用什么样的知识表示,是由采用什么样的推 理机制决定的。我们需要研究究竟提取哪些图像特征才能与图像的语义特征相适应、是推理所必需 的,以及如何将他们记录和保留下来。保留完整的图像信息不仅经济上不现实,也并不能保证满意 的结果。自然语言的语义概念本身是一个无穷的集合,因此有必要对本系统处理语义概念的范围加 以限制,这种限制土要自两个依据:首先,在自然语言中大部分用来刻画图像语义的词语属于名词、 动词、形容词和数量词,因此完全可以将副词、介词、连词、拟声词等排除在语义理解的范围之外; 其次,语义较复杂的词和更简单词之问往往存在着一种转化关系,例如为便于理解,这两者的关系 4 周明令,耿网华韦娜基于内容图像检索技术北京:清华大学出版社,2 0 0 7 年,第1 章第7 页 5 h t t p :w w w q b i c a l m a d e n i b m c o m 5 两南人学硕十学位论文问题的提出 类似于由语言学家奥格登在1 9 3 0 年代所创设的基本英语 1 9 】和日常英语之间的关系。复杂的语义概 念一旦变成可还原的,即可充分发挥计算机的逻辑运算能力,通过简单语义与图像特征之问更机械 简单的对应关系来寻找高层语义图片。 语义标注问题,其核心在于推理。通过前文的分析可以看出,想要在图像特征和语义概念之间 建立联系,最人的困难在于这种关系的不确定性和两者各自内容的无限性。本文提出,不能把语义 看作争词的集合、图像看作全部图像特征的集合,并商接在他们之间建立二元关系。本文的方案特 别强凋推理胜于匹配的重要性。至少两类知识将会构成为知识库中的主要部分:一种是关于底层图 像特征和基本语义之间关系以及基本语义和高级语义之间关系表达式,另一类则是规范这些表达式 之问关系的规则。前者可以看作一种定义,它表达的是规约性知识,后者则可看作实现性知识,它 告诉我们的是怎样获得新的知识。有了合理的规则。正确标注是自然的结果。 最后提到的相似度测量,不是本文讨论的重点。方面在于相似度测量也依赖于采取什么样的 推理方式,而我们的推理方式重点在于语义之间的联系,并非图像特征的匹配;另一方面,这一领 域的研究比较成熟。我们将尝试把这一新的方案同目前现有的语义标注方案相结合,充分利用现有 的标注结果。很多目前已经进行的比较成功的计划,不论其是自动化的还是交互的,都已经采集到 了人最图像的语义标签,特别是那些有用户共同认可的语义标签,符合概念的约定说,应该被认为 含有更高的准确性。在维护数据库时,如果有必要推翻这样的一些规则,应当特别慎重。而其他直 接根据算法而构造的规则,具有较低的优先级。正如我们所见,相似度测量在规则库维护时发挥最 重要作用,所以我们将在正文介绍反馈机制的同时,介绍本系统的相似度测量依据。 1 4 本文的研究目标 1 4 1 主要工作 本文拟从功能模拟入手,研究和运用认知推理机制、相关反馈策略,使图像检索技术更贴近人 类的的认知过程,改进图像语义提取的效率,推进语义识别和智能识别研究的进展。 知识表示:在第一阶段,本系统的知识库力求采用非交互无监督方式学习典型范例,逐渐形成 概念集和规则集组成的元知识库;第二阶段,在学习和应用中扩充和更新知识库。由于图像语义信 息人部分都是半结构化或非结构化知识,结构化的元数据较少,本文以类似关系数据记录集的方式 组织知识,使其适应不完全的结构化知识表示,接近人类知识组织方式,且易于扩展和更新。 推理机制:对于基于开放逻辑的语义标注系统来说,推理问题是核心问题,不论是知识表示还 是匹配机制,都依赖于它的选择,下面分别介绍。心理学家认为,在知觉过程中,必然会发生自上 而下与自下而上加工交替进行、相互作用【2 0 】。自下而上( 或称数据驱动) 的加工过程,是指知觉者 从环境中微小的信息开始,将它们以各种不同的方式加以组合以形成知觉,本系统知识库在管理、 维护和更新期间,更侧重这一过程;自上而下( 也称概念驱动) 的加工过程中,知觉者的期望、知 识理论和概念,对知觉者在模式识别过程中的信息选择和整合【2 0 具有引导作用,这一过程将在系统 6 两南人学硕十学位论文 问题的提出 与用户进行人机交互和应用检索时发挥作用。 反馈机制:反馈机制用于维护推理规则。本文提出一个基于开放逻辑的反馈过程,即系统和客 户都被允许认识一修正再认识再修正,每一次认识的提升源自交互的启发和对象的再观察。此过程 通过可视化交互式遗传算法方法 2 1 】,将人的主观认知融入到进化过程中。我们的反馈机制不是在规 则生成过程中同步发挥作用的,例如,s v m 算法假定了我们可以确定一个图像库中所有图像的特征 向晕和所属的语义类,至少是属于或者不属于某个语义类,也就是说,预先知道正例与反例【2 2 】。开 放逻辑的规则修正反馈机制是在规则建立以后作为种维护手段存在的,如果该规则不经常被调用, 那么它本身就没有被修正的必要性,也就不需要被维护,可以自然老化掉。 特别值得一提的是,关于概念知识的组织,可视化元搜索引擎k a r t 0 0 就是一个值得借鉴的案 例6 。它采用由错综复杂的语义链和概念节点构成的语义网络组织知识;韦特海默创立的格式塔理论 2 3 ,归纳了就近律、相似律、完形律、求简律等感知规律,也为本课题的语义概念组织和激活扩 展机制研究提供线索:如语义概念库分为菪干区域,通过训练集,建立各区域之间多条通道,通过 交互反馈形成当前用户语义池,同时通过锚点和总户行为序列、深度限制、距离阈值等实现搜索回 溯控制。 1 4 2 研究目标 本文的研究目标是实现性能更好的图像语义检索机制。影响一个检索系统性能的有很多因素。 最主要的是信息搜集策略和检索模型,包括索引库的更新频率和策略、文档和查询的表示方法、评 价文档和用户查询相关性的匹配策略,查询结果的排序方法和用户进行相关度反馈的机制。对于任 何搜索引擎而言,其评价标准最主要的是查全率和杳准率方法。基于开放逻辑的图像语义标注系统, 其系统目标也在于实现较好的查全率和查准率。 查全牢是检索出的相关文档数和文档集中所有的相关文档数的比率,衡量的是检索系统的查全 牢:查准率是检索出的相关文挡数与检索出的文档总数的比率,衡最的是检索系统的查准率。对于 一个检索系统来讲,查全率和查准率不可能两全其美:查全率高时,查准率低:查准率高时,查全 率低。加之互联网上网页的数量几近于无限,查全率之间很难比较,所以常常用1 1 种查全率下1 1 种杏准率的平均值( 即1l 点平均查准率) 来衡量一个检索系统的查准率。 检索系统的其它衡量指标还有响应时间、支持峰值查询的能力、易用性、返回结果的有效性( 是 否为死链、过时信息) 等等,也可选择适合的作为图像语义检索评价体系的一部分。 还有一种评价检索系统效果的相似度排序方法,主要是用来评价图像匹配效果的,它考察的是 图像的相似性和算法的效果。前面已经说明,我们的系统侧重点不在于图像特征的匹配,因此不以 它为上要方法。 总而言之,本文的目标是以开放逻辑为工具,结合图像特征文本描述和图像表层视觉特征,构 7 两南人硕十学何论文问题的提出 造基于图像语义内在特征的检索策略,通过节约规则库构造的时问和检索算法对系统资源的消耗, 努力实现一种结构简单、实现容易,具有较高查全率并兼查准率的算法模型。这种算法的重点不在 于构造一个精确的数学匹配关系,而是要找到一种不断维护和完善规则库的方法,实现推理规则的 自我更新。 8 两南人学颁十学位论文图像语义推理与开放逻辑 量量曼鲁曼鲁曼曼曼曼皇鼍曼曼曼曼量曼曼曼璺曼曼皇曼皇曼寡寡曼蔓曼皇邑曼曼曼皇量量寡鲁皇皇曼曼曼皇曼量兽曼曼量曼曼! 曼曼曼曼皇曼曼曼曼量ii 喜曼舅舅皇寡量曼鼍曼吕曼皇曼曼暑曼 2 图像语义推理与开放逻辑概述 对于图像信息的最简单记录方法是记下每个像素点的位置和色彩,然而这种方法意味着对图像 不进行任何压缩,必然会导致数据库迅速增大:同时也给图像检索和比对制造更多麻烦。首先,处 理的数糖;晕增加会导致运算速度下降;其次,不对图像信息进行任何形式的精简就进行搜索比对, 会人人减小搜索结果的范同,我们可能只能找到与待查图像完全相同的图像,而这并非我们所希望 的结果。两个具有相似语义的图像可能在色彩、纹理上相当不同:而构图十分类似的图像其语义概 念也有可能完全不一样。因此,首先有必要规定我们所要处理的语义特征是什么以及图像语义的提 取策略;构造了表达语义特征的语言后,我们要为其设立推理规则;最后在推理规则建立后,要解 决知识库维护的问题,因此本章正式按照这一顺序步步展开。 2 1 语义概念的优化 图像语义可分为三层,即底层特征层、对象层和概念层 2 4 1 。底层特征包括图像的颜色、形状、 纹理等,对象层主要是图像中包含的物体和空间关系问题,而概念层主要指图像通过场景所表达的 情感意义。容易观察,这些层次之间的区别,根本上说不是图像的内部结构上的区别,而是语言概 念4 i 同层次之间的区别在图像中的反映。为了让图像特征的表达尽量简单,我们放弃了将概念层图 像特征与情感语义直接对应的尝试,并且只保留少部分对象层信息,而把这些高层语义与图像本身 特征的映射用语义到语义的映射加以代替。 在人类使用的各种语言中,词语都是重要的基本元素,词语( 对于中文来说包括单字) 在语句 中般都会表现出小同的词性,也就是依据不同的位置、功能和形式,可以分为如下几类:名词、 动词、形容词、数最词、复词、代词、介词。这几类词中用来刻画图像语义的主要是名词、动词、 形容词和数量词7 。这些词被称作实词,其余的词称作虚词。虚词的语义处理起来相当复杂,幸好由 于前面的原因,我们可以把它们从我们的方案中排除出去,专心解决实词的语义问题。 观察这些词,我们可以注意到,同种词性的词语一般具有相似的“概念模式”。举例来说,传统 上对动词的处理方法,一般都是将其与图像特征中轮廓和相对位置相关联,但从语义的角度讲,动 词般都依赖于某个动作者,也就是说可以在标记了动词的图像中尝试检索关于人或动物的语义信 息,这就把对象层信息的检索转化成了底层特征层信息的检索。 形容词比较复杂,我们举例说明。表达颜色的形容词如“黑色( 的) ”,可以直接和图像的色彩 特征对应,而比表达颜色的形容词更高级的是一些与场景有关的形容词,比如“阴郁( 的) ”,一般 来说,它被映射到图像中特定色彩呈现的比例或某种特定的比例组合,但我们的系统也将放弃这种 策略,转而把“阴郁”同“黑色”建立联系,而“阴郁”的近义词如“沉闷”则会冈为有与阴郁相 7 如果有条件的话,我们希毕寻找一种好的抽样方法,来统计一个普通视频图片网站上出现的标签中各种词性的比 例,我们相信实验结果可以证明这一观点。 9 两南人学硕十学位论文图像语义推理与丌放逻辑 近的语义关联表,而通过相似性建立联系,并作为检索结果一并出现。很多形容词是依赖于概念层 信息的,这种优化的效果因而显得更明显。 最后是名词,对于传统的图像语义标注系统来说,名词是最为复杂的一类情况,不同的名词可 能分别和图像的颜色、形状、空间位置等信息有关,也有可能是几种信息的组合。尽管并不情愿, 为了检索的效率,我们仍然建议建立一个依赖于底层信息的基本事物的范例集和,类似于奥格登的 基本英语,它应当包含那些我们通过直接观察就可以获得的事物概念。如衣服、汽车、钉子等等。 但对于一些抽象名词,依然可以把这种图像特征的组合,变成基本图像特征所映射的语义的组合, 这方面的例予不再详述。 上述方法的核心思想在于:我们确定一副图像所对应的语义,不完全是靠这幅图像投射给我们 直观观念和代表这样的观念的那个词语,而是依据我们如何将一个词语应用到刻画图像语义上的具 体方法。简而言之,除了对图像的初步认识和了解以外,很多语义特征实际上是依靠我们头脑中建 立的语义之问的逻辑关系进行推理而总结的。我们要突出的是“概念模式”中的模式性,而不是概 念本身。由于自然语言中很多词语具有相似的“概念模式”,它们也就被对应到同一个推理策略上, 这反过来又将我们需要处理的语义库变为几个语义类,通过排除虚词以及以“概念模式”进行的分 类,需要被处理的语义概念数量已经大大减少了。而在实际检索过程中,我们真正需要对图像特征 进行的检索计算,也被大量压缩了。 2 2 图像特征和语义信息的获取 在选择适当的一阶语苦构成表达式后,一个图像语义信息记录集就是包含两种不同关系的一阶 语句集合:图像语义映射和语义语义映射。这两种关系通过不同的方式获取。为了说明我们采取特 定方式记录图像特征和语义信息的必要性,下面将要描述的就是获得这些关系的过程。需要说明的 是,这个过程是发生在规则库的训练阶段,而不是发生在检索阶段。 图像语义映射是一种底层关系,邑通过采集图形特征和语义标签直接得到。如检索一幅标记有 “家”这个词语的房屋图片时,它会直接将房屋的形状、色彩信息与“家”这个语义概念对应起来, 并建立映射,这个映射可用一二元关系描述。一个比较成熟的已标注图像库是这一层次关系的最佳 来源,也是生成其他关系的起点。这也反映出本系统对现存图像数据库的严重依赖性,也就是说, 虽然构造本系统规则库时不需要独立的图像数据库建设,但一个现存的数据库是必不可少的。在训 练这个规则库时,外部数据同样是必须的,这从某种意义上说是一个优点,前面已经说过,它对现 存的网络资源不经过格式转换即可加以利用,然而它的弱点使它不得不被看作一个数据源整理程序, 尽管其规则库是独立的。 在进行完底层映射后,我们可能会发现新的不足,因而进入第二二个层次。如果- n 纯色图像颜 色向最上的数值被对心到一个表示色彩的概念后,基本不会出现什么疑问,但绝大多数图像并不存 在这种简单对应关系。就拿前面的语义标签“家”来说,虽然它被对应到了一幅房屋图片上,但很 1 0 两南人学硕十学何论文图像语义推理与开放逻辑 快系统就会发现,这个概念同样标注在一副父母和孩予的人像照片上,它们具有完全小同的图像特 征。此时系统就会修正这个关系。系统会在该图像的语义关联表中搜索其他语义概念并提取底层图 像特征。如“父亲”一词出现在“家”的语义关联表中,且该语义所对应的图像特征能与图像项匹 配,则可以将“父亲”作为前提与“家”建立映射。 在前面两个阶段的丁作中,不可忽视的就是确定谓词之间联系的逻辑表达式,比如表达“如果 a 和b 有联系且b 和c 有联系,那么a 和c 有联系”这样的句子,我们称其为规则。要完成对应 关系之间的推理和变更,离不开这些规则。如果前面的谓词表达式可以看作语义部分的话,这部分 就可以看作语法部分。但正如其他一阶语言一样,在实际使用时,语义和语法是杂糅在一起的。 一个能够想见的问题是,“父亲”这个词语本身也无法与某些图像底层特征直接对应,而需要另 一个词如“男人”作为前提,这时我们可能有必要进行更深一层的搜索。用户可以通过制定新规则 来控制这种对资源的损耗,类似的规则也可能自动产生。但更重要的是,一个好的训练数据库,可 以为每个语义建立起更易于检索的规则集。充分利用现有的图像语义标注计划是一种经济的选择。 前面曾经提到的g o o g l ei m a g el a b e l e r 计划是一个由用户参与的交互游戏,它的进行过程是:两个或 多个联机用户共同对一副系统给出的图片给出语义标签,系统通过每个用户给出语义标签的速度、 数晕和质黾( 通过和参与游戏的其他用户给出的语义标签的比较) 进行评价得出优胜者,并给予奖 励。这种游戏方式反映了图像语义的约定说。同时系统通过对用户知识、经验、期待、偏好的了解, 也会进一步获得额外的规则。 但即便建立起了规则集,也不等于工作宣告结束。原因很简单:总会有新的图片被放到网上。 毕竟如果我们依然靠不断地把新的图像和语义标签添加到训练库来建立新规则的话,系统的“自动 化”就无从体现了。既然如此,我们干脆直接把触须伸到互联网这个空问里。前面已经提到了图像 语义的两个来源,即图像本身和理想数据库,而图像在互联网上所出现的上下文则是图像语义特征 的第三个来源。这里借鉴的是一种文本检索中的距离算子8 : 算法1 首先对页面信息进行清理,去除不必要的多媒体、超文本标记语言记号。计算上下文内任意查 询词与图像标记( 如 标签) 在被匹配文档中的平均上下文距离系数。给定一个被匹配文档d , 统计查询词q 与任意图像i 在d 中的上下文距离( 以单词为单位) ,利用距离
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业经理人行业趋势分析技巧试题及答案
- 营养教育在学校的重要性与实践方法试题及答案
- 考前准备2024西医临床考题及答案
- 空气科学考试题及答案
- 知识产权重大案例分析的考试试题及答案
- 期末解刨学试题及答案
- 药品流通渠道管理试题及答案
- 水库移民面试题及答案
- 图书管理员文化传承与发展试题及答案
- 西医临床知识运用试题及答案总结
- 北京市引进人才审批表格模板
- 第14篇局部水基灭火系统(修改后版本)
- 配管配线工程量计算实例
- CAMDS培训ppt课件
- 包装设计外文文献翻译最新译文
- 治安管理课件新兴行业场所
- 中国铁路总公司《铁路技术管理规程》(普速铁路部分)
- HY∕T 122-2009 海洋倾倒区选划技术导则
- 《声门下吸引技术》PPT课件
- 幼儿园绘本故事PPT:《小红帽》
- 一年级下册数学6.6两位数减一位数、整十数(不退位减)人教版
评论
0/150
提交评论