图像检索系统的设计与实现本科生毕业设计论文_第1页
图像检索系统的设计与实现本科生毕业设计论文_第2页
图像检索系统的设计与实现本科生毕业设计论文_第3页
图像检索系统的设计与实现本科生毕业设计论文_第4页
图像检索系统的设计与实现本科生毕业设计论文_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE毕业设计(论文)说明书题目:图像检索系统的设计与实现毕业设计(论文)任务书题目:图像检索系统的设计与实现

毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名:日期:原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目的等。)随着互联网的飞速发展,网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。图像检索一直是信息检索领域的一个主流问题,涉及到图像处理、图像分割、模式识别及机器学习等多个方面。检索的智能化和自动化是图像检索的目标。目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。网络爬虫程序就是用来搜集网页和图片的程序。本文的研究重点在于使用网络爬虫框架Heritrix进行扩展,从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。完成上述工作后,再将图片的目录位置和提取的信息存入数据库。并建立一个图片检索系统的Web工程,实现检索功能。开发语言为Java,开发工具为MyEclipse和MySQL及Tomcat.参考文献RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李晓明,闫宏飞,王继民.搜索引擎-原理,技术与系统[M].北京:科学出版社,2004.马自萍.形状和颜色特征的混合图像检索[D].银川:北方民族大学,2010.7.陈剑雄,张蓓.简析图像检索中的CBIR技术[J].情报探索(第7期),2010.7.RafaelC.GonzalezandRichardE.Woods.DigitalImageProcessingSecondEdition[M].PrenticeHall,2003-3.沈兰荪,张箐,李晓光。图像检索与压缩域处理技术的研究[M].北京:人名邮电出版社,2008.12.周明全,耿国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.7.李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展2001年第3期.安志勇.基于内容的图像检索关键技术的研究[D].西安:西安电子科技大学,2008.李伟,黄颖。基于HTMLParser的网页信息提取[J].兵工自动化(第7期),2007,7.设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。)系统学习Java编程语言,熟练掌握Java语言的基本思想和相关的编程技术。学习并掌握机器学习、数据库常用技术,JSP,图像处理等相关技术。学习并掌握项目开发用到的相关工具及软件的使用。了解图像检索的原理,发展,意义及用途,及图像检索系统的设计思路。了解网络爬虫的原理及工作流程,充分阅读Heritrix的开放源代码,会利用Heritrix从网上爬图片存入数据库。掌握正则表达式及HTMLParser等网页分析方法,了解网页信息提取策略、完成图像检索系统的设计和代码开发对该系统进行充分的测试,并完善开发总结开发过程中所遇到的问题和心得体会指导教师(签字)年月日审题小组组长(签字)年月日天津大学本科生毕业设计(论文)开题报告课题名称图像检索系统的设计与实现学院名称软件学院专业名称软件工程学生姓名王超指导教师于永新课题的来源及意义随着互联网的飞速发展,图像信息应用越来越广泛,人们对图形、图像等多媒体数据的需求也越来越强烈。网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。国内外发展状况从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-basedImageRetrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-basedImageRetrieval,简称CBIR)技术。基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统,如由IBM公司开发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。下一代搜索技术:2007~2009年:具有联想技术和分析功能的搜索服务逐渐兴起。在这一时期,语义搜索还没有广泛普及,带有分析功能的搜索服务开始崭露头角,尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛关注。通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析,可以为企业的市场运营提供更多有益的参考。2010~2012年:语义搜索和感性搜索技术将逐渐兴起。将语义搜索用于特定领域或对象时,可以达到高度适合率和再现率,这一结论已经得到实际验证。由于有生物学验证这一技术作基础,对于感性搜索来说,提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。2013年以后:阶梯式搜索方法将投入使用。帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。技术趋势:在互联网时代,包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长,搜索技术显得越来越重要。以往,搜索服务都是依据输入的关键字,列出符合关键字的信息。未来,全新的搜索服务模式将出现。研究目标,内容研究目标:了解图像检索,网络爬虫等相关技术及发展潮流。综合运用机器学习,JSP,数据库,图像处理,网络爬虫等相关技术完成一个BS架构的的图像检索系统的实现。研究的内容主要有:利用网络爬虫Heritrix进行网页图片爬取,利用正则表达式和HTMLParser进行网页分析和信息提取运用JSP,数据库,strust2,Hibernate等技术实现图像检索系统。研究方法,手段基础知识和开发工具的学习:掌握Java,JSP,数据库,图像处理等相关知识。掌握MyEclipse和MySQL的使用.理解开源爬虫Heritrix的架构和运行机制,学会扩展和定制自己的Heritrix.掌握HTMLParser和正则表达式等网页信息提取方法运用开发工具完成界面设计和系统的架构设计,并实现具体的框架结构代码。对系统进行测试并改进完善。实验方案的可行性分析和已具备的实验条件随着图像检索技术的发展,目前已有不少应用于实践环境的图像检索系统。在实践上具有参考性。Heritrix网络爬虫框架在经过多年的丰富更新后更加稳定和有效。网页分析和信息提取技术也是热门的研究话题,为实验原理提供基础为算法的编写提供可行性证明。掌握相关技术知识后运用MyEclipse和MySQL工具即可进行开发。开发平台稳定且功能强大,工具的开发与设计均是可行的。进度安排2011年1月20日-2011年2月10日阅读图像检索相关资料,初步了解图像检索的原理意义和用途;2011年2月11日-2011年3月5日完成开题报告,并深入学习实现一个图像检索系统的知识;2011年3月6日-2011年4月20日完成网页的爬取及信息提取和检索系统的初步开发;2011年4月21日-2011年5月25日完善该系统并测设改进,完成毕业设计论文初稿;2011年5月26日-2011年6月15日跟据导师意见认真修改,校对论文初稿,最后完成论文;2011年6月16日-2011年6月21日准备毕业论文答辩;参考文献RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李晓明,闫宏飞,王继民.搜索引擎-原理,技术与系统[M].北京:科学出版社,2004.马自萍.形状和颜色特征的混合图像检索[D].银川:北方民族大学,2010.7.陈剑雄,张蓓.简析图像检索中的CBIR技术[J].情报探索(第7期),2010.7.邱哲,符滔滔,王学松.开发自己的搜索引擎Lucene+Heritrix[M].北京:人民邮电出版社,2010-01.李刚.轻量级J2EE企业应用实战[M].北京:电子工业出版社,2008.11.周明全,耿国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.7.沈兰荪,张箐,李晓光。图像检索与压缩域处理技术的研究[M].北京:人名邮电出版社,2008.12.李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展2001年第3期.安志勇.基于内容的图像检索关键技术的研究[D].西安:西安电子科技大学,2008.李伟,黄颖。基于HTMLParser的网页信息提取[J].兵工自动化(第7期),2007,7.选题是否合适:是□否□课题能否实现:能□不能□指导教师(签字)年月日选题是否合适:是□否□课题能否实现:能□不能□审题小组组长(签字)年月日摘要随着互联网的飞速发展,网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。网络爬虫程序就是用来搜集网页和图片的程序。本文的研究重点在于使用网络爬虫框架Heritrix进行扩展,从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。完成上述工作后,再将图片的目录位置和提取的信息存入数据库。并建立一个图片检索系统的Web工程,实现检索功能。开发语言为Java,开发工具为MyEclipse和MySQL及Tomcat.关键词:图像检索,网络爬虫,Heritrix,HTMLParser,网页信息提取ABSTRACTWiththerapiddevelopmentofnetworkinformationontheexplosivegrowthofimages,whichmakesitontheInternetmoreandmoredifficulttofindtheimages,imagesearchtechnologybecomeaveryhotresearchtopic.Thecollectionofimagesandindexingforimageretrievalisaveryimportantaspect.WebcrawlerisusedtocollectWebpagesandpicturesoftheprogram.ThisstudyfocusesonusingtheHeritrixWebcrawlerframeworktoextend,fromtheInternetanddownloadwebpagesandimagesforwebuseHTMLParserinformationextractionandimageanalysis.Aftercompletionofthework,thentheimagedirectorylocationandtheextractedinformationintoadatabase.AndapictureretrievalsystemforWebprojects,toachievesearchfunction.DevelopmentlanguageforJava,andMySQLdevelopmenttoolsfortheMyEclipseandTomcat.Keywords:imageretrieval,webcrawler,Heritrix,HTMLParser,WebinformationextractionPAGE2目录文献综述……………11.1图像检索的研究意义…………………11.2图像检索的国内外发展状况…………11.3网络爬虫技术在搜索引擎中的应用…31.4网页分析和信息提取技术……………41.5本文的研究重点,系统结构和内容……5Heritrix应用开发扩展……………72.1Heritrix简介……………72.1Heritrix抓取策略及改进………………92.3Heritrix抓取过程……102.3网页爬结果…………13第三章HTMLParser图片相关信息提取………………143.1HTMLParser简介………143.2图片信息提取策略…………………143.3图片信息提取的实现方法……………153.4实验提取结果…………17第四章图像检索系统的搭建……………184.1数据库的建立………184.2系统的实现框架和结构………………214.3检索结果展示…………23第五章总结和展望………25参考文献……………………26附录…………27外文资料中文译文致谢天津大学2007届本科生毕业设计(论文)PAGE26文献综述1.1图像检索的研究意义为了解决上述问题,定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。图像检索一直是信息检索领域的一个主流问题,涉及到图像处理、图像分割、模式识别及机器学习等多个方面。检索的智能化和自动化是图像检索的目标。目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。1.2图像检索的国内外发展状况从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-basedImageRetrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-basedImageRetrieval,简称CBIR)技术。基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统,如由IBM公司开发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。下一代搜索技术:2007~2009年:具有联想技术和分析功能的搜索服务逐渐兴起。在这一时期,语义搜索还没有广泛普及,带有分析功能的搜索服务开始崭露头角,尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛关注。通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析,可以为企业的市场运营提供更多有益的参考。2010~2012年:语义搜索和感性搜索技术将逐渐兴起。将语义搜索用于特定领域或对象时,可以达到高度适合率和再现率,这一结论已经得到实际验证。由于有生物学验证这一技术作基础,对于感性搜索来说,提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。2013年以后:阶梯式搜索方法将投入使用。帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。技术趋势:在互联网时代,包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长,搜索技术显得越来越重要。以往,搜索服务都是依据输入的关键字,列出符合关键字的信息。未来,全新的搜索服务模式将出现。搜索技术的评测指标主要有两种:适合率和再现率。适合率指搜索结果中符合要求的数据比例,可以通过减少非适合数据提高这一比例。再现率指在所有应该列出的适合数据中,实际检索出的适合数据所占的比例,可以通过减少检索遗漏提高这一比例。未来,搜索技术将朝着三个方向发展:包括联想在内的语义搜索,检索图像、语音、动画内容的感性搜索,通过传感技术搜索现实世界对象的现实挖掘。2008年8月,微软收购了一家语义搜索服务商Powerset。微软目前正式推出的新型搜索引擎Bing就整合了Powerset的语义搜索技术。CNNIC2009年3月公布的调查报告显示,对搜索结果不满意的网友比例为35%,40%的用户会在第一次键入关键词的基础上修正关键词,72%的用户认为搜索结果非常凌乱。用户如果想在互联网海量信息中快速、简便地寻找到自己想要的信息而不受干扰,需要搜索技术对检索者的想法进行臆测。目前,人们看到的搜索结果都是参考文献,而不是最终的答案。这是现有搜索技术最大的问题。但是,已经有一些产品能够对垃圾信息进行最初级的人为摒除,比如百度知道。当一个人提问之后,经过一个或多个人的回答,此人就可以找到自己所需要的信息。另外,各大厂商也在致力于实现真正的人机对话。以PowerSet和WolframAlpha为代表的问答式精准搜索近来受到广泛关注。GazoPa是一家成立于2008年的图像搜索引擎供应商。它提供的搜索图像服务的特色在于,可以提取图像中商品的形状、颜色等信息。以往的图像搜索采用的方法是,给图像数据赋予标签等文本数据,当输入的关键字与文本数据相匹配时,图像就会被检索出来。但是,用户使用GazoPa提供的服务,被搜索的图像不具备文本信息,也可能被搜索到。GazoPa使用的是基于图像内容的检索(Content-basedImageRetrieval,CBIR)技术。这种技术能够对图像的颜色、纹理、布局进行分析并检索。CBIR是基于内容检索(CBR)的一种技术。CBR中包括了对动态视频、音频等其他形式多媒体信息的检索技术。如上所述,网站将成为企业与客户沟通的重要渠道,而搜索服务的质量将成为关键因素。用户在选择服务提供商时,除了关注价格和功能指标外,或许会更加关注服务商能否长期提供本地化的服务。1.3网络爬虫技术在搜索引擎中的应用随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。为了解决上述问题,定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。改进后的网络爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于网络爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。网络爬虫还需要解决三个主要问题:对抓取目标的描述或定义;对网页或数据的分析与过滤;对URL的搜索策略。抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有网络爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:预先给定的初始抓取种子样本;预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。1.4网页分析及信息提取技术网络爬虫获得的数据主要是HTML网页,里面包含了大量的格式信息和标记信息,在后续建立索引之前需要进行数据内容的抽取。这就需要用到网页分析及信息提取技术。互联网上有数以亿计的网页,网页的基本元素就是HTML语言文件。从结构上讲,HTML文件由元素组成。组成HTML文件的元素有多种,他们用于组织文件的内容和控制文件的输出格式。绝大多数元素是以一个其实标记开始,一个结尾标记结束,其实标记和结尾标记之间的部分是元素体。每一个元素都有名称和一些可选的属性,这些都在起始标记内标明。HTML文件经过浏览器解析后,转换成可视化的Web页面。搜索引擎通过网络爬虫获取这些HTML文件后,通过程序分析其中的内容,就可以构造搜索了。在实际项目中,最常用的就是用正则表达式或HTMLParser来提取额网页的内容。使用HTMLParser从复杂的HTML页面中解析出来需要的文本信息,是其中很重要的内容。(1)正则表达式:正则表达实施功能强大的文本分析工具,在不同语言中都得到了体现。正则表达式是一种用来描述字符串集合的方法,通常使用一系列特殊字符形成字符串模版。正则表达式通过自定义的正则模式去精确的提取文本信息,但需要写大量的正则表达式,编写和调试正则表达式是一个繁琐的过程。(2)HTMLParser:HTML是一个开源的Java库,提供借口、支持线性和嵌套的解析HTML文本。HTML提供了提取文本信息的API,是搜索引擎开发者拜托了繁琐的正则匹配过程,只需要通过这些API,就可以方便的提取额特定文本,打打提高工作效率。1.5本文的研究重点,系统结构及内容本文要实现一个BS架构的图像检索系统,主要实现该检索系统的网络爬虫及网页信息提取部分,并建立一个简单的Web系统,整合下载的网页,图片及网页分析得到的文本信息形成一个图像检索系统。综合运用java语言,图像检索,网络爬虫,网页分析及Web开发等相关技术。系统结构:图1-1图像检索系统结构图本文共分为五章,其内容是这样安排的:,文献综述:介绍图像检索的意义,国内外发展状况,以及简要介绍相关的网络爬虫级网页分析技术。,Heritrix应用开发扩展:简要介绍Heritrix,以及本文何扩展Hertrix的方法,网页爬取的效果总结。,HTMLParser应用开发:简要介绍HTMLParser,以及利用HTMLparser实现网页内容提取的具体策略方法,及结果展示。,图像检索系统的搭建:如何建立图片信息数据库,Web页面,Action及图片检索系统的实现和结果展示。,未来和展望:图像检索是非常热门的一个研究话题。本章就图像检索的发展及本文待改进的地方做一个展望。Heritrix应用开发扩展2.1Heritrix简介开源网络爬虫Heritrix是有互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布实在2004年1月。并不断的被互联网档案馆和其他感兴趣的第三方改进。Heritrix是一个有JAVA开发的web网络爬虫,用户可以使用它从网络上抓取自己想要的资源。Heritrix最大的特色在于它的可扩展性,开发者可以扩展它的各个组件,实现自己的专区逻辑。Heritrix的工作是不断循环的,具体流程是:在线程池中,选择一个预定的URL中从选择的URL网址下载远程文件分析,归档下载到的内容,写入磁盘镜像目录从分析到的内容里面根据策略选择URL,加入预定队列标记已经处理过的URL从第一步继续进行,直到所有的URL处理结束,抓去工作结束Heritrix的操作模型:图2-1Heritrix的模型操作图Heritrix结构分析:图2-2Heritrix的组件结构图各个组件的作用:CrawlControllerCrawlController(中央控制器)是抓取任务的核心组件,他控制着整个抓取 的流程(2)CrawlOrderCrawlOrder(抓取任务)是整个抓取工作的起点,它记录了任务的所有属性。 即在创建任务是的一系列设置FrontierFrontier(连接制造工厂)负责所有连接的处理,将已经爬过的URL做标记, 并将未处理的连接放入等待队列ToeThreadToeThread(处理线程)Heritrix使多线程的,每个UTL被一个线程处理,这 个现成就叫做ToeThread,每个县城都会包括一条处理连。ProcessorProcessor(处理器)代表着单个的处理器,所有的处理器都是他的子类2.2Heritrix抓取策略及改进Heritrix是使用BerkeleyDB来构建一个链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起,成为一个队列,也就是一个Queue.但是,这个Key值到底该如何计算呢?事实上,这里说的Key值,应该是作为一种标识符的形式存在。也就是说,他要与URL之间有一种内在的联系。在Heritrix中,为每个队列赋上值的策略,也就是它的queue-assignment-policy。在默认的情况下,Heritrix使用的HostnameQueueAssignmentPolict来解决Key值生成的问题。这种策略其实是以链接的Host名称为Key值来解决这个问题的。也就是说,相同Host名称的所有RL都会被放置于同一个队列中间。这种方式在很大程度上可以解决广域网中信息抓取是队列的键值问题。但是,他对于摸某个单独网站的网页抓取,就出现了很大的问题。以Sina的新闻网页为列,其中大部分的URL都来自于Sina网站的内部。因此,如果使用了HostnameQueueAssignmentPolicy,则会造成有一个队列的长度非常长的情况,在Heritrix中,一个现成从一个队列中取URL链接时,总是会先从队列的头部取出第一个链接,在这之后,这个被取出链接的队列会进入阻塞状态,知道待该链接处理完,它才会从阻塞状态中恢复。键入使用HostnameQueueAssignmentPolicy策略来应对抓取一个网站中内容的情况,很有可能造成仅有一个线程在工作,而其他所有线程都在等待。这是因为那个装有绝大多数URL连接的队列几乎会永远处于阻塞状态。因此,别的线程根本获取不到其中的URL,在这种情况下,抓取工作会永远处于阻塞状态。因此,需要改变queue-assignment-policy来避免发生这种情况。改进策略:从上面的分析中可以知道,这个Keu值最重要的一点就是应该能够有效的将所有的URL散列到不同的队列中,最终能使所有的队列的长度的方差较小,在这种情况下,才能保证工作线程的最大效率。任何扩展queue-assignment-policy的默认实现的类,均继承自QueueAAssignmentPolicy并覆写了其中的getClassKey()方法,getClassKey方法的参数为一个链接对象,而我们的散列算法,正是要根据这个链接对象来返回一个值。比如字符串的长度等,URL散列算法,最为出名的是ELFHash算法,ELFHash函数是对自负串的散列。它对长字符串和短字符串都很有效,字符串中每个字符都有同样的作用。它巧妙的对字符的ASCII编码值进行计算,ELFHash函数对于能够比较均匀地把字符串分布在散列表中。这里给出MyQueueAssignmentPolicy类,他通过ELFHash算法实现Key值分配。 publicStringgetClassKey(CrawlControllercontroller,CandidateURIcauri){ Stringuri=cauri.getUURI().toString(); longhash=ELFHash(uri); Stringa=Long.toString(hash%100); returna; } publiclongELFHash(Stringstr){ longhash=0; longx=0; for(inti=0;i<str.length();i++){ hash=(hash<<4)+str.charAt(i); if((x=hash&0xF0000000L)!=0){ hash^=(x>>24); hash&=~x; } }}2.3Heritrix抓取过程在浏览器中输入http://localhost:8080,输入之前设置的用户名/密码:admin/admin,进入到Heritrix的管理界面,如图2-3所示。因为我们还没有创建抓取任务,所以Jobs显示为0。图2-3Heritrix登录后的UI界面点击“jobs”,创建抓取任务图2-4Heritrix的创建任务,提供种子图首先点击“Modules”按钮,在相应的页面为此次任务设置各个处理模块,一共有七项可配置的内容,这里我们只设置CrawlScope和Writers两项,下面简要介绍各项的意义。1)SelectCrawlScope:CrawlScope用于配置当前应该在什么范围内抓取网页链接。例如选择BroadScope则表示当前的抓取范围不受限制,选择HostScope则表示抓取的范围在当前的Host范围内。在这里我们选择org.archive.crawler.scope.BroadScope,并单击右边的Change按钮保存设置状态。2)SelectURIFrontier:Frontier是一个URL的处理器,它决定下一个被处理的URL是什么。同时,它还会将经由处理器链解析出来的URL加入到等待处理的队列中去。这里我们使用默认值。3)SelectPreProcessors:这个队列的处理器是用来对抓取时的一些先决条件进行判断。比如判断robot.txt信息等,它是整个处理器链的入口。这里我们使用默认值。4)SelectFetchers:这个参数用于解析网络传输协议,比如解析DNS、HTTP或FTP等。这里我们使用默认值。5)SelectExtractors:主要是用于解析当前服务器返回的内容,取出页面中的URL,等待下次继续抓取。这里我们使用默认值。6)SelectWriters:它主要用于设定将所抓取到的信息以何种形式写入磁盘。一种是采用压缩的方式(Arc),还有一种是镜像方式(Mirror)。这里我们选择简单直观的镜像方式:org.archive.crawler.writer.MirrorWriterProcessor。7)SelectPostProcessors:这个参数主要用于抓取解析过程结束后的扫尾工作,比如将Extrator解析出来的URL有条件地加入到待处理的队列中去。这里我们使用默认值。抓取过程中进度:图2-5Heritrix抓取进度图2.4网页爬取结果在MyHeritrix工程目录下自动生成“jobs”文件夹,包含本次抓取任务。抓取下来网页以镜像方式存放,也就是将URL地址按“/”进行切分,进而按切分出来的层次存储。任务完成后的镜像目录如图所示:图2-6任务完成的的镜像目录各个文件夹下存储的主要内容为HTML文档及各类格式的图片HTMLParser图片相关信息提取3.1HTMLParser简介htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。htmlparser就是目前最好的html解析和分析的工具。htmlparser基本功能信息提取·文本信息抽取,例如对HTML进行有效信息搜索·链接提取,用于自动给页面的链接文本加上链接的标签·资源提取,例如对一些图片、声音的资源的处理·链接检查,用于检查HTML中的链接是否有效·页面内容的监控信息转换·链接重写,用于修改页面中的所有超链接·网页内容拷贝,用于将网页内容保存到本地·内容检验,可以用来过滤网页上一些令人不愉快的字词·HTML信息清洗,把本来乱七八糟的HTML信息格式化·转成XML格式数据3.2信息提取额策略信息来源:通过分析HTML文档找到图片和相关的文字提取方法:不能确知网页作者组织信息的方法,将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式:1<img>标记从src获取图片来源从alt,title获取相关文字信息获得width和height,用于以后的过滤2网页的标题图片与所在网页相关,因此和网页的标题相关提取<title>下的文字。有时<title>下还会嵌套标记,需要去除。有时 <title>使用缺省的名字(如newpage或者UntitledDocument),需要 过滤3网页的meta标记也是对网页内容的描述可以提取其中的keywords和description的值无用图片过滤:1文件尺寸比较小(包括长宽和大小)利用HTML提取到的width和height,以及实际图片的width和height2长宽比例较大3同一网页内有多个<img>引用它重要的图片不会在一页内出现多次出现多次的通常是装饰图片4GIF和JPG图片的区别GIF只有256色,但可动态,通常用于装饰性图片和广告JPG压缩比高,常用于存储大尺寸文件通常情况下,JPG图片有意义的比例要大大高于GIF3.3图片信息提取方法的实现在第2章中我们抓取了大量的网页及图片。本章要从之前抓取的网页中找出所需的图片相关信息。1.首先创建Extractor类,定义文件的输入,输出路径等成员变量及其构造方法,并定义图片拷贝函数booleancopyImage(),返回一个布尔量,通过对从HTML解析出的图片URL可在mirror目录下对应位置找到相应的图片,且图片大小足够大(为有效图片)则为True,如果在mirror目录下对应位置图片没有找到或找到了图片但图片不符合要求(图片太小等)则为False2继承Extractor类,并添加3个主要函数:voidgetNetInfo()获取网页<title>中的文本信息获取含description元素的<meta>标签下的文本信息获取含keywords元素的<meta>标签下的文本信息NodeFiltertitle_filter=newTagNameFilter("title");NodeFilterkeyword_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Keywords"), newHasAttributeFilter("name","keywords")));NodeFilterdescription_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Description"), newHasAttributeFilter("name","description")));title=getProp("<title[^<>]*>(.*)<[^<>]*>",this.getParser().parse(title_filter).elementAt(0).toHtml(),1);先是通过TagNameFilter获得标签名为title的标签节点,然后调用getProp函数匹配一个正则表达式获得title中的文本信息。主要通过AndFilter来获取标签名为meta且含description元素的标签节点(这里用了一个OrFilter来匹配description或Description)。同理可获得标签名为meta且含keywords元素的标签节点,然后调用getProp函数匹配相应的正则表达式获得其相应文本。(2)voidgetImgTag(NodeFilterimg_filter)获取<img>标签中src元素内容获取<img>标签中alt元素内容获取<img>标签中title元素内容获取<img>标签中width元素内容获取<img>标签中height元素内容Stringimage_src=getProp("<img[^<>]*src=\"([^\"]*)\"[^>]*>", image_nodes.elementAt(i).toHtml(),1);调用copyImage(imge_src,new_image_file),如果返回True将得到的<img>标签中的sec.alt,title,width,height以及网页<title>标签中的内容,及<meta>标签description和keywords的内容写入输出文件中。voidgetImgInfo()获取图片周围信息,遍历需寻找含该<img>标签的第一个父<div>节点获取该<div>节点内的文本信息3.4图片解析提取结果将所有有效图片的title,keywords,url等相关信息全部以.txt文档的形式存储到指定目录下,如图所示:图3-1解析的的.txt文档图像检索系统的搭建4.1数据库的建立本文采用MySQL建立数据库,并应用Hibernate技术管理Java类到数据库表的映射(包括Java数据类型到SQL数据类型的映射)MySQL是一个小型关系型数据库管理系统,开发者为瑞典MySQLAB公司。在2008年1月16号被Sun公司收购。而2009年,SUN又被Oracle收购。对于Mysql的前途,没有任何人抱乐观的态度。目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库。Hibernate可以应用在任何使用JDBC的场合,既可以在Java的客户端程序使用,也可以在Servlet/JSP的Web应用中使用,最具革命意义的是,Hibernate可以在应用EJB的J2EE架构中取代CMP,完成数据持久化的重任。Hebernate是轻量级JavaEE应用的持久层解决方案,可以大幅度缩短使用JDBC处理数据持久化的时间。目前的主流数据库依然是关系数据库,而Java语言则是面向对象的编程语言,当把二者结合在一起使用是相当麻烦,而Hibernate则减少了这个问题的困扰,他完成对象模型和基于SQL的关系模型的影射关系。ORM的全程是Obiger/RelationMapping,对象/关系数据库映射。ORM可理解成一种规范,他概述了这类框架的基本特征:完成面向对象的编程语言到关系数据库的映射。当ORM框架完成映射后,即可利用面向对象程序设计语言的简单易用性,又可利用关系数据库的技术优势。因此,我们可把ORM框架当成应用程序和数据库的桥梁。数据哭的发展并未与程序设计语言同步,而且关系数据库系统的某些优势也是面向对象的语言目前无法比拟的。比如:大量数据查找,排序。集合数据连接操作,映射。数据库访问的并发,事物。数据库的余数,隔离。面对着用面向对象语言与关系数据库系统并存的局面,采用ORM就变成一种必然。只要我们还是采用面向对象程序设计语言,底层依然采用关系数据库,中间就少不了ORM工具。当我们采用ORM框架之后,应用程序不再直接访问底层数据库,而是以面向对象的方式来操作持久化对象(例如创建,修改,删除等),而ORM框架则将这些面向对象的操作转化成底层的SQL操作。ORM工具示意图:图4-1ORM工具示意图数据表中的记录行对应持久化对象:图4-2记录对应持久化对象基于这种基本的映射方式,ORM工具可完成对象模型和关系模型之前的相互映射。由此课件在ORM框架中,持久化对象是一种中间媒介,应用程序只需操作持久化对象,ORM框架则负责将这种操作转换为底层数据库操作——这种转换对开发者透明,无需开发正关心。从而将开发者从关系模型中释放出来,使得开发者能以面向对象的思维操作关系数据库。首先,建立ImgK类,定义name,keyW,url等成员变量机器get,set方法。仔细看这个类的代码,无法发现这个类与普通的JavaBean有任何区别。实际上,Hibernate直接采用了POJO(普通,传统Java对象)作为PO(PersistentObject,持久化对象),这就是Hibernate被称为低侵入式设计的原因,Hibernate不要求持久化类继承任何父类,或者实现任何借口,这样可保证代码不被污染。这个普通的JavaBean目前不具备持久化操作的能力,为了时期具备持久化操作的能力,Hibernare采用XML映射文件。PO=POJO+映射文件然后建立一个连接数据库的持久化操作类HibernateUtil获取Configuration获取SessionFactory获取Session,打开事务用面向对象的方式操作数据库关闭事务接着通过MySQL建立一个空的数据库img_search,运行该持久化操作类,然后就可发现img_search数据库中多了一个新表imgK然后建立一个插入每一条数据的类dbInsert其为代码如下:1判断1个文件是否是文件夹2如果是,则读取目录下的每一个文件3如果不是,则判断是否为.txt文件4如果是,则读取里面的内容分别按Name,keyW,url存入数据库5继续第一步运行后,就会将第三章中得到的文本文件中的信息提取插入数据库中。在以后的操作中不需对数据库中记录进行操作,而对ImgK类的实例进行操作即可得到数据库中的信息。数据库结果如图:图4-3数据库记录展示4.2系统实现的框架和结构在数据库建立好之后就要建立基本的JSP页面和相应的操作逻辑。系统框架采用JSP+Struts2+HibernateStruts2应用开发步骤:在web.xml文件中定义Servlet或Filter拦截用户请求,通常这个Servlet或Filter是该框架的核心,负责拦截所有用户请求。如果需要以POST方式提交请求,则定义包含表单数据的JSP页面。如果仅仅只是以GET方式发送请求,则无需经过这一点。定义处理用户请求的Action类。配置Action。指定请求对应的Action处理方法。配置处理结果和物理视图资源之间的对应关系。Struts2流程图:图4-4Struts2流程图工程建立简要步骤:1建立分页用的javaBean类PageBean.java定义相关成员函数及变量(当前页,总页数,总记录数,当前记录数等)2建立基本的Action类KeySearchAction.java定义从页面获得的信息及到跳转页面要传递的信息变量及主要的逻辑函数StringjumpPage(),其中调用Service类中KeySearchService.java中findImageByKey(PAGE_SIZE,page,keyW)方法查询一定数量(一个分页页面要显示的数量)的符合匹配关键词条件的图片。3建立PageBreakService.java文件定义分页用的Service类,处理当前页,页面总数,总页数,总记录数等参数。然后建立KeySearchService.java文件继承PageBreakService,并添加一个findImageByKey()方法执行关键词查找的HQL语句.Stringhql="fromImgKwherekeyWlike'%"+keyW+"%'";这样,这个图像检索系统的基本文件已经建立好了,接下来打开网页输入本地网址及相应端口号和工程名及JSP页面http://localhost:8080/ImageSearch/index.jsp图4-5图像检索系统HomePageUI其中高级是一个空连接,为以后的基于语义的图像检索的开发做一个接口输入关键字,点击“搜一下”,即可按关键词从数据库中查询结果。4.3检索结果展示图4-6检索结果展示图4-7分页跳转功能实验结果分析:总结和展望随着Web技术的普及和信息技术的发展,推广与应用,以图像,声音和视频为主的多媒体信息迅速成为信息交流和服务的主流,现代信息处理的对象和方法有了很大的变化,大量何种类型的信息在全球得到了采集,传播,流通和应用。人们正快速进入一个信息化的社会。由于大规模图像数据库的出现和应用,每天都有大量额度图像信息在不断的生产(如卫星,医疗,安全部门),这就迫切需要性能良好的检索工具,能够根据图像的视觉特征和语义信息,从图像库中检索所需的图像,而传统的基于关键字的信息查询方法(IR技术)不能有效的支持多媒体信息的查询和检索。如何组织,表达,存储,管理,查询和检索这些海量的数据,是对传统数据库技术的一个重大挑战,如果没有对图像及视频数据的自动和有效的描述,大量信息将淹没在信息的海洋之中,无法在需要的时候被检索出来,因此,如何将数字图像处理,模式识别技术,计算机视觉技术与传统的数据库技术结合起来,建立高效的图像检索机制就成为目前迫切需要解决的问题,而基于内容的图像检索技术便是解决这一问题的关键。本文基本完成了对一个图像检索系统的构建,从利用网络爬虫爬取图片和相关网页,对爬下来的网页进行分析,对图片相关信息的提取,图片数据库的建立一直到图像检索Web系统的搭建。但本文还存在一些不足。首先是图片周围文字信息的提取不够充分,有效。在对大量的实验结果分析中表明仍有一些应过滤的信息没有过滤掉。现在还没有找到很好的算法能统一解决不同模式网页的有效解析。只能将覆盖面缩小,以求尽可能准确,但放掉了部分有用信息。 根据图片检索技术的发展趋势,未来基于文本的图像检索技术将越来越受到关注,尤其是基于语义的图像检索技术的发展潜力是巨大的。本文只是实现了图像检索技术中传统的基于文本的部分。以及图像检索技术中的网页图片爬去及数据库的建立部分。总之,在未来的后续工作中,如何更好的对网页进行解析和如何较好的利用图像的物理和语义特征描述图像,获得更全面的文字信息及图像语义特征,构建更完善的图像检索系统是未来的努力方向。这项有意义的挑战还有很多路要走,还有很多理论要研究,还有很多技术要实现。参考文献RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李晓明,闫宏飞,王继民.搜索引擎-原理,技术与系统[M].北京:科学出版社,2004.马自萍.形状和颜色特征的混合图像检索[D].银川:北方民族大学,2010.7.陈剑雄,张蓓.简析图像检索中的CBIR技术[J].情报探索(第7期),2010.7.邱哲,符滔滔,王学松.开发自己的搜索引擎Lucene+Heritrix[M].北京:人民邮电出版社,2010-01.李刚.轻量级J2EE企业应用实战[M].北京:电子工业出版社,2008.11.周明全,耿国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.7.沈兰荪,张箐,李晓光。图像检索与压缩域处理技术的研究[M].北京:人名邮电出版社,2008.12.李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展2001年第3期.安志勇.基于内容的图像检索关键技术的研究[D].西安:西安电子科技大学,2008.李伟,黄颖。基于HTMLParser的网页信息提取[J].兵工自动化(第7期),2007,7.外文资料ImageRetrieval:Ideas,Influences,andTrendsoftheNewAgeRITENDRADATTA,DHIRAJJOSHI,JIALI,andJAMESZ.WANGThePennsylvania天津大学2007届本科生毕业设计(论文)PAGE18中文译文图像检索:思想,影响,以及新时代的趋势当尼尔斯玻尔亨里克大卫说:“没有人能用语言将你所想的表达得更清楚”时,每个人都在猜测这究竟意味着什么。鉴于目前的讨论情况,一想到这个著名的引用所表达的是,在有时些时候和情况下,当我们思考一下我们的想法时,却无法用词汇准确表达这一想法。举个实例,希望从集合找到一个完美的图像。企图表达什么使图像“完美”,最终可能低估了图像的美。从某种意义上说,比起使用文本描述。从集合中找出这样的图片可能会更容易。 我们组织东西是与生俱来的。多年来,我们了解到,这是一个取得进展的关键。数百年来,不同语言的文本已被设置为了有效检索,无论是古代图像或是现代数字图像。但是,当涉及到组织图片,人在传统上,胜过大多数执行任务的机器。原因之一,造成这一区别的是,文字是人类的创造,而典型的图像是一个单纯的人类制造物,这些都是比较难以实现的具体描述。除此之外,还有理论认为,人类视觉系统已经发展了几百年。当然,我们所看到的解释是很难的,更难教一台机器。然而,在过去的十年中,雄心勃勃的尝试,已作出让计算机学会理解,索引和注释图片,代表一个广泛概念,且范围很大的进展。 基于内容的图像检索(CBIR的),正如我们今天看到的,是帮住组织其视频内容的数字图片技术,按照这个定义,任何东西,从相似的功能包括图像到充满活力的形象注解发动机属于职权范围内的图像检索。这种基于内容作为一个研究领域在一个独特的地方特征在科学界的时刻了。虽然我们在继续努力解决问题,我们也看到来自不同领域的成就,例如,计算机视觉,机器学习,信息检索,人机交互,数据库系统,Web和数据挖掘,信息,人员理论,统计学,心理学,为图像检索做出共献[Wangetal.2006]。此外,横向之间的一些研究的一些空白的区正在逐步缩小作为副产品带来的贡献,其影响最终也可能超越CBIR的。同样,我们今天看到的是一些跨领域在可预见的未来很可能成为新的研究领域。 由这个图可以看到GoogleScholar可以检索到一个科目的最新研究状况,这是一个很有用的数据,附上这样一幅图,那么可以更好的将国内外的研究状况做一个分析。一,早期图像检索在1994-2000年可以被看作是研究和开发的初期阶段的图像检索的内容。在这一阶段取得了高水平的的进展。[2000],这已经对在当前十年取得进展及有明确的影响,并无疑将继续影响未来的工作。因此,我们提供有关在描述新时代图像检索的想法,影响,以及早期几年的趋势摘要(其中很大一部分源于那些调查)。为了做到这一点,我们首先介绍有关各种定义和相关的大多数问题。--感知鸿沟,现实物体和我们对世界的感知差距--语义鸿沟,人们从视觉数据中抽取的信息和某个用户在特定情况下对相同数据的描述缺乏一致性。虽然前者使得从图像内容识别挑战由于在录音的限制,后者本质上是如何捕捉他们的视觉内容中的图片和用户??的解释问题。我们将继续简要总结早年主要贡献及处理这些鸿沟的方法。图像搜索领域被归类为狭义和广义,这仍然是一个用于系统设计的目的非常重要的区别。如上所述,通常狭义图像域有限变异和较清晰的视觉特征(如航空相关的图片[Airliners.Net2005]),这使得基于内容的图像搜索稍微有点比较容易形成。另一方面,广泛的领域往往具有很高的变异性及不可预测性相同的基本语义概念(例如,Web图像),这使推广更有挑战性。正如Huijsmans和Sebe[2005]提到的,狭义和广义域也构成的图像搜索评价的一个问题,必须为标准的评价指标的一致性作出适当的修改。该调查还列出了三个图片搜索类别:(1)searchbyassociation联合搜索,对于一副图像没有明确的意图,而是通过反复提炼浏览进行搜索(2)aimedsearch有目的的搜索,搜索特定的图片(3)categorysearch分类搜索,搜索一个语义类的单个图片代表还讨论了不同类型的领域知识,可以帮助减少在图片搜索感觉差距。其中值得注意的是语法,感性的,和拓扑相似性的概念。因此,总的目标仍然是缩小语义和感官鸿沟,利用现有的相关领域知识的视觉特征的图像,并支持不同的搜索类别,最终满足一般用户。我们讨论和扩展其中的一些想法。在调查中,从图像抽取视觉内容分为两个部分:图像处理和特征重建。这里的问题是用什么功能来提取,这将有助于执行有意义的检索。在文中,搜索已被描述为一个最小不变情况的模式下,用户意图减少因意外的扭曲、杂波、闭塞所造成的感知鸿沟。纹理的关键贡献,抽象规范已经进行了讨论。其中最早的颜色直方图的图像索引的使用是在斯温和Ballard[1991]。随后,特征,如QBIC[Flickner等系统提取。1995],Pictoseek[格弗斯和Smeulders2000],及VisualSEEK[史密斯和张1997年b]。在色彩恒常性,也就是在相同的环境变化中感知颜色进行了创新,并考虑到[芬利森1996]镜面反射和形状。在黄等人[1999]提出了相关图的颜色直方图,也考虑到了颜色的空间分布。Gabor滤波器被成功地用于对局部形状匹配和检索在Manjunath和马[1996]。Daubechies小波变换被用来改善颜色布局的WBIIS制度[王等人的特征提取。1998]。图像检索[施密德和Mohr1997]闭塞不变应十分注意地方特色为手段,以弥补当地补丁的显着特征[Tuytelaars和vanGool1999]感官gap.Work发现突出的领域,如图像检索和立体匹配。知觉组织的图像,因为它识别图片中的对象是重要的,也是一个非常具有挑战性的问题。它一直在强/弱分割(数据驱动的分组),分区分类调查(数据无关的分组,例如,固定图像块),并签署地点(分组基于固定模板)。已经在图像分割领域取得了重大进展,例如,朱和尤尔[1996],其中snake-和region日益增长的想法是一个原则性的框架内结合,施和马利克[2000],其中谱图分割应用了这一目的。从形状和形状分类来满足需求。在德尔Bimbo和帕拉[1997],图像弹性匹配成功地应用于草图为基础的图像检索。图片具有多尺度轮廓模型的代表性,研究了Mokhtarian[1995]。用图的空间来表示对象之间的关系,特别是对面向医疗成像,在Petrakis和Faloutsos[1997]探讨。在史密斯和张[1997年a],二维字符串[昌等人。1987]被用来表征各区域之间的空间关系。一种自动特征选择方法,提出了在Swets和翁[1996]。在Smeulders等。[2000],视觉内容描述的主题是结束时的优点和图像分割问题的讨论,以及采取的方法,可避免强大的分割,同时仍然很好地刻画形象结构的图像检索。在当前的十年中,许多地区为基础的图像检索方法已经提出不依赖强大的分割。我们讨论了特征提取和其他新的创新。一旦图像特征被抽取,问题将改变成为他们如何被在不同的检索过程从被索引和匹配。这些方法主要目的是尽量减低尽可能的语义鸿沟,有时减少感官的差距,以及在这一进程。相似的措施,归纳为基于特征的匹配(例如,斯温和Ballard[1991]),对象的轮廓为基础的匹配(例如,德尔Bimbo和帕拉[1997]),结构特征匹配(即分层排列功能集,例如,威尔逊和汉考克[1997]),显着特征匹配(例如,几何散列沃尔夫森和Rigoutsos[1997]),在语义级别(例如,费金[1997])匹配,和学习为基础的做法相似匹配(例如,吴等人。[2000]和Webe等。[2000])。紧密联系在一起的相似性措施是如何模拟用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论