版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Web中图像的检索技术研究 本文来自无忧毕设网wybsw 联系QQ: 375279829作作 者:刘晓流通者:刘晓流通指导老师:张指导老师:张 量量 2004.6.10摘 要 随着网络技术和计算机技术的飞速发展,网络搜索技术越来越受到人们的重视。如今,虽然网络检索技术已走向成熟和完善,但还是不能满足人们的需求。 在本文,我首先要向大家介绍一般网络搜索技术的基本原理、发展现状和它的发展趋势。在第二章我们则讲述基于Web的图像检索技术,解析搜索过程中分词技术的应用、检索模型和相似度他们之间的具体关系。上一张上一张 本文来自无忧毕设网wybsw 联系QQ: 375279829引引 言言 研究现状:
2、随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识,实现和应用的难度相当高,所以已有的图像检索系统都有这样或那样的缺陷。 而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。 图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上一张上一张 引引 言言 发展趋势 立足于文本,对图像进行检索。试图
3、将传统的文本检索技术移植于对多媒体信息的检索上 立足于图像内容,对图像进行分析和检索。 结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现 上一张上一张 引引 言言 存在的问题: 由于搜索引擎技术的开发牵涉到信息检索、人工智能等许多基础研究领域的理论和技术,中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题,而且中文搜索引擎技术的起步也较晚,还远没能满足中国网民的需求。因此我们现在要做的是研究出适合中国大众的简单有效的搜索技术。上一张上一张 基于基于Web的图象搜索的图象搜索 引擎的搜索途径 : 1. 关键词检索 (1)基于图像外部信息进行检索 (
4、2) 基于手工标注的检索 2.图象可视属性的检索上一张上一张 基于基于Web的图象搜索的图象搜索 文本图像间关系 在文本检索中,搜索引擎主要考虑Web页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在HTML网页中,根据HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。上一张上一张 基于基于Web的图象搜索的图象搜索 图像的文本标记 (1)图像的说明 :图像说明文本 (2)图像的标题 :图像关键词 (3)图像的标签 :说明图片摘要信息的短语 (4)网页的标题 :反映网页中心内容 上一张上一张 基于基于Web的图象搜索的
5、图象搜索 文本权值间的关系 在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分它们之间的异同,获取需要检索的图像。但它们对图像描述时侧重不同,同时与图像信息的联系程度也不同。如图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下: Image CaptionImage TitleImage AlternatePage Title 上一张上一张 基于基于Web的图象搜索的图象搜索 图像检索模型 Web搜索引擎采用何种检索
6、模型,它所提供检索质量将直接影响到检索的效果。这里采用向量空间模型。上一张上一张 基于基于Web的图象搜索的图象搜索 向量模型中权值计算 在这里我们一般采用比较简单的统计法来计算它的权值。公式如下: 在信息检索中常用的词条权值计算方法为 TF-IDF 函数:)()(dtfdii)log()(iinNdtf上一张上一张 基于基于Web的图象搜索的图象搜索 相似度算法 两文档di,dj之间的相似度可以用其对应的向量之间的夹角余弦来表示:nkjknkiknkjkikjiddddddSim12121)()()()()(cos),(上一张上一张 基于基于Web的图象搜索的图象搜索 进行查询的过程中,先将
7、查询条件Q进行向量化,主要依据布尔模型: 当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即 也就是说当两词条完全相同时,这一项为1,其余情况为0。可以看出文档含有完全相同的词条时,相似度=1;而其中无相同时的词条时,相似度=0。QtQtqiii01上一张上一张 基于基于Web的图象搜索的图象搜索 从而文档d与查询Q的相似度为: 根据文档之间的相似度在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。niiniiniiiqdqddQSim12121)()()(),(上一张上一张 基于基于Web的图象搜索的图象搜索 分词技术和匹配方法 1.
8、 常用的切词算法如下: (1)最大正向匹配法 (2)逆向最大匹配法 (3)基于词频的统计方法 由于这些设计思想都不怎么好,所以这里我们将提出改良的匹配法。上一张上一张 基于基于Web的图象搜索的图象搜索 词典存储格式: 第一层存储所有单字,第二层保存所有的双字词和多字词的前两个字,第三层存储以某一双字为首的所有词。 A1A3A2A1B1(f,n1)A1C1(t,n3)A1B2(t,n2)AnA1D1(t,n4)F1G2H1G2H1R1T1上一张上一张 基于基于Web的图象搜索的图象搜索 匹配方法 假设对一个句子C1C2进行分词处理,算法描述如下: 1) 两个字开始时为C1C2),在词典中查询C1C2是否存在 2) 不存在,则C1为单字词,一次分词结束,返回1。 3) 存在,判断C1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为n 4) 若n=0,一次分词结束,保存结果。 5) 否则,i=2,转6)。 6 ) i=i+1,若i=n+3,转8);否则,转7)。 7) 再取一个字此处为Ci),判断第三层中是否有以C3Ci开始的字(不需要恰好匹配,只要匹配开始的i个字就可以了)。 8) 若存在,分词结束,返回最近一次能够恰好匹配的C3Cj(j80%,而检索完全度60%。 上一张上一张 本文来自无忧毕设网wybsw 联系QQ: 375
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年二手机床设备购买协议范本
- 2024年云存储混合使用条款
- 2024年可再生能源项目融资租赁合同
- 物流行业培训质量管理方案
- 科技企业“党建带创新团队建设”方案
- 济宁学院《教师语言》2021-2022学年第一学期期末试卷
- 济宁学院《国际商务导论》2021-2022学年第一学期期末试卷
- 济宁学院《歌曲伴奏与弹唱》2021-2022学年第一学期期末试卷
- 城市燃气管道施工安全方案
- 电缆隧道作业应急预案方案
- GB/T 42455.2-2024智慧城市建筑及居住区第2部分:智慧社区评价
- 地 理期中测试卷(一) 2024-2025学年地理湘教版七年级上册
- 2024年山东济南轨道交通集团限公司招聘95人历年高频难、易错点500题模拟试题附带答案详解
- 2024年认证行业法律法规及认证基础知识
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 华为财务管理(6版)-华为经营管理丛书
- 酒店流水单模版
- 开盘八法概述
- 佛山佛罗伦萨小镇市调报告课堂PPT
- 班组建设实施细则
- 江苏省电力公司员工奖惩办法(试行)
评论
0/150
提交评论