




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅谈信息检索工具作者:日期:摘要文章由信息检索的分析和开展状况出发,阐述了一些常用的信息检索工具和相关技术.然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和开展趋势.关键词:信息检索工具、技术、评价标准、开展趋势AbstractPost by information retrieval and analysis ofdevelopment and expoundsa number of commonly usedinformation retrieval tools andrelated technologies.Then usedthe information r
2、etrieval tools to doa brief evaluation, and then discussthe statusof information retrieval tools and trendsKeywords: information retrieval tools, techniques, evaluation criteria, trends浅谈信息检索工具第一章信息检索分析及开展状况步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完 善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化.然而网上 的信
3、息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比拟全面,由于 主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息.如何在浩瀚 的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题.信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索 与之有关的信息资料.信息检索的目的是获取所需信息,而这要基于比拟完善的检索工具和技术.1.1 从传统检索到信息分析目前,随着信息检索技术的开展,信息检索已经由手工检索、计算机检索开展到了网络化、智能化、 认知化阶段,这一阶段的信息检索平台具备了初步的信息
4、分析功能,从而使传统检索信息向信息分析层 次开展.例如,在ISIWeb of Science检索平台上,当某一主题的检索结果出来后,检索者还可以利用该 平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:根据论文发表时间进行分析, 了解不同时间阶段课题研究的状态;根据国家分析,了解该领域的主要研究国家以及国内该领域研究情况;根据机构分析,了解领域的主要研究机构;根据作者分析,了解该领域的核心研究人员; 根据来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;按 照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析.很显然,通过对 检
5、索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解.1.2 信息检索的开展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索开展到计算机信息检索.计算机信息 检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段.目前,以文献单元描述体结构为根底、手工检索方式为主导的传统文献检索已开展到以信息单元组织结构为根底、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络 检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化根底上的共同开展.如下表所 示,传统 检索技术和网上检索技术无论是在检索 策略还是在检索手
6、段上都发生了本质的变化.传统检索技术与网上检索技术的比拟传统检索技网上检索技术浅谈信息检索工具概念模型布尔逻辑概率推理、空间向量前期处理赋词、自动抽 词超文本标记语言、标 准通用标记语言文档结构顺/倒书口 档超文本链接访问力,式单向检索双向交互式检索后期处理文字编辑用输出方式输出结 果第二章信息检索工具及相关技术2. 1网上检索工具及相关技术为了快速、有效地获得信息,人们非常注重信息检索工具及相关技术的研究.现在,因特网上著名的搜索引擎有 Yahoo、Alto vista 、Infoseek和Lycos等;中文搜索引擎有 Sohoo 搜狐、Robot 假设比 邻等.搜索引擎是Internet上
7、提供公共检索效劳的 Web网站,它是新一代信息检索工具.搜索引擎的关 键技术主要是“自动跟踪技术和“指引库 .目前,网上检索工具正向多语种化、综合化、专业化方向开展,已出现元检索工具即检索工具的检索工具,对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎集成式的搜索引擎具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提 供网上信息.检索界面简洁、易学易用,检索结果格式清楚、内容充实、数据更新及时,检索所提供的 网页链接可靠.2.1 文本检索与多媒体检索根据检索的信息形式,信息检索分为文本检索和多媒体检索.即使在文本信息检索领域,全文本和 超文
8、本检索技术的作用和重要性也正在超越二次文献文本信息的检索.文本检索现在比拟实用的技术是 全文检索和自然语言检索.全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒 级查询.自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标 引或少量人工干预和自动检索文献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语 言并用的检索方法.目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用.自然语言检索 方面也取得了进展,主要问题集中在中文语词的切分技术上.浅谈信息检索工具2.2 多媒体信息检索的关键技术对多媒体信息检索早期的方法是基于文本描述(
9、即对多媒体信息添加文本说明),现在主要研究基于内容的多媒体检索技术.基于内容的检索指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为局部根底技术,首先进行特征抽取,再计算其相似性.多媒体文档不同于文本文档只有单一的线性结构关系,收录一个多媒体文档,首先要对其进行内容和结构分析,提取多媒体文档的视听、语义和结构特征,作为用户浏览和检索的依据,同时为自适应的网络传输、互动式操作提供根本依据.目前,计算机识别技术的不成熟,以及不存在通用、高效的算法已成为多媒体 基于内容检索技术开展的障碍.对多媒体内容的分析、自动摘要、索引和查询方
10、法的研究已取得较大的进步.为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反应技术(Relevant Feedback)、语义传播技术(SemanticPropagation)以及交互学习技术 (Interactive Learn2ing) 把这两种方法有机地结合起来,从而大幅度地提升检索系统的检索效率.第三章信息检索工具的评价随着互联网上各种信息的急剧增长,网络信息检索工具的地位越来越重要,搜索引擎的数量、种类 有了长足的开展,特别是随着网上中文信息日益增多 ,网络中文检索工具应运而生,它们为广阔用户快 速、准确地查询与获取网上中文信息创
11、造了便利的条件.面对众多的网络信息检索工具,为了帮助用户有效的选择,也为了对检索工具的改良和完善提供参考 ,下面将探讨信息检索工具的评价标准.3.1传统评价指标体系遇到的困难对传统的信息检索系统进行评价时,主要的性能评价指标包括信息收录范围、查全率、查准率、响应时间、输出方式、新奇率、用户友好程度等.因特网的出现使信息环境发生了变化,传统的检索性能评价指标在对新兴的网络检索工具进行评价时遇到了很大的困难.首先,在网络信息环境下,响应时间在相当大的程度上取决于用户使用的通讯设备、网络的拥挤程度 等外部因素.就算是同一检索工具,在不同时间检索同一课题,其响应时间也会不一样,实际上该指标无太 大实际
12、意义.其次,真实的查准率和查全率在网络环境下也很难获得.真实的查全率,即检索出的相关文献量和文献空间中所有相关文献量的比率,对整个因特网的文献空间来说是很难计算的,甚至连估算都困难.由于网上的信息是瞬息万变的,今天存在的信息,明天就可能不在了,同时又会出现更多的新的信息,而且至今对因特网上存在的信息量的准确估算都没有公认的说法.要计算或者估算查全率,就意味着要检验检索工具返回的所有检索结果,这在数量上可能成千上万.并且,浅谈信息检索工具要知道整个文献空间的相关文献量也是不可能的.真实查准率,即检索出相关文献的数量和检索出的文献总量的比率,也是很难计算的.由于对于命中结果数太大的检索课题来说,相
13、关性判断的工作量极大,不具有现实可操作性.再次,新奇率这个指标在网络环境下也不再是问题了.由于因特网上的信息更新的速度很快,以新闻尤甚,与学术科研有关的信息也不会在网上存在很长时间,因此检索到的信息根本上都是新奇的.新奇率这个指标也没有很大意义.3. 2关于新的检索性能评价指标的讨论为了解决传统的检索性能评价指标体系遇到的困难,有必要对原有的评价指标体系做一些修正,形成新的体系,以适应新的信息环境的要求.如前所述,响应时间、新奇率、查全率和查准率等传统评价指标在全新的网络信息环境下都遇到了前 所未有的困难.但是数据库的收录范围、输出格式的灵活性、数据更新频率和用户界面友好程度等传统 评价指标那
14、么由于很好地适应了新环境而得以保存.此外,出现了链接的可靠性这样的新的评价指标.但是,查准率和查全率一直是评价信息检索系统检索性能的最有说服力的指标,也是最应该保存的评价指标.查全率在网络环境下遇到的困难: 整个网络空间的文献总量难以计算; 整个网络空间中和检索课题相关的文献量更加难以计算; 很多时候,检出文献中的相关文献量的计算要花费巨大的人力和物力本钱.也就是说,在网络信息环境下,计算真实查全率不具有现实可操作性.从另一个角度来说,在网络信息环境下,进行全面的回溯检索的现实可操作性也不大,由于网络上的信息是动态存在的.网络信息动态存在的特性决定了网络信息环境下的信息检索只能求新而不能求全.
15、如果要进行全面的回溯检索 ,那么要求助于DIALOG这样专业的联机情报检索系统.在这种情况下 ,查准率 似乎是更必要的检索评价指标.前面已经讨论过,网络信息环境下的真实查准率是难于计算的.由于有的检索命中记录数太多,有时候可以多至成千上万,其相关性判断的工作量极其巨大.因此,有必要寻求一种可操作的替代方法.比拟成功的一种计算查准率的替代方法是两位美国研究人员H.Vernon Leighton和JaideepSrivastava提出的“相关性范畴概念和“前X命中记录查准率.3.3新检索性能评价指标体系的建立新评价指标体系以“前 X命中记录查准率为核心,继承和开展了原有的评价指标体系,包括输出数据
16、库的收录范围、格式的灵活性、数据更新频率、链接的可靠性、用户界面友好程度等.“前X命中记录查准率是一个易于操作的评价网络卞索工具检索性能的指标.虽然“前X命中记录查准率有着这样那样的缺乏,但是它确实能比拟客观地反映检索工具在前X条命中记录中提供有用信息的水平.浅谈信息检索工具输出格式的灵活性是网络信息检索性能评价的一个重要指标.检索工具应该能够灵活地定义检索结 果输出格式.和传统检索性能评价指标相同,检索工具应该能够输出尽量多的有关信息,如标题、说明语、URL、文件尺寸、语种等.除此之外 ,网络信息环境的特点使网络检索工具可以用超链接来实现检索结 果的输出.例如,Excite在每个命中记录的最
17、后有“Searchmore like this这一项,使得用户可以方便地找 到更多的相关记录.数据更新频率是网络信息检索性能评价的另一个重要指标.在不考虑本钱的情况下,检索工具数据更新频率当然是越快越好.如果更新频率太慢,跟不上网上信息的更新速度 ,就会出现死链.链接的可靠性是网络信息检索性能评价特有的评价指标.这个指标和数据更新频率有关.显而易见,如果链接的可靠性很差,断链、死链太多,就会出现找不到原始文献的情况,那么命中记录再多也没有用.用户界面友好程度是所有检索工具是否易于使用的衡量标准.检索工具的目的就是尽可能完美地服 务于信息检索用户,简单、易用应该是检索工具永恒的特点.第四章信息检
18、索工具的现状与开展趋势4.1 基于网页的网络信息检索工具网络信息检索工具的开展主要表达在进一步改良、完善检索工具和检索技术,以提升检索效劳质量, 改变网络信息检索不尽人意的地方.主要表达在以下几个方面:一是网络检索工具开发提供商之间的合 作越来越紧密.过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索效劳,检索范围有限, 而现在某些著名的搜索引擎购置了其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用.二是信息检索工具专业化及效劳内容不断深化.一些检索工具已经不再盲目追求加大收 录和标引量,而更加注重突出专业特色.在lycos搜索引擎目录中,我们可以看到商业搜索
19、引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索工具纷纷出现,信息检索 工具的专业化已经成为一种不可逆转的趋势.4.2 基于FTP文件的搜索工具FTP文件搜索引擎技术还不是很成熟,但其开展非常迅速.其开展趋势主要表现在以下几个方面: 一是检索功能日益丰富.天网FTP文件搜索引擎现在可以实现以文件大小、文件的上传日期以及网段 如华北网、华东网等等多个条件的高级检索来限制检索结果;AlltheWeb 增加了检索方式规那么表达检索、准确检索、浏览、对大小写敏感与否等,限制主机类型是 edu还是gov或者com等、文件 类型以及文件大小、日期等功能.二是检索效劳的个性
20、化.现在FTP搜索引擎研究者已经开始注意这一问题,天网ftp搜索引擎已经有了很多个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外 文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是FTP上文件优先还是 WWW上的文件优先,是选择中文还是英文等.AlltheWeb 可以完成更为丰富的个性化设置,如可以选择一浅谈信息检索工具个主机提供一个结果、设置语言、搜索文件大小的设置、是否亮度显示搜索关键词、设置使用者语言以 及键盘快捷键等.4.3 基于网络检索工具的检索技术这类检索工具的开展趋势主要表现在下面几个方面:一是检索结果整理的深化.如Vivisimo ,EZ2WWW,MetaCrawler等可以实现搜索结果的自动分类,用户可以利用传统的方式浏览结果,也可以利 用其同屏的分类结果提示找寻自己需要的内容.通过EZ2WWW高级搜索功能可提供 1000多种专项资源检索,可进行目录检索.SurfWax有一个其他元搜索引擎没有的独特功能,即点击每条结果左边的“网址揪钮图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可把搜索结果和文 件存储起来以备后用.天网搜霸已经拥有了独特的链接检测功能,可在几秒钟内检查当前页面查询结果 是否可以访问,如果标注为绿色,那么链接可连通目前仅检测页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 进口彩涂板采购合同范本
- 老年科护理小讲座
- 2025至2030年中国微电脑精密控制注酸机数据监测研究报告
- 专业婚介培训课件
- 2025至2030年中国卡通工艺包数据监测研究报告
- 2025至2030年中国全棉汗布睡裙数据监测研究报告
- 2025至2030年中国仿皮首饰盒数据监测研究报告
- 公司各部门年度工作总结
- 应届生品质工程师述职报告
- 2025年中国铜钱市场调查研究报告
- 大模型专题:2024大模型技术及其在金融行业的应用探索报告
- 天津地区高考语文五年高考真题汇编-语言文字应用
- 特殊作业安全管理监护人专项培训课件
- 道路运输企业两类人员安全考核试题及答案
- 卫生技术人员准入制度
- 简单酒店装修合同书范本(30篇)
- 2024-2030年中国核桃油行业消费趋势及竞争格局分析研究报告
- 安全、环境、职业健康安全目标、指标及管理方案
- 课件:《中华民族共同体概论》第一讲 中华民族共同体基础理论
- JJF(皖) 179-2024 气体涡街流量计在线校准规范
- 2024-2025学年部编版九年级上册道德与法治综合检测题二
评论
0/150
提交评论