浅谈信息检索工具_第1页
浅谈信息检索工具_第2页
浅谈信息检索工具_第3页
浅谈信息检索工具_第4页
浅谈信息检索工具_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈信息检索工具摘要文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。关键词:信息检索工具、技术、评价标准、发展趋势AbstractPostbyinformationretrievalandanalysisofdevelopment,andexpoundsanumberofcommonlyusedinformationretrievaltoolsandrelatedtechnologies.Thenusedtheinformationretrievaltoolstodoabriefevaluation,andthendiscussthestatusofinformationretrievaltoolsandtrends.Keywords:informationretrievaltools,techniques,evaluationcriteria,trends

第一章信息检索分析及发展状况步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。然而网上的信息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。1.1从传统检索到信息分析目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,从而使传统检索信息向信息分析层次发展。例如,在ISIWebofScience检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:①按照论文发表时间进行分析,了解不同时间阶段课题研究的状态;②按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;③按照机构分析,了解领域的主要研究机构;④按照作者分析,了解该领域的核心研究人员;⑤按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;⑥按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。很显然,通过对检索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解。1.2信息检索的发展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化。传统检索技术与网上检索技术的比较传统检索技术网上检索技术概念模型布尔逻辑概率推理、空间向量前期处理赋词、自动抽词超文本标记语言、标准通用标记语言3.2关于新的检索性能评价指标的讨论为了解决传统的检索性能评价指标体系遇到的困难,有必要对原有的评价指标体系做一些修正,形成新的体系,以适应新的信息环境的要求。如前所述,响应时间、新颖率、查全率和查准率等传统评价指标在全新的网络信息环境下都遇到了前所未有的困难。但是数据库的收录范围、输出格式的灵活性、数据更新频率和用户界面友好程度等传统评价指标则因为很好地适应了新环境而得以保留。此外,出现了链接的可靠性这样的新的评价指标。但是,查准率和查全率一直是评价信息检索系统检索性能的最有说服力的指标,也是最应该保留的评价指标。查全率在网络环境下遇到的困难:●整个网络空间的文献总量难以计算;●整个网络空间中和检索课题相关的文献量更加难以计算;●很多时候,检出文献中的相关文献量的计算要花费巨大的人力和物力成本。也就是说,在网络信息环境下,计算真实查全率不具有现实可操作性。从另一个角度来说,在网络信息环境下,进行全面的回溯检索的现实可操作性也不大,因为网络上的信息是动态存在的。网络信息动态存在的特性决定了网络信息环境下的信息检索只能求新而不能求全。如果要进行全面的回溯检索,则要求助于DIALOG这样专业的联机情报检索系统。在这种情况下,查准率似乎是更必要的检索评价指标。前面已经讨论过,网络信息环境下的真实查准率是难于计算的。因为有的检索命中记录数太多,有时候可以多至成千上万,其相关性判断的工作量极其巨大。因此,有必要寻求一种可操作的替代办法。比较成功的一种计算查准率的替代方法是两位美国研究人员H.VernonLeighton和JaideepSrivastava提出的“相关性范畴”概念和“前X命中记录查准率”。3.3新检索性能评价指标体系的建立新评价指标体系以“前X命中记录查准率”为核心,继承和发展了原有的评价指标体系,包括输出数据库的收录范围、格式的灵活性、数据更新频率、链接的可靠性、用户界面友好程度等。“前X命中记录查准率”是一个易于操作的评价网络检索工具检索性能的指标。虽然“前X命中记录查准率”有着这样那样的不足,但是它确实能比较客观地反映检索工具在前X条命中记录中提供有用信息的能力。输出格式的灵活性是网络信息检索性能评价的一个重要指标。检索工具应该能够灵活地定义检索结果输出格式。和传统检索性能评价指标相同,检索工具应该能够输出尽量多的有关信息,如标题、说明语、URL、文件尺寸、语种等。除此之外,网络信息环境的特点使网络检索工具可以用超链接来实现检索结果的输出。例如,Excite在每个命中记录的最后有“Searchmorelikethis”这一项,使得用户可以方便地找到更多的相关记录。数据更新频率是网络信息检索性能评价的另一个重要指标。在不考虑成本的情况下,检索工具数据更新频率当然是越快越好。如果更新频率太慢,跟不上网上信息的更新速度,就会出现死链。链接的可靠性是网络信息检索性能评价特有的评价指标。这个指标和数据更新频率有关。显而易见,如果链接的可靠性很差,断链、死链太多,就会出现找不到原始文献的情况,那么命中记录再多也没有用。用户界面友好程度是所有检索工具是否易于使用的衡量标准。检索工具的目的就是尽可能完美地服务于信息检索用户,简单、易用应该是检索工具永恒的特点。第四章信息检索工具的现状与发展趋势4.1基于网页的网络信息检索工具网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽人意的地方。主要体现在以下几个方面:一是网络检索工具开发提供商之间的合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些著名的搜索引擎购买了其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。二是信息检索工具专业化及服务内容不断深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索工具纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。4.2基于FTP文件的搜索工具FTP文件搜索引擎技术还不是很成熟,但其发展非常迅速。其发展趋势主要表现在以下几个方面:一是检索功能日益丰富。天网FTP文件搜索引擎现在可以实现以文件大小、文件的上传日期以及网段(如华北网、华东网等)等多个条件的高级检索来限制检索结果;AlltheW增加了检索方式(规则表达检索、准确检索、浏览、对大小写敏感与否等),限制主机类型(是edu还是gov或者com等)、文件类型以及文件大小、日期等功能。二是检索服务的个性化。现在FTP搜索引擎研究者已经开始注意这一问题,天网ftp搜索引擎已经有了很多个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是FTP上文件优先还是WWW上的文件优先,是选择中文还是英文等。AlltheW可以完成更为丰富的个性化设置,如可以选择一个主机提供一个结果、设置语言、搜索文件大小的设置、是否亮度显示搜索关键词、设置使用者语言以及键盘快捷键等。4.3基于网络检索工具的检索技术这类检索工具的发展趋势主要表现在下面几个方面:一是检索结果整理的深化。如Vivisimo,EZ2WWW,MetaCrawler等可以实现搜索结果的自动分类,用户可以利用传统的方式浏览结果,也可以利用其同屏的分类结果提示找寻自己需要的内容。通过EZ2WWW高级搜索功能可提供1000多种专项资源检索,可进行目录检索。SurfWax有一个其他元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可把搜索结果和文件存储起来以备后用。天网搜霸已经拥有了独特的链接检测功能,可在几秒钟内检查当前页面查询结果是否可以访问,如果标注为绿色,则链接可连通(目前仅检测页面内以http://和ftp://开头的链接)。二是检索界面的个性化趋势。天网搜霸和Goggle提供了IE浏览器的插件,安装后就会被嵌到IE的工具栏,用户不用登陆天网主页就可实现检索。用户可将自己喜欢的搜索引擎设置为主要搜索,也可添加自己喜欢的搜索引擎。不久前天网搜霸刚刚推出了可嵌在Windows系统任务栏上的插件,现在用户连打开IE浏览器都不需要了。Mamma可选择使用短语检索功能、设定检索时间、设定每页可显示记录数,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。MetaCrawler可实现搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)个性化定制保存。三是智能化。ProFusion可自动实现符合特殊检索语法要求的转换。

参考文献[1]敬卿王群从传统信息检索到面向知识创新[2]孙桂荣从网络信息检索工具的现状看其发展特点[3]金芳浅谈信息检索与信息检索技术[4]李宪民网络时代文献信息检索工具及其选择[5]高琳

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论