




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络信息检索工具的比较研究摘要随着Internet的迅速发展,网络上的信息越来越多,但由于这些信息缺乏合理有效的组织,使得许多用户面对浩瀚的信息显得手足无措,无法准确地获取自己所需要的信息。针对这种情况有些组织和个人开发出多种用以查找网络信息的检索工具.对目前广为使用的网络信息检索工具进行功能比较,选择其综合性的网络信息检索工具。以便用户能够更快捷地找到所需信息。关键词:检索工具,搜索引擎,Google,百度NETWORK INFORMATION RETRIEVAL TOOLS FOR COMPARATIVE STUDAY ENGLISH AbstractAlong with Internet rapidly expand, In the network information are getting more and more But because these information lack the reasonable effective organization Causes many users appears helpless facing the vast information Is unable information which gains itself to need accurately Somewhat organizes in view of this kind of situation and develops personally many kinds of uses to search the network information the retrieval tool the current widely used by the network information retrieval search engine tools are compared functionally through comparing to found the respective merits and demerits users can more quickly find the information needed.Key words: Tool Of Retrieves, Search Engine, Google,Baidu目 录摘要 IAbstractII绪论一网络信息检索工具概述 1(一)网络信息检索工具的概念1(二)网络信息检索工具的特点 2二 网络信息检索工具的分类.3(一)检索型网络信息检索工具(二)目录型检索工具.(三) 元搜索引擎. .三、网络信息检索工具的比较6(一)检索型网络信息检索工具与目录型检索工具的比较.6(二)目录型网络信息检索工具与元搜索引擎的比较7(三)元搜索引擎检索工具 .7结束语8参考文献8谢辞8绪论随着Internet的迅速发展,网络上的信息越来越多,但由于这些信息缺乏合理有效的组织,使得许多用户面对浩瀚的信息显得手足无措,无法准确地获取自己所需要的信息。针对这种情况有些组织和个人开发出多种用以查找网络信息的检索工具。对目前广为使用的网络信息检索工具进行功能比较,通过比较找到各自的优点和缺点,以便用户能够快捷找到所需信息。了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国著名的数字媒体评估公司Jupiter Media Metrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的。”网络信息检索工具是信息检索效率的关键因素。传统的检索工具已不能适合新的网络和信息发展的需要。目前开发的能在广域网环境下运行的信息检索工具,对于网络的检索者来说,最重要的是熟悉这些工具的性能,并且运用有效的检索策略,只有这样才能避免淹没在大量的无关信息中。一、网络信息检索工具概述(一)网络信息检索工具的概念随着Internet的迅速发展,网络上的信息越来越多,但由于这些信息缺乏合理有效的组织,使得许多用户面对浩瀚的信息显得手足无措,无法准确地获取自己所需要的信息。针对这种情况有些组织和个人开发出多种用以查找网络信息的检索工具。早期的Internet检索工具有针对FTP资源的Archive,针对Gopher资源的Veronica和Jughead,以及针对整个Internet网上文本信息资源的WAIS等。随着WWW的发展,针对WWW资源的各种检索工具已成为网络检索工具中的主流,它们有Yahoo、AltaVista、Excite、HotBot、Lycos、OpenText、WebCrawler和MetaCrawler等.这些检索工具大多是由非图书馆专业技术人员设计的,由于缺乏统一的网页描述标准,所以在各自对自己的数据库进行检索时的方法各不相同,各有自身的优缺点。本文选择了其中六种检索工具,它们分别是Lycos、Alta Vista、Excite、Open Text、Yahoo和Magellan,分析了它们在信息收集方法、索引范围与检索方法和检索结果格式三个方面的异同,并在此基础上,从图书馆员的角度出发,对未来网络检索工具的改进进行了探讨。(二)网络信息检索工具的特点1 交互式作业方式 所有的网络信息检索工具都具有交互式作业的特点,因此具有良好的信息反馈功能和瞬间反应功能。这两个指标在传输信息检索系统性能的最重要指标,在网络环境下也具有同样的意义。2 用户透明度网络信息检索对用户屏蔽了网络的各种物理差异,使用户在使用这些服务时感受到明显的系统透明度。这里所指的物理差异包括主机的硬件平台、操作系统等软件上的差异、客户程序和服务程序版本上的差异、主机的地理位置、信息的存储方式甚至通信协议的差别(如WWW客户程序可以通过多种协议使用各种不同的信息资源)等。这一特点对网络环境下的信息检索来说是十分关键的。3 信息检索空间的拓宽信息检索空间是衡量信息检索工具的重要指标之一。网络信息检索在这方面具有传统信息检索和Internet基本信息服务所不具备的优势。以FTP为例,尽管使用FTP可以检索所有的FTP服务器,但是用户必须预先知道这些服务器所在的主机地址,而且在某一时刻只能使用一个FTP服务器。网络信息检索工具的工作方式则与此不同,它们可以同时使用多个主机甚至是所有主机的某种资源而且用户不必知道它们的具体地址。这一特点为用户带来的好处上显而易见的。4 友好的用户界面与Internet的三大基本信息服务相比,网络信息检索系统的用户界面要友好得多,特别是一些商业化软件(如Internet Explorer和Netscape Navigator)。即使是Internet上的一些免费软件(如MS Windows和Unix下的各种服务程序和客户程序)也设计得相当不错。对于有一定微机使用经验的人来说,学会使用这些软件是轻而易举的事情。Internet的普及在很大程度上是得益于这些设计精良的软件。详细描述文献的内容特征,外表特征;每条文献记录必须有检索标识;文献条目按一定顺序形成一个有机整体;能够提供多种检索途径。二 网络信息检索工具的分类(一)检索型网络信息检索工具在这里我们要向网络用户提供一些世界上有名的网络搜索引擎。这些专业搜索引擎要比国内中文网站的搜索引擎起步早,更加完善。起初上网,我主要是利用百度、谷歌等的搜索引擎,但随着对搜索引擎理解的深入,便发现我们自己的搜索引擎还有许多的问题。比如说百度网,其搜索引擎不够精确,有时也不完全按照用户的设定条件来完成搜索任务,形成了许多资源垃圾,为查阅增添了许多麻烦。国内其它搜索引擎也存在着这样的问题,这说明我们的网上引擎服务正处在发展阶段,还不够完善。一些外国著名的搜索引擎服务公司看准了中国网络市场这种缺陷,及时地打入中国的市场。目前,几个著名的国际搜索引擎公司都有中文检索搜寻功能,这极大地方便了我们获取重要资料。这些有名的搜索引擎公司服务质量好、服务完善、精确匹配高,大大提高了文献提取的效率。更为重要的是,我们要获得国际上的资源,就更离不开它们了。前些日子,我和一位美国史学专家探讨如何搜索到有用的中外资料时,他毫不犹豫地向我提供了GOOGLE搜索引擎。我打开一看,这真是一个方便、快捷而又个人化的搜索引擎。它的搜索功能和结果列表筛选是国内网站无法比拟的。因此,我建议大家在以后进行搜索时,应该使中外的搜索引擎兼顾使用,这样才能达到预想的效果。 检索型搜索引擎是提供给用户输入检索式代替用户在互联网上进行网络搜索查询的工具。了解搜索引擎的基础知识与使用技巧,可以大大提高搜索信息的效率。目前世界上最大的搜索引擎是Google、MSN和雅虎,MSN主要是美国商业目录搜索引擎,主要为用户提供教育、新闻、媒体及娱乐信息。中文综合性搜索引擎有:百度、Google、中国搜索联盟、新浪、搜狐、网易、雅虎、TOM、3721等,其中百度是目前最具影响力的中文搜索引擎。综合性搜索引擎针对任何用户,收录各个方面、各个学科、各个行业的信息,包括不同媒体的、正式与非正式出版的、社会科学的和自然科学的、生活性的和娱乐性的、系统的和零散的信息,用起来非常方便,但其所涵盖信息的内容比较宽泛,检准率不高,一搜就是几千甚至上万条记录,必须对这些记录进行二次检索,才能满足一般用户的浏览性检索需要。专业性搜索引擎则不同,可以就某一专业进行专门检索,其检准率比较高,如专门用于搜索新闻的Deja News、搜索中国企业定制产品的中国制造网,搜索全球企业站点的阳光之路国际商务网,搜索中国建筑的中国砌体等等。 公认较好的搜索引擎有: 中文搜索引擎:网易、搜狐、网络指南针、亚洲搜索、若比邻、中文雅虎; 英文搜索引擎: YAHOO、EXCITE、INFOSEEK GUIDE、LYCOS。(二)目录型检索工具 目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。这些主题范畴一般有1020个,主题链接到第二层目录(另一个页面),然后在第二层目录再分出子目录,一般到第四级。逐层点击,它将会罗列出一层层的目录清单,所有的选择只用鼠标点击链接来实现。网络资源数不胜数,任何分类目录都不可能包罗所有的网页,多数网络目录都包括下列典型的一级类目,如商业贸易(business and commercial)、计算机和网络(computer and Internet)、时事(current events)、娱乐和休闲(entertainment and recreation)、体育(sports)等等,遇到交叉的主题,网络目录会在相关的类目下显示不同的路径。(三)元搜索引擎检索工具元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定影响的中文元搜索引擎。 元搜索引擎弥补了独立搜索引擎不全的特点,提高了检索的全面性。现开发出的中文元搜索引擎的数目很少,还有诸多缺陷,需在各方面进一步改进。 元搜索引擎要对各独立的信息特色进行较细致的调查,以确定自己要收录的范围;在对目标搜索引擎的组织中突出独立搜索引擎的检索特色,并设计各搜索引擎之间的检索方式的转换算法,提高用户检索行为的针对性;建立更为灵活的,面向用户的信息检索服务。检索界面要统一和友好,检索方法的设置要提供给用户更多的自由空间,使用户可以按照自己的意愿合理的组织检索式;在检索结果的显示中要开发出一个有效的检索结果去重、选择、排序和优化算法,这是中文搜索引擎开发中的一个重点和难点。 三 网络信息检索工具比较(一)检索型网络信息检索工具与目录型检索工具的比较 检索型检索工具通过用户直接输入检索词,查找索引数据库中用检索词标引的索引记录来查找用户所需要信息资源,检索方便直接,而且可以使用布尔逻辑,短语或邻近等基本检索和模糊,自然语言,概念等高级检索方式。可以限定检索对象的地区,网络范围,数据类型,时间等,可以满足特定条件的资源准确定位。以信息查询、检索为主,不太重视信息的整理,收录的网站和网页数量大,分类目录为辅。用户查找信息的时候比较麻烦,要先打开网页还要输入关键字才能查出自己想要的信息。浪费时间,但它的优点就是对某一问题分析的很透彻,输关键字会有很多相关的文献和信息,提供用户查找和使用。而目录型检索工具支持多种语言,对包含关键词的热门搜索在最上方,其他的排序多采用相关性的排序,相关度很高。比如我们国家的百度。百度图书搜索正式上线,其数据来源于图书馆(如北大图书馆、中科院图书馆、中山图书馆)、电子书数据库(超星、方正等)和网上书店(如卓越、蔚蓝等),所以数据量比GOOGLE大。由于GOOGLE容全文或部分预览,考虑到图书版权的问题,因此走的是出版商路线;而百度的目的是放在图书书目数据上,而不提供图书内容,因此在搜索结果数量大大超出GOOGLE搜索可以作为一个较好的导购平台,但是在信息的整合(如加入图书馆藏书信息),仍有所欠缺。这方面,GOOGLE的较好,不仅学术搜索进行了很好的整合,而且还开展了图书馆链接计划,让所有的图书馆网上数据库都可以加入到其中。目前,百度图书搜索虽然仅限于书目搜索,但内容或者说全文扫描作为搜索引擎公司安身立命并确立垄断性话语权的关键,必然会成为百度的下一个战略目标。Google也是一个相对比较简单的搜索引擎,但结果处理也有独到之处。Google经过几年的发展,现在已经成为登录用户较多、服务比较完备、比较简洁实用的一个搜索引擎,我现在就一直用它。还有Google公司在2004年10月、11月分别推出了的“Google Scholar”和“Google Print”项目。“Google Scholar”项目主要是收集各学科领域内的连续出版物、预订本、论文和专题报告等内容。“google print主要是用于提供与出版商的链接。2004年12月又推出的“Google Library”则主要侧重于将一些大型图书馆的馆藏进行数字化后纳人到其检索引擎中,方便读者通过互联网使用。这3个项目都继承了Google检索引擎一贯的页面风格,可以方便快捷地为检索者提供所需的相关链接。“Google Library”项目的一期计划主要是与哈佛大学图书馆、牛津大学图书馆、斯坦福大学图书馆、密歇根大学图书馆以及纽约公共图书馆这5家顶级研究性图书馆合作并签署协议,由图书馆提供其丰富的馆藏,而Google负责提供经费与技术,将这些馆的馆藏扫描成电子版并链接到它的检索引擎中。在www检索工具当中,检索型检索工具的索引数据库比分类检索工具的索引数据库要大点多,在检索效果方面,检索型检索工具占很大的优势,如果二者配合使用效果会更好。在检索中高级检索方式的应用有可能降低检索效果,中文Yahoo覆盖的中文信息量较大,查准率也比Cseek(英文检索工具)高,网上中文信息资源太贫乏,现有的信息当中有学术价值的不多,网络信息检索工具还存在着许多不足,尤其是中文检索工具还有待提高。(二)目录型检索工具与元搜索引擎的比较目录型检索工具通过用户浏览层次型类别目录来寻找符合需要的信息资源,目录按一定的主题分类体系组织,并辅之以年代,地区等分类。用户一般采取逐层浏览目录,逐步细化来寻找合适的类别直至具体资源。常用的目录型检索工具有新浪,雅虎,搜狐等检索工具。目录式检索工具给用户的感觉就是清晰,打开网站各个方面的信息和知识都有,比检索型工具更醒目。但也有它的不足。给出的各个信息不够全面,没有检索型工具全面,透彻,解释的清楚。以分类目录导航为主,搜索引擎相辅或并重,类目精致且相对较深,收录网站和网页往往经过人工选择,数量相对较少,质量相对较高。目录型检索工具与之元搜索引擎比较差别很大,元引擎是一种起检索中介作用的搜索引擎 它是网络开发者将网络资源收集后,以某种分类法进行组织整理并和检索集成法在一起的信息查询方式,网络资源目录一般采用人工采集和存储网络信息,它通常按照网络资源的主体性质进行分类。以某种分类体系为依据将信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录,形成一个有信息链组成的树状结构。网络目录的分类往往采用主题分类法,学科分类法,体系分类法,在这一切划分基础上,一个目录包括许多层最高层将网络资源分为若干范围大,普通的主题。新浪网是面向全球华人的网上资源查询系统,所收资源十分丰富,分类规范,细致。该目录原分阶段16大类,一万多个细目和20余万个网站。分类检索是按照首页的树型分类主题逐层点击来查找所需信息的。 网易提供多种语言检索。其分类目录是一种开放式管理目录,业余编辑多。(三)元搜索引擎检索工具 元引擎是一种起检索中介作用的搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户查询一个关键词时,它把查询请求转换成其他数个搜索引擎能够接受的命令格式,并行地或者有选择性地访问这些搜索引擎并查询这个关键词,处理这些搜索引擎返回的结果,然后再返回给用户。可以存取世界各地的超媒体文件,内容包括文字、图形、声音、动画、资料库、以及各式各样的软件。 多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面,且将一个检索提问的同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重之后输出检索结果。其优点是省时,缺点是由于不同的搜索引擎的检索机制,所支持的检索算法,对提问式的接读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有Dogpile Inferen等。元搜索引擎以超连接的方式,实行对独立搜索引擎的数据库选择,查询,分析,提炼整合出相关的数据,并把这些搜索引擎返回的结果经过处理后再返回给用户。元搜索引擎是建立于独立搜索引擎之上的搜索引擎,可以灵活地选择所要采用的独立搜索引擎,充分发挥各个独立搜索引擎在某个搜索领域的功能与优势,弥补独立搜索引擎信息覆盖面上的局限性,保证了搜索结果的准确性和有效性,在查询,检索相关的信息或全文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合伙人之间的服务合同协议
- 环保设备采购合同及销售合同范本
- 科学学科教育叙事
- 房屋买卖合同委托协议
- 水疗操作规范培训课件
- 仓储设备租赁合同
- 职场沟通课培训
- 服务合同范本:物业管理服务合同范文
- 中小企业流动资金借款合同2025
- 建筑结构荷载规范
- 2025年第六届美丽中国全国国家版图知识竞赛题库及答案(中小学组)
- DEFORM-3D塑性成形CAE应用教程
- 幼儿绘本之《愚公移山》课件
- 钢筋混凝土水池施工方案(完整版)
- 电梯系统质量检查记录表
- 电子教案与课件:精细化工工艺学(第四版)-第5章-食品添加剂
- 机械设计齿轮机构基础
- 统编版高一语文现代文阅读理解专题练习【含答案】
- T∕CGMA 033001-2018 压缩空气站能效分级指南
- 世联年重庆樵坪山项目发展战略与整体规划
- 人教版七年级数学下册期中知识点整理复习ppt课件
评论
0/150
提交评论