八个著名中文搜索引擎的特征及其评析 - 陆兴-_第1页
八个著名中文搜索引擎的特征及其评析 - 陆兴-_第2页
八个著名中文搜索引擎的特征及其评析 - 陆兴-_第3页
八个著名中文搜索引擎的特征及其评析 - 陆兴-_第4页
八个著名中文搜索引擎的特征及其评析 - 陆兴-_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、陆 兴(宁夏大学物理电气信息学院,宁夏 银川 750021八个著名中文搜索引擎的特征及其评析关键词搜索引擎;中文网站;信息检索;评价摘 要对八个著名中文搜索引擎(新浪、搜狐、网易、天网、悠游、FM365、古戈尔中文、雅虎中文的数据库规模、信息采集、检索功能、结果显示格式、结果排列顺序等方面的主要特征进行了比较和评析。中图分类号G354.2;G250.73文献标识码B文章编号1005-8214(200302-0046-03Internet搜索引擎就像信息海洋中的导航员,能帮助人们快速找到所需的信息。然而随着各种信息的巨量增长,人们使用搜索引擎也遇到了许多困难,相同的搜索词在不同的搜索引擎中得出不

2、同的结果,在质量和数量上都有所不同。产生这种现象是因为不同的搜索引擎采集信息的方法、标引的内容以及检索功能是有所区别的。本文对八个著名的中文搜索引擎的特征进行比较和评析,通过比较不同搜索引擎的工作方式,帮助用户正确掌握不同搜索引擎的使用规则,轻松方便地上网查找信息;另一方面,还可以帮助网页设计者根据搜索引擎的要求去设计网页,确保自己的网站能被搜索引擎收录并且在进行检索时能得到较好的排名。1 搜索引擎的工作原理机器人搜索引擎一般由搜索软件、索引软件和检索软件三部分组成。搜索软件通常称为机器人(Robot、爬虫(Crawlers或蜘蛛(Spiders,它们可以运行在WWW上,是能够沿着网站的链接从

3、一个页面跨越到另一个页面,自动追寻和发掘网上的各种文献信息资源,采集新出现的信息,确认网页之间的链接是否有效并剔除死链的一种软件。索引软件将采集的网页信息进行自动标引,建立索引数据库。不同的索引软件标引网页的内容是不同的,有些对网页全文进行标引,有些只标引网页的地址、篇名、题名、特定段落和重要的词。不同的索引软件建立数据库的规模不一样,数据规模大小决定查询的信息是否全面和查全率的高低。查询软件决定搜索引擎的检索功能和返回结果的相关性。在检索过程中,该软件还会利用特殊的计算机算法对文献与检索词的相关性进行计算和评估。不同的搜索引擎依据各自的标准对相关度做出判断。2 八个著名中文搜索引擎的特征及其

4、评析新浪公司于1998年底成功地并购海外最大的华人网站公司 华渊资讯 ,成立全球最大的华人网站 新浪网 。新浪网收录了大量中文网址,内容丰富,分类详细,共分为15个大类,1万个细目和10余万个网站。在关键字搜索中还推出一些热门关键字,如交友、聊天、股票等,用户可直接由此进入相关网站。是一个在多项服务上齐头并进的商业网站。新浪网数据库中收录了200多万个网页,在中文搜索引擎容量排行榜上列居第一。在查询途径上提供关键词查询和分类检索两种查询方法,信息采集方式为网络机器人自动搜索。支持简单和高级查询,能通过 and、or、not 等的联系,扩大或缩小查询结果,支持从结果中再检索。查询结果显示格式包括

5、:标题、简要描述、URL文件大小、文件索引日期等。检索结果按相关度级别顺序显示结果,同时提供相关类目、相关站点、相关网页等。评价:数据库容量大,用户界面友好,人性化方面做得相当出色。高级搜索方便实用,站点本身内容丰富,是目前检索软件中功能最全面、查全率最高的优秀搜索引擎之一。搜狐是由爱特信(ITC公司于1998年2月在北京隆重推出的有 中文网路神探 之称的大型网上中文查找工具。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用习惯相结合,由编辑人员分类。它的信息抓取范围较其它中文搜索引擎要广,不仅有国内站点,还包括国外的中文站点,日访问率达上万人次。搜狐还提供了许多

6、高质量的内容服务,如 新闻导读 、 娱乐天地 、 企业集锦 等服务项目。搜狐数据库中收录了200万个网页,搜索方式是通过人工建立一个结构化的分类目录体系,将网络机器人 抓 回来的网站划分到各个类别及子类下,并将各个网址抽象为一般摘要性信息,作为该网站的概括介绍。各级类目下还伴有一个搜索框,用户可输入关键词检索,层次清楚,方便用户简单地查找某一方面的信息。有基本检索和高级检索,支持布尔逻辑检索,用逻辑符号 AND 或 OR 连接起来。搜索结果按关键字串的相关程度来排列相关网页或网站,相关度越高,排列位置越靠前。评价:系统反应速度快,查询准确性高,便于简单查询,界面人性化好。自从2000年改用百度

7、的搜索引擎后,搜索能力有了很大提高,但实力还有待提高。网易是由广州网易计算机系统有限公司推出的一个中文搜索引擎。网易公司连续在中国互联网历史上创造了多个第一,如:中国第一家提供中文全文搜索,第一个免费贺卡站,第一个虚拟社区等。网易自从采用Google的搜索引擎技术后,目前实力不俗,搜索功能全面而实用, 虚拟社区 服务很有特色。网易提供了分类浏览和关键词查询两种方式。分类浏览有12个大类,各大类下分若干个小类。关键词检索支46持全文检索,支持布尔逻辑检索,不需使用逻辑符号 AND ,搜索引擎自动在关键词之间添加 AND 。检索结果显示包括网址、提要、长度、最近修改时间和相关度等。检索结果按分类类

8、目及网站信息与关键字串的相关程度来排列。另外,网易还提供了一些原代码,用户可以将这些原代码放到自己的主页上,这样就可以随时对网络资料进行查询并得出结果。评价:检索结果质量相关度很高,界面友好,搜索个人主页方便,但不支持从搜索结果中再搜索。天网搜索引擎是国家 九五 科技攻关重点项目 中文编码和分布式中英文信息发现 的研究成果,曾被 软件世界 杂志评为最值得关注的中文搜索引擎。它支持简体中文、繁体中文以及英文的关键词检索,信息来源是国内CERNE T、CHINANET、C HINAGBN、CSTE T四大网络。天网搜索引擎数据库目前大约收集了135万个网页和9万新闻组文章,信息采集方式为 Robo

9、t 自动发现和收集信息。天网搜索引擎采用搜索网页全文的方式,既可以提供WWW网页全文的检索,又可以检索Newsgroup,同时还支持复杂查询和FTP检索。支持布尔逻辑检索,逻辑运算符号为 & (与 - (非 | (或。检索结果显示格式包括网址、摘要、最后修改时间、长度、相关度、编码类型等。检索结果按关键字串的相关程度来排列。评价:数据库容量较大,有中、英文两个界面。界面友好,操作方便,支持复杂检索,查准率高,反馈信息丰富。悠游中文搜索引擎是由美国优联克有限公司于1997年5月在香港推出的一个高智能的中文搜索引擎,分别在北京、上海、重庆、香港和美国设立5个分站点,由各地的优联克分公司进行

10、制作和维护,号称是一个极具高度智慧的中文搜索器。由于悠游中文搜索引擎融入了人工智能技术,所以它在一定程度上提高了查询结果的准确率。同时悠游中文搜索引擎还能够自动转换GB码(中文简体和BIG5码(中文繁体,所以可以为大陆的用户查找港台地区网站,或者为其它地区的朋友查找网站提供方便。悠游中文搜索引擎数据库目前大约已收录了8万个网站以及80万中文网页的信息。信息采集方式为智能机器系统,以两天为周期不停地搜索全球互联网网页,查找新网页和网页中的最新资料,并能自动识别和归类。提供了自动构造式的概念类型查询和关键词检索两种查询方式,采用布尔算符,还提供了字段限制。查询结果显示格式内容丰富,有站点名称、编码

11、类型、相关程度、所在目录地址、简要介绍、最后修改日期等。检索结果按相关度高低排列。评价:悠游中文搜索引擎同时提供了GB码和BIG5码两种码字的检索界面,它具有汉字内码的自动转换和跟踪功能,查准率高,用户可按书写习惯输入检索请求,方便易用。FM365号称是新三大门户网站之一,是联想与美国在线在2001年各注册1亿美元合作经营的一个电子商务网站。在最近的几次测评中,无论是搜索结果数量、相关度等硬指标,还是帮助文档等服务性软指标,FM365均表现不俗。FM365搜索引擎采用蓝帆的搜索技术,提供分类目录检索和关键词检索两种途径。关键词检索使用同音功能,如输入 网情 时,同音字 网擎 也会找到,十分方便

12、。在查询中支持基本查询和高级查询,支持布尔逻辑检索,运用逻辑运算符号 and、or、not 的连接,支持从结果中再搜索。查询结果显示格式包括网址、标题、简要介绍、相关度等。检索结果按相关度高低排列。评价:搜索能力强,反馈信息丰富,查询结果质量相关度很高,界面友好。支持模糊搜索,方便灵活。Google是由美国斯坦福大学的两位博士生Larry Page 和Sergey Brin在1998年创建的。自2000年正式开始商业运营以来,目前在全球范围内已拥有一个正在快速增长的忠实用户群。Google中文搜索引擎是收集亚洲网站最多的搜索引擎之一,信息采集方式是利用蜘蛛程序(Spider以某种方法自动地在互

13、联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务,提供基本查询和高级搜索两种检索功能。基本检索部分最本质的是布尔检索功能,高级检索功能包括: 可以将检索结果局限在一个网站上; 可以排除某个特定站点的网页; 可以对网页以及检索结果页面的语言类型进行限制; 可以检索链向某个网页的所有页面; 可以检索与某个网页相关的所有网页。检索结果显示格式包括标题、网页(站简介、URL长度、附带的全新功能等相关信息,还会根据具体情况显示最新更新日期、类别等信息。检索结果按相关性从大到小排序。评价:Google中文搜索引擎技术专精,实力出众。界面很具人性化,首页设计简捷、

14、鲜明、大方,完全突出了检索功能。操作简单易用,查询结果相关度很高。不足之处是其数据的更新速度无法进一步提高。由于数据量庞大,使Google搜索引擎的数据更新无法早于30天,在一定程度上影响了用户对信息的时效需求。雅虎是1995年由美籍华裔杨致远博士与其同事在斯坦福大学研制出来的搜索引擎。1997年Yahoo发布了Ya hoo中文搜索引擎,它的功能和形式与Yahoo英文保持一致。针对中文的目前状况,分别设立了简体中文(GB和繁体中文(BIG5两种版本,用户可利用繁体或简体中文进行检索。如果对相对内容的英文感兴趣,只要点击鼠标,就可换成英文,速度较快。它现在提供的服务包括拍卖、购物、开设商店、个人

15、免费电子邮箱、聊天和新闻等多种网络服务。Yahoo由人工索引的分类数据库也保持了库内数据质量较高、冗余信息较少的优点。Yahoo中文搜索引擎收录了全球咨询网上数以万计的中文网址,以14个类别排列,每个大类下面又分若干子类。信息采集方式由索引人员用人工方式建立并更新。鼓励用户利用联机表格递交自己的网页地址,用人工和Ya hoo的蜘蛛软件不定期地在Web的 What s new 网站上发现新文件。Yahoo对收集到的信息要进行严格的审核和分类,提供按目录逐级搜索和输入关键词检索两种查检方式,支持简单和高级查询功能。简单查询功能支持布尔逻辑的进阶检索。进阶检索提供一些特殊检索格式;高级查47询中,支

16、持词语搜索等。它还提供日期限定、URL和题名限制检索等。查询结果显示格式按下列顺序排列:首先是满足条件的雅虎目录和子目录,接着是满足查询条件的网站,最后是网页。网页只显示题名、摘要和URL。查询结果排序根据分类类目、网站信息与关键字串的相关程度排列出相关的类目和网站。匹配关键词越多,相关性越高。检索词出现在题名中的文献给出一个优先的排序;出现在分类目录中的级别,按目录的级别从高到低排序。评价:系统反应速度快,界面友好、人性化,通过主题指南查询查准率高,内容丰富,方便易用。优点是反映了人在选择和组织信息时的知识和智慧,收录网页经过筛选和系统组织,质量较高,条理性较强,检索结果接近用户的信息需求。

17、缺点是采集信息的速度远远比不上网络资源的增长,因此检索的数量有限。参考文献1陈延军,张岗.著名中文搜索引擎评析J.沈阳电子高等专科学校学报,2002,(2.2张延蘅.漫谈因特网中文搜索引擎J.泰安师专学报,2002,(1.3丁华.让信息随手可得 介绍几个中文搜索引擎J.电脑技术,2000,(3.4朱俊卿.搜索引擎Google研究J.现代图书情报技术,2002,(1.513家搜索引擎横向评测 梳理纷繁的网络资源J.电子计算机与外部设备,2001,(9.作者简介陆兴,男,宁夏大学物理电气信息学院讲师,发表论文数篇。收稿日期2002-12-04 责任编辑王 岗(上接第35页的专业设置联系密切,针对性

18、强,而且藏书系统完整,复本较多。这些特点是一般公共图书馆和科技图书馆所不及的。据统计,目前国家每年要花上亿元的巨额资金,为党校图书馆购进大批中外文书刊,我国党校图书馆现已有藏书3亿多册。而这笔巨大的智力资源和宝贵财富的利用率仅为15% 25%。这种投入与产出极不相称的局面,再也不能继续下去了,必须尽快突破封闭的办馆模式,充分发挥自身的优势和作用,直接面向社会,面向经济建设,提供多种形式的文献信息服务,迅速与市场经济接轨。党校图书馆面向社会服务,与市场经济接轨,必须坚持三条原则:一是要围绕党校图书馆的基本任务,以本校师生为主要服务对象,把为教学、科研服务作为自己的工作重心,切忌本末倒置;二是要从

19、实际出发,选择适当的服务方式,根据不同的服务对象,采取不同方式向社会开放;三是要正确处理社会效益和经济效益的关系。在以社会效益为主的前提下,实现两个效益的统一。党校图书馆面向社会开展服务的目的,一方面是充分开发利用图书馆的各种资源,实现社会范围的资源共享,促进经济建设和社会发展;另一方面,也可作为创收的手段,从中收取合理的费用,改善办馆条件。因此,既要重视经济效益,更要重视社会效益。3 党校图书馆怎样面向社会、面向经济建设,实现与市场经济接轨首先,面向社会和经济建设,进一步扩展教育职能和信息职能。党校图书馆不仅成为全校的文献信息中心和学员的第二课堂,而且应当充分挖掘潜力,把它的教育职能和信息职

20、能从党校内部扩展到社会经济领域,成为其他系统科研人员和一般读者接受继续教育的第二课堂和信息源。就当前社会读者的需求情况看,党校图书馆可以从三个方面开展工作。一是为各行各业的科研人员、理论工作者举办文献检索讲座。党校图书馆针对各行各业科研人员和理论工作者的不同需求,为他们开设文献检索讲座,使他们能够较快地掌握检索技能;二是不定期地举办各种知识讲座。根据经济发展的需要和人们普遍关注的热点问题,党校图书馆可以为社会读者举办诸如知识经济、WTO、外经外贸政策法律等专业知识讲座或其它内容的科普知识教育,增强他们的改革开放意识,提高人们的文化素质;三是为领导决策提供服务。党校图书馆是社科情报五大系统之一,以收藏社科理论书刊,党的路线、方针、政策法律等内部和公开的文献资料而独具特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论