校园内网搜索引擎构建的必要性分析_第1页
校园内网搜索引擎构建的必要性分析_第2页
校园内网搜索引擎构建的必要性分析_第3页
校园内网搜索引擎构建的必要性分析_第4页
校园内网搜索引擎构建的必要性分析_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、校园内网搜索引擎构建的必要性分析摘要:分析了当前通用搜索引擎的原理和体系结构,研究了通用搜索引擎在应用于校园网信息检索时无法完整准确的不足之处以及校园网Web信息的特点,总结了校园网搜索引擎应该具有特性以及建设的必要性。关键词:校园内网搜索搜索引擎随着我校的不断发展,学校越来越重视数字化校园的建设,并迅速步入了信息化高速发展的阶段。随着学校校园网的不断完善,这就要求给广大师生提供一个良好的信息化教学、科研和管理平台。目前,校园网资源正变得日益丰富,如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。通用搜索引擎如百度、谷歌(google)虽然都提供了大

2、学搜索的服务来实现对部分高校校园网范围内的网页搜索,但是其存在一些问题,如更新周期过长,对校园内网信息无能为力等,因此,设计高校信息资源的专业搜索引擎,对于高校信息资源的共享以及提高信息资源的利用率就显得非常有必要。1通用搜索引擎的体系结构及现状分析在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。1.1搜索引擎的体系结构搜索引擎技术是由信息检索IR(InformationRetrieval)技术发展而来,是IR技术在Web上的扩展,信息检索技术研究信息的表示、存储、

3、组织和查询。现代意义上的全文搜索引擎是指以一定的策略搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它具备三大特点:事先下载信息,对信息进行事先组织,实时进行检索。搜索引擎也是信息检索(InformationRetrieval)这门学科的典型应用。搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成,其体系结构如图1所示1。1.2通用搜索引擎的发展现状目前按照信息搜集方法和工作方式的不同,搜索引擎系统分为三大类2。目录式搜索引擎:以人工方式进行主体归纳和分类,由人工形成信息摘要,并将信息归类于事先确定的分类目录中。信息大多面向网站,提供目录浏览服务和直接检索服务,用

4、户可将查询限定在某一目录范围下进行。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、信息不全面、信息更新不及时。这类搜索引擎的代表是:早期的YahooMagellan等。机器人搜索引擎:是面向网页的全文检索服务。由一个称为爬虫(spider)的机器程序以深度优先(或广度优先)策略自动地在Internet中搜集信息,将搜集到的信息存入数据库并由索引器为其建立索引,由检索器根据用户的查询请求检索索引库,将相对应的查询结果返回给用户。该类搜索引擎的优点是不需人工干预、信息量大、更新及时,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是G

5、oogle、Baidu等。元搜索引擎:元搜索引擎不对Web进行遍历分析,也没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,然后将各搜索引擎返回的结果进行合并、去重,重新排序统一处理后,返回给用户。这类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类索引擎的代表是MetaCrawler、InfoMarket等。2校园内网搜索引擎构建的必要性分析校园网可以看作以学校为单位的内联网(intranet),它与互联网(internet)是同质的。但是由于应用环境、网站构建以及链接结构方面的不同,对搜索引擎来说,校园网

6、与公用互联网有着多方面的区别。对于校园网的搜索引擎而言,其目标是关注校园网信息的所有用户,校园网搜索引擎的目的是尽可能的收集本校园网的信息,区别与通用的搜索引擎要搜索整个互联网的目的,校园网搜索引擎需要做到对信息收集的小而全”而且校园网搜索引擎应该做到易于开发,部署简单,实现成本低。在功能需求上,无论是在校的师生还是想了解校园信息的其他人员可以通过校园网www服务器进行信息的检索,从而迅速的通过网络得到校内各部门提供的各种信息。2.1校园网Web信息的特点随着校园网建设的迅速发展、信息化管理时代的到来以及共享网络信息资源的快速增长,校园网内的信息正在以惊人的速度增加着。截止目前,我校网络中心存

7、储的信息量至少在200G左右,这还不包括分散在各个校区各个学院的信息量。虽然校园网有如此之多的好处,但是,网上资源分布在校园网的各个角落里,用户无法及时准确的找到自己需要的信息,这使得校园网上的资源被孤立了起来,全校师生在茫茫网海中迅速定位有价值的信息变得比较困难。构建校园内网搜索引擎的必要性分析。通用搜索引擎信息量大,信息更新缓慢,采用竟价排名机制。对于校园内网的某些信息无法检索。随着学校的不断发展,学校越来越重视信息化建设,校园网信息量的急速增长,也使得全校师生迅速获取到有价值的信息越来越困难。2.2校园网搜索引擎的特性网站集中校园网网站一般集中在一个或几个IP地址段内,网站之间的链接稀疏

8、,由于分别由不同机构和个人进行维护和管理,有些网站很难从其它网站的链接到达;网站的重要性与网站规模不成正比,例如新闻和论坛类网站的网页数量多并且链接较密,而教学和管理部门的网站则相反。信息二义性少校园网网站中的信息,基本上是描述本学校的内容,对于某些特殊的词语,不像在互联网上,有其自己的语境,不会出现二义性。异构文本格式的网页比例高互联网上常见的网页通常有静态网页(文件后缀为htm、html、shtml等)、动态网页(文件后缀为aspjsp、php等)以及各种文档(文件后缀为doc、pdf、ppt等)。把doc、pdf、ppt等类型的文件称为异构文本。校园网中通常包含图书馆、论文等各种学术资源

9、,这些信息通常都是以异构文本的形式发布的,这是校园网资源的显著特点。用户查询习惯互联网上的查询往往没有特别明确的预期,对同一个查询词,有几十或成百上千个相关的返回结果。搜索引擎可以通过链接分析等技术把重要”的网页排在靠前位置,得到令用户满意的查询结果。校园网用户通常具有明确的查询预期,例如某个专业的专业介绍、某个院系的详细资料等。正确的搜索结果通常没有明显的特点,通常不是被众多链接指向的重要”网页。因此在排序算法中需要更多考虑相关度的分析和比较。3结语目前的搜索引擎服务对象一般定位于所有的Internet用户,虽然通用性好,但检索出的信息量庞大,且没有搜索空间限定,不太适用于特定的服务领域。如果直接将传统的互联网搜索算法应用到校园网当中难以得到令用户满意的搜索性能。因而,为用户提供一种搜索领域只限制在本校园网中,为校园网用户服务的小型化专业化的搜索引擎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论