FTP搜索引擎系统设计与开发_第1页
FTP搜索引擎系统设计与开发_第2页
FTP搜索引擎系统设计与开发_第3页
FTP搜索引擎系统设计与开发_第4页
FTP搜索引擎系统设计与开发_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量的基于Web的FTP搜索引擎系统的设计与实现The Design Server 接收这种请求并把查询结果送回 Client. 任何一台能够通过某种方式与 Internet 连接的计算机, 都可以通过一定方法成为 Gopher client .b) 真正意义的搜索引擎最早的真正意义上的搜索引擎是 Lycos,创建于 1994 年的春天,当时Michael Mauldin 将 John Leavitt 的 spider 程序接入到其索引程序中。 Yahoo!也是在当年成立的。而 NCSA Mosaic 出现在 1993 年,Netscape 出现在 1994年。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。搜索引擎除了全文检索系统之外,还要有“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见互联网搜索引擎系统。c) Ftp 的搜索引擎I、基于文本的 ftp 搜索引擎: Archie。Archie 能在只知道文件名的前提下,为用户找到这个文件所在的 FTP服务器的地址。Archie 实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过 FTP 下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。 使用 Archie 服务器有三条途径,常用到的是:通过远程登录到 Archie 主机,用 Archie 作为登录名。一旦登录成功,一个Archie 程序将自动执行,这时一次输入一条命令,告诉 Archie 想查寻的内容,Archie 将检索自己的数据库并显示检索的结果。如果用户对自己想要的东西并不太清楚,Archie 还提供“whatis”服务项目,该服务提供成千上万个程序、数据文件和文档的简短说明。 II、基于 Web 的 Ftp 搜索引擎。WWW 的出现改变了 Archie 在文件搜索方面的统治地位,在美观、方便的 WWW 页面上搜索 ftp 文件成为用户的一大需求。在功能上,基于Web 的 ftp 搜索引擎实现的功能与 Archie 基本一样,都是对用户提交的查询匹配串找到可以下载的 ftp 站点链接。但基于 Web 的 ftp 搜索引擎也有很多特色的功能,比如天网 ftp 搜索引擎的文件分类功能等等。基于 Web的 ftp 搜索引擎也采用了很多 WWW 搜索引擎的策略,比如使用 Spider 自动收集数据,采用倒排索引,智能换页链接技术以及大型 ftp 搜索引擎必须采用的分布收集和服务技术。目前国内国际 ftp 搜索引擎已有不少,但在系统底层上有区别的只有几种,其中较为有名的有北京大学天网搜索引擎的 ftp 子系统,华南木棉的 ftp 搜索系统,号称全球最大的 ftp 搜索引擎的 ,以及 使用的 的 fastftpsearch,小型网站常使用的 NOSEY PARKER 系统以及其他一些搜索引擎。三、天网 ftp 搜索引擎的现状a) 天网 Ftp 搜索产生的起源与发展历史。在天网 1.0 系统里,有一个简单的 ftp 搜索引擎,它只扫描几个教育网的 ftp 站点,算法上基本由 unix 命令组成,只能提供简单的字符匹配功能,而且界面很简单。由于用户对 ftp 搜索的需求增加,我们在 1999 年秋开始了 ftp 搜索引擎的项目,并于 2000 年春交付了一个可以服务的百万级 ftp搜索引擎,它搜索了 30 多个站点,提供 150 万的文件条目检索。根据用户反馈和用户查询行为的分析,经过不断改进,在 2000 年秋 ftp 搜索引擎和天网的 www 搜索引擎同时升级并更换主页界面,提供了更为人性化的查询界面和结果界面,系统也更为稳定健壮。2000 年冬,天网 ftp 搜索引擎开始进行从百万级到千万级的改变。直到 2001 年春,一个搜索了国内3000 多个 ftp 站点,提供 1300 万文件条目索引,并有分类快捷方式系统的全新的天网 ftp 搜索引擎提供服务了。b) 天网ftp搜索引擎的现状i. 提供的功能天网 Ftp 搜索引擎与其它 ftp 搜索引擎相比,最大的特点就在于它的功能强大。尤其其中的文件类型过滤和快捷方式系统是所有 ftp 搜索引擎中独有的。目前天网 ftp 所提供的各种功能包括:1. 文件类型的分类目前文件类型分类分成图象、声音、视频、压缩、文档、程序、源代码、目录等。文件分类的标准是按文件的扩展名。由于天网 Ftp 搜索引擎有特有的文件分类功能,使得我们在搜索时精确度更高,比如要查电影“垂直极限” ,只需输入名字“垂直极限” ,选择“视频”类型,则各种文件类型的“垂直极限”的下载都找出来了。如果没有类型过滤,则如果用户输入过于简单的话,可能查出的结果未必都是电影,如果用户输入包括了扩展名的话,则查询结果显然又少了很多,而且非计算机专业用户往往并不知道某个文件类的扩展名有些什么。另外,在搜索的结果页面里,天网 ftp 搜索引擎使用了生动的图标区分各个类型的文件,使得文件所属类型一目了然。文件分类已经成为了天网搜索引擎最强大又最有特色的功能。2. 时间过滤可以精确到年月日的文件最后修改时间过滤。这个功能在寻找特定时间的文件时很有用。3. 大小过滤这个功能与文件类型过滤功能的集合,可以帮助寻找特定类型的文件。比如同为“.dat”文件,有的是电影格式,有的是普通的数据文件。但一般而言,大于 40M 的“.dat”文件应该是电影。当我们加上这个限制的时候,也就可以找到扩展名为“.dat”的电影了。4. 精确匹配精确匹配对于查找短文件名的文件比较方便,系统缺省使用是子串匹配,因为子串匹配更符合普通人的思维。5. 站点限制在天网搜索的 3000 多个站点里,用户可以选择其中的某个站点,仅仅对其中的文件进行查找。这个功能使得用户可以只搜对他(她)而言比较快的 FTP 站点,或他(她)比较喜欢的站点。6. 结果中查询功能很多 WWW 搜索引擎支持结果中查询的功能,但大部分 Ftp搜索引擎并不支持结果中查询。天网 Ftp 搜索引擎采用巧妙的算法实现了结果中查询的功能,使用户可以逐步缩小搜索范围,最终得到想要的结果。7. 支持常用的*,? ,与,并 操作由于大部分用户的查询都不是十分精确的,*,?,与,并 这四个操作就显得十分重要。与的操作符是空格,并的操作符是逗号。这些操作的结合可以产生令人惊奇的结果,比如要查羽泉的最美,输入“羽泉 最美” ,则用“羽泉”的查询结果和“最美”的查询结果作“与”操作,得到了用户想要的结果。8. 多语言版本天网 Ftp 搜索引擎在结果输出时采用模板技术,使得提供多语言、多界面的搜索结果页面成为可能。目前天网 Ftp 搜索引擎支持简体中文和英文,并保留支持其它语言和其它模板的接口。9. 快捷方式系统快捷方式系统是天网 Ftp 搜索引擎独有的功能。目前其它的Ftp 搜索引擎仅仅提供了复杂的表单供用户提交查询,却没有考虑到广大搜索引擎用户大部分是普通网民而非计算机专业人士,使用上的简单化和傻瓜化是软件发展的必然。因而天网 Ftp 搜索引擎建立了快捷方式系统,用户可以不输入任何字串,用鼠标就可以找到无数电影、音乐、程序、图片等等软件。而且快捷方式系统包含了注册功能,用户可以注册自己关心的软件,以便其它用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论