网络信息检索2_第1页
网络信息检索2_第2页
网络信息检索2_第3页
网络信息检索2_第4页
网络信息检索2_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一般组成:主机代码一般组成:主机代码.子网代码子网代码.网络分类代码网络分类代码.国别代码国别代码.com 商业公司商业公司.org 社团社团.net 网络服务网络服务.edu 教育机构教育机构.gov. 政府部门政府部门.mil 军事领域军事领域.ac 教育机构教育机构.inst 单位单位网络分类代码网络分类代码E-mail地址:用户名地址:用户名域名域名世界专利索引世界专利索引(World Patent Index,简称,简称WPI)是世界上著名的单一性检索)是世界上著名的单一性检索工具,由英国一家专门从事专利文献出版的德温特公司(工具,由英国一家专门从事专利文献出版的德温特公司(Derw

2、ent Publication Ltd.)出版,习惯上又称德温特专利文献检索工具。它的出版物包括专利目录、文摘、出版,习惯上又称德温特专利文献检索工具。它的出版物包括专利目录、文摘、积累索引等各类检索工具,其载体有印刷型、缩微型和电子出版物。积累索引等各类检索工具,其载体有印刷型、缩微型和电子出版物。目前目前WPI的年报道量有的年报道量有78万件,占世界专利文献总量的万件,占世界专利文献总量的70%以上。以上。WPI的报道速的报道速度快,各国专利公布后,一般在度快,各国专利公布后,一般在1-3月内即予收录,以周刊的形式出版,其后出版月内即予收录,以周刊的形式出版,其后出版年度为当年二月份的第二

3、个星期三至次年二月份的第二个星期二,采用英语语种。年度为当年二月份的第二个星期三至次年二月份的第二个星期二,采用英语语种。该公司目前报道专利的国家共该公司目前报道专利的国家共35个,另有两个组织(欧洲专利公约,个,另有两个组织(欧洲专利公约,European Patent Convention,国际专利合作条约,国际专利合作条约,Patent Cooperation Treaty)和两种出版)和两种出版物(英国的物(英国的研究公开研究公开和和美国技术公开美国技术公开)上的专利,)上的专利,1987年开始报道中国年开始报道中国专利文献。专利文献。Telnet 信息资源信息资源Telnet 信息资

4、源是指借助远程登录,在网络通信协议信息资源是指借助远程登录,在网络通信协议(TelecommunicationNetwork Protocol)的支持下,)的支持下,可以访问共享的远程计算机中的资源。可以访问共享的远程计算机中的资源。Telnet 使用户可以在使用户可以在本地计算机上注册到远程计算机中的资源。使用本地计算机上注册到远程计算机中的资源。使用Telnet,用户,用户可以与全世界许多信息中心、图书馆及其他信息资源联系可以与全世界许多信息中心、图书馆及其他信息资源联系。Telnet 远程登录的使用远程登录的使用:1.用户在远程主机上有自己的帐号,即用户拥有注册的用户名用户在远程主机上有

5、自己的帐号,即用户拥有注册的用户名和口令;和口令;2.许多许多Internet 主机为用户提供了某种形式的公共主机为用户提供了某种形式的公共Telnet 信息资源,这种资源对于每一个信息资源,这种资源对于每一个Internet 用户都是开放的用户都是开放的。FTP 信息资源信息资源FTP 信息资源信息资源利用文件传输协议利用文件传输协议FTP ( File Transfer Protocol)可以获取的信息资源)可以获取的信息资源。FTP 使用户可以在本地计算机和远程计算机之间发送和使用户可以在本地计算机和远程计算机之间发送和接收文件,接收文件,FTP 不仅允许从远程计算机上获取、下载文不仅允

6、许从远程计算机上获取、下载文件(件(Download),也可以将文件从本地计算机拷贝传输也可以将文件从本地计算机拷贝传输到远程计算机(到远程计算机(Upload)。)。FTP 是目前是目前Internet 上获取免费软件和共享软件资源上获取免费软件和共享软件资源不可缺少的工具不可缺少的工具。用户服务组信息资源用户服务组信息资源用户服务组信息资源包括:新闻组(用户服务组信息资源包括:新闻组(Usenet News Group简称简称 Usenet )、)、邮件列表邮件列表(Mailinglist)、专题讨论组专题讨论组(Discussion Group)、兴趣组、兴趣组(Interest Gro

7、up)等。这些讨论组都是由一组对等。这些讨论组都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,某一特定主题有共同兴趣的网络用户组成的电子论坛,在电子论坛中所传递与交流的信息就构成了在电子论坛中所传递与交流的信息就构成了Internet 上最流行的一种信息资源上最流行的一种信息资源。Gopher 信息资源信息资源Gopher 是一种基于是一种基于菜单菜单的网络服务,它为的网络服务,它为用户提供了丰富的信息,并允许用户以一种用户提供了丰富的信息,并允许用户以一种简单的、一致的方法快速找到并访问所需的简单的、一致的方法快速找到并访问所需的网络资源。全部操作是在一级级菜单的指引网络资源。全

8、部操作是在一级级菜单的指引下,用户只需在菜单中选择项目和浏览相关下,用户只需在菜单中选择项目和浏览相关内容,就可完成对内容,就可完成对Internet 上远程联机信上远程联机信息系统的访问,无需知道信息的存放位置和息系统的访问,无需知道信息的存放位置和掌握有关的操作命令掌握有关的操作命令。构成:搜索器、索引器、检索器和用户接口。构成:搜索器、索引器、检索器和用户接口。工作原理:工作原理:1、搜索器(搜索器(Spider蜘蛛、蜘蛛、Robot机器人、机器人、Webcraw爬行者)是一种软件,它沿着爬行者)是一种软件,它沿着WWW文件的链接在文件的链接在网上漫游,从一个或一组网上漫游,从一个或一组

9、RUL 开始,访问该开始,访问该RUL 所指所指HTML 文件中所有的文件中所有的RUL 锚链,然后再以这些新的锚链,然后再以这些新的RUL 为起始点,为起始点,继续进行索引,直到再也没有满足条件的新的继续进行索引,直到再也没有满足条件的新的RUL 为止。记录为止。记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据、文件的简明摘要、关键字或索引,形成一个很大的数据库(索引器)。库(索引器)。2、由检索器根据用户接口输入的查询检索词在索引器由检索器根据用户接口输入的查询检索词在索引器(数据库)中快速匹配(如泛匹配、模糊匹配、正则匹配),(数据库)中快速匹配(如泛匹配、模糊匹配、正则匹配

10、),对查询结果根据某种算法和规则评分和排序,通过用户接口显对查询结果根据某种算法和规则评分和排序,通过用户接口显示匹配的结果。示匹配的结果。搜索引擎的自动信息搜集功能分两种:搜索引擎的自动信息搜集功能分两种:定期搜索定期搜索:即每隔一段时间(比如:即每隔一段时间(比如Google一般是一般是28天),搜天),搜索引擎主动派出索引擎主动派出“蜘蛛蜘蛛”程序,对一定程序,对一定IP地址范围内的互联网地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。网址加入自己的数据库。提交网站搜索提交网站搜索:即网站

11、拥有者主动向搜索引擎提交网址,它在:即网站拥有者主动向搜索引擎提交网址,它在一定时间内(一定时间内(2天到数月不等)定向向你的网站派出天到数月不等)定向向你的网站派出“蜘蛛蜘蛛”程程序,扫描你的网站并将有关信息存入数据库,以备用户查询。序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是法是,让搜索引擎有更多机会找到你并自,让搜索引擎有更多机会找到你并自动将你的网站收录。动将

12、你的网站收录。 :它使用自动索引软:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以件来发现、收集并标引网页,建立数据库,并以Web形式让用形式让用户找到所需信息资源。比较著名的有:户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度等。天网、百度等。(Search Index/Directory):将搜索到的信息分:将搜索到的信息分门归类,经过人工整理后形成庞大而有序的分类目录体系。雅虎门归类,经过人工整理后形成庞大而有序的分类目录体系。雅虎就是以卓越的分类目录型导航服务而称誉全球。就是以卓越的分类目录型导航服务而称誉全球。:它兼有检索型和目录型两种方式。

13、如:新浪、:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。搜狐、网易、中华等门户网站。(Meta Search Engine )又称集合型搜索引擎,将又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。有的直检索提问一次搜索多个搜索引擎,并将结果返回给用户。有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。著名的有:列组合。著名的有:Dogpile、Mamma和和万维

14、搜索万维搜索1.主题引擎与目录指南型引擎的主要区别。主题引擎与目录指南型引擎的主要区别。(1)信息处理对象,目录指南型为网站,主题型为网页;()信息处理对象,目录指南型为网站,主题型为网页;(2)信息处理方式,目录指南型为有人工参与,主题型为全自动化;信息处理方式,目录指南型为有人工参与,主题型为全自动化;(3)信息的质量和数量,目录指南型质量上相对较高,主题型)信息的质量和数量,目录指南型质量上相对较高,主题型数量上相对较多。数量上相对较多。2主题引擎的分类途径不如目录指南型引擎主题引擎的分类途径不如目录指南型引擎主题搜索引擎提供的分类途径或者为自动分类的结果,或是借用主题搜索引擎提供的分类

15、途径或者为自动分类的结果,或是借用其他目录引擎的分类数据其他目录引擎的分类数据(例如例如Google利用网景公司的利用网景公司的Open Directory分类分类),因而分类检索效果不如由人工仔细分,因而分类检索效果不如由人工仔细分类的目录指南型搜索引擎。类的目录指南型搜索引擎。 3目录指南型引擎的主题查找效果不如主题型引擎目录指南型引擎的主题查找效果不如主题型引擎目录指南型引擎的主题检索只在对站点人工描述语言中进行,查目录指南型引擎的主题检索只在对站点人工描述语言中进行,查找范围有限,所得结果通常是分类类名和网站名称,结果数量远找范围有限,所得结果通常是分类类名和网站名称,结果数量远不如主

16、题引擎。不如主题引擎。万维搜索万维搜索万维高级搜索界面万维高级搜索界面1. (1) “与与”一般用一般用“AND”表示。有的用空格、表示。有的用空格、+、&表示。表示。目的:提高查准率目的:提高查准率(2) “或或”一般用一般用“OR”表示。有的用表示。有的用“,” “|”表示。表示。目的:提高查全率。目的:提高查全率。(3) 逻辑逻辑“非非”一般用一般用“NOT”。有的。有的 “-”用用“!”表示。表示。目的:缩小检索范围。目的:缩小检索范围。优先运算符优先运算符 :( ) 。例如,检索式例如,检索式“多媒体多媒体 and (计算机(计算机 or 网络)网络)”,2.: “”“”。如

17、:。如: “计算机软件计算机软件” 3.:一般用星号(:一般用星号(*)表示。)表示。例如;检索式例如;检索式“compu*”,则表示可以检索到,则表示可以检索到computer、computing、compulsion 等词。有一些搜索引擎支持自等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。词全部找出来。限定字段检索限定字段检索(1)标题限制标题限制 格式:格式:title:检索式:检索式例如,例如,title:mars landings ;title:“mars landings”(2)

18、站点检索站点检索 格式:格式:site:域名中的词:域名中的词例如,检索式例如,检索式“site :”(3) URL 检索检索 格式:格式:url:URL 中的词中的词例如,例如, url:home.html(4) 链接检索链接检索 格式:格式:link:网页中链接网站中的词:网页中链接网站中的词例如,例如, “link:”可以检索出与可以检索出与“”至少有一次链接的页面。至少有一次链接的页面。(5)文件类型限制文件类型限制 格式:格式:filetype:文件类型:文件类型例如,例如, filetype:ppt1990年由蒙特利尔大学学生年由蒙特利尔大学

19、学生Alan Emtage发明的发明的Archie。虽然当时。虽然当时World Wide Web还未出现,但网络还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的个分散的FTP主机中,查询起来非常不便,因此主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,想到了开发一个可以以文件名查找文件的系统,于是便有了于是便有了Archie。它依靠脚本程序自动搜索网上的文件,。它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。然后对有关信息进行索引

20、,供使用者以一定的表达式查询。Archie是第一个自动索引互联网上匿名是第一个自动索引互联网上匿名FTP网站文件的程网站文件的程序,但它还不是真正的搜索引擎。序,但它还不是真正的搜索引擎。 搜索引擎发展史搜索引擎发展史1Archie搜索引擎的始祖搜索引擎的始祖由由MIT Matthew Gray开发。开始它只用来统计互联网上开发。开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(的服务器数量,后来则发展为也能够捕获网址(URL) 。 搜索引擎发展史搜索引擎发展史2随着互联网的迅速发展,使得检索所有新出现的网页变得越随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因

21、此,一些编程者将传统的来越困难,因此,一些编程者将传统的“蜘蛛蜘蛛”程序工作原程序工作原理作了些改进。其设想是,理作了些改进。其设想是,。到。到1993年底,一些基于此原理的搜索引擎年底,一些基于此原理的搜索引擎开始纷纷涌现,其中突出的有开始纷纷涌现,其中突出的有JumpStation、The World Wide Web Worm(Goto的前身,也就是今天的前身,也就是今天Overture)和)和Repository-Based Software Engineering (RBSE) 。搜索引擎发展史搜索引擎发展史3搜索引擎发展史搜索引擎发展史4 1995年,年, Washington大学

22、硕士生大学硕士生 Eric Selberg 和和 Oren Etzioni 建立。用户只需提交一次搜索请求,由建立。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。来处理后再返回给用户。 元搜索引擎概念上好听,但搜索效果始终不理想,所以元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。没有哪个元搜索引擎有过强势地位。搜索引擎发展史搜索引擎发展史5搜索引擎发展

23、史搜索引擎发展史6AltaVista是一个以网页全文检索为主、同时提供分类目录的是一个以网页全文检索为主、同时提供分类目录的搜索引擎。内容极其丰富,真正可以称海量信息检索。搜索引擎。内容极其丰富,真正可以称海量信息检索。AltaVista于于1995年由迪吉多公司年由迪吉多公司(Digital Equipment Corporation)创立。创立。2003年被年被 Overture 以以1.4亿美元现金加股票的形式购得,同年转手给雅虎。雅虎亿美元现金加股票的形式购得,同年转手给雅虎。雅虎宣布将于宣布将于2013年年7月月8日关闭搜索引擎日关闭搜索引擎AltaVista服务。服务。1998年年

24、10月之前,月之前,Google只是斯坦福大学(只是斯坦福大学(Stanford University)的一个小项目)的一个小项目BackRub。1995年博士生年博士生Larry Page开始学习搜索引擎设计,于开始学习搜索引擎设计,于1997年年9月月15日日注册了注册了的域名。的域名。1999年年2月,月,Google完成完成了从了从Alpha版到版到Beta版的蜕变。版的蜕变。Google公司则把公司则把1998年年9月月27日认作自己的生日。日认作自己的生日。Google以网页级别以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果)为基础,判断网页的重要性,使得搜索

25、结果的相关性大大增强。的相关性大大增强。Google公司的奇客(公司的奇客(Geek)文化氛围、)文化氛围、不作恶(不作恶(Dont be evil)的理念,为)的理念,为Google赢得了极高赢得了极高的口碑和品牌美誉。的口碑和品牌美誉。2006年年4月,月,Google宣布其中文名称宣布其中文名称“谷歌谷歌”,这是,这是Google第一个在非英语国家起的名字。第一个在非英语国家起的名字。搜索引擎发展史搜索引擎发展史7搜索引擎发展史搜索引擎发展史8 2000年年1月月,两位北大校友两位北大校友,超链分析专利发超链分析专利发明人明人,前前Infoseek资深工程师资深工程师与好友与好友(加州伯

26、克利分校博士后加州伯克利分校博士后)在北京中关村创立了百在北京中关村创立了百度度 (Baidu)公司公司. 2001年年10月月22日正式发布日正式发布Baidu搜索引擎搜索引擎,专注于中文搜索。专注于中文搜索。2005年年8月月5日在纳斯达克上市日在纳斯达克上市,发行价为发行价为USD 27.00,代号为代号为BIDU.开盘价开盘价USD 66.00,以以USD 122.54收收盘盘,涨幅涨幅353.85%,创下了创下了5年以来美国股市上市年以来美国股市上市新股当日涨幅最高纪录。新股当日涨幅最高纪录。 2005年年6月,新浪正式推出的自主研发的搜索月,新浪正式推出的自主研发的搜索引擎。引擎。

27、2007年起,新浪爱问使用年起,新浪爱问使用google搜索引擎。搜索引擎。 2004年年8月月sohu 公司推出。自称公司推出。自称“第三代搜第三代搜索引擎索引擎”。 1996年年8月,月,sohu公司成立,制作中文网站分公司成立,制作中文网站分类目录,曾有类目录,曾有“出门找地图,上网找搜狐出门找地图,上网找搜狐”的美誉。随着互联的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。网网站的急剧增加,这种人工编辑的分类目录已经不适应。创立于创立于1998年年1月,其技术源自台湾中正大学吴月,其技术源自台湾中正大学吴升教授所领导的升教授所领导的GAIS实验室。实验室。Openf

28、ind起先只做中文搜索起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但文搜索引擎,但2000年后市场逐渐被年后市场逐渐被Baidu和和Google瓜分。瓜分。2002年年6月,月,Openfind重新发布基于重新发布基于GAIS30 Project的的Openfind搜索引擎搜索引擎Beta版,推出多元排序版,推出多元排序(PolyRankTM),开始进入英文搜索领域。),开始进入英文搜索领域。2007年年7月月1日网易自主研发的搜索技术日网易自主研发的搜索技术搜索引擎发展史搜索引擎发展史9建立年月建立年

29、月搜索引擎的名称及网址搜索引擎的名称及网址1994年4月WebCrawler http:/1994年5月Lycos http:/1994年底Yahoo http:/1995年初Infoseek http:/1995年10月 Alta Vista http:/1995年底Excite http:/1996年3月S http:/1996年5月HotBot http:/1996年10月 LookSmart http:/1997年7月Fast http:/1997年8月Northern Light http:/1997年10月 Microsoft / MSN http:/http:/ 中电网中电网 电

30、子产品世界电子产品世界 今日电子今日电子 国际电子商情国际电子商情 中国电子报中国电子报 PCB信息网信息网 行业导航行业导航 中华液晶网中华液晶网 阿里巴巴电子电阿里巴巴电子电工网工网 广州电子技术网广州电子技术网 电子搜索引擎电子搜索引擎 全球电源网全球电源网 电子报电子报无线电无线电 国际电子网国际电子网 华强电子世界网华强电子世界网 中国电子资源网中国电子资源网 中国传感器信息网中国传感器信息网 中国变压器行业信息网中国变压器行业信息网 Ask Jeeves 于于1996年六月由年六月由David Warthen 和和 Garrett Gruener创建,他们致力于将互联网人性化。总创

31、建,他们致力于将互联网人性化。总部设在加利福尼亚的部设在加利福尼亚的Emeryville,同时在纽约、波士顿、新同时在纽约、波士顿、新泽西、洛杉机和伦敦设有办事处。泽西、洛杉机和伦敦设有办事处。 Ask Jeeves与其他关键词搜索引擎不同,被设计成回与其他关键词搜索引擎不同,被设计成回答用户提问的自然语言引擎。答用户提问的自然语言引擎。 Ask Jeeves曾是著名搜索引擎曾是著名搜索引擎DirectHit(2002年年4月被关闭)的母公司,在月被关闭)的母公司,在2001年年末收购了全文搜索引年年末收购了全文搜索引擎擎Teoma并与之进行整合。并与之进行整合。Teoma是以主题分类为基础是

32、以主题分类为基础的目录集合,能够返回网上最权威,最相关的搜索结果。所的目录集合,能够返回网上最权威,最相关的搜索结果。所以它是唯一可以组织分析网络的搜索技术。以它是唯一可以组织分析网络的搜索技术。 AskJeeves是仅次于是仅次于Google的第二大搜索引擎,也的第二大搜索引擎,也是互联网上第五大搜索基地(是互联网上第五大搜索基地(Google、雅虎雅虎、微软微软、AOL、Askjeeves) ()课题:查找美课题:查找美国市场的非国国市场的非国产的产的USB电电源适配器源适配器 (USB Power Adapter)3900条条检索式检索式HotBot曾是比较活跃的搜索引擎,数据更新速度比其他引擎曾是比较活跃的搜索引擎,数据更新速度比其他引擎都快。网页库容量为都快。网页库容量为1.1亿。以独特的搜索界面著称。该引擎亿。以独特的搜索界面著称。该引擎已被已被Lycos收购,成为收购,成为Terra Lycos Network的一部分。的一部分。 点击进入点击进入http:/ Mauldin)在)在Carnegie Mellon大学的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论