网络信息的检索_第1页
网络信息的检索_第2页
网络信息的检索_第3页
网络信息的检索_第4页
网络信息的检索_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息的检索4/23/20231第1页,共34页,2023年,2月20日,星期六Internet的基本概念TCP/IP协议:TCP/IP是由美国国防部高级计划局资助的Internet技术和方法,也称为传输控制/网间协议,是一个标准协议集合,专门适用于广域网(WAN)。WWW:WWW的含义是“环球网”,是超文本方式的信息查询工具。WWW基于HTTP协议,用HTML语言将多媒体信息组织成超文本,并通过这种方式将全世界Internet上的不同地点的相关信息有机结合起来。4/23/20232第2页,共34页,2023年,2月20日,星期六HTTP超文本传输协议HTTP是基于TCP/IP之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。它不仅需要保证正确传送超文本文档,还必须能够确定传送文档中的某一部分,以及哪部分内容首先显示。4/23/20233第3页,共34页,2023年,2月20日,星期六HTML(超文本标识语言)在HTML中,可以嵌入图像、声音等,可通过超链接无缝引用其他WWW网址资源。用HTML组织起来的信息文档称为页面,由浏览器进行解释、执行和显示输出。HOMEPAGE:又称为主页,是WWW服务的起始信息页。Browser:又称为浏览器,是用来阅读HTML文件的专用软件系统,可通过FTP、NNTP、Gopher等许多方式来获取信息。4/23/20234第4页,共34页,2023年,2月20日,星期六URL(统一资源定位器)URL可以将世界上所有的联机信息资源组织成有序结构。它的格式有三部分组成:第一部分是协议(或称服务方式),大部分Internet文档用http,其他常用的协议有fp、news、gopher、telnet等;第二部分是存有该资源的主机IP地址;第三部分是主机资源的具体地址。4/23/20235第5页,共34页,2023年,2月20日,星期六IP地址和域名Internet上的众多计算机和信息资源必须通过名字和地址来进行识别。接入Internet的计算机或节点被赋予一个惟一的数字作为地址,称为IP地址,用小数点隔开的四组数字组成。IP地址通常由Internet服务机构从Internet网络信息中心注册申请(例如:中央财经大学图书馆的IP地址为01)。IP是网络中的重要资源,有多少个IP地址就意味着有多少台计算机能够连入Internet。4/23/20236第6页,共34页,2023年,2月20日,星期六由于IP地址由四组数字构成,不易记忆,所以Internet采用域名系统(DNS),作为表示Internet上特定主机的助记名称。Internet中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。常见的标准域名结构为:主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种:4/23/20237第7页,共34页,2023年,2月20日,星期六第一类为国别域名,由两个英文字母组成,如:“.CN(中国)”、“.JP(日本)”、“.US(美国)”、“.UK(英国)”、“.CA(加拿大)”。第二类为国际域名,现只有一个“.INT”代表国际组织。第三类为通用域名,目前用到的有13个:.net——网络服务机构;.edu——教育部门;.web——web服务机构;.arts——文化娱乐部门;.info——信息部门;.rec——娱乐机构;.org——非赢利机构;.Store——销售部门.Firm——公司企业;.gov——政府部门;.com.——商业机构.mil——军事部门;.nom——个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心(CNNIC)负责办理。

例如:中央财经大学的网址为4/23/20238第8页,共34页,2023年,2月20日,星期六Internet可提供的信息服务1.E-mail(电子邮件):每个网络用户可以申请一个电子邮箱,用于接送电子邮件。用户可以脱机处理邮件。2.Telnet(远程登录):允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。3.FTP(文件传输协议):它允许用户把一台计算机上的文件传到另一台计算机上。可以大大节省用户的联机通讯费用。4/23/20239第9页,共34页,2023年,2月20日,星期六Internet可提供的信息服务4.Usenet(新闻组)、Listserv(讨论组)、MailingList(用户组):这几种工具主要用于信息交流。用户可以利用这些工具在网络中参与自己感兴趣的主题讨论。5.WAIS(文档检索):这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成索引,用户只要在WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字,系统就能自动进行远程查询。4/23/202310第10页,共34页,2023年,2月20日,星期六Internet可提供的信息服务6.BBS电子公告牌:BBS规模较小,大都是地区性的,仅提供一个信息交流、经验交流的园地。每个讨论主题称为一个公告牌。目前国内各大专院校几乎都有自己的BBS站,可从这些BBS站获得一些校园信息、公告事项、马路消息、电脑知识等。7.IRC网络聊天:是国际性的多人聊天系统,有成百上千个不同主题的频道。进入感兴趣的频道以后,从屏幕上可以看到来自各地的网络用户热烈地聊天。4/23/202311第11页,共34页,2023年,2月20日,星期六在因特网上可以做些什么?访问虚拟图书馆和虚拟博物馆查检图书馆联机目录获取电子出版物获取科研、学习资料(访问各种数据库)咨询各方面专家接受远程教育获取全球最新政治、财经、商业、教育、科技消息购书、预订机票和车票查找旅游、度假等资料上网聊天、玩网络游戏、发电子邮件及贺卡等4/23/202312第12页,共34页,2023年,2月20日,星期六网络资源检索方法

利用URL(统一定位器)直接访问:URL是各种专门的计算机和文献资源在因特网上的“地址”。一般格式为:

〈通讯协议〉://〈主机IP地址或域名〉/路径/文件名其中,以“http://”开头表示超文本传输协议。

WWW的全称为“WorldWideWeb”。其含义是“环球网”,也叫“万维网、全球网”,是超文本方式的信息查询工具利用搜索工具:与普通网站不同,搜索引擎网站的主要资源是索引数据库。它的工作原理是通过搜索引擎数据库的采集、调用来实现它的导航功能。利用已知站点的引导与链接。4/23/202313第13页,共34页,2023年,2月20日,星期六因特网信息检索信息检索具有广义何狭义两重含义。广义地讲,信息检索包含信息储存何信息查找两个过程。直到20世纪40年代以前,检索工具的主要形式就是各种检索期刊和检索工具书。从20世纪50年代起,信息检索经历了脱机检索、联机检索、光盘检索和网络检索三个阶段。1994年4月,因特网上的第一个搜索引擎——WebCrawler问世后,网络信息搜索技术突飞猛进,因特网上出现了数以千计的搜索工具。第四代搜索引擎以Google和百度为代表,它们在数据处理能力方面有了很大突破,使人们能以分秒时间查询数十亿级的海量数据库。4/23/202314第14页,共34页,2023年,2月20日,星期六搜索引擎简介搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。搜索引擎的检索系统由以下几部分组成:搜索器、分析器、索引器、检索器和用户接口。同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。4/23/202315第15页,共34页,2023年,2月20日,星期六搜索引擎分类

检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球。混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。著名的有:Dogpile、Mamma和万维搜索(Http:///)等。4/23/202316第16页,共34页,2023年,2月20日,星期六国外综合型检索工具目前有记录可查的国外的搜索引擎数量已达到2500个,其中有不少优秀的综合型搜索引擎,如:Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、Google、OpenText等。访问AltaVista()的次数超过1亿次。HotBot(

)是美国享有盛誉的综合型、混合型搜索引擎。4/23/202317第17页,共34页,2023年,2月20日,星期六著名综合型检索工具Google

Google():是目前世界上最大的搜索引擎,它提供70多种界面语言和35种检索语言,有分类查询和关键词检索两种检索功能。Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(|)”和“非(-)”算符前必须留一空格。简单检索可直接使用字段限定检索。

site:限定在某个特定的域或站点中进行检索。命令格式:检索词site:域名示例:要搜索北京大学山鹰社的信息。检索式:山鹰社site:

inurl:表示限定搜索结果网页的URL必须包含所规定的字符串。命令格式:inurl:限定的字符串检索词示例:搜索电子商务软件环境的专题资料。许多中文网站都以“dzsw”作为电子商务专题目录或频道名称。检索式:inurl:dzsw软件环境

filetype:用来限定命中文件的类型。命令格式:filetype:文件类型检索词

试析检索式:filetype:ppt信息检索4/23/202318第18页,共34页,2023年,2月20日,星期六著名综合型检索工具Yahoo!Yahoo!():是因特网上历史最悠久、用户数最多的综合型、混合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种语言版本,且各版本的内容互不相同。如果用户的检索词在Yahoo!中查询不到结果,它会自动将查询转交给Google搜索引擎做进一步的检索。Yahoo!支持词语检索和“+”和“–”限制检索等,它还提供日期限定、URL和题名限制检索等。“+”限定关键字串一定要出现在结果中;“–”限定关键字串一定不要出现在结果中。“雅虎中国”()提供了一份细蜜、层次丰富的中文网站分类目录。雅虎允许用多个关键词检索,各个关键词之间必须留一个空格,系统默认逻辑“与”检索。雅虎支持词组短语检索和“+”和“–”限定符,提供两种字段限定功能:t:网站名称搜索和u:网址(URLs)搜索。4/23/202319第19页,共34页,2023年,2月20日,星期六4/23/202320第20页,共34页,2023年,2月20日,星期六4/23/202321第21页,共34页,2023年,2月20日,星期六4/23/202322第22页,共34页,2023年,2月20日,星期六4/23/202323第23页,共34页,2023年,2月20日,星期六4/23/202324第24页,共34页,2023年,2月20日,星期六4/23/202325第25页,共34页,2023年,2月20日,星期六4/23/202326第26页,共34页,2023年,2月20日,星期六综合型中文搜索引擎目前形成规模的综合型中文搜索引擎有:搜狐、网易、新浪、天网、北极星、搜索客、悠游、FM365搜索引擎、263在线搜索引擎、21cn搜索引擎、TOM中文搜索、常春藤、焦点搜索引擎、看中国、中国导航、视讯、华好网景、司南等。新浪搜索():采用具有世界先进水平的百度搜索技术。提供“分类检索”和“关键词”查找两种查找方法。搜狐搜索():采用先进的Google检索技术,提供多语言检索。天网搜索():支持中英文搜索,只提供关键词查询方式。4/23/202327第27页,共34页,2023年,2月20日,星期六4/23/202328第28页,共34页,2023年,2月20日,星期六百度搜索引擎百度():百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。百度的字段限定检索同Google4/23/202329第29页,共34页,2023年,2月20日,星期六4/23/202330第30页,共34页,2023年,2月20日,星期六专题型搜索引擎专题型检索工具专门提供某一学科/主题范围的网络信息资源导航系统。塞迪网“IT罗盘”():塞迪网是国内著名的面向IT行业提供全面信息服务的垂直门户站点。因特网法律资源指南(InternetLegalResourceGuide,简称ILRG。():是1995年美国推出的第一家系统、全面提供法律网络信息资源导航网站。它选择收集了来自238个国家、地区的4000多个与法律密切相关的网站,提供了较全面的法律信息检索。4/23/202331第31页,共34页,2023年,2月20日,星期六中文多元型搜索引擎多元搜索引擎又称为集合式搜索引擎。它是将多个搜索引擎集成在一起,通过一个统一的检索界面方便、快速、全面获取网络信息的检索工具。万维搜索引擎():是上海万维信息技术有限公司2000年推出的多元搜索引擎。网络灯塔(/steelk/navigator/gbindex.htm):集成了50多个中文搜索引擎,分别提供简繁体中文网站、网页和新闻的多元信息搜索服务。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论