版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、科技文献检索第五讲 计算机及网络信息检索第一节第一节 计算机信息检索原理计算机信息检索原理一、计算机信息检索定义一、计算机信息检索定义狭义:指利用电子计算机或计算机检索网络,通过设置特定的检索指令、检索词和检索策略,从计算机数据库中查询所需信息的过程,突出了一个取的过程。广义:包含了计算机存、取信息两方面的内容,存指的是生成文档或数据库的过程,即根据检索对应的需求,收集有关学科或主题范围的文献,并进行加工、标志、按规定的格式输入计算机,构成可供检索的数据库。存是取的基础,取则是存的逆过程1、检索终端:通常包括终端、调制解调器和打印机。、检索终端:通常包括终端、调制解调器和打印机。2、通信网络、
2、通信网络3、中心计算机:核心部分、中心计算机:核心部分4、数据库:计算机检索系统的主要信息源,是整个检索系统的、数据库:计算机检索系统的主要信息源,是整个检索系统的物质基础,也是用户检索的对象。物质基础,也是用户检索的对象。5、信息检索软件、信息检索软件(系统与应用软件系统与应用软件)及其他外部设备。及其他外部设备。二、计算机信息系统的构成二、计算机信息系统的构成1 1、概念:指按一定结构形式组织存储在磁带、磁盘、光、概念:指按一定结构形式组织存储在磁带、磁盘、光盘等计算机直接存取介质上的相关数据的集合。盘等计算机直接存取介质上的相关数据的集合。2 2、类型(按其信息内容分)、类型(按其信息内
3、容分)(1 1)文献书目型数据库:是一种二次文献数据库,主要)文献书目型数据库:是一种二次文献数据库,主要以文献或书目形式记录在磁带、磁盘或光盘上。提供原以文献或书目形式记录在磁带、磁盘或光盘上。提供原始文献的引文、摘要等,指引用户查找一次文献。始文献的引文、摘要等,指引用户查找一次文献。(2 2)数据型数据库:主要以数据形式记录物质或材料的)数据型数据库:主要以数据形式记录物质或材料的各种特性、参数、常数、价格等。各种特性、参数、常数、价格等。(3 3)事实型数据库:主要是对一些公司、团体、研究机)事实型数据库:主要是对一些公司、团体、研究机构、名人等作一些目录型的简单介绍,包括人名录、机构
4、、名人等作一些目录型的简单介绍,包括人名录、机构指南等。构指南等。(4 4)全文型数据库:存储一次文献的全文或其中主要部)全文型数据库:存储一次文献的全文或其中主要部分的数据库。分的数据库。三、数据库的概念及类型三、数据库的概念及类型四、数据库选择基本原则四、数据库选择基本原则“4“4C C原则原则” 1 1、Content(Content(内容内容) );2 2、Coverage(Coverage(范围范围) );3 3、Currency(Currency(时效时效) );4 4、Cost(Cost(费用费用) );五、计算机检索算符五、计算机检索算符(一)逻辑运算符(一)逻辑运算符(log
5、ical operator),也称布尔算符也称布尔算符(Boolean operator),),常用的有三种:常用的有三种:逻辑与逻辑与(and ),逻辑或(逻辑或(or)和逻辑非(和逻辑非(not)。)。“与与”用用“AND”AND”或或“* *”表示表示 用途及检索功能用途及检索功能:用于缩小检索范围,提高查准率:用于缩小检索范围,提高查准率举例举例:检索:检索“图象理解的专家系统图象理解的专家系统”方面的文献方面的文献 用检索式用检索式:image()understanding AND image()understanding AND expert()systemexpert()syst
6、em“或或”用用“OR”OR”或或“+”“+”表示表示用途及检索功能用途及检索功能:用于扩大检索范围,提高查全率:用于扩大检索范围,提高查全率举例举例:检索:检索“计算机辅助设计计算机辅助设计”方面的文献方面的文献 用检索式用检索式:computer()aided()design Or CAD “非非”用用NOTNOT或或“-“-”表示表示用途及检索功能用途及检索功能:用于缩小检索范围,提高查准率:用于缩小检索范围,提高查准率举例举例:检索:检索“非中文的方面核能文献非中文的方面核能文献”方面的文献方面的文献 用检索式用检索式:nuclear( )energy NOT la=Chinese (
7、二)优先运算符(二)优先运算符 “()()”(三)位置运算符(三)位置运算符(四)截词符(四)截词符1、前截断、前截断 ; 2、后截断、后截断 ;3、前后截断;、前后截断; 4、中间截断。、中间截断。六、编写提问检索式应注意以下技巧:六、编写提问检索式应注意以下技巧:1 1、把出现频率低的检索词放在逻辑、把出现频率低的检索词放在逻辑“与与”(ANDAND)的的左边,可缩短计算机处理时间;左边,可缩短计算机处理时间;2 2、把出现频率高的检索词放在逻辑、把出现频率高的检索词放在逻辑“或或”(OROR)的的左边,有利于提高检索速度;左边,有利于提高检索速度;3 3、同时使用逻辑、同时使用逻辑“与与
8、” ” (ANDAND)和逻辑和逻辑“或或”(OROR)检索时,应把检索时,应把“或或”运算放在运算放在“与与”运算的左边。运算的左边。第二节第二节 网络信息检索网络信息检索一、一、Internet基本概念基本概念 Internet是国际互联网, 也称因特网,它是一个计算机网络的网络。Internet将世界上不计其数的计算机及计算机网络互联起来,它们共同遵循TCP/IP 通讯协议。Internet是信息高速公路的原形。Internet实现了计算机之间的数据通信、资料共享和协同工作。二、二、Internet 的发展历史的发展历史(1)Internet来源于美国国防部高级研究计划局ARPA (Ad
9、vanced Research ProjectAgency), 它是在其1969年开始的ARPAnet计划上发展起来的,逐步形成TCP/IP协议。80年代中期以前,它用于美国国防部及一些高等院校和研究机构。 (2)作为全球internet网络的一个组成部分,我国正在推进中国信息基础设施CII(China Information Infrastructure) 的建设。1994年我国全面开通了Internet服务,建立了四大网络体系。一些商业公司也开始建立自己的网络服务中心,通过租用专线与CHINANET连接,越来越多的单位和个人进入了互联网。中国互联网络信息中心已于1997年6月成立,并实现了
10、国内各大互联网络之间的互联。三、关于三、关于Internet的几个概念的几个概念1、TCP/IP(Transfer Control Protocol/Internet Protocol)协议协议 (1)应用层)应用层(Application Layer)应用层是最高层,网络在最高层提供应用服务,如应用层是最高层,网络在最高层提供应用服务,如HTTP、FTP、TELNET等。等。(2)传输层)传输层(Transport Layer)传输层提供计算机端到端应用程序之间的通信,该层有传输层提供计算机端到端应用程序之间的通信,该层有发送确认和错误重发功能,以确保传输的可靠、数据达发送确认和错误重发功能
11、,以确保传输的可靠、数据达到的无错乱。到的无错乱。(3)互联网络层)互联网络层(Internet Layer)网络层在相互独立的局域网上建立互联网络,负责网络层在相互独立的局域网上建立互联网络,负责处理计算机之间的通信。它按照路由选择法确定,将报处理计算机之间的通信。它按照路由选择法确定,将报文传递、转发给网络接口,或在本地处理。该功能是由文传递、转发给网络接口,或在本地处理。该功能是由网间网协议网间网协议IP来实现的。来实现的。(4)网络接口层)网络接口层(Network Interface Layer)网络接口层负责接收网络接口层负责接收IP数据包,并将它们发送到指数据包,并将它们发送到指
12、定网络地点。定网络地点。2、IP地址地址IP地址由地址由32位二进制数字组成,分为位二进制数字组成,分为4个字节,每个字节个字节,每个字节是是8位,用十进制表示,位,用十进制表示,4个字节中每个数字都在个字节中每个数字都在0255之间,字节间用点号分隔,如:之间,字节间用点号分隔,如:。IP地址又分作高位和低位两部分:网络号地址又分作高位和低位两部分:网络号(netid)和主机号和主机号(hostid),前者标识网络地址,后者标识网络上的一台前者标识网络地址,后者标识网络上的一台主机地址,对于大小不同的网络分别有主机地址,对于大小不同的网络分别有A、B、C类地类地址。址。
13、A类地址的第一个字节为网络编号,类地址的第一个字节为网络编号,B类地址的第类地址的第一、第二个字节为网络编号,一、第二个字节为网络编号,C类地址的前三个字节为类地址的前三个字节为网络编号,地址的区分见下表。网络编号,地址的区分见下表。 地址的区分地址的区分 D类地址的第一个字节为类地址的第一个字节为224239,是用于多点发,是用于多点发送的群组地址,送的群组地址,E类地址第一个字节为类地址第一个字节为240254, 为扩充之备用。为扩充之备用。 3、DNS系统系统 为了用户能方便地识别和记忆网络上成千上为了用户能方便地识别和记忆网络上成千上万台计算机的万台计算机的IP地址,地址,Intern
14、et又采用又采用域名系域名系统统DNS(Domain Name System),它和它和IP地地址是对应的。域名系统有层次结构,按地理址是对应的。域名系统有层次结构,按地理域或机构域进行分层。书写时每层之间有点域或机构域进行分层。书写时每层之间有点号分开,由低到高,其顺序为:计算机主机号分开,由低到高,其顺序为:计算机主机名,机构名,网络名,最高层域名名,机构名,网络名,最高层域名, 分为若干分为若干段。如段。如IP地址地址3所对应的域名所对应的域名地址是:地址是:。opac: 计算机主机名,一般与该机器的用途相关,这里是 检索联机公共书目。lib: 机构名,这里是图
15、书馆。tsinghua: 网络名,这里是清华大学。edu:最高层域名,代表教育和科研计算机网CERNET。cn:最高层域名,代表中国。关于最高层域名(顶层域名)见书P306网络搜索引擎网络搜索引擎一、搜索引擎的定义一、搜索引擎的定义 搜索引擎(搜索引擎(Search Engines)是指是指WWW(万万维网维网)环境中能够进行网络信息的搜集、组织并能提环境中能够进行网络信息的搜集、组织并能提供查询服务的一种信息服务系统。供查询服务的一种信息服务系统。 二、搜索引擎基本结构二、搜索引擎基本结构 网络信息检索一般要通过信息的收集、整理、分类、索网络信息检索一般要通过信息的收集、整理、分类、索引从而
16、产生数据库以供检索。搜索引擎引从而产生数据库以供检索。搜索引擎(Search Engines)是万维网及其它网络信息资源的检索工具。是万维网及其它网络信息资源的检索工具。它具有对网络资源进行采集、标引并提供检索的功能,它具有对网络资源进行采集、标引并提供检索的功能,其基本结构见下示意图。其基本结构见下示意图。数据采集模块:数据采集模块:搜索、采集和标引网页。有人工采集和自搜索、采集和标引网页。有人工采集和自动采集两种方式。人工采集由专门信息人员跟踪和选择动采集两种方式。人工采集由专门信息人员跟踪和选择有用的网页,并按规范方式进行分类标引。自动采集则有用的网页,并按规范方式进行分类标引。自动采集
17、则是通过软件是通过软件自动采集器来完成的。自动采集器来完成的。数据组织模块:数据组织模块:通过数据库管理系统来组织所采集的网页通过数据库管理系统来组织所采集的网页信息,建立相应的索引数据库。索引数据库中的一条记信息,建立相应的索引数据库。索引数据库中的一条记录对应于一个网页,记录的内容包括网页标题、关键词录对应于一个网页,记录的内容包括网页标题、关键词、网页摘要及、网页摘要及URL(Uniform Resource Locator,在在Internet的的WWW服务程序上用于指定信息位置的表示服务程序上用于指定信息位置的表示方法)等信息。方法)等信息。数据检索模块:数据检索模块:根据用户检索要
18、求,从索引数据库中检索根据用户检索要求,从索引数据库中检索出符合用户需要的网页。出符合用户需要的网页。三、搜索引擎的特点三、搜索引擎的特点(1) 搜索引擎是一个双层搜索引擎是一个双层C/S结构的体系结构的体系a.当用户访问搜索引擎时:当用户访问搜索引擎时:用户端为客户机,向搜索引擎提出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。b.当搜索引擎采集数据时:当搜索引擎采集数据时:搜索引擎为客户机,向WWW站点等实际资源系统提出搜索请求,各类实际资源系统为服务器,将有关数据(例如网页)作为应答提交给搜索引擎。(2)搜索引擎是一个)搜索引擎是一个“网络导航工具网络导航工具” 与用于提供图书馆馆藏信息的目录系统相似,搜索引擎本身并不提供任何实际的Web文档,而仅提供关于网页的信息。搜索引擎为所采集的每一个网页建立一条记录,记录包括对网页的简单描述、标题以及实际网页所在服务器的URL等信息,这些记录的集合就构成了索引数据库。搜索引擎通过对索引数据库的采集与调用来实现网络导航功能。四、搜索引擎常用检索方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论