




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章计算机信息检索第一节计算机信息检索基础知识一、计算机信息检索的基本概念二、计算机检索的发展脱机批处理阶段联机检索阶段光盘检索阶段互联网检索阶段三、计算机文献检索的基本原理文献群→入选文献→概念分析→系统语言→数据库检索结果文献用户→提问分析→系统语言→四、计算机信息检索系统的组成1.计算机2.
通信网络3.检索终端4.
数据库五、数据库结构1、数据库定义:是满足一定需求而收集的有序的信息集合。2、数据库的类型全文数据库
书目型数据库词典型数据库事实型数据库多 数据库3、数据库的构成
从使用者观点看,数据库主要由“文档—记录—字段”三个层次构成。(1)文档
用户选择所需的联机系统数据库时,多数数据库以单一的文档出现。此时文档的概念和数据库相当。但有些数据库规模庞大,被分成若干个文档。
从数据库的结构来看,文档的概念是指数据库内容的组织形式。(2)记录(records)
记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条或题录。(3)字段(fields)
字段是记录的基本单元。它是对实体的具体属性进行描述的结果,即记录中的每个著录项目,在书目数据库中,常见字段有:TI(题名)、DE(叙词)、SU(词)、AB(
)、AU(著者)、AD(著者地址)、YR(年分)、LA(语言)字段根据其描述文献特征的不同,可以分为两类:(1)基本索引字段
这些是描述文献内容特征的字段,如篇名、
、叙词、
标引词等字段。(2)辅助索引字段
这些字段描述的是文献的外表特征,如著者、机构名称、语种、刊名、来源、
年等。4、数据库的特点:为了便于计算机在数据库中进行检索组配,每个数据库都有一个顺排文档和多个倒排文档。顺排文档:就是存入数据库的全部记录。是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。相当于印刷型检索工具的正文部分。倒排文档:以记录的特征标识作为排列依据,其后列出含有此标识的记录号。可分为二大类:基本索引文档(倒排文档1):从记录的基本字段(如:TI、DE、AB)中提取的检索词排列而成。辅助索引文档(倒排文档2):从记录的辅助字段(如:AU、LA、PY、)中提取的检索词排列而成。第二节计算机检索的主要检索功能
在实际检索的过程中,仅需一个检索词就能满足检索要求的情况不很多。通常使用多个检索词构成检索策略,以满足由多概念组配而成的较为复杂课题的要求。一、布尔逻辑检索功能(1)逻辑“与”
这种组配关系用“AND”或“*
”表示,它用于检索概念之间的相交关系运算。A
andB
或A
*B(2)逻辑“或”
用“or”或“+”连接检索概念。可用其组配表达相同概念的检索词,如同义词、相关词等。A
or
B
或A+B(3)逻辑“非”
用“not”或“-”连接检索概念。它用于在某一记录集合中排除含有某一概念的记录。A
notB
或A-B
在以上的逻辑算符中,其运算优先级顺序为NOT、AND、OR,不过可以用括号改变它们的运算顺序,
应注意对于同一个布尔逻辑提问式来说,不同的运算顺序会有不同的结果。A、B、C、D四个检索词(其中A和B,C和D分别为同义概念,两大概念之间是相交的关系)检索提问可以分步进行:第一步:A
OR
B第二步:C
OR
D(结果为S1)(结果为S2)第三步:S1
AND
S2在实际检索中,通过使用优先处理算符“()”,三组检索提问也可以归并为一组,即一步完成:输入:(A
OR
B)
AND
(COR
D)二、词间位置检索功能
位置算符用于规定检索词相互之间的邻近关系,包括在记录中的顺序的相对位置。在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。(1)with
限定前后所连接的检索词出现在同一字段中,如:applewithgrow表示检索记录中同时包含apple
和grow,并且出现在同一字段中。(2)near
限定前后所连接的检索词出现在同一句子中,如:appleneargrow表示检索记录中同时包含apple
和grow,并且出现在同一句子中。(3)near
N
同near,而N
是指相互间最多可插入N
个单词,N
为正整数。三、截词检索功能
一般用“?”和“*”表示截词符。要注意在不同的系统中,使用的符号及其含义有所不同。按截词的位置可以分为前截词、后截词、中间截词:
(1)前截词
将截词符放在词根的前边,后方一致,表示在词根前方有无限个或有限个字符变化。(2)后截词
将截词符放在词根的后面,前方一致。如:grow,在该词根后加“*”即为
grow*
,系统将检索
出含有grow、growth、growing等词的所有记录。使用前方一致的截词方法时需注意:避免检索词的词干截得过短,否则可能会检出大量不相关的文献。
(3)中间截词它是将截词符号置于检索词的中间,而词的前后方一致。通常用于英、美不同拼写形式的词(英语单词)进行检索。如:colo?r
可检出的词为
colour(英音)、color(美音)。四、限定字段检索功能
限定字段检索即是指定检索词在记录中某一具体的字段中出现。字段限定检索可以分为两类:后缀方式(suffix)和前缀方式(prefix)(1)后缀方式(Ei
Village
2系统)对基本索引字段,如:篇名(TI)、(AB)、叙词(DE)及某些辅助索引字段,如:作者(AU)、作者地址(AD)进行字段限定时,将检索词放在字段代码之前,之间用字段限定符号:WN如:apple?WN
TI
即apple
或apples
在篇名中出现即为检中。taiyuan
univ*
of
technology
wn
AD
即在地址这字段中出现太原理工大学的即被检中。(2)前缀方式
对某些辅助索引字段,如:语种(LA),年代(PY)进行限定时,将检索词放在所限定的字段代码之后,之间用字段限定符号:=、<=、>=、<、>等如:LA=Chinese
即限定原文语种为中文。PY>=1995
即限定年份为1995及以后的文献。1、DIALOG系统是目前世界上最大的联机检索系统。1965年创立,属洛克希德公司。目前系统拥有997个数据库,占全球所有数据库的50%以上。收录的文献学科范围及文献类型齐全。第三节国际联机检索系统国防部共同开发的世2、ORBIT系统是
系统发展公司与界第二大联机检索系统。目前有100多个数据库,约占全球数据库总量的25%,其中有20多个与DIALOG系统相同。它在化工、石油、生物化学、环境科学、安全科学等领域文献较齐全,其中有1/3数据库是独家经营。这几年致力于提供其它检索系统没有的数据库。3、ESA-IRS系统属欧洲空间组织,是欧洲第一、全球第三的联机系统,有130多个数据库,它的特色是在航天和空间研究的数据库收录齐全。4、其它大型⑴OCLC(Online
Computer
Library
Center):是世界上最大的为读者提供文献信息的机构。它是一个不以赢利为目的,互相合作的成员组织。⑵BRS(Bibliographic
Retrievalservice)系统:由美国书目检索服务公司建于1986年,是世界上第二大书目检索系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆市大渡口区2023-2024学年四年级下学期数学期末测试卷(含答案)
- 以画说纪活动方案
- 仪征拓展活动方案
- 福建省莆田市涵江区2023-2024学年五年级下学期期末数学试卷(含答案)
- 仿真恐龙出租活动方案
- 企业互访活动方案
- 企业党员关爱活动方案
- 企业共创拼图活动方案
- 企业助残活动策划方案
- 企业员工培活动方案
- GB/T 21010-2007土地利用现状分类
- GB/T 16983-1997化学试剂二氯甲烷
- GB/T 15968-2008遥感影像平面图制作规范
- GB/T 12467.2-2009金属材料熔焊质量要求第2部分:完整质量要求
- 国家开放大学电大《工程经济与管理》考题及答案
- 智能楼宇管理员(四级)理论考试(重点)题库(含答案)
- 国开期末考试《城市管理学》机考试题及答案(第13套)
- 内蒙古乌海市基本气象特征
- 脉冲编码调制与解调实验报告
- 人教版五年级下册数学找次品表格式教案设计
- 职业安全健康现场检查记录表参考范本
评论
0/150
提交评论