第6章联机信息检索_第1页
第6章联机信息检索_第2页
第6章联机信息检索_第3页
第6章联机信息检索_第4页
第6章联机信息检索_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 联机信息检索 6.1 联机信息检索的含义、构成及原理 含义:是信息用户使用检索终端设备通过通讯网络与存储信息的联机检索中心相连,进行人机对话,从联机检索中心的数据库中查获所需信息的过程 构成:联机检索中心、通讯网络、检索终端、和系统关联的人 原理:用户通过检索终端,将信息需求按一定的查询语言和检索命令经通讯网络传至系统的主机及其控制的数据库,系统将用户的提问与数据库中存储的数据进行匹配运算,并把检索结果立即通过网络返回给终端,实现人机实时对话,这种交互作用可能要进行多次,直至完成检索任务 6.2 联机信息检索的特点 检索速度“快” 检索范围“全” 检索命中文献“准” 检索方法“便” 例

2、1:某医学院要查找建校50年来在国外刊物上发表的该校学报的文章 例2:有人联机查找溶氧分析课题,用esa系统的chemabs数据库。经分析课题题意,确定检索词为dissolved、oxygen、 analysis,填写提问单,要求文献量不超过100篇,最好检出文献的题目中都包含检索词 ?b2 file 2: chemabs: vol66-102, 14 (copr.1985 by the-amer.chem.soc.) ?s dissolved 1 7480 dissolved ? s oxygen 2 117304 oxygen ? s analysis 3 362391 analysis

3、? c 1*2*3 4 241 1*2*3 ?l4/ti, ct, ut 5 142 4/ti, ct, ut ? l5/ti 6 46 5/ti ? t6/1/1-46 上例说明,联机检索不仅快、全、准,而且检索深度可根据需要控制,可指定任意信息属性为检索途径,并可通过人机实时对话,扩大或缩小检索范围。它还具有检索的灵活性,可选择不同的输出方式和格式,可以显示阅读、联机或脱机打印,可以输出完整的记录(如文摘),也可输出部分记录(如题目和作者等) 总的说来,联机检索具有检索速度快、检索功能强、检索途径多、收录文献信息数量大、范围广、更新快、使用灵活方便等优点。但也存在检索费用高、容易泄露研究机

4、密等缺点。 6.3 联机检索的沿革与发展 计算机检索经历了脱机检索(1954-1964)、联机检索(1965-1972)、网络化联机检索(1973-现在)三个阶段的发展。目前,联机检索已与 internet融为一体,进入信息通讯计算机三位一体的新阶段,呈现出联机检索产业化、系统发展大型化、服务方式多样化、联机系统网络国际化和标准化等趋势。80年代后期,购并风行,更促进了联机检索的商业化发展。90年代以来,随着多项技术和检索软件的发展,系统功能不断增强,费用成本不断下降。预计将有更大的普及。 6.4 dialog系统简介 目前世界上最大的国际性联机检索服务机构 1998年拥有900多个数据库,内

5、容涉及自然科学、工程技术、社会科学、商业新闻和工业分析、公司信息和金融数据、报纸新闻等等方面,用户遍及120多个国家和地区的2万多个机构。其数据库类型有:书目数据库,全文数据库,指南数据库,数值数据库,复合数据库。现在其联合数据查询目录量是www网总量的50多倍,占世界机存文献总量的50%以上,向全世界提供最全面、最权威的信息资源。1998年1月,在中国开设第一间办公室,其网址是:http: / www. dialog. com dialog系统提供八种服务: (1)商业信息的菜单检索服务 (2)电子邮政服务 (3)定题检索服务 (4)联机文献订购服务 (5)数据库总索引 (6)一次性检索 (

6、7)kr光盘 (8)联机检索通信软件 dialog系统目前有四种检索模式: (1)菜单式检索 (2)命令检索 (3)目标检索 (4)www上运行的检索界面kr science base 6.5 dialog联机检索基础 6.5.1 数据库索引 dialog系统的每个数据库都有两种索引:基本索引( basic index)和辅助索引(addition index),前者主要反映文献的内容特征,后者则仅表明文献的外表特征。在命令检索中,它们用后缀代码(suffix code )和前缀代码(prefix code)来区别 后缀代码主要有四种: /ti(title)、/ab(abstract)、/de

7、(descriptor)、/id(identifier) 有的数据库还有其他一些基本索引的后缀代码,详见各数据库蓝页(database bluesheets) 前缀代码的基本种类有: au= 著者 la= 文种 an= 文摘号 rn= 报告号 cc= 分类代码 py= 出版年份 cs= 机构来源 ud= 更新日期 dt= 文献类型 jc= 杂志代码 pa= 专利代理人 dc= 标识代码 pn= 专利号 pc= 产品分类 jn= 期刊名 ec= 销售事态分类代码 6.5.2 禁用词(stop word)词表 an for the and from to by of with 在检索时碰到禁用词时

8、处理方式有2种: (1)当检索字段是用单元词标引的,检索时用位置算符(w)或(n)替代词间的禁用词,如检索 orbits and trajectories方面的文献,用如下检索式: s orbits (1w) trajectories (2)当检索字段是用词组标引的,检索时用双引号将词组引起来,如检索刊名为journal of physics and chemistry of solids的文献,用如下检索式: s jn= “journal of physics and chemistry of solids” 6.5.3 逻辑算符(logical operators) not and * o

9、r + 如要检索关于“计算机动画电影”方面的非俄文文献,其检索策略(检索式)如下: s computer and (animaion or cartoon or graphic) and (movie or motion (w) picture or cinema or film) not la=russian 或s computer * (animaion + cartoon + graphic) * (movie + motion (w) picture + cinema + film) not la=russian 6.5.4 位置算符 (1)(w)或()算符 表示相连两词必须按次序连接

10、,中间不能插词,但两词间可以有标点、连字符或空格等。例: s computer (w) animation (2)(nw)算符 表示相连两词之间可插入最多n个单词,但相连次序不变。例: s computer (1w) animation (3)(n)算符 表示相连两词位置可以互换,但两词中间不能插词。例: s computer (n) animation (4)(nn)算符 表示相连两词间最多可插入n个词,且词序可互换。例: s computer (1n) animation (5)(l)算符 要求相连两词必须在同一主题词(de)字段中 例:s solar (l) energy (6)(s)算

11、符 表示相连两词必须在同一子字段中,一般是用句号、分号作为该子字段的结束符。例: s computer (s) animation 命中的一篇文献中两词的位置如下: abstract: .topics discussed include computer graphics,complexity,animation,image processing,computer simulation. (7)(f)算符 表示所连两词必须在同一字段中出现,如题目或文摘字段等。例: s computer (f) animation (8)(not)位置算符 一共有五种:(not w)、(not n)、(not

12、l)、(not s)、(not f),分别表示相连两词不能以w、n、l、s、f位置相连,此位置算符一般不常用。 主要位置算符按照检索精确度排序为: w nw n nn s f 渐弱 同时出现位置算符和逻辑算符及括号,优先级排序为: 括号中检索词 高 (w),(n),(s)或(l),(f) not and or 低 6.5.5 截词符? (1)中间截断 在词间加一个或几个?,如:wom?n,分别检索了woman,women两词 (2)有限截断 在词尾加几个?,以?的个数表示词后最多可跟字母的个数,若限定只可跟一个字母,则在词尾加?空格?。如:computer?,分别检索了computer,com

13、puters (3)无限截断 在词尾加一个?,表示词后可跟任意个字母。如:factor?,分别检索了factory、factories、factorisation、factorization等词。但要注意词头不可太短,以免机时增加及检索相关度降低 6.5.5 关系算符 在数据库的辅助索引中,有些是数值型字段,可以用称为范围检索(range searching)的关系算符来执行,如以下算符: : 包含范围 如 py=1990:1996 大于 = 大于等于 = 小于等于 6.5.7 dialog系统的基本检索指令 (1) dialog系统的指令输入格式 ?指令 空格 数据 回车 指令长度不能超过2

14、40个字符 指令的三种形式:指令字、缩写字母和替代符,如begin的三种形式为begin、b和!select的三种形式为select、s和# (2) dialog系统的基本指令简介 1)调文档指令begin(或b)n(或文档名称) 功能:用于指定编号为n的文档,以便检索 使用该指令,开始建立检索的集合号(步骤号),并立即消除先前的检索过程,显示此前的联机检索费用,并启动检索该文档作业的时钟,以便计时 例如: ? begin 10 30 may 94 10:20:42 user 27019 $0.27 0.018 hrs file1 file 10:agricola-1979-94/apr. &

15、 1979 supplemental see file 110(thru 1978) begin指令仅在每次开始检索或检索过程中更换文档时使用。检索中发生故障中断,再联机后,不能再使用此命令,应采用回顾检索步骤指令 2)更换文档指令file n 功能:转换到n号文档 file指令功能与begin指令相近,但它不消除原来的检索过程,集合号继续累计,仍继续先前的检索步骤,允许回到先前的文档进行检索 3)基本检词指令select(或s) 功能:用于基本索引和辅助索引的检索。检索用户所选择的词、词组在数据库中出现的频率 select指令后可跟检索词、词组、前缀代码、后缀代码、expand号和含有运算符

16、的检索式。 例: ?s labor or labour 4282 labor 117 labour s1 4313 labor or labour 对一条select指令,仅给一个步骤号sn 查基本索引: 例:?s television/ti, ab, id ?s monday/de ? s spice 查辅助索引: 例:?s au=reston.harley s1 65 au=reston.harley 4)扩词指令expand(或e) 5)翻页指令page(或p) 功能:expand指令是在指定的文档中显示该文档基本和辅助索引的一部分,即该文档词库的字顺表或相关词表。page指令的功能是翻

17、页。 6)分步检词指令select steps(或ss) 功能:分步骤检索 系统对每个检索词都赋予一个步骤号 例: ? ss labor or labour s1 4280 labor s2 118 labour s3 4317 s1 or s2 7)选文档指令select files(或sf) 功能:在dialindex(411号文档)中用于选择多个文档。 例:?sf 234,236 8)逻辑组配指令combine(或c) 功能:用布尔算符and、or或not连接提问步骤号,即只能组配步骤号(使用时去掉s),不能组配检索词 例:?c 1 and 2 ? c 1 and (2 or 3) 一个

18、组配式最多可以组配29个步骤号 9)显示指令display(或d) 功能:在终端屏幕上显示检索命中的文献记录 格式:提示符 指令字 步骤号/输出格式/命中文献记录号 例:?d 8/5/8-11 ?d 5/5/all 10)回顾检索步骤指令display steps(或ds) 功能:回顾自begin命令以来所进行的检索步骤,或检索过程因故发生中断时,在重新联机后,使用ds指令以显示检索过程 例:?ds ?ds 2-5 11)联机打印指令type(或t) 功能:联机打印结果 格式:指令字 步骤号/输出格式/命中文献记录号 例:?t 4/5/2-3 ?t 2/3/2-4,17-18,9 ?t 3/6

19、/all 系统内定输出格式为2号格式;当不指明打印某条记录时,即输出某步的第一条;当不指明某步骤号时,则输出最后一步的第一条记录 例:? t ? t 4/5 ? t 3 12)脱机打印指令print(或pr) 功能:脱机打印用户指定的检索结果 格式:指令字 步骤号/输出格式/命中文献记录号 例:?pr 8/5/1-216 ?pr 4/3/15 ?pr 8/5/all 系统内定输出格式为2号格式;当不指明打印某条记录时,即输出某步的前50条记录;当不指明某步骤号时,则输出最后一步的前50条记录 例:?pr ?pr 4 ?pr 8/5 13)关机指令logoff 功能:脱离dialog系统。系统会

20、自动显示日期、时间、用户号、机时费、文档号、打印费、本文档的总费用和联机以来的总费用 例:? logoff 27 sep 93 18:28:54 user 091112 $5.58 0.062 hrs files 399 $1.55 31 types in format 1 $4.60 20 types in format 3 $6.15 51 types $11.73 estimated cost this file $13.41 estimated total session cost 0.171 hrs logoff : level 9. 1. 9 a 18:28:54 14)暂时关机指

21、令logoff hold 功能:暂时关机30分钟 例: ? logoff hold 21 sep 93 11:48:34 user 3464 $0.32 0.007 hrs file 4 logoff 11:48:39 enter your dialog password reconnect file 4 fri 21 sep 93 11:50:26 porto 9b 6.6 联机检索步骤和检索策略 6.6.1 联机检索步骤 (1)弄清信息需求,明确检索目的 信息需求是人们客观上或主观上对各种情报信息的一种需求,是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略以及评价检索

22、效果的依据。不同类型的课题,其信息需求的范围和程度也不尽相同。 有关信息的形式需求要明确的问题有: 明确检索目的 明确所需的文献量 明确所需文献的语种、年代范围、类型、作者或其他外表特征 关于信息的内容需求要明确的问题有: 明确检索课题内容涉及的主要学科范围 分析检索课题的主要内容,用自然语言表达这些内容要求 (2)选择数据库,确定检索途径 选择数据库时首先应了解的内容: 数据库收录的信息所涉及的学科领域 收录的文献类型及主要来源 收录的时间范围 数据库的基本索引和辅助索引 数据库的检索费用 应利用数据库目录和使用指南等了解数据库 可根据已知条件确定一个或几个检索途径 (3)确定课题的概念组面和检索标识 当检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论