第三章 计算机检索基础知识_第1页
第三章 计算机检索基础知识_第2页
第三章 计算机检索基础知识_第3页
第三章 计算机检索基础知识_第4页
第三章 计算机检索基础知识_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章计算机检索基础知识中国民航大学图书馆主要内容一、计算机检索概述二、信息存储与数据库结构三、检索语言与检索技术四、检索的基本程序1.计算机检索概述计算机检索原理计算机检索系统的组成计算机信息检索的发展检索系统的类型检索原理广义的文献信息检索,包括文献信息存储和文献信息检索两个过程。在存储信息时,信息著录和标引人员首先对原始信息进行主题分析,把原始信息中包含的信息内容分析出来,形成若干能代表该原始信息主题的概念,并用检索语言的语词(即,标引标识,包括主题词和分类号等)把这些概念标识出来,然后按照一定规则存入检索工具或检索系统。用户检索时,首先要对检索课题进行主题内容分析,明确所涉及的学科范畴、检索要求及检索范围,并形成若干代表检索课题需要的概念,把这些概念转换成检索语言的语词(即,检索标识,包括主题词和分类号等),然后从检索工具或检索系统中查找含有该检索标识的信息,从而获得所需的信息。什么是著录?什么是标引?著录是对信息的外表特征和内容特征加以简单明确的描述标引是对信息的内容给出分类号和主题词主题词分类号主题词分类号检

图信息检索原理简言之,信息检索原理就是将检索标识与存储在检索工具或检索系统中的标引标引标识进行比较,两者一致或者信息标引的标识包含着检索标识,则含有该标识的信息就从检索工具或系统输出。计算机检索是计算机代替人工检索的匹配过程。计算机一方面接受检索提问表达式,另一方面从数据库中读取信息记录,然后在两者之间进行匹配运算,如果比较的结果一致,那么这条信息就算命中,如果比较的结果不一致,则这条信息就不被输出。计算机信息检索特点速度快、效率高检索范围广不受时空的限制数据更新频率高辅助功能完善计算机信息检索系统组成计算机(服务器和终端):是检索系统的核心部分,包括软件和硬件。通过一定的检索软件,它们能够进行信息的存储、处理、检索以及整个系统的运行和管理。通讯网络:通信网络是联系计算机系统和检索终端设备的桥梁,起着传递信息的作用。检索网络所用的通信线路,一般是公用电话线或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通信网络。数据库:是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。计算机信息检索的发展阶段脱机批处理检索阶段(1954-1964)联机检索阶段(1965-)光盘检索阶段(1980-)网络化检索阶段(1995-)脱机检索(off-lineretrieval)在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。联机检索(on-lineretrieval)60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带多个终端的联机信息检索系统。联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库及时查找所需要的文献信息过程。80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业,联机检索服务是计算机检索走向实用化、规模化、产业化的重要的标志。光盘数据库检索光盘

是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动画等各种信息。一张普通的光盘、信息存储量约为550兆。按照光盘读取数据的性能来划分,有以下三种类型:只读光盘(CD-ROM)

一次性写入光盘(CD-WORM)

可擦写光盘(CD-ERM)网络化检索(internationalon-lineretrieval)网络信息检索的特征

存取范围覆盖Internet上的几乎所有资源

传统检索方法与全新检索技术相结合

用户界面友好且操作方便

具备良好的导航和编辑功能

网络透明度高

国内计算机信息检索发展阶段1975年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;20世纪80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期,Internet网络化检索阶段。2.信息存储与数据库结构

信息源收集标引与著录数据库及其编排结构信息源收集1)确定入选信息的专业范围。信息的专业性体现了数据库的特色与权威性。2)确定信息的文献类型。如期刊、会议记录、学位论文、标准等。3)确定信息的载体。如缩微制品、光盘、磁带、磁盘的信息。4)确定信息的加工深度。对于文献数据库而言,加工深度表现为三个层次:题录、文摘、全文。5)确定信息的起始时间。收集的信息时间跨越范围需要根据信息的特点合理选择,回溯年限长,信息时效性就差,但历史性就越强。标引与著录标引:指对信息内容特征进行分析,赋予信息以检索标识的过程。标引一般包括主题标引和分类标引。著录:对信息外部特征(如文献的篇名、著者、出处、出版时间等)进行分析、选择与记录的过程。

对信息内容特征进行标引和对信息外部特征进行著录,形成一条信息题录,并根据信息内容作出摘要,然后将上述检索标识与著录项目一并填入工作单,就完成了数据库建设的“数据前处理”工作。数据库及其编排结构数据库的类型数据库的构成数据库的记录格式数据库的编排结构数据库的类型按照信息处理层次划分:书目数据库(BibliographicDatabase)存储对文献信息进行加工后的书目数据。如:图书馆馆藏目录或联机公共检索目录等。文摘数据库(AbstractDatabase)存储原文经过浓缩后得到的文摘、索引等信息。

–主要提供各种文献信息的提名、责任者、原文出处、主题词及文摘,一般不提供全文。

–如WebofScience等。全文数据库(FullTextDatabase)存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。如,万方数据库、维普数据库等全文数据库。数据库的构成记录(Record)是构成数据库的一个完整的信息单元,每条记录描述了原始信息的外部和内部特征。书目数据库中的一条记录通常代表一篇文献,其它类型数据库中的记录则是某种信息单元。字段(Field)

比记录更小的单位是字段,是组成记录的数据项目。

例如在书目数据库CBMdisc中一条记录代表某一篇文献,在这条记录中有中文题名(TI)、著者(AU)、出处(SO)、主题词(MH)等字段。数据库的编排结构数据库的编排结构,就是计算机检索系统中数据库的每条记录数据项的编排方式,有顺排文档和倒排文档两种。1)顺排文档以记录为单位,按记录的入藏顺序号从小到大排列。2)倒排文档是从顺排文档中抽取有检索意义的检索标识,如主题词、著者姓名、篇名等,并按某种顺序排列,同时在检索标识后注明入藏顺序号。顺排文档与倒排文档配合使用示意图检索“反坦克导弹发展趋势”方面的文献检索式:反坦克导弹and发展趋势数据库的结构若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。组成记录的数据项目检索语言与检索技术检索语言

检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。检索语言类型示意图检索技术1.布尔逻辑检索2.位置运算检索3.截词检索4.字段限定检索布尔逻辑检索(Booleansearching)

在检索过程中用于表达词与词之间的逻辑关系的算符,称为布尔逻辑运算符。算符有三种逻辑关系:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。

逻辑与(AND)AANDB:检索词A和检索词B同时出现在一条记录中。其作用是缩小检索范围,提高查准率。例如:查有关“人口控制”的文献,检索式可写成:

人口AND控制逻辑或(OR)例如:查有关计算机的资料,检索式可写成:

计算机OR电脑AORB:记录中出现检索词A或检索词B或两词同时出现在一条记录中。其作用是扩大检索范围,提高查全率。逻辑非(NOT)ANOTB:记录必须包含检索词A但不能包含检索词B。即在含有A检索词的文献中去除含有B检索词的文献。其作用是缩小检索范围,提高查准率。例如:检索有关能源方面的文献信息,但不包括核能,检索式为:

energyNOTnuclear运算顺序布尔逻辑算符的运算次序:NOT>AND>OR()号里的部分运算优先例如:(AORD)ANDB表示先执行“AORD”的检索,再与B进行AND运算。位置检索使用位置算符是为了表达各个检索词之间的顺序与相对位置关系。位置运算符有:(W)、(nW)、(N)、(nN)。

(W)是with的缩写,(W)算符两侧的检索词之间不得有其他任何字或词,而且顺序不能颠倒,但允许有空格或一个标点符号。American()literature。(nW)表示两侧的检索词中间允许插入的词最多只能有n个,且检索词位置不能颠倒。knowledge(1W)economy,会命中knowledgeeconomy或者knowledge-basedeconomy。

(N)是near的缩写,(N)算符两侧的检索词必须相连,不得插入其他词,但词序可以颠倒。chemistry(N)physics,会命中chemistryphysics或者physicschemistry。

(nN)表示允许在此算符两侧的检索词之间最多插入n个词,但词序可以颠倒。注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同。截词检索

截词检索就是把检索词截断,取其中的一部分,在加上截词符号一起进行检索。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。从本质上说,截词算符是一种逻辑“或”的关系。

通用的截词符有:?和*

?代表一个字母,叫做有限截断;*代表两个或两个以上字母,叫做无限截断。截词检索例如:child*,可查到child,children,childish,childhood等所有以child开头的单词。按截断的位置不同,截词检索又分为左截断、右截断和中间截断。字段限制限制符in对特定字段进行限制检索,如年份限制检索、语种限制检索、文献类型限制检索等。如:EnglishinLA要求检索的文献为英文文献。禁用词(非关键词)主要有:介词、冠词、连接词、感叹词、某些形容词或副词以及不能反映文献的实质内容,而且在一般文章中非常通用的某些词。如:方法、问题、报告、研究、探讨等。4.检索的基本程序1.分析检索课题2.选择检索系统及数据库3.确定检索词4.构建检索提问式5.上机检索并调整检索策略6.输出检索结果。1.分析检索课题(1)弄清用户信息需求的目的和意图。(2)分析课题涉及的学科范围、主题要求。(3)课题所需信息的内容及其特征。(4)课题所需信息的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等。(5)课题对查新、查准、查全的指标要求。

2.选择检索系统和数据库

在全面分析检索课题的基础上,根据用户要求得到的信息类型、时间范围、课题检索经费支持等因素综合考虑后,选择检索系统和数据库。

正确选择数据库,是保证检索成功的基础。选择数据库时必须从以下几个方面考虑:(1)数据库收录的信息内容所涉及的学科范围;(2)数据库收录的文献类型、数量、时间范围以及更新周期;(3)数据库所提供的检索途径、检索功能和服务方式。3.确定检索词

(1)先选用主题词。(2)选用数据库规定的代码。(3)选用常用的专业术语。(4)选用同义词与相关词。4.构建检索提问式

检索提问式是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。

5.上机检索并调整检索策略

检索时,应及时分析检索结果是否与检索要求一致,根据检索结果对检索提问式作相应的修改和调整,直至得到比较满意的结果。(1)检索结果信息量过多(2)检索结果信息量过少检索结果信息量过多

产生检索结果信息量过多的原因可能有:主题词本身的多义性导致误检;对所选的检索词的截词截得太短等。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。调整检索策略的方法主要有:

(1)减少同义词与同族相关词;

(2)增加限制概念,采用逻辑“与”连接检索词;

(3)使用字段限定,将检索词限定在某个或某些字段范围;

(4)使用逻辑”非”算符,排除无关概念;

(5)调整位置算符,由松变严。检索结果信息量过少

造成检索结果信息量少的原因有:(1)选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;(2)同义词、相关词、近义词没有运用全;(3)上位概念或下位概念没有完整运用。针对这种情况,就要考虑扩大检索范围,提高检索结果的查全率。调整检索策略的方法如下:

(1)选全同义词与相关词并用逻辑“或”将它们连接起来,增加网罗度;(2)减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;

(3)去除某些字段限制;(4)调整位置算符,由严变松。上位词:白炽灯上位概念:电灯谷氨酸上位概念:氨基酸相关词:(1)同一事物的学名、俗名、商品名

学名俗名商品名乙醇酒精NaCl盐计算机电脑聚二甲基硅氧烷硅油(2)同一事物的简称、全称、音译和意译简称全称音译意译

wwwworldwidewebCADcomputeraideddesigninternet因特网互联网

motor马达电动机

laser镭射激光器(3)同一事物名称的反义词污水处理与水净化光洁度与粗糙度(4)同一事物名词的单复数、不同词性、英美语的不同形式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论