C计算机检索基础知识.ppt_第1页
C计算机检索基础知识.ppt_第2页
C计算机检索基础知识.ppt_第3页
C计算机检索基础知识.ppt_第4页
C计算机检索基础知识.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机检索基础知识,天津工业大学,计算机检索基本原理 计算机检索的特点 计算机检索系统的组成 计算机检索基础知识 计算机检索服务的类型,计算机检索原理,计算机信息检索是指利用计算机存储和检索信息。 具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。,计算机 通信网络 检索终端设备 数据库,数据库结构 数据库类型,计算机检索基础知识,逻辑算符 截断算符 位置算符 检索词的确定 检索式的制定,逻辑“与”:AND ;and;*,定义:用于交叉概念或限定关系的组配,即被命中的文献必

2、须同时含有检索项A和B。 作用:可缩小检索范围,提高查准率。 要求:运用时,把出现频率低的检索词置于“与”的左端,可使答案尽早出现,节省机时。,A and B;A*B,定义:表示两个概念的并列,即被命中的文献含有两词之一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出现。,逻辑“或”:OR; or;+,A or B;A+B;computer or robot,定义:A NOT B 在含检索词A的记录中,去掉含检索词B的记录 作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高

3、查准率。 注意:往往会把切题的文献给丢掉,运用时要非常慎重。,逻辑“非”:NOT;not; -,A not B;A-B; windows not microsoft,优先级运算 ()NOTANDOR,(Child or children) and lung cancer,截词算符常用“?”或“*”表示,允许检索词有一定范围的变化。检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为命中文献。 从本质上说,截断算符也是一种逻辑“或”的关系。,截断算符,作用:减少检索词的输入量,扩大检索范围 ,提高检索效率。 注意:使用截词检索必须慎重,词干不要太短,以免检出许多与原来检索词不

4、相关的文献记录,截词的形式可以有前截断、中间截断和后截断。 前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方一致。 如colo*r,能够检出含有colour、color的记录。,位置算符,(W)与(nW)算符 (W)表示其两侧的检索词

5、必须按照前后顺序出现在记录中,而且两词之间不允许插入其他字符和单词,只允许有空格或一个标点符号。 (nW)中的n表示两检索词中间允许插入的单词数目少于或等于n个,算符两侧检索词的词序不能颠倒。(nW)算符主要用来代替检索式中出现的the,of等禁用词。,(N)与(nN)算符 (N)表示其两侧的检索词位置可以颠倒,但两词之间不允许插入其他字符和单词。 (nN)中的n表示两检索词中间允许插入的单词数目少于或等于n个。 (nN)算符也是用来代替检索式中出现的the,of等禁用词,不过两检索词的词序可以颠倒。,检索时所用到的词称为检索词。 检索词分为受控词和非受控词 受控词事先规范化的检索词,取自叙词

6、表、分类表等。 非受控词非规范化的自然语言词汇,又称自由词。 优先考虑使用受控词。,检索词的确定,选择检索词时应注意以下问题: 1、选择能代表本课题技术特征的、具有实质意义的词。这些词应为专业通用词、惯用词和术语。 2、注意同义词(包括缩写)、词的英美式不同拼写及不同词性的词。这些词之间的关系均为“或”。如上部分所举的例子。,3、限定检索字段,如著者 、文摘、篇名、主题词、机构名称、分类号、刊名等。 4、限定检索条件,如年份、语种、文献类 型等。,相同概念检索词扩展,1、同义词扩展法 同一概念,尽量选择不同名称(学名、俗名、简称、全称)、不同拼写、单复数形式等。 2、截词法 词干相同,词义相近

7、,但词尾或词中有变化时,可采用截词算符扩展检索词。 3、主题词表法 尽量选用词表中的规范词。利用词表的上位概念、下位概念扩大或缩小主题范围。,恰当选择检索词,1、要尽量使用单元词 2、概念不能过大或过小 3、多主题概念的选词以“简”为主 4、词语要规范化,检索式的制定,数据库由大量的纪录组成。每一条纪录由若干个字段组成。字段有篇名(ti)、作者(au)、文献来源(so)、文摘(ab)、主题词(su)、文种(la)、专利号(pn)、分类号(cl)等。,在用数据库检索时,检索式的制定是一个关键。首先应考虑检索词在哪个字段中出现。 比如,查找D. Dutta关于膜技术发表的论文时,则“D.Dutta

8、 ”应在“作者”字段中出现,“膜(membrane)”应在“主题词”或“文摘”或“篇名”中出现。 然后再确定各个检索词之间的逻辑关系。如本例中, D. Dutta与膜的关系为逻辑与。则该例的检索策略为: Membrane/ab,ti,su and Dutta,D/au,课题名称一:集散控制在监控系统中的应用,检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘,课题名称二:信息编码与压缩技术,检索式:信息编码 and 压缩技术/ 题目,关键词,文摘,举例:,课题名称三:查找作者是 赵永孟 关于 数控加工 的 文献,检索式: 赵永孟/作者 and 数控

9、加工/ 题目,计算机检索的特点,检索速度快 检索途径多 更新快 资源共享 检索方便灵活 直接输出检索结果,数据库结构,记录 record:描述一个原始信息的外部特征和内部特征 字段 field:组成记录的数据项目 文档 file:数据库中一部分记录的有序集合,记录,是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。每条记录相当于文摘型或题录型检索刊物的一条著录款目。,字段,是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。,

10、数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。,文档,若干条逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。 根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。,顺排文档,是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为

11、主文档(Master File)。 这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。,倒排文档,把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。 倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。,数据库类型,数据库是在计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合,是计算机技术和信息检索技术相结合的

12、产物,是电子信息资源的主体,是信息检索系统的核心部分之一。按所提供的信息内容,数据库主要可分为参考数据库和源数据库。,1参考数据库 主要存储一系列描述性信息内容,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和指南数据库。 (1)书目数据库 存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。 如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。,(2)指南数据库 存储描述关于机构、人物、产品、活动等对象的数据库。 与其它数据库相比,指南数据库为用户提供的不仅仅是有关信息,还包括各种类型的实体,多采用名

13、称进行检索。如存储生产与经营活动信息的机构名录数据库、存储人物信息的人物传记数据库、存储产品或商品信息的产品指南数据库、存储基金信息的基金数据库等属于此类,它的作用指引用户从其它有关信息源获取更详细的信息。,2源数据库 主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。它主要包括全文数据库和数值数据库。 (1)全文数据库 存储原始信息全文或主要部分的一种源数据库。如期刊全文数据库、专利全文数据库、百科全书全文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。,(2)数值数据库 存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。与书目数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。如各种统计数据库、科学技术数据库等。 数值数据库除了一般的检索功能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能。,(四)计算机检索服务的类型,联机检索 光盘检索 网络检索,联机数据库检索,Online retrieval 用户通过计算机终端设备,通过通讯线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程 最大的缺点是检索费用高 现在用户量少,CD-ROM数据库 最初是单机检索,后来逐渐发展出了联机光盘检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论