第二讲数据库及检索方法演示文稿_第1页
第二讲数据库及检索方法演示文稿_第2页
第二讲数据库及检索方法演示文稿_第3页
第二讲数据库及检索方法演示文稿_第4页
第二讲数据库及检索方法演示文稿_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲数据库及检索方法演示文稿当前1页,总共85页。优选第二讲数据库及检索方法当前2页,总共85页。主要内容数据库检索概述检索词及其应用计算机检索策略与流程当前3页,总共85页。(一)数据库检索概述当前4页,总共85页。

数据库是计算机检索系统中存储的信息源,按一定的方式组织并储存,借助于检索系统随时为用户提供服务的信息集合。数据库三要素:相关数据、共同存取方式和一定的组织方式、共享。通俗地说,数据库是以某一特定方式组织和存放的数据仓库。1.1数据库概念当前5页,总共85页。从记录形式(内容性质)的角度将数据库分为两大类:文献型数据库非文献型数据库

1.2数据库分类当前6页,总共85页。是一种能直接提供文献线索和文献原文的数据库收集的记录是根据书刊、技术报告、学位论文、会议报告、专利、报刊新闻等加过工的一次或二次文献。1.2数据库分类

——文献型数据库当前7页,总共85页。全文型数据库(一次文献)

:存贮文献全文或部分内容的数据库目录型数据库(二次文献):存储书刊目录、论文题录、文摘等书目线索的数据库题录/文摘数据库

:存储和检索期刊论文外部特征及文献摘要信息的数据库书目数据库:存储和检索书目信息的数据库1.2数据库分类

——文献型数据库当前8页,总共85页。收集指南或词典形式的数据记录,能直接提供具体的术语、事实、数值和图像等信息的数据库。

1.2数据库分类

——非文献型数据库当前9页,总共85页。数据型数据库:是一种以自然数值形式表示、计算机可读的数据集合。如实验数据、化学分子式、价格等统计数据、科学实验数据、测量数据等。如:中国科学计量指标数据库。图像型数据库:存贮有某些图象信息,如图片,云图,工程设计图等.

当前10页,总共85页。事实型数据库:也称指南型数据库,是一种存贮简单而独立存在的非文献信息,如机构、人物、产品、地理位置、事件等,每个条目都是对一个事实确切、完整的描述。按内容划分有人物数据库、机构名录数据库、产品或商品信息数据库、以及投资指南库、基金指南库等。1.2数据库分类

——非文献型数据库当前11页,总共85页。术语型数据库:也称词语型数据库。专门存储揭示各类名词、术语、词语的形、音、义与使用方法、以及词义演变、发展等信息的检索工具。

目前多数术语型数据库大多是辞书、词典、百科全书等数字化版本。当前12页,总共85页。数据库文献型数据库非文献型数据库全文数据库题录/文摘数据库书目数据库数据型图像型事实型术语型目录数据库当前13页,总共85页。不同类型数据库的结构不完全相同。文献型数据库的结构层次:字段记录文档

1.3数据库的结构当前14页,总共85页。数据库中最基本的信息单元,其实体是文献的著录项目。记录中的字段标识符一般由两个字母组成,如TI,AB,AU,PY,LA等.每个字段都是一条检索该记录的途径.

三种基本字段:检索系统的存取号(AccessionNumber)基本索引字段(BasicIndexFields)辅助索引字段(AdditionalIndexFields)字段当前15页,总共85页。存取号:计算机信息检索系统为该数据库的每一条记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号。一般来讲,存取号由6—9位数字组成,出现在每条联机记录的左上角位置。

字段当前16页,总共85页。基本索引字段:又称主题字段,是数据库提供的字段检索默认值.用来表达文献内容特征的字段,如:篇名字段(TitleField/TI)文摘字段(AbstractField/AB)叙词字段(DescriptorField/DE)字段当前17页,总共85页。

辅助索引字段(AdditionalIndexFields):用来表达文献外部特征的字段,如:著者字段(AuthorField/AU)出版年字段(PublicationYearField/PY)刊名字段(JournalField/SO或JN)语种字段(LanguageField/LA)文献类型字段(DocumentTypeField/DT)辅助字段种类很多,且随数据库的不同而各有差异。字段当前18页,总共85页。

几个不同字段的集合构成记录,一个数据库内的记录往往含有相同的字段。每条记录相当于文摘型或题录型检索刊物的一条著录款目。

一条记录即一篇文献。记录当前19页,总共85页。一条记录的格式:当前20页,总共85页。由若干相同类型或不同类型的记录组成。一个数据库由若干个文档组成。一个文档由大量的记录组成,而每个记录中又包含有若干字段,这就是文献数据库中的层次结构。

文档当前21页,总共85页。(二)

检索理论基础

当前22页,总共85页。

检索词是用户或检索人员给出的字、词、字符或短语,用于查找含有它(它们)的记录。

检索词分为两类:受控词和非受控词。

2.1检索词——概念及分类当前23页,总共85页。检索词受控词非受控词主题词表叙词表分类词表自然语言索引关键词索引2.1检索词——概念及分类当前24页,总共85页。受控词:是事先规范化的检索语言,取自主题词表、叙词表、分类表等。如果数据库对数据采用了受控标引,并有机读式或印刷版主题词表时,应优先选用其中的受控词。特点:受控词的检索效率高,一旦选定适当的概念,系统就能检出这一概念的全部内容,而且,由于标引人员已事先解决了自然语言中的同义、近义关系,使检索相对容易。

但受控词不能及时反映新事物的发展,而且概念数量有限、结构复杂,不易为非专业人员掌握。2.1检索词——概念及分类当前25页,总共85页。非受控词:非受控词是指非规范化的自然语言词汇,又称自由词。特点:非受控词可以在一定程度上弥补受控词的不足,非受控词可以是任意选词,其专指性强,而且不需要熟悉词表,新产生的名词术语可以及时检索与新概念有关的文献。但非受控词一般不能提供概念的等级结构,不能解决同义词、近义词、相关词的结合或连接问题。

2.1检索词——概念及分类当前26页,总共85页。2.2检索技术布尔逻辑算符截词检索(外文)限制检索(外文)当前27页,总共85页。

利用布尔逻辑算符将检索词或代码进行逻辑组配以表达检索需求的检索方法布尔逻辑算符有三种:逻辑与(逻辑乘)逻辑或(逻辑和)逻辑非(逻辑差)2.2检索技术——布尔逻辑算符当前28页,总共85页。2.2检索技术——布尔逻辑算符-----逻辑与(逻辑乘)逻辑与(逻辑乘)是用“and”或“*”连接检索概念,AandB(或A*B)表示两个概念的交叉,即记录中必须同时含有A和B,用“逻辑与”来检索是对检索需求增加限定因素,可以缩小检索范围。用逻辑与组构的检索词越多,检索范围越小,专指度越强,有助于提高查准率。当前29页,总共85页。2.2检索技术——布尔逻辑算符SearchtermsResultsapple78,344breeding2,962plantovertyANDcrime5,677appleANDbreedingANDplant76逻辑与(逻辑乘)Wienn图当前30页,总共85页。2.2检索技术——布尔逻辑算符----逻辑或(逻辑和)逻辑或(逻辑和)是用“or”或“+”连接检索概念,AorB(或A+B)表示两个概念的并列,即记录中凡单独含有检索项A或检索项B,或者同时含有A、B两者均为命中记录。用逻辑或来检索可扩大检索范围,提高查全率。当前31页,总共85页。2.2检索技术——布尔逻辑算符SearchtermsResultscollege770university33,685,205collegeORuniversity33,702,660collegeORuniversityORcampus33,703,820逻辑或(逻辑和)Wienn图当前32页,总共85页。2.2检索技术——布尔逻辑算符----逻辑非(逻辑差)逻辑非(逻辑差)是用“not”或“-”连接检索概念,AnotB(或A-B)表示两个概念的排除,即凡含有检索项A并且不含检索项B的记录为命中记录。用逻辑非来检索,可以缩小检索范围,提高检索的专指度。但这种检索也有缺点,即取消部分,往往会把切题的文献丢掉,因此运用逻辑非运算时要慎重。当前33页,总共85页。2.2检索技术——布尔逻辑算符SearchtermsResultscats3,651,252dogs4,556,515catsNOTdogs81,497NOT逻辑非(逻辑差)Wienn图当前34页,总共85页。

在外文检索中,常会遇到一些词干相同、词义相近的检索词或有英、美不同拼写的词,为了减少检索词的频繁输入,扩大检索范围,可使用截词符(通配符),以提高检索效率。

所谓截词,是指在检索词的某个局部截断,利用某些检索词的词干或不完整词形加上截词符进行检索,其目的是查找某一词干的不同变化形式,做到一“词”多用,防止漏检,从而达到较高的查全率。

2.2检索技术——截词检索当前35页,总共85页。2.2检索技术——截词检索截词方式有前截断、后截断、前后截断和中间截断4种。一般用?和*表示截词符,不同系统,含义不同.当前36页,总共85页。2.2检索技术——截词检索----前截词:将截词符放在词根的前面,后方一致,表示在词根的前方有无限个或有限个字符变化。例如,computer(计算机),在该词根前加“?”,即“?Computer”,可检出:Microcomputer、Minicomputer等。当前37页,总共85页。2.2检索技术——截词检索----后截词:将截词符放在词根后面,前方一致。computer(计算机),在该词根后加“?”,即为“Computer?”,可检出computers、computerised、computerization等。

当前38页,总共85页。2.2检索技术——截词检索----前后截词:将截词符放在词根的前面和后面,中间一致。例如,computer(计算机),在词根前后都加“?”,即为“?computer?”,可检出microcomputer、minicomputer、computer、computers、computerised、computerization等。当前39页,总共85页。2.2检索技术——截词检索----中间截词:中间截词又称为“通常字符检索法”,它是将截词符置于检索词的中间,而词的前后方一致,通常用于英、美英语拼写不同的词的检索。例如,colo?r可检出colour(英音)、color(美音)。

当前40页,总共85页。2.2检索技术——截词检索根据截词的多少,可把截词符分成有限截词符和无限截词符两种。

有限截词:

所谓有限截词,是在检索词后截去有限的字母,例如输入computer?

,截词符“?”表示可以有0-1个字母变化,系统即检出带有computer和computers的文献;输入stud???,表示截三个字母,可检索出带有study,studies,studied和studing等的文献。当前41页,总共85页。2.2检索技术——截词检索无限截词:无限截词是在检索词根后加一个“?”或“*”,表示该词后带任意字母的词都可检出,如输入comput?则可检出含有computers,computing,computered等文献。当前42页,总共85页。2.2检索技术——限制检索运用布尔逻辑算符检索时,只对检索词进行逻辑组配,未限定检索词之间的位置关系及检索词在记录中的位置。在有些情况下,若不限制检索词之间的位置关系会影响查准率。因此,在检索系统中设置了位置限定运算符。不同的检索系统有不同的符号。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。

当前43页,总共85页。2.2检索技术——词位限制检索A字段限定检索:把检索词限定在某个/些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。

例如查找微型机或个人计算机方面的文章。要求"微型机"一词出现在标题或文摘字段中,"个人计算机"一词出现在标题或文摘字段中,检索式可写为:

当前44页,总共85页。

microcomputer?/ti,abORpersonalcomputer/ti,ab

如查找wangwei写的文章,可以输入检索式:au=wangwei当前45页,总共85页。2.2检索技术——词位限制检索B使用限制符:用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。如要查找1989-1999年出版的英文或法文的微型机或个人计算机方面的期刊,并要求“微型机和个人计算机"出现在标题或文摘字段中,则检索式为:当前46页,总共85页。

(microcomputer?/ti,abORpersonalcomputer/ti,ab)AND

PY=(1989:1999)AND(LA=ENORFR)AND

DT=Serial

当前47页,总共85页。2.2检索技术——词位限制检索

C词位限制:可以是相邻若干词、在同一句中等.

以DIALOG系统所用位置算符为例:

A(nW)B

A、B两词相隔n词,且前后次序不变;n=1时即A()BA(nN)B

A、B两词相隔n词,且前后次序不限;n=1时即A(N)BA(s)B

A、B两词只要在同一字段当前48页,总共85页。2.2——词表助检有些数据库有自已的主题词表,词表不仅用于标引文献,也可用于助检。检索者在选用检索词时,可查阅词表。有些联机检索系统,将词表存入计算机,帮助用户进行检索。它能将用户输入的非标准检索词,自动地转换为规范词,还可以自动扩检索,如使用同义词检索。当前49页,总共85页。(三)计算机检索策略和检索效果当前50页,总共85页。什么是检索策略?所谓检索策略广义上是指为实现检索目的而制订的全盘计划和方案;狭义讲是指检索式。

检索式是用来表达用户提问的逻辑表达式,是检索策略的综合体现,通常由检索词和各种逻辑算符、位置算符及检索系统中规定的其他连接符号构成。当前51页,总共85页。在计算机检索中,检索策略直接关系到检索结果的成败,要想构造高水平的检索策略,不仅要求用户对检索系统十分了解,还需要对检索课题进行深入的分析并能灵活运用各种检索方法和技巧。

当前52页,总共85页。3.1检索式表达检索式也称检索提问表达式,是要求系统执行的检索语句。简单的检索式由一个检索词和一个字段名构成,复杂的检索式则由多个检索词和字段名通过关系算符(包括逻辑算符与位置算符等)连接而成。简单检索式:apple/ti复杂检索式:

((cornormaize)andharvest*)/ti当前53页,总共85页。(algae+algal+microalgal)*growth()factor??实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:(microalgal+algae+algal)(s)growth()factor??(microalgal+algae+algal)(3N)growth()factor??“微藻生长因子”当前54页,总共85页。“图象理解专家系统”Image()understand???*(expert()system??+artificial()intelligen??)当前55页,总共85页。3.2检索效果参数

包括:查全率(recallfactor)、查准率(也称适中率,Pertinencyfactor??)、漏检率(omissionfactor)、误检率(也叫检索噪音,noisefactor)以及新颖率、检索速度等。

当前56页,总共85页。假设:n为检索系统中文献总量,a为n中与检索课题有关的文献量,m为检索输出的文献量,b为m中与检索课题有关的文献量(检准文献量),则n、m、a、b之间的关系如图所示。当前57页,总共85页。n系统文献总量m检出文献量b为m中相关文献漏检误检a为n中相关文献当前58页,总共85页。令:

R表示查全率、

P表示查准率、

M表示漏检率、

N表示误检率,则R、P、M、N定义如下:

R=b/a*100%

P=b/m*100%

M=(1-b/a)*100%=100%-R

N=(1-b/m)*100%=100%-P

当前59页,总共85页。最理想的检索效果R、P均为100%,但实际上这是不可能的。实验表明:R和P之间存在相反的相互依赖关系,即提高R会降低P,反之亦然,如下图检索特性曲线所示。当前60页,总共85页。检索特性曲线当前61页,总共85页。对于检索来说,漏检是影响检索质量的最主要因素,故必须将M降低到最低限度;误检会降低检索的效率,也会影响检索质量。因此,任何检索工具和检索系统必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。当前62页,总共85页。(四)计算机检索流程当前63页,总共85页。文献检索课程目的:让你以最有效的方法收集及筛选所需数据以提高科学研究能力当前64页,总共85页。检索流程(构建检索策略的步骤)分析课题内容选择信息资源构造检索式选择检索点进行检索分析检索结果,调整检索策略跟进检索当前65页,总共85页。4.1分析课题的内容1).明确检索目的需要关于某一课题的系统详尽的信息需要关于某一课题的最新信息了解一些片断信息,解决一些具体问题当前66页,总共85页。2).

明确课题的主题或主要内容

要形成若干个既代表信息需求又有检索意义的主题概念,包括所涉及的主题概念有几个,概念的专指度是否适合,哪些是主要的,哪些是次要的,概念之间关系如何等。当前67页,总共85页。3).课题涉及的学科范围:搞清楚课题所涉及的学科领域、是否跨学科研究。4).所需信息的数量、语种、年代范围、类型等具体化指标当前68页,总共85页。例:检索课题--不锈钢焊接检索目的查找范围了解最新的技术动态利用期刊、会议录类的数据库查找了解焊缝强度的测试方法和有关规格利用技术标准类的数据库查找申请专利利用专利类数据库查找当前69页,总共85页。4.2选择信息资源是否与检索课题相关的资源都要检索选择哪些学科的信息资源选择哪些语种的信息资源信息资源覆盖的年限是否符合需求信息资源的特点及针对性当前70页,总共85页。4.3构造检索式选择检索点检索式

是表达用户检索提问的逻辑表达式,由基于检索概念产生的检索词和各种组配算符构成。检索点

即检索途径或检索入口、检索字段。检索点正确与否,决定着检索结果的数量与质量。当前71页,总共85页。

一个检索课题往往涉及多个概念,选择检索词时首先要将检索课题涉及的所有概念分离出来,并针对每一个概念选择尽可能多的检索词。

分析概念可从课题名称入手,出现在课题名称中的词并不一定都是概念词。当前72页,总共85页。如:“吸烟与心脏病的关系”可以表达为:connectionbetweensomkingandheartdisease

通过分析发现,其中,只有

somking和heartdisease两个概念词,而“connectionbetween”则不属于概念词。

概念1:somking

概念2:heartdisease当前73页,总共85页。

有些课题的实质性内容往往很难从课题名称上反映出来,需要从中提取隐含概念,另外有些检索词已含有的概念,在选词时应予以排除。例:聚乙烯的合成

聚乙烯合成

垃圾的处理

垃圾处理回收再生

玻璃纤维增强石膏制品

玻璃纤维石膏当前74页,总共85页。针对每一个概念,选择与之相关的同义词或相关词与somking相关的词有:smoker,smokers,tobacco等;heartdisease的同义词有:cardiopathy,hearttrouble,heartattack.将这些相关词记录下来,用于构造检索式:

概念1:somking,smokers,tobacco

概念2:cardiopathy,heartdisease,hearttrouble,heartattack

当前75页,总共85页。选定检索词的方法

利用上下位词或特有名词及同义词、近义词、相关词,查阅工具如专业词表词典,字典,分类表等:根据词表或数据库中的索引选词从专业词典、百科全书等参考工具中选词

利用中文全文数据库选择英文检索词当前76页,总共85页。编制检索式

使用逻辑算符(AND,OR,NOT)、截词、位置算符,限制检索条件至作者,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论