计算机检索的基本原理及过程_第1页
计算机检索的基本原理及过程_第2页
计算机检索的基本原理及过程_第3页
计算机检索的基本原理及过程_第4页
计算机检索的基本原理及过程_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机检索

的基本原理及过程

wangxin@

♦文献数据库的概念

♦文献数据库检索步骤

♦主题词关键词的选取

♦文献数据库的字段检索

♦检索效果评价

♦常用检索技术

♦计算机信息检索实例

文故数据库基本知识

1丈故数据埠

♦文故数据库是将各个学科领域、

各种专业技术方面的丈故信息汇集

在〜起,经过分门别类的组织、加

工、编排后形成的数据库。它能够

提供人们方便而快速地,更具针对

性地查找各种文故咨料的线索或者

全文。

文故数据库基本知识

1.1丈故数据库的类型

按收录文献的类型划分按提供信息的详略划分

2、文献数据库检索步骤

■确定检索要求和目标拟定检索对象范围主题词

►选择数据库及检索途径

实施检索并显示检索结果用检索技术优化检索结果

选择输出(打印、拷贝或发送至电子邮箱)

2.1选择检索词

♦利用主题词表

-选取规范化的主题词或词组

♦利用印刷版的检索工具书

-手工试检,根据检出文献的主题词标引情

♦选用自由词

-由于词表规模的限制,不可能对某一专业

作全面检索时,应考虑选用自由词,尽可

能多地选用与课题有关的同义词,以防漏检。

检索词选取时应注意的问题

冷僻词

找出隐性概念

使用核心概念

注意同义词近义词词型变化

2.2检奈途桎

作者(文章的责任者)

篇名(或题名)

机构(如浙江工业大学)

关键词(如污水处理、高层建筑)

主题词(规范化的主题概念,如用激光不用雷射)

文摘(论文或图书的摘要或内容提要)

引文(即参考文献)

基金(如国家自然科学基金项目)

刊名(期刊的名称)

全文(或者全记录)一

2.3常用检索技术一常用其二妗付

♦逻辑算符

♦位置算符

♦截词符

♦常用命令

逻辑检索概念示意

BnotA

常用算符-正科算符

♦与、AND、*

-用于概念交叉和限定。起缩小检索范围和

提高文献查准率的作用。

♦例Solar*Energy

常用算符-逐料算符

♦或、OR、+

-用于概念之间并列关系的组配。增加主题

的同义词,

-以扩大检索范围,避免文献漏检。

♦例www+internet+network

,常用算符-近辑算符

♦非、NOT、-

-从原检索范围中剔除一部分不需要的内容。

♦例Energy-Nuclear

-除核能以外的有关能源方面的文献才被命

中。

,常用算符-住置算符

布尔算符中的逻辑“与”只要求两个

检索词必须同时出现在同一篇文献中,

而没有限定算符两侧检索词之间的位置

关系,有时难免造成误检。

常用算符-住置算符

例如,查找“细菌对染料破坏”方面的文

献-Hh,

检索词:细菌、破坏、染料

逻辑“与”组配

检索结果:命中同时用这三个词标引的文献

-有“细菌对染料的破坏”方面的文献,

-也会有“染料对细菌的破坏”方面的文献,

•要排除后一部分的文献,就需用位置算符限定词

与词之间的位置关系。

常用算符-莅置算符

♦(W)或()算符:“With”的缩写

-词序不许颠倒

-两词之间不许插词,只许空格或连字符号

♦例CD(W)ROM将命中CDROM或CD-

ROM

♦solar()energy检出solarenergy

常用算符-莅置算符

♦(nW)算符:“nwords”的缩写

-(nW)是从(W)算符引伸出来

-检索词之间允许插入0—n个词

-词序不许颠倒

♦例anticorrosion(1W)paint

可检出anticorrosionpaint和anticorrosionofpaint

♦例检索“材料磨损”(WEAROF

MATERIALS)方面的文献,

检索式:WEAR(1W)MATERIALS

常用算符-莅置算符

♦(N)算符:“Near”的缩写

-词序可以颠倒

-两词之间不许插词

♦例cross(N)section

可检出crosssection和sectioncross

常用算符-核置算符

♦(nN)算符:

-(nN)是从(N)算符引伸出来

-检索词之间允许插入0—n个词

-词序可以颠倒

,常用算符-住置算符

♦(F)算符:“Field”的缩写

-算符两侧的检索词必须在同一字段内

-词序及两词间插入的词数不限

♦彳列digital(F)computer/TI,AB

常用算符-住置算符

♦(S)算符:“Sentenc铲和“Sub-field”的

缩写

-算符两侧的检索词必须在同一句子

-词序及两词间插入的词数不限

,常用算符-住置算符

上述位置算符可以混合用于同一检索

式中,由于检索系统是按从左到右的顺

序处理检索式,因此,应将限制最严的

算符放在最左边。

84,

常用6二付就词符

♦非限制性截词:“?”加在词干或不

完整的词上,对词的完整意义进行检

索。

computer?代表Computer,computers,

computerized等

♦限制性截词:analy?er命中记录中将出

现analyzer和analyser;work???命中记

录中将出现,work,works5worker,

workers5working

3、检索效率

♦检索系统进行检索时产生的有效结果

♦它直接反映了检索系统性能的好坏。

♦衡量检索效果的指标

一查全率(recallratio)

一查准率(precisionratio)

检索出的相关文献量

杳且全王至率R=-数-据--库--中-的--全--部--相-关--文--献--xlOO%

氐/、+检索出的相关文献量

查准率P=-4A山.-M闫一X100%

检出的文献总量

最理想的检索结果是查全率和查准率都达到100%。

R—100%表示数据库中收录的全部相关文献都被检索出来

P—100%表示检索出来的文献全部都是相关文献

但事实上,检索中有许多因素使这个指标很难达到。

C.W.Cleverdon(英)进行

Granfield试验,得出

查全率R与查准率P曲线。R

•R—P之间存在着互逆关系

♦A总翥词数量多,泛指性强,

查全率较高但查准率却非常低

♦B点

M索词专指性较强,查准率就高

查全率因此降低

♦C,D两点

两种极端的折衷。

查全率一般在60%——70%查全与查准率P的关系曲线

查准率一般在40%——50%

・无论怎样调整检索策略和改进系

统效率,都无法使P和R同时接近100%。

4、计算机检索实例

课题名称:高层建筑的抗震结构设计

♦课题分析

该课题涉及的主要概念有:高层、建筑、

抗震问题和结构设计等方面。

作业

1、信息素质包括哪几个方面?

2、信息检索活动的功用有哪些?

3、丈故按加工深度、出版形式和载体形点分别可分成哪几类?

4、文技检索的工具有哪些?文故数据库可分成哪几种类型?请列举

五种检索途径。

5、请查询本校图书稔的稔箴目录,写出5本有关“计算机应用”或

“国际贸易”的图书的素书号并简要说明素书号的构成。

6、什么是检索语言,检索语言有几种?请详细列举并进行比较。

文故检索的方法有哪些?各自的优缺点是什么?

・8、如何提高检索丈故的效率并查会查准丈故?

潮9、检索词选取时应注意的问题有哪些?

110、国际商业经济活动中应了解的信息有哪些?(非经贸专业不做)

■11、请说明计算机检索系统的基本原理及检索过程。

12、布东正科检素

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论