计算机信息检索基础_第1页
计算机信息检索基础_第2页
计算机信息检索基础_第3页
计算机信息检索基础_第4页
计算机信息检索基础_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲计算机信息检索基础第一节

数字资源概论第二节数据库的基本概念第三节计算机情报检索的基本原理第四节计算机情报检索系统的主要检索功能第五节计算机情报检索的主要方法与途径第一节

数字资源概论一.什么是数字资源?以数字化的形式把文字、图像、声音、动画等多种形式的信息储存在光磁等非纸质载体上,并通过网络通信和终端方式再现的信息资源。二.数字资源的发展数量急剧增长:大多数印刷型学术期刊已经数字化且回溯年限越来越长;同时出现了大量已没有印刷本读物的在线出版的刊物;电子图书数字化版本也越来越多。类型丰富:包括电子期刊、报纸、图书及多媒体学习资源等

三.数字图书馆的兴起数字图书馆是指以数字资源为主体馆藏的图书馆。现有的实体图书馆在逐渐地朝数字化方向发展。特点:多媒体存取、远程网络传输、智能化检索、跨库无缝链接、超时空信息服务。目前是一个实体馆藏与虚拟馆藏共存现状。读者不仅需要了解图书馆的实体馆藏,也要了解和学会使用虚拟馆藏。虚拟馆藏:图书馆订购的或从网上收集和组织的,通过网络远程或局域网方式访问的数字资源。

中国数字图书馆工程

/dloff/res3/index.htm上图数字图书馆/dl/

上海数字音乐图书馆/music/上海数字美术图书馆/art/

全球网上数字式图书馆资源

/dlib/dlc3.htm

数字资源的类型电子期刊

电子图书→电子报纸→学位论文→网络数据库二次文献数据库:主要包括文摘、题录索引信息,提供较丰富的检索功能→全文数据库:提供检索功能,同时可链接原始文献的全文

→多媒体光盘资源因特网免费资源

(如:专利信息等)第二节数据库的基本概念一、数据库的定义:1.

定义:数据库是可以共享的某些具有共同存取方式的相关数据,以一定的组织方式的集合。2.

数据库本质的三个要素:相关数据、共同存取方式和一定的组织方式、共享。因此,通俗地说,数据库是以某一特定方式组织和存放的数据的仓库。3.

数据库与其他数据集合的主要区别在于数据库中的各项数据可以通过同一种方式进行储存与查找,因此同一个数据库中的记录格式都是一样的。二、数据库的类型从最为通常的检索角度出发,以数据库所含信息记录的内容结构作为基本的分类标准,可将其分为:1.

文献参考数据库(简称文献数据库,ReferenceDatabase)著名的文献数据库有CASearch,MEDLINE,INSPEC,SCI,EI,BIOSISPREVIEWS2.

源数据库(也称非文献型数据库,SourceDatabase)(1)

数值数据库:数据库的记录含有大量的原始调查数据和统计数据。(2)

文字与数值数据库:同时包括文献与数值的数据库。(3)

特性数据库:如TOXIC等,通过网上免费数据库也可查到大量化合物的物性数据及光谱数据。(4)

全文数据库三、数据库的文档结构1.

顺排文档(linearfile):是按记录的编号顺序排列的文档。为主文档。顺排文档结构简单,管理方便,节省储存空间,但检索速度较慢。2.

倒排文档(invertedfile):是将数据库中具有某些特征的字段值和具有该字段值的记录号按顺序排列构成的文档。也称为索引文档检索时,计算机首先根据用户提问在倒排挡文件中检索,通过检索得到有关提问在顺序文档中的地址(文献的记录号),再通过顺排文档查到记录。所以顺排文档在计算机检索中,通常是作为资料档,与倒排文档并用,两者共同组成一个完整的文档。四、字段与记录、文档、数据库2

文档(File):是记录及其索引等的集合,是传统的检索工具在计算机检索中的同义物。如CA及其有关索引就相当于机检系统(如Dialog)中的一种文档(如399文档,即CASearch)3.

数据库(Database):是文档的集合。最小的数据库可由一个文档组成,所以有时文档和数据库同义。1.字段(Fields)与

记录(Record):数据库的主要部分由一系列的记录所组成,每个记录对应于一篇原始一次文献。每条记录由不同的数据项目组成。我们将记录中的数据项目称为字段。字段记录中的字段标识符一般由两个字母组成,如TI,AB,AU,PY,LA等。每个字段都是一条检索该记录的途径。子字段(Subfield):如文摘中的每一个句子可为一子字段。

基本检索字段:各种数据库提供的字段检索默认值。基本检索字段反映与文献内容特征有关的信息。如主题词,关键词,文献标题,文摘等字段。在DIALOG系统中用DE,ID,TI,AB表示。?SCOMPUTER?SCOMPUTER/TI(后缀限定)辅助检索字段:根据文献的外部特征抽取的检索字段。常用的辅助索引字段有:作者字段(AU)、期刊名称字段(JN)、出版年字段(PY)、文献类型字段(DT)、语种字段(LA),作者所在机构名称字段(CS)等。辅助检索字段常用前缀限定,如:SAU=WANG,JPSPY=2001SCI记录样例5/5/108198980GenuineArticle#:256JMNumberofReferences:10Title:ElectrochemicalreductionofzearlenoneAuthor:WangZQ;XuL;ZhouWJ;ZhouCM;YeRS;ZhangTF;ZhanWCCorporateSource:CHINESEACADSCI,SHANGHAIINSTORGANCHEM/SHANGHAI200032//PEOPLESRCHINA/;ECHINANORMALUNIV.DEPTCHEM/SHANGHAI200051//PEOPLESRCHINAJournal:CHINESECHEMICALLETTERS,1998,V9,N3(MAR),P227-230ISSN:1001-8417Publicationdate:19980300Publisher:CHINESECHEMICALSOCIETY,C/0DEPTINTAFFAIRS,SECRETARYOFCHEMSOC,P0BOX2709,BEIJING100080,PEOPLESRCHINALanguage:EnglishDocumentType:ARTICLEGeographicLocation:PEOPLESRCHINAJournalSubjectCategory:CHEMISTRYAbstract:Electrochemicalreductionofzearale-none1anditsderivativeswasdescribed.Theratioofa-andb-zearalanol2obtainedbyelectrochemicalreductionreached8:1,muchhighertanthatobtainedfromcatalytichydrogenation.Inadditiontoofthenormalreductionproductsarearrangedproduct5wasisolated.Thereductionwassupposedtobeaelectrocatalyticalreaction.Descriptors:AuthorKeywords:zearalenone,electrochemicalreductionIdentifiers:KeyWordPlus®:STOICHIOMETRYCitedReferences:US3196019,1965,ANDREWSFNBARDAJ,1974,P620,JACSGORESGJ,1979,V44,P380,JORGCHEMJANZENEG,1978,V82,P2445,JPHYSHEM-USKARIVMILLERE,1986,V205,P319,JELECTROANALCHINFKARIVMILLERE,1988,V247,P345,JELECTROANALCHEMKARIVMILLERE,1986,V51,P1041,JORGCHEMKASAIPH,1978,V82,P619,JPHYSCHEM-USSTOBM,1962,V196,P1318,NATUREURRYWH,1966,P3109,TETRAHEDRONLETT

第三节计算机情报检索的基本原理

计算机信息检索:用户利用计算机设备和通讯网络,与计算机信息检索系统相连接,运用系统特定的指令和检索方法,组织检索策略,从储存了大量记录的数据库中检索出所需信息的过程。计算机信息检索流程第四节计算机情报检索系统的

主要检索功能分类导航检索SubjectDirectory布尔逻辑检索Boolean截词检索

Truncation字段限定检索FieldLimit全文本检索Fulltextsearch位置算符检索Proximity

分类导航检索通过文献的主题类目,引导用户从主题等级分类的途径来浏览数据库记录。布尔逻辑检索技术逻辑“与”(AND)逻辑“与”组配是具有概念交叉关系和限定关系的一种组配。通常用AND或“*”作为算符表示。如:AandB缩小检索结果

学生

and心理障碍student*psycholog*选择

and布尔逻辑检索技术逻辑“或”(OR)逻辑“或”是并列概念关系的一种组配,通常用运算符为“OR”或“+”表示.扩大检索结果如:AorB

少年

or儿童childorchildren直接输入逻辑算符

OR布尔逻辑检索技术逻辑“非”(NOT)逻辑“非”组配是指不包含某种概念关系的一种组配。它可以从原检索范围中排除一部分文献记录,逻辑“非”的运算通常用“NOT”或“—”作为运算符。如:AnotB可以缩小检索范围学生

not小学2022/12/15山东建筑大学26布尔逻辑检索运算示例运算符:1.逻辑或OR,or,+属于并集运算∪

2.逻辑与AND,and,*属于交集运算∩

3.逻辑非NOT,not,--属差集运算—运算次序:—、*、+,若要先算+,要加括号注意点:1.提高检全率,多用+2.提高检准率,多用*、--3.正确编写检索提问式2022/12/15山东建筑大学27布尔逻辑检索运算例题检索“不是李华撰写的关于汽车或拖拉机的发动机的文献信息。”1.选取数据库:从数据库的倒排文档可查出相关主题词所对应的文献顺序号集合如下:

A=汽车={3,10,120};

B=拖拉机={3,10,200,202};

C=发动机={3,9,10,200};

D=李华={7,80,200,250}2022/12/15山东建筑大学282.列出检索式并进行集合运算E=(汽车+拖拉机)*发动机—李华

=(A+B)*C—D=({3,10,120}+{3,10,200,202})

*{3,9,10,200}--{7,80,200,250}

={3,10}3.检索结果:数据库中的3号和10号文献命中为了运算快速,上式应改为:E=(发动机)*(汽车+拖拉机)—李华

=C*(A+B)—D={3,10}整个运算过程除了运算式要输入外,都由计算机自动完成。截词检索技术截词检索技术:就是将检索词在合适的地方截断,用截出的片断进行检索。截词符号通常用*或?(用于英文中)1前方一致:不指明具体截去的字符数如::comput*或comput?computecomputingcomputarizecomputerizationcomputercomputerscomputablecomputation、Computor

截词检索技术(truncation)2.有限截断:指有具体截去的字符数如:

comput??

(截2个字符)3.中间屏蔽wom?n

如:woman,women常用的截词符有:*、?、%、$等等字段限定检索技术(fieldlimit)限定检索:为了提高检索的查准率,缩小检索的范围,将检索词限定在特定的字段中进行检索。限定字段通常包括:题名作者机构关键词/主题词分类号/分类名出版社出处(期刊刊名、卷期信息)文摘可限定的字段全文检索技术数据库记录中的每个词都可以作为检索入口,某些数据库可以限定词与词之间的位置关系。

位置算符检索

多个单元词之间位置逻辑的比较,即在检索词之间使用位置算符(或称邻近算符)来规定算符两边的词出现在文献中的位置。例如:(1)

指定两词之间至多可相隔几个词(即在比较时,对文献中出现的这两个检索词之间所插入的位置算符所规定之内的其他词可忽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论