网络信息检索与利用(4-5)_第1页
网络信息检索与利用(4-5)_第2页
网络信息检索与利用(4-5)_第3页
网络信息检索与利用(4-5)_第4页
网络信息检索与利用(4-5)_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

检索原理与检索语言主讲梁炜武汉东湖学院图书馆

TEL:8193161513995544895课程交流群:214939523一、计算机信息检索概述(分为存储和检索两个部分)计算机信息检索系统是信息检索所用的硬件资源(如计算机,网络)、系统软件(如windows系列软件)以及信息资源数据库的总和,它能存储大量的信息,并对信息条目分类、编目或编制索引;并进行检索。

2信息检索的原理3计算机信息检索的主要环节包括:

信息分析(确定输入系统的信息条目的格式和内容,为建立索引作准备)信息存储(建立信息库,以备检索)

信息检索(脱机检索和联机检索两种方式4二、计算机检索系统的构成

1计算机硬件:系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及与数据处理或数据传输有关的其他设备。主机,是计算机检索系统的中枢。外围设备包括外部存储器,输入输出设备如键盘、光笔、鼠标、光学字符识别装置,显示终端、打印机等。

2软件:系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软件。

3数据库:“一组文件的集合”5三计算机信息检索中常用的服务方式计算机信息检索系统输出检索结果并向用户提供的过程叫信息提供。根据用户的要求,可有多种提供方式。61、定题情报服务:即SDI服务(SelectiveDisseminationofInformation。常用的服务方式。过程一般是:用户需求――编写检索提问式――存贮在计算机中――每隔一段时间让计算机将其调出――对新记录进行检索――最后将命中的记录输出并提供给相应的用户――保证他们及时了解研究课题的最新情况。它是一种追踪学科发展动态的有效方式。7其特点如下:1)服务针对性强,能根据检索课题提供专门服务;2)定期向用户分发结果,保证用户总能及时了解最新情况;3)保证数据库中的资料能全面、准确地满足用户要求。82、回溯性情报服务:也称为RS(RetrospectiveSearching),通常是针对某一课题,对情报数据库进行若干年的回溯性检索。检索内容不一定要最新。适于课题调研、对某一问题作全面了解、编制专题资料等。3、问答式检索服务:(QuestionandAnsweringService)是一种实时性检索服务。用户当场,随时提问,随时得到结果。9四计算机信息检索语言1、什么是检索语言:

检索语言是检索系统存储与检索运用的共同语言。换言之,描述信息系统中信息的内容特征及外表特征和表达用户信息提问的一种共同语言。102、功能:简单明了而又比较专指的描述文献的主题概念;容易将概念进行系统排列;检索时便于将标引用语和检索用语进行相符性比较等。是标引文献的依据,检索文献的条件,是沟通情报人员与用户思想的桥梁。

113、检索语言的类型

按文献内容特征

1主题法语言

标题词语言

(较准确,具体到点)

关键词语言

单元词语言

叙词语言

2分类语言

(较全面,具体到面)体系分类语言

组配分类语言

混合分类语言

3代码语言针对事物的某一方面,用代码系统来加以标引排列。如:化学分子式、结构式、索引系统等124、分类语言:将各种概念按学科性质进行分类和系统排列,并用分类号来表达各种概念的一种先组式语言。从学科门类的角度,强调面的作用,泛指度高,查全率高,满足族性检索。

134.1《中图法》是为统一全国文献分类编目创造条件而编制和发展的。1957年文化部主持编制了《中小型法》,在此基础上一些图书馆陆续把它扩充为大型分类法。1975年正式出版了《中图法》第一版。

特点:(1)《中图法》采用拉丁字母与阿拉伯数字相结合的混合制标记符号,以拉丁字母标记基本大类。(2)分为五大部类,22基本大类,51881个类目

。属于五分法

14A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事社会科学F经济G文化、科学、教育、体育H语言、文字I文学、艺术K历史、地理15N自然科学总论

O数理科学和化学

P天文学、地球科学

Q生物科

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学、安全科学

Z综合性图书

自然科学综合类图书1617《中图法》是典型的体系分类语言,是以学科为基础,运用逻辑划分的原理,以文献内容、所属学科、专业性质及特征对文献进行系统化组织。即从总到分,从一般到具体,从简单到复杂,从低级到高级,层层隶属,层层划分,形成一个严格有序的直线性知识门类的层累制体系。这种体系能体现学科的系统性,清楚的反映出事物的派生、隶属与平行关系,便于用户从学科专业的角度查找文献资料。18例如:要查找“轴承”方面的文献,首先必须确定它所属的大类类别为[T]工业技术,其次按照隶属关系可以依次推断为[TH]机械、仪表——[TH13]机械零件及传动装置——[TH133]转动机件——[TH133.3]轴承,最后确定“轴承”方面的文献在《中图法》中的分类号为TH133.3194.2《中国科学院图书馆图书分类法》

(1)发展历程:根据中科院图书馆综合性藏书范围,以及中国科学院所属各研究单位图书馆不同专业的特点而编制的一部体系分类法。于1954年开始编制,1958年完成,并于同年出版第一版。

20(2)《科图法》的体系结构:

首先,分类表分成5大部,25大类。

其次,层层划分,详细展开,形成等级分明的类目体系。

最后,采用纯阿拉伯数字的标记符号。

21如:00马克思列宁主义、毛泽东思想

10哲学

20社会科学

21历史、历史学

27经济、经济学

31政治、社会生活

34法律、法学

36军事、军事学

37文化、科学、教育、体育

41文学

48艺术

49无神论

2250自然科学

51数学

52力学

53物理学

53.6电学与电磁学

53.61电子原理

53.611电子说

90综合性图书

91书目、索引

92百科全书、类书

93词典

94年鉴、年刊23

《科图法》与《中图法》都属于体系分类语言,在国内图书馆界均有着较大的影响力。各个图书馆都是根据自己的馆藏特点和服务范围采用不同的分类法进行图书的分类排架。图书采购进馆后,工作人员对每本图书均会赋予一个独特的排架号。

所谓排架号就是指图书在架上的特定位置,也称索取号。不同类型图书馆的索取号有所不同。

有些是采用分类号+顺序号,有些是采用分类号+著者号+区分号(区分号可以表示图书的卷册、出版时间或者种次号等)。

24索取号是图书馆图书排架和读者获取图书的依据。图书书脊所贴书标上的号码就是索取号的直接体现。一般在书标上分多行居中显示,第一行一般为分类号,第二行则为顺序号或著者号等,各个馆采用的方式不一样。图书在书库和阅览室的排列,就是按照索取号来排列的,即图书先按分类号顺序排架,同类图书再按著者号进一步区分,依数字或字母从小至大,从前到后排列。25例如:我校图书馆对燕今伟主编的

《信息素质教程》一书赋予的索取号为G252.7/Y147,“/”前的G252.7为该书的中图法分类号,“/”后的Y147为该书的著者号和区分号。因此,查到索取号,就可以很容易地在书库或阅览室找到对应的书刊。26TP391.41/3TP391.41/7TP391.41/X538aI247.58/J523a2G/N61/G417/(1)

G/N61/G417/(3)

275、主题法语言:

直接选用代表事物、问题和现象的术语作为表达文献主题内容的检索标识。特点:从主题概念入手,强调点的作用,具体准确,专指度、查准率都比较高,满足特性检索

285.1标题词(SubjectHeading)

从科技工作者熟悉的大量科技名词中选出的具有实质意义,并能准确表达文献主题内容,经规范化处理的科技名词术语。(代表文献实质意义经规范化的词语)295.2关键词(keyword)

出现在文献标题、文摘及正文中,对表达文献主题内容具有实质性意义的词语,即在揭示与描述文献主题内容中起关键性作用的科技名词术语。(直接使用的自然词语)。一般是现成的词汇305.3单元词(Uniterm)

属于后组式语言。将多元概念分解为不能再分的单元概念。(代表文献实质意义、可以独立存在的最小概念单元)

如“大学”和“研究”都是单元词,因为它们都不能再分。把“大学”分为“大”和“学”都不再是具有独立和明确的意义。

但“大学教育”和“科学研究”却可以进一步分解。如分解为“大学”和“教育”,或“科学”和“研究”都具有独立的意义。

315.4

叙词(DescriptororThesaurus):

以概念为基础,经规范化处理,具有组配性能并能显示词间语义关系的科技名词术语。(经规范化的可以独立表达主题概念的词语)

特点

(1)它不仅适用于手工检索,更适用于计算机检索。

(2)不仅在于拆词,更在于拆义。

叙词语言综合了各种语言的优点,因此在表达文献主题内容上更为准确、全面,是目前计算机检索中用的最普遍的一种语言,科学实用。32如:遥感和地理信息系统用于监测热带雨林关键词:热带雨林遥感监测GIS

主题词:环境遥感环境监测森林遥感

GIS-应用遥感-应用33例如:城市生活污染研究关键词:城市(都市、城区)生活污染(生活污水、生活垃圾、电磁辐射污染等34有关室内装修污染方面的研究关键词:室内、装修、污染同义词或近义词:室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等)35五、数据库

数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物,是信息检索的重要资料来源。

36检索效果的评价查全率与查准率是检索质量的两个重要的评价指标。查全率(recallratio)=检出的相关文献量/检索系统中相关文献总量

即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下尤其如此。

37查准率(precisionratio)=检出的相关文献量/检出的文献总量。指检出文献中合乎需要的文献数量占检出文献全部数量的比例。

准确率高说明你检出的东西都是有用的东西。一般地说,很少能达到100%的查准率。在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。

38

n为检索系统中文献总量,m为检索输出的文献量,a为n中与检索课题有关的文献量,b为m中与检索课题有关的文献量(检准文献量),则n、m、a、b之间的关系如图所示。

文献总量与检出文献之间的关系39文献总量与检出文献之间的关系令R表示查全率、P表示查准率、M表示漏检率、N表示误检率,则R、P、M、N定义如下:

R=b/a*100%P=b/m*100%M=(1-b/a)*100%=100%-RN=(1-b/m)*100%=100%-P

40在一个具有1000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。查全率=30/50*100%=60%

查准率=30/60*100%=50%

误检率=(60-30)/60*100%=50%

漏检率=(50-30)/50*100%=40%41计算机信息检索的基本技术与方法42一、计算机信息检索的基本技术:

布尔逻辑、截词检索、字段检索,位置算符等。

在进行计算机检索时,有时有一些比较复杂的课题,如:“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,还有“应用”,这时候就要编制出满足要求的计算机检索式,它是机检的基础。431、布尔逻辑检索(BooleanLogicRetrieval)

布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。

逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(BooleanLogicOperators),即与、或、非三种运算符号,用它们可以表示概念之间的逻辑关系。44逻辑与“and”或“*”表示组配方式:A*B或者AandB表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。

45逻辑或用“or”、“+”表示组配方式:AORB或者A+B,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。

46逻辑非用“not”、“-”表示组配方式:A-B,表示检索出含有A词而不含有B词的文章。作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。47例如检索:“打印机驱动程序”查询关键词:打印机、驱动程序检索表达式:打印机AND驱动程序例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机OR微机布尔逻辑检索举例48布尔逻辑运算符优先级布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT>AND>OR49例:检索“唐宋诗歌”的有关信息。关键词:唐、宋、诗歌;检索表达式:(唐OR宋)AND

诗歌;唐AND诗歌OR

宋AND

诗歌;错误表达式:

唐OR宋AND诗歌;唐AND宋AND诗歌;唐OR宋OR诗歌;唐AND宋OR诗歌;50布尔逻辑算符具体使用在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些网络检索工具如搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。5152二、短语检索短语检索(phrasesearch)即精确检索

用“”表示,检索出与“”内形式完全相同的的短语。例如:在Google中直接输入中国国家图书馆检索,可命中类似中国科学院国家科学图书馆的结果,而输入“中国国家图书馆”,得到的结果是与中国国家图书馆完全匹配的结果。多用于机构、人名、专有名词的检索可提高检索的精确度和准确度53三、字段限制检索字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。54数据库中的常用字段篇(题)名(TitleField,/TI)文摘(AbstractField,/AB)著者(作者、责任者)(Author,AU)关键词(IdentifiedField,/ID;KeywordField,/KW;UncontrolledtermField)主题词(DestriptorField,/DE;或ControlledtermField-SU)55机构(单位)(corporatesource,CS或Affiliationsource,AF)刊名(来源)jour

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论