检索语言与检索技术_第1页
检索语言与检索技术_第2页
检索语言与检索技术_第3页
检索语言与检索技术_第4页
检索语言与检索技术_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

检索语言与检索技术第1页/共79页信息环境改变了,我们痛并快乐着第2页/共79页德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的。”这里所说的“钥匙”即是指信息检索的方法,包括信息检索语言和信息检索技巧。

第3页/共79页主要内容信息检索语言信息检索途径信息检索技术信息检索一般步骤第4页/共79页我们在社会生活中必须学习运用自然语言,学程序设计必须掌握各种程序设计语言,同理,学检索就必须对“检索语言”有较为深入的了解。第5页/共79页信息检索语言检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的规范化的一种人工语言,是沟通信息存储和信息检索的一种约定语言。第6页/共79页信息检索语言基本功能对文献信息内容(及某些外表特征)加以标引;对内容相同及相关的信息加以集中或揭示其相关性;对大量信息加以系统化或组织化;便于将标引用语和检索用语进行相符性比较。第7页/共79页信息检索语言整个信息检索过程刻画为三个方面:即信息的存储与组织、信息的检索实施、信息的展示。其中的关系如下图所示:第8页/共79页信息检索对象数据库编排结构:文档-记录-字段文档(file):数据库中一部分记录的有序集合。记录(record):数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征。字段(field):比记录更小的单位,是组成记录的数据项目。第9页/共79页存取号基本索引字段辅助索引字段第10页/共79页基本索引字段表达文献内容特征辅助索引字段表达文献外部特征第11页/共79页检索语言有多种分类方式,其中就其描述文献的有关特征而言,可分为描述文献外部特征的“外部特征语言”和描述文献内容特征的“内容特征语言”,这两大范畴的语言又可细分为若干具体的语言。检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名责任者号码……分类语言主题语言关键词标题词单元词叙词第12页/共79页分类语言是一种用“分类号”来表达各种概念,将各种概念按学科性质进行系统排列。它集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层展开,是一种等级体系。由类目(语言文字)及其相对应的类号(字母、数字或其组合)来表达各种概念,构成一个完整的分类类目表。如《中国图书馆分类法》、《国际专利分类表》等都属于分类检索语言。第13页/共79页中图法

所谓图书分类是按照图书内容的学科性质或其他特征将馆藏图书予以揭示并分门别类组织排列的一种手段。图书分类法则是将许多类目根据一定原则组织起来,通过标记符号代表各级类目和固定先后次序的分类体系。它是图书馆收藏并揭示馆藏文献的依据。我馆文献采用《中国图书馆图书分类法》进行分类排架。第14页/共79页中图法简表第15页/共79页第16页/共79页《中国图书馆分类法》子类目隶属与派生关系为例:

T工业技术

TP自动化技术、计算机技术

TP3计算技术、计算机技术

TP31计算机软件

TP311软件工程

TP311.1程序设计

TP311.11程序设计方法

TP311.12数据结构

TP311.13数据库理论与系统

TP311.132数据库系统:按类型分

TP311.132.1层次数据库

TP311.132.2网状数据库

TP311.132.3关系数据库

TP311.132.4面向对象数据库

级级派生层层隶属信息存储过程:信息主题分类号信息检索过程:分类号信息主题第17页/共79页《中图法》从大类到小类,层层展开,不断细分,形成完整的知识体系。举例:要查找“研究《红楼梦》”方面的文献,我们应该遵循以下步骤:第1步:“研究《红楼梦》”所属类别应该是社会科学中的“文学”(I大类);第2步:通过见表进一步查找所需文献的二级分类号和类目名称,即I2中国文学第18页/共79页第3步:通过主题逐级详细查阅便可找到其准确的类号和类名:

I207文学评论和研究

I207.4小说研究

I207.41古代小说研究

I207.411《红楼梦》研究与评论所以“研究《红楼梦》”方面的文献的分类号即为I207.411第4步:利用标引的结果(分类号I207.411)就去查找馆藏,图书馆书库里的书都是按分类号进行排架,同学们在检索到这本书的信息后,根据分类号在书库中找到它的位置。第19页/共79页索书号是图书馆赋予每一种馆藏图书的号码。这种号码具有一定结构并带有特定的意义。在馆藏系统中,每种图书的索书号是唯一的,可借以准确地确定馆藏图书在书架上的排列位置,是读者查找图书非常必要的代码信息。在通常情况下,索书号由两部分组成:分类号+流水号分类号流水号V2-49/1030-4第20页/共79页2、图书在书架上的排序:由左至右,由上至下

如何通过索书号找到图书?1、索书号的排序:以单个字母或数字为单位,先左后右,先横后点,先上后下

第21页/共79页第22页/共79页OPAC使用——简单检索第23页/共79页书目信息:题名作者出版社出版年代索书号第24页/共79页第25页/共79页第26页/共79页第27页/共79页第28页/共79页我的图书馆第29页/共79页30读者荐购第30页/共79页主题语言主题语言不像“分类语言”那样需要借助于分类号来标识信息,而是直接以代表信息内容特征和科学概念的主题词来表达各种概念,并将这些概念词按字顺方式组织起来的一种检索语言。特点:按主题(信息所论述涉及的事物)集中以自然语言作为标识符号,概念与标识合二为一,不存在转换工序主题语言又可进一步细分为关键词语言、标题词语言、单元词语言、叙词语言以及。第31页/共79页①关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。第32页/共79页②标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”来叙述,第三篇文章用“微机”来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。第33页/共79页③单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。例如:“计算机”、“软件”、“固相”、“相”。第34页/共79页④叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。第35页/共79页主题语言(标题词、单元词、叙词)的规范化处理:

①词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。第36页/共79页②词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。③词形规范:即对词的繁简体、词序、字母符号等的规定。第37页/共79页著录者需要使用该词表、规范进行著录,用户检索时可以使用词表提供的规范词。举例:《汉语主题词表》是我国第一部大型综合性主题词表。全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成。是我国应用最广的一部主题标引和检索的工具。其款目(条目)格式如下:

XianXiangGuan(款目主题词的汉语拼音)显象管(款目主题词)[56CE]Picturetube(款目主题词的英文译名)同义D电视显象管监视管下位F彩色显象管固体显象管黑白显象管上位S电子束管词族的族首词Z电子管相关的其他叙词C显示管指示管第38页/共79页其他检索语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。第39页/共79页主题语言和分类语言的区别①揭示对象不同主题法揭示文献论述的具体事物或主题概念(“是什么”);分类法揭示的是文献内容的学科属性(“属什么”)。②使用标识主题法直接用词语表示文献主题;分类法则以抽象化的类目代号——“分类号”作为文献内容标识和检索标识。前者直观易懂,后者较简洁,但也较费解。第40页/共79页主题语言和分类语言的区别③排列方式主题法按词语字顺排列,如同词典,易学易查;分类法按分类号(学科或专业门类的代号)排列,系统性较强,但不熟悉有关分类表则难以有效地利用.④用途主题法较适合于对单篇文献的组织和检索,且更适于计算机组织和检索;分类法则比较适合于图书或文集的组织和检索.第41页/共79页检索途径:又称检索点或检索入口,包括信息源外表特征与内容特征外表特征:从构成文献信息源的载体、符号系统和记录方式三要素中提取出的特征构成。内容特征:由分析构成文献信息源的信息内容要素的特征与学科属性形成。信息检索途径第42页/共79页

第43页/共79页

文献外部特征的检索途径:题名途径即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需信息的方法途径。著者途径即从个人著者名或者团体著者名出发,查找他们所发表或者主持的文献。代码途径如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。第44页/共79页

文献外部特征的检索途径:机构名称途径主要包括作者所在的单位,以及图书期刊的出版发行单位等。信息源类型途径即直接利用信息资源的类型作为检索入口的方法。其他途径根据某些信息的特殊标识进行检索的方法,如化学分子式,地域名称等。第45页/共79页

内容特征检索途径

分类途径指按照文献所属的类别来检索文献的途径。优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。主题途径指通过能表达文献内容的主题词来检索文献的一种途径。主题检索的实施,需要用到各种主题词索引,如主题索引、关键词索引、叙词索引等。优点:主题途径表达概念直接、准确、灵活,适合于检索复杂、专深或较为具体的文献资料。第46页/共79页

内容特征检索途径关键词途径把对信息主题内容起关键作用的词抽取出来,并利用它来检索文献的一种途径。优点:由于关键词是一种很灵活的单词或词组,它不需规范词表,使用比较方便。在计算机检索系统中应用比较广泛。第47页/共79页信息检索技术第48页/共79页检索用词信息来源检索结果检索题目的词语切分检索技术第49页/共79页布尔逻辑检索截词检索短语检索限域检索常用的检索技术第50页/共79页

布尔逻辑检索

通过布尔逻辑运算符来表达检索词与检索词间逻辑关系第51页/共79页布尔逻辑运算符检索包含所有关键字的数据。TOPIC:“stemcell*”ANDlymphoma返回含有词语“stemcell”及“lymphoma”的文档,等效于检索“stemcell*”lymphoma检索的数据中必须至少含有一个所给关键字。可用来检索变体及同义词。TOPIC:aspartameORsaccharineORsweetener*返回至少含有一个关键字的文档。排除含有某一特定关键字的数据TOPIC:aidsNOThearing返回含有“aids”的文档,排除含有“hearing”的部分。第52页/共79页用截词符号表示检索词的某一部分允许有词形的变化,广泛用于西文检索截词检索第53页/共79页截词符/通配符符号意义*零个或多个字符gene*-->gene,genetics,generation$零个或一个字符colo$r-->color,colour?只代表一个字符en?oblast-->entoblast,endoblast第54页/共79页◆有限截断“?”◆无限截断“*”organi?tion:organization;orgnasation…econom*:economic;economics;economism;economize…第55页/共79页右截词中间截词左截词physic*:physicphysicalphysician…Defen?e:defencedefense…*magnetic:Magnetic;electro-magnetic…第56页/共79页通常用双引号“”将一个词组括起,作为一个不可分的检索整体来进行检索短语检索第57页/共79页近似运算符关键字检索希望精确地检索某个短语,将其放置在引号内。范例:“stemcell”Same不同关键字必须在同一句话内。“文句”通常是一个有限长度的字串,关键字前后顺序不限。在检索时,“SAME”运算符将检索含有所有关键字且这些关键字均出现在同一句话中的文档。范例:stemSAMEcell第58页/共79页第59页/共79页运用位置算符表示两个检索词间的位置邻近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系。位置算符检索第60页/共79页算符

功能

表达式

检索结果

W,with两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒)

Education(W)school,或EducationwithschoolEducationschoolEducationschools(schoolofeducationschoolsofeducation)

nW同上,两词中间允许插入n个词Education(1W)schoolEducationschoolEducationschoolsEducationandmusicschoolSchoolofcontinuededucationPre两词相邻,按输入顺序排列

EducationPreschoolEducationschoolEducationschoolsN,near两词紧密相邻,中间不能插入其他词,顺序可以颠倒

Education(N)school,或EducationnearschoolEducationschoolEducationschoolsSchoolofeducationnN同上,两词中间可以插入n个词

Education(1N)schoolEducationschoolSchoolofeducationEducationandmusicschoolF两个词同在一个字段中Education(F)school例如同时出现在题名或文摘字段中Same两个词同在一个段落中EducationSameschool同时出现在一个段落中第61页/共79页限域检索

如:riceinti(只在题目字段中查找文献)

riceinde(只在主题词字段中查找)

riceinab(只在文摘字段中查找)

利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。第62页/共79页信息检索一般步骤第63页/共79页选择信息来源五步走确定检索题目分析检索题目实施检索调整检索第64页/共79页检索结果太少检索结果太多第65页/共79页检索结果太少扩展检索词同义词上位词和下位词相关词参考文献第66页/共79页检索结果太少扩展检索词同义词意义相近、相同;缩写与全称、学名与俗名、名称的更迭、数字与日期的不同表达方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论