第7章 网络信息资源检索基本知识_第1页
第7章 网络信息资源检索基本知识_第2页
第7章 网络信息资源检索基本知识_第3页
第7章 网络信息资源检索基本知识_第4页
第7章 网络信息资源检索基本知识_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章

网络信息资源检索基本知识

学习目标:

(1)了解并掌握信息检索与网络信息检索的基本原理;(2)了解检索语言中的分类,分类检索语言与主题检索语言的基本概念、特点;(3)了解并能灵活运用主要的检索方法技术,提高检索效率;(4)了解并掌握网络信息检索的全部过程,提高检索的检准率与检全率。2023/11/27

信息检索原理

“信息检索”概念:从广义的角度理解,包括了信息的存储和检索两个过程。狭义的角度理解仅仅包括检索的过程。信息的存储就是将搜集到的一次信息,经过著录其特征(如题名、著者、主题词、分类号等)而形成款目,并将这些款目组织起来成为二次信息的过程。信息的检索是针对已存储好的二次信息库进行的,是存储的逆过程。2023/11/272023/11/27信息检索原理图原始文献信息需求存储信息特征提取检索提问特征表达检索标识系统存储信息特征标识检索提问特征标识标识排序标识匹配检索系统信息存储(标引)过程信息检索过程检索语言1.检索语言的概念检索语言又称情报语言、检索语言、文献语言、标引符号、标识系统;是根据文献检索的需要而创制的专用人工语言;是表达一系列概括文献内容的概念及其相互关系的概念标识系统;专门用于各种手工的和计算机化的文献情报存贮检索系统。2023/11/272023/11/27按检索标识规范化来划分

检索语言可以分为自然语言检索标识:著者姓名、题名、会议名称、机构号、标牌号、专利号和关键词。

规范语言检索标识:分类号、类名、标题词和叙词。

将信息需求者的自然语言转化成系统规范化的检索语言对检索的成功与否关系极大。2023/11/27在编制检索工具时,标引人员要对各种文献进行分析,把它们所包含的内容要点都分析出来,使之形成若干能代表文献内容的概念,并用规范化的语言如叙词、标题词或分类号把这些概念标示出来,纳入检索系统中。检索时,用户要对提问进行主题分析,使之形成能代表信息需求的概念,并把这些概念转换成系统能接受的语言,然后才能从系统中得到用这些规范化语言所标引的文献。2023/11/27按结构原理划分

检索语言可以分为两大类描述文献外表特征的检索语言:著者姓名、题名、报告号、标准号、专利号、档案号等。

描述文献内容特征的检索语言:分类号、叙词、标题词和关键词等。表述内容特征的语言与表达外表特征的语言相比较,在揭示信息特征与表达情报提问方面更具有深度。

2023/11/272023/11/27分类检索语言

分类语言是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。是按照知识分类和概念逻辑的方法对信息进行区分和归类。分类语言建立在科学分类的基础上,运用概念划分与概括的方法,将大大小小的概念进行层层划分,逐级划分就产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成了一个严格有序、层次分明的知识门类等级制体系。每一类目分别以不同的符号作标志,每个分类号都是表达特定知识概念的语词,即分类语言的语词。这种标志就是分类语言。大多数分类都是根据该语言编制而成的。

2023/11/272023/11/27分类语言包括以杜威为代表的等级体系分类语言(体系分类法)以阮冈纳赞为代表的分析--综合分类语言(分面组配分类法)

分面组配分类法:一般只限于一个比较窄小或比较单纯的专业范围使用。它由若干个面构成,这些面都是基本范畴,都可以作为检索的途径,而无主次之分。2023/11/271、体系分类法体系分类法定义:是一种直接体现知识分类的等级制概念标识系统,是对概括文献情报内容及某些外表特征的概念进行逻辑分类和系统排列而成的。2023/11/27是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献情报的途径。是由成千上万个类目构成的。

所谓“类”,是许多具有某种(或某些)共同属性的事物的集合。2023/11/27例:《中国图书馆图书分类法》

简称《中图法》。它是我国大陆地区使用最广的图书分类法,约有90%左右的图书馆使用该分类法。

1973年3月完成初稿,1980年修订出版了第二版,1990年2月出版了第三版,《中图法》(第四版)改称《中国图书馆分类法》,于1999年正式出版。2010年8月国家图书馆出版社出版第五版类号标记是采用字母数字混合制,即用一个或两个拉丁字母和一串阿拉伯数字来代表一个具体的类目。它有5大部类,22个基本大类,6个总论复分表,30多个专类复分表,4万余条类目组成完善的分类体系。

2023/11/272023/11/272、组配分类法组配分类法是体系分类法的发展,为了克服体系分类法的列举式列类方法所造成的不能无限容纳概念的局限性及它的类目的单线排列方式所造成的“集中与分散”的矛盾。使用组配分类法可以从很高的专指度上来标引一篇文章,也可以从很高的专指度或较低的专指度及从多种角度查到所需要的那篇文章。2023/11/27补充:列类方法(体系分类法中)14个分类:正常列类法、列举列类法、重点列类法、罗列列类法、对应列类法。。列举列类法:采用某一分类标准列子目,其总和少于被划分的上位类,未列的入“其他”类概括。复分表(体系分类法):将一系列类目所具有的相同子目从主表中抽出来单独编制成的辅表,在进行分类标引时,将主表的分类号与辅表的分类号加以组合,构成一个具体的分类号,表达一个具体的概念。例:分类号K9(地理)和世界地区表中的复分号313(日本)组合,构成“K931.3日本地理”子目----概念的分析与综合2023/11/27概念及构成原理组配——把两个或多个主题概念,按照一定的规则组合起来,表达一个更专指的主题概念,叫组配。组配分类法的构成:基于概念的可分析性和可综合性。一个复杂概念可以分析为为若干简单概念(或概念因素),若干简单概念可以综合成一个复杂概念。2023/11/27一部有四个面的组配分类表基本主题图书馆类型图书资料学科图书资料类型A1图书馆学理论A2图书馆事业A3图书馆藏书和目录A4图书馆服务工作、读者工作A41阅览室工作A42借书处工作A43馆际借书、邮寄借书A44图书推广工作A45图书宣传、阅读辅导A46参考咨询工作A5图书馆工作组织A6图书馆建筑和设备B1国家图书馆B2公共图书馆B21省(市)自治区图书馆B22市县图书馆B23乡镇图书馆B3基层图书馆B4科学图书馆、专业图书馆B5高等学校和中等专业学校图书馆参考咨询工作普通学校图书馆B6儿童图书馆B7其他图书馆C1毛泽东思想C2哲学C3社会科学C4自然科学C5医药卫生C6农业技术C7工业技术C8综合图书资料D1书D2期刊报纸D3特种科技文献D4工具书D5检索工具D6儿童读物D7缩微资料D8视听资料D9其他类型图书资料2023/11/27利用组配分类表来标引这10篇文献,可以实行轮排,从多角度检索文献。(1)公共图书馆对马列主义的宣传A45B2C1(2)省图书馆的参考咨询工作A46B21(3)期刊编目法A3D2

(4)县图书馆中农业期刊的宣传A45B22C6D2(5)儿童图书馆设备A6B6

(6)高等学校图书馆的读者工作A4B5(7)省图书馆期刊阅览室工作A41B21D2(8)儿童读者的阅读辅导A45B6D6(9)省图书馆视听资料的编目A3B21D8(10)县图书馆的期刊阅览工作A41B22D22023/11/272023/11/27主题语言(主题法)主题语言:直接以代表文献内容特征和科学概念的概念词作为检索标识(使用词语标识),并按其外部形式(字顺)组织起来的一种检索语言,又称主题法。主题语言是一种描述语言,即用自然语言中的名词、名词性词组描述事物概念的中心语义。2023/11/27主题语言包含两个内容:一是指表达信息内容特征的、经过规范化了的名词术语(包括词组和短语);二是把这些名词术语按字顺排列成主题记号表或主题词表,以此作为规范语词标引和检索信息的工具。主题词有三个基本特征:①着眼于从事物的特性方面去提示文献主题;②采用文字符号;③按字母顺序排列;2023/11/271、标题词语言(SubjectHeadingLanguage)

最早使用的一种主题语言。标题词语言是使用一个或者一组规范化的自然语言(经过标准化处理的名词术语)作为检索标识来直接描述文献内容特征,表达文献涉及的主题概念,并将全部标识按字母顺序排列的标识语言,是一种先组式的词汇标识系统。在标题下,常常集中了关于一种事物的许多方面的资料,涉及到相当于分类法中的好多个类目的范围.如在“羊”这个标题下,就可能包括羊的生理、解剖、遗传、选种、育种、繁殖、饲养管理、育肥、饲料、放牧、疾病及其防治、用途以及畜牧经济等方面的资料。而这些资料如果集中在同一个标题下而不加以区分,对检索也会造成困难,导致甄别量增加,而检索率降低。2023/11/272、单元词语言

单元词是指一个个最小、最基本的,其概念不可再分的词汇单位,能够用来描述文献所论及或涉及的事物的那些单词,是经过规范化处理的自然语言,无词表。后组式标识全组配是单元词法的重要特点。检索时,根据检索课题的需求,选取恰当的单元词进行组配检索。检索美国化工专利使用的《化学专利单元词索引》就是一例。

2023/11/274、关键词语言(KeywordLanguage)关键词语言是以关键词(自然语言)作为文献内容标识和检索入口的一种主题语言。关键词语言广泛地用于手工检索和计算机检索。

检索方法与技术

信息检索方法1、浏览法浏览是对信息结构的一种随意的探查,是发现信息及信息线索的重要手段,分为文字浏览、视频浏览、图像浏览、基于事件和叙事的浏览等。通过浏览选择其中所需或相近的内容,可作为进一步查询的依据,或者可以有效地启动一项需求更明确的检索。网上浏览往往同航行结合起来操作,即沿着一条条链,从一个视图切换到另一个视图,通过一系列的查看和选择操作发现所需信息。

2023/11/272、查询法(1)基于关键词的查询:如单词查询、词组查询、近似查询、布尔查询、自然语言查询;(2)

模式匹配:基于模式的概念,允许对某种特性的文本片段进行检索。(3)

结构查询:有的信息线索不是包含在文档的内容之中,而是包含在结构之中,如邮件的发送者、接受者、日期、标题等构成一组固定的“域”,用户可以针对这些域进行搜索,这是固定结构查询。(4)

基于内容的查询:包括一般属性查询(如媒体描述信息)、感知特征查询(如颜色、纹理、形状)、概念查询、时空结构查询等。2023/11/273、引文法(追踪法)

文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料不仅指明了与读者需求最密切的文献线索,而且往往包含了相似的观点、思路、方法,具有启发意义。2023/11/27引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询,其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。2023/11/274、时序法利用常规检索工具按照时间顺序查找有关文献的方法。可以用顺查法、逆查法和抽查法查找所需信息。

顺查法是以课题研究的起始年代为出发点,利用选定的检索工具如书目、索引、文摘由远及近地逐年查找。

逆查法则相反,是由近及远地查找,起点是从最近发表的文献开始,直到设定终止的年代或查到所需资料为止。

抽查法是基于这样一个规律来查文献的,即任何一门学科的专题研究大体都像波浪起伏般地发展,时而高潮,时而低潮。由于兴旺时期发表的文献量大,各种学术观点较为集中,如果针对课题研究处于兴旺时期的若干年查找,则付出较少的时间可获得较为满意的检索结果。2023/11/275、排除、限定和合取法

排除法:移植到检索中就是在时间或空间上极大地收缩检索范围。限定法:相对于排除法而言的,排除的结果必然是限定,即指对查找对象在时间和空间上加以内在的肯定。

合取法:如果把不同资料中涉及所需信息的记载都裁取下来,汇集在一起,再经过去粗取精、去伪存真的加工,构成一个完整的答案。

2023/11/272023/11/27信息检索技术1、布尔逻辑(1)逻辑“与”:逻辑“与”可用“AND”或“*”表示,检索词用“AND”或“*”相连,含义是检出的记录中同时含有所有检索词。逻辑“与”运算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以及同一组面内不同含义的词之间的组配。2023/11/27(2)逻辑“或”逻辑“或”可用“OR”或“+”表示,检索词用“OR”或“+”相连,含义是检出的记录中,至少含有检索词中的一个。逻辑“或”算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率。适用于同义词或同族概念的组配,如同义词、近义词等。2023/11/27(3)逻辑“非”:逻辑“非”可用“NOT”或“-”表示,检索词用“NOT”或“-”相连,表示排除“NOT”或“-”算符后的词语,检出含有算符前检索词的所有记录。逻辑“非”算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能提高文献命中的准确率。同时应注意在有两个以上运算符的复杂逻辑式中,“NOT”出现次数不能太多,否则检出结果极少,影响检出效果。2023/11/27(2)优先处理算符优先处理算符用“()”表示,含义是优先对()内的算符进行逻辑运算,在实际检索中,有时要调整逻辑运算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式,在这些情况下,将使用算符“()”。2023/11/273、邻接算符邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度检索算符,原文检索符。(1)(W)

W的含义是“With”,其用法为A(W)B,表示(W)前后所连接的A、B两个检索词在检出结果中必须紧密相邻,且词序不能颠倒。2023/11/27(2)(nW)

W的含义是“Word”,n代表单词个数,用法为A(nW)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序保持不变。2023/11/27(3)(N)

N的含义是“Near”,用法为A(N)B,表示在检出结果中A、B两词必须紧密相邻,并允许词序发生颠倒。2023/11/27(4)(nN)

N的含义仍是“Near”,用法为A(nN)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,两词的前后顺序可以颠倒。2023/11/274、字段限制在联机数据库或光盘数据库检索系统中,都提供字段限制的检索功能,其作用是检索范围限定在某一字段内如题目、作者等。以DIALOG检索系统,基本字段限制为四个:题目(TI)、叙词(DE)、标引词(ID)、文摘(AB)。2023/11/275、截词算法截词检索是利用检索词的词干或不完整的词形查找信息的一种检索方法。用户可以在检索式中用截词符号(如“*”、“?”或“$”等等)表示检索词的某一部分允许有一定的词形变化,而不必输入完整的检索词。2023/11/27(1)按截断的字符数量划分,截词检索可以分为有限截词和无限截词。有限截词,又称有限截断,指对词干以外可以出现的字母数量进行限定。如:studen??,截词符“??”表示检索含有studen和studen后只跟有两个字母的检索词的文献。无限截词,又称无限截断,指对词干前后出现的字母数量不作限定,一切与输入的词干相匹配的字符串,不论词干后或词干前是什么字符串、有多少字符串都属于要检索的信息。2023/11/27(2)按截断的位置划分,截词检索可以分为前截词、后截词、前后截词和中间截词。前截词,又称左截词,前截断,允许检索词的前端有一定形式的变化。这实际上是一种后方一致的检索,对汉语中的复合词组的检索非常方便。后截词,又称右截词,后截断,允许检索词的尾部有若干形式的变化。这实际上是一种前方一致的检索。2023/11/27前后截词,又称前后截断,检索词中间一致,任意一致,检索词中只要出现指定的词干即为合法检索词。这实际上是一种比较宽的模糊检索。中间截词,又称嵌入式截词,中间截断,嵌入式截断,指在检索词中间嵌入截断符号(有的系统用?,有的用*),允许检索词中间有若干形式的变化。2023/11/276、词组或短语检索词组或短语检索是一般数据库中最常用的方法。在网络信息检索工具中。在检索框中输入两个或两个以上的检索词,这两个检索词之间又不加任何符号,那么检索工具会将这两个检索词之间的关系设为默认值(有的默认值为AND,有的默认值为OR)。如要将这两个或多个检索词作为一个词组或短语进行检索,中间不允许插入任何字符,就必须使用一定的符号来表明这是词组或短语,最常用的符号是双引号“”或括号()。2023/11/277、加权检索加权检索的基本方法是:在每个检索词后面给定一个数值,表示其重要性程度,这个数值称为权值。通过加权明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序。检索时,先查找这些检索词在数据库记录中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论