信息资源检索基础知识_第1页
信息资源检索基础知识_第2页
信息资源检索基础知识_第3页
信息资源检索基础知识_第4页
信息资源检索基础知识_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源检索基础知识第一页,共九十四页,2022年,8月28日信息资源检索找什么?What网上资源分布怎么找?Where检索原理与技巧怎么下载?How下载技巧第二页,共九十四页,2022年,8月28日第一节

信息资源检索概述

信息资源检索的概念与类型

信息资源检索系统与数据库

第三页,共九十四页,2022年,8月28日1、信息资源检索的概念

从信息资源集合中找出所需信息内容的过程。一、信息资源检索的概念与类型

要求:高效、快速、准确、正确、全面、新颖原始文献加工整理数据库提问检索输出存储检索第四页,共九十四页,2022年,8月28日

2、信息资源检索的类型

(1)按检索内容划分

文献信息检索数据信息检索

事实信息检索

书目信息检索全文信息检索从检索系统存储的数据中查出用户所需数据的检索

对特定的事件或事实的检索

以与课题相关的一系列书目信息线索为检索对象,如标题、作者、摘要、来源、收藏处所等以与课题相关的论文或专利说明书等的全文为检索对象第五页,共九十四页,2022年,8月28日(2)按信息资源检索技术划分

全文文本检索

超文本检索

超文本的检索是通过超文本链接来实现的,超文本链接起信息导向作用,用户在从一个页面转向另一个页面的过程中获取自己所需要的信息。多媒体检索

网络信息检索

是一种集合各种新型检索技术于一体,能够对各种类型,各种媒体的信息进行跨时间、跨地理检索的大系统。

指能够支持两种以上媒体的数据库检索

通过计算机将文件的全貌包括文字和图形、图像等信息转换成计算机可读形式,采用自然语言进行检索。

第六页,共九十四页,2022年,8月28日1、信息资源检索系统的概念用于报道、存贮与查找信息的工具。(检索工具)二、信息资源检索系统与数据库

检索系统

信息标引和存储

信息的需求分析和检索第七页,共九十四页,2022年,8月28日2、信息资源检索系统的类型按著录方式划分按存储介质划分按检索手段划分手工检索系统、计算机检索系统、穿孔卡片系统、缩微品检索系统脱机检索系统、联机检索系统、光盘检索系统、网络检索系统目录、题录、文摘、参考工具、全文数据库和搜索引擎

第八页,共九十四页,2022年,8月28日目录

是对一批相关文献外表特征的揭示和报道,是有序的文献清单。信息检索/刘俊熙、王立义编著.——北京:北京图书馆出版社,2002.10233页;16厘米ISBN7-5013-1953-7I.信…II.刘…;王…III.情报检索卡片目录、书本目录著录格式

如下:第九页,共九十四页,2022年,8月28日电子目录著录格式

如下:第十页,共九十四页,2022年,8月28日题录对文献外表特征的描述,题录一般以内容上独立的文献单元,如一篇文章或书中某一部分以至整个出版物作为其著录的基本单位。

题录著录格式

如下:030301007网络时代的管理创新/高维钫(北京邮电大学文法经济学院)//经济管理.——2002,13(6),53-55记录号题名著者姓名著者单位原文出处第十一页,共九十四页,2022年,8月28日

与目录区别著录对象不同目录单位出版物题录单篇文献第十二页,共九十四页,2022年,8月28日不仅描述文献的外表特征,而且还揭示文献的内容特征,是带有文摘内容的、扩展了的题录。文摘

印刷版本文摘著录格式如下:9807471OODB中的模式更改框架[刊,中]/郭江//计算机应用与软件.——1997,14(3).——23-34模式演化是面向对象系统中的一个关键问题。由于OODB(面向对象数据库系统)的应用……。参4文摘号题名文献类型文种著者姓名原始文献的出处摘要参考文献数目第十三页,共九十四页,2022年,8月28日电子版本文摘著录格式

如下:第十四页,共九十四页,2022年,8月28日著录项目著者篇名出处摘要第十五页,共九十四页,2022年,8月28日问题:以下是不是一条文摘记录?【文摘】详细研究了双螺杆中反应挤出聚合物的动力学模型、流动模型和传热模型。通过实验得到了双螺杆反应器中聚合物的停留时间分布及平均停留时间。第十六页,共九十四页,2022年,8月28日参考工具能为读者提供各种所需的具体资料的工具

全文数据库

全文数据库以原始文献为著录单元,信息用户可以得到文献的全文或者某个具体的章节。搜索引擎

搜索引擎是以网页为著录单元的一种网络检索工具。第十七页,共九十四页,2022年,8月28日3、数据库数据库的定义

至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。第十八页,共九十四页,2022年,8月28日数据库的组成:数据库由很多条文献、数据记录组成,主要有“文档—记录—字段”三个层次。第十九页,共九十四页,2022年,8月28日文档(file)

也称文件,在逻辑上是由大量性质相同的记录组成的集合,它是书目数据库和信息检索系统中数据组织的基本形式,包括顺排文档和倒排文档。

顺排文档

数据库的全部记录按照记录号的大小排列而成的信息集合第二十页,共九十四页,2022年,8月28日顺排文档的记录排列示意:记录号

主题词

1

2

3计算机、软件、安全

网络、安全、软件

软件、网络

第二十一页,共九十四页,2022年,8月28日倒排文档

按数据库中记录的检索标识(主题、著者等)的某种顺序排列起来的文档。第二十二页,共九十四页,2022年,8月28日主题词

计算机

软件1、2、3

1

1、3记录号

安全

2、3

网络倒排文档的记录排列示图:第二十三页,共九十四页,2022年,8月28日记录(record)

记录是机器可存取的基本单位,由若干个字段组成。

字段(field)

字段是记录的基本单元,用于描述事物的某一属性,字段与文献记录中的著录项相对应。第二十四页,共九十四页,2022年,8月28日数据库的类型:按照国际上通用的分类方法,通常划分为参考数据库和源数据库。#参考数据库(ReferenceDatabase)参考数据库是指用户在这些数据库中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。

参考数据库书目数据库:存储某个学科领域的二次信息资源的数据库

指南数据库:存储能够提供用户参考、给予用户指南的各类信息

第二十五页,共九十四页,2022年,8月28日#源数据库(SourceDatabase)

在欧洲也称作数据银行(DataBank)。它是能够直接为用户提供原始资料或具体数据的一类数据库。

源数据库数值型数据库

文本-数值数据库

全文数据库

术语数据库

图像数据库

新闻数据库

第二十六页,共九十四页,2022年,8月28日第二节信息资源检索语言存储检索文献信息提问检索系统(数据库)(语言)(语言)体系分类语言关键词语言第二十七页,共九十四页,2022年,8月28日

检索语言是信息资源存储和检索的共同语言。其实质是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息资源内容特征或外在特征及相互关系的概念标识体系。

一、检索语言的概念第二十八页,共九十四页,2022年,8月28日二、检索语言的种类2、按文献信息资源的特征划分

1、按规范化程度划分第二十九页,共九十四页,2022年,8月28日1、按规范化程度划分人工语言

人为对标引词和检索词加以控制和规范,使每个检索词只能表达一个概念

自然语言直接从原始信息中抽取出自由词作为检索点的检索语言

第三十页,共九十四页,2022年,8月28日检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名(书名、刊名、篇名)责任者(个人、机构名称)号码(如专利号、标准号、报告号、ISBN号、ISSN号等)引文分类法主题法2、按文献信息资源的特征划分体系分类法组配分类法标题词语言单元词语言叙词语言关键词语言第三十一页,共九十四页,2022年,8月28日分类语言类性质上彼此相同的事物物以类聚,人以群分

分类语言也称分类法,它是用分类号表达主题概念,依据知识分类将各主题概念按学科性质进行分类和系统排列成类目体系的标引语言。第三十二页,共九十四页,2022年,8月28日体系分类法

直接体现知识分类的等级概念科学分类基础

对象文献内容的学科性质按照知识门类的逻辑次序知识类1类2类3类21类22类23………上位类同位类下位类第三十三页,共九十四页,2022年,8月28日自然科学社会科学哲学马列毛邓综合性图书ABC—K(9)N—X(10)Z

分成5个基本部类,基本部类是对人类全部知识作最概括的划分。

由基本部类划分出22个基本大类,基本大类是较为概括的大学科领域的划分,用由A到Z的22个字母表示。

体系分类法中国图书馆图书分类法简称中图法第三十四页,共九十四页,2022年,8月28日中图法简表如下A马列、毛泽东思想N自然科学总论B哲学、宗教O数理科学和化学C社会科学总论P天文学、地球科学D政治、法律Q生物科学E军事R医药、卫生F经济S农业科学G文化、科学、教育T工业技术H语言、文字U交通运输I文学V航空、航天J艺术X环境科学、安全科学K历史、地理Z综合性图书第三十五页,共九十四页,2022年,8月28日C社会科学总论

C8统计学

C91社会学

C92人口学

C93管理学

C931

管理技术方法.1管理数学.2管理的方式方法

……

C933领导学

C934

决策学

C935

管理计划和控制

C936

管理组织学

C939

应用管理学第三十六页,共九十四页,2022年,8月28日将T类展开第三十七页,共九十四页,2022年,8月28日T工业技术

TB一般工业技术4

工业通用技术设备48

包装工程482

包装设计.1纸、纸板.2林材.3塑料

…….其他485

包装类型486

包装机械设备487

包装技术检测488

包装工厂489

各类产品包装第三十八页,共九十四页,2022年,8月28日TP自动化技术、计算技术TP1自动化基础理论TP2自动化技术及设备TP3计算技术、计算机…TP31计算机软件…TP311程序设计、软件工程TP312程序语言、算法语言TP313汇编语言TP316操作系统…TP316.1分时操作系统TP316.2实时操作系统TP316.3批处理…TP20一般性问题

TP21自动化元件、部件TP23自动化装置与设备TP24机器人技术TP27自动化系统TP29自动化技术在各方面的应用第三十九页,共九十四页,2022年,8月28日主题语言概念:

主题语言是采用表达某一事物或概念的名词术语来标引、存储、检索的一种检索语言。标题词语言直接用规范化语词来标引文献主题,按字顺排列成词表。主-副搭配第四十页,共九十四页,2022年,8月28日单元词语言采用单元词通过组配(字面)来表达文献的主题概念。单元词是从文献中抽取的,能表达文献主题的最基本、不能再分的单元词语。叙词语言采用叙词通过概念组配来表达文献的主题概念。叙词是从文献内容中抽取的,能表达文献内容基本概念的并经过规范化的名词或术语。第四十一页,共九十四页,2022年,8月28日字面组配与概念组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:

字面组配

概念组配模拟+控制-->模拟控制

模拟+控制-->模拟控制

彩虹电器彩虹+电器

彩虹牌商品+电器

第四十二页,共九十四页,2022年,8月28日

第一例中,无论是字面组配还是概念组配,其结果都是“模拟控制”。第二例中,根据字面组配原理,“彩虹”和“电器”组配是“彩虹、电器”,而概念组配的结果应是“彩虹品牌”和“电器”两个词组配,才符合概念逻辑。第四十三页,共九十四页,2022年,8月28日以关键词作为文献内容标识和检索入口的一种主题语言。关键词是直接从文献中抽取的,未经规范化处理的自由词。关键词语言第四十四页,共九十四页,2022年,8月28日例:标引课题“微机在企业管理中的应用”标题词标引:

企业管理----计算机应用叙词标引:

企业管理、计算机应用关键词标引:

企业管理、微机、微机应用、计算机、计算机应用分类标引:C93、TP319第四十五页,共九十四页,2022年,8月28日其他划分方式:按组配方式先组式语言

指在检索前检索词已按固定关系组配好,并编制在词表中

后组式语言

是指在检索前,检索词在词表中没有被预先组配,检索时用户可根据不同的检索需求对某些词进行任意组配第四十六页,共九十四页,2022年,8月28日三、主要词表工程标题词表Ei叙词表

INSPEC叙词表

汉语主题词表

第四十七页,共九十四页,2022年,8月28日第三节信息资源检索技术检索策略与检索步骤

检索方式

检索点与检索词检索算符检索功能

第四十八页,共九十四页,2022年,8月28日一、检索策略与检索步骤

广义为实现检索目标而制定的全盘计划或方案狭义

检索式

1、检索策略第四十九页,共九十四页,2022年,8月28日2、检索步骤

1、课题分析2、选择检索系统(数据库)3、选择检索点和检索词4、制定检索式

(由检索点、检索词、检索算符组成)例:AB=金融网络andAU=张杰5、调整检索策略6、获取原文第五十页,共九十四页,2022年,8月28日二、检索方式

1、浏览方式分类浏览:按学科类别浏览。可点击“分类导航”或“分类表”中的任何一个类别,接着显示所点击类别的下属子类,如此类推。字顺浏览:按检索词首字母为序,提供相应检索字段的浏览。如按出版物名称字顺、著者姓名字顺等。

第五十一页,共九十四页,2022年,8月28日2、查询方式

初级检索:也称快速检索、基本检索。利用初级检索系统能进行快速方便的查询,适用于不熟悉多条件组合查询或SQL语句查询的用户。

高级检索:也称扩展检索。高级检索可进行多个条件的组合检索,即多个字段之间有一定逻辑关系(and,or,not)的检索。专家检索:也称专业检索。检索式中可同时使用检索词、逻辑算符(如AND,OR,NOT,ANDNOT)、字段标识符、邻近算符(如NEAR,ADJ等)、截词符等多种算符,创建更复杂的检索式。二次检索:在结果中检索又称为二次检索,当检索结果太多,想从中精选出一部分时,可使用二次检索。第五十二页,共九十四页,2022年,8月28日三、检索点与检索词检索点=检索途径≈关键词1、检索点第五十三页,共九十四页,2022年,8月28日

检索点(accesspoint)是检索的出发点,以前常用“检索途径”(approach)这一术语。在计算机检索中,所有类型的检索点形式上都表现为“关键词”,但在数据库检索中,检索点和关键词的含义还是有所区别的。文献信息特征是多方面的,用于文献检索的检索点很多,反映文献信息内容特征的有:分类检索和主题检索;反映文献外部特征的有:作者检索、名称检索和号码检索等。第五十四页,共九十四页,2022年,8月28日文献内容特征分类检索的检索点主题检索

文献外部特征作者检索的检索点名称检索

号码检索

第五十五页,共九十四页,2022年,8月28日分类检索:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。主题检索:从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。第五十六页,共九十四页,2022年,8月28日作者检索:是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者、编者、主办者、译者等,此外,还有代表机构、单位的团体作者,包括作者所在单位。名称检索:是从各种事物的名称出发来检索文献信息,包括书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。号码检索:包括文献的编号、代码等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。如科技报告有报告号、专利文献有专利号等。第五十七页,共九十四页,2022年,8月28日2、检索词

检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。

第五十八页,共九十四页,2022年,8月28日四、检索算符

检索算符也称组配符,用于连接检索点和检索词,表达检索词之间的关系,与检索点、检索词共同构成检索式,表达用户的检索需求。第五十九页,共九十四页,2022年,8月28日1、逻辑算符通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法。常用的逻辑算符有三种:NOT、AND、OR用NOT、AND缩检,用OR扩检。一般搜索引擎空格代表AND。例如,计算机AND农业、计算机OR农业、计算机NOT农业检索出来的文献是完全不同的。第六十页,共九十四页,2022年,8月28日

“与”

“与”是一种用于交叉概念或限定关系的组配,如图所示。可用AND或and或*表示。AB

“或”

“或”是用于概念并列关系的一种组配,如图所示。可用OR或or或+表示。

“非”

“非”是用于概念删除关系的一种组配,它可从原来检索结果中剔除一部分不需要的内容,如图所示。可用NOT或not或-表示。ABAB计算机*网络A–B,AnotBA+B,AorBA*B,AandB第六十一页,共九十四页,2022年,8月28日

例如用户想在题名中检索有关新闻美学的文献,如只输入“新闻”或“美学”,则命中文献太多,且有许多不是自己所要的。如果输入“新闻*美学”,则检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。逻辑与(AND)*缩检第六十二页,共九十四页,2022年,8月28日

换一个角度看,“逻辑与”又能防止漏检。例如,用户输入“新闻美学”作为检索词,可命中《戈公振的新闻美学实践》这样的文献,但漏检了《新闻的美学属性》、《新闻标题中的美学》这些文献。如果用“新闻*美学”来进行检索,则上述三篇文献都检中。逻辑与(AND)*缩检第六十三页,共九十四页,2022年,8月28日逻辑或(OR)+扩检

例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中540篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。第六十四页,共九十四页,2022年,8月28日关于“优先级”问题

当布尔运算符在一个检索式中连续出现时,它们的“级别”是不同的。大部分数据库是这样规定的:-优先级最高,*次之,+最低。例如要查找研究唐宋诗歌的文献,可以用“(唐+宋)*诗”、“唐*诗+宋*诗”,而不能用“唐+宋*诗”。“唐+宋*诗”查找的是含有“唐”的文献或者同时含有“宋”和“诗”的文献,这样就把涉及到的唐代、唐姓的文献都找出来了。第六十五页,共九十四页,2022年,8月28日使用逻辑算符时应注意的事项:逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。第六十六页,共九十四页,2022年,8月28日2、位置算符位置算符表示其连接的两个检索词之间的位置关系,常用的有(W)(nW)(N)(nN)(L)(S)(F)等

第六十七页,共九十四页,2022年,8月28日(W)或()——with

表示算符两侧的检索词之间只能是空格或标点符号,不得有其他字母或词,且词序不能颠倒。(nW)——nwords

表示两个词之间可插入n个词,且词序不可颠倒。例如:double(W)digit

表示具有doubledigit和double-digit形式的文献记录为命中文献。例如:Laser(1W)printer

表示具有Laserprinter和Lasercolourprinter形式的文献记录为命中文献。第六十八页,共九十四页,2022年,8月28日

(nN)——Near

表示两个词之间最多可插入n个词,词序任意。

(N)——Near

表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两词之间不可插入任何词。例:intelligent(N)machine

可检出intelligentmachine及machineintelligent等方面的信息。例:econom?(2N)recovery

可检出表示“经济恢复”的以下词语:economicrecovery,recoveryoftheeconomy,及recoveryfromtheeconomic第六十九页,共九十四页,2022年,8月28日(F)——Field

表示两个词必须在记录中的同一个字段中出现,如篇名字段、叙词字段、文摘字段等,且词序可变;夹在其间的其他词数量也不限。(S)——Subfield

表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。可以是文摘字段中的一个句子。例:Pollution(F)control

检中一篇标题为“controlandmanagementofindustrialpollution”的文献记录为命中文献。第七十页,共九十四页,2022年,8月28日

有了逻辑算符和位置算符,即可编制较为完整的检索提问。在检索时应注意:

①位置算符优先于逻辑算符②位置算符的执行顺序是按语句中位置算符的输入秩序从左至右执行的。如有括号,则优先执行括号内的位置算符。第七十一页,共九十四页,2022年,8月28日3、截词符截词是指检索者将检索词在他认为合适的地方截断。

按截词位置:后方截词、中间截词、前方截词按截断字符数:有限截词、无限截词?#*.

第七十二页,共九十四页,2022年,8月28日后方截词

无限截词

有限截词

无限截词是在一个词尾加一个截词符号,表示在其后可添加任意多个字符

有限截词是在一个词尾加有限个截词符号,n个截词符号表示其后可添的字符数少于等于n个。第七十三页,共九十四页,2022年,8月28日例1:Smok?

它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。

例2:Smok??

将对smoke,smoky,smoked,smoker,smokes等第七十四页,共九十四页,2022年,8月28日中间截词

中间截词是在一词中间出现若干个截词符号,表示可插入若干个字符,只允许有限截词。如:analy?er

它将对analyzer和analyser进行检索第七十五页,共九十四页,2022年,8月28日前方截词

表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信息,即为命中信息。如:?computer

对minicomputer和microcomputer等进行检索。第七十六页,共九十四页,2022年,8月28日

检索字段符(字段代码)是对检索词出现的字段范围(检索点)进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。分作两类:后缀式和前缀式。

4、检索字段符第七十七页,共九十四页,2022年,8月28日如:

/TI表示Title(篇名)/AB表示Abstract(文摘)/KY表示keyword(关键词)

electron/ti表示electron一词须出现在篇名字段,electron/ti,ab表示electron一词须出现在篇名或文摘字段。

后缀式后缀式是将字段代码放在检索词之后,并用/号连接第七十八页,共九十四页,2022年,8月28日

前缀式是将前缀代码放在检索词之前,用=号连接,常见的前缀代码,见教材P34所示。前缀式如:查找李明发表在清华大学学报上的文献

AU=李明*JN=清华大学学报第七十九页,共九十四页,2022年,8月28日五、检索功能1、加权检索加权检索是某些检索系统中提供的一种定量检索技术,判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

2、相似检索在检索过程中,人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,我们称之为相似检索也称相关信息反馈检索。

第八十页,共九十四页,2022年,8月28日3、精确匹配和模糊检索

不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。第八十一页,共九十四页,2022年,8月28日

“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。如要查找作者“刘开扬”的文献,则必须准确输入“刘开扬”三字,如输入“刘”或“刘开”,则不能命中。

一般在使用网上搜索引擎进行检索时,可以用双引号把输入的检索词括起来,就可以达到“完全一致”的检索效果。第八十二页,共九十四页,2022年,8月28日

“前方一致”属于模糊检索的一种。如在作者字段中输入“刘开?”便可查到作者“刘开”、“刘开扬”、“刘开强”的文章。又如以关键词为检索途径,输入“经济?”,便可查到“经济”、“经济法”、“经济学”、“经济预测”、“经济效益审计”等等。(注意,匹配符通常用“?”,但也有的数据库用“*”)第八十三页,共九十四页,2022年,8月28日

“任意一致”是模糊检索中的最为自由者。如用篇名作为检索途径,输入“出版”,则可检出篇名中任一处含有“出版”一词的文献,如《出版系统探讨》、《广东出版史概述》、《商务印书馆与近代教科书的出版》等。第八十四页,共九十四页,2022年,8月28日4、概念检索

可借助一个同义词表对用户输入的检索词自动添加同一概念的词汇集合(同义词,近义词,广义词等),有助于提高查全率,但不会降低查准率。5、自然语言检索自然语言检索是未来网络信息检索发展趋势。它允许用户以自然语言语句表达检索要求,检索工具利用禁用词表排除非关键词,然后把剩余的词作为关键词进行检索。

第八十五页,共九十四页,2022年,8月28日6、多语种检索

很多网络检索工具提供多语种检索或检索结果的翻译功能。

7、智能检索

智能检索把现代人工智能的技术与方法引入到信息检索系统,使后者具有一定程度的智能特征,在更高的层次上完成检索功能。

第八十六页,共九十四页,2022年,8月28日第四节检索效果检索效果是指信息资源检索系统检索信息资源的有效程度,反映信息资源检索系统的能力。

第八十七页,共九十四页,2022年,8月28日1、

查全率与查准率查全率

指检索出的相关信息资源与信息资源系统中的相关信息资源总量之比

查准率

指检索出的相关信息资源量和检索出的信息资源的总量之比

R=w/x*100%P=w/m*100%第八十八页,共九十四页,2022年,8月28日2、影响检索效果的因素

影响查全率的因素

信息库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。

影响查准率的因素

索引词不能准确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论