信息检索原理与技术-图文_第1页
信息检索原理与技术-图文_第2页
信息检索原理与技术-图文_第3页
信息检索原理与技术-图文_第4页
信息检索原理与技术-图文_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1 信息检索的概念与类型 2 信息检索的途径 3 信息检索技术 4 信息检索方法 5 信息检索步骤与策略第2章 信息检索原理1 信息检索的概念与类型1.1 信息检索的概念1.2 信息检索的类型1.3 信息检索的流程广义:信息检索包括信息的存储和信息的检 索,又称为“信息存储与检索” 。 狭义: “信息存储与检索”的后半部分,通常称为“信息查找”或 “信息搜寻” ,是指从信息集合中找出用户所需的有关信息的过程。1.1 信息检索的概念手工信息检索:通过手工方式利用检索工具来处 理和查找文献的过程。如:文摘、目录、参考工具书等。 计算机检索:又包括联机检索、光盘检索和网络检索。1.2 信息检索的类

2、型按检索方式划分:手工检索和计算机检索联机检索联机检索是指用户利用计算机终端,通过通信线路或网络,在联机中心的数据库中获取信息。特点:同时检索多个数据库、数据质量高、检索机与主机是主仆关系、对检索人员要求高、而且检索需要的费用高。 计算机检索1.2 信息检索的类型光盘检索用光盘作为信息存储介质的数据库。分为单机检索和局域网内的联机光盘检索。 计算机检索1.2 信息检索的类型网络信息检索用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。特点数据库分布式存储,数量多,信息量大;由于超文本语传输协议,提供了大量相关链接;内容向多媒体发展,不仅有文本,还有图像、声音等;数据库更新速度快;

3、检索功能强,索引多,易学易懂;但目前各数据库检索界面和检索技巧不尽相同,给使用者造成不必要的麻烦;检索环境宽松,检索费用比联机检索低很多。(网络信息检索也包括通过网络进行的数据库检索) 计算机检索1.2 信息检索的类型 按检索对象的性质划分:书目检索、数据检索、事实检索和全文检索。 书目检索:以文献的外表特征和内容特征检索。如题名、著者、文献号码、文献出处和收藏处等。 数据检索:以特定数据为检索对象和检索目的的信息检索类型称为数据检索。如:有关计算公式、数据图表、化学分子式等。 1.2 信息检索的类型 事实检索:是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索。 全文检索:以文

4、献所包含的全部信息内容为检索对象。1.2 信息检索的类型1.3 信息检索的流程信息存储过程信息检索过程著录标引比较匹配分析选定编制信息资源信息选择收集信息主题数据库记录及信息特征标识信息用户信息需求信息主题检索提问式及提问标识信息检索检索结果评价/反馈检索语言分析不满意满意输出2 信息检索的途径 信息检索途径是由提取信息源的外部与内部特征形成的,又称为检索点或者检索入口。1.内容特征指由分析构成文献信息源的信息内容要素的特征与学科属性形成的,主要形成分类、主题两种。内容特征途径:从文献包含的信息内容特征来检索信息的途径。2.外表特征指从构成文献信息源的载体、符号系统、记录方式三要素中提取出的特

5、征构成。外表特征途径:利用文献的外表特征来检索文献信息的途径。分类途径主题途径2.1 内容特征途径一种按照文献资料所属学科(专业)类别进行检索的途径。检索工具的分类表为我们提供了从分类角度进行检索的途径。是通过文献资料的内容主题进行检索的途径,主题途径依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,检索者只要根据课题确定了检索词(主题词或关键词),便可以像查字典那样,按照字顺去逐一查找,从检索词下的索引款目,找到所需文献的线索。中国图书馆图书分类法 1999年推出了第四版,共分大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别

6、对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。 采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。目前常用的分类法有中国图书馆图书分类法(简称中图法)、 美国国会图书馆分类法、 杜威分类法、 国际专利分类表。分类途径专利分类法国际专利分类表国际专利分类表(International Classification of Patent for Invention, 简称或IPC) 19

7、68年9月1日在国际范围生效,以后每5年修订一次。IPC按照技术主题来设立类目表。首先将与发明专利有关的全部技术领域划分为八个部,部号分别用大写英文字母A到H来表示。各部(Section)按等级形式再细分为大类(Class)、小类(Subclass)、主组(Maingroup)、分组(Subgroup),形成五级分类的结构形式。IPC由9个分册组成,18分册分别对应八个部,第9分册是使用指南。在IPC中,八个部分别是:A:生活必需B:作业运输C:化学与冶金D:纺织与造纸E:固定建筑物F:机械工程;G:物理H:电学分类途径用于检索信息的特点具有等级结构,便于扩大和缩小检索范围。用分类号做检索标识

8、,不存在文种的限制。分类表中的类目不能随时变化,不能及时反映新的学科技术,边缘交叉学科只能从学科门类进行检索。隶属于一个门类下,造成漏检。例如:查找“金属工艺”类文献图书期刊分类科学系统、族性检索、查全率高主题词:以规范化的词汇来表达文献内容的主题的词语。规范词汇:同义词“煤炭”与“煤” 近义词“天然资源”与“自然资源” 学名和俗名“计算机”与“电脑” 多义词“cell”(细胞、电池) 如何提取主题词? 词意应该具体 意义广泛的词不应作为检索词 技术方面的少数课题,可直接用课题名称中包含的具有检索意义的概念或者代码 主题途径关键词:对表征文献主题内容具有实质意义的或对揭示文献内容来说是重要的、

9、关键性的、只做少量规范化处理或不做规范化处理的自然词语。1 例如:课题是“经济体制改革有关资料(1998-1999)”,如何确定检索标识?主题词:国企改革、所有制改革、国有资产管理与制度改革、金融改革、社会保障改革、劳动就业改革等。2 例如:检索“图书馆虚拟参考咨询服务”方面的文献,如何提取关键词? 关键词:虚拟参考咨询服务、图书馆服务、参考咨询服务等题名途径著者途径文献编号途径其它途径2.2 外部特征途径是根据文献的题名来查找文献的途径,它依据的是题名索引。是根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。是以编号为特征,编排和检索文献的途径,如专利文献

10、的检索可根据“专利号索引”进行检索。有些检索工具还附有一些特殊索引,可以通过特殊途径找到所需文献的线索。如专用符号代码索引(分子式,元素符号),专用名词术语索引(地名等)。中国现当代文学基础谭浩强四、信息检索发展历程手工检索到计算机检索题录文摘信息到全文信息的获得计算机检索经历了联机检索、光盘检索和网络检索方式发展趋势是异构数据库的统一平台检索(我们下面的讲课内容侧重于计算机信息检索)1 布尔逻辑检索2 截词检索4 位置检索常用检索技术3 全文检索 计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相

11、关性等方面对检索提问实行技术处理。检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。3 信息检索技术布尔逻辑检索逻辑“与”(用and 或*表示)逻辑“或”(用OR 或+表示)逻辑“非”(用NOT或-表示)1.布尔逻辑检索 在检索实践中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。用and 或*表示

12、,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。在网络搜索引擎中习惯用空格代替。如查同时含有概念A和概念B的文献,可表示为:“A and B”或“A*B”。检索结果如图所示,图中阴影部分即为同时包含A 和B 两个概念的命中文献。(1)逻辑“与”A and BAB例:查找“弱势群体”并且作者是“楼策群”的文献,怎么表达? 弱势群体 and 楼策群 用OR 或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。 例如,检索含有检索项A 或检索项B 的文献,可表示为: “A OR B”或“A+B”。检索结果是将含有检索项A 的文献集合与含

13、有检索项B 的文献集合相加,形成一个新的集合。检索结果如图1-5 所示,图中阴影部分即为包含A 或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。B(2)逻辑“或”AA or B查找包含计算机或者电脑的所有文章。 (3)逻辑“非”A not BAB 用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。在搜索引擎中,常用“-”号表示。 例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A NOT B”或“A-B”。检索结果如图所示,图中空白部分即为包含A且排除B的命中文献。例:查找“大学生信息素养培养”并且不包括“

14、图书馆”的文献,怎么表达? 信息素养培养-图书馆 在上述逻辑算符中,其运算优先级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR D) AND B,表示先执行“A OR D”的检索,再与B进行AND 运算。 布尔逻辑检索检索式的构造注意:1. 准确反映提问的主要内容2. 适应检索规则3. 符合检索功能及限制条件的规定是一个能反映检索课题需求,同时能为计算机识别的表达式。检索式构造技巧句子切分网络 与 当代 社会 文化 的 关系词汇剔除网络 社会 文化概念替换水质细菌 的计算方法水质污染 的计算方法概念限定与补充食品+食物(近义词补充)计算机+电脑(同义词)地滚

15、球+保龄球线路(无线电)(概念限定)思考:1.检索钱伟长在清华大学以外的机构工作期间所发表的,题名中包含“流体”或者“力学”文章。检索式:题名=流体 or 力学 and (作者=钱伟长 not 机构=清华大学) 2. 检索钱伟长在清华大学期间,刊名为“应用数学和力学”的期刊上发表的文章。检索式:作者=钱伟长 and 机构=清华大学 and 来源=应用数学和力学4 信息检索的方法 信息检索的方法是根据检索课题的需要与检索系统的现状灵活选定的。4.1 常用法 又称直接法,是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。根据具体的检索需要,可分为3种情况:顺查法、倒查

16、法和抽查法。4.2 追溯法4.3 综合法顺查法含义:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。优点:漏检,误检率低缺点:但劳动量较大。重点:能收集到某一课题的系统文献,用于较大课题的文献检索。优点:可以最快地获得新资料,概括了前期的成果,反映了最新水平和动向,这种方法劳动量较小。倒查法含义:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。重点:在近期文献,只需查到基本满足需要时为止。可用于新课题立项前的调研缺点:容易造成漏检。抽查法重点:适合于检索某一领域研究高潮很明显的,某一学科的发展阶段很清晰的,某一事物出现频率在某一阶段很突出的课题。含义:抽查

17、法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。优点:花费较少时间能查得较多有效文献的一种检索方法。 含义:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简单的扩大情报来源的方法。 优点:它还可以从查到的“引文”中再追溯查找“引文”,依据文献间的引用关系,获得越来越多的内容相关文献。这些内容相关的文献反映着某一课题的立论依据和背景,也在某种程度上反映着某课题或其中的某一观点,某种发现的发展过程。 缺点:原文著者引用的参考文献是有限的,误检,漏检的可能性大。4.2 追溯法 含义:又

18、称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追朔检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足为止。因为参考文献一般都是引用5年以内的重要文献,所以交替期可定为5年。 优点:综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法,尤其适用于对那些过去年代内文献较少的课题。4.3 综合法5 信息检索的步骤与策略 信息检索是根据即定的课题要求,利用检索工具(或系统),按照一定的方法和步骤把符合需求的文献挑选

19、出来的过程。 检索步骤: 1)分析研究课题,明确文献需求 2)选择检索工具,确定检索方法 3)确定检索途径和检索标识 4)优化检索提问与策略 5)分析检索结果 6)索取原文1)分析研究课题,明确文献需求 (1)明确检索目的 (2)明确课题的主题或主要内容 (3)课题涉及的学科范围 (4)所需信息数量、语种、年代范围、类型等具体指标。例:我们要查找关于“纳米氧化铝制备技术”方面的资料。 在着手检索前,要明确检索目的,了解检索课题的内容及性质,明确学科或专业范围等。最后分析哪些是已知检索线索,了解和掌握有关学科的专家学者以及研究机构等目前的有关课题,为检索提供充分而有利的条件。经过分析得知,纳米功

20、能氧化铝的制备技术涉及的主题概念有:纳米、超细材料、氧化铝、制备工艺。2)选择检索工具,确定检索方法 通常可采用两种方法:一是浏览图书馆检索工具室内陈列的全部检索刊物,从中挑选确定;二是通过查阅国内外出版的检索工具指南,从中挑选确定。为了迅速,准确地查找文献,还必须针对某一课题的具体情况选用适宜的检索方法,是使用常用法,综合法,还是使用其它方法,这些都是应该在检索前确定下来。 我们可选择如下检索工具:手工检索工具:中国机械工程文摘中国学术期刊文摘有色金属文摘中国化学文摘中国物理文摘 网络数据库:中国期刊全文数据库CNKI中文科技期刊数据库维谱资讯万方数据资源系统3)确定检索途径和检索标识 文献

21、检索可以利用文献的内容特征和外表特征。当我们拿到一项课题后,具体先用哪一条或哪几条检索途径,这需要从课题对文献本身的特定要求和已掌握的线索而定。 1.如系统查找某一课题的文献资料,一般应选择内容途径; 2.如需了解某位科学家近期研究情况,则需从外表特征中的著者途径查找。 检索途径确定之后,就要根据课题要求拟定相应的检索标识,当选择内容途径时,有些检索工具还要求将检索标识与相应的词表或类表进行核对,以提高查准率。 例上题:由于纳米氧化铝的制备技术所涉及的技术领域较宽,可采用内容途径的主题途径检索,并辅以分类途径。为达到查全的目的,可利用查出文献的作者及文后的参考文献做进一步的检索,以扩大检索范围

22、。4)优化检索提问与策略检索提问式检索效果是质检结果的有效方法,它反应了检索系统的能力。衡量检索结果的两个主要指标是查全率和查准率,分别用R和P表示。 查全率:也称为命中率、检全率等。指系统实施检索是捡出的与某一检索提问相关的信息资源数与检索系统中与该提问相关的实有信息资源总数之比。 查准率:也称相关率,检索精度等,指系统实施检索时检出的与某一检索提问相关的信息资源数与检出的信息资源总数之比。5)分析检索结果不满意满意非目标性结果结果太多结果太少进行调整打印、存盘、获取原文等6)查找文献线索,索取原文。 确定检索途径之后,根据检索标识,如著者姓名,分类号,主题词等,通过有关索引进行文献检索。

23、方法主要有: 查找馆藏单位 与收藏单位联系 直接向著者索取 联机定购选择质量较高的检索系统。提高用户使用检索系统的能力:善于利用各种辅助索引。提高检索效果的途径提高检索效果的途径 (1) 提高检索工具的质量 对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。 (2) 提高用户利用检索工具的能力 使之具备一定的检索语言知识,能选取正确的检索词,并能合理使用逻辑组配符号完整地表达文献需求的主题;能灵活运用各种检索方法和检索途径等,使检索工具最大限度地发挥作用。比如,全面准确地表达检索要求,合理使用文献检索点。根据不同检索课题的需要,适

24、当调整对查全率和查淮率的要求。充分发挥检索系统的功能。 2.信息检索系统的构成从物理构成来讲分为计算机、通信网络、检索终端和数据库从检索方式划分联机检索、光盘检索和网络检索 物理构成(1)计算机检索系统的核心部分,也包括硬件和软件(2)通信网络联机检索终端与本地或远程计算机的桥梁(3)检索终端用户与检索系统传递信息进行人机对话的装置(4)数据库一系列信息的集合,是检索系统中的信息源 1.计算机信息检索系统的概念 由存储在一定载体上的有序化信息集合、相应的检索技术与设备等构成的具有存储和检索功能的信息服务体系。 计算机信息检索是利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术。

25、 第四节 计算机信息检索数据库数据库是一系列信息记录的集合,是检索系统中的信息源。存储于计算机的磁带、磁盘或光盘上。数据库分为题录文摘数据库和全文数据库中文数据库和外文数据库综合数据库和专业数据库图书、期刊、学位论文、专利、标准等数据库检索系统的评价(1)检索的方便性 检索是否方便,决定着系统效用能否充分发挥,检索方便性由多方面因素决定的(2)收录全面性 覆盖面:检索系统收录范围所覆盖的学科面和出版物类型及其数量 摘储率:检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率 指导数:检索系统在一定时间内报道文献信息的数量,如文摘或题录的条数(3)检索效率 检全率:从检索系统检出的有关某

26、课题的文献信息数量与检索系统中实际与该课题有关的文献信息总量之比率 检准率:从检索系统检出的有关某课题的文献信息数量与检出的文献信息总量比率查全率=(检出相关信息资源量/系统相关信息资源总量)100%查准率=(检出相关信息资源量/检出信息总量)100% 例:在1000万条数据中,含有“重庆市环境保护与治理”的文献2000条,在对该检索系统进行检索时,共检出3000条,其中与“重庆市环境保护与治理”这一主题相关文献数位1500条,求其查全率和查准率。解答:查全率=(检出相关信息资源量/系统相关信息资源总量)100% =(1500/2000)100%=75%查准率=(检出相关信息资源量/检出信息总

27、量)100% =(1500/3000)100%=50%研究表明:世界上最好的搜索引擎其查全率只有45%,其查准率更低。一般而言,查全率高时,查准率低;精度高时,查全率低。 查全率与查准率的局限性 查全率的局限性表现在:它是检索出的相关信息量与检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少是不确知的,只能估计。另外其假设检索出来的信息对用户有用,但是对于不同的用户其信息价值是不同的。 查准率的局限性表现在:若检索结果是题录式而非全文,用户很难判断检索的信息是否符合其需求。(4)报导及时性 报导及时性:指导新出现文献信息的速度 时差:文献信息从其发表到检索系统提供给用户的这段时间间隔

28、第五节 信息检索语言一、检索语言的概念和作用检索语言是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。 检索语言是人与计算机对话的基础。检索时的匹配运算就是通过检索语言的匹配来实现的。存储信息时,赋予信息特征标识,如题名、作者、分类号等;检索信息时,用检索语言表达用户的需求。检索举例查找我馆馆藏中“英语”方面的2000年以来出版的图书的藏书情况二、检索语言的分类自然语言从信息内容本身自动抽取的。如题名、著者、号码、关键词、文摘、作者所在机构等。 题名语言是按文献题名顺逐字排检。 著者语言是按著者姓名,按姓前名后的字顺逐字排检。 号码语言是按文献代码,如专利号、标准号,报告

29、号,ISBN号等的顺序排检。人工语言根据检索的需要由人工规定的,采用规范词或代码来专指某个概念或网罗与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括分类检索语言和主题检索语言。1、分类语言分类语言是以号码为基本字符,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。 分类法产生得最早、用得最多的是图书分类法。 目前常用的分类法有中国图书馆图书分类法(简称中图法)、美国国会图书馆分类法、杜威分类法、国际专利分类表、中国科学院图书馆图书分类法-简称科图法、国际十进分类法-UDC。中国图书馆图书分类法 1999年推出了第四版,共分大部类22个基本大类。22个基本大类是在5大部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母。从基本大类起,再连续划分3次,得到二级、三级、四级类目。 采用汉语拼音字母和数字相结合的方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论