




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录页 Contents Page第一节信息检索原理第二节第三节信息检索语言信息检索技术第一节 信息检索原理 n 信息检索原理就是用户将信息需求转变为检索系统所能识别的检索标识,与信息检索系统中存储的信息特征进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。n 其检索结果既可能是用户需要的最终信息(一次信息),也可能是用户需要的信息线索(二次信息),用户可据此线索进一步进行判断、筛选,以获取所需要的最终信息。基本概念信息检索原理图第一节 信息检索原理 概念解释n 文献信息存储过程: 将大量分散的文献信息搜集起来,根据其内容特征或外表特征进行标引,形成表征这
2、些 文献信息的特征标识,并存储在一定的载体上,成为有查询功能的检索工具。n 标引: 对文献内容特征和外部特征进行分析形成概念标识,再依据一定的标准或规则 (检索语言:如分类号、主题词、关键词及著者选用规则等)将其用相应的标识充分、准确地表达出来。n 文献信息检索过程: 用户根据自己的信息需求,提出检索提问,然后使用有关的标引语言(也称检索语言) 将拟定的检索提问规范成检索标识,用于检索的过程。第一节 信息检索原理 第二节 信息检索语言 n 检索语言就是信息组织和信息检索时所使用的语言(包括自然语言)。n 信息检索语言是文献信息标引的规则和标准,标引人员可用它来标引文献以便将文献整理、加工、存储
3、于检索系统中,同时,检索人员可 用它来表达检索课题信息的内容,以便把特定文献从检索系统中检索出来。 n 因此,检索语言就是一种把文献的存储与检索联系起来,把标引人员和检索人员沟通起来的约定人工语言。概念说明n 对文献的信息内容及其外表特征加以规范化的标引;n 对内容相同及相关的文献信息加以集中或揭示其相关性;n 可使文献信息的存储集中化、系统化、组织化,便于检索者按一定的排列次序进行有序化检索;n 便于将标引用语和检索用语进行相符性比较;n 最高全准率:保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。主要功能第二节 信息检索语言 检索语言在检索中的作用第二节 信息检索语言 n 文献
4、1:A Model of multimedia information retrievaln 文献2:The Information retrieval in chemistry WWW servern 文献3:ERIC resources例如:有三篇文献篇名如下:在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为:n 文献1:篇名(title): A Model of multimedia information retrieval 主题(subject): information retrieval, multimedia computer app
5、licationsn 文献2:篇名(title): The Information retrieval in chemistry WWW server 主题(subject): chemistry, educational materialsn 文献3:篇名(title): ERIC resources 主题(subject): educational materials标引后这三篇文献分别被存储进数据库第二节 信息检索语言 n 如果用户输入“information retrieval”一词,并将检索范围限定在篇名中,则文献1与文献2符合用户要求,成为检索结果。n 如果用户输入“informa
6、tion retrieval”一词,并将检索范围限定在主题中,则只有文献1符合 用户要求,成为检索结果。n 如果用户输入“educational materials”一词,并将检索范围限定在主题中,则文献2和文献3 符合用户要求,成为检索结果。 在信息检索过程中:在上述例子中,“information retrieval”、“educational materials”都是检索语言,篇名和主题则是检索语言的标识,检索系统就是通过他们将用户需求与信息内容进行运算匹配,最终找到检索结果的。由这个例子可以看出,检索语言的主要作用就是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从
7、不同角度检索查找。第二节 信息检索语言 2.1 分类检索语言(体系分类法、组配分类法、混合式分类法)n 文献分类的实质是按照知识体系分类和概念逻辑的方法,对文件的信息进行区分和归类。n 分类语言的词表即为分类表,它是由众多类目按照一定的知识分类和概念逻辑秩序,并考虑 文献分类的需要而构成的体系。n 由于分类语言通常采用字母或数字符号来构词,因而表达这些概念意义的分类语言词语就是类目的号码,即类号,通过自然语言的类名,可以直接的理解类目的含义,借助形势化符号的类号,可以系统的揭示与组织文献信息。n 文献分类的意义在于,根据文献信息的内容特征和分类词表,把相同内容的文献集中起来,同时又把不同内容的
8、文献信息区别开来,以实现相关集中的功能。第二节 信息检索语言 2.1 分类检索语言(体系分类法、组配分类法、混合式分类法)n 分类检索语言中使用较多的是体系分类法,其主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。体系分类法具有按学科或专业集中系统地向人们揭示文献资料内容的功能,这对于希望系统掌握和利用某一专业范围的文献而言,无疑是有效的。n 如 中国图书馆分类法是国家推荐统一使用的分类法,被许多检索工具采用或改编,分5大部类22大类,类号采用汉语拼音字母与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序
9、列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。 如:第二节 信息检索语言 n F经济(大类)n F2- 经济计划与管理(二级类)n F25 -物资经济(三级类)n F250 -物资经济理论(四级类)n F251.1 -物资管理(五级类). n 按体系分类法检索的长处是,能满足从学科或专业角度广泛地进行课题检索的要求,达到较高的查全率。n 查准率的高低与类目的粗细多少有关,类目越细,专指度越高,查准率也越高。n 但类表的篇幅是有限的,类目不可能设计得很细。n 因此,分类法只是一种“族性检索”,而非“特性检索”。n 概念:是指经过控制的,表达文献信
10、息内容的语词。是以自然语言的语词为字符,以规范化或未经规范化的名词术语为基本词汇,以概念之间的形式逻辑作为语法和构词法,用语词字顺排列,主题概念以参照系统显示概念之间关系的一类检索语言。 n 主题检索语言可分为标题词语言(标题法)、单元词语言(元词法)和叙词语言(叙词法)。标题词语言属于先组式语言,单元词语言和叙词语言属于后组式语言。关键词语言(键词法)因其性能与上述几种语言相似,通常也归入主题检索语言一类,实质上它是一种在情报检索中直接使用自然语言的方法,对取自文献本身的语词只作极少量的规范化处理,也不显示文献主题概念之间的关系,是一种准情报检索语言。2.2主题检索语言第二节 信息检索语言
11、n 概念:就是将千百年来存在于人类社会生活中自然形成的非规范语言,通过一定的语言处理技术,使之应用于信息检索系统的信息组织、标引与输出 。 n 特点:对信息检索领域来说,采用自然语言的方式,可以有效解决潜在语义表达上的不匹配因素,自然语言的语言思维形式,对信息的表达对应性较强,因而有利于形成在语言无损耗 意义上的排序输出问题。2.3自然语言第二节 信息检索语言 n (1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 这部分有时由人工自由标引进行,如期刊论文中的作者关键词,大部分由计算机标引系统自动完成。n (2)题名:信息资源的名称,如论文篇名、
12、图书书名、网站名称等。n (3)全文:从资源的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用得最多的方法。n (4)引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。自然语言的标识包括:此外,还有责任人(作者)、摘要等。由于自然语言检索系统对同义词、近义词、多义词等与其相关的词语没有进行规范和统一,当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响查全率。自然语言检索系统的选词没有严格限制,词量过多过杂势必会影响查准率。第二节 信息检索语言 基本概念第三节 信息检索技术 n 何谓信息检索? 信息检索(Information Re
13、trieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。n 何谓信息检索技术? 由于信息资源具有高度的组织结构。因此,要想做到快速、准确地检索需要一些特殊的技术。通过学习和掌握这些技术与技巧,你就能在浩瀚的信息海洋中,轻而易举的获取你的“目标”,从而让你的科研或学习过程变得更加便捷与高效。n 信息检索技术的构成? 检索算符、检索功能、检索策略、检索评价 3.1 检索算符n 用一个关键词检索可能比较简单容易,但通常检索课题会用到多个关键词。n 如何科学的将这些检索词进行有效组合,以求达到最好的检索效果,这就要涉及到多个检索概念的方法和技巧。第三节 信息检索技
14、术 n 布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索系统中最常用的一种检索方法,也称布尔检索。3.1.1 布尔逻辑算符布尔逻辑算符通常包括以下三种:(1)逻辑“或”OR 或“+”表示(2)逻辑“与”AND 或“*”表示(3)逻辑“非”NOT 或 “-”表示第三节 信息检索技术 (1)逻辑“与”(AND或*)逻辑“与与” (AND) 是用来组配具有相互交叉限定关系的检索概念。逻辑“与与”有时也用“*”代替(各数据库有时表达不同),其含义是检出的记录中同时含有“AND”前后两个检索词。如:查找有关“纳米”和“材料”方面的文献时,其检索式为
15、:Nano AND MaterialsNano * Materials 第三节 信息检索技术 (2) 逻辑“或”(“OR”或“+”)在检索中,你也可以用逻辑逻辑“或或”(OR)连接关键词。检索式。OR最好用于针对一个概念的同义词检索。很显然,使用OR可以扩大检索范围。第三节 信息检索技术 使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或 Web的文献或Internet 与Web 同时出现的文献。也可以在一次搜索中多次使用OR:如:Internet OR Web OR online OR digital OR wired有的中文数据库在使用 OR 时需用“+”来代替:互联网
16、 + 网络 + 在线 OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提高检索的查全率如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌)例如例如 Internet OR Web 第三节 信息检索技术 当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记录中的某处。使用“AND”将缩小检索范围。 如:students AND Internet 输入上面这个检索式,会找到关于students和in
17、ternet同时出现的文章,只包含其中一个词的文章是不会被检索到的。因此, 在连接不同概念的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多次。如: students AND Internet AND assignments有的中文数据库用*来代替AND,就象下面的这个例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认。如:学生 * 互联网 第三节 信息检索技术 需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认.如:计算机 - 软件上述检索式用于查找只出现计算
18、机而不出现计算机软件的文献,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:A NOT B (或AB)表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。 如:要查找除中国之外的“经济学”的文献,其检索式为:Economics(经济学) not China(中国)第三节 信息检索技术 图(a) 图(b) 图(c) 第三节 信息检索技术 3.1.2 截词算符n 截词符就是用一个符号来代替单词的一部分或某个字母。截词符一般常用于英文检索。n 截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文
19、字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。n 截词符用于检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常许多数据库用 * 或者 ? 来表示。n 截词方式: 按截断的位置来分共有三种:n 后截断、中间截断、前截断第三节 信息检索技术 三种截断三种截断中文数据库截词一般只能用在词尾,英文数据库则中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以种方式都可以(1)后截断后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。A.后截断无限截词后截断无限截词不说明具体截
20、去字符的数量。截词符是在一个词尾加一个 ? 号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截词通常用 ? 或 * 来表示把截词符放在字根的最后。如:behav? 系统将找出 “behave, behaviour,behavioural”等 B.后截断有限截词后截断有限截词说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n个。 如:smok? ;系统 将对smoke , smoky , smoked , smoker , smokes等进行检索(2)中间截断中间截断是把截词符号放在一个检索词的中间。一般中间截断只允许有限截
21、断。中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。中间截断主要用于英式和美式单词的不同拼写方式,以及有些词出现单复数不同。如:organi?ation;系统将对 organisation 和 organization 进行检索。如: wom?n ; 系统将找出 woman , women“;(3)前截断前截断就是把截词符放在字根的左边。如:*Computer, 系统在检索时将找出Microcomputer,mini-computer 等3.1.3 位置算符n 位置算符:表示其连接的两个检索词之间的位置关系(A B)n 不同位置算符的比较:n 两个词(A B)由不同的位置
22、算符连接组成不同的检索式,其检索结果显然不同。第三节 信息检索技术 常用位置算符位置算符常用位置算符的使用简介(1) (W)与(nW) 算符(W): 是with的缩写。(W) 表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class 命中的记录中出现的匹配词可能有:high class 或high-class。(nW): 与(W)类似, 只是它允许插词,插词量小于或等于n个。如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate sensor , silicon-base
23、d chemical sensor等等(2) (N)与(nN) 算符(N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词(nN): (nN)中的n表示允许插词量少于或等于n个。如:internet(1N)accessing命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等第三节 信息检索技术 3.2 检索功能n 检索功能是指检索系统在检索界面上提供给用户的基本功能。n 它与系统的检索技术是紧密结合的。n 比较通用的检索功能有:浏览、索引、词表、简单检索、高级检索、专家
24、检索、二次检索等。n 上述检索功能都是技术上较为成熟,在检索系统中得到广泛应用的。第三节 信息检索技术 3.2.1 浏览检索:可选择期刊、图书、丛书、电子参考书及图片等进行浏览检索利用检索系统提供的树型结构,从“树根”开始,逐层逐级打开,直到找到所需文献第三节 信息检索技术 3.2.2索引检索(Index)第三节 信息检索技术 索引检索(Index) 一些数据库常将其文献记录的一个或几个字段中具有实际检索意义的词,按字顺排成一个表单式的索引,供用户选择检索。索引的种类很多;如人名索引、出版物索引、地名索引、主题索引、机构索引等。 如图所示的(取自EI数据库):在不清楚作者名称是全称还是缩写的情
25、况下使用可节省检索时间和保障查全率或查准率。第三节 信息检索技术 3.2.3 简单检索(Easy Search) 简单检索又称基本检索。即为用户提供一个简单的检索界面,类似于搜索引擎。由于不能构造比较复杂、精细的检索式,因此检索结果不是很准确。检索词第三节 信息检索技术 3.2.4 词表检索词表检索是途径。一些检索系统把自己的词表编入检索系统。用户在确定检索用主题词的同时,可以直接进行检索。第三节 信息检索技术 检索示例:检索词第三节 信息检索技术 第三节 信息检索技术 3.2.5 高级检索高级检索可利用组配检索和字段检索来构造比较细致的检索式,帮助用户进行精确检索。使检索更为灵活,检索结果更
26、加准确。:布尔逻辑组配:library and information;位置算符组配:library (3w) information;第三节 信息检索技术 EBSCO数据库的高级检索界面数据库的高级检索界面第三节 信息检索技术 专家检索可为专业用户、资深用户提供比较复杂的检索界面。专家检索多为命令式检索方式,适合熟悉检索指令、检索经验丰富的用户使用。用户可将编制好的检索式填到检索框中,即可进行检索。使用专家检索可构造较复杂的检索式,达到较高的查全率和查准率,一般查新人员大多采用这种方式。例如:(EI数据库)在文摘中查找“Laser beam cutting” ;可以表示为“Laser bea
27、m cutting” wn AB; 在题名中查找可表示为:(seatbelts OR seat belts) wn TI ,以此类推。专家检索采用布尔运算符(AND, OR, NOT)连接检索词。例如:查找深圳大学牛憨笨的文献,检索式为:niu hb wn AU AND shenzhen univ wn AF第三节 信息检索技术 3.2.6 专家检索EI数据库的专家检索界面数据库的专家检索界面第三节 信息检索技术 二次检索是指在当前这次检索结果范围内,再次输入不同的检索词,运用布尔逻辑检索、截词检索等方式进行检索。经过多次的二次检索,逐渐缩小文献范围,使检索结果更符合您的查询目标。例如: 使用
28、EI数据库检索纳米材料的有关文献时,用“所有字段All field ”途径,第一次输入关键词“纳米材料Nano materials”,检索年限:2008-2012检索出来的结果较多,共有87963条记录。 调整检索式:1.检索词由“All field (所有字段)”改变为“Title (题名)”字段;2.检索文献类型限制为:Journal article(期刊);3.检索结果由87963条记录缩减至636条。 第三节 信息检索技术 3.2.7 二次检索3.3 检索策略(search strategy) n 执行一个课题的检索是按过程、分步来完成的n 检索步骤的科学安排称为检索策略(search
29、 strategy) n 它是为实现检索目标而制定的全盘计划或方案第三节 信息检索技术 3.3.1 检索课题分析 检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低或成败的关键。 要明确以下问题: 分析课题的主要内容及其所涉及的学科范围。 所需文献的类型、语种、年代及文献量的范围。 对查新、查准、查全的指标要求,及其侧重。第三节 信息检索技术 3.3.2 选择信息资源 大学本科期间,你需要为平时的作业和毕业论文搜集资料。研究生期间,你需要深入的学习和研究,就必须查找相关的文献信息。毕业后,你如果从事技术和科研工作,必不可少地要查
30、找一些标准或专利文献;如果你在公司从事管理,那就必需了解市场环境信息和与公司生存、发展密切相关的政策与法规文件,简言之,在当前这个时代,无论是学习、工作、还是生活都离不开信息,掌握如何快速、准确的获取信息资源的方法是非常重要的,也是现代社会与现代人必备的基本技能。第三节 信息检索技术 分析检索要求选择数据库确定检索词构成检索式提交计算机结果显示完成满意满意修改检索式不满意不满意第三节 信息检索技术 要做到全面、准确地选择信息资源,主要从以下几个方面进行分析1检索目的(课题申报、开题报告、学术论文、科技查新、课程论文、商业需求及其它需求类型等)2确定课题学科、专业、关键点3确定所需信息的时间范围
31、4明确所需信息类型;图书、期刊、会议论文还是专利、标准5确定与检索主题相关的学科范围的信息源6确定目标信息源的形式(全文、索引还是文摘)7确定所需信息源的语种(中文或外文)第三节 信息检索技术 3.3.3 选择检索字段检索字段的功能是什么?检索字段主要用于限定检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,利用字段检索可以用来控制检索结果的相关性,以提高检索效果。检索字段又分为以下2种:1.基本检索字段: 基本检索字段反映文献内容特征;由篇名、文摘、主题词等字段中所有有意义的检索词构成。例如:检索时选择篇名字段进行检索,则意味着检索词会出现在检索结果的
32、题名中。一般而言,在一些常用的数据库中选择“主题”检索字段,就表示凡是“题名、关键词、摘要”中包含有检索词的文献都会被检出(具体参见数据库说明)2.辅助检索字段:辅助检索字段反映文献外部特征;由作者、机构、文献类型、分类号、语种、出版年等字段构成。第三节 信息检索技术 常用检索字段TI文献标题SU题名、关键词、摘要AB论文摘要AU作者姓名CS作者单位SO发表论文的期刊名称(学位授予单位、会议录名称)Key word用于表达主题内容的单词或词组JN期刊名称Full Text整篇文献第三节 信息检索技术 3.3.4 检索式的制定 是检索策略的具体体现,它用检索算符将检索词组合起来,并正确表达检索词之间的逻辑关系和位置关系。检索式的好坏决定了检索质量。可以是一个单元词、表达单一的概念;如:Computer;也可以是一个或多个词组,表达多个概念。例如:Co
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程中介合同协议书
- 教育行业教务管理操作手册
- 机械设备融资租赁协议书6篇
- 危险货物运输合同标准
- 《初高中英语语法讲解与练习课教案》
- 2025年湖北怎么考货运从业资格证
- 2025年临汾货运从业资格证考试内容
- 2025年商铺转让合同8篇
- 双方付款合同范本
- 厂地合作合同范本
- 2025年湖南水利水电职业技术学院单招职业技能测试题库参考答案
- 廉政从业培训课件
- 2024年潍坊工程职业学院高职单招语文历年参考题库含答案解析
- 殡仪服务员职业技能鉴定考试题(附答案)
- 电动葫芦吊装方案计划
- 2025年山东电工电气集团招聘笔试参考题库含答案解析
- 《建立特种设备“日管控、周排查、月调度”工作机制》专题培训
- 《自然语言处理》课件
- 压裂设备专用件项目评价分析报告
- 2025上半年重庆万州区事业单位招聘拟聘用人员历年管理单位笔试遴选500模拟题附带答案详解
- 公路养护工安全操作规程模版(2篇)
评论
0/150
提交评论