课件讲稿 第二章信息检索原理与检索技术_第1页
课件讲稿 第二章信息检索原理与检索技术_第2页
课件讲稿 第二章信息检索原理与检索技术_第3页
课件讲稿 第二章信息检索原理与检索技术_第4页
课件讲稿 第二章信息检索原理与检索技术_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一次作业1. 如何提高信息素质,谈谈你的的学习方法或途径。2. 浏览我校图书馆网站,说出图书馆都收藏有哪些类型的文献资源信息源?列出3种以上3请用图示的方法说明布尔逻辑检索概念之间的逻辑关系。4. 信息检索步骤主要有哪些?5. 列举自己感兴趣的3个课题,其中1个与所学专业有关。1交作业文件名为:学号 姓名 作业次数,例如:1020王海12 文 献 检 索姓 名: 学号: 班级:指导教师: 日期: 成绩:【作业要求】1交作业文件名为:学号 姓名 作业次数2态度认真、页面整洁。学号姓名作业次数3 第二章 信息检索原理与技术 2.1 信息检索原理 2.2 信息检索语言 2.3 信息检索技术 2.4

2、 信息检索方法42.1 信息检索原理2.1.1 信息检索原理2.1.2 信息检索类型2.1.3 信息检索系统2.1.4 信息检索途径52.1.1 信息检索原理信息检索的概念:广义的信息检索包括信息的存储和检索两个过程。信息存储是将大量无序的信息集中起来,根据信息源的外部特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成具有检索功能的数据库或检索系统,供人们检索和利用。信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。6信息检索的全过程应包括两个方面: (1)信息的标引和存储过程。 (2)信息的需求分析和检索过程。狭义的信息检索:

3、根据特定需求,运用某种检索工具,按照一定的方法,从大量文献信息集合中迅速、准确地查找出所需文献或信息内容的过程。 这是一个信息存取的过程,是人、计算机和网络共同作用下自动完成的。7信息检索原理:信息检索是对信息集合与需求集合的匹配与选择。 也就是检索提问标识与存储在检索工具中的文献标引标识进行比较,两者一致,或信息标引的标识包含着检索提问标识,那么具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。 89102.1.2 信息检索类型1按检索方式分 (1) 手工检索 使用的检索工具主要是书本型、卡片式的信息系统,即目录、索引、文摘和各类工具书。 2) 计算机检索 是指人们利用数据库

4、、计算机软件技术、计算机网络及通信系统进行的信息检索,其检索过程是在人机的协同作用下完成的。 112. 按系统中文件的组织方式分 1全文检索 全文检索指检索系统中存储的是整篇文章乃至整本图书。用户根据个人的需要从中获取有关的章、节、段、句等信息,并且还可以做各种统计和分析。 2超文本检索 超文本结构类似于人类的联想记忆结构,它采用了一种非线性的网状结构组织块状信息,没有固定的顺序,也不要求读者必须按照某个顺序来阅读。采用这种网状结构,各信息块很容易按照信息的原始结构或人们的“联想关系加以组织。 3超媒体检索 由于把多媒体信息引入超文本里,产生了多媒体超文本,也即超媒体。它是对超文本检索的补充,

5、其存储对象超出了文本范畴,融人了静态、动态图像及声音等多媒体信息。信息存储结构从单维开展到多维,存储空间范围不断扩大。121 书目信息检索2 全文信息检索2 数据信息检索3 事实信息检索 3. 按检索的内容和目标分131 书目信息检索以标题、作者、原文来源、摘要及收藏地点为检索对象,是一种相关性检索。特点:检索结果不直接解答课题用户提出的技术问题,只提供与之相关的线索。一般以目录、索引、文摘为检索工具。例如:查找有关“复杂环境下机器人研究 方面的国内外文献信息有哪些?检索工具: 中文科技期刊数据库、EI、SCI 等。 142 全文信息检索是利用各种全文系统获取有关的全文信息,如以论文或专利说明

6、书的全文为检索对象,也是相关性检索。特点:书目信息检索根底上更深层次的内容检索 一般以各种全文系统如图书、期刊数据库 为检索工具例如:检索四川大学学报(工程科版),2021,(6)“电力铁塔攀爬机器人夹持机构设计与分析一文检索工具:中国期刊全文数据库 153 数据信息检索以具有数量性质并以数值形式表示的数据为检索对象,是一种确定性检索。特点:检索的结果是经过测试和评价过的各种数 据,可用于比较分析和定量分析。一般以数据大全、手册、年鉴等为检索工具。例如:2021年全国行政区划数据?检索工具 中国统计年鉴 2021164 事实信息检索以事项为检索对象,检索结果是有关某一事物的具体答案,也是一种确

7、定性检索。一般利用字词典、年鉴、百科全书、手册等为检索工具例如:哥本哈根会议的主要内容是什么?17小结书目信息检索是利用各种目录、题录和文摘工具获取有关信息的线索。全文信息检索是利用各种全文系统获取有关的全文信息。数据和事实检索是利用各种参考工具书获取有关确实定性数据或事实信息。 182.1.3 信息检索系统 信息检索系统是拥有一定的存储、检索技术装备、存储有各种信息,并能为用户检索所需信息的效劳工作系统。 手工检索系统 计算机检索系统19计算机信息检索系统的类型以内容层次分目录: 如图书馆联机公共目录OPAC题录: 如我国的?全国报刊索引?、美国的?社会科学引文索引?SSCI等;文摘: 是以

8、精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录并按一定的著录规那么与排列方式编排,供用户查阅使用的一种检索工具;全文: 检索过程中,全文系统先提供题录和文摘信息,同时给出全文链接,供选择下载。如CNKI、EBSCO等全文数据库。20计算机信息检索系统的类型(以存储设备和检索方式分1954年美国海军兵器实验所图书馆用IBM701型电子管计算机建立了世界上第一个情报检索系统。脱机检索系统联机检索系统 世界著名的联机系统有Dialog系统、STN系统光盘检索系统网络检索系统212.1.4 信息检索途径 检索途径与文献信息的特征相关。文献的特征:外部特征和内容特征文献的外部特征: 题名

9、、著者、出版发行项、代码等;文献的内容特征: 主要是指文献内容所属学科范围及所包含的主题,常用分类号、主题词等来描述。根据文献外部特征和内容特征,信息检索途径分为两大类。 22题名:书名、刊名、会议名作者号码:书号ISBN、ISSN、 标准号、专利号出版:出版社、出版时间、地点文献的著录外部特征内容特征分类号主题词2324信息检索途径责任者途径题名途径代码途径引文途径出版情况出版时间、出版社分类途径主题词途径关键词途径25外部特征: 题名途径 著者途径 代码途径内部特征: 分类途径 主题途径 26以文献的外部特征为检索途径:题名途径:文献的名称 书名索引、会议名称索引、书目索引、刊名索引等著者

10、途径:个人或机关团体,作者、编者、译者等。 作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引代码途径:文献本身的特定序号: 如科技报告号、专利号、标准号等 事物本身具有的某种符号代码: 如分子式、元素符号、结构式等 27以文献的内容特征为检索途径: 分类途径:课题的学科属性,学科分类体系 利用学科分类表、分类目录、分类索引 假设课题所需信息范围较广,应选用分类途径,这样可以比较准确地检索到与课题相关领域的资料。 主题途径:按主题内容进行检索的途径, 它冲破了按学科分类的束缚,使分散在各个学科领域里的有关同一课题的信息集中于同一主题,当课题所需信息范围窄而具体时,以主题途径检索为宜。

11、 28292.2 信息检索语言2.2.1 检索语言的类型2.2.2 关键词语言30 概念: 检索语言又称标引语言,是系统存储和检索时共同使用的一种约定语言,以到达信息存储和检索的一致性,提高检索效率。2.2.1 检索语言的类型31检索语言的类型 体系分类语言 分类语言 组配分类语言 混合分类语言 标题词语言 主题语言 关键词语言 叙词语言 单元词语言32体系分类语言也称分类法国内: ?中国图书馆分类法? 第五版, 简称 ?中图法?国外:?杜威十进分类法?DDC、?国际十进分类法?UDC、?美国国会图书馆图书分类法?LCC33?中图法? 根据图书资料的特点,按照从总到分,从一般到具体的编制原那么

12、,确定分类体系,在五个根本部类的根底上,组成二十二个大类。 ?中图法?的标记符号标记采用汉语拼音字母与阿拉伯数字相结合的混合号码。即用一个字母表示一个大类,以字母的顺序反映大类的序列。字母后用数字表示大类以下类目的划分。数字的编号使用小数制。五个根本部类:1.马克思主义、列林主义、毛泽东思想2.哲学3.社会科学4.自然科学5.综合性图书3435确定课题分类的方法确定分类号是分类途径检索文献的关键;单概念课题在相关的大类中由大而小逐步查找接近课题要求的类号;并列概念课题,凡有主次者,应取其重点或主要研究对象归类。例如,“新闻宣传研究,如侧重新闻,取“G212新闻采访和报道,如侧重宣传,那么取“G

13、223播送电视宣传和群众工作;应用性课题,应在所应用和受影响的类目中查找。研究一种理论、方法、工艺等在多方面应用或对多方面造成影响的课题,那么在该理论、方法、工艺等本身所属的类目中查找。上位类分类方法。课题在分类表中无符合要求的专指类目时,可以归入它的紧邻上位类。362.2.2 关键词语言 关键词语言是一种主题语言,它是直接从原文的标题、摘要、全文和检索课题中抽选出来的具有实质意义的、未经标准化处理的自然语言词汇,作为存储和检索依据的一种检索语言。37关键词,就是你输入搜索框中的文字,也就是你命令数据库系统或搜索引擎寻找的东西。又称检索入口词。 而那些对文献主题无实质意义的词汇,如冠词、介词、

14、连词、某些副词以及某些形容词均不能做关键词。禁用词表38关键词法一般不编关键词表,而是相反, 编制“非关键词表或称“禁用词表,如:a as but from he in of that was you an at by had her is on this which & are be for have his it or to with39关键词的选择一、注意专业性 不使用过于通俗简单的词语,比方,你想查找有关降雨量方面的信息,虽然它属于天气方面的,但如果你输入的是“天气,就会返回大量与天气有关的信息,而结果中充满大量无关的信息,但如你直接输入“降雨量,就会获得比较满意的结果。40二、具有代

15、表性 要注意一词多意的问题,很多词具有一词多意的特性。比方,笔记本,可以指用来手写的本子,也作为笔记本电脑的简称。遇到这类词,可能需要在搜索框中输入尽量减少歧义的词语,比方改输入笔记本电脑。41三、注意使用“同义词 往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词,如果偏偏你头脑中的“同义词不是那么全,造成漏检就缺乏为怪了。例: 碳纤维碳纤维、炭纤维42确定课题关键词的步骤1. 分析课题,提取概念。课题涉及的最主要的事物名称应作为首先考虑到的检索概念;2. 整理概念,扩充同义词汇。将分析所得概念分成假设干个组面,每一组用同义词、近义词、缩写词、复数形式等予以扩展;3.

16、 运用分析所得词汇试查,确定课题合用的关键词。43例如1课题:外商投资管理关键词:外商、投资、管理扩展概念:独资、合资、资本、股权、法规、规定 课题涉及的最主要的事物名称应作为首选的检索概念,扩充同义词和近义词。44休息一会儿休息一会儿452.3 信息检索技术2.3.1 布尔逻辑检索2.3.2 其它检索技术位置算符检索、 截词检索、字段限制检索462.3.1 布尔逻辑检索 信息检索技术是指利用现代信息检索系统如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有 布尔逻辑检索 位置算符检索 截词检索 字段限制检索 47布尔逻辑检索 在数据库检索中,检索提问涉及的概念往往不止一

17、个,而是同一个概念涉及多个同义词或相关词,为了准确表达检索提问,必须使用逻辑算符将不同的检索词组配起来。常用布尔逻辑检索。 布尔检索技术使用的逻辑算符: 1逻辑与 2逻辑或 3逻辑非48逻辑与 检索式:A AND B A * B概念:逻辑与是一种具有概念交叉或概念限定关 系的组配。2. 算符:“AND 或 “*或“并且3. 特点:增强专指度,提高查准率。4. 举例: 液压机 AND 结构优化, 表示两个概念应同时包含在一条记录中49逻辑或检索式 A OR B A + B概念:逻辑或是一种具有概念相同或概念相关关系的组配。2. 算符: “OR 或 “+或“或者3. 特点:扩大检索范围,提高查全率

18、。4.举例: 废水 OR 污水 ,表示这两个相关概念分别在一条记录中出现或同时在一条记录中出现。50逻辑非检索式 A NOT B A - B1.概念:逻辑非是一种具有概念排除关系的组配。2. 算符:“NOT 或 “-3. 特点:提高查准率,影响查全率。4. 举例: 机器人 NOT 蛇形,表示检索出的记录中要排除含有“蛇形机器人 的记录。51查询时用的 () + - * ? ! 均为半角!布尔逻辑算符查询时用的 () + - * ? ! 均为半角!但是我们可以根据需要用括号改变执行顺序。52布尔逻辑算符说明逻辑算符 “与” 两个检索词A和B在检索结果中必须同时出现 “或” 两个检索词A和B在检索

19、结果中任一出现即可 “非” 两个检索词A和B的后一个B不在检索结果中出现 关系算符 “*” (and,且)中国+历史(找到中国且含历史之书目) “+”(or,或) 中国*历史(找到中国或含历史之书目) “” (not,不是)中国历史(找含中国但不含历史之书目 )( )优先算符例如:(知识or信息)and经济,在实际查询时,真正的关键字是“知识经济”或“信息经济”。以上四种操作符可互相结合使用,但有一定的执行先后次序,其优先顺序依次为:括号、NOT、AND、OR53例:政治经济学 and 于光远 政治经济学*于光远 表示检索出来的文献既含“政治经济学”同时又含“于光远” 的文献。ABA and

20、B或 A*BABA or B或 A+B例:政治经济学 or 于光远 政治经济学 + 于光远 表示含有“政治经济学” 、“于光远” 、 “政治经济学”和“于光远” 均为命中文献。54检索技术布尔逻辑检索:运用布尔逻辑算符Boolean operators对检索词进行逻辑组配,表达两个概念之间的逻辑关系。逻辑“与and:检索时,命中信息同时含有两个概念,专指性强; 逻辑“或or:检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索范围比and扩大。 逻辑“非not:命中信息只包括逻辑A,不包括逻辑B或同时有A和B的,排除了不需要的检索词。 逻辑“异或xor:命中信息包含逻辑A,也包含逻

21、辑B,但不包含同时含有A和B的信息。 55在不同的检索系统里,布尔逻辑的运算次序是不同的,会导致检索结果的不同。通常运算次序有这样几种形式:一是按算符出现的顺序,如果是and、or、not,就按and、or、not的顺序运算;如果是or、not、and,就按or、not、and的顺序运算;二是默认and优先运算,其次是or、not;三是默认or优先运算,然后是and、not。一般来讲,检索系统的“帮助文件中都会有这类说明,只要注意查看即可。 在中文数据库里,布尔逻辑运算符有时用and、or、not下拉菜单形式表示,供用户选择;有时用“*号表示逻辑“与,用“+表示逻辑“或,用“-表示逻辑“非。

22、56逻辑算符的组合使用方法(构造检索提问式是计算机信息检索的关键) 检索题“跨国公司经营管理研究: 提问式1:跨国公司跨国企业跨国经营 管理 = 检索结果90篇 提问式2:跨国公司跨国企业跨国经营管理19971996= 检索结果35篇 57“论中国特色的社会保障制度: 提问式1:社会保障制度社会保险制度我国中国PY=1997PY=1996= 检索结果99篇 提问式2:社会保障制度社会保险制度 养老保险医疗保险失业保障我国中国PY=1997PY=1996=检索结果160篇 扩展检索的方法: 概念的扩大;范围的扩大;增加同义词;年代的扩大。 582.3.2 其它检索技术1. 位置算符检索2. 截词

23、检索3. 字段限制检索 59位置算符检索: 即运用位置算符position operators表示两个检索词间的位置邻近关系,又叫邻接检索proximity。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系 。60位置算符检索续With(field): same field or same sequenceNear: same sentencePre (precede): library pre science library science, library with scien

24、ce, .w/n (Within): library w/n science library science, science library, Field: same fieldSame: same paragraph61常用的位置算符62常用的位置算符续63截词检索截词检索:用截词符号“?、“*或“$加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。 截词检索类型截词方式根据截词的位置不同,分为前截断、后截断、中截断;根据截断的数量不同,分为有限截断和无限截断。64截词检索续后截断:即前

25、方一致检索,又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。后截断主要用于以下检索:词的单复数检索,如company与companies;年代检索,如199?九十年代;词根检索,如socio*,可以检索sociobiology,socioecology,sociology等20多个词汇。 前截断:截词符放在被截词的左边,可与后截断一同使用。例如输入*magnetic,可检electro-magnetic、electromagnetic、thermo-magnetic等。目前这种检索技术应用已经极少。 中截断:把截词符放在词的中间。如organi?ation,可检索organisat

26、ion、organization。这种方式查找英美不同拼法的概念最有效。65截词检索续举例符号:*,?,$后截断:librar* library, libraries, librarian,前截断:*magnetic magnetic, electro-magnetic, electromagnetic, thermo-magnetic, 中截断:organi?ation organization, organisation66截词检索续截词类型:根据截断的数量不同,分为有限截断和无限截断。无限截断:不限制被截断的字符数量,例如输入educat?,可以检索educator,educators,

27、educated,educating,education,educational,等等。 有限截断:限制被截断的字符数量,例如输入educat*,表示被截断的字符只有两个,可以检索educator,educated两个词。 673. 字段限定检索技术(field limit)限定检索:为了提高检索的查准率,缩小检索的范围 ,将检索词限定在特定的字段中进行检索。限定字段通常包括:TI-篇名AB-文摘SH-主题词 AU-著者Cs-著者单位DT-文献类型JN-期刊名 LA-语种PY-年份 CC-分类号KW-关键词常用检索字段符682.4 信息检索的方法与步骤2.4.1 信息检索方法2.4.2 信息检

28、索步骤2.4.3 信息检索效率 692.4.1 信息检索方法1. 顺查法2. 倒查法3. 抽查法4. 追溯法5. 循环法701、顺查法 是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。 例如,某课题的起始年代,现在需要了解其开展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。 优点是查全率高,缺点是费工费时。71 2、倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。 此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。 优点是节约时间,缺点是漏检率较高。72 3、抽

29、查法是指针对课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。 能以较短时间获取较多的文献,但前提是必须熟悉该课题的学科开展。73 4、追溯法 是指不利用一般的检索系统,而是利用文献后所列的参考文献,逐一追查原文被引用文献,然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围,一环扣一环地追查下去的方法。它可以像滚雪球一样,依据文献间的引用关系,获得更好的检索结果。 74 5、循环法交替法又称分段法或综合法。 它是分期交替使用前4种方法,以期取长补短,相互配合,获得更好的检索结果。 75 2.4.2 信息检索步骤1. 分析检索课题2. 选择检

30、索系统 制定检索策略 拟定检索表达式并实施检索 评价检索结果并调整检索策略 获取原始文献并整理检索结果761. 分析检索课题课题分析是信息检索的根底,分析得是否全面透 彻,是检索能否取得成功的关键。分析课题,首先应分析信息需求、确定检索要求。信息需求是检索的出发点,信息需求不同,检索要求不同,对检索效果的评价标准也不同。分析课题,主要是分析该课题的学科范围、主题内容、目的,了解背景知识和课题涉及的各种名词术语及其相互关系,确定检索结果的时间范围、文献类型、文种和需要的数量等。772. 选择检索系统检索系统种类繁多、各具特色,收录范围各有测重。了解:常用检索系统的学科和主题,收录的时间范围、文献

31、类型、来源、国别、语种,读者对象、更新周期、系统中文献著录格式或记录格式等等。选择:通过检索系统的简介和帮助文件、各种“指 南 ,图书馆的参考指导信息等来指导选择。 应当在课题分析的根底上,根据课题的特点、信息需求、检索目的, 选择专业对口、覆盖范围广、更新及时、内容准确权威、检索功能完备的检索系统。 783. 制定检索策略确定检索途径和检索方法确定检索途径一般信息检索都根据文献的内部特征和外部特提供多种检索途径,包括分类、主题、著者、机构等。 应根据课题要求和系统所提供的检索途径来确定。当检索课题内容涉及面广,文献需求范围较宽,泛指性较强时,宜选用分类途径;当课题内容较窄,文献需求的专指性较

32、强时,宜选用主题途径;检索时可以根据需要结合使用几种方法,以提高查全率。确定检索方法常用检索方法有常规法、追溯法、综合法三种。分别应用于不同的检索目的和检索要求,可以综合运用各种检索方法,以到达更好的检索效果。794. 拟定检索表达式并实施检索检索词要准确、全面地表达课题内容,不能太大也不能太小;如果检索系统使用的是标准化检索语言,应当依据该检索系统采用的词表或分类法,将需要检索的概念用标准化的语言表达出来。系统如果是采用自然语言标引的,应当尽量全面地选取相关的词与词组作为检索词,以免漏检。当检索课题包含较复杂的主题内容时,应明确所需检索的概念及其相互关系,在确定检索词后,根据检索词之间的关系,用系统支持的算符以及提供的各种选项,将这些词组配起来形成检索提问式,以充分表达信息需求, 805. 评价检索结果并调整检索策略检索效果评价是根据一定的指标对信息检索活动取得的成果进行客观科学评价,以进一步完善检索工作的过程。主要的评价指标是:查全率和查准率。查全率和查准率具有互逆关系。理论上,一般查全率在60%-70%之间,是检索的最正确效果。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论