版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索与利用》
第2章信息检索基础知识
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1信息检索的基本概念1.1信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件信息存储和检索过程的基本原理
输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具以及从检索系统或工具中检索所需信息的过程。1.2计算机信息检索April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理
计算机信息检索的基本原理April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1.3信息检索的类型按信息检索的内容划分文献检索数据检索事实检索概念检索按信息检索的组织方式划分全文本检索多媒体检索超文本检索超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。
WWWApril15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
2信息需求类型及特点
信息需求可以简单地理解为人们为了了解某类事物的属性以达到某种特定目的,由此而产生的了解相关信息的一种需要。因为目的不同,信息需求不同,而导致检索行为的不同。文献信息需求
文献信息需求以获得一定的文献原文来满足人们的信息需要。这种需求需要利用提供原始文献或提供原始文献线索的检索工具。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1.知识学习新、成熟、权威2.写论文需要的文献信息主要是要求能给论文帮助的新的、有代表性的文献信息。检索上不求全。3.科学研究需要的文献信息要求能全面、系统地掌握某一阶段内相关的全部文献信息。检索上允许一定的误检,不允许漏检。4.解决某种具体问题需要的文献信息要求文献种能提供相同或相似情况下的解决方法。检索上强调准确性,只求对解决问题的帮助,没有量上的要求。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件非文献信息需求
非文献信息需求以获得一定的有关事实或数据来服务人们。这种检索通常利用能直接提供事实或数据的工具来检索。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3检索语言
检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。
检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。
——在存储的过程中用于标引信息称为标引语言;
——用于编制索引就称为索引语言;
——用于信息检索则称为检索语言。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3.1检索语言的种类
分类语言(classificationlanguage)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题语言(subjectlanguage)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(codelanguage)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件检索语言的类型描述内容特征语言主题语言自然语言受控语言分类语言描述外表特征语言代码语言责任者题名其他关键词语言——(keyword)标题词语言——(heading)单元词语言——(uniterm)叙词语言——(descriptor)April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类语言
分类语言是按照一定体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂的逻辑次序逐级展开。主题分类语言
其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非
常有利。
科学分类语言
学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。优势:类目容量大,内容针对性、学术性更强,符合族性检索的要求。图书分类语言
目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法)
专利分类表April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类:(22个)
A马列主义毛泽东思想邓小平理论N自然科学总论
B哲学O数理化科学
C社会科学总论P天文学、地理
D政治、法律Q生物科学
E军事R医学、卫生
F经济S农业科学
G文化、科学、教育、体育T工业技术
H语言、文字U交通运输
I文学V航空、航天
J艺术X环境科学
K历史、地理Z综合性图书
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法F经济
F1世界各国经济概况、经济史、经济地理
F11世界经济、国际经济关系
F12中国经济
F13/17各国经济
F2经济计划与管理
F20国民经济管理
F21经济计划
F22经济计算、经济数学方法
F23会计
F239审计
F24劳动经济
F25物资经济
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件F27企业经济
F29城市与市政经济
F3农业经济
F4工业经济
F7贸易经济
F72中国国内贸易经济
F73世界各国国内贸易经济
F74国际贸易
F75各国对外贸易
F8财政、金融
F81财政、国家财政
F82货币
F83金融、银行
F84保险
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法
T工业技术
TB一般工业技术TL原子能技术
TD矿业工程TM电工技术
TE石油、天然气工业TN无线电电子学、电讯技术
TF冶金工业TP自动化技术、计算机
TG金属学、金属工艺TQ化学工业
TH机械、仪表TS轻工业、手工业
TJ武器工业TU建筑科学
TK动力工程TV水利工程
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。
——字母部分按英文字母固有的次序排列。例:
B2中国哲学
B3世界哲学
E27各种武装力量
E512苏联军事
TM92电气化、电能应用
TU201建筑设计原理
——分类号中的阿拉伯数字依小数制排列。例:
B021辩证唯物主义的物质论
B022辩证唯物主义的意识论
B022.2客观规律性与主观能动性
D035.37交通公安管理
D035.4监察、监督分类号的排列次序
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类号的排列次序
(续)
——数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:
TP312ALALGOL程序语言
TP312BABASIC程序语言
TP312COCOBOL程序语言
——总论复分号“-”要排在数字“0”的前面。例:
H-61,H0,…,H31-61,H310,…——总论复分号“-”要排在组配符号“:”的前面。例:
H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。
——不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分类号和索书号April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件重新排列以下索取号的顺序TP3/1044
TP3-43/3060TP311.13/1713
TP311.13/9091
TP393/4027
TP393/7732
TP393-43/4723
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件主题语言
①关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。②标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”来叙述,第三篇文章用“微机”来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件主题语言
③单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。例如:“计算机”、“软件”、“固相”、“相”。④叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件主题语言
主题语言(标题词、单元词、叙词)的规范化处理:①词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。②词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。③词形规范:即对词的繁简体、词序、字母符号等的规定。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物及其相关的信息。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。例如:如有人输入:howtocontroldriversofharddisk,检索系统会自动提取检索词,然后进行过滤和检索。注意:Google和专业数据库的检索语言区别。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
3.3检索方法及检索途径
3.3.1检索方法
查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种方法,无论是计算机还是手工检索,都是常用的方法。
“拉网法”
在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、方法,具有启发意义。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引,如《科学引文索引》、《社会科学引文索引》。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询,其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件常规法
所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3.3.2信息检索的途径所谓检索途径就是检索时切入信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件检索语言与检索途径的关系
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类检索
这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。分类检索的要点:1。对待检课题的概念及学科间的各种关系清楚;2。正确掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类检索的步骤:1.分析待检课题,确定其学科,并弄清学科间的
各种关系。2.查出待检课题的分类号(工具简单时可以省略)3.选择适当的检索工具4.进入检索系统后选择分类号途径,并在对话框内
输入分类号,开始检索。5.对比题目,阅览相关信息,选出所需信息,并下
载相关信息6.原文的索取April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件词汇检索
与分类号检索相比,词汇检索具有直观、灵活、专指性和适应性好的特点,同时检索速度也比分类检索快。
词汇检索的要点:首先是要选好检索词,正确理解词间关系,检索中还要注意词间关系的正确表达。常用的词汇检索有关键词检索和主题检索。计算机检索时,选择任意字段检索时,检索项也可以是各种词汇。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
词汇检索的步骤:
a、分析课题,确定检索词及词间关系
b、选择适当的检索工具
c、选择词汇检索途径,在对话框内输入检索词
(注意词间关系的表达)
d、根据快捷显示,选出有用信息并下载。
e、原文的索取April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件责任者途径:①姓前名后,名缩写;②姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如DeLeferore,AlfredVonKampf;③团体机构名称名按名称字顺排。号码途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号,专利说明书的专利号,科技报告的报告号,学会的会议论文连续号,或合同号、任务号、国际标准书号(ISBN)、国际标准刊号(ISSN),以及文献收藏单位编的馆藏号、索取号、排架号等,都可以此作为检索点。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件其他检索途径1、题名检索
包括书名、刊名、篇名和其他信息的标
题等2、机构3、来源4、其他特殊途径April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件4常用的检索技术
检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、邻近、限定的比较和运算处理技术。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件布尔检索布尔检索(booleanretrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件逻辑“与”具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示(少数工具用“+”或空格表示)。
检索词A和检索词B用“与”组配,检索式为:
AANDB,或者A*B它表示检出同时含有A、B两个检索词的记录。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件逻辑“或”逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示(也有用“|”或“/”表示)。检索词A和检索词B用“或”组配,检索式为:
AORB,或者A+B它表示检出所有含有A词或者B词的记录。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件逻辑“非”
逻辑“非”是一种具有概念排除关系的组配,用“–”或“NOT”算符表示。检索词A和检索词B用“非”组配,检索式为:
ANotB,或者A-B它表示检出含有A词,但同时不含B词的记录。
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
截词检索
截词检索(truncationretrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。由于西文的构词特性:单复数形式不一致、英美拼写不一致、词干+前缀、词干+后缀。检索时,计算机会将所有含有相同部分标识的记录全部检索出来。在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。按截断的位置来分;按截断的字符数量来分。截词符多采用通配符“?”、“$”、“*”等,因此,截词检索有时也称为通配符(wildcard)检索。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件后截断中截断前截断无限截断如:economic???有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般仅允许有限截断如:?lish
sul*ursulfursulphur无限截断有限截断前后截断如:?computer?可检出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
邻近检索(proximityretrieval),又称为“位置检索”、“词位检索”、“全文检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。邻近检索
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件(W)与(nW)算符
(W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如:输入gas(W)condensate可检索出包含gascondensate和gas-condensate的记录。(nW)算符是“nWords”的缩写,表示此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。例如:laser(1W)printer可检索出包含“laserprinter”、“lasercolorprinter”和“laserandprinter”的记录。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件(N)与(nN)算符
(N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒,即查找两个连在一起的单词,但两词之间不能插入任何词。例如:money(N)supply可检索出包含moneysupply和supplymoney两个词组的记录。(nN)
算符是“nNear”的缩写,表示此算符两边的检索词之间插入词的最多数目是
n
个,且两个检索词的次序可以任意颠倒。例如:economic(2N)recovery可以检出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的记录。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件(S)算符
(S)算符是“Sub-field/Sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中检索出含有“highstrength和steel”形式的均为命中记录。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件(F)算符
(F)
算符是“Field”的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的统一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。要求被连接的检索词出现在统一的字段中,字段类型和词序均不限。例如:environmental(F)impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件字段限定检索
使用邻近检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。使用截词检索,简化了布尔检索中的逻辑“或”功能,但并没有改善布尔检索的性质。字段限定检索(fieldlimitingretrieval)是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件
例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。在互联网搜索引擎中,限定字段也是常用的语法。例如,“filetype:”表示在某种文件类型(如doc、pdf)中查找资料。详细的介绍请参见搜索引擎部分。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件5信息检索的基本步骤
分析检索课题1.主题概念2.信息类型3.时间范围4.检索目的构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式调整检索策略(正式检索)1,信息量过多时2.信息量太少时输出检索结果1.文摘2.全文选择检索系统1.学科范围2.系统类型3.系统功能
确定检索词
1.切分2.删除3.替补4.组合5.增加用户评价
April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1分析检索课题
例如:查找有关消防的文献。所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的)需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类型)需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围)——需要系统地掌握某学科的知识,可以选择图书;——需要撰写研究项目的开题报告、论文,开展技术攻关,可以选择研究报告、科技论文、学位论文、会议文献等;——需要进行发明创造、工艺改革、新产品设计、引进设备、签订合同,可以选择专利说明书、标准文献、产品资料等。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2选择检索系统
学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。例如,石油和矿业工程的力学计算方面的课题,也可以考虑数学、物理学、计算机信息科学、机械工程方面的数据库。扩大检索系统的学科范围有时会带来意外的收获。系统类型。首先,在不同的文献类型系统中选择。其次,要在文摘、索引系统和全文数据库系统之间选择。第三,在专业性数据库中去查找。系统功能。一般说来,使用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3确定检索词
1.切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院”、“电子邮件”不可再切分。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件确定检索词2.删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究”。例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件确定检索词3.替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severeacuterespiratorysyndrome);“非常规天然气”(nonconventionalnaturalgas)应考虑补充:煤层气、(天然气)水合物、页岩气、深层气、致密岩气、水溶气、沼气,同时考虑将“气”应替换为:天然气(naturalgas)、甲烷(methane)、CH4
、CH4;含硫气田的“硫”应考虑补充:sulfur、sulf*、sulfur*、sulphur、sulphur*、H2S、H2S,同时考虑将“硫”替换为:硫化氢(sulfuredhydrogen)、含硫化合物(sulfurcompound)。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件确定检索词4.组合
①概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。②概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化=数字电视机。以上两种组配方式,所得到的新概念,都是原组和概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高检准率的目的。③概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。④概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件确定检索词5.增加增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑“非”的方法增加限义词。分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。例3:检索“一种新的天线阵方向图综合方法”课题。切分:一种|新|的|天线阵|方向图|综合|方法;删除后得:天线阵、方向图;根据主题词表分析,增加上位词可得主题词:互耦、偶极子、输入阻抗等。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件确定检索词从上述四个实例可以看出,提取检索词首先是切分、删除,其次是进行替补、组合和增加。在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件4构造检索式(试验性检索)
所谓的检索提问式(query,searchformulation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件构造检索式(试验性检索)简单提问式——含一个检索词的提问式;上下文提问式——精确短语或近似精确短语的提问式,也可称为短语提问式;复合提问式——含有布尔算符和至少2个检索词的提问式;结构性提问式——含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。例4:地震序列分析的工具和方法研究要完成本项检索课题,必须使用结构性提问式:((((sequenceanalysis)WNTI)AND((method*ORtool*ORinstrument*)WNAllfields))AND((seismic)WNAllfields))
。检索式“WNTI”意为限在TI(标题)字段中检索,可提高检索的准确性和相关度。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件5调整检索策略(正式检索)
所谓检索策略(searchstrategy)就是为完成检索课题,实现检索目的,对检索的全过程进行谋划之后所制定的全盘检索方案。检索策略的制定过程就是检索提问式的不断完善的过程,使用最初的检索提问式是试验性检索,使用调整后的完善检索策略提问式是正式检索。April15,2024北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件调整检索策略(正式检索)1.当检索结果信息量过多时原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。考虑缩小检索范围,方法如下:(1)采用专指性强的主题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版门窗行业智能化升级改造合同3篇
- 2025年度模板木枋出口业务合同模板3篇
- 二零二五版借贷房屋买卖合同解除与终止合同4篇
- 美容院美容培训学校二零二五年度师资引进合同4篇
- 二零二五年度口罩生产设备居间引进合同范本3篇
- 二零二五年度品牌疫情防控物资采购与配送服务合同规范4篇
- 二零二五年度插画版权转让及衍生品开发合同
- 二零二五年度外汇贷款贷前调查合同范本
- 二零二五年度图片版权交易下载服务协议
- 2025年建筑工程施工合同合同履行中的变更与补充协议2篇
- 2025-2030年中国草莓市场竞争格局及发展趋势分析报告
- 第二章《有理数的运算》单元备课教学实录2024-2025学年人教版数学七年级上册
- 华为智慧园区解决方案介绍
- 奕成玻璃基板先进封装中试线项目环评报告表
- 广西壮族自治区房屋建筑和市政基础设施全过程工程咨询服务招标文件范本(2020年版)修订版
- 人教版八年级英语上册期末专项复习-完形填空和阅读理解(含答案)
- 2024新版有限空间作业安全大培训
- GB/T 44304-2024精细陶瓷室温断裂阻力试验方法压痕(IF)法
- 年度董事会工作计划
- 《退休不褪色余热亦生辉》学校退休教师欢送会
- 02R112拱顶油罐图集
评论
0/150
提交评论