信息检索-第一章课件_第1页
信息检索-第一章课件_第2页
信息检索-第一章课件_第3页
信息检索-第一章课件_第4页
信息检索-第一章课件_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

INFORMATIONRETRIEVAL信息检索

主讲人:朱末霞信息检索-第一章第一节信息检索及其类型第二节检索语言第三节检索技术第一章信息检索基础知识信息检索-第一章第一节信息检索及其类型一、信息检索的必要性二、信息检索的概念三、信息检索的类型信息检索-第一章一、信息(文献)检索必要性

科技人员必备的基本技能

知识更新的手段能力的培养一个科研人员的时间分配表查资料50%写报告10%实验研究30%计划思考10%信息检索-第一章二、信息检索概念

信息检索:是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。信息检索存储检索存储:是对信息进行著录、标引、整序,编制检索工具和建立检索系统的过程。检索:是指面向信息需求而进行高度选择性的查找过程。信息检索-第一章原始文献加工整理数据库提问检索输出存储检索信息检索-第一章三、信息检索的类型(一)按检索对象和目的划分1、数据检索

是以数据为检索对象,检索的结果是经过测试、评价过的各种数据、可直接用于分析和研究。2、事实检索

是以具体事项为检索对象,检索结果是有关某一事物的具体答案。LOGO信息检索-第一章3、书目检索以标题、作者、来源出处、专利号等为检索对象,检索结果是与课题相关的一系列书目信息线索,用户通过这些线索决定取舍和进一步获得的手段。4、全文信息检索是以论文、著作、报告或专利说明书的全文为检索对象,检索结果是与课题相关的论文或专利说明书的全文文本。信息检索-第一章(二)按信息检索手段划分1、传统信息检索

就是手工信息检索,是利用各种印刷型检索工具查找文献的一种方法。2、现代信息检索

现代信息检索即计算机信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式信息检索-第一章

1、直接检索

就是指利用一次文献进行检索,这是以前比较常用的一种查找方法。所花时间多和精力大,检出文献少。2、间接检索就是指利用各种检索工具获得文献线索,再根据线索去查找原始文献的方法。(三)按是否使用检索工具划分信息检索-第一章第二节信息检索语言一、检索语言的含义及作用二、检索语言的类型信息检索-第一章一、检索语言的含义及作用检索语言:是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。

作用:

1、保证不同标引人员表达信息概念的一致性

2、保证检索提问与文献标引的一致性

3、保证文献存储的集中化与系统化

4、为检索系统提供多种检索途径信息检索-第一章二、检索语言的类型检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名责任者号码文献类型分类语言主题语言标题词语言叙词语言单元词语言关键词语言引文语言信息检索-第一章1、分类语言用分类号和相应的分类款目名称来表达信息内容的主题概念,并按学科体系的逻辑次序将信息资源系统地加以划分和组织的语言。

中国图书馆图书分类法

国际十进分类法杜威十进位分类法

IPC国际专利分类法

新编管理信息系统/杜栋编著C931.6/7.1102信息检索-第一章2、主题语言以名词性术语作为概念标识,按字母顺序编排的检索语言。主题词汇通过参照系统灵活揭示词汇之间的关系。主题语言按照主题性质的不同,又分为标题词语言、叙词语言、单元词语言、关键词语言和引文语言。信息检索-第一章主题词语义参照系统参照项含义简称符号英文简称英文全称用项同义词(正式主题词)用YUSEUse代项同义词(非正式主题词)代DUFUsedFor分项狭义词分FNTNarrowerTerm属项广义词属SBTBroaderTerm族项族首词族ZTTTopTerm参项相关词参CRTRelatedTerm

Zábōgānrăo

杂波干扰[56MB]NoisejammingY噪声干扰非正式款目主题词汉语拼音范畴分类号英译名关系词参照符号

Zàoshēnggānrăo

噪声干扰[56MB]NoisejammingD杂波干扰

F瞄准式干扰扫频干扰阻塞式干扰

S通信干扰有源干扰

Z电子对抗*

C连续波干扰脉冲干扰调制干扰汉语拼音范畴分类号英译名参照符号关系词正式主题词Diànzĭduìkàng

电子对抗*

·通信对抗

··通信干扰

···脉冲干扰

···欺骗性干扰

···载波干扰

···噪声干扰

····扫频干扰

····阻塞式干扰

··通信抗干扰信息检索-第一章标题词语言

是从文献的题目和内容中抽出来,经过规范化处理的主题语言。叙词语言

是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。单元词语言

从信息内容特征中抽取出来的,经过规范化处理且只表达唯一独立概念的最基本的,不能再分的单元词语。信息检索-第一章关键词语言直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。引文语言

就是利用文献信息之间的相互引证关系作为文献内容主题标识,并以此标引和检索文献而建立的检索语言。信息检索-第一章第三节检索技术一、概念检索二、布尔逻辑运算符组配检索三、截词检索四、字段限制检索五、位置运算符六、检索策略与效果信息检索-第一章一、概念检索检索标识是具体的检索词或词组,每个检索词表达一个概念,具体检索时,将检索词与数据库中的文献特征标识进行类比,两者相同,则该记录为命中文献。信息检索-第一章二、布尔逻辑算符组配检索布尔逻辑组配运算是采用布尔代数中的逻辑“与”、逻辑“或”、逻辑“非”等算符,将检索提问式转换成逻辑表达式,限定检索词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所规定条件的文献,既为命中文献。信息检索-第一章

布尔逻辑运算符————————————1、逻辑“或”2、逻辑“与”3、逻辑“非”信息检索-第一章

1、逻辑“或”—————————————————AB用符号“or”或“+”表示,其逻辑表达式为:

AorB或A+B

其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A和B的,均为命中文献。信息检索-第一章

2、逻辑“与”————————————————AB用符号“and”或“*”表示,其逻辑表达式为:

A*B或AandB

其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。信息检索-第一章

3、逻辑“非”

————————————————AB用符号“not”或“-”,其逻辑表达式为:

AnotB或A-B

其意义为检索记录中含有检索词A,但不能含有检索词B的文献,才算命中文献。信息检索-第一章布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT>AND>OR例:检索“唐宋诗”的有关信息。关键词:唐、宋、诗;检索表达式:(唐+宋)*诗;(唐*诗)+(宋*诗);错误表达式:唐+宋*诗;唐*宋*诗;唐+宋+诗;唐*宋+诗;作业:查找有关鲤鱼或草鱼生病的治疗,但不包括“出血病”方面的文献信息检索-第一章三、截词检索

截词检索

又称词干检索、模糊检索。主要应用于西文数字资源的检索,检索系统不同,截词符也不同,一般用“?”、“*”、“#”等表示。

1、后截词

将截词符放在词根后面,前方一致,最常用的截词方式。主要用在词的单复数、年代、作者、查同根词等情况。如:comput*将检索出computer、computing、computerized、computerization等结果

2、前截词

将截词符放在词根的前面,后方一致。多见于复合词较多的文献检索。如:*physics就可检索到physics、biophysics、geophysicschemicophysics等词的结果。

信息检索-第一章

3、中间截词将截词符置于检索词中间,词的前后方一致。该方式能解决英美拼法不同单词的书写或有些词在某个元音位置上出现的单复数的不同拼写。如:organi?ation可检索organisation、organization;defen?e可检出defence和defense的结果;h?hai(可代替hehai,hohai)

截词检索在不同的计算机检索系统中规定不同,请使用时注意。信息检索-第一章四、字段限制检索

为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。如:riceinti(表示只在题目字段中查找文献)

riceinab(只在文摘中查找)

AU=Smith,J.C(查作者为Smith,J.C的文章)PY=1998(只查1998年的文章)LA=Chinese(只查语种为中文的文献)信息检索-第一章五、位置运算符(W)算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control相当于检索Biologicalcontrol;CD(W)ROM相当于检索CDROM或CD-ROM。

(nW)算符

(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wearmaterials、wearofmaterials等信息检索-第一章(N)算符(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。如:information(N)retrieval可检出:informationretrieval和retrievalinformation。(nN)算符

(nN)表示两词间可插入最多n个词,词序可变。如检索式environment(2N)protection就可检索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”。五、位置运算符信息检索-第一章1、检索策略检索策略是指为实现检索目标制定的全盘计划和方案,是在分析检索信息需求的基础上,选择适当的数据库并确定检索途径和检索词,确定各词之间的逻辑关系与检索步骤的一种计划或思路,以制定出检索表达式并在检索过程中修改和完善检索表达式。

LOGO六、检索策略和检索效果信息检索-第一章2、信息检索效果评价检索效果(retrievaleffectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,也涉及实施检索的人所能发挥检索系统的最大能力包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recallratio)和查准率(precisionratio),分别用R和P大写字母表示。信息检索-第一章

查全率指的是检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

检出相关文献量查全率=×100%

文献库内相关文献总量查准率指的是检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。

检出的相关文献篇数查准率=×100%

检出的全部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论