第一讲信息检索原理_第1页
第一讲信息检索原理_第2页
第一讲信息检索原理_第3页
第一讲信息检索原理_第4页
第一讲信息检索原理_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程性质1、一门技术,一门素质教育课。2、操作性强。3、实用性强。核心提高信息素质!第一页,共90页。信息素质信息意识信息能力信息道德第二页,共90页。教材书名:信息检索与利用·工学主编:汪育健吕先竞邓发云世界图书出版公司第三页,共90页。教学安排总学时:24学时上机实习:16学时考查成绩:平时:30%、考核:70%考核方式:围绕一个课题(自拟或命题)进行多种信息资源的检索,并提交检索报告。第四页,共90页。第一讲

科技信息与检索原理第五页,共90页。第一章信息与文献信息与文献信息的类型第六页,共90页。第一节信息与文献信息人们对外部世界感知、认识过程之中的一切数据、事实和消息。自然界与人类社会存在的事实与变化及人类对它们形成的认识和创造是信息的内容组成;载体记录和媒体传播是信息的存在形式。第七页,共90页。知识人们对事物运动现象和规律的认识。是升华为理性认识的信息。文献文献是记录有知识的一切载体,是信息最主要的一种物化形式。知识、载体和记录是构成文献的三个要素。第八页,共90页。第二节信息资源及其类型从不同的角度出发有不同的分类方法。按记录形式划分按组织形式划分按载体制作形式划分按文献出版形式划分按文献时序形式划分第九页,共90页。一、按记录形式分1.文字类信息资源。主要用文字记录的信息资源。可再分为汉文、藏文、英文、法文、德文、日文、俄文信息资源。2.图表类信息资源。主要用图、表记录的信息资源。如各种图形、图谱、图片、图纸、图画、图表等。3.代码类信息资源。用特定的符号、代码记录知识。如乐谱、电报码、数学符号、化合物的代号、软件源程序等等。4.语音类信息资源。用声音记录的信息资源。第十页,共90页。5.影像类信息资源。用影像记录信息资源。6.多媒体信息资源。既用文字、图、表、特定符号,也用声音、影像等记录知识。是集文字、声音、影像于一体的信息资源。7.数字化信息资源。用数码设备将所有文字、图、表、特定符号、声音、影像等均转化为“0”、“1”数码存取,实现各种形式的信息资源数字化。第十一页,共90页。二、按知识组织形式划分1.文本信息资源。信息资源(如一种图书)内知识各单元按线形顺序排列。2.超文本信息资源。信息资源(仍如一种图书)内各知识单元间、及其信息资源内各知识单元与信息资源外相关各知识单元间的关系呈网络结构,通过链接把有关的信息(包括文字、图片、图形、表格等)联结起来。3.超媒体信息资源。是多媒体信息资源与超文本信息资源的结合。信息资源集文字、声音、图像于一体,某一信息资源内各知识单元间、及其信息资源内各知识单元与其外相关各知识单元间采用超文本方式链接。第十二页,共90页。三、按载体制作形式划分1.刻写型包括古代的甲骨卜辞、金石简牍、帛书等,也含现代的篆刻、雕刻、雕塑等等。2.印刷型也称纸介型,是以纸张为载体,以手写和印刷技术为记录手段形成的文献。

第十三页,共90页。3.缩微型以感光材料为载体,利用光学技术将文字、图形、影像等信息符号按比例缩小的文献形式。常见的缩微型文献有缩微平片和缩微胶卷两种。第十四页,共90页。4.声像型亦称视听型,指通过特定设备,使用声、光、磁、电等技术将信息表现为声音、图象、影视和动画等(sound,image,video&animation)形式,给人以直观、形象的感受。5.电子型其前身称机读型(machinereadableform),它通过计算机对电子格式的信息进行存取和处理。即采用高技术手段,将信息存储在磁盘、磁带或光盘等媒体中,形成多种类型的电子出版物。第十五页,共90页。6.网络信息资源利用计算机技术、通信技术及多媒体技术相互融合而形成的网络上出版、流通和传播的各种信息资源的总和,是电子出版的高级形式。从网络信息资源的使用形式上来看,网络信息资源的类型目前又可以分为两种:一是产生时期较早的联机检索系统中的信息资源;二是因特网信息资源。第十六页,共90页。四、按文献形式划分1.图书图书主要包括专著、教科书、工具书、图册、读物和文集等。联合国教科文组织1961年规定:5~49页印刷品为小册子,50页以上印刷品为图书。

第十七页,共90页。2.期刊又称连续出版物,指有固定名称、统一开本、有编号或年月标志、定期或不定期连续出版、每期内容不重复并由多名责任者撰写不同文章的出版物,又称为杂志。第十八页,共90页。3.报纸报纸(Paper,Newspaper)在国外被称为新闻报纸。专门刊载新闻报道和时事评论为主的定期出版物;但有些报纸同时也刊载学术论文和其它信息。第十九页,共90页。4.会议文献在学术会议上宣读或书面交流的报告、论文、会议记录、会议纪要等有关资料。各种学术会议,是科学交流的一条重要渠道,是科学工作者了解学科发展动态,获取学科最新信息的窗口。第二十页,共90页。5.学位论文学位论文是指为申请学士、硕士、博士等学位而提交的学术论文。第二十一页,共90页。6.政府出版物指国家政府机关颁布的各种文件,如政府公报、政府会议文件、法律汇编、条约集、公告等,国家党政机关为开展日常工作而印刷的文件、参考资料也属此类。第二十二页,共90页。7.标准文献是以科学、技术和社会实践经验的综合成果为基础拟定,经主管机构批准,以特定形式发布的对重复性事物和概念所作统一规定的法定性文献。第二十三页,共90页。8.科技报告科技报告是指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。报告的出版特点是各篇单独成册,统一编号,由主管机构连续出版。在内容方面,报告比期刊论文等专深、详尽、可靠,是一种不可多得的信息源。第二十四页,共90页。四大报告PB报告(PublishingBoard)AD报告(ASTIADocuments)NASA报告(NationalAeronaticsandSpaceAdministration)DOE报告(DepartmentofEnergy)。科技报告主要在情报所或收藏科技报告的院校、研究所图书馆查阅。九院收藏有大量的科技报告。第二十五页,共90页。9.专利文献与专利制度有关的所有专利文件,包括专利说明书、专利公报、专利分类表、专利检索工具以及专利的法律性文件。专利说明书应在国家专利局或收藏专利文献的情报所查阅。四川省情报所收藏国内外专利。第二十六页,共90页。专利文献主要由专利说明书构成。专利说明书的内容比较具体,有的还有附图,通过它可以了解该项专利的主要技术内容。由于只有符合新颖性、创造性和实用性的发明创造才能获得专利权,所以专利说明书对于工程技术人员,特别是产品工艺设计人员来说,是一种切合实际、启迪思维的重要信息源。第二十七页,共90页。10.档案指各级政府机构、企事业单位和某些个人在实践工作中形成立卷归档、集中保管、有历史价值的原始文献资料,它是科技、政治、经济、历史的真实记录,是科技工作者进行科研的重要参考资料。第二十八页,共90页。11.产品技术资料指产品目录、产品样本和产品说明书一类的产品宣传和使用资料。其内容主要是对产品的规格、性能、特点、构造、用途、使用方法等的介绍和说明,所介绍的产品多是已投产和正在行销的产品,反映的技术比较成熟,数据也较为可靠,内容具体、通俗易懂,常附较多的外观照片和结构简图,形象、直观。第二十九页,共90页。

第二章

信息检索原理第三十页,共90页。信息检索概念信息检索类型信息检索手段检索工具检索语言检索途径检索步骤第三十一页,共90页。第一节

信息检索的概念信息检索(InformationRetrieval)将信息按一定方式组织和存贮

起来,并针对用户的需求找出所需要的信息的过程。21又称为“信息存贮与检索”(InformationStorageandRrtrieval)。第三十二页,共90页。信息源信息分析、著录、标引信息的表示检索语言用户需求分析

用户检索提问匹配过程输出检索结果数据库第三十三页,共90页。“匹配”模型。由文献特征构成的文献检索标志被认为完全反映了文献内容,而由提问特征构成的检索提问则反映了信息用户需求,因此二者的匹配程度就是文献的相关程度,相关文献就是在某种程度上匹配的文献第三十四页,共90页。第二节信息检索类型文献检索事实检索数据检索第三十五页,共90页。数据检索事实检索文献检索参考工具搜索引擎书目、文摘类数据库搜索引擎第三十六页,共90页。第三节

信息检索手段手检机检检索方式优点

缺点人工查找利用计算机等通信设备直观、灵活速度快,效率高查准率高查全率高速度慢成本费用高第三十七页,共90页。第四节信息检索工具载体分书刊型卡片型缩微型计算机光盘数据库联机数据库网络数据库著录信息特征分目录题录文摘参考工具书全文数据库搜索引擎一、概念存储、报道和检索信息的工具第三十八页,共90页。(一)手工检索工具结构检索工具使用说明目次表正文辅助索引附录二、检索工具的结构第三十九页,共90页。数据库字段记录文档帮助顺排文档倒排文档(二)计算机检索工具结构第四十页,共90页。第五节信息检索语言检索语言是用于描述信息的内部特征和外部特征及其表达信息用户需求的一种专门语言。按内容性质分为分类语言和主题语言。第四十一页,共90页。较有影响的有:《中国图书馆图书分类法》简称《中图法》《国际十进分类法》《杜威分类法》等。一、分类语言:将各种概念按学科性质进行分类和系统排列。有利于系统掌握和利用某一专业范围的信息。第四十二页,共90页。《中国图书馆图书分类法》大类A马列主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书第四十三页,共90页。TP31类细分TP31计算机软件311程序设计、软件工程312程序语言、算法语言313汇编程序314编译程序、解释程序315管理程序、管理系统316 操作系统 .1 分时操作系统 .2 实时操作系统 .3 批处理第四十四页,共90页。二、主题语言直接以代表信息内容特征和科学概念的概念词作为检索标识,并按字顺组织起来的一种检索语言。分为规范主题语言与非规范主题语言第四十五页,共90页。第六节

信息检索的途径指用户进行信息检索的出发点和依据。

由信息的内部特征和外部特征构成的。分类途径和主题途径著者、名称、机构、号码等等第四十六页,共90页。

一、根据文献内容特征的检索途径分类途径以学科性质和内容的相应类目、类号为特征标识的检索方法。检索时根据所需课题内容的学科属性,利用相应检索工具的“分类目录”或“分类索引”检索到相关信息内容。第四十七页,共90页。主题途径根据学科内容的主题性质而进行的检索,检索入口能反映所需课题的主题词。注意利用词表利用概念之间的属种关系和相关关系统第四十八页,共90页。关键词途径把表达信息主题内容起关键作用的词组或单词抽取出来,编制成“关键词”索引,利用它查找所需信息。关键词是一种很灵活的词组或单词,它不需规范化词表,使用比较方便。在计算机检索系统中应用较广。第四十九页,共90页。二、根据文献外部特征的检索途径著者途径利用著者(个人或单位著者)目录和著者索引进行检索的途径。题名途径利用信息的题名查找所需信息的方法。题名包括篇名、图书名、刊名、标准名、文档名、数据库名等等检索时可使用“题名索引”或“题名目录”,在计算机检索系统中应用较多。第五十页,共90页。机构途径通过机构名称获取相关信息的方法。机构名称包括著者所在单位、图书或期刊的出版社或发行单位名称等等。代码途径利用信息的代码获取相关信息的方法。包括专利号、报告号、合同号、电子元件型号、标准书号、标准刊号、馆藏号、文档号、IP地址代码等第五十一页,共90页。信息源类型途径将具体信息所属的选定信息集合的类型作为检索入口的方法。其它途径根据某些信息的特殊标识进行检索的方法。包括化学分子式、地域名称、生物属种、图案色彩、声音强度等等。第五十二页,共90页。第七节

信息检索步骤用户信息需求信息分析选择检索手段确定检索工具选择检索途径制定检索策略式检索匹配输出结果用户评价检索结束满意不满意第五十三页,共90页。一、分析研究课题,明确检索要求(一)分析课题的主题内容(二)确定课题的文献类型(三)确定检索时间范围(四)分析用户的检索评价要求第五十四页,共90页。二、选择检索工具选择最能满足检索要求的检索工具书。从内容上和时间上,考虑检索工具对课题的覆盖和一致性,比如综合考虑数据库收录的齐全、编制的质量、使用的方便等因素。在手段上和技术上,有机检条件一般就不选择手检工具,机检无疑有较高的效率。考虑价格和可获性,选择容易获得的检索工具,注意数据库的价格,权衡价格效益比。第五十五页,共90页。三、确定检索途径(一)确定检索点,以便具体进行检索。(二)制定检索策略如果我们检索有关电子科技大学发表的有关数字电视的文献,在ProQuest的检索系统中,其检索式为:cs(univ?Pre/1elect?Sci?Pre/1tech?)and(digitalw/2(televisionortv))第五十六页,共90页。四、检索方案的调整确定了具体的检索方法后,就要利用所用检索工具的索引,在一定的年代范围内具体查找,以获得文献线索。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。计算机检索时,在输出最终结果之前,检索可能要经过多次反复的过程。用户对每次检索结果作出判断,并对检索策略(检索式)作出相应的修改和调整,直到得到比较满意的结果。第五十七页,共90页。五、获取原文(一)利用全文数据库直接获取(二)利用文献传递系统获取 中国国家科技图书文献中心(简称NSTL)(/index.html)(三)利用文摘数据库的原文服务(四)利用OPAC检索系统,进行馆际互借第五十八页,共90页。第三章计算机检索技术检索算符制定检索策略第五十九页,共90页。一、常用检索算符布尔逻辑算符截词符字段符位置算符检索算符:是指在计算机检索中,用以连接检索用词而表达不同的检索含义的符号。第六十页,共90页。(一)布尔逻辑算符由一为名为布尔的科学家创建,最通用的检索运算符,几乎所有的检索工具都支持。第六十一页,共90页。1.逻辑“与”—AND查找检索结果中同时含有所有关键词的信息,用于交叉概念或限定关系的组配。可以缩小检索范围,提高查准率。对应的符号为“*”号例:

microwaveandradar

查找出同时含有microwave和radar两个词的信息

信息and检索第六十二页,共90页。2.

逻辑“或”—OR查找检索结果中同时含有检索式中任意一个关键词的信息。用于并列概念的组配,可以扩大检索范围,提高查全率。对应的符号为乘号“+”例:broadbandorwideband查找出包含有其中一个词的信息即:查找出环行器或者是隔离器的信息第六十三页,共90页。3.逻辑“非”—NOT

查找检索结果中从原来的检索范围中排除不需要的概念,或影响检索结果的概念。对应的符号为减号“-”例:电子科技大学-西安气体传感器-金属氧化物第六十四页,共90页。

如果一个提问式中含有多个逻辑算符,则它们的执行顺序将是NOT,AND,OR,需先执行的部分可用括号标出(A+B)*C运算顺序为A+B然后再是*CA+B*C运算顺序为B*C然后在+A例:查找关于微波和毫米波雷达的信息

(微波+毫米波)*雷达第六十五页,共90页。

用于代替检索词的词尾或其它部位的字符。各个系统的规范词不同,可用?、*、$、#等表示。截词检索用于命令检索中,对一个词语有单、复数的不同表示,有英美的不同拼写,更有许多词尾的变化形式,使用截词可以减少检索词的输入量,并能防止漏检,提高检索效率。(二)截词符第六十六页,共90页。截词可分有限截词与无限截词无限截词如comput?表示允许在词干后出现的字符数不限,有的系统也用“*”或者“$”符号来表示无限截词comput*有限截词:

一般采用?问号的个数表示允许出现的字符个数。在词尾时,可用??表示。第六十七页,共90页。后截词

也称为右截断。例:computer?表示computer和computers,comput?表示compute,computed,computer,computing,computers,computation,computerize,等相关词。前截词

也称为左截断。例:?computer表示macrocomputer,minicomputer,microcomputer,computer等相关词。第六十八页,共90页。中间截词

将截词符号置于一个检索词的中间,表示这个位置上的有限个字符,也称为屏蔽。它对于解决英、美不同拼法、不规则的单复数变化等很有用。例:analy?er表示analyzer和analyser。前后截词

将前截断和后截断结合使用。例:?comput?表示microcomputer第六十九页,共90页。(三)字段符

字段符主要用于限定查找的范围,比如查找某个著者的文章,就可以限定在著者字段中来检索,目前大部分的检索工具中都支持字段检索。

第七十页,共90页。最常用的字段限制符第七十一页,共90页。各检索系统的字段检索表达方式不同字段名=检索词如:au=xiao,xianci字段名(检索词)如:ti(radar)检索词in字段名如:radarinti第七十二页,共90页。例:A(W)B或A()B表示A之后紧跟B

WnW

A(nW)BA与B之间最多可插入n个单词,位置不能颠倒NnN例:A(N)BA、B位置可颠倒,中间不能插词

A(nN)BA、B位置可颠倒,中间可插n个词(四)位置算符注:这里的小写n在具体的检索中表示数字第七十三页,共90页。例:计算机(2W)网络

查找出结果中在两个词中可以插入两个字的信息,如计算机局域网络computer(W)network=computernetwork查找出结果中两个词中不可以插词而且顺序不能颠倒的信息,如中国北京Computer(2N)network查找出结果中在两个词中可以插入两个字的信息,computer与network的前后的次序可以颠倒。第七十四页,共90页。常用检索检索算符一览表第七十五页,共90页。提取检索词限定检索字段组配检索词二制定检索式技巧第七十六页,共90页。(一)选取检索词原则1、切分切分到词对课题语句进行切分,即以词为单位划分句子,切分一定要彻底,必须到词为止,同时也要适度,不能因切分而改变语义。第七十七页,共90页。确定核心词在一组检索词中,往往只有一个词或少数几个是核心词,是必须使用的关键词,而其它的词是限定这个核心词的。基于|被动|攻击|技术|的|入侵|检测|系统-----被动攻击,入侵检测系统第七十八页,共90页。2、删除删除虚词删除不具有检索意义的实词删除存在蕴涵关系的可合并词YBCO超导薄膜YBCO第七十九页,共90页。3、补充同义词、近义词同族词缩写词(毫米波MMW)增加限义词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论