情报检索与计算机信息检索_第1页
情报检索与计算机信息检索_第2页
情报检索与计算机信息检索_第3页
情报检索与计算机信息检索_第4页
情报检索与计算机信息检索_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

情报检索与计算机信息检索第一页,共六十八页,2022年,8月28日

课程目标

面对日益增长的Internet的信息和文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息。──这就是本课程所希望解决的问题第二页,共六十八页,2022年,8月28日课程主要内容1.理论基础2.手工检索3.计算机检索第三页,共六十八页,2022年,8月28日情报检索基础(第一章绪论)四个主要概念:1、信息2、文献3、情报4、情报检索第四页,共六十八页,2022年,8月28日1.信息

在日常生活中信息常被理解为人们口头、书面或者以其它方式传递的消息。信息不是物质本身,是物质的一种基本属性。是关于事物运动的知识。每个人每天都在不断地通过感觉器官从外界接受信息。从书刊报纸、电视、收音机、交谈中不断获得信息。

第五页,共六十八页,2022年,8月28日信息的特点(1)时效性:重要特点。如果信息传递很慢,那么有用的信息也会失去应有的价值。如新闻、预告。(2)可扩散性:在时间或空间上从一点转移到另一点。“一传十,十传百”。(3)可扩充性:人们对世界认识是无无限的,因此信息资源的扩充与累积也是无限的。(4)共享性:信息可以多次传播,不失其内容,与实物交易不同。第六页,共六十八页,2022年,8月28日2.文献

记录有知识的一切载体。即用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体。文献的范围很广。古代:甲骨文、碑刻、竹简、帛书是文献。现代:图书、报纸、期刊现今:机读资料、缩微制品、电子出版物。第七页,共六十八页,2022年,8月28日文献的级次(按信息的加工程度划分)零次文献信息资源——指尚未被记录下来,只是通过口头携带和传播的信息资源。零次信息资源的出现和传递带有极大的偶然性。其特点是鲜活、生命力旺盛。

一次文献信息资源——

指经加工或粗略加工的原始信息资源,如正在研究或创造过程中产生的信息,包括会议记录、论文报告、统计报表、专利等。其特点是比较零散,系统性不强,半包括所有的主要内容。2023/3/158第八页,共六十八页,2022年,8月28日文献的级次(按信息的加工程度划分)二次文献信息资源——指在一次信息资源基础上加工整理而成的信息资源,如文摘、索引、目录等,它们是引导和使用一次信息资源必不可少的工具。三次文献信息资源——通过二次信息资源提供的线索,对某范围内的一次文献进行分析、研究加工而成的信息资源,亦称三次文献,包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。2023/3/159第九页,共六十八页,2022年,8月28日文献的特征:外部特征:与文献精确对应的书名(或篇名)和作者内部特征:与文献模糊对应的主题词和分类号第十页,共六十八页,2022年,8月28日3.情报

是一种人工信息,信息与知识都是它的来源。是激活了的,活化了的知识。情报与信息在英文中同为Information,但信息的外延比情报广,信息是包含情报的。情报就是人们在一定时间内为一定目的而传递的有使用价值的知识或信息,它有明确的接收对象。第十一页,共六十八页,2022年,8月28日4.情报检索情报检索就是从任何信息集合中识别和获得所需信息的过程类型:文献检索数据检索事实检索

第十二页,共六十八页,2022年,8月28日(1)文献检索

是以文献为检索对象的信息检索。文献检索根据检索内容不同分为:①文献的线索检索:利用书目、文摘和书目型数据库检索工具,检索的结果提供了文献的线索;②文献的全文检索:这种检索以查找到文献全文为目的。第十三页,共六十八页,2022年,8月28日(2)数据检索

以数值、图表、公式或化学分子式等形式表示的数据为检索对象的信息检索,其检索结果为数据信息。如:“长江有多长,洪水期最高水位有多高?”等。第十四页,共六十八页,2022年,8月28日(3)事实检索

以事实为检索目的和对象的信息检索。其检索对象既包括一些事实、概念、思想、知识等非数值信息也包括一些数据信息。从广义上讲事实也是一种全文,知识内容特殊、比较简短的全文。第十五页,共六十八页,2022年,8月28日情报检索基础(第二章情报源与工具书)2.12.2情报源情报源分为:文献情报源与非文献情报源(电视、广播、交往、实物展览等信息)文献情报源又分为:印刷型文献情报源和非印刷型文献情报源(缩微型、机读型、视听型)印刷型文献情报源的类型又称文献类型有10种,也可分为3种(图书、期刊和特种文献:会议文献、科技报告、专利文献、技术标准、政府出版物、学位论文、产品样本、技术档案P11)除此之外还有报纸、新闻稿等。

2023/3/1516第十六页,共六十八页,2022年,8月28日情报检索基础(情报源的整序(2.3)与整序后形成工具书(2.4)示意图)

2023/3/1517情报源无序流整序方法(即编排方法)外部特征文献篇名作者姓名(含团体作者)等等内部特征分类—(表)P15P26主题—(词表)P15时序、地序法规范化处理工具书工具类数据库有序流情报服务机构检索工具参考工具用户全文全文数据库定义P16定义P17查找文献线索的工具定义P21查找数据和事实情报的工具目录题录文摘索引百科全书词典年鉴手册名录第十七页,共六十八页,2022年,8月28日附加内容:文献著录著录(Description)就是编制文献目录等二次文献时,对文献内容和形式特征进行分析、选择和记录的过程。它将有关某一文献的基本信息摘录下来,供人们间接地了解、识别该文献。下面,我们分别对不同文献情报源的著录特征及其识别方法进行讲述。第十八页,共六十八页,2022年,8月28日图书的著录项目包括书名、著者,出版项(出版地、出版社、出版年)、总页码等。图书:第十九页,共六十八页,2022年,8月28日目录第二十页,共六十八页,2022年,8月28日图书的识别主要依据出版项(出版地、出版社、出版年)、ISBN(10位)、总页码(PPorP)等著录项。第二十一页,共六十八页,2022年,8月28日ISBN是国际标准书号,InternationalStandardBookNumber的缩写,是世界各国广泛使用的书号编码系统。一个ISBN是由10位阿拉伯数字组成,并用连字符分隔为四部分:第一部分表示组号,也叫地域编号,是指国家、地理、语言等地域信息;第二部分是出版社编号;前两部分合称“出版者前缀”;第三部分为书名编号,即该出版社出版的图书种数的流水号;第四部分为校验码。前三部分的数位都是可变的,但其位数之和始终为9位。第二十二页,共六十八页,2022年,8月28日例:ISBN7➀-5383➁-0276➂-0➃/TP·99➄➀是地域号(国家、地区、语言区)。其中7代表中国,0和1表示英语区、2是法语区、3是德语区、4是日语区、5是俄语区、88是意大利语区、9971是新加坡语区➁是出版社号;➂是该出版社出版的图书种数的流水号➃是计算机检验位;➄是我国出版的图书在ISBN后加的一个中图法的大类类号。

第二十三页,共六十八页,2022年,8月28日作用:具有可识别可检验的功能。用加权因数10-2分别与ISBN的1-9位数对应相乘,将乘积与校验数值相加,再以模数“11”相除,如被整除就是正确的编号,否则为错误编号。

如:ISBN7538302760

加权

1098765432

乘积

70+45+24+56+18+0+8+21+12+0

总和

264/11=24(被整除)第二十四页,共六十八页,2022年,8月28日期刊期刊的著录:刊名(一般用缩写)、出版年月、卷、期、起止页码等。第二十五页,共六十八页,2022年,8月28日文摘第二十六页,共六十八页,2022年,8月28日Aestheticsinmastandtowerdesign(1),Theveryrapidlyintheneedfor……(2)Fuchs,M.B.(3)(TelAvivUniv,RamatAviv,Isr)(4),Comput.Struct.

(5)v73n4,2001,p1-5(6)说明:(1)文献篇名;(2)文摘内容;(3)著者姓名;(4)著者工作单位或通讯地址;(5)刊名缩写;(6)出版卷、期、年份、页码。本条摘自EI文摘第二十七页,共六十八页,2022年,8月28日期刊的识别:(1)卷号或期号(vol.noorv.n);(2)刊名缩写(如PE&RS);(3)ISSN号(8位)第二十八页,共六十八页,2022年,8月28日科技报告著录:篇名;著者和著者工作单位;报告号;出版年月识别:根据报告号

a、一般有report;b、有时候有PR(progressreport)进展报告、AR(annualreport)年度报告、FR(finalreport)年终报告、CR(contractreport)合同报告、TR(technicalreport)技术报告

第二十九页,共六十八页,2022年,8月28日000,050③PCA04/MFA01④PB90-10490/GAR(1)InternationalPotatoCenter,Lima(Peru)(2)TraditionalPotatoStorageinperu:Farmers’KnowledgeandPractices.Potatoesinfoodsystemsresearchseries(3)R.Rhoades,M.Benavides,J.Rechate,E.(4)1988,629(5).REPT–4,AID–PN–ABC–429(6)SponsoredbyAgencyforInternationalDevelopment,WashingtonDC,OfficeofAgriculture.(7)Inthelastdecade,theimportanceofreducingfood……(8)说明:(1)NTIS登记号;(2)团体或报告完成机构名称;(3)报告篇名;(4)个人著者;(5)完成日期、报告页数;(6)原报告号;团体著者或资助招标机构所编代号;(7)资助机构名;(8)文摘。本条摘自美国《政府报告通告与索引》(GovernmentReportsAnnouncementsandInder简称GRA&I)

文摘第三十页,共六十八页,2022年,8月28日著录:论文名称、著者和著者工作单位;会议录名称、会议地点、会议时间;会议录出版情况,论文页码。识别:会议录名称、会议地点、会议时间、会议届次。会议录名称常含有:congress(会议)、convention(大会)、symposium(专题讨论会)、workshop(专题学术讨论会)、seminar(学术研讨会)、conference(学术讨论会)colloquium(学术讨论会)、proceedings(会议录)

会议文献第三十一页,共六十八页,2022年,8月28日文摘第三十二页,共六十八页,2022年,8月28日Performanceanalysisofthird-ordernonlinearwieneradaptiveSystems(1).Shue-LeeChang(2)(Dept.ofElectr.Eng.,SantaUniv.,CA.USA)(3)2002IEEEInternationalSymposiumonCircuitsandSystems(4).Proceedings,Phoenix-Scottsdale,AZ,USA,26-29May2002(5),P.II-197-200(6)vol.2(7)Thispaperpresentsadetailedperformanceanalysisofthird-order……(8)(16refs)(9)说明:(1)论文题目;(2)著者姓名;(3)著者工作单位或通讯地址;(4)会议录名称;(5)会议召开的地点和时间;(6)论文在会议录中的页码;(7)卷号;(8)文摘内容;(9)参考文献条数。本条摘自SA文摘第三十三页,共六十八页,2022年,8月28日专利文献著录:专利题目;著者;受让人或单位以及专利发表时间;专利国别及专利号识别:有patent;专利国别及专利号。专利国别代码是由国际标准化组织(ISO)规定的,专利文献由各国专利局出版发行,因此,无出版地、出版社等项目。第三十四页,共六十八页,2022年,8月28日文摘第三十五页,共六十八页,2022年,8月28日Wastewatertreatmentprocess.(1)Reyna,C.(2)(NewWorkingWaters,Llc,USA)(3)U.SUs6319412(4)(Cl.210-666;(5)Co2Fq/00(6)),20Nov2001,(7)USAppl.955182,(8)21Oct1997(9);6pp(10),(Eng)(11),Thisinventionrelatestowastewatertreatment……(12)说明:(1)专利标题;(2)发明人姓名;(3)专利权所有者;(4)专利国别代号和专利号;(5)美国专利分类号;(6)国际专利分类号;(7)专利公布日期;(8)专利申请号;(9)专利申请日期;(10)专利总页数;(11)文种;(12)文摘内容。本条摘自CA文摘第三十六页,共六十八页,2022年,8月28日标准文献著录:标准制定单位;标准题目;表示标准的词,如standard,recommendation等;标准号。标准号由标准颁布机构代码、顺序号和颁布年份三部分组成。如ANSITI-601-1988识别:标准号第三十七页,共六十八页,2022年,8月28日文摘第三十八页,共六十八页,2022年,8月28日学位论文著录:论文名称;著者;学位;授予学位的大学名称;时间、论文页码;导师或答辩委员会顾问的姓名。识别方法:学位名称、大学名称。如“dissertation”、”thesis”。例子中的“Ph.D.”博士学位的简称。第三十九页,共六十八页,2022年,8月28日文摘第四十页,共六十八页,2022年,8月28日INVERTIBLEFUNCTIONS(1)orderNoDA8528622(2)

ALLENDER,ERICWARREN,Ph,D(3)

GeorgiaInstituteofTechnology,1985(4)

107PP(5)chairman:K.N.King(6)ThisThesisexploresthequestionofhowharda(7)说明:(1)论文题目;(2)订购论文的订购号;(3)论文作者和学位类别;(4)授予学位单位和时间;(5)论文页数;(6)学位论文指导教师;(7)文摘。本条摘自《国际学位论文文摘》(DissertationAbstractsInternational(简称DAI)文摘第四十一页,共六十八页,2022年,8月28日一、检索语言概述语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrievallanguage)。

检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。情报检索基础(第三章检索语言)第四十二页,共六十八页,2022年,8月28日

也可以说,所谓的检索语言就是组织文献与检索文献时所使用的语言,也就是说,文献存储时,文献的内容特征(如分类、主题等)和外表特征(如书名、刊名、著者等)按照一定的语言来加以描述,检索文献时的提问也按照一定的语言来加以表达,这种在文献的存储和检索过程中,共同使用、共同理解的语言就是检索语言。检索语言是由符号、代码或科技词语组成的。其中符号、代码是按照学科门类严格编制的,科技词语是经过优选的和规范化的。第四十三页,共六十八页,2022年,8月28日二、检索语言与编排方法关联图

2023/3/1544情报源无序流整序方法(即编排方法)外部特征精确文献篇名作者姓名(含团体作者)等等内部特征模糊分类—(表P26)主题—(词表)时序、地序法即分类语言族性即主题语言特性规范化处理有序流情报服务机构检索工具参考工具用户定义P16定义P17定义P21目录题录文摘索引百科全书词典年鉴手册名录工具书工具类数据库全文全文数据库第四十四页,共六十八页,2022年,8月28日检索语言描述文献内容特征的语言分类语言主题语言描述文献外表特征的语言题名(书名、刊名、篇名)著者出版事项代码/序号体系分类语言组配分类语言混合分类语言关键词语言叙词语言标题词语言单元词语言三、检索语言种类第四十五页,共六十八页,2022年,8月28日

信息源信息的选择与收集信息特征标识语言检索工具匹配检索式提问检索结果数据库用户信息需求检索提问检索提问式四、检索语言的桥梁作用第四十六页,共六十八页,2022年,8月28日

情报检索基础(第四章检索程序与检索效率)

一、检索程序

课题分析研究课题制定检索策略选择检索工具确定检索途径选定检索方法检索调整检索策略结果评价获取原始文献第四十七页,共六十八页,2022年,8月28日1.分析研究课题

在查找文献信息之前,必须对检索课题进行分析研究。目的是了解课题的学科和专业范围,弄清检索的真正意图及实质。这是制定检索策略的根本出发点,也是检索效率高低和成败的关键。具体需要明确的问题有:专业范围、时间范围、地理范围、语种范围、文献类型。

第四十八页,共六十八页,2022年,8月28日制定检索策略

检索策略是指为实现检索目标而制定的检索方案或对策,也就是将课题的提问及其检索词与检索工具的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析课题的基础上,确定要利用那些检索工具,确定查找年限和专业范围的选择,确定检索用词并判明各检索词之间的逻辑关系与查找步骤。第四十九页,共六十八页,2022年,8月28日2.选择检索工具

(或数据库)根据检索课题的主题及专业范围选择质量较高、检索手段比较完善的检索工具。这就必须了解和掌握各种检索工具的适用范围、收录特点。第五十页,共六十八页,2022年,8月28日在选择检索工具是,要考虑的主要问题是:(1)在内容和时间方面,要考虑检索工具、数据库内容对课题内容的覆盖面和一致性,如应综合考虑检索工具、数据库收录文献的齐全、编制的质量、使用的方便等因素。(2)在手段和技术上,有机检条件的一般就不选手检工具。但必须了解数据库收录文献的年代范围。(3)考虑价格和可获得性,应选择就近容易获得的检索工具。

第五十一页,共六十八页,2022年,8月28日3.确定检索途径

检索途径是进入检索的入口。分为两类:反映文献内容特征的途径(分类、主题)和反映文献外部特征的途径(著者、题名、代码等)。第五十二页,共六十八页,2022年,8月28日分类途径是按照学科分类体系查找文献的途径,采用的是“分类目录”和“分类索引”。按分类进行查找,用分类途径能够把同一学科的文献信息集中在一起检索出来。其缺点是分类表是事先编制好的,一些新学术论文增补不及时,依此途径检索,所得文献容易落后于学科发展;又由于每篇文献是按学科规类的,查出的结果涉及面宽,针对性不强,因而还需要进一步筛选。

第五十三页,共六十八页,2022年,8月28日主题途径根据文献的主题特征,利用各类主题目录和索引进行检索的途径,即利用从文献中抽象出来的或经过人工规范化的,能够代表文献内容的词来检索。主题目录和主题索引就是将文献按表征其内容特征的主题词组织起来的索引系统。利用主题途径检索时,只要根据所选用主题词的字顺(字母顺序、音序、笔画顺序等)找到所查主题词,就可查得相关文献。主题途径具有直观、专指、方便等特点,打破了按学科分类的方法,时分散在各个学科领域里的有关课题的文献集中于同一主题。

第五十四页,共六十八页,2022年,8月28日著者途径利用著者(个人或单位著者)目录和著者索引进行检索的途径。国外对著者途径非常重视,许多检索工具都把著者索引作为最基本的辅助索引。著者途径的特点是:科研人员一般是各有所长,尤其是有些领域的知名学者、专家,他们的文章一般都代表了一定的水平和动向,通过著者线索,可以系统地发现和掌握他们研究的进展和他们的最新论著。一定程度上可以引导查找到同类或相关文献。这种途径的检索既快速又方便,但查得的文献缺乏系统性和完整性。第五十五页,共六十八页,2022年,8月28日题名途径根据文献的名称,如书名、刊名、会议名称进行检索的途径。它以文献的题名按照字顺编排诚一个体系,既简单易行,也便于查检,比较符合一般用户对文献的使用习惯。

第五十六页,共六十八页,2022年,8月28日代码途径根据文献的序号特征,利用其序号索引进行检索的途径。许多文献具有唯一的序号,如ISBN、ISSN、专利号等。根据这些序号可真诚不同的序号索引。在已知序号的前提下,利用序号途径能方便地查找所需文献。

第五十七页,共六十八页,2022年,8月28日其它途径有些检索工具还有一些特殊的索引,可用特殊途径找到所需文献的线索。计算机检索系统中的检索途径还很多,几乎文献的每一个特征(如出版社、出版年代等)都可作为检索途径。

第五十八页,共六十八页,2022年,8月28日4.选择检索方法常用法顺查法:从远及近查,用于了解某一事物发展的全过程,倒查法:由近及远查,重点为近期抽查法:查找某一段时间的文献第五十九页,共六十八页,2022年,8月28日调整检索策略

检索中,会不可避免地产生一些和检索目标相差甚远的情况。检索词过于宽泛会造成扩检,这时可以对原检索词增加限定条件,如时间、语种或增加新检索词等。另外也可以换用下位类检索词进行专指性更强的检索。检索词过于偏窄会造成漏检,这时可以减少限定条件、用上位类检索词或是用相关主题词进行检索。第六十页,共六十八页,2022年,8月28日5.获取原始文献

这是检索过程的终结,也是文献检索的最终目的。获取原文一般有三个步骤:(1)整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名;(2)判断文献的出版类型;(3)在上面2个步骤的基础上查找全文数据库、或通过查找图书馆馆藏目录、联合目录确定馆藏位置,从而获得原文,如果是特种文献,可分别在国图、中信所、中科院、专利局索取原文、或通图书馆文献传递服务获得原文。

第六十一页,共六十八页,2022年,8月28日二、检索效果(率)的分析及评估所谓检索效果(retrievaleffectiveness)是指检索结果的有效程度。反映了检索系统的检索能力。检索效果包括检索的技术效果和经济效果两个方面。技术效果是由检索系统完成其功能的能力确定,主要指性能和质量。经济效果由完成这些功能的价值确定,主要指检索系统服务的成本和时间。第六十二页,共六十八页,2022年,8月28日检索效果评价是根据一定评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。常用的评价指标有:收录范围、查全率、查准率、响应时间、用户负担和输出形式。其中最主要的指标是查全率和查准率。

第六十三页,共六十八页,2022年,8月28日检索效果评估相关数据表

a+b+c+db+da+c总计c+ddca+bba检出文献总计无关文献相关文献系统相关性未检出文献用户相关性第六十四页,共六十八页,2022年,8月28日查全率(recallratio)查全率是指检出的相关文献数与检索工具中的相关文献总数之比,用字母R表示。第六十五页,共六十八页,2022年,8月28日查准率(precisionratio)

查准率是指检出的相关文献数与检出的文献总数之比,用字母P表示。

第六十六页,共六十八页,2022年,8月28日查全率是衡量系统检出与课题相关文献的能力;查准率是衡量系统拒绝无关文献的能力。两者结合起来,即表示检索系统的检索效率。检索者的理想是要求查全率和查准率都是100%,但这是不可能的。实验表明:查全率和查准率之间存在相反的相互依赖关系,即提高查全率会降低查准率,反之亦然。第六十七页,共六十八页,2022年,8月28日常用检索途径的检索效率分类途径:利用分类名和分类号进行检索。其结果是该类目所有的文献,检索结果较全。题名(篇名)途径:利用篇名中的字词或篇名的一部分进行检索。其结果是所有在篇名中出现该字、该词或该部分的文章,检索结果较准。主题词/关键词途径:利用文章篇首标明的与该篇文献主题相关的词进行检索。其结果是包含该主题词或关键词的所有文献,结果较准。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论