第01章信息检索的基础知识nnew_第1页
第01章信息检索的基础知识nnew_第2页
第01章信息检索的基础知识nnew_第3页
第01章信息检索的基础知识nnew_第4页
第01章信息检索的基础知识nnew_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年2月3日第1页第1章信息检索

的基础知识2023年2月3日第2页例子:鲍勃和托德的故事鲍勃和托德同一天到公司上班,托德一再被提拔,鲍勃却一直在基层。鲍勃实在忍无可忍,他大胆地指出总经理偏爱吹牛拍马的人,而辛勤工作的人却得不到提拔。总经理听他讲完后说:“好吧,也许你说的对,不过我很想证实一下,你现在到集市去,看看有什么卖的。”2023年2月3日第3页鲍勃很快从集市上回来,说刚才集市上有一个农民拉了车土豆在卖。“一车大约多少斤?”总经理问。鲍勃立即赶回去,过了一会儿回来说,车上有40多袋土豆,每袋约20斤。“多少钱一斤?”总经理问。鲍勃又要跑回去,但总经理把他拉住了:“鲍勃先生,请休息一会吧。”2023年2月3日第4页他派人把托德叫来,对他说:“托德先生,你马上去集市看看今天有什么卖的。”不一会儿,托德回来了,他向总经理汇报说集市上只有一个农民在卖土豆,有40多袋,共800多斤,价格适中,质量很好,他已经带回几个土豆请总经理过目。他还了解到这位农民今天下午还要拉一车西红柿上集市,据说价格还可以,他准备再和这个农民联系一下。鲍勃一直在一旁看着,现在他终于知道自己和托德之间的差距了。2023年2月3日第5页请问:鲍勃和托德之间的差距是什么?由于托德总是能够主动对总经理的指示进行分析,获取相关的信息,为总经理的决策提供有效信息,得到了总经理的赏识,获得了事业的成功。也就是信息素质的最好体现.信息检索课程的教学目的和核心就是培养和提高人的信息素质。2023年2月3日第6页1、现代社会“信息素质的内部结构”信息素质:P9

大众理解:是个体先天所赋予的生理素质的基础上,通过后天学习实践形成的信息品质,它是社会成员的信息意识、信息道德、信息能力、信息潜能等多项基本素质的结合。内部结构如下:A、信息需求是指人们在一个阶段的目标、任务位置中产生的信息需要行为。B、信息意识是人们对信息的敏锐意识(由信息需求激发出来,包括人们对信息的感受力、持久的注意力和对信息价值的洞察力、判断力)。C、信息知识是人们有关信息的特点与类型、信息交流和传播的基本规律与方式、信息的功用及效应、信息检索的方法和技能等方面的知识。D、信息道德是人们在收集信息、获取信息和使用信息时必须遵守的伦理道德规范。E、信息能力是人们在探求与个人兴趣有关的信息活动中,能够精确地、批判性地评价信息,对信息进行创造性表达和知识创新,最佳地收集、分析和使用信息,从而完成解决实际问题和探求知识的能力。2023年2月3日第7页信息素质的“金字塔”结构信息能力信息道德信息知识信息意识信息需求2023年2月3日第8页1.1信息的概念1信息一词的出现最早《三国志》中出现西晋陈寿早在一干多年前唐代诗里便有了“信息”这个词。唐代诗人李中在《碧云集·暮春怀故人》诗中就留下了“梦断美人沉信息,目穿长路倚楼台”的佳句,南宋陈亮在《梅花》诗中写到:“欲传春信息,不怕雪埋藏”

这里的“信息”含义为音信、消息。2023年2月3日第9页人周围的信息信息在包围着我们,人的五官、身体所感受到的可以说首先都是信息。同时,人们又在借助于语言等手段向外传递、交流信息。(文献,网络世界-理解最深刻,感受最多)人类社会中,即使人们用非语言的交流符号,也在本能地用一些常见的形式向外界发布信息,如:

--用体态身势,即用手势、面部表情、体态表情;

--用眼光,所谓含情脉脉、暗送秋波等,眼睛被看作是心灵的窗户;

--人与人交流的空间距离,也无时不在表达一种信息:相距很近,为亲密区,相距1米左右,属于熟人区,相距1至3米左右,属于社交区,相距4米以上的,属于公众交际区。

--一个人同你谈话时,隔着很远地方而不靠近的,这时他已向你传递这样的信息:不愿和你过分的亲密。人们交往中还会用些“喊”、“哭”等辅助语言以传递信息2023年2月3日第10页信息的定义(不同的人有不同的看法)P1是经过加工的数据,是传递知识的工具。2023年2月3日第11页2、信息的特征A、客观性B、时效性C、传递性D、共享性2023年2月3日第12页1.4信息源信息的来源即信息源,是指满足用户所需信息的出处。P18可以说,一切信息来源于自然界,来源于人类社会。人们的生产、科研、生活以及政治活动等等是信息产生的源泉。三类:A、人物信息源,主要指语言信息源(零次信息)例如沙龙、授课B、实物信息源例如样本、模型、雕塑等P36-37C、文献信息源:课程以它为主讲解信息源的特点:P422023年2月3日第13页文献:一种最重要的信息源,记录有知识的一切载体。P19重点文献有四个最基本的要素:

——(1)构成文献内核(内容)的信息、数据、事实和知识。(文献信息)——(2)负载信息、数据、事实和知识的物质载体。(文献载体)——(3)记录信息、数据、事实和知识的符号系统。(符号系统)——(4)代表文献符号进入载体的方法和过程.(记录方式)物质形态构成文献的重要手段信息、数据、事实和知识内核载体符号系统2023年2月3日第14页P35文献按信息的加工程度或等级结构分为:零次信息、一次信息、二次信息、三次信息一次信息又称原始信息,常常通过二次信息才能获取获取原始文献的方法和途径

P165①利用文献线索,查询馆藏目录(本单位图书馆馆)②借助馆藏联合目录(馆际互借)③申请文献定购、传递服务(文献传递)④试查网上免费电子期刊⑤全文数据库⑥利用文献资源保障系统⑦E—mail向著者索取(购买)2023年2月3日第15页参考文献标准格式1、概念

是学术论文的重要组成部分。是在学术研究过程中,对某一著作或论文的整体的参考或借鉴。征引过的文献在注释中已注明,不再出现于文后参考文献中。2、作用

A、以示在前人研究成果基础上的继承和发展,表明作者从事研究工作的真实科学依据和严肃的科学态度。B、表示作者对他人劳动成果的尊重和承认。C、提供引用资料的出处,便于读者扩大检索范围。2023年2月3日第16页参考文献标准格式1、概念

是学术论文的重要组成部分。是在学术研究过程中,对某一著作或论文的整体的参考或借鉴。征引过的文献在注释中已注明,不再出现于文后参考文献中。2、作用

A、以示在前人研究成果基础上的继承和发展,表明作者从事研究工作的真实科学依据和严肃的科学态度。B、表示作者对他人劳动成果的尊重和承认。C、提供引用资料的出处,便于读者扩大检索范围。2023年2月3日第17页一:参考文献类型(实验相关)专著[M],论文集[C],期刊文章[J],学位论文[D],标准[S],专利[P],论文集中的析出文献[A]电子文献类型:数据库[DB],计算机[CP],电子公告[EB]电子文献的载体类型:互联网[OL],光盘[CD],磁带[MT],磁盘[DK]2023年2月3日第18页举例:1.专著、学位论文

格式:[序号]主要责任者.文献题名[文献类型标识].出版地:出版者,出版年.起止页码(可选)

A.刘国钧,陈绍业.图书馆目录[M].北京:高等教育出版社,1957.15-18.B、[3]张筑生.微分半动力系统的不变集[D].北京:北京大学数学系数学研究所,1983.2.期刊文章[序号]主要责任者.文献题名[J].刊名,年,卷(期):起止页码

A.[1]何龄修.读南明史[J].中国史研究,1998,(3):167-173.2023年2月3日第19页3.论文集中的析出文献(会议)[序号]析出文献主要责任者.析出文献题名[A].原文献主要责任者(可选).原文献题名[C].出版地:出版者,出版年.起止页码例子:[7]钟文发.非线性规划在可燃毒物配置中的应用[A].赵炜.运筹学的理论与应用——中国运筹学会第五届大会论文集[C].西安:西安电子科技大学出版社,1996.468.2023年2月3日第20页4.国际、国家标准[序号]标准编号,标准名称[S].

实例:

[13]GB/T16159-1996,汉语拼音正词法基本规则[S].5.专利实例:[序号]专利所有者.专利题名[P].专利国别:专利号,出版日期

[14]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-262023年2月3日第21页5.电子文献

[文献类型/载体类型标识]:[J/OL]网上期刊、[EB/OL]网上电子公告、[M/CD]光盘图书、[DB/OL]网上数据库、[DB/MT]磁带数据库格式:[序号]主要责任者.电子文献题名[电子文献及载体类型标识].电子文献的出版或获得地址,发表更新日期/引用日期例子:[12]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL]./pub/wml.html,1998-08-16/1998-10-01.2023年2月3日第22页4二十大信息源图书、期刊、、会议文献、专利文献、标准文献、学术论文、电子文献、报纸、报告、政府文献、产品资料、档案、古籍、制图资料、乐谱、缩微品、图形制品、视听资料、检索工具、参考工具等2023年2月3日第23页4.1图书联合国教科文组织规定:5~49页印刷品为小册子,50页以上的正式印刷品为图书。图书有以下优缺点:出版量大,稳定性强,质量较高,保存期长,但编辑出版周期较长,传递知识信息相对较慢。图书主要包括专著、教科书、工具书、图册、读物和文集等。图书著录的主要外部特征是:书名、著者、出版社名称、出版地、出版时间、总页数和国际标准书号(ISBN)。其中出版社名称①、出版地或出版国②、出版时间③、总页数或页码范围④、国际标准书号(ISBN)⑤是辨识图书的主要外部特征;图书辨识的直接关键词①是“出版(社、者)”,英文词是Press、Publication(Pub.)、Publisher。

2023年2月3日第24页例如:(1)江永红,主编.统计学.合肥②:中国科学技术大学出版社①,2002③,239页④,ISBN7-312-01363-5⑤(2)C.Granell,J.Poveda,M.Gould.IncrementalCompositionofGeographicWebServices:AnEmergencyManagementContext..F.Toppen,P.Pastracos(eds.):Proc.ofthe7thConferenceonGeographicInformationScience(AGILE2004③)Heraklion②,Creta(Grecia)②.Abril2004③,CreteUniversityPress①,pp.343-348④(ISBN:960-524-176-5⑤)(3)JavierNogueras-Iso,F.J.Zarazaga-Soria,P.R.Muro-Medrano.GeographicInformationMetadataForSpatialDataInfrastructures-Resources,Interoperability,InformationRetrieval.SpringerVerlag①,Germany②,ISBN:3-540-24464-6⑤,264pages④,March2005③2023年2月3日第25页ISBN号是国际标准书号(InternationalStandardBookNumber)的简称,它是国际标准化组织于1972年、2005年公布的一项国际通用的出版物统一编号方法。2007年1月1日以前的ISBN号由10位数字组成,以后由13位组成。2007年1月1日以前的ISBN号由10位数字组成,分成4段组成,各段依次是:地区或语种号-出版商代号-书名号-校验号。其中地区或语种号:英、美、加、南非等英语区为0,其它英语区为1,法语区为2,德语区为3,日本是4,俄语区为5,中国大陆为7,印度等为8,东南亚地区为9。如7-302-02372-7,表示中国大陆代号为302的(清华大学)出版社,出版的一种图书,其书号为02372、该书的校验码为7。2007年1月1日以后由13位组成目前共分五段:978(979)+地区或语种号-出版商代号-书名号-校验号(1)前缀978或979,为3位EAN(欧洲商品编号),代表图书。后面同10位ISBN例如:《Frontpage网页设计》一书的ISBN号是:978-7-118-01984-4,所代表的意思是:“978”为欧洲商品编号中图书;“7”代表中国(中文);“118”代表国防工业出版社;“01984”代表书名号;“4”代表检验码。2023年2月3日第26页图书的主要检索工具(数据库)检索途径:书名、著者、ISBN、分类、主题(知道5种以上)图书检出版信息检索工具:《全国新书目》、《新华书目报》、《出版社目录》图书馆目录信息检索系统:本馆OPAC(ILAS)、本地互借馆、北图、中科图、CALIS等。网上书店:亚马逊网上书店、当当书店、上海书城数字图书馆:美国国会图书馆、中国国家图书馆、上海图书馆、本地数字图书馆(书生、超星、Apabi)、读秀、NetLibrary、MyiLibrary和中美百万册数字图书馆(CADAL)等。其他:中国ISBN信息网(/main)网络小说:基本上是一些固定的网站。2023年2月3日第27页4.2期刊期刊(Periodical),又称“杂志”(Journal)、“连续出版物”(Serials),指有固定名称、统一开本、有编号或年月标志、定期或不定期连续出版、每期内容不重复并由多名责任者撰写不同文章的出版物。与图书相比,期刊的特点是:出版周期较短,内容新颖,学术性强,信息量大,能及时反映各学科发展的最新动向和科学研究的最新成果,被称为“整个科学史上最成功的无处不在的科学信息载体”。学术质量高的两类期刊

——核心期刊,指那些发表该学科或该领域论文较多、使用率(被引率)较高、学术影响较大的期刊。

——同行评审(PeerReview)期刊。图书馆一般把当年的期刊称为“现刊”,当年以前的期刊称为“过刊”。相应地也有“现刊阅览室”和“过刊阅览室”的设置和称呼。2023年2月3日第28页期刊的类型有五大类,并且有自己的常用冠名:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journal(杂志)、Annals、Chronicle(纪事)、Annual(年刊)、Bulletin(通报)、Transactions(汇刊)、Proceedings(会刊)、Review(评论)、Progress或Advancesin...(进展)等。ii.快报性刊物。刊名一般为:Communication(通讯)、Letters(快报)、Bulletin等。iii.消息性(NewsyJournals)刊物。多数是新闻,刊名一般为:News(新闻)、NewsLetters(新闻快报)等。iv.资料性(DataJournals)刊物。刊名一般为:Data、Event等。v.检索性刊物。刊名一般为:Index,Abstract等。期刊文献著录的主要外部特征是:论文题名、著者、刊名、卷号(Vol.)、期号(No.)、年月号、起止页号、国际标准刊号(1SSN)。其中:卷号(Vol.)①、期号(No.)②、年月号③、起止页号④、国际标准刊号(1SSN)⑤是辨识期刊文献的主要外部特征;上述期刊类型的常用冠名也是辨识期刊的直接关键词⑥。

2023年2月3日第29页(1)王玲.基于知识发现的生物信息学.生物工程进展⑥,2000③,Vol.20①,No.3②:27-29④,ISSN1003-3565⑤(2)Guterman,L.ThePromiseandPerilof“OpenAccess”.Chronicle⑥ofHigherEducation,January30,2004③,50①(21②):A10-12,A14④,ISSN:0009-5982⑤(3)Poveda,J.andM.Gould.TheBQValgorithmforpoint-in-polygondetermination.GESTSInternationalTransactions⑥onComputerScienceandEngineering,Vol.6①,No.1②,

pages:207-218④.Jan.2005③常见形式——Poveda,J.andM.Gould.TheBQValgorithmforpoint-in-polygondetermination.GESTSInternationalTransactionsonComputerScienceandEngineering,2005,6(1):207-218.2023年2月3日第30页国际标准刊号(ISSN)等由8位数字分两段组成,如1000-0135,前7位是期刊代号,末位是校验号。我国正式出版的期刊都有国内统一刊号(CN),它由地区号、报刊登记号和《中图法》分类号组成,如CN11-2257/G3。地区号依《中华人民共和国行政区划编码表GB2260-82》取前两位,如北京为11、天津12、上海31、辽宁21、吉林22、四川51等。2023年2月3日第31页图书馆目录信息检索系统:本馆OPAC(ILAS)、本地互借馆、北图、中科图、CALIS、全国报刊目录索引等。中文期刊全文数据库:《中文科技期刊全文数据库》(维普)、《中国期刊网全文数据库》(CNKI)、《中国数字化期刊群》(万方)、中国国家科技图书文献中心(NSTL)的期刊数据库、读秀等。外文期刊文摘数据库:cnpLINKer、Ingenta、NSTL、CASHL、GeoRef、PetroleumAbstracts(Ovid平台)、(Engineeringindex)EiVillage2、SCI(ISIWebofScience

)和国外石油文献数据库等。外文期刊全文数据库:ElsevierSDOL(ScienceDirectOnline)、Wiley-Blackwell、Springer、OxfordJournals、InfoTrac、IEL、ASMEElectronicLibrary、ACSJournals、GeoScienceWorld、ProQuestLibrary、EBSCOhost等。期刊的主要检索工具(数据库)(知道5种以上)

2023年2月3日第32页4.3报纸报纸(Paper,Newspaper)在国外被称为新闻报纸。是专门刊载新闻报道和时事评论为主的定期出版物;但有些报纸同时也刊载学术论文和其它信息。报纸具有时事性、时效性、普及性、大众性,出版周期短,传递信息快速,传播范围广,是不容忽视的文献信息源。2023年2月3日第33页4.4会议文献会议文献(ConferenceLiterature)是指在学术会议上宣读或书面交流的报告、论文、会议记录、会议纪要等有关资料,是科学交流的一条重要渠道。它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议文献具有水平高、针对性强、发表快的特点,不少论文常常在正式发表前先提交学术会议交流。全世界每年召开的学术会议超过上万次,正式发行的各种专业论文集、会议录近4000种,约有50%的会议只在会前印发论文、论文摘要或论文目录等会前文献,不出版会后论文集、会议录。2023年2月3日第34页会议和会议文献常用的主要名称有Conference(大会)、Meeting(小型会议)、Symposium(讨论会)、Seminar(研讨会)Proceeding(会议录)、Paper(单篇论文)、Transaction(汇报)等。英文常用Transactions表示会议上发表的汇编论文;Proceedings、Symposium表示会议的记录和会后整理出版的会议论文录、论文集。会议文献著录的主要外部特征是:论文题名、著者、编者、会议名称或会议论文集名称、会议地或主办国、会议年月日、论文在会议论文集中起止页号、会议论文号。其中:会议名称或会议论文集名称①、会议地或主办国②、会议年月日③、论文在会议论文集中起止页号④、会议论文编号⑤是辨识会议文献的主要外部特征;上述会议和会议文献常用的主要名称也是辨识的直接关键词⑥。2023年2月3日第35页例如:(1)X.Gai,S.Sun,M.F.WheelerandH.Klie,Atimesteppingschemeforcoupledreservoirflowandgeomechanicsonnonmatchinggrids,In:Proceedings⑥ofthe2005SPEAnnualTechnicalConferenceandExhibition①,Dallas,Texas,USA②,October9-12,2005③.(SPE97054⑤)[downloadPDF](2)S.SunandM.F.Wheeler,AdaptivediscontinuousGalerkinmethodsforcoupleddiffusion-andadvection-dominatedtransportphenomena,In:Proceedings⑥ofthe3rdInternationalConferenceonComputing①,CommunicationandControlTechnologies(CCCT'05),VolumeI,

ISBN:980-6560-46-9,H.-W.Chu,M.J.Savoie,andB.Sanchez,Eds.,pp.130-135④,Austin,Texas②,July24-27,2005③.[downloadPDF](3)R.Hedges,B.Loewe,andC.Morrone.ParallelFileSystemTestingfortheLunaticFringe:thecareandfeedingofrestlessI/OPowerUsers.Twenty-SecondIEEE/ThirteenthNASAGoddardConference⑥onMassStorageSystemsandTechnologies(MSST2005)①,Monterey,California,USA②.2005③,Pages.3-17④2023年2月3日第36页图书馆目录信息检索系统:本馆OPAC(ILAS)、本地互借馆、北图、中科图等。中文会议论文检索工具(数据库):中国学术会议论文库、(/),包括中国学术会议论文文摘数据库(CACP)和中国学术会议论文全文数据库(PACC)、读秀等。中文会议论文全文数据库:NSTL中文会议论文数据库(通过文献传递)、CNKI会议论文数据库、万方数据会议论文类数据库等。外文会议论文检索工具(数据库):NSTL外文会议论文数据库、GeoRef、PetroleumAbstracts(Ovid平台)、Engineeringindex(EiVillage2)、ISIProceedings和国外石油文献数据库等。外文会议全文数据库:IEL、SPEeLibrary和OTCPapersOnline等。会议文献的主要检索工具(数据库)2023年2月3日第37页4.5学位论文学位论文(Thesis,Dissertation)指高等学校、科研机构所培养的硕士生、博士生为取得学位资格而呈递的毕业论文,具有较高的学术水平和学术价值。学位论文是非卖品也不公开发行,通常只在学位授予单位的图书馆和按国家规定接受呈缴本的图书馆保存有副本,故学位论文的收集与利用不如其它类型的文献方便。例如:在中国,国家科技文献中心(NSTL)、中国科技信息研究所、万方数据、CNKI(同方)都集中收藏和报道国内各学位授予单位的博/硕士学位论文。在美国,由国际大学缩微品公司(UniversityMicrofilmsInternational--UMI)负责收藏和报道全美的博士、硕士论文,并收集报道其他国家的学位论文。在英国,由英国国家图书馆(不列颠图书馆)负责收藏和报道本国的学位论文。在日本,国立大学的学位论文由日本国立图书馆统一收藏,私立大学的学位论文则收藏在学位授予单位的图书馆中。2023年2月3日第38页学位论文著录的主要外部特征是:学位名称、导师姓名、学位授予机构、学位授予时间等。学位论文辨识的直接关键词①是“学位论文”和“学位名称”,英文词是DoctoralDissertation和MS、M.B.A.、Ph.D.、Eng.D、D.S.等。例如:(1)Chang,D.H.(2000).Knowledge,culture,andidentity:AmericaninfluenceonthedevelopmentofLibraryandInformationScienceinSouthKorea.Unpublisheddoctoraldissertation①,Univ.ofTexasatAustin(2)2005,Tsai,Hwai.PricingDiscreteDouble-BarrierOptionswiththeQuadratureMethod.MBAthesis①.(3)Allen,B.,LearningBodyShapeModelsfromReal-WorldData,Ph.D.Thesis①,2005.(pdf)2023年2月3日第39页4.7标准文献标准文献(StandardLiterature)是经权威主管机构批准,采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的法定性文献。标准文献以特定形式对重复性事物和概念所作统一规定,是科学、技术和社会实践中非常重要的信息资源。按标准文献内容划分有基础标准、产品标准、方法标准、安全卫生标准等;按成熟程度划分有法定标准、推荐标准、试行标准;按使用范围划分有国际标准、区域标准、国家标准、行业标准、企业标准等。国际标准化机构中最重要、影响最大的是1947年成立的国际标准化组织(ISO)和1906年成立的国际电工委员会(IEC),它们制定或批准的标准具有广泛的国际影响。2023年2月3日第40页标准文献都有标准号,它通常由国别(组织)代码+顺序号+年代组成,如ISO3297-1986。我国的国家标准分为强制性的国标(GB)和推荐性的国标(GB/T),如GB18187-2000、GB/T2662-1999;行业标准代码以主管部门名称的汉语拼音声母表示,如JT表示交通行业标准、SY表示石油行业标准;企业标准编号:Q/省、市简称+企业名代码+年份。国际常用标准文献的代码如下表:代码国家或组织代码国家或组织ISO国际标准化组织DIN德国国家标准IEC国际电工委员会ГOCT俄罗斯国家标准ANSI美国国家标准GB中国国家标准BS英国国家标准ASME美国机械工程师协会标准CEN欧洲标准化委员会ASTM美国材料和实验标准CENELEC欧洲电子技术标准委员会API美国石油协会标准JIS日本工业标准IEEE美国电气与电子标准NF法国国家标准ITU国际电讯联盟标准2023年2月3日第41页标准文献著录的主要外部特征是:标准级别、标准名称、标准号、审批机构、颁布时间、实施时间等。标准文献辨识的直接关键词①是“标准”(Standard)与“标准号”。例如:(1)评定水在烃和脂肪酯润滑剂中溶解度的标准①试验方法,ASTMD4056-2001①(2)信息技术自动识别与数据采集技术条码码制规范①交插二五条码,GB/T16829-2003①(3)RecommendedPracticeStandard①ProcedureforFieldTestingWater-BasedDrillingFluids.SecondEdition,Addendum,1May2000.APIRP13B-1①(4)NACE

Standard①

RP0775-2005①.Preparation,Installation,Analysis,andInterpretationofCorrosionCouponsinOilfieldOperations.2005-04-07.

2023年2月3日第42页4.9专利文献专利(Patent)是受专利法保护的技术发明,并独占其制造、使用和销售的权利。专利文献(PatentLiterature)是实行专利的国家、地区及国际专利组织在审批专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。专利类型有:发明专利(InventionPatent)、实用新型专利(UtilityModelPatent)和外观设计专利(DesignPatent)等。专利文献著录的主要外部特征有:申请号、公开号、申请(专利权)人、发明(设计)人、申请日、公开(公告)日等。申请号的组成:年份(2位)-专利类型(1位)-流水号(5位)-.X(校验位)。如02126306.x。公开号,亦称专利文献号,在专利的初审结束后,给予公开号,组成方式为“国别号+分类号+流水号+标识代码”,如CN1340998A,表示中国的第340998号发明专利。

2023年2月3日第43页专利文献辨识的直接关键词①是“专利号”(包括申请号、公开号)。例如:(1)一种消除注气驱油过程中固溶物沉淀伤害的方法。CN200310103591.7①(申请号),CN1616794①(公开号)。(2)Shmakova-Lindeman,OlgaE.Paraffininhibitors.US

20050215437①(3)Miklos,H.Methodforthetreatmentandpreventionofasphaltene-paraffin-vaxprecipitatesinoil-wells,wellheadsandpipelinesbytheuseofbiocolloidsuspensions.EP1552106①;WO2004031536(A1)①;CA2501359(A1)①;AU2003274389①2023年2月3日第44页4.10电子文献的信息源

电子文献也称数字文献、计算机文件。P33网络或特定服务器上的电子文献是用户便捷的信息来源。1.二次信息数据库,有时习惯上称为文摘数据库。主要包括:书目数据库、文摘数据库、索引数据库,其中文摘数据库的作用、影响最大。如《科学引文索引》(SCI)、《化学文摘》(CA)、《工程索引》(EI)、《石油文摘》(PA)等数据库。2.全文数据库。它是收录有原始文献全文的数据库,以图书、期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。收录有全文图书的数据库有时称为数字图书馆,如前面提到的超星数字图书馆等。有的全文数据库也收录文献的文摘信息,如国外的EBOCO、ProQuestLibrary等。3.数值和事实数据库。4.多媒体数据库。2023年2月3日第45页1.4信息检索现象:

查找资料:例如,常跑书店和图书馆的新书阅览室,注意相应领域新书出版的情况,定期阅览书评与文献报道,了解学术会议的召开和论文交流情况等,在此基础上建立个人的资料档,在需要时随时调看。这种方法虽然有效,但只限于本人所遇到的机会,发现有价值的资料带有一定的偶然性。

现实:检索,是根据特定的需求,运用某种检索工具,按照一定的方法,去寻找资料或信息的工作过程,这种方法利用的是序化的信息系统和信息业提供的服务来满足自己的信息需求。需要知道和利用一些工具。2023/2/3第46页1信息检索的基本概念1.1信息检索的涵义P1从信息集合中找出所需信息的过程。

从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程2023年2月3日第47页P5-11信息检索的方法、意义和作用2023/2/3第48页信息存储和检索过程的基本原理

P153输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析2023年2月3日第49页信息检索的发展手工检索机械信息检索计算机信息检索网络检索移动搜索2023/2/3第50页

计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具的过程。1.2计算机信息检索2023/2/3第51页用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理

计算机信息检索的基本原理2023年2月3日第52页2检索系统

检索系统(retrievalsystem)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。检索系统也称检索工具,他们都具有相同的(P56)检索界面

掌握一种检索工具,其他的都基本一样只要知道URL(P54)就OK了。2023年2月3日第53页3检索语言

检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。

检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。

——在存储的过程中用于标引信息称为标引语言;

——用于编制索引就称为索引语言;

——用于信息检索则称为检索语言。2023年2月3日第54页中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类:(22个)

A马列主义毛泽东思想邓小平理论N自然科学总论

B哲学O数理化科学

C社会科学总论P天文学、地理

D政治、法律Q生物科学

E军事R医学、卫生

F经济S农业科学

G文化、科学、教育、体育T工业技术

H语言、文字U交通运输

I文学V航空、航天

J艺术X环境科学

K历史、地理Z综合性图书

2023年2月3日第55页3.2信息检索的途径

检索途径:以信息源的某一特征为检索的出发点。如著作途径、题名检索途径。

一般有以下两种途径

A、外部特征

B、内部内容2023年2月3日第56页3.2信息检索的途径

2023年2月3日第57页4计算机检索技术

计算机检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、邻近、限定的比较和运算处理技术。2023年2月3日第58页常用的计算机检索技术布尔检索技术1邻近检索技术3字段限定检索技术4截词检索技术22023年2月3日第59页布尔检索P61布尔检索(booleanretrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。2023年2月3日第60页逻辑“与”具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。

检索词A和检索词B用“与”组配,检索式为:

AANDB,或者A*B它表示检出同时含有A、B两个检索词的记录。2023年2月3日第61页逻辑“或”逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示。检索词A和检索词B用“或”组配,检索式为:

AORB,或者A+B它表示检出所有含有A词或者B词的记录。2023年2月3日第62页逻辑“非”

逻辑“非”是一种具有概念排除关系的组配,用“–”或“NOT”算符表示。检索词A和检索词B用“非”组配,检索式为:

ANotB,或者A-B它表示检出含有A词,但同时不含B词的记录。2023年2月3日第63页5信息检索的基本步骤(书上第第六章)分析检索课题1.主题概念2.信息类型3.时间范围4.检索目的构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式调整检索策略(正式检索)1,信息量过多时2.信息量太少时输出检索结果1.文摘2.全文选择检索系统1.学科范围2.系统类型3.系统功能

确定检索词

1.切分2.删除3.替补4.组合5.增加用户评价

2023年2月3日第64页5调整检索策略(正式检索)P155-161

所谓检索策略(searchstrategy)就是为完成检索课题,实现检索目的,对检索的全过程进行谋划之后所制定的全盘检索方案。检索策略的制定过程就是检索提问式的不断完善的过程,使用最初的检索提问式是试验性检索,使用调整后的完善检索策略提问式是正式检索。2023年2月3日第65页调整检索策略(正式检索)1.当检索结果信息量过多时原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。考虑缩小检索范围,方法如下:(1)采用专指性强的主题词(主题词表),减少同义词、同族相关词等相关性不强的检索词;(2)增加限制概念,采用“AND”算符连接检索词或进行二次检索;(3)使用字段限定,把检索词限定在题目、主题词等主要字段;(4)缩短检索年限,限制检索结果的文献类型、语种及出版国;(5)使用“NOT”算符,排除无关概念;(6)调整位置算符,由松变严;(7)改模糊检索为精确检索。2023年2月3日第66页调整检索策略(正式检索)例5:检索建筑物的windows(窗口、窗户)部分设计方面的文献。检索策略调整为以下检索式:((((constructionORbuildingORarchitectur*)WNAllfields)AND((window*)WNTI))NOT((microsoft)WNAllfields))

。例4的检索式在检索英文时是没有问题的,但如果检索中文时仍使用以下检索式:((((序列分析)WNTI)AND((方法*OR工具*OR仪器t*)WNAllfields))AND((地震)WNAllfields)),就会将许多不相关的内容检索出来。因为中文检索词“地震”有两种完全不同的含义:一是英文用“earthquake”,二是英文用“seismic”。因此,正式检索中文资料时,应该调整检索策略,像例5那样使用“NOT”算符,如输入:灾害、损失、伤亡等进行限制。2023年2月3日第67页2.当检索结果信息量太少时P164原因:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“AND”算符。考虑扩大检索范围,方法如下:(1)根据词表的分类结构体系扩展关键的检索词,用“扩展”按钮增加同义词和相关词并用“OR”算符连接这些词;(2)降低检索词的专指度,可从词表或检出文献中选择上位词或泛指词补充到检索式中;(3)减少检索年限、文献类型、语种及出版国的限制,如增加回溯检索年限;(4)取消某些限制过严的字段限制、位置算符限制(或者改用限制程度较小的位置算符)(5)在词干相同的单词后使用截词符(?或*);(6)改精确检索为模糊检索;(7)同时使用拼写正确的词,以及拼写错误的词或存在多种普遍错别字的词作为检索词。2023年2月3日第68页调整检索策略(正式检索)例6:

在数据库中检索同时含有草莓、香草和巧克力三种口味的冰淇淋。英文检索式:(((icecream)ANDstrawberryANDvanillaANDchocolate)WNAllfields)

。中文检索式:(((冰淇淋)AND草莓AND香草AND巧克力)WNAllfields)进行试验性检索后发现,由于中文“冰淇淋”存在多种普遍的错别字,如:“冰激凌”、“冰激淋”、“冰淇凌”等,检索结果极不完整,需要将几种普遍错别字的词作为检索词,并用“OR”算符连接这些词,进一步调整检索策略。此外,例3也是扩大检索范围提高检索结果查全率的一个典型实例。2023年2月3日第69页调整检索策略(正式检索)在实施检索时,应及时分析检索结果与检索的内容、目的和要求是否一致,同时根据检索结果的多少对检索策略进行相应的修改和调整,以获得最佳的查全率和查准率,直至得到比较满意的检索结果为止。2023年2月3日第70页调整检索策略几个措施P155-1641)信息需求分析这是第一步,大家必须掌握P155写出课题名称课题主题内容,主要的词汇主题内容的相关词,信息源类型年代、语种以及其他检索条件分析2)选择数据库3)确定检索词4)编制检索式.执行检索5)调整检索式,优化策略信息检索的基本步骤1)分析检索课题

2)选择检索系统

3)确定检索词

4)构造检索式5)调整检索策略6)输出检索结果

2023年2月3日第71页6输出检索结果

输出结果一般文摘或全文。文摘数据库的记录输出方式一般有三种方式:浏览、打印和存盘;输出格式一般有四种方式:“打印格式(formatforprint)”、“存为文件格式(savetofile)”、“输出格式(export)”、“email发送格式(E-mail)”。

全文数据库的输出方式一般也有三种方式:浏览、打印和存盘;输出格式一般有四种情况:(1)HTML文件;(2)PDF文件;(3)图像文件(需安装IE浏览器插件);(4)数据库专用阅读器文件(需安装数据库商的专用浏览器,如国内的CAJViewer、超星阅览器)。2023年2月3日第72页将向同学们推荐实现书目和全文信息检索数据库有:国内数据库中文科技期刊数据库(vip)-学校已购买中国期刊全文数据库(cnki)-学校已购买万方数据库-学校已购买超星电子图书馆-学校已购买NSTL-国家科技图书文献中心

–网络注册使用中国国家知识产权局专利数据库-网络注册使用2023年2月3日第73页国外数据库Eivillage2-已购买使用权ElsevierScience-已购买使用权IEEE/IEEElectronicLibrary-已购买使用权

ISIWebofScienceCambridgeScientificAbstractsProQuestDigitalDissertations美国专利文献数据库:加拿大专利数据库:http://patents1.ic.gc.ca/欧洲专利数据库:/日本专利数据库:www.jpo.go.jp2023年2月3日第74页查全率和查准率信息检索的查全率和查准率是信息检索领域内的概念,二者是反映检索效果的重要指标

查准率(精度)是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。普遍表示为:查准率=(检索出的相关信息量/检索出的信息总量)x100%。查全率(召回率),是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献总量的比率。普遍表示为:查全率=(检索出的相关信息量/系统中的相关信息总量)x100%。使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。两者的关系:查全率和查准率之间具有互逆的关系,一个IR系统可以在它们之间进行折中。改变检索项、减少限制条件,都可以提高查全率。书上:P164-1652023年2月3日第75页信息检索效果的评价指标(2/3)1、信息检索查全率查全率=相对查全率=

式中,a为相关的文献的命中数;c相关文献的遗漏数。

2、信息检索查准率查准率=

相对查准率=式中,b为不相关的文献数(噪声)。

2023年2月3日第76页信息检索效果的评价指标(3/3)3、信息检索漏检率漏检率=

4、信息检索误检率误检率=

5、信息检索响应时间及其他指标

传统的评价指标还有:

1)收录范围:一个系统收录的文献是否齐全,包括专业范围、语种、年份与文献类型等,这是提高查全率的物质基础;

2)工作量:从系统获得相关文献,必需消耗的精力和工作时间;

3)可用性:按可靠性、年代与全面性的因素看检出文献的价值;

4)外观:检索结果的输出形式。2023年2月3日第77页举例:网络环境下政府信息资源开发利用的研究来阐述信息检索的步骤这个与检索策略的步骤是有区别的:①分析检索课题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论