数字文献检索基础库_第1页
数字文献检索基础库_第2页
数字文献检索基础库_第3页
数字文献检索基础库_第4页
数字文献检索基础库_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字文献检索基础库第一页,共五十三页,编辑于2023年,星期六第1章数字文献检索基础1.1数字文献及其检索概述1.2数字文献的检索技术1.3数字文献的检索策略1.4检索效果评价第二页,共五十三页,编辑于2023年,星期六2023/5/3121.1数字文献及其检索概述1.1.1文献及数字文献概述

1.文献的概念

2.文献的类型

3.数字文献的概念

4.数字文献的特点1.1.2数字文献的检索语言

1.数字文献检索

2.数字文献检索语言第三页,共五十三页,编辑于2023年,星期六2023/5/3131.文献的概念世界上最早的文献:产生于距今大约10000~40000年前的旧石器时代。最古老的文献:石刻图像、楔形文字文献、纸草文献、克里特线性文字文献、甲骨文献等。文献定义:记录有知识的一切载体。文献构成:由知识、载体和记录方式3个要素构成,知识是内容,载体是形态,记录方式是构成文献的手段,三者不可分割。第四页,共五十三页,编辑于2023年,星期六2023/5/3142.文献的类型文献有多种分类方式(1)按文献出版形式和内容划分①图书②报刊③科技报告④政府出版物⑤会议文献⑥学位论文⑦专利文献⑧标准文献⑨产品样本⑩其他零散资料(2)按文献载体形式划分①印刷型文献②缩微型文献③视听型文献④机读文献(3)按文献加工层次分①零次文献②一次文献③二次文献④三次文献第五页,共五十三页,编辑于2023年,星期六2023/5/3153.数字文献的概念数字文献指以数字形式把文字、图像、声音和动画等多种形式的信息,存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。主要的类型有:按表现形式:数据库、电子图书、电子期刊、电子报纸等按性质和功能:一次数字文献、二次数字文献和三次数字文献按生产途径和发布:商用电子资源、网络公开学术资源和特色资源按生产方式:原生数字文献和复合数字文献按数据传播范围:网络信息资源和单机信息资源按存储介质:磁介质和光介质第六页,共五十三页,编辑于2023年,星期六2023/5/316全文数据库1)数据库,是以一定的组织方式存储在一起的相关数据的集合,是数字文献最早的形式,也是数字文献的主要构成部分,包括全文数据库、文摘/题录数据库和参考数据库等类型。①全文数据库,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例以及商业信息等为主。如国内著名的全文数据库有中国知网的中国期刊全文数据库、重庆维普的中文科技期刊数据库等;国外有ProQuest系统、EBSCOhost系统以及SpringerLink系统等第七页,共五十三页,编辑于2023年,星期六2023/5/317文摘/题录数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,揭示文献信息的内容。按数据库内容,可划分为书目数据库、文摘数据库和索引(题录)数据库。书目数据库主要是针对图书进行内容及存储地址的报道与揭示的,如各图书馆的馆藏机读目录数据库;文摘和索引数据库则相对期刊论文、会议论文、专利文献和学位论文等进行内容和属性的认识与加工,它提供确定的文献来源信息,供人们查阅和检索。科学引文索引(SCI)、社会科学引文索引(SSCI)、工程索引(EI)和科学技术会议录索引(ISTP)是世界上最权威的四大索引,均属文摘/题录数据库。第八页,共五十三页,编辑于2023年,星期六2023/5/318参考数据库是指包含大量事实、数据,以及其他类型文献信息的数据库,具体有数值数据库、指南数据库、术语数据库、视频数据库、英语学习数据库和考试系统等。数值数据库,指以数值为主要内容的数据库,如统计数据库、化学反应数据库等;指南数据库,是有关机构、人物等相关信息的简要描述,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。视频数据库,是指能够以多媒体方式播放的相关信息内容的数据库,如爱迪科森网上报告厅、超星学术视频等;英语学习系统,主要是指以英语学习为主要内容的数据库,如新东方多媒体学习库、冰果英语和EBSCO的学生英语学习中心(SRC)等;考试系统是指提供试题和模拟考试的数据库系统,如银符考试系统、起点考试系统等。第九页,共五十三页,编辑于2023年,星期六2023/5/319电子图书、电子期刊和电子报纸电子图书:直接以数字形式出版的图书或印刷型图书的数字化形式,是以电子版的方式(其载体主要为光盘或网络等)呈现的,并通过计算机或电子图书阅读器进行阅读的一种电子文献。如国外的NetLibrary、Ebrary;国内的超星电子图书、书生电子图书和方正Apabi电子图书等。电子期刊:是指所有以电子形式存在的期刊,包括印刷型期刊的电子版、无印刷版的网络型电子期刊。与纸本期刊并行的电子期刊,如著名的《科学》(Science)、《自然》(Nature)、Elsevier/Wiley/Springer/Kluwer等出版商的电子期刊等;纯电子期刊,如《数字图书馆杂志》(D-LibMagazine)。电子报纸:指综合运用多媒体技术、网络技术和通信技术,完成出版、发行、利用全过程的新闻媒体。电子报纸的内容可以是文字、表格、彩色图形、图像,甚至是声音、动画等的多媒体信息。

第十页,共五十三页,编辑于2023年,星期六2023/5/31104.数字文献的特点1)高度的共享性。2)类型的多样性。3)检索的便利性。4)信息的时效性。5)信息的不安全性。第十一页,共五十三页,编辑于2023年,星期六2023/5/31111.1.2数字文献的检索语言1.数字文献检索:是指通过检索系统,采用一定的技术手段,根据一定的原则,在数据库或其他形式的数字文献中自动找出用户所需相关信息的过程。广义的检索包括信息的存储和检索两个过程,狭义的检索仅包括用户的信息检索过程。在数字文献检索发展过程中,先后经历脱机检索、联机检索、光盘检索和网络检索四个阶段。目前,网络检索已成为广大用户获取信息的主要方式。第十二页,共五十三页,编辑于2023年,星期六2023/5/3112广义的信息检索过程第十三页,共五十三页,编辑于2023年,星期六2023/5/31132.数字文献检索语言检索语言,是信息存储与检索过程中用于描述文献特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。

文献具有外部特征和内容特征。外部特征有题名(书名、篇名和刊名)、著者(个人、团体)、号码(专利号、标准号、国际标准书号ISBN和国际标准刊号ISSN等)、机构名(责任者所属机构、出版发表机构)以及时间等;内部特征指文献内容所属的学科和文献内容的研究对象。第十四页,共五十三页,编辑于2023年,星期六2023/5/3114文献检索语言与检索途径关系第十五页,共五十三页,编辑于2023年,星期六2023/5/3115《中图法》结构第十六页,共五十三页,编辑于2023年,星期六2023/5/3116TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程工业技术所含学科较多,其下位类用二个大写英文字母表示第十七页,共五十三页,编辑于2023年,星期六2023/5/3117

H31英语

H32/H37各种常用外国语均可仿H31分

H32法语

H33德语

H34西班牙语

H35俄语

H36日语

H37阿拉伯语H3常用外国语第十八页,共五十三页,编辑于2023年,星期六2023/5/3118H311语音H311.9朗诵法、演讲术H312文字H313语义、词汇、词义H313.1基本词汇H313.2同义词、多义词、反义词H313.3熟语、俗语H313.5外来语H313.6略语H313.9词源H314语法H314.1构词法H314.2词类H314.3句法H315写作、修辞H315.9翻译H316词典H317方言H319语文教学H31英语第十九页,共五十三页,编辑于2023年,星期六2023/5/3119H319.1教学改革H319.2教学计划、教学大纲H319.3教学法英语学习方法入此。仿H193分H319.4读物以提高阅读能力为目的各科简易读物、对照读物、注释读物入此。H319.6习题、试题H319.9会话口语、会话教材、听说读练习、视听教学入此H319语文教学第二十页,共五十三页,编辑于2023年,星期六2023/5/3120

R1预防医学、卫生学

R2中国医学

R3基础医学

R4临床医学

R5内科学

R6外科学

R71妇产科学

R72儿科学

R73肿瘤科学

R74神经病学与精神病学

R75皮肤病学与性病学

R76耳鼻咽喉科学

R77眼科学

R78口腔科学

R79外国民族科学

R8特种医学

R9药学R医药、卫生第二十一页,共五十三页,编辑于2023年,星期六2023/5/3121R2中国医学R21中医预防、卫生学

R22中医基础理论

R24中医临床学

R25中医内科

R26中医外科

R271中医妇产科

R272中医儿科

R273中医肿瘤科

R274中医骨伤科

R275中医皮科

R276中医五官科

R277中医其他学科

R278中医急症学

R28中药学

R29中国少数民族医学第二十二页,共五十三页,编辑于2023年,星期六2023/5/3122R3基础医学R31医用一般科学

R32人体形态学

R33人体生理学

[R34]人体生物化学、分子生物学

[R35]人体生物物理学

R36病理学

R38医学寄生虫学

R392医学免疫学

R394医学遗传学

R395医学心理学、病理心理学第二十三页,共五十三页,编辑于2023年,星期六2023/5/3123R4临床医学R44诊断学

R45治疗学

R47护理学

R48临终关怀学

R49康复医学第二十四页,共五十三页,编辑于2023年,星期六2023/5/31241.2数字文献的检索技术1.2.1布尔逻辑检索技术1.2.2截词检索技术1.2.3位置检索技术1.2.4字段检索技术第二十五页,共五十三页,编辑于2023年,星期六2023/5/31251.2.1布尔逻辑检索技术检索词:是单字匹配?还是词组匹配?或者是句子匹配?举例:《私营企业人力资源研究》如何检索?布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)第二十六页,共五十三页,编辑于2023年,星期六2023/5/3126逻辑与逻辑与也称逻辑乘:使用符号“and”

或“*”表示所连接的两个检索词必须同时出现在结果中才满足检索条件。检索式可表达为:AandB或A*B。如“图书馆and服务”,要求结果必须同时包含“图书馆”和“服务”。使用“逻辑与”技术,可以增加限制条件,缩小检索范围,增强检索的专指性,提高信息检索的查准率。检索式中,逻辑与连接的检索词越多,检索结果就越少。第二十七页,共五十三页,编辑于2023年,星期六2023/5/3127逻辑或逻辑或也称逻辑和:使用符号“or”或“+”表示所连接的两个检索词中任意一个出现在结果中就满足检索条件。检索式可表达为:AorB或A+B如“文献or知识”,要求结果包含“文献”或包含“知识”或同时包含“文献”和“知识”。使用“逻辑或”技术,常用于连接同义词、相关词等,可以扩大检索范围,防止漏检,提高信息检索的查全率。第二十八页,共五十三页,编辑于2023年,星期六2023/5/3128逻辑非逻辑非也称逻辑差:使用符号“not”或“-”表示所连接的两个检索词中应从第一个概念中排除第二个概念。检索式可表达为:AnotB或A-B如“文献not图书”,要求结果必须包含“文献”但不包含“图书”。使用“逻辑非”技术,可以剔除不需要的概念,缩小检索范围,提高信息检索的查准率;但这种方式也会排除掉相关信息,影响检索信息的查全率。第二十九页,共五十三页,编辑于2023年,星期六2023/5/3129举例例如检索:“打印机驱动程序”查询关键词:打印机、驱动程序检索表达式:打印机*驱动程序例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机+微机第三十页,共五十三页,编辑于2023年,星期六2023/5/3130举例例:检索“唐宋诗歌”的有关信息关键词:唐、宋、诗歌;检索表达式:(唐+宋)*诗歌;唐*诗歌+宋*诗歌;错误表达式:唐+宋*诗歌;唐*宋*诗歌;唐+宋+诗歌;唐*宋+诗歌;第三十一页,共五十三页,编辑于2023年,星期六2023/5/3131注意布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异,即所使用的逻辑符号可能是不同的。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。一般情况下请按以下规则使用逻辑符号,但并非所有数据库和搜索引擎都是如此,具体请参考所用数字资源。中文数据库用:*+-andornot西文数据库用:andornot搜索引擎用:︺,-第三十二页,共五十三页,编辑于2023年,星期六2023/5/31321.2.2截词检索技术主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。原因:在检索中,常会遇到一些词干相同、词义相近的检索词或有英、美不同拼写法的词。作用:为使检索时不遗漏相关词,扩大检索范围,提高查全率,常使用截词检索。截词符一般用“?”、“*”、“$”和“!”等,不同的系统,不同的数据库,其代表的含义可能有所不同。截词方式根据截词的位置不同,分为前截断、后截断、前后截断和中截断;根据截断的数量不同,分为有限截断和无限截断。第三十三页,共五十三页,编辑于2023年,星期六2023/5/3133截词位置前截断(左截断、后方一致):允许检索词前有若干变化。如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。后截断(右截断、前方一致):允许检索词尾有若干变化。如comput*将检索出computer、computing、computerised、computerized、computerization等结果。前后截断(中间一致):词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如*computer*可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。中间截断(前后一致):允许检索词中间有若干变化。例如wom*n可检索出woman、women。英美的不同拼法,defen*e可检索出defence、和defense的结果。第三十四页,共五十三页,编辑于2023年,星期六2023/5/3134请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“$”等。即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。在允许截词的检索工具中,一般是指后截断,部分支持中间截断,左截断比较少见。我们将要使用的一些数据库,一般用“?”代表一个字符,用“*”代表任意一个字符串。第三十五页,共五十三页,编辑于2023年,星期六2023/5/31351.2.3邻近检索技术

邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治”的文献,若用检索式:

“biologicalandcontrol”检索,则会将“抑制生物”

“controlbiological”的文献也查出来,这显然不是所需文献。主要有相邻位置算符(W)、(nW)、(N),(nN)第三十六页,共五十三页,编辑于2023年,星期六2023/5/31361.(W)算符(W)算符:表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control

相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM。

第三十七页,共五十三页,编辑于2023年,星期六2023/5/31372.(nW)算符(nW)算符:(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wearmaterials、wearofmaterials等词。第三十八页,共五十三页,编辑于2023年,星期六2023/5/31383.(N)和(nN)算符(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。(nN)表示两词间可插入最多n个词,词序可变,如检索式environment(2N)protection就可检索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”等内容的结果Information(1N)retrieval

可检出:informationretrievalretrivealofinformation第三十九页,共五十三页,编辑于2023年,星期六2023/5/3139请注意

邻近检索对提高检索的查全率和查准率有重要作用。不同的系统,不同的数据库,截词符号虽然含义相同,但形式可能有所不同。①有的可能有括号,有的可能没有。②小写n有时在大写的W、N前面,有时在大写的W、N后面。③常见的形式有:(W)、W、();(N)、N;(nW)、nW、(Wn)、Wn;(nN)、nN、(Nn)、Nn;第四十页,共五十三页,编辑于2023年,星期六2023/5/31401.2.4字段检索技术字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。基本检索字段及代码主要有:如题名(TI)、主题词/叙词(DE)、文摘(AB)和ID(标识词)等,适用于所有数据库。一般基本检索字段放在检索词(或检索式)后,用“/”、“:”或“in”等连接。辅助检索字段及代码主要有:作者(AU)、语种(LA)、刊名(JN)、来源出版物(SO)、出版年代(PY)和文献类型(DT)等。辅助检索字段放在检索词(或检索式)前,用“=”、“>=”、“<=”、“>”或“<”等连接。注意:不同的数据库其字段代码可能不同。第四十一页,共五十三页,编辑于2023年,星期六2023/5/3141字段代码表西文数据库常用字段字段代码中文数据库常用字段AbstractsAB文摘、摘要Author/CorporateSourceAU/CS作者、著者/机构Descriptor、Subject、TopicDE、SU、TO叙词/主题词DocumentType、PublicationTypeDT、PT文献类型、出版物类型Full-textFT全文ISBN、ISSNBN、SN国际标准书号、刊号JournalNameJN刊名KeywordKW、KY关键词LanguageLA语种PublicationYearPY出版年SourceSO来源TitleTI题名、标题第四十二页,共五十三页,编辑于2023年,星期六2023/5/31421.3数字文献的检索策略检索策略就是在分析信息需求内容实质的基础上,为实现检索目标而制定的一个合理的检索方案。1.3.1信息需求分析1.3.2数据库的选择1.3.3检索词的确定1.3.4检索表达式的构造第四十三页,共五十三页,编辑于2023年,星期六2023/5/31431.3.1信息需求分析1.明确检索目的2.分析所需信息学科属性和主题概念3.确定检索的信息类型和时间范围第四十四页,共五十三页,编辑于2023年,星期六2023/5/31441.3.2数据库的选择数据库选择要考虑所选择数据库是否与信息需求结合紧密、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确以及检索功能是否完善等问题。具体选择数据库可借鉴国外称之为“4C”的原则:①内容(Content)。②范围(Coverago)。③时效(Currency)。④费用(Cost),了解所选数据库的收费标准。第四十五页,共五十三页,编辑于2023年,星期六2023/5/31451.3.3检索词的确定确定检索词要考虑满足课题检索要求和数据库输入词的要求,检索词选择得恰当与否,会直接影响检索效果。检索词可分为四类:一是表示主题的检索词,如标题词、单元词、叙词或关键词。二是表示作者的检索词,如作者姓名、机构名等。三是表示分类的检索词,如分类号等。四是表示特殊意义的检索词。如专利号、ISBN号、ISSN号或分子式等。检索词的选择与确定需要遵循下列两个原则。第一,根据检索课题所涉及的学科内容选词。第二,对检索词进行处理。第四十六页,共五十三页,编辑于2023年,星期六2023/5/31461.3.4检索表达式的构造检索表达式是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种检索算符组配构成,确定检索词之间的概念关系和位置关系,准确表达课题需求的内容。检索表达式需要能够完整而准确地反映用户需求的主题内容,适应所查数据库的索引体系和检索用词规则,同时必须符合检索系统的概念及限制条件的规定。在检索式的构造中,检索算符主要包括前面提到过的布尔逻辑算符、截词算符、位置算符、字段算符以及括号等。不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。第四十七页,共五十三页,编辑于2023年,星期六2023/5/31471.4检索效果评价1.4.1概述1.4.2查全率1.4.3查准率第四十八页,共五十三页,编辑于2023年,星期六2023/5/31481.4.1概述一个理想的检索系统,应该是用户需要什么信息,它就能向用户提供什么信息;用户需要多少信息,它就能提供多少信息;其检索结果不多也不少,而又使用方便,反馈信息的速度也很快。但是,目前实现这样的检索系统还存在许多困难。实际上,检索效果就是看检索出的相关文献或信息有多少。不同的检索系统,其检索效果是不一样的。同样的检索系统,如果具有不同的检索能力,其检索效果也是不一样的。对检索效果进行评价,就能为改善检索系统性能提供明确的参考依据,进而更有效地满足用户的信息需求。对检索系统进行评价时,其判定检索效果的主要指标是查全率和查准率。第四十九页,共五十三页,编辑于2023年,星期六2023/5/31491.4.2查全率查全率,是指检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。当进行检索时,检索系统把

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论