第四讲检索工具技术步骤与评价详解演示文稿_第1页
第四讲检索工具技术步骤与评价详解演示文稿_第2页
第四讲检索工具技术步骤与评价详解演示文稿_第3页
第四讲检索工具技术步骤与评价详解演示文稿_第4页
第四讲检索工具技术步骤与评价详解演示文稿_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲检索工具技术步骤与评价详解演示文稿当前1页,总共55页。优选第四讲检索工具技术步骤与评价当前2页,总共55页。34.1.2信息检索工具的作用:存储作用将大量分散的、不同种类、不同学科的信息资料,进行组织排列使信息由分散到集中,由无序到系统化。报道作用把不同学科信息的类型、数量、质量展示给信息利用者,促进信息传递和使用检索作用以特征序化而形成检索途径可使人们根据特征来寻求与之相对应的信息或文献。当前3页,总共55页。44.1.3检索工具的类型可按收录范围、载体形式、加工手段等划分一、按检索工具提供文献信息的特点划分为:一)线索型(目录、题录、文摘、索引)二)事实型三)全文型四)引文型当前4页,总共55页。5目录:是以一件或一种完整的出版物(如一本书、一种期刊等)作为著录基本单位的检索工具。

主要揭示、报道出版物的外表特征。作用主要是提示藏书,指导阅读。一)线索型检索工具当前5页,总共55页。6题录:是以单篇或单份文献为著录的基本单位的检索工具,题录也主要揭示、报道文献的外表特征,但其著录格式于目录有所不同。【论文题名】网络环境下信息检索与报道服务浅析

【英文题名】InformationRetrievalandReportServiceinNetworkEnvironment

【作者】丁彩云DINGCai-yun

【作者单位】湖南化工职业技术学院,图书馆,湖南,株洲,412004

【刊名】株洲师范高等专科学校学报

【英文刊名】JOURNALOFZHUZHOUTEACHERSCOLLEGE

【年卷期】2005Vol.10No.2

【关键词】图书馆;网络环境;信息搜集;信息检索;信息报道

一)线索型检索工具当前6页,总共55页。7文摘:是在题录的基础上,在每条著录款目后边再加上文献内容的摘要。【论文题名】网络环境下信息检索与报道服务浅析

【英文题名】InformationRetrievalandReportServiceinNetworkEnvironment

【作者】丁彩云DINGCai-yun

【作者单位】湖南化工职业技术学院,图书馆,湖南,株洲,412004

【刊名】株洲师范高等专科学校学报

【英文刊名】JOURNALOFZHUZHOUTEACHERSCOLLEGE

【年卷期】2005Vol.10No.2

【关键词】图书馆;网络环境;信息搜集;信息检索;信息报道

【摘要】网络环境下的信息服务已对图书馆的机构组织、人员素质、服务水平和社会地位产了巨大影响.掌握网络环境下的信息服务特点和方法,尽快适应网络环境已成为图书馆提高信息服务质量的重要课题.

一)线索型检索工具当前7页,总共55页。8索引:是把特定范围内文献中的有关款目或知识单元(如书名、刊名、人名、地名、语词等外表或内容特征)按照描述语言形成标识,按其固有顺序排列起来,并指明出处,为用户提供文献线索的一种检索工具。

一)线索型检索工具当前8页,总共55页。二)事实型检索工具检索结果是回答问题的知识本身,而不是查找知识的线索。包括事实、数据、知识内容等。三)全文型检索工具特点:提供完整的文献单元内容;不保证内容是否绝对真实、正确。四)引文型检索工具主要功能是用来查找文献间引证关系(继承、评价)如SCI、CSCD等。9当前9页,总共55页。二、按信息加工处理的手段分一)手工检索工具历史悠久;形式多样;词义检索;人脑判断与筛选(詹德优《中文工具书导论》中分为8类):书目、索引、文摘;字典、辞典;类书、政书;百科全书;年鉴、手册、名录;表谱;图录;丛集汇要。二)机械检索工具(过渡形式)三)计算机检索工具(数据库)当前主流。更能满足用户对检索的主要要求:准:要求检出的文献有针对性,能解决研究中的具体问题。全:全面了解某一特定领域(问题)的发生、发展和现状。新:掌握最新动态或进展。快:最短时间内获得结果。定义、历史发展、系统构成、类型划分(自学,教材P50-54)10当前10页,总共55页。11常用的外文生物医学数据库:PubMed数据库荷兰《医学文摘》数据库(EM)《生物学文摘》数据库(BA)化学文摘数据库(CA)《科学引文索引》数据库(SCI)常见的中文生物医学数据库:中国生物医学文献数据库(CBMdisc)中国知网维普资讯网(维普智立方)万方数字化期刊中医药文献数据库当前11页,总共55页。121、数据库的结构当前12页,总共55页。13数据库是检索系统的信息源和核心。利用一个数据库,首先要了解其结构。不同的数据库,虽然利用原理相同,但由于数据内容和利用目的的不同,使得其数据结构和文献记录标引方式也有一定的差异,因而其利用也各有特点。数据库对文献特征的组织和揭示影响着数据库的利用及效果。各种数据库的共同点(P54)数据库结构均为字段、记录、文档3个层次的构成。当前13页,总共55页。14

(从大到小)文档记录字段

若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。组成记录的数据项目当前14页,总共55页。15文章号篇名作者文摘全文001asdZhouXxx……..002bysDangYyy……..……vcaWenzzz……..篇名文章号Asd001Bys002vca……作者文章号Dang002Wen……Zhou001索引文档1:篇名索引索引文档2:作者索引主文档(顺排文档)检索篇名检索作者当你要在篇名中查找时,搜索指令将在篇名索引中进行搜索,然后将主文档中对应的记录调出来各项数据以构成一张横竖对齐的二维表格形式存放于数据库文件(库文件)中。文章号唯一,且索引文档与主文档的文章号一一对应索引文档(倒排文档)文档(File)由众多记录按一定方式组织在一起形成。当前15页,总共55页。162、搜索引擎(Searchengine)P58概念:是根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后显示给用户,为用户提供检索服务的系统。原理:同样分为信息存储与信息检索两个过程。将存储信息与检索需求进行相似度计算,并按一定的排序原则显示在屏幕上。当前16页,总共55页。17搜索引擎分类按工作方式:全文搜索引擎代表:百度,谷歌目录索引类搜索引擎代表:早期的Yahoo其他搜索引擎名称:元搜索引擎集合式搜索引擎门户搜索引擎免费链接列表本部分内容安排有实习,此处不展开讲解。当前17页,总共55页。184.2计算机信息检索基本技术P55计算机信息检索技术:是指从计算机信息系统中提取符合用户信息需求相关信息的技术。常用计算机算符:布尔逻辑算符字段限定符截词符位置算符其他……当前18页,总共55页。194.2.1布尔逻辑检索与布尔算符:来源:(布尔代数)逻辑与、逻辑或、逻辑非。作用:布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个逻辑表达式。计算机根据逻辑表达式查找符合限定条件的文献信息。

布尔算符形式(3种):逻辑与(AND)逻辑或(OR)逻辑非(NOT)当前19页,总共55页。20布尔逻辑算符一、逻辑“与”(AND)表达概念间交叉限定关系的一种组配;作用:描述更为准确,缩小检索范围,提高查准率。例:查找“胰岛素治疗糖尿病”的文献,基本检索式为:

insulinANDdiabetes胰岛素AND糖尿病检索式“AandB”表示文献中同时包含检索词A和检索词B的文献才是命中文献。(如右图)

当前20页,总共55页。21布尔逻辑算符

二、逻辑“或”(算符:OR)表达概念间并列关系的一种组配;作用:扩大检索范围,提高查全率。

如:查找“肿瘤”的检索式为cancer(癌)

ortumor(瘤)orcarcinoma(癌)orSarcomas(肉瘤)

or

neoplasm(新生物)orlymphoma(淋巴瘤)……。检索式“AorB”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。

使用注意:处理好整体与部分的关系,避免漏检。当前21页,总共55页。22布尔逻辑算符三、逻辑“非”(算符:NOT)表达概念间不包含关系的一种组配。作用:缩小检索范围,提高查准率。例:查“动物(非人类的)感染乙肝病毒”的相关文献。检索式:hepatitisBvirus(乙肝病毒)NOThuman(人类)?“AnotB”表示包含检索词A但不包含检索词B的文献为命中文献。使用需注意:处理好交叉关系,避免漏检。当前22页,总共55页。23运算次序与注意事项运算次序在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。一般情况下,运算优先级别如下所示(可以使用括号改变运算次序)。()>NOT>AND>OR例:检索厚朴或槟榔对兔离体肠平滑肌运动功能的影响.(厚朴OR槟榔)AND平滑肌实际使用中,不同数据库对运算次序解释不同。当前23页,总共55页。24检索实例:例:查找有关肿瘤引起的贫血的非英文文献

neoplasms(肿瘤)/complications(并发症)

anemia(贫血)/etiology(病因学)

English#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(或LA=English)#420(#1and#2)not#3当前24页,总共55页。25截词检索:利用计算机特有的指定位对比判断功能,使不完整词能与标引词进行比较、匹配的一种检索。实质是用逻辑OR对具有相同的词头或词尾的词汇进行检索。截词符号也称通配符,通常用“*”代表无限多字符组合,而用“?”代表任意一个字符。4.2.2截词检索与截词符当前25页,总共55页。26一、后截断:将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符组合方式均符合该字符串的检索要求。后截断检索技术最常用,其主要用途有:词的单复数,如book?同根词,例如biolog*,physic*年代,例如199?,19??作者,例如:Lancaster*例如:

hypertensi??可查到hypertension、hypertensive。

hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。

当前26页,总共55页。27

二、前截断:将截词符号放在一个字符串的左方,以表示其左方有有限或无限个字符。前截断因为实现技术上较困难,在检索系统中比较少见。其主要用途在于:进行一个主题在不同领域应用情况的检索;在化学化工文献中多有类似情况。例1:*magnetic,可检索出magnetic(有磁性的)、electro-magnetic(电磁的)、patamagnetic(顺磁的)、thermo-magnetic(热磁的)thermomagnetic等词的文献。例2:*sighted,可查到farsighted与nearsighted。

当前27页,总共55页。28

三、中截断:将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如:

wom?n,可查到Woman,Women。

defen?e,可查到defense,defence。当前28页,总共55页。29截词检索在大多数检索系统可基本实现。截词检索的优势:是防止漏检的有力手段。能扩大检索范围,提高查全率;可以减少检索词的输入工作量;简化检索步骤(不需要用OR进行同义词的组配)。注意截断部位是否合适:不是所有用截词符产生的单词与你的检索意图相一致。当前29页,总共55页。304.2.3限定检索与字段限定符(1)“in”表示将“in”左侧检索词限定在某个字段名内查找。如:HypertensioninTI_(2)“=”、“<”、“>”、“>=”、“<=”符号主要用于限定查找年代。如:PY=2014,表示要求检出2014年出版的文献。当前30页,总共55页。314.2.4位置检索与位置算符(了解即可)又称邻近检索,是对检索词之间的相对位置进行限制。包括在记录中出现的顺序和相对位置。运算符都用“()”括起,前后不留空格。(1)with算符:(W)与(nW)表示此算符两侧的检索词在命中记录中必须出现在同一字段中(如篇名或文摘等),位置相邻且顺序不可颠倒。(2)near算符:(N)与(nN)

A(N)B表示命中记录中左右两个检索词出现在同一句子中。无论语序。

当前31页,总共55页。324.2.5其他检索技术一、加权检索(WeightingSearching

是一种定量检索的技术。从权重方面对检索词之间的组配关系加以限制和表示。在每个提问词后面给定一个数值表示其重要程度,这个数值称为权(Weight),在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈值,该记录为命中文献。缩小检索范围,提高检准率的有效方法。当前32页,总共55页。33二、聚类检索:计算文献的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。主题相近、内容相关的文献聚在一起,相异的被区分开来。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。当前33页,总共55页。34三、扩展检索:主题词或副主题词都可能存在含义的等级关系。检索领域常见的“扩展”选项是指如果选择该方式,系统将自动在指定的等级关系体系中把该词的下位词同时选中,词间关系为“逻辑或/OR”的关系。当前34页,总共55页。354.3信息检索步骤P28一、分析研究课题、明确检索要求明确检索目的和要求。了解检索者的具体要求,以及需检索出文献要解决的实质问题(一个课题可有多个问题,一次检索最好解决一个问题)。寻找探索性、开创性课题——需要查出一些启发性文献;课题申报——尽可能全面掌握相关资料;科研过程中问题解决——针对性、可行性方案筛选;鉴定评奖——与科研成果最相关的信息;确定检索范围。确定解决某一特定问题需涉及的学科范围、文献类型、时间区段、文献语种,以及文献数量等。学科范围:(如药物:基础研究or临床应用?)厘清检索词及词间关系。有检索意义的术语(拼写,同义词、近义词及相关词)及其他特征(如文献类型、有无专利申请可能)。通过检索词及其组成的逻辑关系式来进行检索检索词的选择直接关系到检索结果的质量。当前35页,总共55页。36二、选择检索工具或数据库注意——根据检索课题的主题及学科范围来选择相对应的检索系统或工具。1)与课题关系密切的信息源或检索系统有哪些?熟悉检索课题所涉及的学科范围、有无分支问题?了解课题专业涉及的数据库学科覆盖范围。2)检索者的目的?一般了解?系统了解?对科研项目内容的全部研究的把握?能解决问题的可行方法?一种?多种?1.选择检索工具(系统)时注意:①收录文献要全(量大);②文献的著录要标准(结果准确);③检索途径要多(索引功能完备);④时差要短(更新快)。4.3信息检索步骤当前36页,总共55页。374.3信息检索步骤三、确定检索方法(教材P28)检索方法应根据检索工具的收藏条件、检索要求、检索范围以及对学科背景等因素的了解程度而确定。①浏览法:科技人员通过浏览阅读核心期刊来获取本学科信息的方法。平时获取信息的重要方法。优点:最快获取信息;直接阅读全文;基本上能掌握本学科发展动态和水平。缺点:必须事先了解本学科核心期刊种类;检索范围小,易漏检。②追溯法:利用已获得的有较大参考价值的文献后面的参考文献,以之为线索由近及远,进行逐一追踪的查找方法。优点:不需利用检索系统,查找方法简单;缺点:检索效率不高;漏检率高;对最新进展掌握不够。当前37页,总共55页。38①浏览法:②追溯法:③常用法:利用检索工具查找文献的方法。顺查法:是由远到近的查找。多用于已知所查主题起始年代时。查全率高。倒查法:是由近及远的查找。效率高,最快速度获取最新信息。计算机检索多不区分,但倒查法因效率高多用,且可用于掌握课题的新资料。抽查法:在事先了解某学科呈波浪式发展情况下使用。集中在学科发展高峰期获取较多文献。④循环法:又称分段法,是交替使用“常用法”和“追溯法”来进行检索的综合检索方法。即利用检索系统查到一批文献资料,又利用这些文献所附的参考文献追溯查找。优点:即全面获得一段时间内某课题的最新资料,又能了解重要观点的历史发展。科研时常用。4.3信息检索步骤当前38页,总共55页。394.3信息检索步骤四、确定检索途径与检索标识1、根据检索课题的要求和已知条件,结合检索工具的特点,确定检索途径。每篇文献均有内容特征及外表特征,在检索系统中特征表现为标识符号。同性质检索标识的集合形成了检索工具的检索途径。也称检索点(accesspoint)。2、确定在该检索途径中有效的检索词(检索标识)课题中有检索意义的特征形成检索标识。在检索中能有效使用的特征标识,应是所使用检索工具有效的检索标识。当前39页,总共55页。40文献检索的常用途径1.题名:注意题名关键词的排序特征2.作者:通常按姓在前名在后方式检索3.分类:我国文献资料一般采用《中国图书馆图书分类法》(简称《中图法》)进行分类。4.主题词:主题是指表征文献内容特征、经过规范化的名词术语。检索者通过检索这些规范的词语来找到所要的文献和情报。《现代汉语主题词表》5.关键词:直接从文献中抽取出来的非规范化检索词。6.顺序号检索:专利号,标准号,研究报告号。7.引文检索:利用被引文献来查找原文献的检索方法。如:CNKI中国期刊网被引用字段,维普期刊数据库引文检索途径。

8.其它:超文本检索,基于概念的自然语言检索,图象等。当前40页,总共55页。414.3信息检索步骤1、分类途径按学科属性,借助特定分类法来检索文献;检索标识:分类号或类目名称;优点:将同一学科的文献集中在一起,比较直观展示学科的系统性、全面性,能满足族性检索的要求;缺点:专指性不强,对交叉学科、边缘学科、新兴学科难以处理,易漏检或误检。2、主题途径根据文献的主题内容,通过规范化的名词或词组来查找文献的途径;检索标识:主题词;优点:专指性强,能将同一主题的文献全部集中在该主题词下,满足族性检索的要求;缺点:不具备分类途径的系统性,难以显示与其他检索词的关系;如果主题词选择不准,会造成误检或漏检。当前41页,总共55页。424.3信息检索步骤3、关键词途径同主题途径,根据文献的主题内容检索。但检索词不需或部分需要规范化处理。选择文献中有实际意义的词作为关键词。优点:易学,好用,检索入口多;费用低;缺点:不经规范化处理,易漏检。在检索时应全面考虑在意义上相关的同义、近义及可能的词性或组词而造成的词形变化。4、题名途径题名即书名、刊名、篇名;现代学术论文的题名通常能反映文献的主要内容特征。5、著者途径按姓名字顺排列,编排方便;检索直接;查准率高。注意各国的不同姓名排列方式。6、序号途径利用文献某些特征具有的代号而编制。如专利号、化学物质登记号、ISBN、ISSN、标准号等。序号简明、具有唯一性。查准率高。当前42页,总共55页。43五、查找文献线索使用一种途径或多种途径综合使用,找出符合检索要求的文献线索(或文献本身)。注意:1、要对查到的文献进行内容阅读,以判断检索是否正确或者还需对结果进行调整(扩检或缩检)。2、如结果偏离要求需返回重新组织检索要求。重新确定检索所表达的要求。修改检索途径或检索标识。4.3信息检索步骤当前43页,总共55页。444.3信息检索步骤六、获取原始文献在全文数据库中可直接获取原始文献。传统上通过检索工具获得的是文献线索,需根据线索去寻找原始文献。原则:由近到远、由方便至复杂、由免费到收费。顺序:所在单位图书馆本地其他图书馆、同学、在外进修学习的同事、其他关系……直接联系文献著者本地图书馆的文献传递服务专业文献中心(如全国科技文献信息中心……)的有偿服务当前44页,总共55页。454.4信息检索效果评价P32检索效果(retrievaleffectiveness)是指在检索过程中满足检索者检索信息的全面性和准确性的程度。理想的检索结果是无遗漏、无误差地检索出检索者所需的所有文献。

4.4.1

检索效果评价的目的4.4.2评价标准4.4.3影响检索效果的因素4.4.4提高信息检索效果的措施当前45页,总共55页。464.4.1信息检索效果评价的目的

1.找出检索中存在的问题和影响检索效果的各种因素,以便提高检索的有效性;(影响因素主要来自:信息系统、检索者、用户三方面)2.是为了准确地掌握系统的各种性能和水平,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。当前46页,总共55页。474.4.2评价标准

根据的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对信息检索的效果评价,应该从这三个方面进行。当前47页,总共55页。48一、费用标准即检索费用是指用户为检索课题所投入的费用。二、时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。三、质量标准主要通过具体的指标进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论