信息检索第一章 2010.9_第1页
信息检索第一章 2010.9_第2页
信息检索第一章 2010.9_第3页
信息检索第一章 2010.9_第4页
信息检索第一章 2010.9_第5页
已阅读5页,还剩174页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

青岛科技大学图书馆科技信息检索科技信息检索青岛科技大学图书馆刘伟Tel:84022816Email:lw_qust@163.com信息社会及信息教育现状信息爆炸:文献量急剧增加;文献分布异常分散;文献寿命越来越短吸收信息的能力不高:由于条件限制,人们吸收和利用信息的能力并未得到相应的提高。信息不灵,科研项目的重复率大大高于世界发达国家。信息能力信息能力是指信息收集与检索的能力,信息判断、选择和利用的能力,是信息社会每个人赖以生活和学习的基本能力,是进入信息社会的通行证。信息检索的意义和作用文献信息检索是获取知识的捷径文献信息检索是科学研究的向导文献信息检索是终身教育的基础开设本课程的意义一、高校培养人才的职能要求二、信息时代对人才的客观需要:有利于学生专业知识的学习和知识面的拓宽,能够捕捉信息,立足于社会。三、学生本身的现实需要:1、课程设计2、毕业设计教学方法和结课成绩讲授、实习与自学相结合作业、考试相结合总学时:32h课时分配:课堂讲授12学时实习16学时复习2学时考试2学时课程介绍第1章科技信息检索概述第2章中文科技信息检索工具第3章计算机信息检索第4章网络科技信息资源检索第5章国外科技信息检索工具第6章专利文献检索第一章信息检索概述基本概念科技信息检索科技信息的类型信息资源的组织管理信息检索原理与技术科技信息检索的作用、策略与方法信息检索效果评价科技信息的应用复习思考题1.1基本概念信息情报知识文献范畴关系三大台风齐袭东南沿海杭城上空现“流火云”

南航航班受台风"狮子山"影响大面积延误

信息(information)信息是自然界和人类社会各种事物运动变化及其存在状态的本质属性和客观反映。信息无时无处不在,信息永远存在。简而言之,信息就是事物发出的信息,是事物运动的状态与方式的反映。特点:传递性、加工性、存储性、时效性。情报(intelligence)情报是知识或信息经传递并起作用的部分,即运用一定的形式,传递给特定用户,并产生效用的知识或信息。三种基本要素:知识、传递和效益。知识是情报的实体,传递是情报的表现形式,效益是情报的结果。特点:传递性、加工性、存储性、实用性。知识(knowledge)

知识是人们在改造世界的实践中所获得的认识和经验的总和,是对客观世界物质形态和运动规律的认识。知识来源于信息,是信息的一部分。简而言之,知识是理性化、优化和系统化了的信息。特点:传递性、加工性、存储性、时效性。文献(Document)文献是指用文字、图像、符号、声频、视频等技术手段记录在一切载体材料上的人类知识。知识、载体和记录是构成文献的三个要素。特点:传递性、加工性、存储性、时效性、借鉴性。加工性:简单状态——综合状态存储性:无形状态——有形状态——有序状态时效性:有用状态——无用状态实用性:具有实际应用价值。范畴关系信息是事物本质属性的反映;知识来源于信息,是理性化、优化、系统化了的信息;情报是解决特定问题所需要的特定的知识;文献是信息、知识、情报的载体。理解:信息包含知识,知识是信息的一部分,情报包含信息和知识的特征,是活化的知识,能为人们所利用。逻辑关系:信息>知识>情报,而信息、知识、情报是文献的实质性内容。范畴关系信息知识情报文献内容1.2科技信息检索概念:应用现代信息检索理论并借助各种检索工具和技术,从浩如烟海的科技信息源中获取所需信息的过程。信息检索的几种类型

1.按检索对象划分(1)文献检索(2)数据检索(3)事实检索2.按检索手段划分(1)手工文献检索(2)计算机文献检索

(3)网络文献信息检索3.按检索方式划分(1)分散性检索(2)系统性检索文献检索(DocumentRetrieval)指从各种载体的文献群中查找出与特定的检索课题匹配或相关的文献线索或文献全文的过程。查找某一课题、某一著者、某一地域、某一机构、某一事物的有关文献。检索工具:书目、索引、文摘等。检索结果:题录、文摘或全文及出处等文献资料。数据检索(DataRetrieval)将观察或实验得到的数据经过筛选、分析、整理和鉴定,以一定的顺序存贮在某种载体上,然后采用适当的方法或手段从中找出符合用户所需的数据的过程。检索结果:数据。例如某种金属的熔点,某种材料的电阻。另外,有关计算公式、数据图表、化学分子式等都属于数据检索范畴。

事实检索(Factretrieval)将基本事实预先纪录于某种载体,当需要这种信息时再提取出来的过程。查询某一事物(事件)的性质、定义、原理以及发生的时间、地点、过程等。检索工具:字典、辞典、百科全书、年鉴手册、类书、政书、名录等参考工具书。检索结果:事实结论。小结信息检索的对象主要是文献,因此,在三种信息检索类型中,文献检索是最主要、最基本的形式,是信息检索中最重要的部分。分散性检索方法在分散的文献载体(各专业学科核心文献)直接检索所需文献资料的方法。特点:

①直接接触一次文献,便于判断内容取舍;②时效性、检准率高;③系统性差,检全率低。系统性检索方法利用检索工具(检索系统)全面系统检索文献资料的方法。追溯法、常用法(工具法)和循环法(综合法)。常用法(工具法)又分顺查法、倒查法和抽查法。1.3科技信息的类型按载体形式划分按加工层次划分按出版形式划分1.按载体形式划分印刷型:纸张;手写、印刷;阅读方便、占用体积大,不便于管理和长期保存。缩微型:感光材料;缩微照相;阅读不便、占用体积小,存储密度大,便于保存和传递,须专用设备。机读型:磁性材料;激光、编码、程序设计;存储密度极高、存取速度快,须计算机。声像型:感光材料、磁性介质;感光、电磁转换;形象,直观性强。网络型:网络平台;链接;检索方便。2.按加工层次划分一次文献是作者以生产与科研工作成果为依据,而创作、撰写形成的文献。特点:新颖性,创造性,系统性,参考价值高。如期刊论文、科技报告、会议论文等。

二次文献是指对一次文献信息进行加工、提炼、浓缩,而形成的工具性文献。它反映一次文献的外部特征和内容特征及其查找线索,将分散、无序的文献信息有序化、系统化,是文献检索的工具,也称检索工具。如目录、题录、文摘、索引、各种书目数据库等。特点:浓缩性,汇集性,有序性。

三次文献是指对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩、评述等深加工,而形成的文献。如综述、述评、词典、百科全书、年鉴、指南数据库等。特点:源于一次高于一次,再创性,参考价值高。补充:

零次文献是未经出版发行的或未进入社会交流的最原始的文献。特点:内容新颖,具有原始性,不成熟,分散,难于检索。各级文献产生状况生产者生产工艺产品形态一次文献科研人员科研实验科研论文、报告二次文献文献工作人员加工整理文摘、目录三次文献专家学者浓缩重组手册年鉴3.按出版形式划分图书(Book)期刊(Periodical、Journal、Serial)科技报告(Sci-TechReport)会议文献(ConferenceLiterature)专利文献(PatentLiterature)标准文献(StandardLiterature)学位论文(Thesis,Dissertation)政府出版物(GovernmentPublication)产品资料(ProductLiterature)科技档案(TechnicalRecords)报纸(Newspaper)图书

(Book)定义:指对某一领域的知识进行系统阐述或对已有研究成果、技术、经验等进行归纳、概括的出版物。特点:内容比较系统、全面、成熟、可靠,但传统印刷业图书的出版周期较长,传递信息速度慢,电子图书的出版发行可弥补这一缺陷。分类:阅读性图书和工具书。识别依据:书名、著者、出版地、出版社、出版时间、总页数、国际标准书号(ISBN)等。国际标准书号(ISBN):ISBN-国际标准图书编号(InternationalStandardBookNumber)。2007年以前:10位数,分四段:地区或语种号+出版商代号+书名号+校验号。

如:7-5064-2595-5

;7-地区或语种号,中国大陆;5064-出版商代号,国防工业出版社;2595-书名号,流水号;5-校验码,可辨真伪。从2007年1月1日后:升级为13位数字。分为5部分:即在10位数前加上3位ENA(欧洲商品编号EuropeanArticleNumbering)图书产品代码“978”,这样书号标识与物品标识就完整结合在一起了。

上面的ISBN

编号显示为:ISBN

978-7-5064-2595-7。这样,EAN产品代码成为了ISBN的一部分,13位数的ISBN系统就与国际供应链上的EAN-UCC系统完全吻合了,出版物从此不再作为另类产品,有独立的渠道发售,而是作为产品的一个分支存在,在贸易上的运做更容易进行,同时也可以预防任何可能的混淆、重复和错误的问题。我国于1991年加入国际物品编码协会(EAN),1993年开始在出版物上使用条码,预计新标准的实施将不会给出版业的各个环节带来障碍。期刊

(Periodical、Journal、Serial)定义:指有固定名称、版式和连续的编号,定期或不定期长期出版的连续性出版物。特点:内容新颖、信息量大、出版周期短、传递信息快、传播面广、时效性强.分类:按学科范围:综合性期刊和专业性期刊;按内容和性质:学术性期刊、快报性期刊、检索性期刊、科普性期刊等。识别依据:期刊名称,期刊出版的年、卷、期,国际标准刊号(ISSN)等。附:ISSN-国际标准期刊编号(InternationalStandardSerialNumber):8位数,分两段:期刊代号+效验号,如1000-0135.1000-013是期刊代号;5是校验号。我国正式出版期刊的刊号:地区号+报刊登记号+《中图法》分类号地区号依《中华人民共和国行政区划编码表GB2260-82》取前两位。如北京为11、天津12、上海31、辽宁21、吉林22。

如CN11-2257/G311—北京2257—报刊登记号G3—中图法分类号科技报告

(Sci-TechReport)定义:也称技术报告、研究报告,是科学研究工作和开发调查工作成果的记录或正式报告,这是一种典型的机关团体出版物。特点:内容新颖、详细、专业性强、出版及时、传递信息快,每份报告自成一册,有专门的编号,发行范围控制严格,不易获取原文。识别依据:报告名称、报告号、研究机构、完成时间等。分类:按时间:初期报告、进展报告、中间报告、终结报告;按流通范围:绝密报告、机密报告、秘密报告、非密限制发行报告、公开报告、解密报告等。报告号--报告单位缩写代码+流水号+年代号

PB(PublicationBoard)--美国国家技术信息服务处出版。内容涉及广泛,包括自然科学和工程技术所有学科领域,主要侧重民用工程,如土木建筑、城市规划、环境保护、生物医学等方面。PB报告的编号为“PB+年代+顺序号”。美国政府四大报告AD(AccessionDocument)--美国国防技术信息中心出版。主要报道美国国防部所属的军事机构与合同单位完成的研究成果,主要来源于陆海空三军的科研部门、企业、高等院校、国际组织及国外研究机构。AD报告的内容涉及与国防有关的各个领域,如空间技术、海洋技术、核科学、自然科学、医学、通信、农业、商业、环境等38类。

NASA(NationalAeronauticsandSpaceAdministration)--美国国家航空宇航局。内容侧重于航空和空间科学技术领域,广泛涉及空气动力学、飞行器、生物技术、化工、冶金、气象学、天体物理、通信技术、激光、材料等方面。

DOE(DepartmentOfEnergy)----美国能源部。主要报道能源部所属的研究中心、实验室以及合同户的研究成果,也有国外能源机构的文献。内容包括能源保护、矿物燃料、化学化工、风能、核能、太阳能与地热、环境与安全、地球科学等。DOE报告没有统一的编号,它的报告号是由研究机构名称代号+顺序号组成。会议文献

(ConferenceLiterature)定义:指在各种学术会议上交流的学术论文。特点:内容新颖、专业性和针对性强,传递信息迅速,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向。分类:按出版时间:会前文献和会后文献。

会前文献主要有会议论文预印本和会议论文摘要。

会后文献是会后经整理出版的文献,如会议录(Proceedings)、会议论文集(Symposium)、会议论文汇编(Transactions)、会议丛刊、丛书等。按会议的范围:国际性会议、全国性会议、地区性会议等。

识别依据:会议名称、会址、会期、主办单位、会议录的出版单位等。专利文献

(PatentLiterature)定义:实行专利制度的国家,在接受申请和审批发明过程中形成的有关出版物的总称。包括:专利说明书、专利公报、专利分类表、专利检索工具以及与相关的法律性文件。专利的含义:两个方面:一是专利权在法律规定有效期内,对其发明享有专有的权利。二是取得专利权发明的本身。分类:按专利权种类分:发明专利(InventionPatent)、实用新型专利(UtilityModelPatent)和外观设计专利(DesignPatent)。

按法律状态分:申请说明书、公开说明书、审定说明书、公告说明书。

特点:(1)内容新颖、出版迅速。(2)涉及技术领域广泛、实用性强。(3)具有法律效力。(4)技术上具有单一性和保守性。(5)重复量大。标准文献

(StandardLiterature)定义:经过公认的权威机构批准的以特定的文件形式出现的标准化工作成果。是组织现代化生产、进行科学管理的具有法律约束力的重要文献。包括标准名称、内容、使用范围、颁布时间、颁布机构等。特点:描述详细、完整、内容可靠、实用,有法律约束力,其时效性强,适用范围明确,是从事生产、设计、管理、产品检验、商品流通、科学研究的共同依据,也是执行技术政策所必需的工具。分类:按内容分:基础标准、产品标准、方法标准、安全卫生标准等;按成熟程度分:法定标准、推荐标准、试行标准;按使用范围分:国际标准、区域标准、国家标准、行业标准、企业标准等。

国家标准分为强制性的国标(GB)和推荐性的国标(GB/T);国家标准:GB/T20621-2006化学法复合二氧化氯发生器GB/T20628.1-2006电气用纤维素纸第1部分:定义和一般要求。

行业标准代码以主管部门名称的汉语拼音声母表示,如JT表示交通行业标准;例:行业标准:HG/T2268-2009钢制机械搅拌容器技术条件DL/T435-2004电站煤粉锅炉炉膛防爆规程QC/T796-2008汽车燃料消耗量标识企业标准编号:Q/省、市简称+企业名代码+年份企业标准:Q/XXX0001~0100-2008Q代表企业标准,XX为企业代号,0001~0100为标准编号,从1到100顺序编写,2008为年代号

国际标准化组织(InternationalOrganizationforStandardization)简称ISO,是一个全球性的非政府组织,是国际标准化领域中一个十分重要的组织。主要功能是为人们制订国际标准达成一致意见提供一种机制。ISO质量体系标准包括ISO9000、10000及14000三种系列。ISO9000标准明确了质量管理和质量保证体系,适用于生产型及服务型企业。ISO10000标准为从事和审核质量管理和质量保证体系提供了指导方针。ISO14000标准明确了环境质量管理体系。识别的依据:标准级别、标准名称、标准号、审批机构、颁布时间、实施时间等。标准号=国别(组织)代码+顺序号+年代。附:中国标准文献中心:中国标准化综合研究所标准馆。国际标准化机构中最重要、影响最大的两个组织:国际标准化组织:ISO国际电工委员会:IEC学位论文

(Thesis,Dissertation)定义:指高等学校或研究机构的学生为取得某种学位,在导师的指导下撰写并提交的学术论文,它是伴随着学位制度的实施而产生的。识别依据:学位名称、导师姓名、学位授予机构等。

国家法定学位论文收藏单位--中国科技信息研究所。政府出版物

(GovernmentPublication)定义:指各国政府部门及其所属机构出版的文献,又称官方出版物。包括:行政性文献(立法、司法文献):政府法令、方针政策、规章制度、决议、指示、统计资料等,主要涉及政治、法律、经济等方面;科技文献:政府部门的研究报告、标准、专利文献、科技政策文件、公开后的科技档案等。作用:政府出版物对了解各国的方针政策、经济状况及科技水平,有较高的参考价值,一般不公开出售。美国政府出版局:GPO是世界上最大的出版机构。英国皇家出版局:HMSO产品资料

(ProductLiterature)定义:厂商为推销产品而印发的介绍产品情况的文献,包括产品样本、产品说明书、产品目录、产品介绍等。内容:产品的规格、性能、特点、构造、用途、使用方法等的介绍和说明。特点:反映的技术比较成熟,数据较为可靠,内容具体、通俗易懂,常附较多的外观照片和结构简图,形象、直观。作用:技术人员设计、制造新产品的有价值的参考资料,也是计划、开发、采购、销售、外贸等专业人员了解各厂商出厂产品现状、掌握产品市场情况及发展动向的重要信息源。科技档案

(TechnicalRecords)定义:指在自然科学研究、生产技术、基本建设等活动中所形成的应当归档保存的科技文件。包括:课题任务书、计划、大纲、合同、施工图纸,试验记录、研究总结、工艺规程、工程设计图纸、施工记录、交接验收文件等。特点:内容真实、详尽、具体、准确可靠,保密性强,保存期长久,是科研和生产建设工作的重要依据,具有很大参考价值,它通常保存在各类档案部门。报纸

(Newspaper)定义:以新闻、消息报道为主要内容的连续出版物。特点:品种多,数量大,报道速度快,时效性强的特点。分类:按出版周期:日报、周报、旬报等;按内容特点:综合性、文摘性及专业性报纸等。作用:报纸是科技工作者了解新成果、研究趋势和有关科技政策的一种重要文献。

此外,还有新闻稿、工作札记等。1.4信息资源的组织管理信息资源的含义和特点信息资源分类传统介质信息资源组织网络信息资源组织信息资源组织的主要方法信息资源的含义与特点含义:人类经济社会活动中积累起来的以信息为核心的各类信息活动要素(信息生产者、信息技术等)的集合。

信息资源同物质资源、能源资源、一起构成现代社会经济与技术发展的三大支柱性资源。物质资源向人类提供材料,能源资源向人类提供动力,信息资源则向人类提供知识和智慧。构成基本要素:信息、人、符号、载体。

信息是组成信息资源的原料人是信息资源的生产者和利用者符号是生产信息资源的媒介和手段载体是存储和利用信息资源的物质形式。特点:可再生性,可共享性。可再生性:指它不同于一次性消耗资源,它可以反复利用而不失去其价值,对它的开发利用愈深入,它不仅不会枯竭,反而还会更加的丰富和充实。可共享性:指它能为全人类所分享而不失去其信息量。信息资源分类第一层次信息资源,即原始信息资源。

其特征是未经加工的直接的信息资源。属于0次信息。包括宇宙、自然界、人类社会、个人在自身运动和从事社会活动中所发出的所有信息。第二层次信息资源,是对处于自然状态的信息进行整理加工、控制转化、使其固化、量化、社会化,然后再进行传递的信息资源。

如政府文件、商务资料、图书期刊、音像产品等。这些信息多以文献形式出现。包括一次信息和二次信息。第三层次信息资源,包括报社、电视台、广播电台、邮局、书店、互联网等传播信息的机构和设施。

这些机构和设施使信息的交流成为可能,也是一类重要的信息资源。第四层次信息资源,是存贮信息的信息库和资料库。

如图书馆、情报所、档案馆、博物馆等。这些机构的特点是集聚着大量的经过人工加工的信息和以数字化形式存贮的数据库,可供人按需索取、利用。传统介质信息资源的整理形式整理首先,将收集的信息按题名、编著者、信息来源出处、内容提要顺序进行著录;其次,按各条信息涉及的学科或主题进行归类,并著录分类号和主题词;第三,将著录和归类后的信息,按分类或主题进行编号、排序,使之系统化、有序化。

内容整理通读经过形式整理后的信息,从信息来源、发表时间、理论技术水平及适用价值等方面进行评价鉴别,剔除实际意义不高和参考价值不大的部分。对选择出的各条信息中涉及到与研究课题有关的观点(论点、论据、结论等)和图表数据提取出来,对相同的观点进行合并,相近的观点进行归纳,各种图表数据进行汇总,编号,排序供下一步分析、利用。网络信息资源的组织依照信息组织的性质可将网络信息的组织过程分为三个方面:1)数字化文件的收集。

包括原生数字信息和衍生数字信息两大类,这个过程属于信息资源的选择。

2)数字化文件的处理。

可以采用传统的元数据方式和现代元数据方式来组织。(元数据是关于数据的数据,用于描述数据的属性。)3)网络信息资源的服务构建。信息资源组织的主要方法分类法主题法分类法分类法是一种从主题内容角度组织和揭示信息资源的方法,信息资源的分类是分类方法在信息资源组织中的应用。信息资源分类具有多方面的作用,其中最主要用于信息资源组织和揭示,包括文献分类排架和编制分类检索工具两个方面。分类检索语言:以分类号做为文献主题概念标识的语言。信息资源分类一般具有以下特征:其一,按照信息资源内容特征的相互关系加以组织。其二,一般是从一定的角度出发组织信息资源的。主题内容之间的联系是多方面的、多维的。分类法作为一种从内容角度揭示信息资源的方法,一般只能有选择地揭示其主要联系。其三,以一定标记符号作为排序工具其四,一般通过类目索引提供从字顺角度查找类目的途径。《中图法》分类表

是我国目前通用的类分图书的工具,根据图书资料的特点,按照从总到分,从一般到具体的编制原则,确定分类体系,在五个基本部类的基础上,组成二十二个大类。《中图法》的标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码。即用一个字母表示一个大类,以字母的顺序反映大类的序列。字母后用数字表示大类以下类目的划分。数字的编号使用小数制。

H314.3/21《英语否定句》《中图法》分类表《中图法》分类表基本大类:

A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论

D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理

N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航天、航空X环境科学

Z综合性图书主题法主题法:直接以表达主题内容的语词作检索标识、以字顺为主要检索途径、并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。主题法是分类法以外另一种从内容角度标引和检索信息资源的方法。主题法在信息资源组织中的作用,主要是用来处理信息资源、编制各种检索工具及检索系统。目前国内外采用的主题法的类型很多,一般都具有下述特征:其一,直接以语词作为检索标识。主题法不像分类法那样、以一种抽象的号码系统作检索标识,而是直接选用自然语言中的语词进行标引和检索。其二,以字顺作为主要检索途径。我国的主题检索系统通常是根据汉字特点,按照拼音或笔画笔顺进行排检的;因此在使用主题法检索时,只要知道检索对象的名称。就可以按相应的排检方式进行查找。在采用机检系统的情况中,一般可以直接输入语词,由计算机进行查找,不必如使用分类法那样,必须预先了解主题词之间关系,通用性好。其三,以特定的事物、问题、现象,即主题为中心集中信息资源。分类法由于受学科体系的限制,从不同学科角度研究同一对象的信息资源是分散在各知识门类中的。主题法则没有这一限制,而是直接从主题对象的角度揭示图书资料。

以论述茶的文献为例:在分类法中,关于茶的种植、茶的炮制、茶的贸易等主题,一般应按学科分别归入农业科学、工业技术、经济等不同科学部门;而在主题法中,通过语词标识和字顺排列,可以直接在“茶”这一主题下集中予以揭示。其四,主题法往往是通过详尽的参照系统等方式揭示主题词之间关系。按照字顺排列不能必然揭示主题概念之间的联系,为了克服这一局限,主题法发展了完备的参照系统,通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。同时,一些系统还备有词族索引、范畴索引、轮排索引等多种辅助索引,通过各种形式的结合,在主题词之间建立起充分的语义联系。当然各种主题系统中对词间关系的揭示状况是不平衡的。就整体而言,其对主题之间关系的揭示不如分类法。主题法的类型

①按照主题法的选词方式:标题法、叙词法、关键词法;标题法:是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。标题词,亦称标题,是指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。如“图书”、“信息资源”、“信息组织”、“信息存储和检索”等都可以作为标题词。

叙词法:是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。叙词,国内亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。叙词语言是受控主题语言的主流。到目前为止,国外的叙词表数量不少于千种,我国的叙词表也已超过130种。我国目前使用最广泛的叙词表为《汉语主题词表》。关键词法是随着计算机的出现,为适应索引编制自动化的需要而产生的主题法类型。直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词的轮排的方式揭示文献主题的主题法。关键词法从属于自然语言类型。关键词法的特点:①基本属自然语言,在标引阶段只进行少量控制或不控制。②通常使用禁用词表(stop-list),来淘汰题名中的非关键词,亦即不具有检索意义的词。使用时,只允许用不出现在词表上的那些词用作标引词。禁用词表通常收入介词、连词、冠词等,也可以将一些没有实际意义的词包括在内。③一般不建立关键词表,即使建立关键词表,也比标题表、叙词表简单得多,通常不设置任何参照或词间关系,因而篇幅较小,处理方便。

②按照其使用时组配的先后:先组式主题法和后组式主题法;

③按照其使用时是否进行控制:受控主题法与非控主题法。主题词:能够充分表达文献(检索需求主题概念的名词或词组。主题词表:汇集所有主题词的系统化词表。主题检索语言:以主题词(关键词、叙词)做为文献主题概念标识的语言。主题词语言可分为标题词语言、关键词语言、叙词语言。1.5信息检索原理与技术信息检索工具信息检索原理信息检索技术信息检索工具从整个文献信息检索过程来看,无论是存贮还是检索,都离不开检索工具。检索工具是报道、存贮和查找文献线索的工具。一般来说,检索工具由文献信息库和逻辑语义工具两大部分组成。文献信息库是检索工具的主体,在计算机、光盘检索中,也称为数据库。完整的文献库由说明、目录、正文、索引和附录五部分组成。逻辑语义工具即检索语言、规则等,是沟通文献标引人员与检索人员双方思想的媒介。它独立于具体的检索工具之外,作为软件为若干检索工具所通用。手检工具:手检工具的类型很多,按其不同的特征可划分出不同的类型。按出版形式分:卡片式,书本式(期刊,单卷,附录式);按收录范围分:综合性检索工具,专业性检索工具;按著录方式分:题录,文摘,索引。题录:是描述文献信息外部特征(题名、著者、出处、文种、年卷期、页次等)的文献条目,并按一定的方式编排起来的集合体。题录著录的对象可以是整体文献(比如一本书),也可以是单篇文献(比如一篇文章)题录性检索工具:《全国新书目》、《全国外文期刊联合目录》、《中国社会科学文献题录》、《国外社会科学论文索引》及美国的《化学题录》等。文摘:文摘是除题录部分外还对文献内容作实质性描述的文献条目。有时也称摘要、提要或简介。文摘只对文献的内容作简洁、准确的摘录,是原始文献浓缩后的产物。它既包含文献的外部特征,又包含文献的内容特征,且编写中不得加入编写人员任何主观性见解和解释说明,它必须忠于原文、基于原文。索引就是将文献信息中某些具有检索意义的文献特征标识(如人名、地名、序号、主题词、分类号、分子式等),按一定的顺序加以排列,并注明其所在文献信息中的位置(如文摘号、页码、版次等),以便检索相应文献信息的检索工具。索引在这三种检索中应用最广。不仅有单独出版的索引刊物,如《人民日报索引》、《资本论索引》等,还在许多文摘题录性检索刊物之后附有各种辅助索引,如主题索引、著者索引、专利索引等等。,尤其是辅助索引的应用很普遍,现已成为检索工具不可分割的一部分。机检工具是指检索者必须借助各种设备才能使用的检索工具。这类工具大多以缩微型和机读型的形式出现。机检工具的类型:按容纳信息的载体来分:磁带、缩微制品和光盘等按数据库类型划分:书目数据库、目录数据库、数值性数据库、全文数据库、多媒体数据库。信息检索原理指通过一定的方法和手段使其存贮与检索两个过程所采用的特征标识达到一致,以便有效地获得和利用文献。存贮是检索的基础,检索是存贮的目的。也就是将特定的信息需求与检索体系中的信息线索进行有无、异同及大小的比较与匹配,选取两者相符或部分相符的信息予以输出。无论手工检索还是计算机检索其基本原理都是一样的。文献存贮过程存贮,主要是对文献进行标引,形成文献的外表特征标识和内容特征标识,为文献信息检索提供有章可循的途径的过程。外表特征指标题、编著者、来源、卷期、页码、出版年月、文种等项目;内容特征指文献的学科分类、主题内容等。文献存贮过程文献存贮前首先要对文献内容进行主题分析,把握文献所论述的中心内容,形成主题概念,然后选用特定的文献检索语言表达主题概念,将主题概念转换成对文献的特征的标识,最后将这种标识按其内容和出处按一定规则及次序进行编排,产生了各种类型的索引(文献检索系统)。文献存贮过程一是为纳入检索工具或系统的每一种期刊或每一篇文献标引检索标识;二是将有关文献的特征标识著录下来,形成一条条文献线索;三是将它们系统地排列到检索工具或系统中去供读者查找。文献检索过程文献检索过程是根据读者需求,确定检索概念及其范围,然后选择一定的检索语言,并将此检索概念转换成检索特征标识,按此到检索系统中查找文献线索,最后对其进行逐篇筛选,以确定需要阅读的文献。即提供一定的检索手段,按照一定的检索方法,根据读者需要,迅速全面地查出文献线索。由于不重视检索,我国科研课题重复国外的约占40%。信息检索技术布尔逻辑检索截词检索位置检索限制检索加权检索信息检索技术-布尔逻辑布尔逻辑检索(BooleanLogical)是用布尔逻辑运算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。它是机检系统中最常用的一种检索方法。逻辑算符主要有:And/与、Or/或、Not/非,分述如下:信息检索技术-布尔逻辑逻辑“与”:运算符为And或*。检索词A和检索词B用“与”组配,检索式为:AAndB或者A*B它表示检出同时含有A、B两个检索词的记录。逻辑与检索能增强检索的专指性,使检索范围缩小。此算符适于连接有限定关系或交叉关系的词。信息检索技术-布尔逻辑逻辑“或”:运算符为Or或+。检索词A和检索词B用“或”组配,检索式为:AOrB或者A+B它表示检出所有含有A词或者B词的记录。逻辑或检索扩大了检索范围。此算符适于连接有同义关系或相关关系的词。信息检索技术-布尔逻辑逻辑“非”:运算符为Not或-。检索词A和检索词B用“非”组配,检索式为:ANotB或者A-B它表示检出含有A词,但同时不含B词的记录。逻辑非和逻辑与运算的作用类似,可以缩小检索范围,增强检索的准确性。此运算适于排除那些含有某个指定检索词的记录。但如果使用不当,将会排除有用文献,从而导致漏检。信息检索技术-截词检索截词检索(Truncation)是指用给定的词干做检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。对于外文来讲,检索时,若遇到名词的单复数形式,词的不同拼写法,词的前缀或后缀变化时,均可采用此方法。信息检索技术-截词检索按截断部位可分为右截断、左截断、中间截断、复合截断等;按截断长度分为有限截断和无限截断。1)右截断:截去某个词的尾部,是词的前方一致比较,也称前方一致检索。例如:输入geolog?(?为截断符号),将会把含有geological、geologic、geologist、geologize、geology等词的记录检索出来。若输入PY=199?,会把90年代的记录全部查出来。信息检索技术-截词检索2)左截断:截去某个词的前部,是词的后方一致比较,也称后方一致检索。例如:输入?magnetic能够检出含有magnetic、electromagnetic、paramagnetic、thermo-magnetic等词的记录。信息检索技术-截词检索(3)中间截断:截去某个词的中间部分,是词的两边一致比较,也称两边一致检索。例如:输入organi?ation可以检出organization、organisation;输入f??t可查出foot、feet。信息检索技术-截词检索(4)复合截断:是指同时采用两种以上的截断方式。例如?chemi?可以检出chemical、chemist、chemistry、electrochemistry、electrochemical、physicochemical、thermochemistry等。信息检索技术-截词检索5)有限截断:是指允许截去有限个字符。例如comput????可检出compute、computer、computers、computing等词,不能检出computable、computation、computerize等词。注意:词干后面连续的数个问号是截断符,表示允许截去字符的个数,最后一个问号是终止符,它与截断符之间要有一个空格,输入时一定要注意。信息检索技术-截词检索(6)无限截断:是指允许截去的字符数量不限,也称开放式截断。上面右截断、左截断所举的例子均属此类型。信息检索技术-位置检索位置检索(Proximate)是在检索词之间使用位置算符(也称邻近算符AdjacentOperators),来规定算符两边的检索词出现在记录中的位置,从而获得不仅包含有指定检索词而且这些词在记录中的位置也符合特定要求的记录。能够提高检索的准确性,当检索的概念要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置算符。信息检索技术-位置检索机检系统中常用的位置算符(按限制强度递增顺序排列)如下:(1)(f)算符Field:要求被连接的检索词出现在同一字段中,字段类型和词序均不限。例如happiness(f)sadnessandcrying(2)(s)算符Sub-field/Sentence:要求被连接的检索词出现在同一句子(同一子字段)中,词序不限。例如machine(s)plant信息检索技术-位置检索(3)(n)算符near:(n)要求被连接的检索词必须紧密相连,词之间除允许有空格、标点、连字符外,不得夹单词或字母,词序不限;(Nn)表示两个检索词之间最多可以夹N个词(N为自然数1、2、3…),且词序任意。信息检索技术-位置检索例如:information(n)retrieval可以检出informationretrieval和retrievalinformation,又如econom???(2n)recovery可以检出economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles信息检索技术-位置检索(4)(w)算符With:(w)要求检索词必须按指定顺序紧密相连,词序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母;(Nw)表示连接的两个词之间最多可夹入N个词(N为自然数),词序不得颠倒。例如input(w)output可检出inputoutput而wear(1w)materials可检出wearmaterials、wearofmaterials信息检索技术-位置检索采用位置算符检索时,通常最严谨的算符放在最左面,例如:european(w)economic(w)community(f)patio,又如redwood(3n)deck?(s)(swimming(w)pool?)注意:不同的机检系统,位置检索的功能及算符不同,应参看机检系统的说明,上述为DIALOG系统的位置算符。信息检索技术-限制检索限制检索(Range)是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。(1)字段检索:是把检索词限定在某个(些)字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。信息检索技术-限制检索例如:查找微型机和个人计算机方面的文章。要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:microcomputer??/de,ti,abORpersonalcomputer/ti,ab又如查找wangwei写的文章,可以输入检索式:au=wangwei信息检索技术-限制检索(2)使用限制符:用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如要查找1999年出版的英文或法文的微型机或个人计算机方面的期刊,则检索式为:(microcomputer??/de,ti,abORpersonalcomputer/ti,ab)ANDPY=1999AND(LA=ENORFR)ANDDT=Serial信息检索技术-限制检索(3)使用范围符号:如:Lessthan、Greaterthan、Fromto等,如查找1989~1999年的文献,可表示为:PY=1989:1999或者PY=1989toPY=1999又如查找2000年以来的计算机方面的文献,可表示为computer??AndGreaterthan1999查找在指定的文摘号范围内有关地震方面的文献,可表示为earthquake?/635000-800000信息检索技术-限制检索(4)使用限制指令:限制指令可以分为:一般限制指令(Limit,它对事先生成的检索集合进行限制)、全限制指令(Limitall,它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。信息检索技术-限制检索例如:LimitS5/328000-560000表示把先前生成的第5个检索集合限定在指定的文摘号内。又如:Limitall/de,ti表示将后续检索限定在叙词和题名字段。上述几种限制检索方法既可独立使用,也可以混合使用。信息检索技术-加权检索加权检索是指根据检索词对检索课题的重要程度,事先指定不同的权值。检索时,系统先查找这些检索词在数据库记录中是否存在,并对存在的检索词计算它们的权值总和;凡是在用户指定的临界值(称阈值)之上者作为命中记录被输出。阈值可视命中记录的多寡灵活地进行调整,阈值越高,命中记录越少。1.6科技信息检索的地位、

作用与策略科技信息检索地位科技信息检索作用科技信息检索策略科技信息检索方法科技信息检索途径科技信息检索的地位信息检索是传递信息的一条重要渠道,是联系信息生产者和信息用户的一个主要中间人,是人类为了合理地分发信息、充分利用信息和提高劳动效率而采取的一种重要交流方式。文献检索的出现和不断发展,使科学交流从非正式的、无组织的状态逐渐变为正式的、有组织的状态。它使原来的信息流程大大简单化了,通道的容量也扩充了,科学交流也显得更加便利和完善了。科学交流方式的这种演变是社会发展进步的一种表现。科技信息检索的作用⑴促进信息资源的开发和利用⑵协助管理者做出正确的决策⑶便于继承和借鉴前人成果,避免重复研究走弯路⑷节省查找文献的时间⑸促进专业学习科技信息检索的策略检索策略(InformationRetrievalStrategy)是指为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。具体包括:1.确定查找范围:根据第一步对检索的时间、地域、语种以及文献类型等的分析,确定一个合理的检索范围。科技信息检索的策略2.选择检索手段:一般来说利用光盘检索系统,结合检索相应的网络数据库能满足多数检索要求;没有机检条件时则选用手工检索。如果光盘检索能满足要求,则不必选用其它检索手段。科技信息检索的策略3.选择检索系统:选择合适的检索系统主要是选择检索工具/数据库,要根据检索课题的内容范围和要求来决定。要了解检索工具/数据库的学科专业范围及各种性能参数,其内容主要包括:科技信息检索的策略(1)检索工具的类型是否满足检索需要。(2)检索工具的学科专业范围是否与检索课题的学科专业相吻合。(3)检索工具收录的文献类型、文献存贮年限、更新周期是否符合检索需求。(4)检索工具描述文献的质量。原文的表达程度、标引深度、专指度如何等,是否按标准化著录。(5)检索工具提供的检索入口是否与检索课题的已知线索相对应。科技信息检索的策略(6)检索费用。对于联机检索,费用包括机时费、联机(脱机)打印费、通讯费、字符费等。而且即使是同一种数据库在不同的检索系统中,检索费用、文档结构,可检字段、检索功能等都不完全相同。选择检索工具/数据库时,可以利用检索工具指南、联机数据库目录、光盘数据库目录、数据库指南等。联机检索也可以利用系统提供的数据库总索引文档来选择检索文档,如DIALOG系统的411文档(免费索引文档)。科技信息检索的策略4.确定检索途径和检索词:检索途径主要根据分析课题时确定的已知条件,以及所选定的检索工具能够提供的检索途径来决定。常用的检索途径有著者、分类、主题、文献题名、文献号、代码(如分子式、产品型号)、引文等,还有文献类型、出版时间、语种等。每种途径都必须根据已知的特定信息进行查找。科技信息检索的策略检索词也称检索点,与检索途径相对应,是检索途径的具体化。确定检索词就是将检索课题中包含的各个要素及检索要求转换成检索工具/数据库中允许使用的检索标识。即用所选定的检索工具/数据库的词表(如主题词表、分类表)把检索提问的主题概念表达出来,形成主题词或分类号等,也可以是关键词(视检索系统而定)、人物姓名、地名、文献名等。科技信息检索的策略5.构造检索式:检索式是机检中用来表达检索提问的一种逻辑运算式,又称检索表达式或检索提问式。它由检索词和检索系统允许使用的各种运算符组合而成,是检索策略的具体体现。构造检索式就是把已经确定的检索词和分析检索课题时确定的检索要求用检索系统所支持的各种运算符联接起来,形成检索式。科技信息检索的方法机检的基本方法:试验性检索(1)缩检(2)扩检正式检索

科技信息检索的方法试验性检索在检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论