科技文献检索20131-2_第1页
科技文献检索20131-2_第2页
科技文献检索20131-2_第3页
科技文献检索20131-2_第4页
科技文献检索20131-2_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/1/151第二章信息检索技术2.1

信息存储与检索原理2.2检索工具和检索系统2.3检索词的确定2.4信息检索的策略2023/1/1522.1

信息存储与检索原理

2023/1/1532.1.1信息检索的概念信息检索是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。信息检索的概念有狭义和广义之分。广义的信息检索包括信息存储和检索两个过程,全称又叫做“信息存储与检索”。对用户来讲,信息检索仅指后一过程,即信息的查找过程。2023/1/1542.1.1.1信息存储过程为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须首先对大量、分散、无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的检索系统(如手工检索工具、计算机检索系统、搜索引擎)供人们检索和利用,这就是信息存储过程。2023/1/1552.1.1.2信息检索过程信息检索是指用户根据检索课题的需要,将信息需求转变为系统所能识别的检索式,再与检索系统中的表征信息资源的表示进行逐一的相符性匹配与比较,查找出满足用户要求的特定信息。检索结果可能是用户需要的最终信息(一次文献),也可能是用户需要的信息线索(二次文献),用户可依此线索进一步查找最终信息。2023/1/1562.1.1.3信息检索的实质存储是检索的基础,检索是存储的反过程,是存储的目的。信息检索的实质是将描述特定用户所需信息的提问特征与信息存储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。2023/1/1572.1.1.3信息检索的实质所谓提问特征,是对信息的需求进行分析,从中选择出能代表信息需求的主题词、分类号或其他符号。所谓检索标识,是指信息存储时,对信息内容进行分析,提出能代表信息内容实质的主题词、分类号或其他符号。2023/1/158举例:数据库:中文社会科学引文索引检索词:民用航空对应检索项:篇名(词)2023/1/1592023/1/15102023/1/15112.1.2信息检索的类型按检索功能划分1.文献检索

(1)书目检索

(2)文摘索引检索

(3)全文检索2.事实、数据检索按检索手段划分

1.手工检索2.计算机检索

(1)联机检索

(2)光盘检索

(3)网络检索

2023/1/15122.1.2.1手工检索手工检索(ManualRetrieval),始于19世纪末。1876年召开的美国图书馆协会第一届大会上提出了正规的参考咨询工作概念,专业化的信息检索就产生于参考咨询工作。手工检索过程中,使用的多为印刷型检索工具,直接执行查找任务的是人,在查找过程中,人的思维起主导作用。2023/1/15132.1.2.2计算机检索计算机检索(Computer-basedRetrieval),起源于20世纪50年代。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统,它标志着计算机信息检索阶段的开始。计算机检索,通过数据库系统来实现。检索过程是在人与机器的合作、协同下完成的,通过实时的、交互的方式从计算机存储的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务由机器来执行,人则是整个检索方案的设计者和操纵者。检索的本质没有变,变化的是信息的媒体形式、标识方式、存储结构、存取方式。2023/1/15142.1.3信息检索点(检索途径)检索点(AccessPoint):即信息检索的出发点,也称检索途径(Approach)。在文献检索过程中,匹配是其实质,就是从文献的特征出发,将其特征值与检索系统中的标目数据进行比较,通过匹配达到检索的目的。文献的特征就是文献的检索点,有内容特征和外部特征之分。2023/1/1515CNKI中国期刊全文数据库的检索项2023/1/15162.1.3.1文献的内容特征文献的内容特征是文献所论及的事物、提出的问题、涉及的基本概念(即主题)以及问题内容所属的学科范围。反映文献信息内容特征的有分类检索和主题检索。2023/1/15171、分类检索分类检索:从文献内容所属的学科类别来检索,它依据的是一个可参照的分类体系(ClassificationSystem)。分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,能反映类目之间的内在联系,包括从属、并列、交替、相关等。权威的图书馆分类法有:(1)中国图书馆图书分类法(中图法)(2)美国国会图书馆分类法(3)杜威十进制分类法(4)国际十进制分类法2023/1/1518《中图法》基本大类A

马克思主义、列宁主义、毛泽东思想、邓小平理论B

哲学、宗教C

社会科学总论D

政治、法律E

军事F

经济G文化、科学、教育、体育H语言、文字

I

文学J

艺术K历史、地理2023/1/1519《中图法》基本大类(续)N

自然科学总论O

数理科学和化学P

天文学、地球科学Q

生物科学R

医药、卫生S

农业科学T

工业技术

U

交通运输V

航空、航天X

环境科学、安全科学Z

综合性图书2023/1/1520V航空、航天

依总论复分表分V1航空、航天技术的研究与探讨

总论空间科学的著作如此。专论入有关各类。V2航空V35航空港(站)、机场及其技术管理V351航空港(站)、机场

勘测使用等如此。建筑设计入TU248.6V351.1航空港(站)建筑物V351.11跑道、滑行道、停机坪V351.12指挥塔、塔台V351.13瞭望台……V351.17候机楼V351.19油库2023/1/1521F经济

依总论复分表分,-0理论与方法论所属类目复分入F0F0经济学政治经济学入此。F1世界各国经济概况、经济史、经济地理F2经济计划与管理F5交通运输经济F56航空运输经济民航事业入此。F560航空运输经济理论F560.1航运技术工作F560.5运价与客运票价、运输成本与利润F560.8运输业务F560.83客运F560.84货运F560.85国际联运、空运国际合作2023/1/15222、杜威十进制分类法《杜威十进制分类法》(DeweyDecimalClassification&RelativeIndex,简称DDC),是世界上流传最广、影响最大的文献分类法。1876年首次出版,1996年出版第21版。DDC最基本的原理:分类法按学科而不是按主题组织。每一学科门类逐级按内容层层展开,形成等级体系,但并非机械地按10个类划分。类目表共有10大类(总纲);每一大类之下又展开为9个类和1个“总论”类,合成10个类,称为门(divisions);每一门之下,又分为9个小类及1个“总论”性类目,共合成10个大类,称为纲(sections);纲以下再按上述原则逐级细分。标记符号采用阿拉伯数字,全部数字按小数来理解,按小数制的顺序排列,第三位与第四位之间用小圆点隔开。2023/1/1523000计算机、信息及总论(Computers,Information&GeneralReference)100哲学和心理学(Philosophy&Psychology)200宗教(Religion)300社会科学(SocialSciences)400语言(Language)500自然科学(Science)600技术(Technology)700艺术和娱乐(Arts&Recreation)800文学(Literature)900历史和地理(History&Geography)杜威十进制分类法的10大类(总纲)2023/1/1524600技术(Technology)610医学(Medicine)620工程学(Engineering)630农业(Agriculture)640家政(Home&FamilyManagement)650管理和公共关系(Management&PublicRelations)660化学工程(ChemicalEngineering)670制造业(Manufacturing)680特殊产品的制造(ManufacturingSpecificProducts)690建筑工程(Building&Construction)杜威十进制分类法的小类(纲)2023/1/1525杜威十进制分类法分类举例600技术630农业和相关技术636动物饲养636.7狗636.8猫2023/1/15262、主题检索主题检索:是从反映文献内容的有关主题词来检索文献,主题是检索点,他对应文献的主题概念。检索按主题词的音或形的字顺进行,如查字典、词典。主题词有多种类型:规范词和自由词,单元词和多元词,先组结构和后组结构等。2023/1/1527Acousticimaging

SN:Productionofreal-timeimagesoftheinternalstructureofopaqueobjects

DT:Predates1975

UF:Acousticlenses

BT:Imagingtechniques

NT:Ultrasonicimaging

RT:Acousticholography;Acoustics;Diagnosis;Lenses┇Acousticlenses

USE:Acousticimaging说明:SN

范围注释,说明词义和使用范围;DT

叙词启用时间,未注明的为1993年使用;UF

非正式叙词;BT上位叙词;NT

下位叙词;RT

相关叙词;USE

正式叙词。EI叙词表举例2023/1/1528microwavemeasurement

UFmicrowavemeasurements

NTmicrowavereflectometry

BTmeasurement

TTmeasurement

RTradiometry;wavemeters

CCA0750B7310N

FCa0750+qb7310Nb

DIJuly1973

PTmicrowavemeasurements

microwavemeasurements

headingwasfull-termuntilJuly1973

USEmicrowavemeasurementINSPEC叙词表举例2023/1/1529说明:

UF指明所代替的非正式叙词;

NT下位叙词;

BT上位叙词;

TT族首词;

RT相关叙词;

CC分类号,数字前的字母是SA分辑号;

FC机读数据库中的全分类号;

DI叙词采用时间;

PT在DI日期之前使用的检索词;

USE指明应使用的正式叙词。

2023/1/15302.1.3.2文献的外部特征反映文献外部特征的有作者、名称和号码等。1、作者(Author)检索:从文献的作者姓名出发来检索其文献。“作者”,应包括汇编者(Compiler)、编者(Editor)、主办者(SponsoringBody)、译者(Translator)等。还有代表机构、单位的团体作者(CorporateAuthor),包括作者单位(Author’sAffiliation)。检索按作者姓名或机构名称字顺进行。2023/1/15312.1.3.2文献的外部特征2、名称(Title)检索:是从各种事物的名称来检索。名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。2023/1/15322.1.3.2文献的外部特征3、号码检索:号码包括文献的编号(Number)、代码(Code)等,是文献信息的一些特有的外部标识。号码多种多样,通常用数字、字母或组合形式或以分段的方式来表示其各部分的含义。如科技报告有报告号、合同号、拨款号等,专利文献有专利号、入藏号、公司代码等等。检索图书和期刊时常用到两个号码:国际标准书号ISBN和国际标准刊号ISSN,分别是一种图书和一种期刊的唯一标号。2023/1/1533CNKI中国期刊全文数据库的检索项2023/1/1534CNKI中国博士学位论文全文数据库的检索项2023/1/1535CNKI中国重要会议论文全文数据库的检索项2023/1/15362.1.4信息检索的方法

在文献信息检索的具体实践中,人们往往根据不同的检索需要和信息环境采用不同的方法。种类:常规法:⑴倒查法⑵顺查法⑶抽查法追溯法:⑴向前追溯法⑵向后追溯法交替法:⑴复合交替法⑵间隔交替法2023/1/15372.2

检索工具和检索系统

2023/1/15382.2.1概述检索工具:是指用以报导、存储和查找文献线索的工具,是附有检索标识的某一范围文献条目的集合。检索工具通常以书本或卡片集合形式出现,用自然语言或准自然语言描述信息特征,采用手工方式进行检索。检索工具包括事实检索工具、书目检索工具、文摘索引检索工具等。2023/1/15392.2.1概述检索系统:由一定的检索设备、经加工整理并存储于相应载体上的文献集合及必要设备共同构成,具有存储和检索功能。检索系统以非纸质介质存储检索文档,用机器语言或机器刻度语言表示信息,依靠某种匹配机制来筛选相关信息。检索系统由多个字系统或模块构成,须借助计算机进行检索,是在手工检索基础上逐步发展而成的,是信息检索自动化的必然产物。一般包括:事实数据库、书目数据库、文摘索引数据库2023/1/15402.2.2检索工具的功能按文献信息检索的内容,检索工具的功能包括目录检索、文摘索引检索和事实检索。目录、文摘索引检索是间接的、相关检索,指引原始文献的线索;事实检索则给出直接、确定的检索结果。2023/1/15412.2.3检索工具的类型文献检索工具的类型划分,最重要的分法是按文献著录的特点划分。著录是对文献的外部特征和内容特征进行分析、处理和记录的过程。根据著录条目的内容和揭示文献的深度不同有四种检索工具:目录、题录、文摘和索引。2023/1/1542目录(Catalogue),也称书目,是最早的一种检索工具。通常以完整的出版单位或收藏单位为著录的基本单位,以“本”、“种”或“件”为报道单位。目录对文献的描述比较简单,只记录文献的外部特征,如名称、著者和出版事项等,按分类或字顺编排。信息用户常用目录:馆藏目录联合目录机读目录2.2.3.1目录2023/1/1543目录举例:某地图集的目录页2023/1/1544目录举例2023/1/1545目录举例2023/1/1546图书馆传统卡片目录柜2023/1/1547题录(Title)报道和揭示单篇文献的外部特征,是在目录的基础上发展起来的一种检索工具。题录和目录的区别在于著录的对象不同。目录的著录对象是机构出版物,题录的著录对象是单篇文献,一般是内容上独立的文献单元,如一篇文章或书中某一部分、某一章节。2.2.3.2题录2023/1/1548全国报刊索引991208161提高我国足球技术水平的几点训练学对策/陈长庚//体育研究.-1999.(4).-5-102023/1/1549文摘(Abstracts)不仅描述文献的外部特征,而且揭示文献的内容特征。它比题录多了文摘内容。按文摘的目的、用途、长短划分,有以下几种:(1)报道性文摘(InformativeAbstract)。是原文内容的浓缩,包括原文的主要观点、结论、重要数据,葱末一个层面可以代替阅读原文。信息量大,参考价值高,一般长200-300字,有的可达500字。2.2.3.3文摘2023/1/15502.2.3.3文摘(2)指示性文摘(IndicativeAbstract)。介绍作者的写作目的、讨论的主题、不引述具体的事实、结论,指引读者阅读原文。适用于篇幅长、内容散的文章。一般长100字。它只起解题作用,故又称“解题性文摘”或“简介”。(3)评论性文摘(CriticalAbstract)由评论员对文献内容进行简短的分析和评介。2023/1/1551工程索引2023/1/1552①030704②Activenessinsoftwareanditsimplementation.③Aconceptof......(Editedauthorabstract)④7Refs⑤Chinese.

⑥He,Xingui(Beijing

UnivofAeronauticsandAstronautics,Beijin,China).⑦BeijingHangkong

Hangtian

Daxue

Xuebao

v23n1Feb1997⑧p48-50.说明:①文摘号;②论文题目;③论文摘要;④参考文献篇数;⑤文献语种;⑥著者姓名(著者单位);⑦缩写刊名(本例为全称)、卷、期、出版时间,刊名全称由“PublicationsList”查出;⑧所在页码。

工程索引文摘正文举例2023/1/1553EiVillage2中的检索结果2023/1/15542023/1/15552023/1/1556CNKI中某篇论文的中英文摘要2023/1/15572.2.3.4索引索引(Index)是对一组信息集合有系统的指引(SystematicGuide),一般只起指引特定信息内容及其存储地址的作用,是一种附属性的检索工具,通常也称为“辅助索引”。常见的索引是主题索引和作者索引。主题索引又可细分为主题索引、分类索引、关键词索引、引文索引等。2023/1/15582.2.3.4索引在手工检索工具中,索引通常由3部分组成:标目(Heading)、说明语(Modification)、存储地址(Location).(1)标目/索引词:是索引条目所知识的文献的某方面特征。并按关键字大小排序。

(2)说明语:说明或注释标目含义。

(3)存储地址:标引词对应的特定信息内容在文献集合中的地址。2023/1/1559某地图集的公立学校索引2023/1/1560①

NITROGENOXIDES②Airpollutioncontrolsystemsandtechnologiesfor

waste-to-energyfacilities

③A000360④M004184

①NITROGENSOURCE-RECEPTORRELATIONSHIPS②Nitrogensource-receptormatricesandmodelresultsforEasternCanada③A000377④M013387说明:①受控词,②文献名(月刊无此项),③年刊文摘号,④月刊文摘号,⑤自由词《EI》主题索引著录格式

2023/1/1561《EI》著者索引著录格式

Khan,M.M.,

000564①

Khandkar,A.,

000600①

Khandkar,AshokC.(Ed),②

001275①

Kharaka,Y.K.,

000242说明:①

著者姓名(姓在前、名在后);②

文摘号

2023/1/1562《EI》著者索引著录格式

2023/1/1563《EI》著者索引著录格式

2023/1/1564《EI》著者索引著录格式

2023/1/1565《EI》著者索引著录格式

2023/1/15662.3检索词的确定2023/1/15672.3检索词的确定检索词用于描述信息系统中的内容特征、外表特征和表达用户信息提问,是构成检索提问式的最基本单元。选择合适的检索词至关重要,是保证文献查全率和查准率的基础。选择检索词要注意题目中隐含的概念和相关事物,不要只对检索词进行字面上的组配,而要进行概念组配。2023/1/15682.3.1检索词的类型计算机检索用词可分为主题词、半主题词、自由词。主题词,通过主题词表控制,在各种主题词典中可以查到。自由词,属于自然语言,是论文题目、文摘、正文中出现的词。半主题词,介于二者之间。在主题词典中没有位置,不是规范化的。2023/1/15692.3.2隐性主题的选择隐性主题就是在文章或题目、文摘中没有文字表达,经过分析、推理得到的有检索价值的概念。隐性主题获得方法:

1、从主题词表中获得;

2、通过课题讨论或向专家咨询;

3、内容概念转化。2023/1/15702.3.2.1从主题词表中获得主题词表可分为两类:第一类是比较系统的词表,通常包括了字顺表、词族表、索引表等。在字顺表中每个主题词款目列出了各种词与词之间的关系,比如属分、等同和相关等。查找隐性主题主要是利用词间关系以及词族表。第二类主题词表,只有字顺表,也没有列出词间关系,不能扩大选词范围。2023/1/15712.3.2.1从主题词表中获得举例:检索“耐热合金”方面的文献在《国防科学技术主题词典》中,查得heatresistantalloys(耐热合金),同时查到该词的下位词heatresistantsteels(耐热钢),nimonicalloys(镍铬钦耐热合金),molybdenumalloys(钼合金);上位词heatresistantmaterials(耐热材料)。选择性使用这些词,可以有效提高文献查全率。2023/1/1572举例:工程索引叙词表Acousticimaging

SN:Productionofreal-timeimagesoftheinternalstructureofopaqueobjects

DT:Predates1975

UF:Acousticlenses

BT:Imagingtechniques

NT:Ultrasonicimaging

RT:Acousticholography;Acoustics;Diagnosis;Lenses┇Acousticlenses

USE:Acousticimaging说明:SN

范围注释,说明词义和使用范围;DT

叙词启用时间,未注明的为1993年使用;UF

非正式叙词;BT上位叙词;NT

下位叙词;RT

相关叙词;USE

正式叙词。2023/1/15732.3.2.1从主题词表中获得举例:工程索引数据库叙词检索2023/1/15742.3.2.2通过课题讨论或向专家咨询举例:检索课题“飞机应急救生呼吸用固体化学氧气发生器”通过向专家咨询得知,氯酸钠是该氧气发生器的主要化学成分,是重要隐性主题。用氯酸钠(sodiumchlorates)和其他词组配检索,查得美国NASA报告“飞机应急用氯酸钠氧气系统”和AD报告“氯酸钠化学氧气发生器”等多篇相关文献。2023/1/15752.3.2.3内容概念转化1、相反转化:正面检索效果不理想,检索其反面内容,效果很好。举例:检索课题“喷涂环境的净化”。采用检索式:spraycoating×environment×clean(喷涂×环境×净化),没有查到有关文献。改变策略,检索“喷涂环境的污染”,改用检索式:spraycoating×pollution,查到18篇文献,其中11篇涉及消除污染的方法和措施。2023/1/15762.3.2.3内容概念转化2、相似转化:在内容和条件近似的概念之间转化。举例:检索“航天器载计算机”。除检索直接内容外,还可以检索“导弹载计算机”,因为导弹计算机和航天器计算机有很多共同点。2023/1/15772.3.2.3内容概念转化3、整体向部分转化:课题检索范围太大,效果不理想,可适当缩小范围进行检索。举例:检索“喷气发动机焊接”。使用检索式jetengines×welding,命中文献0篇,经过课题谈论后,发现检索意图并非喷气发动机整体焊接,而是发动机叶片焊接,重新进行检索,得到文献12篇,根据发动机叶片材料由镍合金组成,进一步检索镍合金焊接,得到文献68篇,其中20篇有参考价值,1篇与课题密切相关。2023/1/15782.3.2.3内容概念转化4、部分向整体转化:为了扩大检索范围,提高检索效果,有时需要检索整体的内容。举例:检索“头锥顶尖红外辐射”。使用检索式nosetips×infraredradiation,查得文献1篇,结果太少,再检索“导弹红外辐射”,命中文献8篇,其中4篇有较大参考价值。实际上,头锥顶尖就是导弹头部的局部。2023/1/15792.3.3同义词和近义词的选择同一事物有不同的名称,在汉语中有,在英语中也有。有的是习惯用语,有的是科学用语,有的是别名等。同一事物在不同文章中的名称不同,检索时如果只选择一种名称,采用其他名称的文章就会漏检,影响查全。2023/1/15802.3.3同义词和近义词的选择举例:检索“核电厂防爆安全用氢分析器”最初检索式为:hydrogen×analyzers×nuclearpowerplants,命中文献0篇。考虑同义词近义词之后,检索方案如下:

A:hydrogen氢

A1:air空气

A2:gas气体2023/1/15812.3.3同义词和近义词的选择B:analyzer分析器

B1:analysis分析

B2:monitors监测器

B3:alarm报警器

B4:measurement测量

B5:detection探测

C:nuclearpowerplants核电厂

C1:nuclearreactors反应堆最终检索式为(A+A1+A2)×

(B+B1+B2+B3+B4+B5)×

(C+C1)2023/1/15822.3.4上位词及下位词的选择为了提高文献查全率,除了选择恰当主题词外,还应该选择比恰当主题词内容范围更广或更窄的主题词参加检索,否则部分文献会漏检。举例:“液体火箭发动机”直接检索Liquidpropellantrocketengines,命中文献838篇,考虑上下位检索词以后,命中文献2534篇。2023/1/15832.4

信息检索的策略2023/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论