版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1本章要点: 信息检索的五个步骤 归纳课题主题,提取检索概念的一般方法 课题的分类号和主题词的确定方法 汉语词语的切分方法 课题概念的扩展方法 文献信息数据库文档、记录、字段的概念 逻辑、截词、优先、位置算符和字段限制第章 信息检索原理2第章 信息检索原理2.1 信息检索的定义和原理2.1.1 信息检索的定义 “检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索) “检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲,检索包括“存贮”和“查找”两个过程。没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。 31.
2、信息检索的定义 狭义:是指根据特定课题的需要,运用科学的方法,在大量信息(文献)集合中查获所需信息(文献)的过程。 是指从任何信息集合中查找所需信息的活动、过程与方法。 广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程,其全称是信息存储与检索。 广义的信息检索包括信息存贮和信息检索两个部分,两者又往往合并称为“信息存贮与检索” 。4补充: 文献检索的含义:就是利用文献信息检索系统,从一个特定的文献集合中,查找特定用户所需的特定时间、特定区域和特定主题的文献的程序和方法。5 第章 信息检索原理 2. 信息检索的一般原理 信息检索包括存储和检索两个过程。 信息检索
3、过程的实质是将检索提问标识与存储在检索系统(检索工具)中的检索标识(标引标识)进行比较,含有两者一致或信息存储的标识包含着检索提问标识的信息就是检索命中的信息。这就是信息检索原理。 6信息处理人员检索结果检索 工具检索课题用 户原始信息信息分析、著录和标引课 题 分 析检索语言(主题词/分类号)信息检索原理示意图:存贮过程 检索过程存入检索检出7 3.信息检索的类型 以检索内容区分: 根据检索对象不同,信息检索可分为文献检索、事实检索和数据检索三种类型。 (1) 文献检索(Document Retrieval) 是以文献为检索对象的信息检索。也就是说文献检索是以图书、期刊、资料、数据库中的篇章
4、或全书刊为检索对象的一种检索。 如:检索有关“花卉组织培养技术”的文献。 文献检索是一种相关性检索,检索结果不直接回答用户提出的技术问题,只是提供与之相关的文献信息供用户参考。 8 (2) 事实检索(Fact Retrieval) 是以事实为检索对象的一种检索,查找某一事物发生的时间、地点及过程。 如检索“日本松下电器公司近年来进行了那些新产品的开发研究”“IBM公司所在地、总裁是谁、下设哪些分公司、从事哪些业务”等等。 (3) 数据检索(Date Retrieval) 是以数据为检索对象的一种检索,包括数值、图表等。 查找科学技术参数、统计数字、财政信息数据、市场行情数据等都属于数据检索。
5、9 事实检索和数据检索都是确定性的检索。检索结果要直接回答用户提出的技术问题,即直接提供用户有关某一问题的确切的事实情况或具体的数据,检索结果一般是确定性的。 信息检索三种类型的区别: 1.检索对象不同 2.检索结果不同 3.性质不同 4.借助工具不同10第章 信息检索原理 以检索方式区分,信息检索又可分为: (1) 手工检索 手工检索即是用人工来处理和查找所需信息的检索方式。 (例如:利用各种文摘、索引、题录等刊物) (2) 计算机检索 计算机检索是利用计算机和一定的通信设备查找所需信息的检索方式。 (例如:利用各种文献信息数据库)11 2.1.2 检索语言 1 检索语言及其定义 检索语言是
6、用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。 检索语言主要有以代码语言为特征的分类语言和以事物名称术语为特征的主题语言两大类。其中主题语言分为叙词语言和关键词语言。 文献的内容特征:是与文献信息主题内容密切相关的信息。 文献的外部特征:是与文献信息主题内容没有关系或关系不大的信息。 12检索标识种类反映文献外部特征检索标识反映文献内容特征检索标识著者 文献序号篇名出版社分类号主题词关键词单元词标题词叙词人工语言自然语言分类语言13第章 信息检索原理 特性检索: 从具体事物或主题出发所进行的文献检索。广义地说,凡是狭窄范围内的检索皆可视为特性检索。 (指某人、某事物所特有的性质
7、:如我们讲一个民族的特性。) 族性检索: 从学科、专业出发所进行的文献检索,是与特性检索相对的、范围较广泛的检索。 属于体系分类法的各种检索语言的功能,主要都是满足族性检索的要求。14 2.分类语言(1).分类语言的定义和特点 分类语言,也称分类法或分类表。所谓分类法(具有族性检索的特点)就是按照文献信息的内容、形式、体裁和读者用途等, 根据科学学科之间的逻辑归属关系, 采用层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的分类号,从而形成的分类表。 因此,分类法通常是指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。 如:中
8、图法的符号代码体系是拼音字母加数字。15第章 信息检索原理国内通用分类法有: 中国图书馆图书分类法(简称中图法) 中国图书资料分类法(简称资料法) 中国科学院图书分类法(简称科图法)国外通用的分类法有: 杜威十进分类法(DDC)、 国际十进分类法(简称UDC)、 美国国会图书馆图书分类法(简称LCC)常见的专业分类法:物理学分类法等。16(2)中图法和分类表:中图法将人类知识分为马列、哲学、社会科学、自然科学、综合五大基本部类,22个大类。 大类类目设置情况如图: 具体类号、类目展开情况如图所示: 检索标识即分类号,由拼音字母和数字组成 采用等级列举表达从属关系上位类目与下位类目的关系:上位类
9、目一定包含各个下位类目,下位类目一定带有上位类目的属性。分类号越长,表示的学科范围越窄。 为了清楚醒目, 通常分类号的第三位数字后,隔以“ .” ,如F279.712,TQ032.42022/9/2417C社会科学总论D政治、法律E军事 F经济 G文教、科学、体育 H语言、文字 J艺术 I文学 K历史、地理 自然科学总论 NRSTO数理化P天文学、地球科学Q生物科学 医药、卫生农业科学工业技术U交通运输V航空、航天X环境科学Z综合性图书社会科学自然科学机械、仪表建筑科学 马列主义、毛泽东思想A马列B哲学哲学综合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工业技术 矿业工
10、程石油冶金工业无线电电子学、电讯技术自动化技术化学工业轻工业、手工业金属学武器工业动力工程原子能技术电工技术水利工程图3 1 中 图 法 展 开 图18检索语言分类法中图法O 数理化 一级类目 O1 数学 二级类目 O3 力学 二级类目 O31 理论力学 三级类目 O311 运动学 四级类目 .1 质点运动 五级类目 O4 物理学 二级类目19中国图书馆图书分类法类号和类目示例 O1 数学 O11 古典数学 O12 初等数学 O13 高等数学 总论性著作入此;专论入以下有关类,例:微积分入O172 O15 代数、数论、组合理论 151 代数方程式论、线性代数 .1 代数方程式论 .2 线性代数
11、参见O241. 6 .21 矩阵论 .26 线性代数的应用 152 群论 O3 力学 O31 理论力学 20第章 信息检索原理 分类法途径的特点: 它体现了学科的系统性,便于从学科或专业的角度出发进行族性检索,但缺乏进行多概念灵活组配的能力。21索书号又称为排架号 反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位)组成:分类号书次号 O651.21-44/L631 分类号:按学科分类图书 书次号:同类书的排列 条码号O651.21-44L631SDT0142052122 (3) 确定课题分类号的方法 分类途径是按文献信息所属的学科类型来查找文献的一种方法。 从分类途径检索(同
12、时它也是一种族性检索)文献的检索步骤一般为: 分析待查课题的主题内容,根据主题内容在类目索引中找到相应的类目,在分类表中提取分类号。在相应的检索工具中用该类号检索所需的文献,再根据所需要的文摘提供的出处查找原文。 从分类途径的检索步骤可见,确定课题的分类号是从分类途径检索文献的关键。23第章 信息检索原理 (3) 确定课题分类号的方法 1).单概念课题确定课题分类的一般方法 所谓单概念课题是指课题涉及主题概念只有一个。例如:“函数”、“齿轮”等都属于单概念。 方法是: a.了解分类表的体系结构,重点掌握大类的分布,b.在相关的大类中,由大而小,逐步查找最接近于课题要求的分类号。C.注意表中用于
13、帮助确定分类号的类目注释和类目指引。24 2).多概念课题的一般分类方法 涉及两个或两个以上概念的课题即为多概念课题。如:“计算机在机械工程方面的应用” 含“计算机”、“机械工程”两个概念。 应注意以下几点: a.并列概念课题。对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次者,应取其重点或主要研究对象归类。如果涉及同一研究对象的几个方面都需检索时,应在涉及的几个类中同时查 找。 b.应用性课题。研究一种理论、方法、工艺、材料、设备、产品等在某方面应用或对某方面影响的课题, 应在所应用或受影响的类目中查找。在多方面应用,则在该理论、方法、工艺等本身所属的类目中查找。25
14、练习题:1.如果需要给“计算机在人口预测方面的应用”这个课题标引中图法类号,应该归入“TP39计算机的应用”,还是归入“C923人口预测”?并请说明理由。2.切分课题“当前数理统计模型研究”和“当前乌鲁木齐、石河子的流动人口的流动规律分析”的概念,并用布尔逻辑算符构成检索策略。3.针对课题“古代文学研究”和“古代历史研究”,下面的布尔逻辑符的应用是否合理?应如何修正?1)古代文学 OR 古代诗歌2)历史 AND (中国古代历史 OR 世界古代历史)26第章 信息检索原理 3).上位类分类方法 这种归类法也是一种常用的分类方法。它适应于欲查课题无现成类目或无符合要求的专指类目时,可以归入它从中分
15、化出来的上位类。这种分类方法的关键是确定合适的上位类号。 3 叙词语言(1)叙词语言的定义和特点 叙词语言是以规范化科学名词为基础的一种主题法检索语言。所谓叙词是从自然语言中优选出来的经过规范化的名词术语。27 所谓规范化,是指对自然语言中的同义词进行优选,对词的不同形式进行归一。 对同义词进行合并,即一个概念只用一个标题词来表达,排除多词一义的现象。例如:“玉米”又叫“苞米”、“苞谷”“玉蜀黍”、“玉茭”、“棒子”等, 对多义词进行注释,即一个标题词只表达一个概念。排除一词多义的现象。例如“茶”既可以表示一种树木(植物),又可表示一种饮料. 28 叙词语言其原理是:按主题集中文献;用经过规范
16、化的语词来组配描述文献主题;用参照系统间接显示主题之间的相互关系;用字顺序列直接提供主题检索途径. 叙词和分类语言的异同点。 同:都对基本的事物有正式的、规范的表达形式; 异:主题词可以自由组配,用以表达复杂的概念。 (2)叙词表和汉语主题词表 叙词语言的体现形式是叙词表。国内常用的叙词表主要有我国许多检索刊物使用的汉语主题词表。 叙词表是叙词的汇编,它是进行文献主题标引和主题检索的依据,一般由一个主表和若干个索引组成。 29第章 信息检索原理汉语主题词表的卷册划分如下:第一卷 社会科学 第一分册 主表(字顺表) 第二分册 索引第二卷 自然科学 第一至第四分册 主表(字顺表) 第五分册 词族索
17、引 第六分册 范畴索引 第七分册 英汉对照索引第三卷 附表30 汉语主题词表的主表称字顺表,所有主题词都按汉语拼音字顺排列,每一个主题词的著录都构成一条款目。汉语拼音 Wei sheng su B que fa bing款目主题词 维生素B缺乏病英文译名 Vitamin B deficiency参照项(代项) D 糙皮病 非叙词参照项(分项) F 维生素B1缺乏病 下位叙词参照项(属项) S 维生素缺乏病 上位叙词参照项(族首词) Z 营养缺乏病 参照项(参项) C 多发性神经炎 相关叙词31第章 信息检索原理 等同关系参照项: “用(Y)”就是从非正式主题词指引到正式主题词。“代(D)”则是
18、从正式主题词指引到非正式主题词,也就是指明叙词所代替的非叙词。如 马铃薯(叙词) D 土豆 土豆(非叙词) Y 马铃薯32第章 信息检索原理 等级关系参照项: “属(S)”项是指明该词的上位概念是什么;“分(F)”项则是指明下位概念有哪些词,如 肥料(属概念) F 氮肥、钾肥 氮肥(分概念) S 肥料 钾肥(分概念) S 肥料 叙词法的特点: 使用的是规范化的单词、词组;概念组配; (3)确定课题叙词的一般方法 分课题分析、查表选词、试查定词三步。33第章 信息检索原理 4. 关键词语言的定义和特点 所谓关键词是指那些出现在文献的标题、摘要以及正文中,对表征文献主题内容有实质意义的词语。 关键
19、词是一种自然语言性质的主题语言。34第章 信息检索原理 关键词索引的原理是: 它只将出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的关键词排在检索入口,同时提供文献地址(即正文中文献顺序号)以满足检索者的检索要求。 35第章 信息检索原理 关键词属自然语言。如:“光学纤维传感器”这个课题可分成“光学”、“纤维”、“传感器”。 优点:自然性 缺点:随意性 关键词语言的特点:非规范化语词的自由标引;36第章 信息检索原理 从课题出发确定关键词的方法: 涉及: 分析提取课题主要概念和辅助概念 检索概念的扩展方法 汉语课题概念的切分方法37 概念分析的结果应以概念组为
20、单元的词或词组形式列出,以便下一步制订检索策略。 实际检索中,主要概念、辅助概念体现为主要检索词、辅助检索词。共同出现的还有禁用词。 有些检索词中已经含有的某些概念,在概念分析中应予以排除。 例如:课题“内弹道高温高压高密度的气体状态方程”,如果把“内弹道”,“高温”,“高压”,“高密度”,“气体”,“状态方程”六个概念全部组配起来,会造成大量漏检。 本课题只须采用“内弹道”和“状态方程”这两个主要概念即可。 38又如:课题“芸豆天然食用色素的提取” 这个课题有五个概念:芸豆、天然、食用、色素、提取。 只要把“芸豆”与“色素”这两个概念组面进行组配, 有关提取、制造、利用等方面的文献都会检索出
21、来。 391.如果需要给“计算机在人口预测方面的应用”这个课题标引中图法类号,应该归入“TP39计算机的应用”,还是归入“C923人口预测”?并请说明理由。2.当“磁光盘”应用于计算机信息存储时,可使用中图法类号是: A.TP333.4光存储器 B.TN946录象系统 C.TN912.2电声技术与设备 D.G356.4情报载体 3.“计算机在机械设计中应用”这个课题的中图法类号,应使用: A.TP339计算机技术的应用 B.TH122机械设计 C.TP3 计算机技术 D.TH1 机械工程401、查找农六师草地及饲草料资源调查与利用评价的文献2、酸奶油脂分离机的研制 3、天府肉鹅与霍尔多巴吉鹅的
22、饲养与繁育4、甜菜气吸式铺膜播种机 5、固体碱催化棉籽油制备生物柴油的研究6、夹持式棉花精密穴(点)播轮7、巴州地区葡萄阿小叶蝉的研究8、滴灌专用复合液肥 41第章 信息检索原理2.1.3 信息检索系统 实现信息检索的必备条件是信息检索系统。 信息检索系统是为满足各式各样的信息需求而建立的一整套文献信息的收集、加工、存储和检索使用的完整系统。 这种系统可以是提供手工检索使用的书目、索引等检索书刊,也可以是计算机检索使用的数据库系统。421.信息检索系统的类型 以报道文献的内容层次区分,信息检索系统可分为目录、题录、文摘、全文四种类型。(1)目录 (Bibliography) 是揭示和报道整本文
23、献外表特征的检索工具。 目录以单位出版物(整本文献)为基本的著录对象,所谓单位出版物是指以文献独自的名称作为一个完整的出版单位的出版物,如:一种图书、一种期刊等,都是以文献独立名称作为文献单位的名称。 43 目录以文献的“本”、“种”或“件”为报道单位。 它是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的工具。 目录的著录项目通常包括: 出版名称、责任者(著者或编者或译者)出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格)。44目录的条目著录格式 例1:检索结果:数控机床及应用/古文生编著.- 第二版(修订版).- 北京: 电子工业出版社,2002
24、.04.- 208页; 26cm.-中等职业学校电子信息类教材. ISBN7-5053-7272-6:18.00注明各项:书名;责任者(编著者); 版次(版本形式);出版地;出版者;出版时间;总页数;尺寸(开本);附注;国际标准书号;价格45 目录按类型分: 有图书、报刊、资料目录。 按目录种类分: 有分类、著者、书名、刊名目录。 按编制单位划分: 有国家书目、出版社与书店目录、图书馆馆藏目录、联合目录。如:全国新书目等46(2)题录: 是揭示和报导单篇文献外表特征的检索工具。 题录是在目录的基础上发展起来的,它与目录的主要不同点在于著录的对象不同。目录的著录对象是单位出版物,而题录的著录对象
25、是单位出版物中的单篇文献。 例如:一本名为超导材料论文集的图书汇集了25篇研究论文。 目录著录的对象是超导材料论文集一书,而题录著录的对象则是书中的25篇论文,著录的结果是目录1条;题录25条。 47 再如美国著名刊物自然,目录著录的对象就是自然这一刊物,而题录著录对象则是自然这一刊物中刊载的成千上万篇论文。 题录是以单篇文献 为著录对象。 题录的著录项目一般包括: 题录号、文献题目、作者及工作单位、出处(如期刊名称、出版年、卷、期、页次)、原文文种、主题词、文中所附图表数及参考文献数等。48题录的条目著录格式 : 例1检索结果:020713110 可视化信息的建模与实现/ 章丽 (华东师范大
26、学计算机科学系),李强/ 计算机工程. -2002,28(3).-92-93,236 注明各项:文献顺序号(年份+流水 号);文献题名;第一责任者;第一责任者所在单位;其它责任者;刊名;出版年、卷(期)、起止页49(3)文摘: 是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。 文摘是系统揭示和报道单篇文献的外表特征和内容特征的检索工具。 文摘的著录对象可以是期刊中的单篇文章,或一种会议录中的某个章节或某篇论文,还可以是一件专利、标准或一份科技报告。 文摘的著录项目包括了题录的所有项目和对文献内容所作的摘
27、要。50文摘的条目著录格式:例1:TG526.1 950369利用变速切削提高机床切削系统稳定性 刊/ 于骏(吉林工业大学)/机械工艺师.1994,15(2):7-9,34对利用变速切削技术来表6参11 (江静波)注明各项:分类号;顺序号;文献题名;文献类型;责任者(责任者所在单位);刊名;出版年,卷(期),起止页;文献摘要;表格数及参考文献条数;文摘员51例2:47030 02080997 MPI燃料供给方式的天然气喷流可视化研究=Visualization of Natural Gas Jet Used in MPI System. 刊,中/许伯彦(山东建筑工程学院, 济南250014),
28、张兰/ 内燃机学报.2002,20(2).-99102 使用纹影照相法观察定容装置。图10参2关键词:天然气;多点燃料喷射;可视化;山东省自然科学基金资助(Y2000F07) 注明各项:学科代码(如著录格式为TP319,则为分类号)文献顺序号文献中文题名=外文题名文献类型,原文语种第一责任者第一责任者所在单位及地址其他责任者刊名出版年、卷(期)、起止页文献摘要原文插图及参考文献数关键词资助基金种类和编号52以下文后参考文献的著录格式有哪些错误:1袁庆寿 牛德林主编中国边疆经济发展概 略,黑龙江人民出版社,1993年版 1 吴宝国、王龙等.北京大学学报J.2004, 40(5):7-92全国报刊
29、索引编辑部.高电化技术J.自 然科学出版社,2003【篇名】双异构法制备晶体甘露醇的研究【刊名】化学工程师, Chemical Engineer,2005年3期【作者】赵光辉; 王关斌; 贺东海; 李俊平 【机构】山东福田药业有限公司 山东禹城; 【关键词】甘露醇; 山梨醇; 催化还原;异构反应【中英文摘要】文中研究了以葡萄糖为原料,53 (4)全文 全文系统的主体内容是文献的全文。检索过程中,全文系统通常先提供题录和文摘信息,同时给出全文链接,供读者选择。 (5)索引 (index)。 索引是将文献信息中的一些重要的、有检索意义的知识单元(各种事物名称及特征),如主题词、分类号、著者姓名、题
30、名等,根据需要一一分析摘录出来,并注明它们所在的地址(页码或文献号),再按一定的顺序编排组织起来的一种工具。54 索引是对一组信息集合的系统化的指引,通常依附于目录、题录、文摘等纸质型检索工具之后,是检索工具的辅助性工具。 一般只起指引特定信息的内容及其存储地址的作用。因此,索引并不是一种独立存在的检索工具类型。 一种索引通常由一系列的索引款目(条目)和参照系统所组成。55 1) 索引款目(条目)的构成 一条索引款目通常有三个著录项:标目(或标识heading)、说明语和存储地址。 A 标目(也称标识) 标目是索引条目所指示的信息某方面的特征,例如著者姓名、主题词等。 标目在索引款目中处于最明
31、显的位置,一方面起着描述文献外部特征和内容特征的作用,另一方面决定款目在索引中的排列位置,提供检索入口。56 例1:主题索引 冬虫夏草 人工培养 虫草菌丝 950384 说明:标目 说明语 存储地址 (顺序号或文摘号) 例2:著者索引 于骏 950384 950158 于永强 950433 于永新 950218 说明:标目 存储地址 57 B 说明语 位于标目后面或下面,进一步指示所查文献的特征,或解释标目含义的词或词组。标目和说明语结合在一起,可以更具体更准确的表达所描述的内容。C 存储地址 位于标目和说明语后面,指明特定文献信息在检索工具正文(信息集合)中的地址。 在这三项中,标目和存储地
32、址是必须的。58不同的标目系统构成不同的索引: 标目的形式多种多样,用不同形式的标目去描述文献的特征并作为索引款目的标目,就构成不同类型的索引。 文献标识(标目)与索引类型的对应关系如下: (按照索引的对象可分为:)文献标识分类号主题词篇名著者报告号索引类型分类索引主题索引篇名索引著者索引报告号索引59第章 信息检索原理 索引的类型 索引的类型很多,按使用范围可分为: 通用索引(著者、主题、分类、题名索引等); 专用索引(文献序号索引、分子式索引等)二类。 602)、索引的参照系统 包括各种参照、标目注释等。 参照(指引检索者从一个标目到另一个标目查阅的一种方法。) a “见”项参照(主要用于
33、控制同义词之间的分散现象,它指引检索者由非规范化的词去查规范化的词,起核对主题词的作用。) 例: 引擎 见 发动机 土豆 见 马铃薯 b “参见”项参照 61 b “参见”项参照(用来指示标目之间的等级关系及相关关系。它指引检索者由一个索引中所采用的标目去查另一个相关的标目,而这些相关标目在索引中是分散排列的。使用它可起到扩大检索范围的作用。) 例: 电子计算机 参见 人工智能 电线 参见 电缆 海洋学 参见 海洋生物学 海洋地质学 海洋气象学62 标目注释(是对索引标目中的一种补充及附加说明,主要用于区分同形异义词和说明标目的准确涵义) 例1 Mold(fungus)霉菌 Mold(form
34、s) 模具 疲劳(物理) 疲劳(生理) 例2: 哺乳动物 (专指陆上品种)632文献信息数据库的定义和构成 定义:数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合。 类型: 根据数据库所含信息内容的不同,文献信息数据库可分为文字型、数值型和多媒体型三类数据库。 按数据库的内容性质分,可分为有文献型数据库和非文献型数据库。64 (1)文献型数据库: 主要指的是以文献形式存贮,如一次文献或二次文献。可分为: a.全文数据库: 是将文献的全文存贮在数据库中,用户直接检索出相关文献的全文或其中某些段落。 b.书目数据库: 存贮二次文献(包括文摘、题录、目录、
35、索引)的数据库叫书目数据库,大多数文献数据库都属于此类,检索得到的结果是有关课题的二次文献。 65 (2)非文献型数据库。又可分四类: 第一类是数据型数据库,可直接查找有关各种数据,如各种物理常数、科学实验数据、化学分子式及价格、产量、元件参量等市场行情。 第二类是事实型数据库,库内记录各种有检索和利用价值的事实,这种数据库资料来自百科全书、人名录、公司名录等。 第三类是概念数据库,库内存贮各种名词术语或语言资料,一般来源于词典等。 第四类是图像、声音等数据库,库内存有某些图像信息,如卫星图、云图、工程设计图等,一般为内部使用。66第章 信息检索原理 构成: 从使用者观点 观察, 数据库主要
36、由 “文档记录 字段” 三个层 次构成。 文档 记录字段67 (1).文档 文档是文献或数据记录的集合。从数据库的内部结构来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。 a.顺排文档: 顺排文档是将数据库的全部记录按照记录号的大小顺序排列而成的文献集合,它构成了数据库的主体内容(是主文档)。 按文献的顺序(如文摘号)排列。68数据库顺排文档示意图文献号篇名作者主题词语种001A篇名A作者A主题词汉002B篇名B作者B主题词俄003C篇名C作者C主题词英 007K篇名K作者K主题词汉008Q篇名Q作者Q主题词汉009T篇名T作者T主题词汉69
37、b、倒排文档: 在倒排文档中,以记录的特征标识作为排列依据,其后列出含有此标识的记录号,或者说按照文献的属性列出具有同一属性的所有记录。 倒排文档通常有好几个。 主题词索引词典倒排文档给出的是主题词、含有这些词的记录个数以及与主题词等对应的记录号。 例如,有4个词:计算机、情报检索、 应用、系统设计。它们分别包含在文献号为001、002、003的文献中,其顺序排列结构如图:70数据库顺排文档与关键词倒排档比较示意图文献号检索词 001情报检索、计算机 002计算机、应用、情报检索、系统设计 003情报检索、系统设计 键值 记录数 文献号 计算机 2 001 002 情报检索 3 001 002
38、 003 应用 1 002 系统设计 2 002 003 构成的倒排文档如图71 记录号倒排文档给出记录号的地址及其索引词在记录中的字段和字段中的具体位置的标识符。72(2).记录记录是构成文档的基本单元。是有关文献或数据的整体描述(是对某一实体的全部属性进行描述的结果) 。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。记录实例:作者:赵少庆 篇名:信息技术对公共行政的影响论纲 文章出处:国家行政管理学杂志,2005,12(5):45-47 内容摘要:社会信息化是当代社会的一种大趋势,它正推动着公共行政现代化的进程。信息技术的发展对诸如行政人员、行
39、政决策、行政组织、行政方法、政府管理模式等公共行政要素和过程产生着深远的影响。73 (3).字段 字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。 根据与文献内容相关与否,文献数据库的字段通常分为基本字段和辅助字段两类。 基本字段:是与文献内容密切相关的字段辅助字段:是与文献内容基本无关的字段74文献数据库中常见的字段和段码基 本 字 段辅 助 字 段中文段码名称英文段码全称英文段码简称中文段码名称英文段码全称英文段码简称题目TitleTI记录号Document NoDN文摘AbstractAB作者 AuthorAU叙
40、词DescriptorDE作者单位 Author AffiliationAF关键词 KeywordKW期刊名称 Serials TitleST出版年份Publishing yearPY出版国 CountryCO文献性质Treatment codeTR语种LanguageLA75字段和检索词 作者:赵少庆 篇名:信息技术对公共行政的影响论纲 文章出处:国家行政管理学杂志,2005,12(5):45-47 内容摘要:社会信息化是当代社会的一种大趋势,它正推动着公共行政现代化的进程。信息技术的发展对诸如行政人员、行政决策、行政组织、行政方法、政府管理模式等公共行政要素和过程产生着深远的影响。 作者检
41、索词:赵少庆篇名检索词:信息技术 公共行政 影响中文刊名检索词:国家 行政 管理学文摘检索词:社会 信息化 公共行政 信息技术 行政人员 行政决策 行政组织 行政方法 政府管理模式 公共行政 要素 76 数据库 / | 文档1 文档2 文档3 / 顺排文档 倒排文档(若干) / / | 记录的集合 主题词 作者 期刊名称等倒排文档 | | / 字段 特征标识词 记录数 / 基本字段 辅助字段77第章 信息检索原理2.1.4 检索效果评价 检索效果是指检索结果的有效程度。 衡量检索效果的评价指标有很多,其中最重要,也是最常用的是查全率和查准率 在检索过程中,在检索系统中参加检索的全部文献可分成“
42、有关”、“无关”、和“查出”、“未查出”四个量, 这四个量又可划分为“用户相关”和“系统相关”两类。78第章 信息检索原理 查全率(Recall Ratio)是指检出的相关文献数与库内相关文献总数之比。又称“检全率”、“命中率”。 检出的相关文献量 查全率(R)= 100% 文献库内相关文献总量 查准率(Precision Ratio)是指检出的相关文献数与检出的文献总数之比。又称“检准率”、“相关率”。 检出的相关文献量 查准率(P)= 100% 检出的文献总量79R0P查全率R与查准率P的关系曲线CADBC.W.Cleverdon(英)进行Granfield试验,得出查全率R与查准率P曲线
43、。RP之间存在着互逆关系: A点检索词数量多,泛指性强,查全率较高但查准率却非常低 B点检索词专指性较强,查准率就高查全率因此降低 C,D两点两种极端的折衷。查全率一般在5070查准率一般在4050 无论怎样调整检索策略和改进系统效率,都无法使P和R同时接近100。80第章 信息检索原理2.2 文献信息检索的基本步骤文献检索步骤 在科技文献信息的检索过程中,根据既定的课题,系统地查找所需求的文献信息,其主要的程序为: 课题分析-确定检索工具-选择检索途径-阅览二次文献-获取原始文献。812.2.1.明确课题检索目的 研究性课题有前沿探索研究性、调查研究性和面向应用研究性三类,各有不同特点和信息
44、需求。2.2.2.归纳课题主题,提取和扩展检索概念 1.了解课题的背景知识 了解课题的背景知识,是进行课题检索的基础。课题的背景知识包括课题研究的对象及其所属的学科和主要涉及内容(包括研究方法、使用器材、主要研究单位和人员等)。82 第章 信息检索原理 2.分析提取课题概念的方法 分析课题就是在课题背景知识的基础上,分析出课题所涉及的主要概念和辅助概念,并找出能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。 主要概念(或称核心概念),是指课题研究的主要对象。 辅助概念(又称普通概念),其含义是指一些没有专业意义的概念。 对于新学科、交叉学科和边缘学科的课题,更要搞清楚这些
45、概念关系。83 在实际检索中,主要概念、辅助概念体现为主要检索词、辅助检索词。共同出现的还有禁用词。 主要检索词是指与课题所研究的对象、方法有关的特指性事物名词。 辅助检索词是指泛指性名词,它们只在检索结果过多需要限制时使用。 禁用词 概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制订检索策略。84 有些检索词中已经含有的某些概念,在概念分析中应予以排除。 例如:课题“内弹道高温高压高密度的气体状态方程”,如果把“内弹道”,“高温”,“高压”,“高密度”,“气体”,“状态方程”六个概念全部组配起来,会造成大量漏检。 本课题只须采用“内弹道”和“状态方程”这两个主要概念即可。 85
46、第2章 信息检索原理又如:课题“芸豆天然食用色素的提取” 这个课题有五个概念:芸豆、天然、食用、色素、提取。 只要把“芸豆”与“色素”这两个概念组面进行组配,有关提取、制造、利用等方面的文献都会检索出来。 如果有些检索概念已经体现在所使用的数据库中,这些概念也应该予以排除。 如:“计算机”一词在计算机数据库中一般应予以排除。 86第章 信息检索原理3.切分汉语词语的方法 汉语词语的切分是使用汉语信息数据库过程中重要的一环。 检索时,必须对汉语表示的课题名称进行词语切分,才能查出更多的文献。 词语切分的方法是去掉课题表述中的虚词和泛指的词语,然后按照概念单元分成不能再拆分的词语。87第章 信息检
47、索原理4.扩展概念的方法 目前的计算机信息检索系统多数不具备智能扩展检索(思考)功能,不会对所输入检索词以及涉及的所有词进行自动地、全面地检索。因此,必须在概念分析的基础上列出与概念有密切关系的词语,从中作出选择,以尽可能全地获得相关文献,达到较好检索效果。 这就是检索概念的扩展方法问题。 常用扩展检索概念的方法有:基于同一概念、基于内容分析和基于检索结果三种。 884.扩展概念的方法(1).基于同一概念的检索词的扩展 从不同的角度考虑,同一事物有着不同的名称,它们都可以作为检索词使用。如:同一事物的学名、俗名、商品名、代号、简称、全称、音译、意译、反义词、单复数、不同词性、英美语的不同形式等
48、。89(2).基于内容分析的概念扩展法1)上位概念扩展法,是分析检索对象的学科归属。如:英语与外语,美术与艺术,上海图书馆与公共图书馆,词法与语法、专利与知识产权、继承法与民法、唐诗与古诗等。2)下位概念扩展法,又称概念分析的树形展开法。如:英语外贸 应用文 英汉科技 翻译 书信 函电 公文 化学 机械 通信 口译 笔译 903) 隐含概念扩展法 所谓隐含概念,是文献或课题中,未用显而易见的方式表达,因而需要认真进行“由表及里、由此及彼”的深入分析才能找出的概念。 隐含概念大致有以下几种情况: a.隐含概念是显见概念的更确切的表述。 有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐
49、含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。91 第2章 信息检索原理 例如:课题“小麦穗分化与气候条件关系” 其显性主题概念词为“小麦、穗分化、气候”。 “穗分化”一词中又隐含着“分蘖、分育、春化”等概念,“气候条件”一词也隐含着“温度、降水、光照”等概念。 b.隐含概念是显见概念的上位概念或下位概念。 c.隐含概念是显见概念的衍生概念。 92第章 信息检索原理 对于多数课题,同时使用隐含概念及其上位概念、下位概念和衍生概念,可以提高检索的查全率。 扩展概念时,简单地增加限制词扩展出来的检索词,并不一定能增加检索所得。应以不同的表达方式扩
50、展下位词。93第章 信息检索原理 (3)基于检索结果的概念扩展法 对初步检索结果进行分析,往往能够得到与课题相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。94第章 信息检索原理 2.2.3. 选择信息检索系统 1.按照功能和层次选择信息检索系统 有目录、题录、文摘和全文四种不同类型。 2.按照出版地区不同选择信息检索系统 (1)国内信息检索系统 (2)国外信息检索系统 选择数据库应遵循的原则:95 2.2.4 实施检索 1 检索途径的选择。检索途径是指通过文献何种特征来进行检索。常见的文献检索途径主要有反映内容特征的分类(通过族性角度)、主题(特性角度)两个途径和反
51、映外表特征的著者、号码两个途径。 2 检索策略的确定。 我们在着手检索之前,应先制定检索策略。所谓的检索策略,就是在分析提问实质的基础上,提出的一个合理的检索方案。也就是在检索前制定的概念组配和执行顺序的方案。 在计算机检索过程中,检索策略具体表述为检索式。96 检索策略(检索式)将各个检索概念(一般为表达主题内容的检索词)之间的逻辑关系、位置关系等用检索系统规定的各种组配符也称算符连接起来,成为机器可识别和执行的命令形式。 如:切分课题“当前数理统计模型研究 ”的概念,并用运算符构成检索策略。 数理 统计 模型973 检索方法的概念 一般常用的检索方法有直接检索法和间接检索法两种: 直接检索
52、法即直接从报刊杂志中通过浏览的方法从中获取所需信息的一种方法。 间接检索法即通过检索工具的指引进行查找,获取所需信息的一种方法。 98 间接检索法采用的方法通常有下列三种: A 追溯法: 是从已有的文献后面所附的参考文献入手,逐一追查原文,再从这些原文后面所列的参考文献逐一追查,不断扩大检索的线索,从而获得一批相关文献信息的查找方法。 是利用文献末尾所附的参考文献,由一变十、由十变百地进行追溯查找。 此法在缺少检索系统(工具)和检索系统(工具)不全的情况下,可以说是一种比较好的检索方法。99追溯法原始文献100追溯法原始文献所附的参考文献101 B 常用法: 它是利用文摘、题录、全文或相应的数
53、据库等各种检索系统(工具)查找文献的方法,也称工具法。由于这种方法是目前查找文献中最常用的一种方法,所以叫常用法。 常用法又分为:顺查法、倒查法、抽查法 顺查法: 使用检索工具由远及近逐年地查阅。此法能保证查全率,但很费时。 例如,某项科研课题“生物能源的战略地位及其发展前景”按照“顺查法”应从何年查起呢?102 倒查法: 也可以叫逆查法。使用检索工具由近及远逐年查阅,直到查得所需文献为止。此法会漏检早期的重要文献,而影响查全率。 如:“克隆技术的出现及应用” 抽查法: C 综合法: 交错使用追溯法和常用法两种方法称之为综合法,也称为循环法或交替法。 注意检索策略的调整。用户对每次检索结果作出
54、判断,并对检索策略(检索式)作出相应的修改和调整,直至得到比较满意的结果。103104 第2章 信息检索原理 2.3 数据库检索策略的构建方法 2.3.1 检索策略中常用的运算符 检索策略,又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序做出的某种安排。 构成检索策略就是运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符、位置逻辑算符、截词算符、词组算符、优先算符和字段算符等方法,表达课题检索要求的过程。 105 第2章 信息检索原理1布尔逻辑算符 (1) 或(OR)运算符 用“OR”或“+”连接检索概念。A or B(或A+B)表示两个概念的并列,即纪录中凡单独含有检索项A或检索项
55、B,或者同时含有、两者均为命中记录。 使用于具有基本相同或近似概念的同义词、同族词之间 106或(OR)运算符 用于扩展检索范围 S1 1834 公司 S2 2022 企业 S3 3647 公司 OR 企业 检索式;公司 OR 企业 企业公司 第2章 信息检索原理107(2) 与(AND)运算符 用“AND”或“*”连接检索概念。A and B(或A*B)表示两个概念的交叉,即记录中必须同时含有检索项A和B。 用逻辑与组构的检索词越多,检索范围越小,专指度越强,有助于提高查准率。 在运用是,应把出现频率低的检索词置于“与”左端,可使否定的答案尽早出现,中断检索,节省机时。 第2章 信息检索原理
56、108 与(AND)运算符 用于限制检索范围 WTO 中国 S1 12940 WTO S2 2173 中国 S3 842 WTO AND 中国 检索式:WTO AND 中国 WTO AND 中国 使用于需要组配不同概念的检索词之间 第2章 信息检索原理109(3) 非(NOT)运算符 用“NOT”或“”连接检索概念。 not B(或)表示两个概念的排除,即凡含有检索项而不含检索项的记录为命中记录。逻辑非运算缩小了检索范围,提高了检索的专指度。 逻辑非的缺点,即取消部分,往往会把切题的文献给丢掉,故运用逻辑非运算时要慎重。 第2章 信息检索原理110非(NOT)运算符 用于排除概念 S1 110
57、 专利 S2 325 德国 S3 108 专利 NOT 德国 检索式:专利 NOT 德国 专利 NOT 德国 使用于需要从某个概念中剔除另一个概念的场合 patent German 第2章 信息检索原理111逻辑算符AND(与)OR(或)NOT(非)检索式或写成A AND B A*BA OR B A+BA NOT B A-B逻辑关系的说明数据库中同时含有词和词的记录被检出(命中)数据库中或含有词或含有词,或两词皆有的记录被检出数据库中凡含词而不含词的记录被检出逻辑关系图图图图ABAB 第2章 信息检索原理1122优先算符( ) 如果归纳成一个模式,比如有 A、B、C、D四个检索词(其中A和B,
58、C和D分别为同义概念),检索提问可以分成三组: ?S A OR B (集合号为S1) ?S C OR D (集合号为S2) ?S S1 AND S2 在实际检索中,上述的三组检索提问也可以归并为一组。即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处理算符“( )”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。上例检索提问可改为: ?S (A OR B) AND (C OR D) 第2章 信息检索原理1133位置算符 又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,类似于以词组形式表达的概念;
59、彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。 按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符,检索系统不同,规定的位置算符也不同。 第2章 信息检索原理114 例如,Compendex光盘数据库使用的位置算符有: “(N)”(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序可以颠倒) “(F)”(表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,两词的词序可以颠倒)第2章 信息检索原理115 “(S)”(表示其两侧的检索词必须在同一句子中出现,两词的词序可以颠倒) (W)(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序不可以颠倒)四种。第2章 信息检索原理116 4字段限制 字段限制也是调整检索策略的一种重要的手段。如果想指定在题目等字段中查找所希望的检索词,就需要使用字段限制。字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度标识标识牌广告代理合同3篇
- 2025年卷接机项目可行性研究报告
- 2025年度存量房买卖合同(含房屋装修进度及质量监督)4篇
- 二零二五年度租赁房屋押金管理及退还合同4篇
- 2025版民爆物品装卸作业应急救援预案合同4篇
- 二零二五年度互联网金融消费贷款合同范本4篇
- 二零二五年度农产品电商平台运营合同多4篇
- 2025年度3D打印技术知识产权许可使用合同4篇
- 2025版淋浴房产品认证与质量保证合同协议4篇
- 300572安车检测2025年上半年财务风险分析详细报告
- 春节行车安全常识普及
- 电机维护保养专题培训课件
- 汽车租赁行业利润分析
- 春节拜年的由来习俗来历故事
- 2021火灾高危单位消防安全评估导则
- 佛山市服务业发展五年规划(2021-2025年)
- 房屋拆除工程监理规划
- 医院保安服务方案(技术方案)
- 高效能人士的七个习惯:实践应用课程:高级版
- 小数加减法计算题100道
- 通信电子线路(哈尔滨工程大学)智慧树知到课后章节答案2023年下哈尔滨工程大学
评论
0/150
提交评论