第3章 信息检索基本理论_第1页
第3章 信息检索基本理论_第2页
第3章 信息检索基本理论_第3页
第3章 信息检索基本理论_第4页
第3章 信息检索基本理论_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节信息检索概述第二节信息检索语言第三节信息检索工具第3章信息检索基本理论一、信息检索

信息检索:是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。信息检索存储检索存储:是对信息进行著录、标引、整序,编制检索工具和建立检索系统的过程。检索:是指面向信息需求而进行高度选择性的查找过程。第一节信息检索概述

二、信息检索的类型(根据不同的检索对象):(1)数据检索:检索的结果是数据。如某种材料的电阻;某变压器的参数;化学分子式、数据图表等(手册),某地方GDP增长情况(年鉴)(2)事实检索:检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的(年鉴)(3)文献检索:检索的结果是文献资料。查找相关文献的内容、出处、收藏单位等。如系统地查找水压伺服控制阀原理方面的相关文献(论文)三、信息检索的发展1.脱机检索(20世纪50年代)2.联机检索(60年代末.70年代初)3.光盘检索(80年代)4.网络检索(90年代)

19世纪前期,由于科学团体的涌现,集体研究效率的提高,文献量逐渐增多,导致了一种社会分工的出现:即对所有发表的文献,及时地进行收集、加工和整理,并提供一定的手段,方便人们查找文献——信息检索工作便由此开始了。

19世纪末20世纪初,出现了覆盖各种专业领域的多种检索工具,其中有一些后来成为世界闻名、享有很高声誉的检索工具,如美国的《工程索引EI》和《化学文摘CA》以及英国的《科学文摘SA》。

1951年,世界上出现了最早的计算机检索系统,还主要是单机检索。

20世纪60年代起,开始出现了联机信息检索系统;

20世纪70年代,随着卫星技术和通信技术的发展,联机信息检索突破了地域的限制,走向全球化,出现了很多著名的联机检索系统,如Dialog、Orbit等,开始向全世界提供商业化的联机信息检索服务。

光盘是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动画等各种信息。

20世纪90年代,网络检索、多媒体检索以惊人的速度迅速崛起,1992年,因特网向全世界的社会公众开放,并步入商业应用时代。

1994年,网上出现了第一个web搜索引擎,1998年,仅仅四年之后,网上的搜索引擎数量已达400个之多。脱机检索联机检索光盘检索网络检索计算机磁带数据库终端计算机磁盘、磁带数据库通讯系统(卫星)光盘数据库(单驱、塔网、镜像)终端用户网络计算机(联机、光盘多媒体、超媒体)数据库通讯系统终端终端终端我国计算机信息检索的发展过程(四个阶段):

引进开发国外磁带、开展定题服务(SDI):我国计算机检索最初通过商业途径和交换方式从国外引进文献磁带,进行定题检索和联机检索服务起步的。截至1992年,先后引进各类文献磁带65种,自建数据库36个,纵容量达到1700万条。

开发国际联机检索终端:1980年我国建筑技术开发中心及9部委在香港租用一台国际终端,和美国DIALOG和ORBIT联机。83年中情所在邮电部支持下建设了第一台终端机经卫星信道街道意大利分组交换中心。至92年,已有联机终端约130个,分布于各个城市。自建数据库:随着国外磁带的引进和定题服务的开展,许多单位开始对引进的磁带进行开发建设工作,至90年代中后期,我国各类文献数据库的生产已经趋于饱和,各种事实型数据库和数值型数据库不断增加,图像数据库开始受到重视。

微型计算机和国际联机网信息存取的发展:微机以其方便、便宜体积小等优势迅速应用于信息管理领域。微机+光盘被誉为存储器的革命;接着的Internet以其更快的速度迅速发展,起来,其方便的检索大有取代传统信息检索渠道的趋势。四、信息检索的基本原理:对信息集合与需求集合的匹配与选择信息集合特征化表示选择与匹配特征化表示需求集合

主题概念

文献标识

主题概念

检索表达式文献主题分析检索工具(系统)用检索语言对主题进行描述检索需求主题分析用检索语言对主题进行描述是否匹配否输出结果为零得到检索结果是检索原理图情报工作人员检索者(提问标识)文献存储过程检索过程第二节信息检索语言一、检索语言的含义二、检索语言的类型人与人之间的通信活动:人类语言(communication)人与计算机对话:需要有计算机语言人与检索系统对话:来实施检索检索语言(retrievallanguage)。

一、检索语言的含义检索语言:把文献的存储与检索联系起来,把标引人员和检索人员沟通起来的约定人工语言。例如:有三篇文献篇名如下:

文献1:AModelofmultimediainformationretrieval

文献2:TheInformationretrievalinchemistryWWWserver

文献3:ERICresources

在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为:

文献1:篇名(title):

AModelofmultimediainformationretrieval

主题(subject):informationretrieval,multimediacomputerapplications

文献2:篇名(title):

TheInformationretrievalinchemistryWWWserver

主题(subject):

chemistry,educationalmaterials

文献3:篇名(title):

ERICresources

主题(subject):

educationalmaterials

标引后这三篇文献分别被存储进数据库。

在信息检索过程中:

如果用户输入“informationretrieval”一词,并将检索范围限定在篇名中,则文献1与文献2符合用户要求,成为检索结果。

如果用户输入“informationretrieval”一词,并将检索范围限定在主题中,则只有文献1符合用户要求,成为检索结果。

如果用户输入“educationalmaterials”一词,并将检索范围限定在主题中,则文献2和文献3符合用户要求,成为检索结果。

由这个例子可以看出,检索语言的主要作用就是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。

二、检索语言的类型检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名责任者号码引文分类法主题法1.文献外部特征语言题名语言:按文献题名字顺逐字排检,西文起首冠词一律不排。著者语言:按著者姓名,按姓前名后的字顺逐字排检。号码语言:按文献代码,如专利号、标准号等的顺序排检。

2分类语言按知识门类的逻辑次序将信息系统地组织和划分的语言,具体体现为用分类号和类名来表达信息的主题概念。

20国内

《中国图书馆分类法》[中图法]

《中国科学院图书馆图书分类法》[科图法]

《中国人民大学图书馆图书分类法》[人大法]

《中国图书分类法》台湾赖永祥编订国外

《杜威十进分类法》[DDC]

《国会图书馆分类法》[LCC]《中国图书馆图书分类法》

(简称“中图法”)《中图法》是1971年由北京图书馆倡议,全国36个单位组成的编写组集体编制的,于1975年正式出版,1980年、1990年、1997、1999年先后修订四次。《中图法》是我国当代具有代表性的图书分类法,被推荐为我国标准图书分类法.广泛使用于图书馆和情报部门。《中图法》是为实现全国图书资料统一分类而编制的,是一部大型的综合性的图书分类法。/22《中图法》等级分类体系H1H2H3R1H11H12H13H14H121H122H123H124H111H112H113等级体系分类法上位类下位类基本部类

《中图法》的结构体系为:

5个基本部类,22个基本大类

马克思主义列宁主义毛泽东思是指导我们的理论基础,作为一个基本部类,列于首位。哲学是关于自然科学和社会科学的概括和总结,因此把它作为第二部类,排在社科、自科之前。此外考虑到图书本身的特点,对一些内容庞杂,类无专属,无法按某一学科内容性质分类的图书,作为一个基本部类置于最后。由于社会科学和自然科学内容多,发展快,如不再细分,不仅不能满足图书分类上的需要,而且也不便于读者查找图书资料,因此在“社科”部类下再分九大类,在“自科”之下再分十大类。基本部类

(5)基本大类

(22)马、列主义、毛泽东思想A马、列、毛泽东、邓小平理论哲学B哲学社会科学C社会科学…D政治…E军事…F经济…G文化、科学、教育、体育…H语言、文字…I文学…J艺术…K历史、地理基本部类

(5)基本大类

(22)自然科学N自然科学总论…O数理科学和化学…P天文学、地球科学…Q生物科学…R医药、卫生…S农业科学…T工业技术…U交通运输…V航空航天…X环境科学综合性图书Z综合性图书F、经济(二级类目)F0政治经济学F1世界各国经济概况、经济史、经济地理F2经济计划与管理F3农业经济F4工业经济F5交通运输F6邮电经济F7贸易经济F8财政经济二级类目三级类目四级类目五级类目中图法的标记符号《中图法》的标记符号,采用拉丁字母与阿拉伯数字相结合的混合号码制。其中,拉丁字母用来表示大类,其他各级类目则用阿拉伯数字表示。“T工业技术”类的二级类目太多,也采用字母表示。例:“TP3”,T代表一级类目——工业技术,P代表二级类目——自动化、计算机技术,3代表三级类目—一计算技术、计算机技术。

32中国科学院图书馆图书分类法简表(第三版)00马克思列宁主义毛泽东思想10哲学20社会科学(总论)21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学50自然科学(总论)51数学52力学53物理学54化学55天文学56地球科学(地学)58生物科学61医药、卫生65农业科学66农作物67园艺68林业、林业科学71工程技术72能源学、动力工程73电技术、电子技术74矿业工程75金属学(物理冶金)76冶金学77金属工艺、金属加工78机械工程、机器制造81化学83食品工业85轻工业、手工业及生活供应技术86土木建筑工程87运输工程90综合性图书33人大法简表1.马克思主义、列宁主义、毛泽东思想2.哲学3.社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理13.自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考34《中国图书分类法》(台湾)000总论100哲学200宗教300自然科学400应用科学600历史、地理700历史、地理800语文900美术310数学320天文330物理340化学350地质360生物、博物370植物380动物390人类学410医学420家政430农业440工程450矿冶460化学工业470制造480商业490商学441土木工程442道路工程443水利工程444船舶工程445市政工程446机械工程447陆空交通448电气工程449核子工程35《杜威十进分类法》(DDC)000总论100哲学200宗教300社会科学400语言500自然科学600应用科学700艺术800文学900历史、地理510数学520天文学530物理学540化学550地球科学560古生物学570生命科学580植物学590动物学621应用物理学622采矿623军事及航海工程624土木工程625道路工程627水力工程628卫生及市政工程629其它工程610医学620工程与应用科学630农业640家政650管理科学660化学工业670制造业680特种制造业690建筑36《美国国会图书馆分类法》(LCC)A综合性类目B哲学、宗教C历史-辅助科学D历史与地方志(美洲以外)E~F美洲历史与地方志G地理学、人类学H社会科学J政治学K法律L教育M音乐N艺术P语言、文字学Q自然科学R医学S农业、矿业T工业技术U军事科学V海军Z目录学、图书馆学QA数学QB天文学QC物理学QD化学QE地质学TA工程总论TC水力工程TD卫生工程和市政工程TF铁道工程和运输TG桥梁工程TH建筑工程37网络信息分类[很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览,获得一些基本信息,然后再选择检索关键词]搜索引擎【目录专题网站】

baidu目录:

搜狗目录:http://123./38文献信息分类特点方便文献信息的排架,便于索取;类目的结构严谨,逻辑性强;适合学术信息资源(特别是印刷型)的组织。网络信息分类特点根据网络信息的存在状况和当前上网用户的特点来编制的,有一定的科学性和系统性;适合大众信息资源的组织。3.主题语言(1)含义是指直接以表达文献内容主题概念的语词作检索标识、并按其字顺组织起来的一种检索语言。特征:①直接以语词作为检索标识;②以字顺作为主要检索途径;③以特定的事物、问题、现象,即主题为中心集中信息资源;④通过参照系统等方式揭示主题词之间的关系。40标题词语言标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表:EI中《工程主题词表》(简称SHE)电脑---见(see)---计算机局域网---参见(seealso)---计算机网络41关键词语言关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。42叙词(主题)语言叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。如:《汉语主题词表》、《机械工程主题词表》《汉语主题词表》是我国第一部大型综合性主题词表。1979年出版,自然科学部分1991年修订.收录正式主题词91158条,非正式主题词17410条。全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成。是我国应用最广的一部主题标引和检索的工具。其款目(条目)格式如下:汉语主题词表主题词汉语拼音━━━>

Xianxiangguan主题词━━━>显像管[E56]<━━━范畴号主题词英译名━━━>

kinescope

PicturetubeY显像管

D电视显像管

监视管

F彩色显像管

固体显像管

黑白显像管

S电子束管

Z电子管

C显示管

指示管注释:Y用项符号:表示该主题是正式主题词D代项符号:表示该主题是非正式主题词F分项符号:表示该主题是“显像管”的分主题词,即下位词S属项符号:表示该主题是“显像管”的上位主题词Z族项符号:表示该主题是“显像管”的族首词(大主题词)C参项符号:表示该主题是“显像管”的相关主题词

例如:

Y

废水处理

D

污水处理

F

生物处理,

化学处理

深度处理,

污泥处理

S

水处理

Z

废物处理

C

混凝沉淀46概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:

字面组配模拟+控制-->模拟控制香蕉+苹果-->香蕉苹果

概念组配模拟+控制-->模拟控制香蕉味食品+苹果-->香蕉苹果作业:写出分类号1、论马克思主义宗教观

2、论建筑场

3、漫画热力学4、光学仪器常用标准汇编,

显微镜卷5、器官移植学

6、基因组信号处理7、标志与企业形象设计

8、详解MATLAB工程科学计算与典型应用

9、实时处理与控制

1、论马克思主义宗教观

B920马克思主义-宗教学-研究

2、论建筑场

TU-0建筑理论

3、漫画热力学O414.1

热力学4、光学仪器常用标准汇编,

显微镜卷

TH742

光学仪器5、器官移植学

R617

器官移植术6、基因组信号处理

Q343.1/2

细胞遗传学7、标志与企业形象设计

J524.4-43

工商工艺美术

8、详解MATLAB工程科学计算与典型应用

TB115计算数学的应用

9、实时处理与控制

TP273自动控制、自动控制系统第三节信息检索工具

检索工具:是在一次文献基础上加工、提炼、编辑而成的二次文献,能使用户广、快、准、省(省时、省力、省钱)获取有关文献信息。是人们用来存储、报道和检索文献信息的工具。

一、检索工具必须具备的基本条件1收录有足够的文献,且这些文献都含有一定的情报量。对所收录文献的各种外部特征和内容特征有详细描述,使成为一条完整的文献著录款目。3每条款目上方标有检索用标识——如分类号、主题词,著者姓名、文献序号。4全部文献都按标识的顺序,系统、科学地排列,科学组成有机整体。5提供多种检索途径,供多方面、多角度查询。书目全文数据库搜索引擎多媒体数据库

下面分别进行探讨:二、检索工具的类型1.书目概念:是指将文献目录按照一定的方式储存在存储介质上,使之成为可由用户或计算机识别与处理的相互关联的数据集合。书目类型及功能:题录(TitleList),文摘(Abstracts),索引(Index)国家书目:反映一个国家一定时期内出版的全部书籍的综合性书目。中国国家图书馆书目检索/专题书目:围绕某一问题编制的图书目录。推荐书目:向读者推荐学习研究某一方面问题的书籍的目录。联合目录:反映书刊在全国或某地区若干图书馆收藏情况的目录。国家图书馆全国期刊联合首页/馆藏目录:反映某一图书馆内藏书的目录。武汉大学馆藏目录目录数据库如:万方数据库中企业服务系统中中国企业、公司及产品数据库和商务动态。中国网上114

http://114/2全文数据库(Full-textdatabase)概念:是一种存储文献全文或其中主要部分的源数据库,是一个由完整的信息源全部转换为计算机可以识别处理的信息单元而形成的数据集合。功能:提供从任意篇章、节、句、词、字及逻辑组合检索的信息存取系统。

目前,我国著名的全文数据库产品有重庆维普的中国科技期刊全文数据库、CNKI的中国优秀博硕学位论文全文数据库、中国重要报纸全文数据库、中国重要会议论文全文数据库、中国图书全文数据库等等。实例如下页:具体见网页实例3.搜索引擎(Searchengine)百度、google、中搜、北大天网等4.多媒体数据库如GOOGLE、百度中的图片检索、地图检索、视频检索。土豆优酷三几种实用的检索工具年鉴百科全书字(词)典手册名录年鉴的定义年鉴(almanac,annual,yearbook)是汇集某一年内重大新闻、事件、数据统计资料并逐年出版的工具书。它报道最新的事实(包括最新科研成果),其内容新颖、精练、简明,取材可靠,出版稳定,具有较广泛的用途。中国年鉴信息网/

提供我国出版的各学科、各专题年年鉴的内容介绍、出版者、出版日期、定价等信息,并提供在线购买服务。百科全书Encyclopedia,“百科全书是一座没有围墙的大学”,它包罗万象,涉及人类一切知识领域,以内容广博、释文严谨、文字简明、卷帙浩瀚而著称。由于它反映了人类过去的历史和知识,更重要的是反映了现代科学文化新成就,因此,读者可以从百科全书中查到各学科、各领域的重大发现、重大事件、著名人物以及原理、方法等等。《大不列颠百科全书》

《大不列颠百科全书》(TheNewEncyclopaediaBritannica

世界最有权威的大型现代综合百科全书。参考和教育作用“没有围墙的大学”

一、百科类目(Propaedia):1卷10大类,42部类二、百科简编(Micropaedia):10卷便捷参考用书,提供最基本的概念和事实。三、百科详编(Macropaedia):主体,19卷

《美国大百科全书》

学术地位第二,深入浅出,专家与普通读者之间的桥梁

《科利尔百科全书》

更注重各科知识的综合平衡,对象广泛,雅俗共赏。

与《美国大百科全书》《大不列颠百科全书》号称ABC三大百科全书。《中国大百科全书》1978年,国务院决定编辑出版《中国大百科全书》,并成立中国大百科全书出版社。《中国大百科全书》第一版历时15年,于1993年出齐,共74卷;第二版历时14年,共32卷,于2009年出齐。中国大百科出版社主页:(http//)光盘版奥林匹克百科全书网简介网址:http:∥/

一个以《奥林匹克百科全书》为依托,与中国奥林匹克出版社合作而建成的与奥林匹克运动有关的知识性网站,全面介绍了奥林匹克运动的思想、历史和现状,以及与奥林匹克运动有关的人物、事件、成就和术语等。字(词)典字词典(dictionary)是诠释名词术语最主要的、最具有权威性、系统性、实用性的检索工具,汇集语言和事物名称等词语,揭示其词义、发音、概念和用法,并按照一定次序排列组织,供人们查考的工具书。字典以字为收录单位,解释文字形、音、义的辞书类工具书。例如:

《说文解字》(东汉)许慎--第一部字典

《隶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论