信息组织与信息检索_第1页
信息组织与信息检索_第2页
信息组织与信息检索_第3页
信息组织与信息检索_第4页
信息组织与信息检索_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息组织与信息检索401345030课程教材参考资料第1章概论1.1数字信息资源的概念、特点与类型1.2数字信息资源组织的概念、内容与特点1.3数字信息资源组织的基本方法与管理模式1.4数字信息资源组织发展及其意义(1)数字信息资源的概念信息资源的含义,目前仍有不同的解释,归纳起来主要有两种:狭义的理解,认为信息资源就是信息本身,即各种媒介与形式的信息的集合,包括文字、声音、图片、视频、印刷品、数据库等;广义的理解,认为信息资源是信息活动中形成信息产品的一切支撑性资源,除狭义的信息资源以外,还包括人员、设备、技术、资金等各种资源。本书将数字信息资源定义为:所有以电子数据的形式将文字、图像、声音、动画等多种信息,存储在光、磁等非纸质载体上,并通过网络通信、计算机或终端等方式展现出来的资源。1.1数字信息资源的概念、特点与类型(2)数字信息资源的特征

高度的共享性类型的多样性检索的便利性信息的时效性信息的不安全性按数字信息资源内容的表现形式划分,有数据库、电子期刊、电子图书、电子报纸等按数字信息存储介质划分,可分为磁介质和光介质两种类型按数字信息传播的范围划分,可分为网络信息资源和单机信息资源按数字信息资源的生产途径和发布范围划分,可分为商用电子资源、网络公开学术资源、特色资源按数字信息资源的生产方式划分,可分为原生数字信息资源和复合数字信息资源按数字信息资源的性质和功能划分,可分为一次数字信息资源、二次数字信息资源、三次数字信息资源(3)数字信息资源的类型

(1)数字信息资源组织的概念采用一定的方法与模式,按照一定的原则将某一领域大量的、分散的、杂乱无章的、良莠不齐的数字信息通过搜索、评价、筛选、分析、标引、著录、排序、存贮等手段进行加工处理,使其形成一个有序的,便于用户获取与利用的信息系统的过程。数字信息资源组织是对数字信息的外部特征和内容特征进行揭示和序化。外部特征一般是指其载体的物理形态、题名、责任者、出版事项等。在信息组织中,记录信息外部特征称之为信息描述。内容特征一般是指其学科专业或主题概念,在信息组织中,对信息的内容特征进行的加工和整序被称为信息揭示或信息标引1.2数字信息资源组织的概念、内容与特点(2)数字信息资源组织的基本内容数字信息资源的优化选择数字信息资源的分析数字信息资源的描述与揭示数字信息资源的整理与存储(3)数字信息资源组织的特点采用自动化的信息组织手段对非结构化信息的加工组织信息组织方式透明化、易用化信息组织标准化、兼容化(1)数字信息资源组织的基本方法分类组织法分类是人类认识事物、区分事物的基本方法。分类组织法是根据某一特定的分类体系或逻辑结构组织信息的方法。分类组织法建立了信息的层级和关联体系,便于浏览检索,是一种广泛应用的信息组织方法。分类组织法在传统图书馆文献信息的组织排架中的作用十分明显,当文献信息数字化、网络化以后,分类法在数字信息组织方面所扮演的角色并未被看好,但实践作出了肯定的回答。在网络环境下,分类组织法的优势就在于通过建立一个共有的概念性的上下文关系,能够超越不同的信息存储形成一种凝聚力,从而提供按等级体系的浏览检索方式,比如门户网站中的分类导航系统、检索结果中的分类过滤功能等。1.3数字信息资源组织的基本方法与管理模式(1)数字信息资源组织的基本方法主题组织法通过揭示信息主题特征并有序组织的方法。主题组织法以自然语言的语词作检索标识,以字顺为主要检索途径,通过参照系统揭示语词之间关系以显示信息的结构体系。其主要特点是:以事物为中心集中信息;以直观的语词表达信息内容;以特性检索、明确性检索为主。在信息检索系统中,它是与分类法相对应的、互为补充的另一方法体系。

按照表达主题概念的语词标识的构成原理和特征划分,主题法一般分为标题法、单元词法、叙词法和关键词法。在网络环境下,用于组织数字信息资源的主要是关键词法和叙词法。引文组织法利用信息与信息之间的相互引证关系来组织信息。它利用各种数学及统计学的方法对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息资源组织方法。如《中国期刊网》CNKI的“聚类检索”中,“引用文献”就列出本文所引用的文献,“被引用文献”则列出本文被其他文献所引用的情况,可供人们了解本文继承和发展过程和在科学研究中的流传影响、社会效果等。(1)数字信息资源组织的基本方法(2)数字信息资源组织的语义工具用于信息资源组织的语义工具统称为知识组织系统(KnowledgeOrganizationSystems,简称KOS),它包括分类法、叙词表、语义网络、本体以及更泛指的情报检索语言等,其中分类表、叙词表和本体是目前应用广泛且备受关注的数字信息资源组织用语义工具。分类表根据数字信息资源应用环境的不同,大致分为学科专用型分类表和应用型分类表。1)学科专用型分类表指针对图书情报学领域的适用于综合学科的分类表。学科专用型分类表有体系分类表(等级列举式分类表),分面分类表(分面组配分类表)两种基本类型。目前国内外使用的分类法以体系分类表为主,并融合了分面组配的思想。体系分类表用等级表示类目的从属关系,用列举法显示类列的完整性,其代表包括《杜威十进分类法》(DDC)、《中国图书馆分类法》(《中图法》)。体系分类表具有表达纵向类目关系理想,有利于组织排架的优点;但不利于反映文献内容的多样性和多变性,不易维护,比较适合传统图书馆的藏书组织。分面分类表把各学科知识分解成若干因素,再把许多因素根据一定标准归纳为若干个面,如《冒号分类法》(CC)把知识归纳为5个基本范畴:本体(P)、物质(M)、能量(E)、空间(S)、时间(T)。分面分类既能反映类目之间的纵向关系,又能使横向关系得以充分表达,有利于建立分类信息检索系统,比较适合数字信息资源的动态组织。分类表(续)2)应用型分类表为了满足各类具体需求、便于数字信息资源保存、管理而编制的一系列分类表。应用型分类表是基于网络数字环境,为了满足社会生产、人们生活而编制的分类表。譬如,社会生产类分类表包括《国际商品分类表》、《国民经济行业分类表》、《商品分类表》等,人们生活型分类表包括各类网站导航栏目、搜索引擎分类目录等。这种分类表针对性强,符合社会发展要求和人们生活习惯,有很强的生命力,类表结构简单易懂,为社会生产和人们生活带来了极大的便利;缺点是分类结构不够严谨,变动性强,适用的范围狭窄,移植能力弱。叙词表亦称主题词表,表达概念及其等同、等级、相关关系的词汇集,是将文献、标引人员、用户的自然语言转化为规范语言的一种词汇控制工具。叙词表揭示了词汇之间的3种最主要的概念关系:等同关系、等级关系和相关关系。叙词表形成于20世纪50年代末,是在吸收元词法、标题法以及分面组配式分类法等知识组织方法优点的基础上发展起来的。1959年美国杜邦公司编制了第一部叙词表,其后迅速发展,到目前为止,我国叙词表已超过130种,国外叙词表也超过2000种。20世纪60年代以来,叙词表在我国文献信息机构得到了广泛的应用。本体也称为知识本体、实用分类系统,是最新的知识组织系统类型,可以用来表示概念间复杂的关系,其中包括语义网络所不能表示的规则和推理。本体是等级体系结构与元数据式的“特征”描述的结合,在对知识进行分门别类的划分后,对每一类组甚至每一个类的成员进行一系列定义,比如特性、限制条件、推理规则等,而这一切都必须用机器可读的语言来描述。知识本体一般描述某一具体领域的知识,通常与知识挖掘、知识管理相关联。本体因其对概念及其语义关系揭示的明确化、模型化、机器可读等优点而成为第二代互联网——语义web环境下不可或缺的组织工具,受到了知识工程、信息管理、机器翻译、人工智能等各个领域的关注。元数据(Metadata)是关于数据的数据,或关于数据的结构化的数据。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大为各种以数字形式存在的信息资源的描述数据。一个元数据款目构成一个信息资源的基本数据,是检索系统的基本构成单元,它可以代表信息资源用来组织目录、索引、数据库、搜索引擎等检索系统。元数据在信息资源描述方面的作用,主要表现在以元数据为中介,对信息资源进行各种操作。其作用包括以下5个方面:①描述或识别;②定位;③搜寻或检索;④评估;⑤选择。(3)数字信息资源组织的描述工具——元数据(4)数字信息资源组织管理基本模式数字信息资源组织的微观模式一次信息的组织模式称之为微观组织模式,它是对一次信息具体知识单元的揭示与描述,这种模式在实际应用中主要有:文件方式:主要适用于对非结构化信息进行组织管理。自由文本方式:是对非结构化的文本信息进行组织管理的一种方式,它不仅是对文献特征的格式化描述,而且用自然语言深入揭示文献中的知识单元,主要应用于全文数据库。超媒体方式:将超文本与超媒体技术相结合以组织利用数字信息资源的方式,它将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来。主页、页面方式:这种方式通过页面对某机构、个人或专题作全面介绍,用主页将这些信息集中组织到一起,相当于网上的档案全宗。数字信息资源组织的中观模式相对微观模式而言的,它包括数字信息资源的二次组织与三次组织。二次信息组织是对各种微观组织模式所组织信息的再组织,三次信息组织是对二级信息的再组织。二次信息资源组织模式:这种模式很常见,包括常用的搜索引擎方式、目录指南方式(主题树方式)、指示数据库方式等。三次信息资源组织模式:一次、二次信息组织方式实现数字信息资源的序化与优化,有时依旧难以满足人们对信息的精约化与集成化需要。例如,不同的搜索引擎有各自的特点与侧重点,因此,为了提高信息的查全率与准确程度,往往需要辅以多个搜索引擎进行检索、核对、去重。这时,有必要对二次信息资源进行组织控制,形成三次信息,帮助用户更快捷地找到合适的搜索引擎、目录指南或指示数据库等,这就是“目录之目录”的三次信息资源组织管理模式。(4)数字信息资源组织管理基本模式数字信息资源组织的宏观模式利用各种具体的微观、中观信息组织方法与模式对数字信息资源进行的整体性组织管理与控制,实际应用中主要有:学科信息门户模式。学科信息门户将特定学科领域的信息资源、工具和服务集成为整体,为用户提供方便的信息检索和服务入口。数字信息的重组模式。数字信息重组,建立在对原始信息所含知识内容进行分析评价的基础上,选择有用、有价值的信息,并运用一定的科学方法将所得信息进行重新组合,从而得到新的信息产品,实现信息增值的过程。

(4)数字信息资源组织管理基本模式1.4.1信息组织的历史沿革信息组织发展时期的演化,不是一个时期对一个时期的否定,而是一种扬弃,是理论与和方法的完善和扩展。信息组织的发展过程一方面是信息管理整体发展过程的组成部分,另一方面是与信息技术的发展紧密联系的。古代信息组织近代信息组织现代信息组织1.4数字信息资源组织发展及其意义古代信息组织的主要特点1)以手工编撰书目的信息组织形式为主流,包括一书目录和群书目录、国家书目、联合目录等,同时也出现了以数序、音韵、类名、语词为排列方式的类书以及从文献正文中摘录只语片断的文摘方法。2)信息组织活动以个体劳动为主。虽然偶尔也存在着简单的协作关系,但并未形成一种长期固定的专门机构。如我国古代《七略》、《七志》的编撰大都以个体劳动为主。3)着眼于文献的收藏管理,主要是为了管理一定范围内的文献,并非着眼于文献检索和利用;其信息组织的主要方式限于记录与登载文献的基本特征,或按照学科或事物范畴排序;其成果形式类似于文献清册,即文献书目。4)信息组织的主要对象是图书和档案文献。5)信息排序多采用分门别类的方式,国外偶尔也采用主题方式揭示和排序等。总的来说,不管古代的信息组织其形式与成果如何简单,但其“辨章学术,考镜源流”的功能及分类揭示与排序的手段对后来信息组织的影响还是深刻的。近代信息组织的主要特点1)文献管理机构(各类型图书馆、档案馆、情报部门)普遍开展了文献信息组织活动。2)文献分类法的建立和完善。如1876年,美国图书馆学家、教育家杜威编制的《杜威十进分类法》(DDC)。3)信息组织技术与方法的逐步完善,信息组织的对象从载体单元逐渐转向知识单元,索引和文摘组织法的面世打破了书目形式长期一统天下的局面,以满足特性检索为目的的主题法进行了进一步探讨。4)主题组织法和机械化信息组织手段的发展。如1895年出版了第一部标题表——《美国图书馆协会标题表》5)信息描述与揭示的内容日臻完善,信息存取系统的检索途径增多。如美国《化学文摘》除了著者索引和主题索引以外,还增加了环系索引、分子式索引和专利号索引等。6)“用户中心论”在信息描述、揭示与检索点形成与排序过程中得到认同与贯彻。7)信息组织各类产品的生产与开发利用工作开始成为有组织、有目的的社会信息实践活动,逐步发展成为一种具有相对独立性的职业。现代信息组织阶段(1)基于计算机应用的信息组织这一阶段的主要标志是信息组织的技术化、社会化、产业化和标准化。技术化书目工作存取系统、题内关键词索引、MARC、PRECIS、自动文摘等社会化联机编目、OCLC等产业化文摘索引服务、数据库产品、联机检索服务、化学文摘CA等标准化ISBDs、在版编目CIP、LCC、DDC、中图法、中分法等现代信息组织阶段(2)基于网络的数字信息资源组织面对不断发展的网络环境,面对多元化的信息载体,面对多元化的信息需求,需要更好地实现信息整序、科学分流、促进选择、保证利用的全面职能。1)基于传统的信息资源组织实践与理论。2)异构数字信息资源组织。3)网格环境下的数字信息资源组织。4)语义网环境下的数字信息资源组织1)基于传统的信息资源组织实践与理论①利用元数据对数字信息资源进行描述。②虚拟图书馆(专题指引库)。③分类法在数字信息资源组织中的应用。④主题法在数字信息组织中的应用。2)异构数字信息资源组织异构数字信息资源集成是为解决“数字资源孤岛”和“数字资源超载”而提出的一种理念和方法。①异构数字信息资源实践研究。结构化与半结构化等②异构数据集成架构研究。联邦数据库、SOA等③异构数据集成方法研究。XML、WebService等3)网格环境下的数字信息资源组织传统互联网实现了计算机硬件的连通,Web实现了网页的连通,网格将实现互联网上所有资源的连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等,网格能让人们透明地使用这些资源。①国外具有代表性的研究项目

DELOS、LibraryGrid、GRACE等。②国内基于网格技术的应用研究武汉大学“数字图书馆网格应用模型”、OAI-PMH、跨库检索、资源整合与发现等4)语义网环境下的数字信息资源组织

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论