(计算机应用技术专业论文)基于xml的企业内容管理系统的研究.pdf_第1页
(计算机应用技术专业论文)基于xml的企业内容管理系统的研究.pdf_第2页
(计算机应用技术专业论文)基于xml的企业内容管理系统的研究.pdf_第3页
(计算机应用技术专业论文)基于xml的企业内容管理系统的研究.pdf_第4页
(计算机应用技术专业论文)基于xml的企业内容管理系统的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕十学位论文 摘要 随着信息技术的飞速发展,全球信息量日益增多,其中大部分是半结构化 和非结构化的信息,传统信息系统难以应付。迫切需要一种新的解决方案,来 对异构系统间的各类信息进行统一有效的管理。基于市场需要,内容管理系统 应运而生,其目标是对半结构化和非结构化信息进行有效的管理和利用。作为数 据管理的变革,内容管理已成为信息管理领域的一个新的研究方向,受到越来 越多的研究者和实践者的关注。 企业内容管理的主要目标是对企业范围内、存在于异构平台上的各类信息 进行集成的、有效的管理。内容管理系统( c o n t e n tm a n a g e m e n ts y s t e m ) 是支撑 企业内容管理的一种工具或一套工具的组合,形成了企业内容管理的基础框架 设施。在本文中,“内容”特指数字化的、计算机系统可以访问的信息,有三种形 式:结构化、半结构化以及非结构化。元数据模型描述了内容自身的特征和内 容之间的关系,提供了内容的“模式”信息,可以有效地支持对内容的访问。x m l 技术对异构信息的描述提供了有效的支持,在本文中,元数据模型的设计结果 表示为一组l 模式文档和相应的实例文档。 论文在研究与分析国内外相关研究成果的基础上,主要完成了以下工作: 首先介绍了有关内容管理的技术和理论背景,分析了内容管理的研究现状;详 细阐述了元数据模型的设计过程,针对文档的管理,提出了元数据模型的设计 结果;讨论和比较了x m l 文档的存储方式,针对特定的应用需求,提出了基于 关系数据库的x m l 文档存储方案;最后,在企业内容管理系统的框架基础上, 设计并实现了一个基于x m l 的企业内容管理系统。本系统利用元数据模型对非 结构化文档进行描述,基于元数据信息实现对高校中异构文档的管理和共享, 以满足高校文档管理的需求。 关键词:企业内容管理,x m l ,元数据模型 武汉理t 大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n f o r m a t i o nt e c h n o l o g y , m o s to ft h e i n f o r m a t i o nw h i c hi ss e m i s t r u c t u r e da n du n s t r u c t u r e di n f o r m a t i o n , i ti sd i f f i c u l tf o r t h et r a d i t i o n a li n f o r m a t i o ns y s t e m st oc o p ew i t ht h en e wr e q u i r e m e n t s n e ws o l u t i o n s a r eu r g e n t l yn e e d e d ,w h i c hc a l le f f e c t i v e l ym a n a g ev a r i o u st y p e so fi n f o r m a t i o no n h e t e r o g e n e o u ss y s t e m s c o n t e n tm a n a g e m e n ts y s t e mi st h u sp r e s e n t e d , i t sg o a li st o e f f e c t i v e l ym a n a g ea n du t i l i z es e m i - s t r u c t u r e da n du n s 缸1 l c h l r e di n f o r m a t i o n c o n t e n t m a n a g e m e n ti sb e c o m i n ga n e wr e s e a r c hd i r e c t i o ni ni n f o r m a t i o nm a n a g e m e n ta r e a , a n dh a sd r a w nm u c ha t t e n t i o nf r o mi n d u s t r ya n da c a d e m i a t h em a i np u r p o s eo fe n t e r p r i s ec o n t e n tm a n a g e m e n ti st oc o n d u c ti n t e g r a t e d a n de f f e c t i v em a n a g e m e n to nh e t e r o g e n e o u st y p e so fi n f o r m a t i o ni na l le n t e r p r i s e c o n t e n tm a n a g e m e n ts y s t e mi sas e to ft o o lw h i c hp r o v i d e saf r a m e w o r kf o r e n t e r p r i s ec o n t e n tm a n a g e m e n t i nt h i st h e s i s ,c o n t e n ts p e c i f i c a l l yr e f e r st ot h ed i g i t a l i n f o r m a t i o nt h a tc a nb ea c c e s s e db yc o m p u t e rs y s t e m ;i ti sc l a s s i f i e dt os t r u c t u r e d , s e m i s t r u c t u r e da n du n s t r u c t u r e d m e t a d a t am o d e ld e s c r i b e st h ec h a r a c t e r i s t i c so ft h e c o n t e n ta n dt h er e l a t i o n s h i pa m o n gc o n t e n t s ,a n dc o u l db er e g a r d e da si n f o r m a t i o n a b o u tt h es c h e m ao fc o n t e n t m e t a d a t am o d e li saf e a s i b l ew a yt os u p p o r tt h ea c c e 韶 t oc o n t e n t x m lt e c h n o l o g yp r o v i d e se 伍剐v es u p p o r tf o rt h ed e s c r i p t i o no f m e t a d a t a i nt h i st h e s i s ,m e t a d a t am o d e li sf o r m a l i z e da n ds t o r e di nt h ef o r mo fa x m ls c h e m ad o c u m e n ta n dc o r r e s p o n d i n gi n s t a n c ed o c u m e n t s t h ew o r k si nt h i st h e s i sm a i n l yi n c l u d ea sf o l l o w s a tf i r s t , t h eb a c k g r o u n da n d f u n d a m e n t a lt h e o r yo fc o n t e n tm a n a g e m e n ta r ei n t r o d u c e d , t h ec u r r e n ts i t u a t i o no f t h er e s e a r c ho nt h ee n t e r p r i s ec o n t e n tm a n a g e m e n ta r ed i s c u s s e d t h e nm e t a d a t a m o d e lo ft h ed e s i g np r o c e s si se l a b o r a t e d t h er e s u l t so fm e t a - d a t am o d e ld e s i g nf o r d o c u m e n tm a n a g e m e n ta r ep r o p o s e d t h ew a yo fx m l s t o r a g ei sr e s e a r c h e d f i n a l l y , a nx m l - b a s e dd o c u m e n tc o n t e n tm a n a g e m e n ts y s t e mi sd e s i g n e da n di m p l e m e n t e d , w h i c hi sb a s e do nt h ef o u n d a t i o no fe n t e r p r i s ec o n t e n tm a n a g e m e n ts y s t e m f r a m e w o r k i nt h i ss y s t e m ,m e t a d a t am o d e la r eu s e dt od e s c r i b et h eu n s t r u c t u r e d i i 武汉理工大学硕士学位论文 d o c u m e n ti n f o r m a t i o n ,b a s e do i lm e t a d a t at h es y s t e mc a nm a n a g ea n ds h a r e h e t e r o g e n e o u sd o c u m e n t s ,i no r d e r t om e e tt h en e e d so f c o l l e g e sa n du n i v e r s i t i e s k e y w o r d s :e n t e r p r i s e c o n t e n tm a n a g e m e n t ,e x t e n s i b l e m a r k u pl a n g u a g e , m e t a d a t am o d e i i l l 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究茂果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意 签名:孰嗍掣 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :萎刃炎 搠蠲:移亳日期 武汉理工大学硕+ 学位论文 1 1 研究背景 第1 章绪论 随着i t 应用的普及和深入,各行各业都积累了海量的信息资源。科学管理 和合理开发这些信息资源已经成为企业正确决策、增强竞争力的关键环节之一。 有效的管理这些信息资源不仅会让公司节省大量的费用,而且也会节省员工在 寻找和获取他们所需要的信息时所花费的时间。在政府、电信、金融、媒体等 行业中,各种格式的信息和应用程序代码已成为关键性的资产。因此,要增强 企业自身在全球的竞争力,就必须将这些信息转化为推动商业成功的资产。与 此同时,所有行业也都面临着管理各种异构信息的挑战,客户对数据管理的需 求已经超出了传统数据管理的概念。在企业存储的海量数据中,传统关系数据 库管理系统处理的结构化数据大约占信息总量的1 5 ,而8 5 的信息是非结构 化的,包括纸上的文件、报告、视频和音频文件、照片、传真件、信件等。管 理这些非结构化信息,成为传统结构化数据管理的一大难题。 另外,随着计算机网络的发展,数据形式出现了多样化的趋势,除了数据库 以外,还有许许多多的数据,它们或者存放于t x t 文件,或者存放于其他字处 理文件和表格文件( 如p d f 、w o r d 、e x c e l 等) ,或者存放于视频和图像文件中, 而这些数据本身又呈现出各种不同的形式,即使是同一种形式,也因为来自不 同用户的不同定义,这些格式呈现出干差万别的形态。于是,大量分散的形式以 及不同格式的数据给现代数据处理带来越来越大的困难。与此同时,用户的需 求越来越高,他们迫切需要从海量信息中快速、准确地找到自己所需要的信息。 所以,在这样的背景下,如何支持这些异构数据的管理和共享,成为摆在用户 面前的又一大难题。 由于传统的数据管理已经难于解决这些问题,企业内容管理【l 】( e c m : e n t e r p r i s ec o n t e n tm a n a g e m e n t ) 的概念应运而生,并开始受到广泛关注。企业 内容管理的重要目标是支持对异构数据的管理和共享,管理的对象不光是结构 化的数据,而且还包括文件、档案、图形、影像、网页、声音、视讯,产品数 据、研发文件、应用程序代码、合约等各类企业数字资源。企业内容管理是指 武汉理工大学硕士学位论文 协助组织和个人,借助信息技术,实现内容的创建、储存、分享、应用、更新, 并在企业个人、组织、业务、战略等诸方面产生价值的过程。而内容管理系统 就是能够支撑内容管理的一种工具或一套工具的组合。 企业内容管理【2 】是许多先进技术的综合应用,它涵盖企业内联网( i n t r a n e t s ) 、 互联网( t n t e m c t ) 和企业外联网( e x t r a n e t s ) 应用,大大突破了传统信息管理软件、 办公自动化软件以及文档管理软件的应用范围,具有优良的使用效果和较高的 商业价值。内容管理解决方案重点解决各种非结构化或半结构化的数字资源的 采集、管理、利用、传递和增值,并能有机集成到结构化数据的商业智能环境 中,如e r p ,c r m 等,内容管理解决方案的终极目标是实现内容价值链的最优 化。 1 2 国内外研究现状 随着非结构化信息的迅速增长,企业内容管理应用越来越受企业重视。市 场不断得到开拓,内容管理已经由遥远的理论产品,迅速发展成为取得良好效 果的实际用品。 当前,企业内容管理在理论和实施技术上,可以归纳为以下三个方面。 1 ) 企业内容管理的理论研究 内容管理从2 0 0 0 年开始成为重要的应用领域,但是人们当时偏重于对它的 技术研究,而理论研究相对欠缺。比如,对于内容管理的学术定义和技术标准, 业界一直没有一个统一的定义。这个问题一方面表明企业内容管理的技术尚未 完全成熟,不少技术难点有待突破。另一方面也表明较少有人关注企业内容管 理的理论、概念等基本问题。 目前,对于什么是企业内容管理,对于其内涵、功能、结构、作用等问题, 对于本领域的很多基本理论问题,业内都各有自己的看法,未能达成共识。他 们根据各自的理解设计生产不同的e c m 产品,导致企业在选择内容管理系统和 进行实施时,经常只能凭借自己的经验以及厂商的宣传介绍进行判断和处理。 对于一个合格的内容管理系统到底应该具备什么特征、实现哪些功能,企业也 不够清楚。 2 ) 工业界对内容管理平台等相关产品的支持 目前,与内容管理相关的基础技术和开发工具已日臻成熟,但内容管理本 2 武汉理工大学硕士学位论文 身还未形成统一的业界标准。很多国内外公司推出了自己的内容管理产品,这 些内容管理厂商可以分为3 大类,第一类是i n t e r w o v e n 、b r o a d v i s i o n 、v i g n e t t e 和d o c u m e n t u m 等国际大厂商,它们进入这一领域的时间最早,推出的方案、软 件具有功能齐全、应用成熟的特点,但是价格比较贵:第二类是诸如o r a c l e 、 s y b a s e 这样的拥有数据库技术的厂商;第三类厂商,就是国内的内容管理厂商, 比如易宝北信、国信贝斯、联想等。国外厂商虽然在内容管理系统【2 】的影响力、 技术、资金等方面具有一定优势,但是其产品因为存在着面向的应用规模较大、 功能全、价格昂贵、技术应用难度高和本地化支持不够等问题,所以目前较难 适应中国的具体情况。国内用户目前最需要的是针对用户的具体情况量身订制 的解决方案。 目前,e c m 还不能完全解决企业范围的问题,我们很难找到一个整合的、 适用于整个企业范围的解决方案来满足用户的所有内容管理需求,有些系统也 称不上是真正的企业内容管理系统,它们只是组工具软件而已,而且,这些 产品的可视化性能也比较差,交互功能也有待提高。因此,需要我们采取相应 的措施,提高和改进企业内容管理系统【2 j 的功能。 3 ) 支持内容管理的模型、方法的研究 对于企业内容管理的模型和实现方法,目前业内没有一个统一的标准和相 对成熟的解决方案。最早的企业内容管理系统模型【2 】由c h a s e b o b k o 公司提出, 其观点是一个内容管理系统应具备四大系统:内容收集系统、内容储存系统、 内容管理系统、内容公布处理系统。 c h a s eb o b k o 公司提出的企业内容管理的最基本的框架,成为后来企业内容 管理的基础。随着企业需求的提高,需要我们开发出更加完善的内容管理产品。 这就要求我们对企业内容管理的模型和实现方法作进一步研究。i n t e r w o v e 3 】作为 一家专业的企业内容管理解决方案提供商,在行业标准制定等方而做出了不懈 的努力。i n t e r w o v e 认为:企业内容管理是指在内容上进行包括收集、格式转换、 审核、分类、版本控制、内容测试、发布等处理的过程;从功能上而言,应该 包括内容存储、搜索引擎、编辑工具、存档管理工具、个性化工具、安全控制、 内容的版本管理等功能。 3 武汉理工大学硕士学位论文 1 3 研究内容 目前,随着社会信息化的推进,信息量越来越庞大,在一个大型企业内部 或一个单位内部,各种电子文档与日俱增,各种影、音、图像等多媒体信息文 档也大量出现,由于工作性质的需要,这些文档常常需要长时问保存并可以随 时查阅,而这些电子文档大都分散存储于个人或部门的计算机中,缺乏合理科 学的管理,所以文档的安全性差,检索困难,工作人员难以实现对文档的共享 访问控制,从而使文档的使用率和使用价值大大降低。如何保证这些信息被充 分利用,实现信息价值的最大化,是一个急需解决的问题。 企业内容管理系统需要处理各种异构格式的信息,这些信息的格式千差万 别,如何支持异构数据信息的交换和共享成为影响企业内容管理系统成败的重 要因素之一。企业内容管理系统在使用过程中会涉及到大量的异构格式的数据 信息,这些数据信息的格式既要满足当前系统的需要,也要考虑未来的发展变 化的要求:既要满足企业内容管理系统内部的格式要求,也要考虑与其他系统的 集成要求。 为了实现对各类非结构化数据的管理,需要引入新的技术标准。x m l 在数 据交换和信息共享方面拥有天然的优势,已经成为互联网上数据表示和数据交 换的标准格式。x m l 在解决非结构化数据时所表现出的灵活控制,使用可靠, 可以实现根据不同需求、不同关系而提供不同显示的能力,使得未来基于x m l 而非纯粹基于数据库的内容管理系统成为必然的趋势。据此,本论文在企业内 容管理系统中采用了x m l 技术来支持对非结构化数据的管理。 本课题研究的主要目的是:提出一个基于x m l 的企业内容管理系统的设计 方案,方案中采用x m l 模式和相关的x m l 文档描述“内容”的元数据,基于元 数据支持对企业环境下各种异构数据进行访问和管理,并支持对各种异构数据 的交换和共享,最后针对高等院校目前电子文档繁多,管理困难的问题,设计 并实现一个文档内容管理系统的原型。 课题的主要内容有: 1 ) 课题相关理论知识的研究。深入学习了企业内容管理的相关理论知识, 包括内容、内容管理、内容管理系统、内容管理系统的作用、以及企业内容管 理系统的实现模型等。在此基础上,提出了基于x m l 的企业内容管理系统的设 计思想。 4 武汉理工大学硕士学位论文 2 ) 对元数据模型设计方法的研究。本文利用元数据模型对各类异构信息进 行描述,并基于元数据对这些信息进行管理和共享。因此,首先介绍了元数据 模型的基本概念以及元数据模型的设计原则,然后结合一定的应用场景详细分 析了元数据模型的设计过程。 3 ) 对元数据模型的存储和查询技术的研究。本文使用x m l 模式文档和相 关的x m l 实例文档表示元数据模型的设计结果。因此,本文研究了x m l 的存 储和查询技术,并结合现有的数据库技术实现对x m l 文档的存储,提出了一种 基于关系数据库的x m l 文档的模式映射方法,以实现x m l 文档到关系数据库 的存储。 4 1 给合高等院校这一应用环境,设计并实现了一个基于x m l 的企业内容 管理系统的原型,以此来实现对高校中各种异构文档的管理和共享。 1 4 论文的组织 论文按如下章节组织: 第l 章,绪论主要分析了课题的背景、国内外内容管理的研究现状以及课题 研究的主要内容。 第2 章,首先介绍了内容、内容管理、内容管理系统、内容管理的作用以及 内容管理的功能模型。接着对本课题涉及到的元数据、元数据标准等知识进行了 概述,最后介绍了x m l 相关技术、以及数据库系统对x m l 的支持情况。 第3 章,首先分析元数据模型的定义、设计原则、设计过程。然后结全高校 的应用环境重点研究元数据模型的设计方法以及如何用x m l 技术来描述元数据 模型。 第4 章,研究元数据模型的存储和查询技术,结合关系数据库,设计了一个 基于关系数据库的x m l 的存储和查询方案。 第5 章,结合高校的应用环境,利用上述研究成果设计并实现一个基于x m l 的文档内容管理系统。从介绍系统的体系结构以及各组成模块的功能开始,系统 阐述了该系统中各功能模块的设计与实现方法。重点在于系统中x m l 文档存储 与检索技术,提出了一种满足大型软件系统项目需求的x m l 文档到关系数据库 的映射模式,以提高了系统中x m l 文档的处理效率。 第6 章,总结全文,对尚需努力的进一步完善工作进行讨论。 5 武汉理工大学硕士学位论文 第2 章内容管理与内容管理系统 2 1 内容、内容管理和内容管理系统 2 1 1 内容和内容管理 1 ) 内容 内容【1 】一词,源于出版媒体业,所以早期的内容管理c m ( c o n t e n t m a n a g e m e n t ) 偏向出版产品的管理,主要以储存、流程、元数据( m e t a d a t a ) 为要件来制作系统, 一般多以关系数据库的方式存储,也有的以一般数据文件的方式储存,或者是 根据需要两种并存。 随着计算机技术的发展和互联网的普及,企业信息的种类和数量急剧增加, 即使不是出版媒体机构,也有加强管理这些资料的必要性。于是,“内容”就由原 来的出版媒体内容扩大到企业内部全部资料信息的统称。 在本文中,“内容”特指数字化的、计算机系统可以访问的资源。主要有三种 存在形式:结构化、半结构化以及非结构化。结构化信息是指定义信息的数据 结构含义确定、清晰,典型的如数据库表中存储的信息:半结构化信息是指信 息和描述信息用的模式( s c h e m a ) 一并出现的信息,所以很多时候也称为具有 自描述( s e l f - d e s c r i p t i o n ) 特征的信息,典型的如h t m l 网页和x m l 实例文档; 非结构化信息是指结构没有规律性的,很难按照一个统一的概念去抽取数据结 构的信息,如视频、声音、图像文件等。 2 ) 内容管理 目前,业界对内容管理还没有统一的定义。内容管理处理的对象范围比传 统关系数据库管理系统( i 山b m s ) 处理的结构化数据更广,除了一般的文字、文 档、多媒体、流媒体外,还包括w e b 网页、广告、程序、软件等一切数字资源, 简言之,内容管理的对象既包括结构化信息,也包括半结构化信息和非结构化 信息。相应的,对于不同类型信息的存储方式也不同,结构化信息直接存储在 关系数据库中,半结构化信息通常以h t m l 文档或x m l 文档的形式来存储, 而非结构化信息以普通文件的方式来存储。 6 武汉理工大学硕士学位论文 企业内容管理【2 】的主要目的是对企业范围内存在于异构平台上的各类信息 进行有效的管理,并支持对这些信息的集成和发布。本文中的内容管理特指企 业内容管理。 2 1 2 内容管理的作用 内容管理【3 】由内容”和“管理”两个部分组成。c t 管理就是施加在“内容上的 一系列的处理过程。内容管理的目的是实现各种数字信息内容的创建、存储、 分享和应用,并在企业内部创造价值。 商业智能环境( e r p 、c 跚) lj 即 ui f 。飞即 时 时 需 整合管理 星 求vui f f整合的呙容 l。 u1 f分散、混乱的内容 1 图2 1内容管理的作用 从图2 1 中可以看出,内容管理不仅能使企业通过对内容进行有效的管理 直接实现内容增值,而且也对在商业智能环境中实现有效的关系管理、面向内 部和外部的客户需求的快速反应起到重要的作用。 2 1 3 内容管理系统 内容管理系鲥4 1 ( c o n t e n tm a n a g e m e n ts y s t e m c m s ) 就是支撑内容管理的 一种工具或一套工具的组合,它形成了企业内容管理的基础框架设施。内容管 理系统是针对实际问题提出的解决方案,是人、过程与技术的集成,需要从人 7 武汉理工大学硕士学位论文 员组织、业务流程以及内容管理系统的建立等多方面共同协调努力。 一般认为,一个内容管理系统至少要包含以下四个子系统【3 】: 内容收集系统( c o l l e c t i o ns y s t e m ) 进行内容的收集、获取、分发、编辑、整合及转换等工作,并可加入元数 据以支持对内容组件的定义及搜寻。 管理系统( m a n a g e m e n ts y s t e m ) 负责组件、内容及发布模板的存取管理,并可记录内容的版本、工作流程 的状态、权限的设定及更新处理等等,也可说是保障内容从收集、创建到发布 这一过程准确高效进行的管理系统。 发布系统( p u b l i s h i n gs y s t e m ) 负责将内容快速且自动的按照所建立的发布模板送至各种出版媒体上,如 w e b 、电子出版品、p d a ,w a p 、印刷品、x m l 数据交换等等。 工作流系统( w o r k f l o ws y s t e m ) 确保整个内容从收集、储存和发布的整个流程可以有效并且正确地运行的 定制系统。 杂乱无章的内容经过上面四个系统的收集、存储、管理、发布处理,在建 立及整理初期虽会花费较多的人力及时间,但只要一切走上轨道,将对客户或 员工的及时需求、及时反应产生最大效能,并因而加速企业内部知识的形成及 获得,以进一步提升企业对外的竞争力。 这四个子系统环环相扣,缺一不可,每个子系统都是一个完整的内容管理 系统必不可少的组成部分。其中,内容收集系统是内容管理系统的基础,是内 容管理的信息来源,它为后面的“管理”提供“内容”;而管理系统是整个系统的中 心,它负责将收集来的内容进行分类整理、组织、存储,并将信息流导向发布 系统;而工作流系统是所有其他系统连接的纽带。 由内容管理的定义以及内容管理系统的组成可以发现,内容管理系统的主 要工作目标是支持异构平台上的各种类型信息的管理和访问。异构平台上的信 息既包括结构化形式的信息,同时也包括半结构化和非结构化形式的信息。如 何同时管理这些信息成为问题的关键所在。 8 武汉理工大学硕士学位论文 2 2 元数据 2 2 1 元数据定义 目前关于元数据的定义很多,比较常见的定义是:元数据【5 】是“关于数据的 数据( d a t aa b o u td a t a ) ”或“关于数据的结构化数据”。在本文中,元数据是描述一个 具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取 的数据。一个元数据由许多完成不同功能的具体数据描述项构成。具体的数据 描述项又称元数据项、元素项或元素。 在内容管理中,元数据给计算机提供自动处理所需要的信息,从而使得计 算机可以自动地访问、处理各类数字资源。在内容管理中要管理的元数据主要 包含以下四大类【q : 拆分性元数据:根据这一类型的元数据,计算机可以正确一致的把内容拆 分成内容构件。 访问性元数据:访问性元数据包含了内容的位置信息。 管理性元数据:这一部分元数据主要是指为了方便内容管理而附加 的一些元数据信息,比如版本、创作日期等。 集成性元数据:这一部分元数据规定了内容与内容集成的规则和方 式。这里的集成不仅包含由小的内容构件组合成为复杂的内容,还包括不同类 型内容的集成,如关系型数据和非结构化文档的集成等。 2 2 2 元数据标准 元数据标准【4 】是描述某类资源的具体对象时所有规则的集合,不同的元数据 标准适用于不同类型资源的描述。元数据标准一般包括完整描述一个具体对象 时所需要的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法 规定。元数据标准可以分为3 个层次: 语义层:提供内容的标准化 结构层:提供形式的标准化 句法层:提供表达的标准化 其中元数据语义层是对元数据元素具体描述方法的规定,尤其是指描述元 素时所采用的标准和著录细则。比如规定对r 期的著录是采用国家标准还是采 9 武汉理工大学硕士学位论文 用圆点或者斜线隔开的办法,元素遇到的可能值或默认值等等。 目前,在国际上比较有影响力的元数据标准有以下7 种【5 】:c d w a 、d c 、 e a d 、f g d c c s d g m 、g i l s 、t e i 、v r a 。美国加州数字图书馆c d l 使用的元 数据、台湾大学m e t a l o g y 系统元数据、台湾中央研究院的元数据等也具有参考 价值。这些元数据标准适用的著录对象基本涵盖了目前所有的资源类型,但是 每个标准又各有偏重。 其中d u b l i nc o r e ( 都柏林核心元素集,简称d c ) 目前在国际上较为通用, 以其结构简单、语意互通和可扩展等特性,事实上已成为国际范围内通用的网 络信息资源描述的元数据标准。基于d c 开展的元数据项目主要有两种应用模 式:简单d c ( s i m p l ed c ) ,即在1 5 个元素的基础上进行扩展和缩减元素,不使 用任何限定词;复杂d c ( q u a l i f i e dd c ) ,即增加限定词。 在d c 分类法中,一个元数据信息大致分为以下几个域:标题、创建者、 主题、描述、出版者、发行者、日期、类型、格式、标识、来源、关联、语言、 范围和版权等。 2 3x m l 以及相关技术 在本文中,企业内容管理系统主要管理一些半结构化和非结构化的数据, 半结构化和非结构化的数据通过所抽取的元数据进行描述。由于x m l 自身的许 多特点,以及它在决非结构化数据时所表现出的灵活性等优点,因此,本文采用 x m l 文档描述元数据。 ) a l 【6 ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是由w 3 c 组织于19 9 8 年2 月发布的一种标准。x m l 是自描述的、半结构化的和可扩展的标记语言。作 为一种标记语言,它将数据和对数据的描述结合在一起,因而具有比关系模型 更灵活、更强的描述能力。作为通用的数据格式,) ( 1 啪在w e b 上不同类型的 信息交换方面日益扮演重要的角色。 由于x m l 可同时用于表示文档和文档的模式,加上其应用的广泛性,使得 一些概念在使用时容易造成混淆。为此下面先定义本文涉及的一些基本概念【7 】: x m l 文档( x m ld o c u m e n o :简称文档,泛指符合x m l l 0 的x m l 文档。 x m l 实例文档( x m li n s t a n c ed o c u m e n t ) :简称实例文档,是用于记录具体 应用信息的文档。如果实例文档符合某文档模式,则称实例文档对该模式是有 1 0 武汉理工大学硕七学位论文 效的( v a l i d ) 。 x m l 文档模式( x m ld o c u m e n ts c h e m a ) :简称文档模式,是关于文档的规约, 用于描述文档的结构( s t r u c t u r e ) 和约束( c o n s t r a i n t ) ,以便验证实例文档的有效性。 2 3 1x m l 的特点 x m l 具有以下一些特点【8 l : 自描述性:x m l 语言可以让信息提供者根据需要,自行定义标记及属性 名,也可以包含描述语法,从而使x m l 文件的结构可以复杂到任意程度。 内容的独立性:x m l 可脱离具体应用以一种统一的数据模型来描述保存 在异构环境中的各种数据,屏蔽数据源中应用环境和数据结构的异构性,其他 应用系统能直接对这些自描述的x m l 文件中的数据进行操作,因此,它能够实 现异构数据源中数据的互操作性。 结构化:x m l 是结构化的,x m l 文档应该粘附一个特殊的结构。如果 一个文档没有适当的结构,那么就不能认为它是x m l 。 可扩展性:x m l 可以在不破坏现有文档的结构和系统性的情况下增加新 的数据字段。 便于网络传输:x m l 文件只是一些简单的文本文件,因而很容易通过网 络传输。在x m l 中,文件是由一个个称之为元素( e l e m e n t ) 的部件构成。元 素是由有意义的标记( t a g ) 来描述的。由于使用了标记的描述方法,在互联网 上进行数据交换时可以保持原有数据的意思和构造,进而可以保持不同系统之 间数据交换的灵活性。 x m l 基于文本,与特定支撑环境无关,具有广泛的通用性。正是基于上述 特点和优势,在新一代w e b ( s e m a n t i cw e b ,语义网) 、文档处理以及内容管理 系统( c m s ) 等应用中,x m l 越来越多地被用作内容表示和存储的数据类型。 2 3 2x m l 文档模式 1 ) d t d 9 】 d t d ( d o c u m n e tt y p ed e f i n i t i o n ,文档类型定义) 可定义合法的x m l 文档构 建模块,它使用一系列合法的元素来定义文档的结构。d t d 可被成行地声明于 x m l 文档中,也可作为一个外部引用。 武汉理工大学硕士学位论文 x m ld t d 是标准通用置标语言( s g m l ) d t d 的子集。一个x m ld t d 列举了在一个文档中出现的不同元素和属性,以及它们使用的上下文环境,同 时它还列举了一个文档不能包括的元素。然而它不能定义一些必要的限制条件, 诸如在一个文档中某一个特定元素出现的次数、每个元素包括的数据类型等。 因此,d t d 更适用于以文档为中心的x m l 内容,而不是以数据为中心的x m l 内容。这是因为在前者中数据类型和实例限制并不如在后者中的那般重要。但 是,d t d 可以并且正在被以上两种文档类型使用。 2 ) x m l s c h e m a 【1 0 】 x m ls c h e m a 语言也被称为x m ls c h e m ad e f i n i t i o n ( x s d ) ( x m ls c h e m a 定义) 。它的作用是定义一份x m l 文档的合法组件群,就像d t d 的作用一样, 一份x m ls c h e m a 可以定义出现在文档里的元素、子元素、元素的顺序、元素 的数量、属性、以及元素和属性的数据类型等。 x m ls c h e m a 与d t d 在以下方面不刚1 1 】:x m ls c h e m a 定义语言本身基于 x m l ,同时不像d t d 的定义,可用于定义x m l 文档的构造集合是可扩展的。 x m ls c h e m a 可支持命名空间和相对于d t d 更丰富和更复杂的结构定义,而且 因为x m l 模式支持一系列简单数据类型,诸如字符串、小数和整数等,它还可 以更加强大地描述一个标签所包括的数据的类型限制,这个功能使得x m l s c h e m a 非常适合定义以数据为中心的文档。另一个显著的优势在于x m ls c h e m a 定义可以利用为x m l 设计的数据管理方法。一个x m l s c h e m a 本身就是一个 x m l 文档,这与d t d 形成了一个非常鲜明的对照,d t d 需要在x m l 数据管 理系统中加入特定的支持。 2 3 3x m l 解析技术 1 ) d o m 1 2 】 d o m ( d o c u m e n to b j e c tm o d e l ,文档对象模型) 是一套为合法的w e l l f o r m e d 文件设计的a p i ,它同时定义了这些文件的逻辑结构、访问及操作方法。在d o m 的规范里,文件的定义很广泛,其中当然包括h t m l 和x m l 。所以d o m 也可 以用来操作x m l 及h t m l 文件。可以用d o m 建立文件、浏览文件结构以及增 加或删除文件的某些内容。 d o m 由w 3 c 制定,目标是提供一个可以通用于各种程序语言、操作系统 和应用程序的a p i 。所以,d o m 具有很好的兼容性,像j a v a 、c + + 等语言都可 12 武汉理工大学硕士学位论文 以使用同样的d o m 接口。一个d o m 解析器解析一个x m l 文档,首先建立一 个对应的d o m 树,在完成树的建造之后,它才可以进一步不同的结点之间进行 遍历。所以在处理规模较大的x m l 文档时,内存管理将是一个重要难题,这种 处理方式非常占用资源,尤其是在只需要操作文档的一小部分时。 2 1s a x 1 3 】 s a x ( s i m p l e a p if o rx m l ,x m l 简单应用程序接口) 是应用中操作x m l 文档的一种a p i ,现在是用于x m l 处理的j a v aa p i 的一部分。s a x 是一个实际 上通用的标准。它与d o m 不同,它不需等到文档全部加载完,就可以进行某些 处理。当它在文档之中遍历的时候,它给用户报告它找到了什么。这使得我可 以对文档的各个部分同时进行解析操作。因此,s a x 相对于d o m 来说更适合 于操作大文档。 2 3 4x m l 查询语言 1 1x p a t h 1 4 】【1 5 】 x p a t h 即x m l 路径语言( x m l p a t hl a n g u a g e ) 是用来表示x m l 文件内各 组成单元所使用的一种路径表示语言,可以将它分为绝对路径与相对路径两种 表示方法。在相对路径方面,可以利用矿与 来表示子结点与子孙结点,并适 时加入测试条件以便找到所要的结点。x p a t h 基于x m l 的树状结构,提供在数 据结构树中找寻节点的能力。起初x p a t h 的提出的初衷是将其作为一个通用 的、介于x p o i n t e r 与x s l 间的语法模型。但是x p a t h 很快的被开发者用来当 作小型查询语言。 x p a t h 将一个x m l 文档建模成为一棵节点树,有不同类型的节点,包括 元素节点,属性节点和正文点。x p a t h 定义了一种方法来计算每类的节点的字 串值。x p a t h 充分支持x m l 命名空间。这样,节点的名字被建模成由一个局 域部分和可能为空的命名空间u r i 组成的对,这被称为扩展名。x p a t h 的主要 语法构件是表达式,一个表达式匹配产生式e x p r 。一个表达式被求值评估产出 一个对象,该对象的4 种基本类型分别为:节点集合( 无序的、无重复的节点 集合) 、布尔( 真或假) 、数字( 一个浮点数字) 、字符串( u c s 字符的顺序) 。 使用x p a t h ,信息可以用两种方式来定位: 基于在一个文档树中元素顺序的分层方式; 基于在一个文档树中拥有惟一标识符的元素的随机方式。 1 3 武汉理工大学硕士学位论文 2 ) x q u e r y x o u e r y 【硒】是一个从x m l 格式的数据源中获取数据的查询语言,它起源于 x m l 数据查询语言q u i l t ,并将x p a t h 2 0 作为其子集。w 3 c 是这样说明x q u m a l 7 j 的:t x m l 是一种通用的标记语言,它能够标记多种不同数据源的信息内容,包 括结构化和半结构化文档、关系数据库和对象库等。一种使用x m l 结构的智能 查询语言能够表达所有基于这些数据的查询,不管数据是物理存储在x m l 中, 还是通过中间件被看成是x m l 。这个规范描述了一种叫做x q u m , 的查询语言, 它是被设计成能够在多种x i v l l 数据源中广泛应用的”。 一种比较恰当的定义是:x o u e r y 1 8 】是定义为对l 数据集进行查询的, x m l 数据不仅指x m l 文档,还指一切看起来像x m l 的数据,包括关系数据库 中的数据。x q u e r y 对于x m l 数据,就像s q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论