(计算机科学与技术专业论文)基于cwm的元数据集成的研究与应用.pdf_第1页
(计算机科学与技术专业论文)基于cwm的元数据集成的研究与应用.pdf_第2页
(计算机科学与技术专业论文)基于cwm的元数据集成的研究与应用.pdf_第3页
(计算机科学与技术专业论文)基于cwm的元数据集成的研究与应用.pdf_第4页
(计算机科学与技术专业论文)基于cwm的元数据集成的研究与应用.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息与网络技术的发展,各类网络信息系统之间迫切需要有 效的数据交互,数据集成已经成为信息共享的关键。由于各信息系统 采用的数据模型是互不相同,存在异构性,在语义上没有一个共同的 理解,为解决数据语义上的一致性问题,需要研究元数据层次上的数 据共享。 在认真研究现有元数据集成策略的基础上,通过对公共仓库元模 型规范的分析,论文设计了一种基于c w m 的集中式元数据集成方 案,采用了基于元模型的元数据集成策略的优点,并以关系数据库为 中央元数据存储库;为了能完整的描述c w m 的对象信息,给出了 c w m 元模型存储结构;引入u m l 建模技术,设计了关系模式一u m l 、 u m l x m l 的元数据映射方法和映射规则;基于c w m 规范,分析并 设计了源元数据文档与目标元数据文档之间的交换方式,以方便元数 据之间的互操作;为了集成符合c w m 规范的元数据,论文提供了 c w mx m l 文档在r d b m s 中的存储策略和存储算法。 结合专家信息互联共享平台的需求,论文将基于c w m 的集中式 元数据集成方案应用到专家信息系统中,采用元数据全面的描述专家 信息的结构和语义,并以c w m 来规范专家信息元数据,给出了专家 信息系统元数据管理的运行机制,以实现专家信息的共享和交换,并 从专家信息元数据建模、映射、交换、存储方面进行了实例说明。 关键词数据集成,元数据,公共仓库元模型,元模型,元数据交换 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fi n f o r m a t i o na n dn e t w o r k t e c h n o l o g i e s ,e f f e c t i v ed a t ae x c h a n g ei su r g e n t l yn e e d e db e t w e e nv a r i o u s t y p e so fn e t w o r ki n f o r m a t i o ns y s t e m s ,d a t ai n t e g r a t i o nh a sb e e nt h ek e y t oi n f o r m a t i o ns h a r i n g h o w e v e r ,d i f f e r e n td a t am o d e l sa d o p t e db y d i f f e r e n ts y s t e m sa n di n f o r m a t i o ns y s t e m sa r ei s o m e r i c ,i nt h ea b s e n c eo f ac o m m o ns e m a n t i cu n d e r s t a n d i n g ,t os o l v et h ep r o b l e mo fd a t as e m a n t i c c o n s i s t e n c y ,s h a r i n go fi n f o r m a t i o na tm e t a d a t al e v e ln e e dt ob ea c h i e v e d w i t ht h e s t u d yo fc u r r e n tm e t a d a t ai n t e g r a t i o ns t r a t e g ya n dt h e a n a l y s i so fc w ms p e c i f i c a t i o n ,r e l a t i o n a ld a t a b a s ei su s e da st h ec e n t r a l m e t a d a t ar e p o s i t o r y , t h ea d v a n t a g e so ft h em e t a d a t ai n t e g r a t i o ns t r a t e g y b a s e do nm e t am o d e li sa d o p t e d ,am e t a d a t ai n t e g r a t i o np r o g r a mb a s e do n t h ec w mi sd e s i g n e d ;i no r d e rt oc o m p l e t ed e s c r i p t i o no ft h eo b je c t i n f o r m a t i o no fc w m ,t h ec w mm e t am o d e ls t o r a g es t r u c t u r ei sg a v e ; t h em e t a d a t am a p p i n gm e t h o d sa n dm a p p i n gr u l e so ft h er e l a t i o n m o d e l - - u m la n du m l - x m la r es t u d i e d b yi n t r o d u c t i o n o fu m l m o d e l i n gt e c h n i q u e s ;t h em e t a d a t ae x c h a n g em e t h o db e t w e e nt h es o u r c e a n dt a r g e tm e t ad o c u m e n t si sa n a l y s e da n dd e s i g n e db a s e do nt h ec w m s p e c i f i c a t i o nt of a c i l i t a t em e t a d a t ai n t e r o p e r a b i l i t y ;i no r d e rt oi n t e g r a t e m e t a d a t ai nl i n ew i t ht h ec w m s t a n d a r d ,ar d b m ss t o r a g es t r a t e g ya n d a r i t h m e t i cf o rc w mx m ld o c u m e n t si sp r o v i d e d c o m b i n a t i o n t h e c u r r e n t s i t u a t i o n o f e x p e r t i n f o r m a t i o n i n t e r c o n n e c t i o n s h a r i n gp l a t f o r m ,i n o r d e rt or e a l i z et h es h a r i n ga n d e x c h a n g eo fe x p e r ti n f o r m a t i o n ,t h em e t a d a t ai n t e g r a t i o np r o g r a mb a s e d o nt h ec w mi sa p p l i e dt oe x p e r ti n f o r m a t i o ns y s t e m ,ac o m p r e h e n s i v e u n d e r s t a n d i n go fe x p e r ti n f o r m a t i o ns t r u c t u r ea n ds e m a n t i c si sd e s c r i b e d b ym e t a d a t a ,a n dt h ee x p e r ti n f o r m a t i o nm e t a d a t ai sr e g u l a t e db yc w m , t h em e t a d a t am a n a g e m e n to p e r a t i n gm e c h a n i s mo fe x p e r ti n f o r m a t i o n s y s t e m i s g a v e ,a n dt h ee x a m p l e so fe x p e r ti n f o r m a t i o nm e t a d a t a m o d e l i n g ,m a p p i n g ,e x c h a n g e ,s t o r a g ea r es h o w e d i i k e yw o r d sd a t ai n t e g r a t i o n ,m e t a d a t a ,c w m ,m e t a m o d e l , m e t a d a t ae x c h a n g e n i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。 作者签名: 日期:毕年月旦日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:趣主! 堑导师签么:【董:量。日期:皿年土月旦日 硕士学位论文第一章绪论 第一章绪论 目前,随着企业信息技术的迅速发展,现代企业已经拥有庞大的而且还在日 益增长的信息量,组织内部以及组织之间的信息交换比以往更加频繁,信息资源 的共享已经成为现代企业之间的一种重要的协作方式。然而,目前企业己有信息 系统的运行环境往往是封闭的,原有的信息系统并不是按照其他企业或部门的系 统相互合作而设计,数据模式只是为了满足自身目标而量身定制,这为企业信息 的共享带来了很大的障碍。企业内拥有各式各样的品牌和类型的硬件、不同类型 和版本的软件系统、以及分散在不同系统内的数据,从而形成了一个个“信息孤 岛”。孤立的信息系统无法有效地跨部门、跨系统提供综合性信息,因此,如何 实现信息系统中数据的集成就成为现代企业信息化建设中迫切需要解决的问题。 1 1 研究背景 现代企业之间的协作迫切需要信息资源的共享,在这种环境下,人们越来越 希望各个信息系统之间的数据和信息能够互联和共享,如何置身于开放的环境, 建立通畅的信息共享渠道,从而有效地支持企业内部以及企业之间的协作就尤为 重要。 信息系统集成【i 】是将现有的软硬件资源加以整合,提高资源的利用率,最大 限度的深层次开发利用现有信息资源。信息系统集成通过为企业提供统一的信息 平台,将其建设成为企业信息资源的一个存储应用中心,防止企业中信息孤岛的 形成,并在此基础上建立一个多渠道的信息共享空间,在规范化和安全化的前提 下实现企业内部信息的自由流动,同时加强与外部有效信息的交流和沟通。企业 内部信息系统需要互相通信、共享和互操作,这种形势下,企业应用集成 ( e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n ,e a i ) 睇j j 迅速发展。 企业应用集成是指:“通过硬件、软件、标准和业务过程的结合来实现两个 或多个企业系统之间的无缝集成,使它们能够统一运作”。企业应用集成主要是 基于企业内部业务,它是将企业内部多个不同的数据源和相互分离的应用系统进 行协同自动化处理的解决方案,其功能主要是协调企业现有的和将来的应用程 序、数据以及员工与合作伙伴之间的互动,以便实现对关键业务流程实时的可视 化及有效管理。 一般来说,e a i 的内容包括业务过程集成、应用集成、数据集成和平台集成 四个层面。数据集成是企业内外各种形式的业务数据信息的集成,一般发生在企 硕士学位论文第一章绪论 业内部数据库和数据源级别。与访问单个信息资源不同,集成工作是以共享数据 为出发点来满足企业的需求,通过从一个数据源将数据移植到另外一个数据源来 完成数据集成【4 j ,因此数据集成成为现有e a 解决方案的关键。 1 1 1 数据集成在专家信息系统中的迫切性 专家信息系统来源于中南大学网络评审系统工程研究所研究的专家信息互 联共享平台中的课题,主要负责全国奖励评审专家信息的管理及维护【5 1 。目前全 国评审专家信息资源各自独立且重复建设,各省市自治区拥有以本省市自治区专 家为主的数据库,而国家科技奖励工作办公室和各部委也拥有独立的全国范围内 或行业内的评审专家数据库。专家信息系统的目标是实现国家奖励办、各部委、 各省市专家信息的数据共享。将国家、各部委、各省市已有的数据库服务器作为 基础数据源,最终形成全国范围内的专家信息系统共享平台。 这就需要将国家、各部委和各省市已有的专家数据信息资源整合起来,从而 建立一个统一的专家信息数据资源集成体系。 1 1 2 专家信息集成的问题与难点 专家信息系统的本质是专家信息的交换和共享,将互相关联的分布式异构数 据源集成到一起,使用户能够以透明的方式访问这些数据源,其中实质性的困难 主要体现在以下三个方面f 6 , 7 1 : 1 异构性:被集成的数据源通常是独立开发的,数据模型异构给集成带来 很大困难。异构主要表现在:数据语义、相同语义数据的表达形式、数据源使用 环境等。 2 分布性:数据源是异地分布的,依赖网络传输数据,存在网络传输的性 能和安全性问题。 3 自治性:各个数据源有很强的自治性,它们可以在不通知集成系统的前 提下改变自身的结构和数据。 专家信息数据源的异构主要涉及到以下三个方面【7 】: ( 1 ) 系统异构,即数据源所依赖的业务应用系统、数据库管理系统乃至操作 系统之间的不同。 ( 2 ) 模式异构,即数据源在存储模式上的不同。 ( 3 ) 来源异构,即企业内部数据源和外部数据源之间的异构。 这些数据源的异构带来了数据的一致性问题,一致性问题主要表现在不同业 务信息资源之间存在着语义上的区别。这些语义上的不同会引起各种不完整甚至 错误信息的产生,从简单的名字语义冲突( 不同的名字代表相同的概念) ,到复杂 的结构语义冲突( 不同的模型表达同样的信息) 。语义冲突会带来数据集成结果的 2 硕士学位论文第一章绪论 冗余,干扰数据处理、发布和交换。因此解决专家信息的交换与共享就是要解决 异构数据的一致性问题。 1 1 3 元数据集成及元数据在专家信息集成中的应用 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集 中,从而提供全面的数据共享【8 ,9 】。但在实施数据共享的过程当中,由于数据源 的异构性、分布性、自治性引起的数据内容、数据格式和数据质量千差万别,有 时甚至会遇到数据格式不能转换或转换格式后丢失信息等棘手问题,严重阻碍了 数据在各部门和各软件系统中的流动与共享【l0 1 。因此,如何对数据进行有效的 集成管理是构建数据集成系统的核心问题。在数据集成过程中,大量的数据被组 织起来,形成一个巨大的数据信息供应链网络j 。为了对这个网络实施有效的管 理和维护,系统需要了解数据生产者的组织结构信息、管理和维护方法,需要让 数据使用者能够理解数据的意义、用法等等。这些信息就是元数据。 元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和 处理的基本工具,它为各种形态的数字化信息单元和资源集合提供规范、普遍的 描述基准和方法i l 引。元数据通常由信息结构的描述组成,它本身不仅表示数据 的类型、名称、值域等信息,还提供了数据的上下文描述信息。比如数据的所属 区域、取值范围、数据间的关系、业务规则,甚至是数据的来源等。 来自不同数据源的信息,不同厂商的软件产品若能在数据格式、数据理解上 取得一致,就能在数据层上进行互操作,实现有效的数据集成,也就是说软件产 品之间流动的数据若有一个公共的理解,就能进行有效集成。元数据是理解数据 含义和如何使用数据的关键i l 引。不同的软件工具和产品都要依赖元数据来描述 他们需要处理和转换的数据。要是一个特定产品能够正确处理它的数据,该产品 必须对数据的结构和语义有一个全面的理解,这个理解通常是元数据提供的。为 了使一系列给定的软件产品能够有效地在数据层上进行互操作,就必须对描述那 个数据的元数据有一个共同的理解【l4 1 。也就是说,每一个软件产品和工具能够 在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。 通过元数据,可以了解到系统中的数据结构、数据来源、数据去向以及系统 中的一些业务处理规则等。如果不同的元数据能基于同一个理解模型,而且有统 一的元数据传输格式,就可以方便地相互操作【l5 。这样一来,数据集成问题的 有效解决最终归结为元数据理解和集成问题。 近些年来,全国各部门、各省市都建立了各自的专家库,积累了大量的专家 信息,然而在长期的数据积累过程中,各部门各地区各自为政,目前已有专家信 息系统的运行环境往往是封闭的,原有的信息系统并不是按照其他单位或部门的 系统相互合作而设计,并且参与共享的信息来自不同的单位和部门,信息内容的 硕士学位论文第一章绪论 类型、描述方式和存储方式也各异,信息资源标准并不统一,从而导致不同部门 之间的数据协作困难重重,不同种类的专家数据也难以管理,随着业务的增加, 对于管理人员的操作越来越复杂,用户分散,相互联系程度低,信息相对封闭, 共享程度低。在此情况下,要集成不同的应用系统,必须要提供一个统一的数据 接口,并采用一种通用的标准和规范来共享通用的数据源;元数据利于共享来自 不同的单位和系统、不同类型、不同描述方式的信息。通过元数据容易获取更有 用、更有价值的数据,通过元数据能够有效提高数据质量,便于用户快速方便地 找到所需要的信息p6 j 。 因此,有效的收集和管理专家信息系统中的元数据对于专家信息集成战略是 至关重要的。通过专家信息元数据的集成将会更好的解决专家信息的集成问题。 基于以上背景,论文主要对数据集成中的元数据集成,进行了相关的探讨与 研究。 1 2 元数据集成与专家信息集成的研究现状 前面已经介绍了专家信息集成的迫切性,专家信息集成是把不同来源、格式、 特点、性质的数据在逻辑上或物理上有机地集中,从而为专家信息系统提供全面 的数据共享和决策支持。 1 2 1 专家信息集成的研究现状 目前数据集成方法多种多样,但一般可以划分为两类【1 7 】:一是在数据层面 形成全局统一的逻辑视图,以便开发新的企业应用的模式集成;二是数据复制技 术。即企业产品形成一个信息供应链( i n f o r m a t i o ns u p p l yc h a i n ,i s c ) 1 8 】,以数据 为桥梁,以便各个产品间的相互理解。无论哪一类在集成之前,必须首先对数据 进行标识并确定其元数据的语法、语义及语用模型。 模式集成1 1 0 l 是专家信息系统最早采用的数据集成方法,其基本思想是,在 构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模 式透明的访问各数据源的数据,也称为虚拟视图集成方法。模式集成一般分为两 步进行:第一步将各个异构的局部数据库通过翻译器映射成局部集成模式;第二 步用集成器将多个局部集成模式集成为一个统一的全局概念模式。联邦数据库和 中间件集成方法是现有的两种典型的模式集成方法。 数据复制1 2 0 , 2 1 1 ( d a t ar e p l i c a t i o n ) 是将各个数据源的数据复制到与其相关的其 它数据源上,并维护数据源整体上的数据一致性,提高信息共享的利用效率。对 于数据复制的基本要求是其必须能够提供一种数据转化和传输的基础结构,以屏 蔽不同数据库间数据模型的差异。目前最常见的数据复制方法是数据仓库方法, 4 硕士学位论文 第一章绪论 该方法将各个数据源的数据复制到中心数据仓库,用户像访问普通数据库一样访 问数据仓库。它主要是针对某个应用领域,通常是面向主题并提供数据挖掘和决 策支持。 1 2 2 元数据集成的研究现状 前面已经介绍了当前主要的两类专家信息集成的方法:模式集成方法与数据 复制方法。虽然两种方法都有其优缺点,但是考虑到为屏蔽不同数据库间数据模 型的差异、方便数据的统一操作与访问,论文将从数据复制方法的角度来进一步 分析专家信息的集成。 数据复制技术就是把企业产品形成一个i s c ,以数据为桥梁,以便各个产品 之间的相互理解。i s c 中的第一个加工步骤通常就是协调各种事物数据,使它们 用一种更统一的方式表达。这一步骤就是数据提取、转换和加载( d a t ae x t r a c t i o n , t r a n s f o r m a t i o n ,a n dl o a d i n g ,e t l ) 2 2 j ,包括从不同的事物系统中获得数据,将 这些数据转换成某个通用的格式,然后将这些被转换的数据存储在一个专用的数 据库中。这个专用的数据库,使得这些数据能够作为战略信息更好的为决策者服 务,而不是仅仅作为一些个别业务事件的详细记录。这个提供战略信息的专用数 据库就是数据仓库。数据仓库【2 3 , 2 4 1 最显著的一个特点就是,它将被提炼的数据以 有利于进一步分析的方式组织起来,而这对于一个业务的持久发展是至关重要 的。 i s c 中的每一个精炼步骤都是通过使用一个或多个与该步骤特定目标相关的 软件产品来实现的。为了有效地实现一个i s c ,这套工具必须能够完全参与到数 据交换的过程中。每个工具都必须对要处理的数据的本质有所了解,如它来自何 处,它的不同域意味着什么,需要对这个数据进行什么转换,转换的结果存储在 哪里等等。这时就需要元数据的支持,来帮助这些工具理解数据的含义和如何使 用数据。为了使一系列给定的软件产品能够有效地参与i s c ,并在数据层上进行 互操作,就必须对描述那个数据的元数据有一个共同的理解。也就是说,构成i s c 的每一个软件产品和工具能够在数据层进行有效集成的前提是它在元数据层就 必须有效地集成。然而绝大多数的业务产品存储元数据所使用的格式千差万别。 通过一个特定产品提供的某些接口,可以访问它的元数据,但元数据易于访问并 不代表它可以被完全理解。元数据的格式和定义,以及访问它的接口,在产品之 间很少是统一的,而且它们通常都是更偏重于每个产品的有效操作,而不是与其 他产品的集成【2 5 j 。 实际上,拥有不同元数据的工具之间是通过建立复杂的元数据桥( m e t ad a t a b r i d g e ) 2 6 , 2 7 1 来实现集成的。元数据桥是一种能够将一个产品的元数据转换成另 一个产品所要求的格式的软件。这样的桥需要具备与其集成的每个产品的元数据 硕士学位论文第一章绪论 结构和接口的详细知识【2 3 1 。图1 1 显示了几个信息供应链( i n f o r m a t i o ns u p p l y c h a i n ,i s c ) 通过若干元数据桥相互连接的情况。需要注意的是,每个桥只适用 于它所连接的这对被集成的工具。而且,这些桥往往是双向的( 也就是说,它能 够理解双向的元数据映射) 。通常,当从一个格式的元数据转换到另一种格式的 元数据时,都丢失一定数量的信息,而桥多多少少也要对此负一定的责任。桥必 须具备所有者的元数据模型和接口的详细知识,关于不同模型间如何相互映射的 知识也要融入其中。此外,构成一个特定桥的处理逻辑不一定能够在其他桥中重 用。使用这种方式集成软件产品,会大幅增加软件产品的开发和维护费用。 图1 - 1 通过点对点桥的形式进行元数据集成 通过使用元数据存储库【l6 】可以部分满足对全局可用和广泛理解的元数据需 求。元数据存储库是一个专用的数据库,它负责存储于控制并使之能被环境中所 有的其他的元数据组件访问,如图1 2 所示。这个元存储库包含了定义i s c 的所有 元数据的单一定义,这个定义是基于一个针对存储库产品本身的元数据模型的, 每个产品必须实现它自己的存储访问层( 即桥的另一种形式) 。该层了解与特定 存储库相关的元数据结构,并且知道如何将这些与存储库相关结构映射到产品相 关的元数据结构。尽管这个方法缓解了建立多个点对点桥的需求,但是桥的问题 并没有完全消除。因为需要为每一个参与i s c 的软件产品开发一个不同的访问层, 而且每个访问层仍然是只针对一个特定的存储库产品的。 6 硕士学位论文第一章绪论 图1 - 2 通过一个中央存储库的元数据集成 若干软件产品,只有在对它们之间流动的数据有所理解,才能被有效的集成, 元数据正是在此发挥作用的。将不同软件产品内部使用的元数据作为产品之间数 据集成的基础,不仅存在很多问题,而且也非常困难。正如之前所述,大多数的 产品都有不同或是不能兼容的内部元模型和特有的元数据接口。 所以论文需要一个足够表示各种工具所要处理的大部分领域概念的公共元 模型 2 9 , 3 0 】来解决这个问题。这种表示方法是以完全独立于平台的抽象模型的形式 表示的。基于公共元模型的元数据集成方法使i s c 的元模型外部化,并与特定的 实现平台无关,这样产品之间的元数据交换都基于这种公共的外部元模型,避免 了各自的实现模型之间的翻译问题,如图1 3 所示。从而消除了或大量减少了传 统的基于元数据桥的点对点元数据集成体系结构所要求的成本和复杂度,为基于 中央存储库的元数据体系结构也带来了同样的好处。 图1 - 3 通过公共元模型的元数据集成 在通过公共元模型集成的信息供应链中,每个软件产品只用实现一个元数据 适配器( 软件层) ,用以理解公共元模型和该产品元模型的内部实现。这个适配 器就是元数据桥的另一种形式,但是对每个产品都只需要创建一次,因为所有产 品都使用公共的元模型。相比较前两种方法,这种方法明显减少了开销,降低了 复杂度。 1 3 论文的主要工作 目前专家信息共享存在着难以解决的问题,论文主要针对c w m 和专家信息 集成展开研究,剖析c w m 中的元模型和理解专家信息集成的实质,首先是给出 元数据的准确定义,并以业界规范的元数据模型标准为基础,分析现有元数据集 成体系结构,给出一个一致、合理且低成本的元数据集成策略。该策略通过元建 7 硕士学位论文 第一章绪论 模创建一个公共的、与平台无关的元模型标准,这个标准促进了不同系统之间的 数据交换,因为它们对于这些数据的含义有一个公共的理解。异构的软件系统之 间的信息共享最终通过普遍存在的共享模型以及共享和理解的那些模型的整体 策略得以实现。整个元数据集成策略是基于模型驱动的,基于此策略,设计基于 c w m 的元数据集成解决方案,并以专家信息系统为例,介绍此方案在专家信息 共享和交换方面的应用。 论文的主要研究的内容包括: 1 元数据集成策略的分析和元数据集成方案的设计 结合其他文献对元数据的描述,给出专家信息系统中元数据的定义。对目前 元数据集成策略进行分析,在中央元数据存储库集成策略的基础上进行改进,结 合基于元模型的元数据存储策略的一些优点,采用中央存储库来存储和管理全局 且能被广泛理解的元数据,引进c w m 作为公共元模型标准,设计一种低成本和 低复杂度的集成策略基于c w m 的集中式元数据集成方案。定义元数据集成 方案中所必须的元数据规范和c w m 元模型,并在此基础上说明元数据抽取方法 和采用模型驱动的元数据建模方式。 2 c w m 元模型存储结构的研究 选择使用关系数据库作为元数据的存储平台,但c w m 元模型是面向对象的, 研究将c w m 数据类型映射成关系数据库中相应的数据类型,从而给出c w m 元模 型存储结构,以便对c w m 对象的存储。 3 元数据映射规则和元数据交换技术的研究 采用模型驱动的方式,将关系模式映射为u m l 描述的c w m 元模型、并对 c w m 元模型映射为c w mx m l 模式的映射方法和映射规则作一定的研究;提供 c w m 元数据交换方式来实现x m l 格式的元数据交换,说明对元数据交换方式和 转换模板的定义规则,根据c w m 元模型,说明元数据交换的实现方法。 4 c w mx m l 文档存储策略和存储算法的研究 根据c w m 规范确定x m l 文档的数据模型,给出一种基于r d b m s 的x m l 存 储策略,提供相应的c w mx m l 文档存储算法将x m l 数据存储到关系表中,并 以专家信息系统中涉及的几个x m l 文档验证c w mx m l 文档存储算法的适用性 和可行性。 5 元数据集成方案在专家信息系统中的应用研究 基于元数据集成方案,实现专家信息的共享和交换。 1 4 论文的内容组织安排 论文共分六章,组织如下: 8 硕士学位论文 第一章绪论 第一章:绪论部分,主要介绍课题的应用背景、研究现状和论文的主要研究 内容。 第二章:元数据和元模型概述,详细介绍c w m 。 第三章:对元数据集成策略进行分析,在中央辐射型元数据集成策略的基础 上,结合基于元模型的元数据集成策略的优点,采用中央存储库来存储和管理全 局且能被广泛理解的元数据,引进c w m 作为公共元模型标准,设计基于c w m 的 集中式元数据集成方案。 第四章:对元数据的存储映射和交换规则进行研究,确定了c w m 元模型的 存储结构,给出元数据映射规则、元数据交换方式和实现方法,设计c w mx m l 文档的存储策略,并提供相应的存储算法。 第五章:将基于c w m 的集中式元数据集成方案与专家信息系统的具体应用 相联系,以实现专家信息的共享和交换。 第六章:总结已经完成的工作,并提出进一步研究的设想。 9 硕士学位论文第二章元数据与标准化元数据模型 第二章元数据与标准化元数据模型 2 1 元数据概述 元数据最本质的定义为:关于数据的数据( d a t aa b o u td a t 曲。它指的是数据模 型,也即数据库模式。描述数据库记录( 比如名字、类型、客户记录中每列中的 长度) 的格式的信息同包含每列值的客户记录行的信息在特性上有本质不同。但 这个定义过于简洁,无法清晰的反映出元数据的内涵。于是,一些专家学者就把 这个解释加以扩展和深化。对于元数据概念的理解,目前主要有以下几种观点 【1 2 ,1 5 】 o 在图书馆与信息界中,元数据被定义为:提供关于信息资源或数据的一种结 构化的数据,是对信息资源的结构化的描述,其作用为:描述信息资源或数据本 身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择 等功能。 在数据仓库领域中,元数据被定义为:描述数据及其环境的数据,一般来说, 它有两方面的用途。首先,元数据提供基于用户的信息、如记录数据项的业务描 述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和 维护,如关于数据项存储方法的元数据能支持以最有效的方法访问数据。具体来 说,在数据仓库系统中,元数据主要支持以下五类系统管理功能: ( 1 ) 描述哪些数据在数据仓库中。 ( 2 ) 定义要进入数据仓库中的数据和从数据仓库中产生的数据。 ( 3 ) 记录根据业务事件发生而随之进行的数据抽取工作时间安排。 ( 4 ) 记录并检测数据一致性的要求和执行情况。 ( 5 ) 衡量数据质量。 在软件构造领域,元数据被定义为:其值的改变来改变程序中的行为元数据, 在程序中不是被加工的对象,而是通过它在运行过程中起着以解释方式控制程序 行为的作用。在程序的不同位置不同值的元数据,就可以得到与原来等价的程序 行为。 在地理信息学界,按美国联邦地理数据委员会( f g d c ) 的理解,元数据就是 数据的数据,说明数据内容、质量、状况和其他有关特征的背景信息。 此外,元数据在生命学科界等领域也有相应的定义和应用,在此不一一阐述。 l o 硕上学位论文 第二章元数据与标准化元数据模型 2 1 1 元数据的定义与分类 论文在这里给出专家信息系统中元数据的准确定义:元数据是指来自专家库 内外所有( 软件和其他介质中含有的) 物理数据和( 员工和各种媒介中含有的) 知识,包括数据的格式、技术和业务过程、数据的规则和约束及专家库所涉及的 数据结构。 对元数据的合理分类,是对其有效管理的前提,目前对于元数据分类有很多 种,从不同的角度可以将元数据分成不同的类另l j 3 1 , 3 2 l 。 ( 1 ) 按数据类型分为:基础数据元数据,数据处理元数据。 ( 2 ) 按抽象层次分为:概念元数据,逻辑元数据和物理元数据。 ( 3 ) 按用户使用角度来分:技术元数据和业务元数据。 ( 4 ) 按元数据来源分为:工具元数据,资源元数据,外来元数据。 ( 5 ) 按应用目的分为:管理维护元数据,更新元数据和分析元数据,等等。 论文将元数据仓库中的元数据划分为:技术元数据和业务元数据。技术元数 据( t e c h n i c a lm e t a d a t a ) 是为技术用户和i t 员工提供支持的元数据,而业务元数据 ( b u s i n e s sm e t a d a t a ) 是为业务用户提供支持的元数据。 2 1 2 元数据的作用 元数据存在于企业的各种应用和软件工具中,而数据仓库的元数据作用于数 据仓库系统的设计、建立、使用和维护等各个环节之中,元数据在数据仓库项目 中担当着重要角色,是数据仓库项目能否成功开发、实施的一个重要环节。元数 据在数据仓库体系结构中的作用【3 3 】主要体现在以下几个方面: ( 1 ) 元数据在数据集成中的必要性 数据仓库平台涉及许多工具,如果这些工具统采用公共的元数据模型,那 么对它们进行集成将会非常方便。另一方面,数据的集成也依赖于源数据和目标 数据的结构信息、源数据到目标数据的转换规则等元数据。 ( 2 ) 元数据提高系统灵活性 企业的需求随着信息技术的发展和企业职能的变化也在不断改变,元数据一 记录了整个系统中的数据流动信息。这样便于新增应用的设计和规划,使系统不 依赖特定的开发人员,从而提高系统的可扩展性。 ( 3 ) 元数据便于用户对数据仓库的理解 元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需 要的方式“翻译”出来,从而帮助最终用户理解和使用数据,使企业的决策层能 更快地做出决策。 ( 4 ) 元数据是保证数据质量的关键 硕上学位论文 第二章元数据与标准化元数据模型 数据抽取的转换规则是多而复杂的,通过元数据可以有效地管理转换规则, 使全量数据抽取和增量数据抽取保持转换规则的一致性,并能动态跟踪转换规则 变更的踪迹以及元数据库和数据仓库之间的映射历史,保障数据仓库能源源不断 地装载高质量的数据。 2 2 元数据存储模型 上节叙述了元数据的相关概念,本节将介绍元数据的另一层面的内容,即元 数据存储模型,它包括存储格式和建模方式两个方面。 2 2 1 元数据存储格式 元数据存储格式的选择需要参考数据仓库构建的需求和具体情况,目前比较 通用的元数据存储形式主要有x m l 文档和传统关系模型两种。 x m l 是当前比较流行并适合异构数据交换的存储格式【3 4 1 。通过对x m l 相 对于传统关系型数据格式的优缺点分析,就可以得出结论。 1 x m l 的优势1 3 5 j 可扩展标记语言( x m l ,e x t e n s i b l em a r k u pl a n g u a g e ) 起初是w e b 上表示结构 化信息的一种标准文本格式,同其他数据格式相比,x m l 的一大优点就是它非 常类似对象数据结构,由于目前的程序设计和开发大多是面向对象的,所以用 x m l 来表达数据可以让数据的处理和传播变得非常方便。x m l 具有以下特点; ( 1 ) 可扩展性 x m l 让使用者创造并使用自己的标记而不只提供有限的词汇表,企业甚至 可以用x m l 为数据存储和信息供应链等应用定义自己的标记语言以创建在其所 属领域内进行信息共享与交换的基础。 ( 2 ) 灵活性 x m l 提供了结构化的数据表示方式,使得用户界面分离于结构化数据即实 现了数据和现实的分离。 ( 3 ) 自描述性 x m l 文档通常包含一个文档类型声明,使计算机可以准确对其进行解析处 理。除上述特性外,x m l 还具有简明性的特点。 总之,x m l 以一种基于文本的机制来表示带有结构信息的数据,以便准确 地创建和解释数据;它没有复杂的语法和包罗万象的数据定义,不依赖任何编程 语言或专有的a p i ,非常适合中央元数据仓储的访问接口通用化需求。典型的 x m l 格式的元数据描述如图2 1 所示。选用x m l 文档存储中央共享元数据的另 外一个重要原因就是当前已经出现了成熟的x m l 解析器,如d o m 、s a x 和 1 2 硕士学位论文第二章元数据与标准化元数据模型 j d o m ,不需要编写很多程序就可以获得x m l 的结构。 n a m e 仓储名称 s t r i n g 数据源元数据 h o s t 仓储物理地址 s t r i n g 19 2 16 8 1 15 7 n o t e 备注信息 s t r i n g 存储数据仓库数据源相关元数据 图2 - lx m l 格式的元数据描述示例 2 x m l 的不足f 3 4 l 然而,x m l 也有很多不足之处,其中之一就是过多占用存储空间,因为x m l 文档中的诸多标签本身就会造成冗余。并且每一数据集都有一个元数据文档,那 么在规模巨大的数据库中则会有大量的元数据文件,管理上极为不便。另外不把 x m l 作为推荐存储格式的一点重要原因就是x m l 文档数据发生变动后难于向 其来源的元数据存储库进行反馈,无法实现元数据在存储体系中的双向迁移。 因为x m l 格式的元数据适合异构数据交换,元数据交换中的元数据都是以 硕士学位论文第二章元数据与标准化元数据模型 x m l 文档方式存储的,但鉴于x m l 的不足,在元数据仓储设计中仍以关系型 数据库为基础,并将元数据交换中的x m l 文档存储到关系表中。 2 2 2 元数据建模方式 通常,模型这个词用来描述对现实世界某个事物准确而抽象的表示。从本质 上说,元数据可看作业务数据的抽象模型,而这些元数据本身也需要有一个数据 模型对其进行抽象描述,即业务数据模型的模型,被称为元模型,数据仓库的数 据模型虽然是变化的,但这些变化都将被记录在元数据中,元数据的内容虽然随 着数据仓库的数据模型之变化而变化,但元模型可以是不变的。元模型是用来存 储各种元数据的物理数据库模型,它与其他模型的区别在于它包含用于支配系统 中数据的业务方法和规则,因此元模型实际上是对被建模数据更高层次的抽象。 因此,为了形式化的描述元数据,需要创建元数据模型。 目前有两种元数据建模方法通用对象建模和传统关系模型。传统关系模 型与通用对象模型都是基于关系型数据库进行存储的,但是两者却存在很大的差 异。 ( 1 ) 传统关系模型 传统模型包含各种需要存储数据类型的实体,有些实体用于保存其他实体之 间的关系,这些实体构成了数据库物理设计的基础,传统关系模型是非常明确和 详细的;用于访问传统模型的程序非常简单,访问程序可能只是一系列的连接操 作,具体取决于所需的信息。但是所有的关系和表都必须定义,比较复杂,只能 存储特定的被建模信息,对元数据的增加或修改同样需要对模型进行修改。 ( 2 ) 通用对象模型 在对象模型中,真正的模型实际上非常微小而且很通用【3 引,对象模型包含 固定数量的实体,设计则比较简单,在其结构中存储实体信息和关系,信息的实 际布局被存储在元模型中,形成了模型中的模型,这为存储任意信息提供了很大 的灵活性,因为这并不需要改变模型本身,实际复杂性仅来自数据之间的关系。 而访问通用对象模型的程序则很复杂,程序必须了解将模型中数据重新组合成信 息的规则。 对比来说,传统关系模型比较复杂,扩展能力差,但是易于理解,使用模型 的程序相对简单,开发的时间主要用于理解所需的信息;而通用对象模型很简单, 扩展能力强,但是不易理解且使用模型的程序比较复杂,开发的时间花费则主要 集中在理解所需的信息和定义这些信息的规则上面。两种模型的复杂度及其相应 的程序复杂度影响如图2 2 所示。 1 4 硕上学位论文第二章元数据与标准化元数据模型 高 低 低模型复杂度高 图2 - 2 传统模型和对象模型在模型复杂度和程序复杂度方面的影响 总体看来,传统模型为易读性付出了难于扩展的代价,当模型持续增长时会 带来维护上的问题,适于元数据仓储的第一次迭代,但是当环境扩展时,最终将 不得不转向对象模型,在具体选择时,须权衡考虑。因此,对象模型和传统模型 间的权衡实际上就是在能够存储任意信息而不需要修改模型( 对象模型) 和只能 存储预先定义的信息并且需要修改模型( 传统模型) 之间进行权衡。在元数据集成 方案的构建中,更多的需要考虑仓储数据的持续增长和整个决策支持方案的通用 性需求,为此采用基于通用对象模型的元数据建模。 2 3 标准化元数据模型c w m 通常,元数据分布在各种操作数据源中,并为各种工具和应用程序所访问。 现在实用化的元数据产品提供了一个具有协同工作能力的知识库,它通过提供了 一个公共的交换格式来确保元数据的共享。然而,元数据具有异构性,很少是单 一的数据结构形式,在不同抽象和形式化级别上为不同类型的用户描述数据和系 统,因此需要灵活的表示方式和交换标准。目前,元数据在异构数据环境中的作 用得到广泛认可,涌现了许多基于元数据的数据集成与共享工具,但是这些工具 的元数据表示模型都不同,严重地阻碍了元数据的交互和传播,数据访问工具的 终端用户也很难充分利用这些分散异构的元数据,业界正在努力制订一种通用的 元数据标准,以便实现跨行业、跨工具、跨平台的元数据共享。 下面几节将介绍论文研究的元数据集成所基于的相关标准和关键技术。 2 3 1m o f o m g 在1 9 9 7 年批准m o f ( m e t ao b j e c tf a c i l i t y ) 1 3 7 , 3 8 l ,m o f 的诞生基于一个基 硕上学位论文 第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论