元数据管理平台的建立_第1页
元数据管理平台的建立_第2页
元数据管理平台的建立_第3页
元数据管理平台的建立_第4页
元数据管理平台的建立_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、元数据管理平台的建立元数据简介元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据( Metadata )是描述其它数据的数据( data about other data ) ,或者说是用于提供某种资源的有关信息的结构数据( structured data ) 。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据; 实现信息资源的有效发现、 查找、 一体化组织和对使用资源的有效管理。元数据的基本特点主要有:、元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境; 元数

2、据的开发与利用环境往往是一个变化的分布式环境; 任何一种格式都不可能完全满足不同团体的不同需要;、元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系, 这导致了元数据和传统数据编码体系的根本区别; 元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。元数据体系构建了企业业务的逻辑框架和基本模型,从而决定了企业业务的功能特征、运行模式和系统运行的总体性能。 企业业务的运作都基于元数据来实现。 其主要作用有: 描述功能、整合功能、控制功能和代理功能。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提

3、供描述数据元的元数据, 将会使数据元的使用变得准确而高效。 用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录

4、并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。元数据管理平台体系结构分析应用enterWeb门户、用户管理集成分析.管理BASB霎时元数据获取开放元数据获取1无数据 存储陈CMP子系筑他据怫制子系缰O元数据维护数据里市子系维BOSS非结构化元数据wcrd/PDF结构化元敖据CSV/文本等图1元数据管理平台体系结构关键特性可扩展的元模型: 元数据管理平台采用可以扩展的元模型设计。能够满足项目快速实施的需要,更可以适应长期用户需求变化的需要。端到端的元数据管理: 元数据管理平台作为真正端到端的元数据管理工具,提供企业级的元数据统一视图 ,平台是第一个提供清晰地分析和跟踪业务运作历史数据

5、的实际可行的解决方案。实时元数据获取: 元数据管理平台采用多种操作方式简化元数据导入的复杂性,实时连接其他软件工具的 ActiveLinx 技术是实时存取其他业务应用系统元数据。主流开放性:元数据管理平台软件是100%JAVA、按J2EE模式构建、基于Web的瘦客户端架构,元数据存储于主流关系型数据库系统;能够导入、导出符合CWM 国际规范的 XML文件;元数据管理平台提供应用编程接口( API ) ,易于扩展和应用集成。元数据管理元数据管理实现针对元数据的基本管理功能。如元数据的添加、删除、修改属性等维护功能; 元数据之间关系的建立、 删除和跟踪等关系维护功能; 提供元数据发布流程管理,可以

6、更好地管理和跟踪元数据的整个生命周期; 元数据自身质量核查、 元数据查询、 元数据统计、元数据使用情况分析、元数据变更、 元数据版本和生命周期管理等功能。其应用案例如下:元数据连接大部分主流关系型数据库(如 Oracle 、 DB2 、 SQL SERVER、 MYSQL 、POSTGRESQL 等) , OLAP 应用,非关系型结构(如文本文件、 XML 文件等)和半结构化数据。支持其他工业标准,比如主流ETL工具,BI工具等。支持元数据获取调度功能,实现自动化获取元数据作业的配置;实现元数据获取作业的 调度和管理;支持自动完成元数据抽取、 转换和加载;数据变更捕获功能, 实时监测数据元数据

7、的变化,减轻批量装载元数据和映射的负载,触发实时的数据集成过程,传递相关的变化到元数据和映射处理。如*”部gE也宜|%行铝国山Otiecn LifeQ DiuNa TiwwaEaiiR-ffwMtorf皿功力皿HJUW1JtwnN iXtl -_ I ndiH4U图7.2元数据调度功能自动化获取数据集成工具元数据,支持自动化获取PowerCenter等常见的数据集成工具的元数据获取。灵活的任务调度,提供图形化调度定制工具,为元数据抽取制定调度执行的时间、频率 和方式,完全实现自动化的任务调度,支持时间、命令行等触发方式。支持自定义元模型,对未知或者不提供预定义元模型的系统,提供自定义元模型能力

8、。L*n 4 MT讨的-Cpftr期ng *41.印隼图7.3元数据自定义元模型W*i TeI I口 j w Inlfcc Fcrtife* hori Ok曲1tlM餐帮him 。心 Imlhd input fkkl 15 0 AU Elko Input Pwrt Icoa C.i m Ati IniiKi 口H9 f ./ Irgiii J -心 inlM OuLpm Pwl kM 门1* Aft linrhci Piojsct Icon 二 10a Ab Inrba Source Eom 卜,出 Inlln Sub Gfdph kor0 0B:Kit口闽i度iiMBlMV * Au Kh

9、-i lb0Q HWW; J Ab Hute Fddev kert OE 1M而修率him储藏库版本和配置管理,数据变更捕获功能,实时监测数据元数据的变化,减轻批量装载元数据和映射的负载,触发实时的数据集成过程,传递相关的变化到元数据和映射处理。! intIr vt用 4E F bac ;-iTT-jtFf匚匚-r四? rsiiTtldllJ -JLJIJ _3lJPJJ.- E *:. AV- firrsci?rjrtr -y ”1r; ,Cl4” Mi:*但 Hl IlWIHIWb Mb .ViEllfiUKIKT 用.xnciKiiinjiPr* 3 pH 3l1C1JiH- -*IP“

10、 Jil Uri|iuH1*rZritved 1Mb lUKdN.Im1一l|iuAin)41u iKij9tfSfPDqH?0,nraeicknr,Wkfn SmMllflMPTIltf 广-立IMfcrf14*tnn出即匚邺鸿,iWilfilWk Utf|: T,y*u*|BM;电NsHKBinr. 3B 里rm坤rim;加琳!1升MWHM 午 J.dtl l的IfMHMU.WI.IV4I4T*f幅H电勒* /刘吊1,|叫孑11,吒th|Ui Wb|pd,j-rTTr-l/wUili图7.4元数据数据变更支持对数据进行数据探查,加深对基本数据的理解,帮助快速评估数据血缘中不同节点的数据质量

11、。fIJtlEfl叫llLlBElMldEl图7.5元数据的数据探查权限及审计管理:可设定元数据管理的读写执行的权限控制,区分开发、执行、浏览等的不同权限限制,避免不相关人员的误操作,并能记录操作人员的使用情况。并且能审计操作人员的操作日志。E tflUK WAN WWH 柳 r .ffHW . 笠士讨牙:1户 IAKWM AftZBfiMfi MMs Em. 31Vlm IMoooooooooooooooooooXHtrr IfifKl Jtaripii . DNi Ftew wmc*- g Fftw-Mieci uiiWhi口 11毗111| Mi X- IMF修一I W RmoO QQO

12、-OQO。oooooooooo图7.6元数据的权限管理支持信息的浏览、信息查询。图7.7元数据浏览查询元数据分析元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。各类应用软件元素产生的元数据进入元数据平台后,元数据管理可通过元数据服务功能,为需要这些元数据的工具软件或构件提供元数据服务。如将前面所述的各种工具软件的定义结果,以相应的标准协议进行打包形成方案(应用脚本),提供给其它应用环境中的物理表建立工具、ETL工具、多维模型建立工具、结果展现工具等底层工具,从而实现应用的重用 和共享。同时,元数据服

13、务还可为业务应用功能提供辅助的元数据帮助信息,如业务功能中加工结果和指标的说明、提示,及其血缘分析等,让用户可明确、直观地了解数据的来源、 加工过程及加工算法等信息。7.4.1 数据血缘分析数据血缘 (Lineage , Provenance , Pedigree) 亦可译为(血统、起源、世系、谱系) ,是近几年随着数据库和网络的发展而发展起来的一个研究领域, 其内容主要包括数据血统的计算、存储、传播和查询等。对于数据库系统,有时需要追溯查询结果的来源,以衡量数据的可信度、数据的质量等。数据血统研究的目的主要是通过数据血统追踪, 在分布数据共享时可以解决数据的可信度、质量、版本信息等,对于各种导出数据集也能解决这些问题。通过数据血统追踪,根据集成视图查询数据库或数据仓库时, 可以获得结果数据的来源信息。 更新数据库或数据仓库中的统一视图时,反应原始数据库的变化,可以维护时空一致性。 通过数据血统追踪, 可以获得数据在数据流中的演化过程。数据血统记载了对数据处理的整个历史, 包括数据的起源和处理这些数据的所有后继过程(数据产生、并随着时间推移而演变的整个过程)。数据血统的相关研究近几年吸引了数据集成、 Web 搜索、语义标注、海量存储等领域学者的广泛关注。数据血统涉及的计算机研究方向有: 数据挖掘、 工作流、 时间自动机、 不确定数据分析、复杂事件处理、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论