元数据管理研究报告_第1页
元数据管理研究报告_第2页
元数据管理研究报告_第3页
元数据管理研究报告_第4页
元数据管理研究报告_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一.什么是元数据元数据是:•数据的数据(dataaboutdata)•构造化数据(Structureddataaboutdata)•用于描述数据的内容(what)、覆盖范围(where,when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据顾客之间的桥梁;•资源的信息(Informationaboutaresource)•编目信息(Cataloguinginformation)•管理、控制信息(Administrativeinformation)•是一组独立的有关资源的阐明(metadataisasetofindependentassertionsaboutaresource)datathatdefinesanddescribesotherdata(ISO/IEC11179简朴地说,元数据是数据仓库数据自身信息的数据(dataaboutdata)。针对于数据仓库的元数据是描述数据仓库内数据的构造和建立措施的数据,可将其按用途的不一样分为两类:技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)。技术元数据是存储有关数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它重要包括如下信息:数据仓库构造的描述,包括仓库模式、视图、维、层次构造和导出数据的定义,以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系构造和模式;汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、汇集、汇总、预定义的查询与汇报;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(顾客授权和存取控制)。业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也可以“读懂”数据仓库中的数据。业务元数据重要包括如下信息:使用者的业务术语所体现的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析措施以及公式和报表的信息;详细包括如下信息:企业概念模型:这是业务元数据所应提供的重要的信息,它表达企业数据模型的高层信息、整个企业的业务概念和互相关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。多维数据模型:这是企业概念模型的重要构成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表达某主题领域业务事实表和维表的多维组织形式。业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表达出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维度、层次等之间的对应关系也应当在元数据知识库中有所体现。元数据与数据是什么关系?元数据也是数据,其自身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据当作是独立的信息单元,不管这里的“数据”是一本书、一种网页、或者一种虚拟的URL地址。元数据可以出目前:•数据内部;•独立于数据;•伴伴随数据;•与数据包裹在一起元数据的作用在数据仓库系统中,元数据机制重要支持如下五类系统管理功能:描述哪些数据在数据仓库中;定义要进入数据仓库中的数据和从数据仓库中产生的数据;记录根据业务事件发生而随之进行的数据抽取工作时间安排;记录并检测系统数据一致性的规定和执行状况;衡量数据质量。与其说数据仓库是软件开发项目,还不如说是系统集成项目,由于它的重要工作是把所需的数据仓库工具集成在一起,完毕数据的抽取、转换和加载,\o"OLAP"OLAP分析和数据挖掘等。它的经典构造由操作环境层、数据仓库层和业务层等构成。其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和某些外部数据源;第二层是通过把第一层的有关数据抽取到一种中心区而构成的数据仓库层;第三层是为了完毕对业务数据的分析而由多种工具构成的业务层。元数据管理起到了承上启下的作用,详细体目前如下几种方面:便于集成提高系统的灵活性保证数据的质量协助顾客理解数据的意义二.元数据管理状态所谓元数据管理,就是对技术元数据和业务元数据进行管理,其目的是为了提高共享、重新获取和理解企业信息资产的水平.元数据管理的重要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模块和工具之间的工作。数据仓库元数据管理的成熟度模型及现实状况元数据管理的成熟度模型第一级:随机状态(Ad-hoc)行为特性在这一级上,对元数据的管理是随机的。元数据由某个人或某一组人员在局部产生或获取,并在局部使用。在大多数时间里,元数据是隐匿在信息中,例如存储于诸如Word、Excel等形式的办公文档,这些文档使用的术语仅局部的顾客能懂得其确切含义。人们通过与“负责人”直接通信或通过信息会话来获取这些知识。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。在这一阶段,元数据通过组织机构缓慢的传播或主线不传播,这取决于局部小组与其他小组间的通信量的大小,这些元数据也许永远“待”在该局部小组或某个人那儿。假如这样的小组或个人调离,则这种元数据信息也许永远丢失。人元数据知识保留在人的大脑中。在这种环境中,懂得(或不懂得)与谁交谈对于理解元数据成为一件十分重要的事。处理元数据要通过与“负责人”的交谈才能共享。新来者需要通过他们的平常工作来学习元数据。外部人员难以理解元数据,他们必须与“负责人”交谈才能得到他们想要的东西。由于元数据在局部产生或抓取并在局部使用,因此一般也只能在局部修改,这种修改一般也不会告知企业里其他的组织。技术可以用多种不一样的工具来生成元数据。绝大部分是面向个人电脑的应用软件。例如,ERWin可用于数据库建模,Rational用于为对象建模、Excel用于生成商品列表等。这些工具都没有设计成可以互换信息,因此,只能在当地的文献系统中保留所生成的元数据。第二级:发现行为特性在元数据管理的这一级上,可以发目前不一样企业之间的元数据。像第一级的状况同样,元数据仍然在局部产生和抓取,然而,它处在可发现实状况态,这样的元数据在企业一级显露,使得每一种对它有爱好的人都能随时理解“什么已经存在”。元数据仍然可以在局部级上维护,然后更新中央知识库,但它们仍然使用不一样的命名法。成果,相似的名字被用于表达意义不一样的事情,而同一件事情则使用了几种不一样的名字。尽管如此,相比之下,从不一样来源来的数据和数据的含义已经具有了更多的透明度。对于商业顾客,假如他们需要,现存的技术可为他们提供有关数据的来源和怎样对数据进行计算的信息。人人们开始感知到共享元数据信息的重要性。业务分析员、数据拥有者和应用开发者目前自觉地将元数据信息加载到中央知识库中。处理元数据知识经由中央数据库进行共享。凭借对中央知识库地理解,人们可以发目前其他应用系统中的数据。然而,由于使用术语的不一样,人们互相之间需要交流,以便弄清某些元数据的含义。并且,由于元数据的更新不受任何方式的控制,使得这种更新没有通告或贴切的分析。技术有某些元数据管理工具可用于共享来自数据源的元数据,并能把来自不一样建模工具的逻辑元数据导入到元数据知识库中。AGRochade、Unicon、MetaMatrix是该类产品的某些例子。然而,除了以商业含义来定义数据表格的栏目名之外,这些工具没有一种能很好地抓取元数据。第三级:管理控制行为特性这一级对元数据的修改善行集中管理。局部业务单元或开发小组如不告知其他的元数据保管者和顾客,就不再能按照自己的想法对元数据进行修改。在一种地方发起的元数据的修改将传播给其他地方。有多种工具和措施可用于不一样业务单元之间互换元数据。为了整合不一样数据源中的数据,仍然必须用手工进行数据的映射,以处理不一样数据源的数据整合。不过,这种映射在一种中央知识库上进行维护和管理。人数据拥有者、应用开发人员、顾客和其他的数据保留者目前比以往任何时候更清晰元数据管理的重要性。人们遵照有关元数据管理的“监督”处理操作规程。在对元数据进行修改前,他们就分析这种修改将会产生的影响。他们认识到元数据的共享将使组织的运作更有效,并使他们的生活更轻松。处理建立了监督体系构造(谁是数据和应用的拥有者),监督资产(数据仓库、数据集市、命名原则)和流程(何时开始更新、怎样更新)。技术有几种工具常常被用于元数据的监督处理。SchemaLogic是一种新兴的工具,一般被用于协助监督处剪发现业务的词汇及其分类。尚有某些软件提供商正在互相竞争,以弥补这一空间,但还没有一家能提供商用的产品。第四级:优化行为特性在对元数据实行集中存储并通过监督体制对元数据进行管理后,企业会发现,通过原则化和整合可以实行故意义的优化。为了优化各业务单元之间的多种冲突和各个副本,人们开发了一种企业数据模型和词汇表。人们可以将这些原则模型和词汇表用于多种新的应用。时机成熟时,可以把多种老的应用迁移到这些模型上。人在这一级,人们坚持不懈地探索优化的途径。人们协同工作,通过在数据的入口点确认数据的有效性来提高数据的质量。通过确定各业务实体的权威数据源,使数据的映射到达最小化。数据开始从一种业务单元平滑地流到另一种业务单元,而不用紧张昂贵的数据集成成本。处理首先,生成企业数据模型,并在中央知识库进行维护。第二,对数据模型中定义的每一种实体确定权威数据源或企业应用的主参照数据,然后将业务的上下文信息和含义与这些数据源进行关联。在整个组织中对业务的词汇表进行原则化。鼓励应用开发小组使用这些原则化的术语,来生成、传播和表达信息。技术目前,仅有少数几种能协助企业实行优化的工具。并且,每一种工具只能完毕其中一到两个任务,还没有哪个工具能做企业优化所需的所有事情。第五级:自动化行为特性在这一级,元数据管理是自动进行的。当在逻辑层次发生元数据更新时,它们将被传播到物理层次。反之,当在物理层次发生更新时,逻辑层次将被更新,以反应这种更新。在元数据中的任何变化也将触发业务工作流,以处理其他各个业务系统所需的相对应的任何修改。由于各个应用系统遵摄影似的词汇表,它们之间的关系可以通过知识本体进行推断,因此,各应用系统之间数据格式的映射自动产生。人人们把元数据管理作为常规业务的构成部分。就像电信网对业务的支持同样,元数据成为组织运作中一种关键的、普遍存在的、无形的资产。元数据管理变成业务处理的一种重要构成部分,并且,整个业务运作都要依赖于它。实际上,假如元数据管理实行得很好,人们可以无需关怀它在何处。在自动化级,元数据管理成为一种使能器,而不被视为一种障碍。处理在这一级,元数据管理的处理较为理想。绝大多数处理是自动完毕的。人们从手工和程序处理过程中解放出来。他们在元数据鉴定上可以工作得更有效。当业务变化时,由知识工人对企业数据模型、词汇表和知识本体进行维护。这样一种变化立即会在各个应用中反应出来。例如,假如一种新产品被引进,把它加到企业词汇表和知识本体中,这一状况将自动地被传播给金融系统、制造业系统和营销系统。使得每个应用系统无需花费昂贵的代价,去完毕对应的修改。技术各个应用必须使用企业数据模型、词汇表和知识本体来获取、传播和表达数据。人们开发了多种代理,将数据从一种格式翻译成另一种格式。为了实现这些功能,目前正在展开知识库表达和知识集成方面的许多研究。元数据管理现实状况正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库处理方案都提到了有关对元数据的管理。但遗憾的是对于元数据的管理,各个处理方案都没有明确提出一种完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。元数据有关的数据仓库工具大体可分为四类:数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。前端展现工具:包括OLAP分析、报表和商业智能工具等,如MicroStrategy的DSSAgent、Cognos的PowerPlay、BusinessObjects的BO,以及Brio等。它们通过把关系表映射成与业务有关的事实表和维表来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务有关的语义。如CA的ERwin、Sybase的PowerDesigner以及Rational的Rose等。元数据存储工具:元数据一般存储在专用的数据库中,该数据库就如同一种“黑盒子”,外部无法懂得这些工具所用到和产生的元数据是怎样存储的。尚有一类被称为元数据知识库(MetadataRepository)的工具,它们独立于其他工具,为元数据提供一种集中的存储空间。包括微软的Repository,CA的Repository,Ardent的MetaStage和Sybase的WCC等三.元数据管理的通用原则没有规矩不成方圆。元数据管理之因此困难,一种很重要的原因就是缺乏统一的原则。在这种状况下,各企业的元数据管理处理方案各不相似。近几年,伴随元数据联盟MDC(MetaDataCoalition)的开放信息模型OIM(OpenInformationModel)和OMG组织的公共仓库模型CWM(CommonWarehouseModel)原则的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的原则,从而为元数据管理铺平了道路。从元数据的发展历史不难看出,元数据管理重要有两种措施:对于相对简朴的环境,按照通用的元数据管理原则建立一种集中式的元数据知识库。对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立原则的元数据互换格式,实现元数据的集成管理。下面我们分别简介数据仓库领域中两个最重要的元数据原则:MDC的OIM原则和OMG的CWM原则。MDC的OIM存储模型MDC成立于1995年,是一种致力于建立与厂商无关的、不依赖于详细技术的企业元数据管理原则的非获利技术联盟,该联盟有150多种会员,其中包括微软和IBM等著名软件厂商。1999年7月MDC接受了微软的提议,将OIM作为元数据原则。OIM的目的是通过公共的元数据信息来支持不一样工具和系统之间数据的共享和重用。它波及了信息系统(从设计到公布)的各个阶段,通过对元数据类型的原则描述来到达工具和知识库之间的数据共享。OIM所申明的元数据类型都采用统一建模语言\o"UML"UML(UniversalModelingLanguage)进行描述,并被组织成易于使用、易于扩展的多种\o"主题"主题范围(SubjectAreas),这些主题范围包括:分析与设计(AnalysisandDesign):重要用于软件分析、设计和建模。该主题范围又深入划分为:UML包(Package)、UML扩展包、通用元素(GenericElements)包、公共数据类型(CommonDataTypes)包和实体关系建模(EntityRelationshipModeling)包等。对象与组件(ObjectandComponent):波及面向对象开发技术的方方面面。该主题范围只包括组件描述建模(ComponentDescriptionModeling)包。数据库与数据仓库(DatabaseandWarehousing):为数据库模式管理、复用和建立数据仓库提供元数据概念支持。该主题范围深入划分为:关系数据库模式(RelationalDatabaseSchema)包、OLAP模式(OLAPSchema)包、数据转换(DataTransformations)包、面向记录的数据库模式(Record-OrientedDatabaseSchema)包、XML模式(XMLSchema)包和报表定义(ReportDefinitions)包等。业务工程(BusinessEngineering):为企业运作提供一种蓝图。该主题范围深入划分为:业务目的(BusinessGoal)包、组织元素(OrganizationalElements)包、业务规则(BusinessRules)包、商业流程(BusinessProcesses)包等。知识管理(KnowledgeManagement):波及企业的信息构造。该主题范围深入划分为:知识描述(KnowledgeDescriptions)包和语义定义(SemanticDefinitions)包。上述主题范围中的包都是采用UML定义的,可以说UML语言是整个OIM原则的基础。虽然OIM原则并不是专门针对数据仓库的,但数据仓库是它的重要应用领域之一。目前市场上基于该原则的元数据管理工具已经比较成熟,例如微软的Repositry和CA的Repositry均采用了OIM原则。OMG组织的CWM模型OMG是一种拥有500多会员的国际原则化组织,著名的CORBA原则即出自该组织。\o"公共仓库元模型"公共仓库元模型(CommonWarehouseMetamodel)的重要目的是在异构环境下,协助不一样的数据仓库工具、平台和元数据知识库进行元数据互换。3月,OMG颁布了CWM1.0原则。CWM模型既包括元数据存储,也包括元数据互换,它是基于如下三个工业原则制定的:UML:它对CWM模型进行建模。MOF(元对象设施):它是OMG元模型和元数据的存储原则,提供在异构环境下对元数据知识库的访问接口。XMl(XML元数据互换):它可以使元数据以XML文献流的方式进行互换。CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套有关语法和语义的规范。它重要包括如下四个方面的规范:CWM元模型(Metamodel):描述数据仓库系统的模型;CWMXML:CWM元模型的XML表达;CWMDTD:DW/BI共享元数据的互换格式CWMIDL:DW/BI共享元数据的应用程序访问接口(API)下面重点讨论CWM元模型的构成,它与OIM规范同样,也是由诸多包构成的。元模型(MetaModel)包:构造和描述其他CWM包中的元模型类的基础。它是UML的一种子集,由如下四个子包构成:关键(Core)包:它的类和关联是该模型的关键,其他所有的包都以它为基础。行为(Behavioral)包:包括描述CWM对象行为的类与关联,并且它为描述所定义的行为提供了基础。关系(Relationships)包:包括描述CWM对象之间关系的类与关联。实例(Instance)包:包括表达CWM分类器(Classfier)的类与关联。基础包(Foundation):它包括表达CWM概念和构造的模型元素,这些模型元素又可被其他CWM包所共享,它由如下六个子包构成:业务信息(BusinessInformation)包:包括表达模型元素业务信息的类与关联。数据类型(DataTypes)包:包括表达建模者可以用来创立所需数据类型的构造的类与关联。体现式(Expressions)包:包括表达体现式树的类与关联。关键字和索引(KeysandIndexes)包:包括表达键和索引的类与关联。软件公布(SoftwareDeployment)包:包括软件怎样在数据仓库中公布的类与关联。类型映射(TypeMapping)包:包括表达不一样系统之间数据类型映射的类与关联。资源包(Resource):用于描述数据资源的包,它包括如下四个子包:关系(Relational)包:包括表达关系型数据资源的元数据的类与关联。记录(Record)包:包括表达记录型数据资源的元数据的类与关联。多维(Multidimensional)包:包括表达多维数据资源的元数据的类与关联。XMI包:包括表达XML数据资源的元数据的类与关联。分析(Analysis)包:它由如下五个子包构成:转换(Transformation)包:包括表达数据抽取和转换工具的元数据的类与关联。OLAP包:包括表达OLAP工具的元数据的类与关联。数据挖掘(DataMining)包:包括表达数据挖掘工具的元数据的类与关联。信息可视化(InformationVisualization)包:包括表达信息可视化工具的元数据的类与关联。业务术语(BusinessNomenclature)包:包括表达分类业务的元数据的类与关联。管理(Management)包:用于描述数据仓库管理的包,它包括如下两个子包:仓库过程(WarehouseProcess)包:包括表达仓库过程的元数据的类与关联。仓库操作(WarehouseOperation)包:包括表达仓库操作成果的元数据的类与关联。在数据抽取过程中,数据从各个业务系统中被统一转换存储到中央数据仓库中。CWM中的转换模型定义了数据在源和目的之间移动的过程,其中不仅包括源和目的之间的参数,还包括转换中的业务逻辑。这些业务逻辑也许包括某些商业规则、类库甚至是顾客脚本。数据仓库假如有一种规范的转换模型将给工具软件厂商和专业服务提供商带来极大的好处,例如,按照统一的规范厂商可以设计一种通用的模型从原则\o"ERP"ERP包中抽取数据。工具厂商甚至可以随软件提供成熟的模型,集成商也可以将一种模型应用到多种项目中。最终顾客同样也能从CWM中受益,在使用商业智能分析软件进行多维分析的时候,顾客往往会对数据的含义和来源产生疑问。CWM可以提供这些信息,顾客可以清晰地看到数据来自哪个系统,并且是怎样构成的。CWM与OIM之间的关系上两节分别简介了与数据仓库有关的两个重要原则,CWM实际上是专门为数据仓库元数据而制定的一套原则,而OIM并不是针对数据仓库元数据的。OIM所关注的元数据的范围比CWM要广,CWM只限定于数据仓库领域,而OIM模型包括有:分析与设计模型、对象与组件、数据库与数据仓库、商业工程、知识管理等五个领域。OIM与CWM在建模语言的选择(都选择UML当做自己的描述语言)、数据库模型的支持、OLAP分析模型的支持、数据转换模型的支持方面都比较一致;不过OIM并不是基于元对象设施(MOF)的,这意味着用OIM所描述的元数据需要通过其他的接口才能访问,而CWM所描述的元数据可以通过CORBAIDL来访问;在数据互换方面,OIM必须通过特定的转换形成XML文献来互换元数据,而CWM可以用XMI来进行互换。尽管如此,由于OMG与MDC两个组织的合并,CWM也会与OIM互相兼容以保护厂商已经有的投资。需要阐明的是,MDC与OMG组织已经合并,此后所有的工具都将遵照统一的CWM原则,不过支持CWM的工具才刚刚出现,而支持OIM原则的工具已经相对成熟。四.元数据管理系统的设计与实现设计原则数据仓库环境下的元数据管理系统的建设是十分困难的。不过在实际项目的实行过程中,这个环节又是非常重要的。目前状况下,OMG组织的CWM原则将会成为数据仓库元数据领域实际上的原则,在元数据管理系统的建立过程中应尽量参照这个原则,这样使系统的可扩展性增强。可是在与之有关的工具成熟之前,我们完全可以采用OIM中的元模型(因CWM对OIM是兼容的)以及支持它的元数据管理工具进行元数据管理系统的建设,并且元数据所包括的范围很广。我们在建立元数据管理系统的时候,绝对不能盲目追求大而全,要坚持目的驱动的原则,在实行的时候要采用增量式、渐进式的建设原则。详细的建设环节如下:假如是在建设数据仓库系统的初期,那么首先要确定系统的边界范围,系统范围确定的原则是首先保障重点,不求大,只求精。系统边界确定后来,把既有系统的元数据整顿出来,加入语义层的对应。然后存到一种数据库中,这个数据库可以采用专用的元数据知识库,也可以采用一般的关系型数据库。确定元数据管理的范围。例如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。确定元数据管理的工具,采用一定的工具可以完毕对应的工作。目前有关工具有微软的Repositry,它带有对应的编程接口,可以借助于它来完毕元模型出入库的功能;与之相似的尚有Platinum的OEE;此外尚有Sybase的Wcc,它可以通过MDC此前的一种老原则――MDIS来集成抽取工具与转换工具,在一种窗口中就可以表达数据抽取与转换,并且可以把语义层以MDIS的格式导出到一种前端工具当中(例如Cognos的Improptu)。元数据存储模式元数据存在的状况是有差异的,系统层元数据应随数据库存在,且由建立在分布式网络数据库管理系统统一管理;数据集层次元数据可以随数据库存在也可随数据集存在;数据特性层次的元数据只能随数据集存在。简朴地,元数据存贮有两种形式:其一是以数据集为基础,即每一种数据集有一种对应的元数据文档,每一种元数据文献中包括对对应数据集的元数据内容。另一种存在方式是以数据库为基础(即元数据库),给一种数据库有一种元数据文献,该文献为一表格数据,它由若干项构成,每一项表达元数据的一种要素,其记录为每一种数据集的元数据内容。两种存贮方式各有优缺陷,对于第一种存储模式,其好处是调用数据时其对应的元数据也作为一种独立的文献被传播,相对数据库有较强的独立性,在对元数据进行检索时可以运用数据库的功能实现,也可以将元数据文献调到其他数据库系统中进行操作;其问题是:每一数据集均有一种元数据文档,那么在规模巨大的数据库中则会有大量的元数据文献,管理上极为不便。在第二中存在模式中,由于库中只有一种元数据文献,管理极为以便,添加或删除数据集只把该文献中添加或删除对应的记录项即可;但假如想获取某数据集的元数据时,实际得到的只是关系表格数据的一种记录,则规定数据顾客使用的系统中可以接受这种特定形式的数据。因此推荐使用元数据库的方式。元数据库是用于存储元数据的地方,元数据库最佳选用主流的关系数据库管理系统,支持CWM原则。一种元数据库还包括那些用于操作和查询元数据的机制;建立元数据库的重要好处是提供了统一的关键数据构造和业务规则,易于将企业内部的多种数据集市有机的结合起来;尤其是,目前某些客户倾向建立多种数据集市,而不是一种庞大无比的数据仓库。可以考虑在建立数据仓库(或数据集市)之前,先建立一种用于描述数据的、用于应用集成的元数据库,做好数据仓库实行的初期支持工作,对后续开发和维护有很大的协助。在拥有不一样厂商、不一样功能和不一样元数据库的环境下,要实现两种产品之间的元数据同步是非常富有挑战性的工作。由于必须从一种产品中获得足够详细的元数据,将其映射到另一种产品中,再指出两者意义或编码的差异;一般系统有数百、数千个元数据,必须对每个元数据反复这一过程。在整个数据仓库环境中,元数据管理工具可以从各个数据仓库组件中搜集元数据,存储到元数据库中,然后向业务顾客传递和展示对的的信息。采集、集成和描述元数据可以扩展到十分广泛的范围,可以在设计和建模的过程中,可以在数据转换、清洗和过滤的过程中,也可以在数据移植的过程中;可以从数据库/数据存储软件,和前端展示工具中得到元数据。元数据库为整个企业的宝贵信息提供了详细的记录,保留数据存储位置和商业含义、生成和维护数据的主体、数据驱动的应用处理、与其他数据的关系以及数据的转换过程等。元数据库保证了数据仓库数据的一致性和精确性,为企业进行数据质量管理提供数据根据。此外,元数据库还支持强大的查询和报表生成工具,顾客使用报表工具可以查询元数据库,从元数据库获得重要的决策支持信息。元数据管理模式元数据管理波及到各个层次的元数据,管理的内容包括元数据的获取、元数据的更新、使用和面向应用项目的元数据使用处理等多种方面。元数据的管理波及数据库、数据处理软件、数据使用系统、面向应用的数据分析等各个环节。下面给出了一种一般意义的以元数据信息系统为基础的元数据管理模式:一般意义上的元数据管理是指元数据通过多种途径形成后,对其内容的添加、删除、更新等波及内容变化的操作和元数据内容检索、查询、放置、组织等常规性元数据操作,从这种意义上元数据的管理可以通过两种方式实现,即系统管理模式和顾客管理模式。系统管理模式是面向数据库的,由数据库管理系统专业人员完毕,数据顾客只有使用权,没有元数据的操作权,数据应用项目中新生成的数据集的元数据也有应用系统传递给数据库管理员,然后由数据库管理员统一管理。这种方式中,数据在处理过程中形成的动态元数据很难及时记录下来。另一种管理方式是顾客管理模式,它是面向应用项目的,即容许某些数据顾客在数据应用元数据的变动信息直接反馈给元数据库,这样则能保证元数据的动态更新和新生成数据集元数据的及时捕捉及写入元数据文献。但这种模式中数据顾客的权限要合适的控制,以防止数据库的破坏。一般对元数据的管理是采用两者结合的模式。总之,建立元数据管理系统一定要坚持关注原则,又不被原则所束缚的原则,建立符合自身目的的元数据管理系统。英国Dublin元数据关键元素模版(可借鉴)该原则按照信息的类型和范围将十五个关键元素分为三个子集:(1)数据资源内容(2)数据知识产权(3)数据实体。每个子集所包括的元素及其定义见表5。表1子集元素定义数据资源内容数据集名称由数据生产者或分发者确定的数据集名称主题数据集的主题,可以是阐明数据集主题或内容的关键字或短语,最佳使用规定的缩写词或统一分类名称摘要数据集内容的简要阐明数据源生产数据集的原始资料阐明,包括原始资料出版日期、生产者、格式、标识码或其他阐明信息语言数据集使用的语言,该元素的内容应当与“语言标识码”原则(RFC1766)一致,如en(英国)、de(德国)、fr(法国)等关系其他生产者标识码及其与数据生产者之间的关系时空覆盖范围数据集内容的空间和时间覆盖范围。空间覆盖范围可以用坐标或地名表达;时间范围是指数据的现势性,按ISO8601日期和时间格式原则,即YYYY-MM-DD数据知识产权数据生产者负责生产数据的重要单位或个人出版者将数据集提供顾客使用的负责单位,如出版社等其他生产者除数据生产者元素中阐明以外的其他参与生产者(如编辑、转换等)版权版权阐明。与版权管理申明链接的标识码,或与提供数据集版权管理信息的服务链接的标识码数据实体日期数据集生产或提供使用的日期,按ISO8601日期和时间格式原则,即YYYY-MM-DD类型数据集的类型格式数据集的数据格式,用于识别显示或操作数据集的软件及硬件。标识码唯一标识数据集的字符串或数字,对于联网数据资源,包括URL和URN,或ISBNDublin元数据的每一种关键元素都是可选的和可以反复使用

的。并且,元数据元素的次序无关紧要,也不代表其重要性。我们可以根据它做出我们自己的元数据管理原则,实现自己的元数据管理应运实例数据集名称:中国病毒目录数据库序号元数据项名称元数据内容0数据集的元数据由标识信息、采集信息、管理信息、描述信息、访问信息和元数据管理信息等六项内容构成。1标识信息标识性的信息。1.1数据集作者中国微生物菌种保藏管理委员会1.2数据集中文标题中国放线菌目录数据库1.3数据集英文标题DatabaseofChinaCatalogueofVirus1.4数据集阐明(限300字)本数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论