第一章第二节 数据仓库中的ETL和元数据_第1页
第一章第二节 数据仓库中的ETL和元数据_第2页
第一章第二节 数据仓库中的ETL和元数据_第3页
第一章第二节 数据仓库中的ETL和元数据_第4页
第一章第二节 数据仓库中的ETL和元数据_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.2 数据仓库中的数据仓库中的ETL和元数据和元数据1.2.1 ETL1.2.2 元数据元数据1.2.3 外部数据外部数据第一章第一章 数据仓库原理数据仓库原理1.2 数据仓库中的数据仓库中的ETL和元数据和元数据1.2.1 ETL一、一、ETL的概念的概念 数据仓库的数据仓库的ETL系统是数据仓库中数据整理阶系统是数据仓库中数据整理阶段的一个主要工具,它与元数据管理相结合,提供段的一个主要工具,它与元数据管理相结合,提供对不同数据源的数据进行抽取、转换、清洗、装载对不同数据源的数据进行抽取、转换、清洗、装载的功能。的功能。 通常而言,开发一个数据仓库项目包括了通常而言,开发一个数据仓库项目

2、包括了3个个主要步骤:需求主要步骤:需求/建模,建模,ETL开发,最后的前端开开发,最后的前端开发。发。第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念(续)的概念(续)数数据据源源 ETL数数据据抽抽取取数数据据转转换换数数据据装装载载数据仓库数据仓库OLAP数据挖掘数据挖掘客户端客户端1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念(续)的概念(续) 可以看出可以看出ETL是构建数据仓库的重要一环,同是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从时也是构建

3、数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据装载到数据仓库中去。好的数据仓库模型,将数据装载到数据仓库中去。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念 数据抽取是数据源接口,从业务系统中抽取数数据抽取是数据源接口,从业务系统中抽取数据,为数据仓库输入数据。据,为数据仓库输入数据。 典型的数据抽取接口包括数据库接口和

4、文件典型的数据抽取接口包括数据库接口和文件接口,对于不同的数据平台、不同源数据形式、不接口,对于不同的数据平台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的同性能要求和业务量的业务系统以及不同数据量的源数据,采取不同的数据抽取接口。源数据,采取不同的数据抽取接口。 1、数据抽取、数据抽取1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念1、数据抽取(续)、数据抽取(续) 在数据抽取时,需要重点考虑数据抽取的效在数据抽取时,需要重点考虑数据抽取的效率,以及对现有业务系统性能及安全的影响。数率,

5、以及对现有业务系统性能及安全的影响。数据的抽取须既能满足决策的需要,又不影响业务据的抽取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据抽取时应制定相应的系统的性能,所以进行数据抽取时应制定相应的策略,包括策略,包括抽取方式抽取方式、抽取时机抽取时机、抽取周期抽取周期等内等内容。容。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念2、数据转换和数据清洗、数据转换和数据清洗 数据转换和数据清洗是指对从业务系统中抽数据转换和数据清洗是指对从业务系统中抽取的数据根据数据仓库系统模型的要求,进行数取的数据

6、根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据具有一致性和完整性,不同系统、不同格式的数据具有一致性和完整性,并按要求装入数据仓库。并按要求装入数据仓库。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念2、数据转换和数据清洗(续)、数据转换和数据清洗(续)数据转换和数据清洗主要完成如下数据不一致:数据转换和数据清洗主要完成如下数据不一致:1)源数据库系统同数据仓库系统在模型上的差异。)源数据库系统同数据仓库系统在

7、模型上的差异。2)源数据库系统不一致。)源数据库系统不一致。3)源数据结构不一致。)源数据结构不一致。4)源数据定义不规范导致错误数据。)源数据定义不规范导致错误数据。5)对数据的约束不严格,导致无意义数据。)对数据的约束不严格,导致无意义数据。6)存在重复数据。)存在重复数据。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念2、数据转换和数据清洗、数据转换和数据清洗数据转换、清洗工作一般会有以下几种实现方法:数据转换、清洗工作一般会有以下几种实现方法:1)在数据抽取过程中进行数据处理。)在数据抽取过程中进

8、行数据处理。2)使用异步数据装载,以文件的方式处理。)使用异步数据装载,以文件的方式处理。3)在数据装载过程中进行数据处理。)在数据装载过程中进行数据处理。4)进入数据仓库以后再进行数据处理。)进入数据仓库以后再进行数据处理。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念3、数据装载、数据装载 数据装载就是将从数据源系统中抽取、转换、数据装载就是将从数据源系统中抽取、转换、清洗后的数据装载到数据仓库系统中。清洗后的数据装载到数据仓库系统中。主要的数据装载技术有两种:主要的数据装载技术有两种: 1)使用数据

9、仓库引擎厂商提供的数据装载)使用数据仓库引擎厂商提供的数据装载工具进行数据装载。工具进行数据装载。 2)通过数据仓库引擎厂商提供的)通过数据仓库引擎厂商提供的API编程进编程进行数据装载。行数据装载。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念3、数据装载(续)、数据装载(续) 数据装载策略要考虑装载周期以及数据追加数据装载策略要考虑装载周期以及数据追加策略两方面的内容。策略两方面的内容。 装载周期要综合考虑业务分析需求和系统装装载周期要综合考虑业务分析需求和系统装载的代价,对不同业务系统的数据采用不同

10、的数载的代价,对不同业务系统的数据采用不同的数据装载周期。但必须保持同一时间业务数据的完据装载周期。但必须保持同一时间业务数据的完整性。整性。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL一、一、ETL的概念的概念3、数据装载(续)、数据装载(续) 数据的追加策略根据数据的抽取策略以及业数据的追加策略根据数据的抽取策略以及业务规则确定,一般有务规则确定,一般有3种类型:种类型: 1)直接追加;)直接追加; 2)全部覆盖;)全部覆盖; 3)更新追加。)更新追加。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据

11、仓库原理数据仓库原理1.2.1 ETL二、二、ETL的作用的作用1、解决数据分散问题、解决数据分散问题2、解决数据不清洁问题、解决数据不清洁问题3、方便企业各部门构筑数据集市、方便企业各部门构筑数据集市1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分类工具分类(1)专业)专业ETL厂商和产品厂商和产品 这类产品一般都有较完善的体系结构,并且久这类产品一般都有较完善的体系结构,并且久经市场考验,产品功能的复杂和详尽程度往往能经市场考验,产品功能的复杂和详尽程度往往能令初次接触的人瞪目,但其高昂的价

12、格也会使一令初次接触的人瞪目,但其高昂的价格也会使一般用户望而却步。般用户望而却步。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分类(续)工具分类(续)(2)整体方案提供商和产品)整体方案提供商和产品 这类产品在提供数据仓库存储、设计、展现这类产品在提供数据仓库存储、设计、展现工具的同时也提供相应的工具的同时也提供相应的ETL工具,它们一般对工具,它们一般对自己厂商的相关产品有很好的支持并能发挥出最自己厂商的相关产品有很好的支持并能发挥出最大效率,但结构相对封闭,对其他厂商产品的支大效率,但结

13、构相对封闭,对其他厂商产品的支持有限。持有限。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL三、三、ETL工具工具2、ETL工具比较工具比较1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理数据库厂商数据库厂商ETL工具工具优点优点缺点缺点IBMWa r e h o u s e Manager数据源广泛,在大数据量的抽取中具数据源广泛,在大数据量的抽取中具有速度优势,提供编程接口和调用外有速度优势,提供编程接口和调用外部程序的功能;提供部程序的功能;提供agent把数据抽把数据抽取分布到工

14、作站、小型机、大型机等取分布到工作站、小型机、大型机等各种平台各种平台界面不太友好,在处理界面不太友好,在处理复杂的数据源时面临较复杂的数据源时面临较多的工作量多的工作量ORACLEO r a c l e Wa r e h o u s e Builder提供的躬耕包括:模型构造和设计;提供的躬耕包括:模型构造和设计;数据提取、移动和元数据管理;分析数据提取、移动和元数据管理;分析工具整合;数据仓库管理;具有开放工具整合;数据仓库管理;具有开放可延伸的框架可延伸的框架不能把数据抽取扩充到不能把数据抽取扩充到Unix工作站、小型机、工作站、小型机、大型机,流程繁琐,不大型机,流程繁琐,不易使用易使

15、用MICROSOFTDTS从广泛的数据源抽取数据,提供市场从广泛的数据源抽取数据,提供市场上最有效的编程方式,以及工作流的上最有效的编程方式,以及工作流的任务处理方式;提供调用外部吧程序任务处理方式;提供调用外部吧程序的功能和强大、丰富的外部程序调用的功能和强大、丰富的外部程序调用的对象库;按计划自动执行数据抽取的对象库;按计划自动执行数据抽取就数据仓库环境而言,就数据仓库环境而言,处理数据的量是有限的处理数据的量是有限的INFORMIXA r d e n t DateStage提供工作流的方式,可以实现内部编提供工作流的方式,可以实现内部编程程数据抽取功能的处理方数据抽取功能的处理方式过于简

16、单,程序的高式过于简单,程序的高效性和准确性方面的保效性和准确性方面的保证措施太少证措施太少CAInforbump 抽取速度比较快抽取速度比较快采用非工作流的工作方采用非工作流的工作方式,用户面临过大的工式,用户面临过大的工作量,程序的高效性和作量,程序的高效性和准确性方面的保证措施准确性方面的保证措施太少太少1.2.1 ETL三、三、ETL工具工具3、ETL工具选择工具选择ETL工具的功能可以概括为:工具的功能可以概括为:1)对平台的支持;)对平台的支持;2)对数据源的支持;)对数据源的支持;3)数据转换功能;)数据转换功能;4)管理和调度功能;)管理和调度功能;5)集成和开放性;)集成和开

17、放性;6)对元数据的管理。)对元数据的管理。 在工具的选择时,用户重点考虑这些可能影在工具的选择时,用户重点考虑这些可能影响响ETL工具的要素。工具的要素。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.1 ETL三、三、ETL工具工具3、ETL工具选择(续)工具选择(续)性能性能ETL工具工具手工编码手工编码灵活性灵活性比较灵活比较灵活最灵活最灵活难易程度难易程度相对容易相对容易要求一定的技术水平要求一定的技术水平管理和维护管理和维护容易容易较难较难性能和效率性能和效率较高较高取决于编写者水平取决于编写者水平开发周期开发周期较短较短较长较长

18、工作量工作量中等中等较重较重价格价格较高较高相对较低相对较低1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据 数据仓库环境中一个重要方面是数据仓库环境中一个重要方面是元数据元数据。简。简单地说,元数据就是单地说,元数据就是“关于数据的数据关于数据的数据”。只要。只要有程序和数据,元数据就是信息处理环境的一部有程序和数据,元数据就是信息处理环境的一部分。在数据仓库中,元数据扮演一个新的重要角分。在数据仓库中,元数据扮演一个新的重要角色。也正因为有了元数据,用户才可以最有效地色。也正因为有了元数据,用户才可以最有效地利用数据仓库。

19、利用数据仓库。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据元数据使得用户可以掌握数据历史,如:元数据使得用户可以掌握数据历史,如: 1)数据从哪里来?)数据从哪里来? 2)流通时间有多长?)流通时间有多长? 3)更新频率是多大?)更新频率是多大? 3)数据元素的含义是什么?)数据元素的含义是什么? 5)对数据已经进行了哪些计算、转换和筛选)对数据已经进行了哪些计算、转换和筛选等。等。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据 在需求不确定情况下,在瞬

20、间万变的商业环境在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求变化,降低项目风下,元数据可以更好的支持需求变化,降低项目风险。事实上,元数据贯穿于建立数据仓库的整个过险。事实上,元数据贯穿于建立数据仓库的整个过程之中,是数据仓库构建过程中的一个重要部分,程之中,是数据仓库构建过程中的一个重要部分,起着至关重要的作用。起着至关重要的作用。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据1、元数据的概念、元数据的概念 在数据仓库系统中,在数据仓库系统中,元数据元数据是关于数据仓

21、库是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义,转换规则等相关的关键数据源定义、目标定义,转换规则等相关的关键数据,同时元数据还包含关于数据含义的商业信数据,同时元数据还包含关于数据含义的商业信息。息。 元数据元数据可以帮助数据仓库管理员和数据仓库可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。的开发人员非常方便地找到他们所关心的数据。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据1、元数据的概

22、念(续)、元数据的概念(续) 元数据是描述数据仓库内数据的结构和建立元数据是描述数据仓库内数据的结构和建立方法的数据,对这些信息妥善保存,并很好地管理方法的数据,对这些信息妥善保存,并很好地管理将为数据仓库的发展和使用提供方便,使得最终用将为数据仓库的发展和使用提供方便,使得最终用户和户和DSS分析员能够探索各种可能性。分析员能够探索各种可能性。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类、元数据的分类 按照用途按照用途对元数据进行分类是最常见的分类对元数据进行分类是最常见的

23、分类方法,可将其分为两类:方法,可将其分为两类: (1)管理元数据)管理元数据 (2)用户元数据)用户元数据1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类(续)、元数据的分类(续) 管理元数据管理元数据是存储关于数据仓库系统技术细是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:据,它主要包括以下信息: 1)数据仓库结构的描述,包括仓库模式、视)数据仓库结构的描述,包括仓库模式、视图、维、层次

24、结构和导出数据的定义,以及数据图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。集市的位置和内容。 2)业务系统、数据仓库和数据集市的体系结)业务系统、数据仓库和数据集市的体系结构和模式。构和模式。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类(续)、元数据的分类(续) 3)汇总数据用的算法,包括度量和维定义)汇总数据用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定算法,数据粒度、主题领域、聚集、汇总、预定义的查询和报告。义的查询和报告。 4)由操

25、作环境到数据仓库环境的映射,包)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全。清理、转换规则和数据刷新规则、安全。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类(续)、元数据的分类(续) 用户元数据用户元数据从业务角度描述了数据仓库中的从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的

26、业务人员也能够义层,使得不懂计算机技术的业务人员也能够“读懂读懂”数据仓库中的数据。用户元数据是从最数据仓库中的数据。用户元数据是从最终用户角度来描述数据仓库。通过用户元数据,终用户角度来描述数据仓库。通过用户元数据,用户可以了解:用户可以了解: 1)应该如何连接数据仓库。)应该如何连接数据仓库。 2)可以访问数据仓库的哪些部分。)可以访问数据仓库的哪些部分。 3)所需要的数据来自哪一个源系统。)所需要的数据来自哪一个源系统。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类、元数

27、据的分类按照元数据的来源按照元数据的来源,元数据可以分为:,元数据可以分为: 1)数据源的元数据)数据源的元数据 2)数据模型的元数据)数据模型的元数据 3)数据源与数据仓库映射的元数据)数据源与数据仓库映射的元数据 4)数据仓库应用的元数据)数据仓库应用的元数据1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类(续)、元数据的分类(续) 按照元数据生成按照元数据生成/ 使用的时间使用的时间进行分类,可以进行分类,可以分为:分为: 1)设计时收集)设计时收集/使用的元数据使用的元数

28、据 2)构建时生成)构建时生成/使用的元数据使用的元数据 3)运行时生成)运行时生成/使用的元数据使用的元数据1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据2、元数据的分类、元数据的分类 按照数据仓库功能区域按照数据仓库功能区域的划分,对元数据可的划分,对元数据可以分为:以分为: 1)数据获取元数据)数据获取元数据 2)数据存储元数据)数据存储元数据 3)信息传递元数据)信息传递元数据1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据

29、元数据一、什么是元数据一、什么是元数据2、元数据的分类、元数据的分类 按照元数据在数据仓库中所承担的任务按照元数据在数据仓库中所承担的任务,可,可以元数据分为:以元数据分为: 1)静态元数据)静态元数据 2)动态元数据)动态元数据1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用、元数据的作用RDBMS外部数据源数据仓库企业数据模型、多维数据模型即席查询OLAP分析数据挖掘管理元数据用户元数据元数据知识库操作环境层数据仓库层业务层1.2 数据仓库中的数据仓库中的ETL和元数据和元数

30、据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用、元数据的作用 上图中左边的部分是元数据,它起到了承上上图中左边的部分是元数据,它起到了承上启下的作用,具体体现在:启下的作用,具体体现在: (1)元数据是进行数据集成所必须的)元数据是进行数据集成所必须的 数据仓库最大的特点就是它的集成性。这一数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程中。施数据仓库项目的过程中。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据

31、仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用(续)、元数据的作用(续) 一方面,从各个数据源中抽取的数据要按照一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元仓库中数据的对应关系及转换规则都要存储在元数据知识库中。数据知识库中。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用(续)、元数据的作用(续) 另一方面,在数据

32、仓库项目实施过程中,直另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建立数据集人们可能会按照统一的数据模型,首先建立数据集市,然后在各个数据集市的基础上再建设数据仓库。市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成不过,当数据集市数量增多时很容易形成“蜘蛛网蜘蛛网”现象,而元数据管理是解决现象,而元数据管理是解决“蜘蛛网蜘蛛网”的关键的关键 。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.

33、2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用(续)、元数据的作用(续)2)元数据定义的语义层可以帮助最终用户理解数)元数据定义的语义层可以帮助最终用户理解数据仓库中的数据。据仓库中的数据。 最终用户不可能像数据仓库系统管理员或开最终用户不可能像数据仓库系统管理员或开发人员那样熟悉数据仓库技术,因此迫切需要有发人员那样熟悉数据仓库技术,因此迫切需要有一个一个“翻译翻译”,能够使他们清晰地理解数据仓库,能够使他们清晰地理解数据仓库中数据的含义。元数据可以实现业务模型与数据中数据的含义。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的模型之间的映射,因而可以

34、把数据以用户需要的方式方式“翻译翻译”出来,从而帮助最终用户理解和使出来,从而帮助最终用户理解和使用数据。用数据。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用(续)、元数据的作用(续)(3)元数据是保证数据质量的关键。)元数据是保证数据质量的关键。 数据仓库或数据集市建立好之后,使用者在使用数据仓库或数据集市建立好之后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是的时候,常常会产生对数据的怀疑。这些怀疑往往是由于低层的数据对于用户来说是不由于低层的数据对于用户来

35、说是不“透明透明”的,使用的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,者很自然地对结果产生怀疑。而借助元数据管理系统,最终使用者对各个数据的来龙去脉以及数据抽取和转最终使用者对各个数据的来龙去脉以及数据抽取和转换规则都会很方便地得到,这样他们自然会对数据具换规则都会很方便地得到,这样他们自然会对数据具有信心。有信心。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据3、元数据的作用(续)、元数据的作用(续)(4)元数据可以支持需求变化。)元数据可以支持需求变化。 如何构造一个随着需求改

36、变而平滑变化的软如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档是远远不够的。成功的元数据管理系仅仅依靠文档是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。而提高系统的可扩展性。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第

37、一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源 元数据存在于数据仓库过程中的每个步骤,元数据存在于数据仓库过程中的每个步骤,在不同的数据仓库处理过程中都会产生一些新的在不同的数据仓库处理过程中都会产生一些新的元数据。这些过程包括源系统、数据抽取、数据元数据。这些过程包括源系统、数据抽取、数据清洗、数据转换、数据装载、数据存储、信息传清洗、数据转换、数据装载、数据存储、信息传递等。递等。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是

38、元数据4、元数据的来源、元数据的来源(1)源系统)源系统 在源系统中,元数据的内容包括对操作型数在源系统中,元数据的内容包括对操作型数据模型、系统文件的数据元素定义、物理文件布据模型、系统文件的数据元素定义、物理文件布局以及字段定义、外部数据来源的文件布局和字局以及字段定义、外部数据来源的文件布局和字段定义等内容的描述。段定义等内容的描述。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源(2)数据抽取阶段)数据抽取阶段 在数据抽取阶段,产生的元数据包含有所选在数据抽

39、取阶段,产生的元数据包含有所选择的数据源的布局和定义、用于抽取的字段的定择的数据源的布局和定义、用于抽取的字段的定义、标准化字段类型与长度的规则、数据抽取计义、标准化字段类型与长度的规则、数据抽取计划等内容。划等内容。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源(3)数据清洗和转换阶段)数据清洗和转换阶段 该阶段中元数据描述文件的转换规则、字段该阶段中元数据描述文件的转换规则、字段的默认值、有效性检查的规则、分类及重排序安排的默认值、有效性检查的规则、分类及重排

40、序安排等内容。等内容。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源(4)数据装载阶段)数据装载阶段 在数据装载过程中,元数据记录为文件分配在数据装载过程中,元数据记录为文件分配键的分配规则、完全刷新的计划、增量装载的计键的分配规则、完全刷新的计划、增量装载的计划等内容。划等内容。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源(5)数

41、据存储阶段)数据存储阶段 在数据存储阶段,元数据包含有对数据仓库在数据存储阶段,元数据包含有对数据仓库的数据模型、物理文件、表和列的定义、有效性的数据模型、物理文件、表和列的定义、有效性检查的规则等内容的描述。检查的规则等内容的描述。1.2.2 元数据元数据一、什么是元数据一、什么是元数据4、元数据的来源、元数据的来源(6)信息传递阶段)信息传递阶段 此阶段的元数据需要描述预定义查询和报表此阶段的元数据需要描述预定义查询和报表的列表、特殊的列表、特殊OLAP数据库的数据模型以及为数据库的数据模型以及为OLAP检索数据的计划。检索数据的计划。1.2.2 元数据元数据二、元数据的标准化二、元数据的

42、标准化 没有规矩不成方圆。为了更好地发挥元数据没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,各目前缺乏全行业内统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。公司的元数据管理解决方案各不相同。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据二、元数据的标准化(续)二、元数据的标准化(续) 近几年,随着元数据

43、联盟近几年,随着元数据联盟MDC(meta data coalition)和开放信息模型)和开放信息模型OMI(open information model)和)和OMG组织组织(Object Management Group,对象管理组织),对象管理组织)的公共仓的公共仓库模型库模型CWM(common warehouse model)标)标准的逐渐完善,以及准的逐渐完善,以及MDC和和OMG组织的合并,组织的合并,将为数据仓库厂商提供统一的标准,从而为元数将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。据管理铺平道路。 目前,在数据仓库领域中有两个最主要的元目前,在数据仓库领域中

44、有两个最主要的元数据标准:数据标准:MDC的的OIM标准,标准,OMG的的CWM标准。标准。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理1、元数据管理的具体内容、元数据管理的具体内容(1)获取并存储元数据)获取并存储元数据 数据仓库中数据的时间跨度较长。此间,数据仓库中数据的时间跨度较长。此间,源系统可能会发生变化,则与之对应的数据抽取源系统可能会发生变化,则与之对应的数据抽取方法、数据转换算法以及数据仓库本身的结构和方法、数据转换算法以及数据仓库本身的结构和内容也有可能

45、变化。因此,数据仓库环境中的元内容也有可能变化。因此,数据仓库环境中的元数据必须具有跟踪这些变化的能力。这也意味着数据必须具有跟踪这些变化的能力。这也意味着元数据管理必须提供按照合适的版本来获取和存元数据管理必须提供按照合适的版本来获取和存储元数据的方法使元数据可以随时间变化。储元数据的方法使元数据可以随时间变化。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理1、元数据管理的具体内容(续)、元数据管理的具体内容(续)(2)元数据的集成)元数据的集成 不论是管理元数据和用户元

46、数据,还是来自不论是管理元数据和用户元数据,还是来自源系统数据模型的元数据和来自数据仓库数据模型源系统数据模型的元数据和来自数据仓库数据模型的元数据,都必须以一种用户能够理解的统一方式的元数据,都必须以一种用户能够理解的统一方式集成。元数据集成是元数据管理中的难点。集成。元数据集成是元数据管理中的难点。1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理1、元数据管理的具体内容、元数据管理的具体内容(3)元数据的标准化)元数据的标准化 每一个工具都有自己专用的元数据,不同的每一个工具都有自己专用的元数据,不同的工具中存储的同一种元数据必须用同一种方式表工具中存储的同一种

47、元数据必须用同一种方式表示,不同工具之间也应该可以自由、容易地交换示,不同工具之间也应该可以自由、容易地交换元数据。元数据标准化是对元数据管理提出的另元数据。元数据标准化是对元数据管理提出的另一个巨大挑战,目前尚未形成全行业内统一的标一个巨大挑战,目前尚未形成全行业内统一的标准。准。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理1、元数据管理的具体内容(续)、元数据管理的具体内容(续)(4)保持元数据同步)保持元数据同步 关于数据结构、数据元素、事件、规则的元关于数据结构、

48、数据元素、事件、规则的元数据必须在任何时间在整个数据仓库中保持同步。数据必须在任何时间在整个数据仓库中保持同步。同时,如果数据或规则变化导致元数据发生变化同时,如果数据或规则变化导致元数据发生变化时,这个变化也要反映到数据仓库中。在数据仓时,这个变化也要反映到数据仓库中。在数据仓库中保持统一的元数据版本控制的工作是十分繁库中保持统一的元数据版本控制的工作是十分繁重的。重的。1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理1、元数据管理的具体内容(续)、元数据管理的具体内容(续

49、) 目前,实施对元数据管理的方法主要有两种:目前,实施对元数据管理的方法主要有两种: 对于相对简单的环境,按照通用的元数据管对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库;对于比理标准建立一个集中式的元数据知识库;对于比较复杂的环境,分别建立各部分的元数据管理系较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。标准的元数据交换格式,实现元数据的集成管理。1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理2、元数据管理工具、元

50、数据管理工具与元数据相关的数据仓库工具大致可分为四类:与元数据相关的数据仓库工具大致可分为四类: (1)数据抽取工具)数据抽取工具 (2)前端展示工具)前端展示工具 (3)建模工具)建模工具 (4)元数据存储工具)元数据存储工具1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据三、数据仓库中的元数据管理三、数据仓库中的元数据管理2、元数据管理工具、元数据管理工具元数据管理元数据管理数据抽取工具:数据抽取工具:*DataStage*Decision Base*Extract前端展现工具:前端展现工具:*Bo*Brio*cognos

51、*DSS Agent建模工具:建模工具:*Erwin*Power Designer*Rose元数据存储工具:元数据存储工具:*Repository*MetaStage*WCC1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.2 元数据元数据四、在数据仓库项目中使用元数据的建议四、在数据仓库项目中使用元数据的建议(1)ETL/元数据配合整体的建设策略元数据配合整体的建设策略(2)从简单元数据管理做起,规范)从简单元数据管理做起,规范ETL设计设计(3)让业务人员尽早的使用元数据)让业务人员尽早的使用元数据(4)尽量使用元数据维护数据仓库)尽量使用

52、元数据维护数据仓库(5)采用合适的管理方法)采用合适的管理方法(6)建立元数据库)建立元数据库1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理第二章第二章 数据仓库中的数据仓库中的ETL和元数据和元数据1.2.3 外部数据外部数据 来自企业外,描述企业外部环境的数据称为来自企业外,描述企业外部环境的数据称为外部数据。外部数据。一、外部数据和非结构化数据一、外部数据和非结构化数据 外部数据的另一种来源是无法用数字或统一外部数据的另一种来源是无法用数字或统一的结构表示的数据类,即非结构化数据。的结构表示的数据类,即非结构化数据。 非结构化数据的两种最常见

53、的类型是图像和非结构化数据的两种最常见的类型是图像和声音。声音。1.2.3 外部数据外部数据一、外部数据和非结构化数据一、外部数据和非结构化数据 在数据仓库中存在一些与外部数据在数据仓库中存在一些与外部数据/非结构化非结构化数据的使用、存储相关的问题。表现如下:数据的使用、存储相关的问题。表现如下: 1)访问的频率)访问的频率/可用频率可用频率 2)数据的形式)数据的形式 3)不可预测性)不可预测性1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.3 外部数据外部数据二、元数据和外部数据二、元数据和外部数据 由于在数据仓库环境中正是通过元数据来

54、对由于在数据仓库环境中正是通过元数据来对外部数据进行注册、访问与控制的,因此元数据外部数据进行注册、访问与控制的,因此元数据对存储和管理外部数据与非结构化数据起着重要对存储和管理外部数据与非结构化数据起着重要的作用。的作用。 (见下图)(见下图)1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.3 外部数据外部数据二、元数据和外部数据二、元数据和外部数据数据仓库数据仓库元数据元数据非结构化数据非结构化数据外部数据外部数据元数据:元数据:l文件标识符文件标识符l进入日期进入日期l文件描述文件描述l文件来源文件来源l文件的分类文件的分类l索引字索引字l清理日期清理日期l物理地址引用物理地址引用l文件长度文件长度l相关参考相关参考1.2 数据仓库中的数据仓库中的ETL和元数据和元数据第一章第一章 数据仓库原理数据仓库原理1.2.3 外部数据外部数据二、元数据和外部数据二、元数据和外部数据 如果对元数据进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论