数据仓库与数据挖掘培训(共69页).ppt_第1页
数据仓库与数据挖掘培训(共69页).ppt_第2页
数据仓库与数据挖掘培训(共69页).ppt_第3页
数据仓库与数据挖掘培训(共69页).ppt_第4页
数据仓库与数据挖掘培训(共69页).ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数据仓库与数据挖掘数据仓库与数据挖掘课程简介:1. 为什么出现数据仓库与数据挖掘?为什么出现数据仓库与数据挖掘? 啤酒与尿布啤酒与尿布 7-112. 研究内容研究内容 从海量数据中找到规律与联系,为决策提从海量数据中找到规律与联系,为决策提供支持供支持3. 数据仓库与数据库的不同数据仓库与数据库的不同数据库与数据仓库主要学习内容:第一篇第一篇 数据仓库与数据仓库与OLAP数据仓库数据仓库联机分析处理技术联机分析处理技术OLAP数据预处理技术数据预处理技术数据清洗数据清洗数据集成和变换数据集成和变换数据约简数据约简第二篇第二篇 数据挖掘数据挖掘数据挖掘技术数据挖掘技术关联规那么挖掘、分类、聚类

2、分析关联规那么挖掘、分类、聚类分析数据挖掘在各领域的应用等。数据挖掘在各领域的应用等。主要参考书主要参考书: 1 1? ?数据仓库数据仓库? Inmon W.H ? Inmon W.H 著著 机械工业出版社机械工业出版社 2 2? ?数据挖掘数据挖掘 概念与技术概念与技术? Jiawei Han & Micheline Kamber ? Jiawei Han & Micheline Kamber 著著 机械工业出版社机械工业出版社 3 3? ?数据挖掘数据挖掘 ? ? 朱明朱明 著著 中国科学技术大学出版社中国科学技术大学出版社 4 4? ?数据仓库与联机分析处理数据仓库与联机

3、分析处理? ? 王珊等王珊等 著著 科学出版社科学出版社考核方法考核方法:考核采取笔试结合实验的方法:考核采取笔试结合实验的方法:实验成绩实验成绩 30%笔试成绩笔试成绩 70%第一章第一章 数据仓库概述数据仓库概述 本章介绍了数据仓库技术产生的背景、数据仓库的含义与特征、数据仓库与操作型数据库系统的区别和数据仓库的根本体系结构。 1.1 数据仓库的产生 1.2 数据仓库的含义 1.3 数据仓库的特征 1.4 数据库系统与数据仓库 1.5 数据仓库的根本结构 1.6 数据仓库的根本概念 1.7 数据仓库的数据组织11 数据仓库的产生 1. 数据处理分为两类:事物处理分析处理 2. 传统数据库较

4、难满足分析处理的要求:历史数据需求量大不同系统的数据难以集成蜘蛛网问题对大量数据的访问性能缺乏事务处理和分析处理数据环境的别离 1.2 1.2 数据仓库的含义数据仓库的含义对于什么是数据仓库,还有许多不同的定义,如: “数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段。 “数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程。 “数据仓库是一种具有集成性、稳定性和提供决策支持的处理。 “为查询和分析不是事务处理而设计的关系数据库 20世纪80年代中期,“数据仓库这个名词首次出现在号称“数据仓库之父W.H.Inmon的?Building Data Ware

5、house?一书中,在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。“A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.William H.Inmon:数据仓库是一个面向主题面向主题的的、集成的集成的、非易失的非易失的且随时间变化的随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父数据仓库之父-B

6、ill Inmon William H. Inmon: William H. Inmon是世界公认的是世界公认的“数据仓库之父,数据仓库之父,是 数 据 仓 库 及 其 相 关 技 术 网 站是 数 据 仓 库 及 其 相 关 技 术 网 站 billinmon 的合作伙伴,是的合作伙伴,是“企业信息企业信息工厂的创造者之一。他一直致力于数据库工厂的创造者之一。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面数据仓库技术方面以及数据处理的管理方面撰写了撰写了40多本著作,发表过多本著作,发表过600多篇学术多篇

7、学术论文,并且经常应邀在技术和学术会议上演论文,并且经常应邀在技术和学术会议上演讲。讲。1.3 数据仓库的特征 数据仓库的数据是面向主题的数据仓库的数据是面向主题的 数据仓库的数据是集成的数据仓库的数据是集成的 数据仓库的数据是非易失的数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的数据仓库的数据是随时间不断变化的面向主题面向主题主题主题Subject:特定的数据分析领域与目标。:特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。面向主题:为特定的数据分析领域提供数据支持。数据仓库是面向分析、决策人员的主观要求的,不数据仓库是面向分析、决策人员的主观要求的,不同的

8、用户有不同的要求,同一个用户的要求也会随同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。因用户主观要求的变化而变化的。面向主题面向主题为特定数据分析领域提供的数据与传统数据库中的为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、数据是有不同的。传统数据库中的数据是原始的、根底的数据,而特定分析领域数据那么是需要对它根底的数据,而特定分析领域数据那么是需要对它们作必要的抽取、加工与总结而形成。们作必要的抽取、加工与总结而形成。面向主题例如面向主题

9、例如例:一个面向事务处理的例:一个面向事务处理的“商场数据库系统,其数据商场数据库系统,其数据模式如下模式如下采购子系统:采购子系统:订单订单号,供给商号,总金额,日期订单订单号,供给商号,总金额,日期订单细那么订单号,商品号,类别,单价,数量订单细那么订单号,商品号,类别,单价,数量供给商供给商号,供给商名,地址,供给商供给商号,供给商名,地址, 销售子系统:销售子系统:顾客顾客号,姓名,性别,年龄,文化程度,地址,顾客顾客号,姓名,性别,年龄,文化程度,地址, 销售员工号,顾客号,商品号,数量,单价,日期销售员工号,顾客号,商品号,数量,单价,日期面向主题例如库存管理子系统:库存管理子系统

10、:领料单领料单号,领料人,商品号,数量,日期领料单领料单号,领料人,商品号,数量,日期进料单进料单号,订单号,进料人,收料人,日期进料单进料单号,订单号,进料人,收料人,日期库存商品号,库房号,库存量,日期库存商品号,库房号,库存量,日期库房库房号,仓库管理员,地点,库存商品描述库房库房号,仓库管理员,地点,库存商品描述人事管理子系统:人事管理子系统:员工员工号,姓名,性别,年龄,文化程度,部门号员工员工号,姓名,性别,年龄,文化程度,部门号部门部门号,部门名称,部门主管,部门部门号,部门名称,部门主管, 面向主题例如面向主题例如如果按照面向主题的方式进行数据组织,首先应该如果按照面向主题的方

11、式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。的数据不尽相同。在每个主题中,都包含了有关该主题的所有信息,在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。个主题中,形成有关该主题的一个完整一致的描述。面向主题

12、的数据组织方式所强调的就是要形成一个面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合这样一致的信息集合主题一:主题一:商品商品p商品固有信息:商品号,商品名,类别,颜色等商品固有信息:商品号,商品名,类别,颜色等p商品采购信息:商品号,供给商号,供给价,供给日期,商品采购信息:商品号,供给商号,供给价,供给日期,供给量等供给量等p商品销售信息:商品号,顾客号,售价,销售日期,销商品销售信息:商品号,顾客号,售价,销售日期,销售量等售量等p商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等主题二:供给商主题二:供给商p供给商固有信息:供给商号,

13、供给商名,地址,供给商固有信息:供给商号,供给商名,地址, 等等p供给商品信息:供给商号,商品号,供给价,供给日期,供给商品信息:供给商号,商品号,供给价,供给日期,供给量等供给量等主题三:主题三:顾客顾客p顾客固有信息:顾客号,顾客名,性别,年龄,文化程顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,度,住址, 等等p顾客购物信息:顾客号,商品号,售价,购置日期,购顾客购物信息:顾客号,商品号,售价,购置日期,购置量等置量等 例如了一个电信企业的情况。 计费数据库:计费数据库记录了客户的消费情况 财务数据库:财务数据库记录了客户的缴费情况 客户效劳数据库:客户的咨询和投诉情况如果直

14、接基于传统数据库系统进行“客户和“收益信息的分析,那么需要访问多个数据库才能获得客户或收益各个侧面的信息收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况;客户主题那么要从计费数据库、财务数据库、客户效劳数据库中获得客户消费、交费、咨询等全方位的信息。,这样将极大的影响系统处理的时间和效率,并且数据之间的不一致性和不同步等问题将影响决策的可靠性。而以“客户和“收益主题组织的数据仓库,将某个主题的全部相关数据集中于一个地方,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。 面向主题每个主题所需数据的物理存储:每个主题所需数据的物理存储:多维数据库多维数据库M

15、DDBMulti-Dimensional DataBase用多维数组形式存储数据。用多维数组形式存储数据。关系数据库。用一组关系来组织数据的存储,同一关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。形成的综合性数据。集成的集成的数据是分散的;由于事务处理应用分散、蜘蛛数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构网问题、数据不一致问题、外部数据和非结构化数据。化数据。数据仓

16、库中的数据是为分析效劳的,而分析需数据仓库中的数据是为分析效劳的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系取,这些数据源包括多种类型数据库、文件系统以及统以及Internet网上数据等,它们通过数据集成网上数据等,它们通过数据集成而形成数据仓库中的数据。而形成数据仓库中的数据。 数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为: 1

17、原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要增加一些可能涉及的外部数据。 2 数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。 3 源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。 事实上,决策支持系统需要集成的数据。全面而正确的数据是有效地分析和决策的首要前提,相关数据收集得越

18、完整,得到的结果就越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。集成的集成的集成的集成的方法:集成的方法: 统一:消除不一致的现象统一:消除不一致的现象 综合:对原有数据进行综合和计算综合:对原有数据进行综合和计算需要考虑的问题:数据格式计量单位数据代码含义混乱数据名称混乱非易失的非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是原始性,主要供企业决策分析之用,执行的主要是查询查询操作,一般情况下不执行操作,一般情况下不执行更新更新操作。同时,一个稳定的操作。同时,

19、一个稳定的数据环境也有利于数据分析操作和决策的制订。数据环境也有利于数据分析操作和决策的制订。但这也不等于数据仓库中的数据不需要但这也不等于数据仓库中的数据不需要更新更新操作。操作。在需要进行新的分析决策时,可能需要进行新的数据抽在需要进行新的分析决策时,可能需要进行新的数据抽取和取和更新更新操作操作数据仓库中的一些过时的数据,也可以通过数据仓库中的一些过时的数据,也可以通过删除删除操操作丢弃掉。作丢弃掉。因此数据仓库的存储管理相对于因此数据仓库的存储管理相对于DBMSDBMS来说要简单得多。来说要简单得多。随时间不断变化随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一更数据仓库中

20、的数据必须以一定时间段为单位进行统一更新。新。不断增加新的数据内容不断增加新的数据内容不断删去旧的数据内容不断删去旧的数据内容更新与时间有关的综合数据更新与时间有关的综合数据 1.4 数据仓库与传统数据库的比较1. 两个系统的主要区别两个系统的主要区别 2. 两个系统的查询支持不同两个系统的查询支持不同3. 两个系统数据组织模式不同两个系统数据组织模式不同1 两个系统的主要区别 传统数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理OLTP系统。它们涵盖了一个组织的大局部日常操作,如购置、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策支持方面提

21、供效劳。这种系统称为联机分析处理OLAP系统。 两个系统的主要区别概括如下: 数据内容:数据库系统管理当前数据。通常,这种数据太琐碎,难以用于决策。数据仓库系统管理大量历史的、存档的、归纳的、计算的数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这种特点使得系统容易用于“见多识广的决策。 数据目标:数据库系统是面向业务操作,数据目标:数据库系统是面向业务操作,用于办事员、客户和信息技术专业人员的事用于办事员、客户和信息技术专业人员的事务和查询处理。数据仓库是面向主题的,用务和查询处理。数据仓库是面向主题的,用于知识工人包括经理、主管和分析人员于知识工人包括经理、主管和分析人员的决

22、策分析。的决策分析。 数据特性:数据库系统存储的是当前数数据特性:数据库系统存储的是当前数据,数据是动态变化的,按字段进行更新操据,数据是动态变化的,按字段进行更新操作。数据仓库中数据是批量载入的、静态的,作。数据仓库中数据是批量载入的、静态的,系统定期执行提取过程为数据仓库增加数据,系统定期执行提取过程为数据仓库增加数据,这些数据一旦参加,一般不再从系统中删除。这些数据一旦参加,一般不再从系统中删除。 数据结构:数据库系统采用面向应用的数据结构:数据库系统采用面向应用的数据库设计,以高度结构化和复杂的形式组数据库设计,以高度结构化和复杂的形式组织数据,以适应复杂的事务操作计算的需求。织数据,

23、以适应复杂的事务操作计算的需求。数据仓库通常采用面向主题的星型或雪花数数据仓库通常采用面向主题的星型或雪花数据组织模式,以适应分析决策,数据结构简据组织模式,以适应分析决策,数据结构简单。单。 。 2 两个系统的查询支持不同两个系统的查询支持不同 OLTP系统是为了快速答复简单查询,而系统是为了快速答复简单查询,而不是为了存储分析趋势的历史数据而创立的。不是为了存储分析趋势的历史数据而创立的。一般的,一般的,OLTP提供了大量的原始数据,这些提供了大量的原始数据,这些数据不易被分析。数据不易被分析。 数据仓库需要答复更复杂的查询,而不数据仓库需要答复更复杂的查询,而不仅仅是一些像仅仅是一些像“

24、英国主要城市的商品平均销英国主要城市的商品平均销售价格是多少之类的简单聚集数据查询。售价格是多少之类的简单聚集数据查询。数据仓库需要答复的查询类型可以是简单的数据仓库需要答复的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。户使用的查询工具相关。 以下是某数据仓库支持的一些查询例如以下是某数据仓库支持的一些查询例如: 2021年第三季度,整个英格兰的总收入年第三季度,整个英格兰的总收入是多少?是多少? 2007年英国每一类房产销售的总收入是年英国每一类房产销售的总收入是多少?多少? 2021年租借房产业务中每个城市哪个地年租

25、借房产业务中每个城市哪个地域最受欢送?与过去的两年相比有何不同?域最受欢送?与过去的两年相比有何不同? 每个分支机构本月的房产销售月收入是多每个分支机构本月的房产销售月收入是多少,并与刚过去的少,并与刚过去的12个月相比较。个月相比较。 如果对于如果对于10万英镑以上的房产,法定价万英镑以上的房产,法定价格上升格上升3.5%而政府税收下降而政府税收下降1.5%,对英国不,对英国不同区域的销售会产生什么影响?同区域的销售会产生什么影响? 在英国主要城市中,哪种类型的房产销售价在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数格高于平均房产销售价格?这与人口统计数据有何联

26、系?据有何联系?3 两个系统数据组织模式例如比较两个系统数据组织模式例如比较从上述实例,不难看出:1在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息;2在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合;3不同主题之间有重叠内容。 1.5 数据仓库的系统结构 1. 三层数据仓库结构数据仓库效劳器OLAP效劳器前端工具 2. 数据仓库的运行结构两层数据仓库结构多层数据仓库结构1. 三层数据仓库结构 原那么上,数据仓库的系统结构被划分为三层:数据仓库效劳器、OLAP效劳器和前端工具。 1 底层是数据

27、仓库效劳器,它几乎总是一个关系数据库系统。数据仓库系统使用后端工具和实用程序从操作数据库和外部信息源加载和刷新它的数据,这些机制统称ETL Extract/Transformation/Load工具,它们具有数据抽取、数据清洗、数据转换、数据加载和数据刷新等功能。此外,这一层还包含一个元数据存储,它是关于数据仓库和数据仓库中数据的信息。 2 中间层是OLAP效劳器,其典型的实现有:关系OLAPROLAP模型,即扩展的关系DBMS,它将多维数据上的操作映射为标准的关系操作;多维OLAPMOALP模型,一种特殊的效劳器,它直接实现多维数据操作。 3 顶层是客户,它包括查询和报告工具、分析工具和/或

28、数据挖掘工具例如关联分析、分类分析、预测等。过程模型数据仓库管理系统数据仓库管理系统元数据元数据多维关系多维关系数据库数据库多维多维数据库数据库外部操作型外部操作型数据数据数据抽取数据抽取数据清洁数据清洁数据装载数据装载管理平台管理平台报表查询工具报表查询工具数据挖掘工具数据挖掘工具OLAP工具工具仓库管理数据建模仓库管理数据建模数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于:型在于:数据仓库只为决策分析用,不包含事务处理的数据仓库只为决策分析用,不包含事务处理的数据。数据。数据仓库的增加了

29、时间属性数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。仓库管理元数据管理仓库管理元数据管理最根本的元数据相当于数据库系统中的数据字典。最根本的元数据相当于数据库系统中的数据字典。元数据定义了数据仓库有什么,指明了数据仓库中元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规那数据的内容和位置,刻画了数据的抽取和转换规那么,存储了与数据仓库主题有关的各种商业信息,么,存储了与数据仓库主题有关的各种商业信息,而且整个

30、数据仓库的运行都是基于元数据的。而且整个数据仓库的运行都是基于元数据的。数据源的元数据数据源的元数据数据模型的元数据数据模型的元数据数据仓库映射的元数据数据仓库映射的元数据数据仓库使用的元数据数据仓库使用的元数据仓库管理数据处理仓库管理数据处理异构数据源:异构数据源:企业内部数据企业内部数据存档的历史数据存档的历史数据企业的外部数据。企业的外部数据。软硬件平台不一致软硬件平台不一致ETL过程过程抽取抽取Extraction 转换转换Transform装载装载Load分析工具查询工具查询工具数据仓库的查询不是指对记录级数据的查询,数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。而

31、是指对分析要求的查询。 分析工具多维分析工具多维分析工具 通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。观察视角,如时间、地域、业务等。分析工具数据挖掘工具数据挖掘工具从大量数据中挖掘具有规律性知识,需要利从大量数据中挖掘具有规律性知识,需要利用数据挖掘用数据挖掘Data MiningData Mining工具。工具。48 数据仓库应用

32、是一个典型的客户数据仓库应用是一个典型的客户/ /效劳器效劳器C/SC/S结构形结构形式:式: 客户端所做的工作:客户交互、格式化查询、结果显示、客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。报表生成等。 效劳器端完成各种辅助决策的效劳器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 客 户 端 数 据 仓 库 服 务 器 两层数据仓库结构两层数据仓库结构数据仓库数据数据仓库数据元数据元数据数据仓库效劳器数据仓库效劳器数据逻辑数据逻辑数据效劳数据效劳元数据元数据文件效劳文件效劳客户端客户端图形用户接口图形用户接口/表示逻辑表

33、示逻辑查询标准查询标准数据分析数据分析报表格式报表格式总结总结数据访问数据访问50解解 释释 客户客户/效劳器效劳器C/S是网络上一种重要的组是网络上一种重要的组织形式。织形式。 数据仓库在网络上都是以效劳器数据仓库在网络上都是以效劳器Server形式提供效劳,能对网络上多个客户形式提供效劳,能对网络上多个客户Client同时提供效劳。同时提供效劳。多层数据仓库结构多层数据仓库结构多维数据效劳器多维数据效劳器数据仓库数据数据仓库数据元数据元数据数据逻辑数据逻辑数据效劳数据效劳元数据元数据文件效劳文件效劳数据仓库效劳器数据仓库效劳器应用效劳器应用效劳器图形用户接口图形用户接口查询标准查询标准数据

34、分析数据分析报表格式报表格式数据访问数据访问客户端客户端过滤过滤总结总结元数据元数据多维视图多维视图数据访问数据访问52客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAP效劳器将加强和标准化决策支持的效劳工作,集中和简化了原客户端和数据仓库效劳器的局部工作,降低了系统数据传输量。 这种结构形式工作效率更高。1.6 数据仓库的根本概念1. ETL2. 元数据MetaData3. 数据集市Data Market4. OLAP1. ETLExtract/Transformation/Load数据抽取、转换、加载工具 ETL工具就是进行数据的抽取、转换和加载。具体来讲,ETL工具包括:数

35、据提取data extract、数据转换data transform、数据清洗data cleaning和数据加载data loading。 1 数据提取Data Extract 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需提取出系统分析必需的那一局部数据。例如,某超市确定以分析客户的购置行为为主题建立数据仓库,那么我们只需将与客户购置行为相关的数据提取出来,而超市效劳员工的数据就没有必要放进数据仓库。 现有的数据仓库产品几乎都提供各种关系型数据接口,提供提取引擎,从关系型数据中提取数据。 2 数据转换Data Tra

36、nsform 由于业务系统可能使用不同的数据库厂商的产品,比方IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各种数据库产品提供的数据类型可能不同,因此,需要将不同格式的数据转换成统一的数据格式。如时间格式“年/月/日,“月/日/年、“日-月-年的不一致问题等。 3 数据清洗Data Clean 对于决策支持系统来说,最重要的是决策的准确性,因此确保数据仓库中数据的准确性是极其重要的。从多个业务系统中获取数据时,必须对数据进行必要的清洗,从而得到准确的数据。 所谓“清洗就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除

37、,以免影响决策支持系统决策的正确性。 4 数据加载Data Load 数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库,包括清空数据域、填充空格、有效性检查等步骤。2. 元数据MetaData 元数据是描述数据的数据。 元数据通常包括: 数据仓库结构的描述信息,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。 操作元数据,包括数据血统信息来自何处以及如何转换的,数据流通信息主动的、档案的或净化的以及监视信息仓库使用统计、错误报告、审计跟踪。 汇总用的算法,包括度量与维定义算法,数据粒度、分割、主题域、聚集、汇总、预定义查询与报告的算法。 由操作环境到数

38、据仓库的映射信息,包由操作环境到数据仓库的映射信息,包括源数据库和它们的内容,括源数据库和它们的内容,ETL程序描述,程序描述,数据分割、提取、清理和转换的规那么和缺数据分割、提取、清理和转换的规那么和缺省,数据刷新和裁减的规那么以及数据平安省,数据刷新和裁减的规那么以及数据平安信息用户授权和存取控制。信息用户授权和存取控制。 关于系统性能的数据信息,除刷新、更关于系统性能的数据信息,除刷新、更新和复制周期的定时和调度的规那么外,还新和复制周期的定时和调度的规那么外,还包括改善数据存取和检索性能的索引和配置。包括改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义,数商务元数据

39、,包括商务术语和定义,数据拥有者信息和收费策略。据拥有者信息和收费策略。 数据仓库包括不同级别的综合,元数据数据仓库包括不同级别的综合,元数据是其中一种类型。其它类型包括当前的细节是其中一种类型。其它类型包括当前的细节数据几乎总是在磁盘上,老的细节数据数据几乎总是在磁盘上,老的细节数据通常在三级存储器上,稍加综合的数据,通常在三级存储器上,稍加综合的数据,以及高度综合的数据可以存入仓库也可以以及高度综合的数据可以存入仓库也可以不存入。不存入。3. 数据集市Data Market建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论