数据挖掘第三章(参照韩家伟的书)_第1页
数据挖掘第三章(参照韩家伟的书)_第2页
数据挖掘第三章(参照韩家伟的书)_第3页
数据挖掘第三章(参照韩家伟的书)_第4页
数据挖掘第三章(参照韩家伟的书)_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘:概念与技术数据挖掘:概念与技术Jiawei Han and Micheline Kamber著著Monrgan Kaufmann Publishers Inc.范明范明 孟小峰等译孟小峰等译机械工业出版社机械工业出版社第第3章章 数据仓库与数据仓库与OLAP技术技术中文幻灯片制作:范明中文幻灯片制作:范明2022年5月15日星期日数据仓库与OLAP技术3第第3章章: 数据仓库与数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库? n多维数据模型多维数据模型n数据仓库的系统结构数据仓库的系统结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘什么是数据仓库什么

2、是数据仓库 2022年5月15日星期日数据仓库与OLAP技术5什么是数据仓库什么是数据仓库n不同的定义不同的定义n是一个决策支持数据库是一个决策支持数据库, 它与组织的操作数据库它与组织的操作数据库分离分离地维护地维护n数据仓库系统允许将各种应用系统集成在一起数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数通过为统一的历史数据分析提供坚实的平台据分析提供坚实的平台, 支持信息处理支持信息处理.n数据仓库是一种信息环境数据仓库是一种信息环境, 它将各种应用系统集成在一起它将各种应用系统集成在一起, 提供了企提供了企业信息的完整概括业信息的完整概括, 为灵活的、交互的数据分析提供坚实

3、的平台为灵活的、交互的数据分析提供坚实的平台, 为为决策提供支持决策提供支持. nW. H. Inmon的定义的定义: n数据仓库是数据仓库是 面向主题的面向主题的(subject-oriented), 集成的集成的, 时变的时变的, 和非易失和非易失的的数据集合数据集合, 支持管理决策过程支持管理决策过程n建立数据仓库建立数据仓库(Data warehousing):n构造和使用数据仓库的过程构造和使用数据仓库的过程2022年5月15日星期日数据仓库与OLAP技术6数据仓库的特征数据仓库的特征n面向主题的面向主题的 (subject-oriented)n数据仓库围绕一些主题,如顾客、供应商、

4、产品和销售组织数据仓库围绕一些主题,如顾客、供应商、产品和销售组织n数据仓库关注决策者的数据建模与分析数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日而不是集中于组织机构的日常操作和事务处理常操作和事务处理. n 数据仓库排除对于决策无用的数据数据仓库排除对于决策无用的数据, 提供特定主题的简明视图提供特定主题的简明视图 n集成的集成的 (integrated)n通常通常, 构造数据仓库是将多个异种数据源构造数据仓库是将多个异种数据源, 如关系数据库、一般文件如关系数据库、一般文件和联机事务处理记录和联机事务处理记录, 集成在一起集成在一起n使用数据清理和数据集成技术使用数据清理

5、和数据集成技术, 确保命名约定、编关键字结构、属性确保命名约定、编关键字结构、属性度量等的一致性度量等的一致性 n当数据装入数据仓库时当数据装入数据仓库时, 数据将被转换数据将被转换2022年5月15日星期日数据仓库与OLAP技术7数据仓库的特征数据仓库的特征( (续续) )n时变的时变的 (time-variant)n数据存储从历史的角度数据存储从历史的角度 (例如过去例如过去5-10年年) 提供信息提供信息.n操作数据库数据操作数据库数据: 当前值数据当前值数据n数据仓库中的关键结构数据仓库中的关键结构, 隐式或显式地包含时间元素隐式或显式地包含时间元素 n非易失的非易失的 (nonvol

6、atile)n数据仓库总是物理地分离存放数据数据仓库总是物理地分离存放数据; 这些数据源于操作环境下的应这些数据源于操作环境下的应用数据用数据n由于这种分离由于这种分离, 数据仓库不需要事务处理、恢复和并发控制机制数据仓库不需要事务处理、恢复和并发控制机制.通通常常, 它只需要两种数据访问操作它只需要两种数据访问操作: 数据的初始化装入和数据访问数据的初始化装入和数据访问 2022年5月15日星期日数据仓库与OLAP技术8如何使用数据仓库中的信息如何使用数据仓库中的信息n数据仓库用于商务决策活动数据仓库用于商务决策活动, 包括包括 n增加顾客关注增加顾客关注n包括分析顾客购买模式包括分析顾客购

7、买模式, 如喜爱买什么、购买时间、预算周期、如喜爱买什么、购买时间、预算周期、消费习惯消费习惯n根据季度、年和地区的营销情况比较根据季度、年和地区的营销情况比较, 重新配置产品和管理产品的投重新配置产品和管理产品的投资资, 调整生产策略调整生产策略n分析运营情况和查找利润源分析运营情况和查找利润源n管理顾客关系、进行环境调整、管理公司资产开销管理顾客关系、进行环境调整、管理公司资产开销 2022年5月15日星期日数据仓库与OLAP技术9数据仓库和异种数据库数据仓库和异种数据库n传统的异种数据库集成传统的异种数据库集成n在异种数据库上建立一个包装程序在异种数据库上建立一个包装程序(wrapper

8、s)或中介程序或中介程序(mediators)n查询驱动查询驱动的方法的方法n当查询提交给一个站点时当查询提交给一个站点时, 使用元数据词典将查询转换成所涉及使用元数据词典将查询转换成所涉及的异种站点上的相应查询的异种站点上的相应查询, 查询的结果被集成为一个全局回答的查询的结果被集成为一个全局回答的集合集合 n复杂的信息过滤复杂的信息过滤, 对资源的竞争对资源的竞争n数据仓库数据仓库n更新驱动的更新驱动的, 高性能高性能n来自异种信息源的数据被预先集成并存储在数据仓库中来自异种信息源的数据被预先集成并存储在数据仓库中, 直接用于查直接用于查询和分析询和分析2022年5月15日星期日数据仓库与

9、OLAP技术10数据仓库数据仓库 vs. 操作数据库操作数据库nOLTP (on-line transaction processing, 联机事务处理联机事务处理)n传统关系传统关系 DBMS的主要任务的主要任务n日常事务处理日常事务处理: 购买购买, 库存库存, 银行银行, 制造制造, 工资单工资单, 注册注册, 记帐等记帐等.nOLAP (on-line analytical processing, 联机分析处理联机分析处理)n数据仓库系统的主要任务数据仓库系统的主要任务n数据分析和决策制定数据分析和决策制定2022年5月15日星期日数据仓库与OLAP技术11数据仓库数据仓库 vs. 操

10、作数据库操作数据库( (续续) )n不同的特点不同的特点 (OLTP vs. OLAP):n用户和系统的面向性用户和系统的面向性: 顾客顾客 vs. 市场市场nOLTP是是面向顾客的面向顾客的, 用于办事员、客户、和信息技术专业人员用于办事员、客户、和信息技术专业人员的事务和查询处理的事务和查询处理nOLAP是是面向市场的面向市场的, 用于知识工人用于知识工人 (包括经理、主管、和分析人包括经理、主管、和分析人员员) 的数据分析的数据分析 n数据内容数据内容: 当前的当前的, 细节的细节的 vs. 历史的历史的, 合并的合并的nOLTP系统管理当前数据系统管理当前数据n这种数据太琐碎这种数据太

11、琐碎, 很难用于决策很难用于决策nOLAP系统管理大量历史数据系统管理大量历史数据, 提供汇总和聚集机制提供汇总和聚集机制, 并在不同的并在不同的粒度级别上存储和管理信息粒度级别上存储和管理信息n这些特点使得数据更容易用于决策这些特点使得数据更容易用于决策 2022年5月15日星期日数据仓库与OLAP技术12数据仓库数据仓库 vs. 操作数据库操作数据库( (续续) )n数据库设计数据库设计: ER + 应用应用 vs. 星形星形 + 主题主题nOLTP系统采用系统采用ER数据模型和面向应用的数据库设计数据模型和面向应用的数据库设计nOLAP系统通常采用系统通常采用星形星形或或雪花模型雪花模型

12、和面向主题的数据库设计和面向主题的数据库设计 n视图视图: 当前的当前的, 局部的局部的 vs. 进化的进化的, 集成的集成的nOLTP系统主要关注一个企业或部门内部的当前数据系统主要关注一个企业或部门内部的当前数据, 而不涉及而不涉及历史数据或不同组织的数据历史数据或不同组织的数据nOLAP系统常常跨越数据库模式的多个版本系统常常跨越数据库模式的多个版本. OLAP系统还处理系统还处理来自不同组织的信息来自不同组织的信息, 集成多个数据存储的信息集成多个数据存储的信息n由于数据量巨大由于数据量巨大, OLAP数据也存放在多个存储介质上数据也存放在多个存储介质上 2022年5月15日星期日数据

13、仓库与OLAP技术13数据仓库数据仓库 vs. 操作数据库操作数据库( (续续) )n访问模式访问模式: 更新更新 vs. 只读的只读的, 但是复杂的查询但是复杂的查询nOLTP系统的访问主要由短的原子事务组成系统的访问主要由短的原子事务组成, 需要并发控制和恢需要并发控制和恢复机制复机制nOLAP系统的访问大部分是只读操作系统的访问大部分是只读操作 (由于大部分数据仓库存放由于大部分数据仓库存放历史数据,而不是当前数据历史数据,而不是当前数据), 尽管许多可能是复杂的查询尽管许多可能是复杂的查询 2022年5月15日星期日数据仓库与OLAP技术14数据仓库数据仓库 vs. 操作数据库操作数据

14、库( (续续) )2022年5月15日星期日数据仓库与OLAP技术15为什么建立分离的数据仓库为什么建立分离的数据仓库n为了两个系统的高性能为了两个系统的高性能n操作数据库是为已知的任务和负载设计的操作数据库是为已知的任务和负载设计的n需要使用主关键字索引和散列需要使用主关键字索引和散列, 检索特定的记录检索特定的记录, 优化优化“定制的定制的”查询查询 n数据仓库的查询通常是复杂的数据仓库的查询通常是复杂的, 涉及大量数据在汇总级的计算涉及大量数据在汇总级的计算n需要特殊的基于多维视图的数据组织、存取方法和实现方法需要特殊的基于多维视图的数据组织、存取方法和实现方法n在操作数据库上处理在操作

15、数据库上处理OLAP查询查询, 可能会大大降低操作任务的性能可能会大大降低操作任务的性能 n操作数据库支持多事务的并发处理操作数据库支持多事务的并发处理, 需要加锁和日志等并发控制和恢需要加锁和日志等并发控制和恢复机制复机制, 以确保一致性和事务的鲁棒性以确保一致性和事务的鲁棒性 nOLAP查询只需要对汇总和聚集数据记录进行只读访问查询只需要对汇总和聚集数据记录进行只读访问n如果将并发控制和恢复机制用于这种如果将并发控制和恢复机制用于这种OLAP操作操作, 就会危害并行事就会危害并行事务的运行务的运行, 从而大大降低从而大大降低OLTP系统的吞吐量系统的吞吐量 2022年5月15日星期日数据仓

16、库与OLAP技术16为什么建立分离的数据仓库为什么建立分离的数据仓库( (续续) )n不同的功能和不同的数据不同的功能和不同的数据:n缺少数据缺少数据: 决策支持需要历史数据决策支持需要历史数据, 通常操作数据库并不维护这些数通常操作数据库并不维护这些数据据n数据统一数据统一: 决策支持需要将来自异种数据源的数据统一决策支持需要将来自异种数据源的数据统一 (聚集聚集, 汇总汇总)n数据质量数据质量: 不同的数据源通常使用不同的数据表示不同的数据源通常使用不同的数据表示, 编码编码, 和应当遵和应当遵循的格式循的格式n两个系统提供很不相同的功能两个系统提供很不相同的功能, 需要不同类型的数据需要

17、不同类型的数据需要维护分需要维护分离的数据库离的数据库 多维数据模型多维数据模型2022年5月15日星期日数据仓库与OLAP技术18多维数据模型多维数据模型n数据仓库和数据仓库和OLAP工具基于多维数据模型工具基于多维数据模型n多维数据模型将数据看作数据立方体多维数据模型将数据看作数据立方体 (data cube) 形式形式 n数据立方体最初是指具有产品、市场与时间维的简单三维情况数据立方体最初是指具有产品、市场与时间维的简单三维情况n现在现在, 数据立方体不限于三维数据立方体不限于三维, 而是而是n-维的维的n事实上事实上, n-维维 (n-D) 数据立方体由一系列方体数据立方体由一系列方体

18、 (coboid) 组成组成, 每个涉每个涉及及k (k n) 个维的不同组合个维的不同组合n数据立方体允许以多维对数据建模和观察数据立方体允许以多维对数据建模和观察.n多维数据模型由维和事实定义多维数据模型由维和事实定义2022年5月15日星期日数据仓库与OLAP技术19多维数据模型多维数据模型: :主题主题n多维数据模型围绕中心主题多维数据模型围绕中心主题 组织组织n主题是分析数据的关注点主题是分析数据的关注点n例如例如, 连锁超市的销售连锁超市的销售n主题主题用事实表表示用事实表表示n事实是数值度量的事实是数值度量的n根据它们分析主题与维之间的关系根据它们分析主题与维之间的关系n例如例如

19、,连锁超市可能创建一个数据仓库连锁超市可能创建一个数据仓库sales, 事实包括事实包括dollars_sold 和和units_soldn事实表包括事实的名称或度量事实表包括事实的名称或度量, 以及每个相关维表的关键字以及每个相关维表的关键字2022年5月15日星期日数据仓库与OLAP技术20多维数据模型多维数据模型n维维是观察事实的角度是观察事实的角度 n例如例如, 连锁超市可能创建一个数据仓库连锁超市可能创建一个数据仓库sales, 记录商店的销售记录商店的销售, 涉及维涉及维time, item, branch, 和和location n每一个维都有一个表与之相关联每一个维都有一个表与

20、之相关联. 该表称为该表称为维表维表, 它进一步描述维它进一步描述维n例如例如, item的维表可以包含属性的维表可以包含属性item_name, branch, 和和typen维自然是分层的维自然是分层的n例如,维例如,维location由属性由属性number, street, city, province, 和和country定义定义. 这些属性按一个全序相关这些属性按一个全序相关, 形成一个层次形成一个层次, 如如number street as ( attribute_or_subdimension_list ) 2022年5月15日星期日数据仓库与OLAP技术33例例: :定义星形

21、模式定义星形模式/ 定义数据立方体定义数据立方体sales_star, 对应于中心事实表对应于中心事实表sales; 它包含它包含4个维个维time, / item, branch和和location, 2个度量个度量dollars_sold和和units_sold define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), units_sold = count(*)/ 定义维表定义维表time, item, branch和和location define dimensio

22、n time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country) 2022年5月15日星期日

23、数据仓库与OLAP技术34例例: :定义雪花形模式定义雪花形模式/ 定义数据立方体定义数据立方体sales_snowflake 与与sales_star类似类似 define cube sales_snowflake time, item, branch, location: dollars_sold = sum(sales_in_dollars), units_sold = count(*)/ 定义维表定义维表time, item, branch和和location define dimension time as (time_key, day, day_of_week, month, qu

24、arter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, city, province_or_state, country) n注意注意nsupplier的维定义在的维定义

25、在item的定义中说明的定义中说明,隐式地在隐式地在item的定义中创建了一个的定义中创建了一个supplier_keyncity的维定义在的维定义在location的定义中说明。用这种方式的定义中说明。用这种方式,city_key在在location的定的定义中隐式地创建义中隐式地创建 2022年5月15日星期日数据仓库与OLAP技术35例例: 定义事实星座定义事实星座/ 定义事实表定义事实表sales和维表和维表time, item, branch和和location与星形模式相同与星形模式相同 define cube sales time, item, branch, location:

26、 dollars_sold = sum(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension locatio

27、n as (location_key, street, city, province_or_state, country)/ 定义事实表定义事实表shipping define cube shipping time, item, shipper, from_location, to_location:dollars_sold = sum(cost_in_dollars), units_sipped = count(*) / 定义定义shipping的维表的维表define dimension time as time in cube sales define dimension item as

28、 item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales 2022年5月15日星期日数据仓库与OLAP技术36度量的分类和计算度量的分类和计算 n三类度量三类度量: 分布的分布的,

29、代数的和整体的代数的和整体的n分布的分布的(distributive)n将数据划分为将数据划分为n个集合个集合, 函数在每一部分上的计算得到一个聚集值函数在每一部分上的计算得到一个聚集值. 如果将函数用于如果将函数用于n个聚集值得到的结果个聚集值得到的结果, 与将函数用于所有数据得到与将函数用于所有数据得到的结果一样的结果一样, 则该函数可以用分布方式计算则该函数可以用分布方式计算.n例例, count(), sum(), min(), max().n代数的代数的(algebraic)n能够由一个具有能够由一个具有M (其中其中M是一个整数界是一个整数界) 个参数的代数函数计算个参数的代数函数

30、计算, 而而每个参数都可以用一个分布聚集函数求得每个参数都可以用一个分布聚集函数求得 .n例例, avg(), min_N(), standard_deviation().n整体的整体的(holistic)n描述它的子聚集所需的存储没有一个常数界描述它的子聚集所需的存储没有一个常数界 . n例例, median(), mode(), rank().2022年5月15日星期日数据仓库与OLAP技术37度量的分类和计算度量的分类和计算( (续续) )n许多数据立方体度量可以用关系的聚集操作计算许多数据立方体度量可以用关系的聚集操作计算 n例例: AllElectronics的的sales星形模式星

31、形模式 n设定义设定义AllElectronics的关系数据库模式如下的关系数据库模式如下 time(time_key, day, day_of_week, month, quarter, year) item(item_key, item_name, branch, type)branch(branch_key, branch_name, branch_type)location(location_key, street, city, province_or_state, country)sales(time_key, item_key, branch_key, location_key,

32、number_of_units_sold, price) n定义星形模式定义星形模式sales_star的的 DMQL说明被翻译成说明被翻译成SQL查询查询, 这些查询这些查询产生所需要的产生所需要的sales_star数据立方体数据立方体. 其中其中, 聚集函数聚集函数sum用于计算用于计算dollars_sold和和units_sold 2022年5月15日星期日数据仓库与OLAP技术38度量的分类和计算度量的分类和计算( (续续) )select s.time_key, s.item_key, s.branch_key, s.location_key,sum(s.number_of_un

33、its_sold*s.price), sum(s.number_of units_sold)from time t, item i, branch b, location l, sales swhere s.time_key=t.time_key and s.item_key=i.item_keyand s.branch_key=b.branch_key and s.location_key=l.location_keygroup by s.time_key,s.item_key,s.branch_key,s.location_key n以上查询创建的立方体是以上查询创建的立方体是sales_

34、star数据立方体的基本方体数据立方体的基本方体 n包含数据立方体定义中说明的所有维包含数据立方体定义中说明的所有维, 其中每个维的粒度在连接键其中每个维的粒度在连接键 (join key) 层层 n基本方体关联的事实表称为基本事实表基本方体关联的事实表称为基本事实表 (base fact table) n改变改变group by子句子句, 可以产生可以产生sales_star数据立方体的其它方体数据立方体的其它方体 2022年5月15日星期日数据仓库与OLAP技术39概念分层概念分层n概念分层概念分层 (concept hierarchy) 定义一个映射序列定义一个映射序列, 将低层概念映射

35、到更将低层概念映射到更一般的较高层概念一般的较高层概念 n许多概念分层隐含在数据库模式中许多概念分层隐含在数据库模式中n概念分层为数据库模式中属性的全序或偏序的概念分层称作模式分概念分层为数据库模式中属性的全序或偏序的概念分层称作模式分层层 (schema hierarchy) n例如例如, 假定维假定维location由属性由属性number, street, city, province_or_state, zipcode和和country描述描述. 这些属性按一个全序相关这些属性按一个全序相关, 形成一个层次形成一个层次“street city province_or_state cou

36、ntry” n许多应用共有的概念分层许多应用共有的概念分层, 如如time的概念分层的概念分层, 可以在数据挖掘系统可以在数据挖掘系统中预定义中预定义 n也可以通过将给定维或属性的值离散化或分组来定义概念分层也可以通过将给定维或属性的值离散化或分组来定义概念分层, 产生集产生集合分组分层合分组分层 (set-grouping hierarchy) n概念分层可以由系统用户、领域专家、知识工程师人工地提供概念分层可以由系统用户、领域专家、知识工程师人工地提供, 或根据或根据数据分布的统计分析自动地产生数据分布的统计分析自动地产生 2022年5月15日星期日数据仓库与OLAP技术40典型的典型的O

37、LAP操作操作n上卷上卷 (roll-up)n上卷上卷 (又称又称“上钻上钻”(drill-up) 操作通过沿操作通过沿维的概念分层向上攀升维的概念分层向上攀升或或者通过者通过维归约维归约, 在数据立方体上进行聚集在数据立方体上进行聚集n当用维归约进行上卷时当用维归约进行上卷时, 一个或多个维由给定的立方体删除一个或多个维由给定的立方体删除n例例: 在在 location上卷上卷(由由 cities 到到 countries) 2022年5月15日星期日数据仓库与OLAP技术41典型的典型的OLAP操作操作( (续续) )n下钻下钻 (drill-down)n下钻是上卷的逆操作下钻是上卷的逆操

38、作, , 它由不太详细的数据到更详细的数据它由不太详细的数据到更详细的数据. .n下钻可以通过下钻可以通过沿维的概念分层向下沿维的概念分层向下或或引入新的维引入新的维来实现来实现 n在在 time下钻下钻 (由由 quarters 到到 months)2022年5月15日星期日数据仓库与OLAP技术42典型的典型的OLAP操作操作( (续续) )n切片切片 (slice) n在给定的立方体的一个维上进行选择在给定的立方体的一个维上进行选择, 导致一个子立方体导致一个子立方体 n例例: 使用条件使用条件time = ”Q1” 切片切片, 对维对维time选择销售数据选择销售数据 2022年5月1

39、5日星期日数据仓库与OLAP技术43典型的典型的OLAP操作操作( (续续) )n切块切块 (dice) n通过对两个或多个维执行选择通过对两个或多个维执行选择, , 定义子立方体定义子立方体 n例例: 根据如下条件对立方体切块:根据如下条件对立方体切块:(location = ”Montreal” or Vancouver”) and (time = ”Q1” or ”Q2”) and (item = ”home entertainment” or ”computer”) 2022年5月15日星期日数据仓库与OLAP技术44典型的典型的OLAP操作操作( (续续) )n转轴转轴 (pivot

40、)n转轴又称旋转转轴又称旋转 (rotate), 是一种目视操作是一种目视操作n它转动数据的视角它转动数据的视角, , 提供数据的替代表示提供数据的替代表示 2022年5月15日星期日数据仓库与OLAP技术45其他其他OLAP操作操作n有些有些OLAP还提供其它钻取操作还提供其它钻取操作n钻过钻过 (drill_across) 执行涉及多个事实表的查询执行涉及多个事实表的查询n钻透钻透 (drill_through) 操作使用关系操作使用关系SQL机制机制, , 钻到数据立方体的底钻到数据立方体的底层层, , 到后端关系表到后端关系表n其它其它OLAP操作操作n列出表中最高或最低的列出表中最高

41、或最低的N项项n计算移动平均值、增长率、利润、内部返回率、贬值、流通转换计算移动平均值、增长率、利润、内部返回率、贬值、流通转换n统计功能统计功能 2022年5月15日星期日数据仓库与OLAP技术46OLAP系统与统计数据库系统与统计数据库 n统计数据库统计数据库(SDB)是一种用于支持统计应用的数据库系统是一种用于支持统计应用的数据库系统nOLAP的许多特征的许多特征, 如使用多维数据模型和概念分层、与维关联的度量、如使用多维数据模型和概念分层、与维关联的度量、上卷和下钻概念上卷和下钻概念, 也存在于统计数据库也存在于统计数据库 的早期工作中的早期工作中n这两种类型的系统之间的相似性很少讨论

42、这两种类型的系统之间的相似性很少讨论n它们使用了不同的术语它们使用了不同的术语, 并有不同的应用领域并有不同的应用领域 nOLAP和和SDB也有显著的差别也有显著的差别nSDB趋向于关注社会经济应用趋向于关注社会经济应用, 而而OLAP旨在商务应用旨在商务应用n概念分层的私有性问题是概念分层的私有性问题是SDB关注的主要问题关注的主要问题n例如,给定汇总的社会经济数据例如,给定汇总的社会经济数据, 允许用户观察对应的低层数据允许用户观察对应的低层数据是有争议的是有争议的n不象不象SDB, OLAP需要有效地处理海量数据需要有效地处理海量数据 数据仓库的系统结构数据仓库的系统结构 2022年5月

43、15日星期日数据仓库与OLAP技术48数据仓库设计数据仓库设计 n数据仓库为商务分析提供了什么数据仓库为商务分析提供了什么 n拥有数据仓库可以提供拥有数据仓库可以提供竞争优势竞争优势n通过提供相关信息通过提供相关信息, , 据此测量性能并作出重要调整据此测量性能并作出重要调整, , 以帮助战以帮助战胜其它竞争对手胜其它竞争对手 n数据仓库可以提高企业数据仓库可以提高企业生产力生产力n因为它能够快速有效地搜集准确描述组织机构的信息因为它能够快速有效地搜集准确描述组织机构的信息 n数据仓库有利于数据仓库有利于顾客的联系管理顾客的联系管理n因为它跨越所有商务、所有部门和所有市场因为它跨越所有商务、所

44、有部门和所有市场, , 提供了顾客和商提供了顾客和商品的一致视图品的一致视图 n数据仓库可以带来数据仓库可以带来费用的降低费用的降低n通过以一致和可靠的方式长期跟踪趋势、模式和通过以一致和可靠的方式长期跟踪趋势、模式和异常异常2022年5月15日星期日数据仓库与OLAP技术49数据仓库设计数据仓库设计( (续续) )n四种视图四种视图n自顶向下视图自顶向下视图n使得我们可以选择数据仓库所需的相关信息使得我们可以选择数据仓库所需的相关信息. 这些信息能够满足这些信息能够满足当前和未来商务的需求当前和未来商务的需求 n数据源视图数据源视图n揭示被操作数据库系统捕获、存储和管理的信息揭示被操作数据库

45、系统捕获、存储和管理的信息n通常通常, 数据源用传统的数据建模技术数据源用传统的数据建模技术, 如实体如实体-联系模型或联系模型或CASE 工具建模工具建模 n数据仓库视图数据仓库视图n包括事实表和维表包括事实表和维表. 它们提供存放在数据仓库内部的信息它们提供存放在数据仓库内部的信息, 包括包括预计算的总和与计数预计算的总和与计数, 以及增加的提供历史背景的关于源、原来以及增加的提供历史背景的关于源、原来的日期和时间等信息的日期和时间等信息 n商务查询视图商务查询视图n从最终用户的角度透视数据仓库中的数据从最终用户的角度透视数据仓库中的数据 2022年5月15日星期日数据仓库与OLAP技术5

46、0数据仓库设计数据仓库设计( (续续) )n建立和使用数据仓库是一项复杂的任务建立和使用数据仓库是一项复杂的任务, 需要需要商务技巧商务技巧、技术技巧技术技巧和和程程序管理技巧序管理技巧 n商务技巧商务技巧n建立数据仓库涉及建立数据仓库涉及n理解系统如何存储和管理数据理解系统如何存储和管理数据; n如何构造一个提取程序如何构造一个提取程序, 将数据由操作数据库转换到数据仓库将数据由操作数据库转换到数据仓库; 如何构造一个仓库刷新软件如何构造一个仓库刷新软件, 合理地保持数据仓库中的数据相对合理地保持数据仓库中的数据相对于操作数据库中数据的当前性于操作数据库中数据的当前性 n使用数据仓库涉及使用

47、数据仓库涉及n理解它所包含的数据的含义理解它所包含的数据的含义n理解商务需求并将它转换成数据仓库查询理解商务需求并将它转换成数据仓库查询 2022年5月15日星期日数据仓库与OLAP技术51数据仓库设计数据仓库设计( (续续) )n技术技巧技术技巧n数据分析需要数据分析需要n理解如何由定量信息作出估价理解如何由定量信息作出估价n如何根据数据仓库中的历史信息得到的结论推导事实如何根据数据仓库中的历史信息得到的结论推导事实n这些技巧包括发现模式和趋势这些技巧包括发现模式和趋势, 根据历史推断趋势和发现异常或模式根据历史推断趋势和发现异常或模式漂移漂移, 并根据这种分析提出相应的管理建议的能力并根据

48、这种分析提出相应的管理建议的能力 n程序管理技巧程序管理技巧n涉及与许多技术人员、经销商和最终用户交往涉及与许多技术人员、经销商和最终用户交往, 以便以及时和合算的以便以及时和合算的方式提交结果方式提交结果 2022年5月15日星期日数据仓库与OLAP技术52数据仓库设计数据仓库设计( (续续) )n数据仓库可以使用数据仓库可以使用自顶向下方法自顶向下方法、自底向上方法自底向上方法, 或二者结合的或二者结合的混合方混合方法法设计设计n自顶向下方法自顶向下方法n由总体设计和规划开始由总体设计和规划开始n当技术成熟并且已经掌握当技术成熟并且已经掌握, 对必须解决的商务问题清楚并且已经很好对必须解决

49、的商务问题清楚并且已经很好理解时理解时, 这种方法是有用的这种方法是有用的 n自底向上方法自底向上方法n以实验和原型开始以实验和原型开始n在商务建模和技术开发的早期阶段在商务建模和技术开发的早期阶段, 这种方法是有用的这种方法是有用的n混合方法混合方法n既能利用自顶向下方法的规划和战略特点既能利用自顶向下方法的规划和战略特点, 又能保持象自底向上方法又能保持象自底向上方法一样快速实现和立即应用一样快速实现和立即应用 2022年5月15日星期日数据仓库与OLAP技术53数据仓库设计数据仓库设计( (续续) )n典型的数据仓库设计过程典型的数据仓库设计过程n选取待建模的选取待建模的商务处理商务处理

50、n例如例如, 订单、发票、出货、库存、记帐管理、销售或一般分类帐订单、发票、出货、库存、记帐管理、销售或一般分类帐n选用数据仓库模型选用数据仓库模型 vs. 选择数据集市选择数据集市 n选取商务处理的选取商务处理的粒度粒度n该粒度是基本的该粒度是基本的, 在事实表中是数据的原子级在事实表中是数据的原子级n例如例如, 单个事务、一天的快照等单个事务、一天的快照等 n选取用于每个事实表记录的选取用于每个事实表记录的维维n典型的维是时间、商品、顾客、供应商、仓库、事务类型和状典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态态 n选取将安放在事实表中的选取将安放在事实表中的度量度量n典型的度量

51、是可加的数值量典型的度量是可加的数值量, 如如dollars_sold和和units_sold 2022年5月15日星期日数据仓库与OLAP技术54三层数据仓库结构三层数据仓库结构2022年5月15日星期日数据仓库与OLAP技术55三层数据仓库结构三层数据仓库结构( (续续) )n底层是仓库数据服务器底层是仓库数据服务器n一般是关系数据库系统一般是关系数据库系统 n使用后端工具和实用程序使用后端工具和实用程序, 由操作数据库或其他外部数据源由操作数据库或其他外部数据源 (如由外如由外部咨询者提供的顾客侧面信息部咨询者提供的顾客侧面信息) 提取数据提取数据, 放入底层放入底层 n这一层还包括元数

52、据库这一层还包括元数据库, 存放关于数据仓库和它的内容的信息存放关于数据仓库和它的内容的信息 n中间层是中间层是OLAP服务器服务器 n关系关系OLAP (ROLAP) 模型模型n即扩充的关系即扩充的关系DBMS, 它将多维数据上的操作映射为标准的关系它将多维数据上的操作映射为标准的关系操作操作n多维多维OLAP (MOLAP) 模型模型n即专门的服务器即专门的服务器, 它直接实现多维数据和操作它直接实现多维数据和操作n顶层是前端客户层顶层是前端客户层n包括查询和报告工具、分析工具和包括查询和报告工具、分析工具和/或数据挖掘工具或数据挖掘工具 2022年5月15日星期日数据仓库与OLAP技术5

53、6三种数据仓库三种数据仓库 n企业仓库企业仓库 (enterprise warehouse)n搜集了跨越整个组织的关于主题的所有信息搜集了跨越整个组织的关于主题的所有信息n提供企业范围内的数据集成提供企业范围内的数据集成 n数据集市数据集市 (data mart)n包含企业范围数据的一个子集,对于特定的用户是有用的包含企业范围数据的一个子集,对于特定的用户是有用的n根据数据的来源不同,数据集市分为独立的和依赖的两类根据数据的来源不同,数据集市分为独立的和依赖的两类n独立的独立的数据集市数据集市: 数据来自一个或多个操作的系统或外部信息提数据来自一个或多个操作的系统或外部信息提供者供者, 或者来

54、自在一个特定的部门或地域局部产生的数据或者来自在一个特定的部门或地域局部产生的数据n依赖的依赖的数据集市中的数据直接来自企业数据仓库数据集市中的数据直接来自企业数据仓库 n虚拟仓库虚拟仓库 (virtual warehouse)n是操作数据库上视图的集合是操作数据库上视图的集合. 为了有效地处理查询为了有效地处理查询, 只有一些可能的只有一些可能的汇总视图被物化汇总视图被物化n虚拟仓库易于建立虚拟仓库易于建立, 但需要操作数据库服务器具有剩余能力但需要操作数据库服务器具有剩余能力 2022年5月15日星期日数据仓库与OLAP技术57数据仓库开发数据仓库开发: 一种推荐的方法一种推荐的方法n以递

55、增、进化的方式实现数据仓库以递增、进化的方式实现数据仓库 定义一个高层企业数据模型定义一个高层企业数据模型数据数据集市集市分布式分布式数据集市数据集市多层数据仓库多层数据仓库企业数据仓库企业数据仓库模型模型 提炼提炼数据数据集市集市模型提炼模型提炼2022年5月15日星期日数据仓库与OLAP技术58数据仓库后端工具和实用程序数据仓库后端工具和实用程序 n数据仓库系统使用后端工具和实用程序来加载和刷新它的数据数据仓库系统使用后端工具和实用程序来加载和刷新它的数据 n提供如下功能提供如下功能n数据提取数据提取: 由多个、异种的外部数据源收集数据由多个、异种的外部数据源收集数据 n数据清理数据清理:

56、 检测数据中的错误检测数据中的错误, 可能时订正它可能时订正它 n数据变换数据变换: 将数据由遗产或宿主格式转换成数据仓库格式将数据由遗产或宿主格式转换成数据仓库格式 n装入装入: 排序、汇总、统一、计算视图、检查完整性排序、汇总、统一、计算视图、检查完整性, 并建立索引和划并建立索引和划分分 n刷新刷新: 传播由数据源到数据仓库的更新传播由数据源到数据仓库的更新n一组数据仓库管理工具一组数据仓库管理工具 2022年5月15日星期日数据仓库与OLAP技术59元数据元数据n元数据是关于数据的数据元数据是关于数据的数据n在数据仓库中在数据仓库中, 元数据是定义仓库对象的数据元数据是定义仓库对象的数

57、据 n元数据包括元数据包括 n数据仓库结构数据仓库结构的描述的描述n仓库模式、视图、维、分层结构、导出数据的定义仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集以及数据集市的位置和内容市的位置和内容 n操作元数据操作元数据n数据血统数据血统: 移植数据的历史和它所使用的变换序列移植数据的历史和它所使用的变换序列n数据流通数据流通: 主动的、档案的或净化的主动的、档案的或净化的)n管理信息管理信息: 仓库使用统计量、错误报告和审计跟踪仓库使用统计量、错误报告和审计跟踪n汇总算法汇总算法n度量和维定义算法度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇数据所处粒度、划分、主题领

58、域、聚集、汇总、预定义的查询和报告总、预定义的查询和报告 2022年5月15日星期日数据仓库与OLAP技术60元数据元数据( (续续) )n由操作环境到数据仓库的映射由操作环境到数据仓库的映射n源数据库和它们的内容,网间连接程序描述源数据库和它们的内容,网间连接程序描述, 数据划分数据划分, 数据提数据提取、清理、转换规则和缺省值取、清理、转换规则和缺省值, 数据刷新和净化规则数据刷新和净化规则, 安全安全 (用户用户授权和存取控制授权和存取控制) n关于系统性能的数据关于系统性能的数据n刷新、更新定时和调度的规则与更新周期刷新、更新定时和调度的规则与更新周期n改善数据存取和检索性能的索引和配

59、置改善数据存取和检索性能的索引和配置 n商务元数据商务元数据n商务术语和定义商务术语和定义, 数据拥有者信息和收费策略数据拥有者信息和收费策略 2022年5月15日星期日数据仓库与OLAP技术61OLAP服务器类型服务器类型 n关系关系OLAP (ROLAP) n使用关系或扩充关系的使用关系或扩充关系的 DBMS 存放和管理仓库数据存放和管理仓库数据, 使用使用OLAP中中间件支持其它部分间件支持其它部分n包含一个优化的包含一个优化的 DBMS 后端后端, 聚集导航的逻辑实现聚集导航的逻辑实现, 以及附加的工具以及附加的工具和服务和服务 n较大的可规模性较大的可规模性n例例: Microstr

60、ategy的的DSS和和Informix的的Metacube n多维多维 OLAP (MOLAP) n基于数组的多维存储引擎基于数组的多维存储引擎 n许多许多MOLAP服务器采用两级存储表示服务器采用两级存储表示: 较稠密的子立方体不变较稠密的子立方体不变, 并并作为数组结构存储作为数组结构存储; 而稀疏子立方体使用压缩技术而稀疏子立方体使用压缩技术 n对预计算的汇总数据快速索引对预计算的汇总数据快速索引n例例: Arbor的的Essbase 2022年5月15日星期日数据仓库与OLAP技术62OLAP服务器类型服务器类型( (续续) )n混合混合 OLAP (HOLAP)n结合结合ROLAP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论