数据挖掘datawarehouse北邮计算机学院_第1页
数据挖掘datawarehouse北邮计算机学院_第2页
数据挖掘datawarehouse北邮计算机学院_第3页
数据挖掘datawarehouse北邮计算机学院_第4页
数据挖掘datawarehouse北邮计算机学院_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouseandData第1章计算机学院内容数据仓库的概念和数据仓库的结构和技术数据仓库中的元数北邮计算机学院什么是数据仓W.H.Inmon的定数据仓库(DataWarehouse)是面向 其他的定义是一个决策支持数据库。建立数据仓库(Data构造和使用数据仓库的北邮计算机学院数据仓库——面 的特北邮计算机学院数据仓库——集成的特北邮计算机学院数据仓库——时变的特北邮计算机学院数据仓库——非易失的特北邮计算机学院数据仓库和异种北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院一个数据仓库的例

北邮计算机学院航空公司数据市场分析航班分析:分析某个特定市场上所有航班的生产情况;班期分析:分析某个特定市场上各班期的旅客、货运分布情况北邮计算机学院利用数据仓库系统提供的决策支 一段时间内某特定市场占有率、同期比 流量、流向分析 航线上各项生产指标变化趋势的北邮计算机学院通过查询“到各地区的航空市场情况”,发现西南地区总周转量出现了最大负增长量。该决策支持系统简例就是完成对此问题进行分析和原因分析,找出决策支持系统运行结构图如下北邮计算机学院3通过查询“到各地区的航空市场情况”,发现西南地区总周转量出现了最大负增长量。该决策支持系统简例就是完成对此问题进行分析和原因分析,找出决策支持系统运行结构图如下北邮计算机学院客户

数据仓库服 显示:表 显示:图 显示:图查询 航线按不同机型的周转量,并比较去年期周转量的具体显示:表

检索:数据仓库中今年、去年两年总综合数据,并比较。绘制直下钻:从总周转量下钻到今年、去年两年运周转量,并比较。绘制直下钻:从总周转量下钻到今年、去年两年运周转量,并比较。绘制直制表:从数据仓库中取数据并制下钻:、制直方图下钻:从航线总周转量下钻,取各机型制表:从数据仓库中取数结北邮计算机学院(其中,1:东北地区;2:华北地区;3:华东地区;4:西北地区5:西南地区 地区;7:中南地区图 各地区航空周转量与去年对比状 北邮计算机学院 图 各地区航空客运周转量及与去年同期比从图2中看到客运周转量及与去年同期比较,西南地区负增长在 北邮计算机学院 图 到国内各地区货运周转量及与去年同期比 北邮计算机学院 量量000表1客运、货运、总1中,可以看出航空客运、货运、总周转量以及与去年同期比较的具体数据。西南地区总周转量的负增长主要是客运负增长为主体。北邮计算机学院 图4西南地 、重庆两地航空总周转量及与去年同期比从图4中看出,西南地区航空总周转量下降最多的 航线北邮计算机学院 (其中,A:150座级;B:200座级;C:300座级以上;D:200-300座级图 航线各机型总周转量以及与去年同期比较的柱形从图5可以看出航线中-0座级机型2座级以及保持同去年相同航运水平。北邮计算机学院 00表 航线各机型总周转量以及与去年同期比较的数从表2中可以看出,不同机型的周转量以及对比去年同期增长的具体数据北邮计算机学院 以上决策支持系统过程完成了对航空公司 各地区总周转量对比去年同期出现负增长量最大的西南地区,经过 分析和原因分析找出因在 线上。主要是200-300座级机型的总周转量负增长以及座级机型负增长量造成的其中,200-300座级负增长最严重这为决策者提供了解决西南地区负增长问题辅助决策的信息。北邮计算机学院数据仓库决策支持系统应用 行原因分析,找出其他原因,为决策者提的辅助决策信北邮计算机学院从正反两方面来进行分析和原因分析,将可以得到的辅助决策信息,减少负增长,增大正增北邮计算机学院数据仓库的结数据仓库的总体数据仓库与数据数据仓库的技术北邮计算机学院数据仓库的数据源、数据准备区、数据仓库数据/知识挖掘库以及各种管理工具和应用工北邮计算机学院数据仓库的概念结数据仓库在创建中和创建后首先要从数据源中抽取所需要的数据到数据准备区再加载到数据仓库数据库最后根据用户的需求将数据发布到数据集市/知识挖掘库当用户使用数据仓库时,可以通过OLAP等数据仓库应用工具北邮计算机学院数据仓库的数据仓库基本功能数据库仓库管数据仓库环境支持北邮计算机学院数据仓库的总体层数据仓库的基本功从数据源抽取载到数据仓库中数据仓库的管理数据仓库的管理层包含数据管理与元数据管理两部数据管理与元数据管理主要负责对数据仓库中的数据抽取、清加载、更新与刷新等操作进行管理数据仓库环境支持数据仓库环境北邮计算机学院数据仓库的数据仓库作为数据据层,这是数据仓库结构的一个方面。、一方面。北邮计算机学院(1)数据北邮计算机学院自顶向下结这种结构包括抽取、转换、迁移等处理过程,用于将传统数据库或部数据源的数一旦这些过程立数据在数据仓库中不但包含全部的元数据、当前详细数据,同 详尽的历史数据数据集北邮计算机学院发展关系(EntityRelationship,E-R)数据模型,而数据集市则采用星形数据模型来提高性北邮计算机学院2.数据仓库的北邮计算机学院数据仓库的自底向这种思想的是从最关键的部分开始,先以最应用。。北邮计算机学院数据仓库的构建过自底向上结构的是通过独立开发的数据集市逐渐的区域,甚至每个数据集市的数据抽取、转换、北邮计算机学院自底向上VS自顶前者不需要为创建数据集市而具备通用的元数据部件。北邮计算机学院3.2.2数据集一方面,如何织中不同层次管理决策要求是一个提出了数据集市(DataMart)的概北邮计算机学院什么是数据集理人员服务,因此也称之为部门级数据仓库.(DepartmentDataWarehouse)数据集市是指具有特定应用的数据仓库,主要针对某数据进行管理决策。北邮计算机学院数据集市的特下特点: 能够快速实现,代价较低,投资④紧密集成北邮计算机学院数据集市的类图2-5a表示的是数据仓库的逻辑结构据按照企业数据仓库物理模型结构的定义转 北邮计算机学院 北邮计算机学院北邮计算机学院北邮计算机学院企业级自底向上结构的支持者对原有的技术和方案进行调整,发展成了如图所示的企业级数据(EtereDaate,EDMA)北邮计算机学院北邮计算机学院数据数据仓库系统通常由数据仓库、管理部分和分北邮计算机学院数据数据仓库的数据来自多个数据源,包括企业内部数据和市 与分析的外部数据数据建模是建数据仓库的数数据仓库只为数据仓库的增加了时间属性数据数据仓库增加数据仓库的数据建模是适应决策用户使用的逻辑数据模北邮计算机学院数据仓库组成:数据获取②数据获取部 与源数据库的不一致,清除失效数据等。可以通过一些通用工具完成,但是由北邮计算机学院数据仓库组成:管理和元数据管③管理部件。主要包括对数据仓库中数据 、安全、备份、恢复日志等工作。这些工作需要借助数据库管理系统的功④元数据管理,也可称为信 管理。它主要完成元数据的管理、储以及对整个数据仓库数据的检测和管由以下部分组技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。业 。业 由数据仓库管理员生成,由数据来源、当前值方面组成,是针对具体应用数据的元数据管北邮计算机学院④元数据管理,也可称为信 管理。它主要完成元据的管理 以及对整个数据仓库数据的检测和管理由以下部分组技术元数据。技术元数据由关于数据源、目标、转换则、清理规则业务理。北邮计算机学院数据仓库组成:工具(2括检索查询工具、数据的OLAP分析工具、统计持辅助决策的法,数据挖掘可以从数据仓库北邮计算机学院数据仓库的查询不是指对记录级数据的查可视化工具:以图形化方式展示数据,可北邮计算机学院 (2)分析工具(OLAP工具北邮计算机学院 利用数据挖掘(DataMining)工具。北邮计算机学院 数据仓库应用是一个典型的客户/服务器(C/S)结构形报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。北邮计算机学院C/S数据仓库应用是一个典型的客户机/服务器结构形服务器端一般有OLAP北邮计算机学院OLAP的三层C/SOLA这种结构形式工作效率北邮计算机学院 高度综合数据据当前基本数历史数据层与数据库不同,通常采用分级的方式对数据进行组织,由元数据统一组织北邮计算机学院数据的组织近期基本数据:是最近时期的业务数据,是数据仓 历史基本数据:近期基本数据随时间的推移,由数轻度综合数据:是从近期基本数据中提取出的,这(attributes)和内容(contents)进行高度综合数据层:这一层的数据是在轻度综合数据北邮计算机学院 3.3.2数据仓库的数据模北邮计算机学院时,仅对模型作出相应的变化就能反映这北邮计算机学院数据仓库模模型北邮计算机学院北邮计算机学院型转换到计算机中的实际物理过程中的一个计中的实际模式,只有依靠这个物理模式,北邮计算机学院数据仓库设作为数据仓库 ——元数据模型则自始至终随着数据仓库的开发北邮计算机学院0.数据仓库的数据数据仓 采 数据模型城市

北邮计算机学院 从关系表和电子表格到数据北邮计算机学院 北邮计算机学院 北邮计算机学院北邮计算机学院星型“事实表”中存放大量关于企业的事实数据(数量数北邮计算机学院 星型模式实维表:就是对维的属性事实表:由每个维表的关键字和事实度量构成,数据北邮计算机学院北邮计算机学院 星型模型数 情况示意订货客户

日期销售员

北邮计算机学院

地区雪花模雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次在上面星型模型的数据中,对“产品表”“日期星网模星网模型是将多个星型模型连接起来形成网状结构。星型模型通过相同的维,如时间维,连接多个事实北邮计算机学院 雪花与星型模型的不同就是把维表进行了规范化,消除冗余(把冗余字示北邮计算机学院事实星座模式实在实际中,很多事实表具有共享的维(维关键字),则把事实表组合 合 地区费余时时间状态北邮计算机学院定义星形、雪花形、事实星座模式的北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院概念分层有利于数据在北邮计算机学院北邮计算机学院数据模型的OLAP操建立自己的数据仓库北邮计算机学院北邮计算机学院汇总,数据减得到更详细的数据立北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院 换(Transform)、装载(Load)三个过程即ETL北邮计算机学院

(1)确认数(2)数据抽取北邮计算机学院

北邮计算机学院

源系统中的数据都代表了当前时刻的值。当这类数据的是每次发生变化时的状态。例如,北邮计算机学院

1.数据转换的基本2.数据转换3.数据整合和4.如何实施北邮计算机学院

选择:从源系统中选择整个记录或者部分记录分离/合并:对源系统中的数据进行分离操作或转化:对源系统进行标准化和可理解汇总:将最低粒清晰:对单个字段数据进行重新分配和简化北邮计算机学院

(2)字段(3)计算值和导出(5)信息的合(7)度量单位的转(9)汇(10)日期/时间转北邮计算机学院

数据来源于多个不同不同的键码,将它们不同系统中得到的值存在一些差别,需要给出合理的北邮计算机学院

自己编写程序实使用转换北邮计算机学院

(1)数据装载(2)数据装载北邮计算机学院

按照装载的目标表,将转换过的数据输入到目标表中如果目标表中已经存在数据,追加过程在保存已有数据的基础上输入数据用新输入数据更新目标记录数保留已有的记录,增加输入的记录,并标记为旧记录的替代北邮计算机学院

最初这是第一次对整个数据仓库进行装增量装由于源系统的变化,数据仓库需要装载完全这种类型的数据装载用于周期性重写数据仓北邮计算机学院

2.3.4ETL数据转换代通 捕获数北邮计算机学院

2.4元数据的重关于数据源的元关于数据模型的关于数据仓库映射的元关于数据仓库使用的元北邮计算机学院

2.4.1取和转换规则,了与数据仓库有关北邮计算机学院

关于数据源的元数这类元数据是对不同平台上的数据源的物理结构数据源中所有物理数据结构,包括所有的数据所有每个数据项更新的频率,以及由谁或那个过程更新的说明每个北邮计算机学院

数据之间的关系,它们是用户使用管理数据仓这种的元数据可以支持用户从数据仓库中获北邮计算机学院

例如,雇员与技能之间的关系如图2.13表示E_NoE_NoE_NoE_No北邮计算机学院

元数据I/OI/OI/OObject

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论