数据仓库的规划_第1页
数据仓库的规划_第2页
数据仓库的规划_第3页
数据仓库的规划_第4页
数据仓库的规划_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库的规划第3章数据仓库开发应用过程

数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。本章学习目标:(1)了解数据仓库开发应用的特点。(2)掌握数据仓库的规划、数据仓库的概念模型设计、数据仓库的逻辑模型设计、数据仓库的物理模型设计和数据仓库的实施。(3)了解数据仓库的应用、支持和增强。

数据仓库开发应用过程

3.1数据仓库开发应用过程3.2数据仓库的规划3.3数据仓库的概念模型设计3.4数据仓库的逻辑模型设计3.5数据仓库的物理模型设计3.6数据仓库的实施3.7数据仓库的应用、支持和增强练习3.1数据仓库开发应用的特点

3.1.1数据仓库开发应用的阶段性数据仓库的开发应用过程划分为:创始阶段成长阶段控制阶段成熟阶段

3.1.2数据仓库的螺旋式开发方法设计体系结构开发概念模型开发逻辑模型数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求

规划分析阶段

数据仓库开发过程设计实施使用维护阶段阶段

3.2数据仓库的规划3.2.1选择数据仓库实现策略开发策略主要有:自顶向下:实际应用比较困难。自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。3.2.2确定数据仓库的开发目标和实现范围首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。

另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模从用户的角度分析从技术的角度分析3.2.3数据仓库的结构1.数据仓库的应用结构基于业务处理系统的数据仓库

单纯数据仓库

单纯数据集市

数据仓库和数据集市

2.数据仓库的技术平台结构单层结构

客户/服务器两层结构

三层客户/服务器

多层式结构

3.2.4数据仓库使用方案和项目规划预算3.3数据仓库的概念模型设计概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。3.3.1概念模型的需求调查数据仓库开发的任务书首先要明确用户的信息需求了解管理人员在信息需求方面的内容了解关于信息的来源组织所使用的系统环境3.3.2概念模型的定义1.数据仓库用户的决策分析2.支持决策的数据需求分析3.数据需求分析工具3.3.2概念模型的定义4.CRUD矩阵C:Create产生、R:Read引用、U:Update更新D:Delete删除。3.3.2概念模型的定义5.企业业务处理系统数据存储表3.3.3概念模型的分析客户变动信息商品变动信息客户号商品固有信息客户固有信息客户号供应商号开户日期日期销售数量日期商品号商品客户销售3.3.4概念模型的设计经济(年收入)100万以上10万以上1万以上1万以下地点国家省市销售销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品种类ID小类ID商品ID信用10万元以上1万元以上1千元以上1千元以下0元经济(年收入)100万以上10万以上1万以上地点国家省市销售销售ID销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品ID种类小类商品信用10万元以上1万元以上1千元以上1千元以下0元商品ID生产厂家进货价格进货日期客户客户ID姓名地址电话邮政编码3.3.5概念模型文档与评审1.概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。

2.概念模型的评审3.概念模型的评审人员4.概念模型的评审内容数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。

3.4数据仓库的逻辑模型设计数据仓库的逻辑模型设计任务:分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统定义、确定数据抽取模型等。逻辑模型最终设计成果:每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中粒度划分数据分割策略表划分和数据来源等。

3.4.1分析主题域3.4.2粒度层次和聚集的确定3.4.3确定数据分割策略数据分割标准1.数据量2.数据分析处理的对象3.粒度分割的策略

3.4.4关系模型定义3.4.5数据仓库的实体定义实体的逻辑分析实体所有列的具体特征

3.4.5数据仓库的实体定义3.4.6数据仓库的数据抽取模型F1数据抽取规则 P2 清理数据记录 F8数据清理规则 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加载到数据仓库 F3 SPQK F4 ZGYJ P3 数据排序聚集 P1 抽取数据源记录 3.4.6数据仓库的数据抽取模型2.数据仓库的数据抽取、转换与加载计划(1)影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间

(2)数据抽取、转换与加载对策

全库比较利用程序日志利用数据库日志利用时间戳或利用位图索引3.4.6数据仓库的数据抽取模型3.数据仓库的数据清理转换方法(1)类型转换(2)串操作(3)数学函数(4)参照完整性(5)关键字翻译(6)聚集运算4.数据仓库的数据抽取、清理与转换模型3.4.6数据仓库的数据抽取模型数据源抽取对象表

3.4.6数据仓库的数据抽取模型数据源抽取规则表3.4.6数据仓库的数据抽取模型数据抽取的目标列与源列对应关系表3.4.6数据仓库的数据抽取模型数据抽取过程的排序、概括和导出情况表3.4.6数据仓库的数据抽取模型数据概括表与事实表对应关系3.4.7数据仓库的元数据模型建立与应用数据源⑼⑶物理模型查询统计逻辑模型业务分组来源定义加载统计来源-目标映射建模工具元数据目录数据加载工具数据仓库前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.8逻辑模型的评审逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。数据的约束条件和业务规则是否在这些模型中得到了正确的反映。3.5数据仓库的物理模型设计表的数据结构类型、索引策略、数据存放位置以及数据存储分配等等。物理模型设计因素:I/O存取时间、空间利用率和维护的代价。工作:全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。3.5.1数据仓库设计的规范3.5.2确定数据结构的类型数据非规范化处理的优点有:·能减少对表联结的需求,提高数据仓库运行性能。·能减少编写专门决策支持应用程序的工作量,因为运用一些专门的查询工具,可以更容易访问数据。·可以让用户以直观的易于理解的工具来操作数据,例如,可以利用电子报表来查看数据。3.5.3数据仓库索引的创建1.索引创建策略建立索引时,按照索引使用的频率,由高到低逐步添加。按主关键字和大多数外部关键字建立索引

2.事实表索引的创建事实表中一定要设置主键

3.维表索引的创建4.数据加载索引的创建3.5.4确定数据存放位置数据的布局原则:·不要把经常需要连接的几张表放在同一存储设备上。·如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格。·考虑把整个企业共享的细节数据放在主机或其他集中式服务器上。·别把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。3.5.5确定存储分配3.5.6数据仓库物理模型的评审理设计评审的目标要确定:物理模型在满足数据仓库使用的灵活性、性能、数据完整性、系统可用性、数据的当前性和用户的满意度等

具体的评审项目有:表空间、分区、表格、数据压缩、控制表和引用表、索引、数据量、数据分布、线路通信量、数据仓库的更新、概况数据、预期变动和数据的文档化。3.6数据仓库的实施

实施过程中需要完成的工作:建立数据仓库与业务处理系统的接口数据仓库的体系结构建立实现数据仓库物理仓库与元数据库进行数据仓库的数据初次加载完成数据仓库的中间件设计进行数据仓库的测试。

3.6.1数据仓库与业务处理系统接口的设计

接口应该具有这样一些功能:从面向应用和操作环境生成完整的数据;数据基于时间的转换;数据的聚集;对现有数据系统的有效扫描,以便今后数据仓库的数据追加。3.6.2数据仓库的创建关系型数据库、多维数据库和对象数据库

创建数据仓库的工具:MSSQLServer2000Oracle9iSybaseInformixRedBrickDecisionServer3.6.3数据仓库的数据加载、复制与发行3.6.4数据仓库的中间件设计1.代码发生器2.数据复制工具3.数据泵4.广义数据获取工具和设备拷贝中间件还应该能够进行数据清洁工作可对记录或列重组、去除业务数据、供给已丢失的字段值和检查数据的完整性和一致性对列值的解码和转换增加数据的时间戳数据的概括或者衍生值的计算3.6.5数据仓库的测试1.单元测试单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。

2.系统集成测试测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好,是否能够正常传递数据与执行系统的整体功能。

3.7数据仓库的应用、支持和增强3.7.1数据仓库的用户培训及支持1.用户的培训向用户解释清楚数据仓库的作用与原理用各种案例向用户说明如何使用数据仓库

2.对数据仓库用户的支持对数据仓库应用成功案例的推广

初始阶段的支持技术人员、商业分析人员与用户一起讨论3.7.2数据仓库的使用方式1.信息处理2.分析处理3.数据挖掘3.7.3数据仓库使用中的数据刷新1.从已有数据资源中获取更多数据2.从单位内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论