




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据仓库设计3.l数数据仓库库中数据据模型概概述3.1..1数据据模型的的概念GraceFemaleStudentsStudents&Courses个体特性整体整体间联系概念世界实体属性同质总体异质总体计算机世界记录字段表文件数据库图3-1现实世界到计算机世界的演化过程现实世界逻辑世界图3-2数据据模型关关系现实世界概念模型逻辑模型物理模型数据仓库粒度模型元数据模型3.1..2数据据仓库模模型构建建的原则则1.满足足不同用用户的需需求2.兼顾顾效率与与数据粒粒度的需需要3.支持持需求的的变化4.避免免对业务务运营系系统造成成影响5.考虑虑未来的的可扩展展性3.1..3企业业数据模模型图3-3分层数数据模型型目标、结构业务数据分类概念数据模型逻辑应用视图物理数据库设计抽象具体总体分步3.2概概念模型型设计3.2..l企业业模型的的建立1.E--R模型型的概念念模型设设计过程程图3-4E-R模模型的概概念模型型设计过过程任务和环境评估需求的收集分析主题选取,确定主题间关系容描述主题内E-R图对主题的的选择进进行调整整2.E--R模型型设计中中的一些些说明(1)模模糊性::无法表表述数据据仓库中中各数据据间的关关系,比比如:分分析数据据,描述述数据和和细节数数据间的的关系;;(2)静静态性::时间参参数的存存在及作作用无法法体现;;(3)局局限性::无法揭揭示数据据仓库中中数据的的导出关关系。为了规避避这些不不足,在在E-R图法中中,实体体被分为为事实实实体(FactEntity),,维度实实体(DimensionEntity),引引用实体体(QuotationEntity)),用图图3-5中的图图形分别别表示::事实实体维度实体引用实体图3-5E-R图中各实体符号3.2..2数据据模型的的规范表3-1数数据仓库库数据与与普通数数据库系系统数据据的对比比数据仓库的数据普通数据库系统的数据长期框架短期框架静态快速变化(动态)数据一般是汇总的记录级的访问特殊查询访问标准查询访问定期更新实时更新数据驱动时间驱动3.2..3常见见的概念念模型1.星形形模型事实表维度表维度表维度表维度表维度表维度表图3-8星形模型结构示意图2.雪花花模型详细类别表事实表维度表维度表维度表维度表维度表维度表详细类别表图3-10雪花模型示例3.事事实星座座模型这种模型型用于更更为复杂杂的情况况。它的的中心不不只一个个中心,,而是由由多个中中心组成成,即存存在多个个事实表表,而每每个事实实表拥有有自己的的一组维维度表,,这些维维度表又又有可能能共享一一个事实实表,形形成一个个交叉,,复杂的的关系网网络。但但是这种种模型在在实践中中运用较较少。3.3逻逻辑模型型设计中间层逻辑模型中间层逻辑模型中间层逻辑模型中间层逻辑模型中间层逻辑模型图3-11高层概念模型与逻辑模型的关系超类型子类型初始数据组连接数据组二次数据组类型数据组图3-12逻辑模型中四种基本结构3.3..l概念念模型到到逻辑数数据模型型的转换换下面我们们以这个个例子为为基础来来介绍一一下概念念模型是是如何向向星形模模型转化化的。首首先,我我们了解解一下星星形模型型的设计计步骤::1.确定定决策需需求分析析2.从需需求中识识别出事事实3.确定定维4.确定定数据汇汇总的水水平5.设计计事实表表和维度度表6.检验验设计方方案的有有效性((DBMS和分分析用户户工具))7.设计计方案随随需求变变化而改改动3.3..2数据据表的规规范化与与分割前面我们们已经介介绍过了了什么是是依赖,,下面把把数据表表规范化化过程简简单归纳纳如下::除去函数数依赖的的数据表表中的无无关的列列;移动可以以由某些些函数依依赖推导导出的函函数依赖赖;按相同的的决定因因素重排排函数依依赖;对每个函函数依赖赖组,用用决定因因素作为为主关键键字造表表;合并包含含其他表表的所有有列:选选择其中中一个独独立表的的主关键键字作为为合并后后表的主主关键字字;给不不作为新新表的主主关键字字的其他他主关键键字定义义唯3.3..3维度度表的设设计维度表的的设计是是对事实实表的进进一步细细化。它它也要根根据逻辑辑模型来来设计。。每个事事实表都都需要大大量的数数据来对对其属性性和细节节进行详详细说明明,而维维度表就就是将这这些详细细说明的的数据按按其逻辑辑关系存存放的工工具。一一个维度度表拥有有很多属属性,这这些属性性可以是是文字,,离散值值和有规规定的限限制,在在分析过过程中可可以作为为信息的的行标题题。需要注意意的是,,在设计计事实表表和维度度表之间间的关系系时,尽尽量让维维度表中中的数据据直接参参考事实实表中的的数据,,而不是是通过其其他维度度表间接接参考事事实表。。这样,,可以最最小化表表之间的的连接数数量,减减少系统统CPU和I//O通道道及存储储设备的的负担。。3.3..4事实实表的设设计事实表是是星形模模型的核核心。它它一般包包含两部部分:键键和详细细指标。。其中,,键又分分为主键键和外键键,它们们将各维维表组织织起来,,共同满满足用户户的查询询需求,,而详细细指标则则是记录录在事实实表中的的具体数数据,供供查询使使用。3.3..5数据据集市设设计独立数据集市用户图3-18独立型数据集市结构从属型数数据集市市结构如如图3--19所所示从属数据集市图3-19从属型数据集市结构3.3物物理模型型设计定义数据存储结构RAID0数据带状分布在多个磁盘上,无冗余。高性能,低成本,但磁盘损坏导致整个磁盘整列无法使用。RAID1磁盘镜像,数据写入成对的冗余驱动器。可读性能高,可靠性高,昂贵。RAID2数据按位或块交错分布,校验码由额外驱动器存储。高性能,纠错一位,验错两位,昂贵。RAID3数据按位或块交错存储,一个驱动器存储校验数据。对大块数据性能较高,不支持运行恢复。RAID4数据按扇区交错存储,校验数据由专门驱动器存储。处理多个系统的I/O操作,两个驱动器。RAID5数据按扇区交错存储于多个驱动器。不需专门的校验驱动器,需要两个或三个驱动器,写入能力弱。图3-20RAID技术索引策略略20020701001-2002070105020020701051-2002070110020020701001-2002070102520020701026-2002070105020020701051-2002070107020020701071-200207011002002070100120020701002……2002070102620020701027……2002070105120020701070……2002070107120020701072……图3-21B-TREE索引示例20020701026——地址20020701027——地址……——地址指向数据行的指针数据存储储策略物理模型型设计过过程中,,要注意意考虑数数据存储储。因为为,数据据仓库不不要求把把同一主主题的数数据放在在同一介介质上,,所以我我们可以以根据数数据的重重要程度度,使用用频率和和响应时时间来存存放数据据,一般般而言,,将那些些重要程程度高,,使用频频率高和和响应时时间要求求高的数数据存放放在高速速存储设设备上,,比如::硬盘,,而其它它的数据据则可以以放在低低速存储储设备上上,比如如磁盘等等。存储分配配优化1.设定定正确的的块大小小2.设置置适当的的块使用用参数3.数据据迁移管管理4.块使使用管理理5.解决决动态扩扩展6.采用用文件分分带技术术数据加载载设计数据仓库库要求的的一个重重要技术术就是能能高效地地载入数数据。有有两种方方式:通通过一个个语言接接口一次次载入一一条记录录或使用用一种工工具全体体批量地地装入。。注意,,在装载载数据时时,索引引也必须须随之装装入。若若数据装装载的容容量负荷荷太大的的情况下下,可以以采用并并行装载载。它将将数据分分为几个个工作流流,这样样所需时时间就大大大降低低。此外外,还有有一种高高效装载载方法是是在装载载前先对对数据进进行缓冲冲处理。。这种方方法一般般在数据据量大且且复杂程程度高的的情况下下使用。。物理模型型的设计计对数据据仓库性性能的影影响在物理模模型的设设计阶段段,同时时也要考考虑数据据仓库性性能。为为了兼顾顾数据仓仓库性能能,我们们在这个个阶段应应从以下下几个方方面入手手:合理控制制数据规规范化程程度,主主要方法法有:表表的归并并,允许许数据冗冗余;存储策略略,主要要有:服服务器的的数据分分散存储储,磁盘盘级的存存储优化化;RAID技术;;科学的索索引方法法,主要要有B--TREE索引引,位图图索引等等;合理控制制数据粒粒度;合理的数数据。3.4元元数据模模型为了让读读者能更更准确的的了解什什么是元元数据,,我们用用下例进进行说明明,它定定义了数数据仓库库中的一一个表,,如表3-3所所示。表3-3元数数据举例例Table逻辑名学生定义学校的主要成员,主要进行学习任务物理存储Student.table(数据库表)建立日期2006年9月13日最后更新日期2007年9月13日更新周期每月表逻辑程序名STUDENT(程序名称)3.4..l元数数据的类类型按照不同同的依据据对元数数据分类类各不相相同,可可有以下下的分类类依据::元数据描描述的内内容用户的角角度元数据在在数据仓仓库中承承担的任任务数据仓库库功能区区域划分分3.4..2元数数据的作作用1.元数数据在数数据求精精,开发发,重构构中的作作用(1)描描述业务务规则与与数据之之间的映映射。(2)数数据分割割。(3)概概括与聚聚集。(4)提提高系统统灵活性性。(5)定定义标准准处理的的规则。。(6)预预算与推推倒。(7)转转换与再再映射。。2.元数数据在数数据抽取取,转换换中的作作用(1)确确定数据据来源。。(3)实实现属性性间的映映射与转转换。(2)保保证数据据仓库中中内容的的质量。。3.4..3元数数据的收收集与维维护1.元数数据的收收集(1)来来源于源源系统元数据操作型系统数据模型系统文档的数据元素定义COBOL写字板及控制块规范物理文件布局及字段定义程序规范外部数据来源的文件布局和字段定义其他来源(如:电子表格)图3-23源系统中元数据收集(2)来来源于于抽取的的数据元数据源平台的数据和连接所选择的数据源的布局和定义每个平台上初始抽取文件的合并准则用于抽取的字段定义标准化字段类型与长度的规则数据抽取计划增量修改的抽取方法数据抽取任务流图3-24从抽取的数据种收集元数据(3)来来源于转转换和清清理的数数据元数据抽取文件到数据准备文件的映射规范单独文件的转换规则字段默认有效性检查的商业规则分类及重排序安排从数据抽取到数据准备的审查跟踪图3-25从转换和清洗的数据中收集元数据(4)来来源于装装载的数数据元数据从数据准备文件到装载映像的映射规则数据准备到装载映像的审查跟踪为每个文件分配键时的分配规则完全刷新的计划增量装载的计划数据装载任务流图3-26从数据装载中收集元数据(5)来来源于存存储的数数据元数据集中式数据仓库和独立数据集市数据模型统一化数据集市数据模型多个表组成的主题区域物理文件表和列定义有效性检查的商业规则图3-27从数据装载中收集元数据(6)来来源于信信息传递递元数据预定义查询和报表的列表特殊OLAP数据库德数据模型查询和报表工具列表为OLAP检索数据的计划图3-28从数据装载中收集元数据2.元数数据的维维护(1)元元数据的的存储(2)元元数据的的管理(3)元元数据的的维护3.4..4元数数据的使使用数据仓库库对元数数据的使使用主要要体现在在两个方方面:第第一,因因为元数数据对数数据仓库库中数据据的内容容和出处处进行了了详细说说明,所所以,用用户可以以根据主主题利用用元数据据来查看看数据仓仓库的内内容;第第二,因因为元数数据提供供了可重重复利用用的查询询语言信信息,所所以,如如果这些些查询中中的一个个或几个个能满足足用户的的需求,,或与用用户需求求相近,,用户就就可以直直接使用用元数据据中的查查询,而而不用重重新编写写程序。。3.5数数据仓库库的粒度度模型3.5..l粒度度的划分分所谓粒度度是指数数据仓库库中数据据单元的的详细程程度和级级别。在在数据仓仓库环境境中主要要是分析析型处理理,粒度度的划分分将直接接影响数数据仓库库中的数数据量以以及所适适合的查查询类型型。一般般需要将将数据划划分为::详细数数据、轻轻度综合合、高度度综合三三级或更更多级粒粒度。不不同粒度度级别的的数据用用于不同同类型的的分析处处理。粒粒度的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保时捷交付合同标准文本
- 与酒店培训合同样本
- 湘少版英语五年级上册《Can-I-use-your-pencil-please》教学设计
- 软件工程期终试题B
- PCB外包劳务合同样本
- 语文教学德育渗透总结
- 企业门户建设合同样本
- 大学英语“课程思政”教学设计方案
- 2025年杀菌剂合作协议书
- 五年级数学上册5.4小数点向左移动引起小数大小变化的规律教案苏教版
- 员工反恐怖协议
- 2025年高考政治一轮复习知识清单必修四《哲学与文化》重难点知识
- 2021年4月17日江苏事业单位考试《综合知识和能力素质》(管理岗客观题)
- 《临床技术操作规范-放射医学检查技术分册》
- 生活中的魔法数学名师公开课获奖课件百校联赛一等奖课件
- 2024年同等学力申硕英语考试真题
- 江苏省南京市六校2024-2025学年高一上学期期中联合调研 化学试题
- 儿科基础临床知识题库单选题100道及答案解析
- 消除“艾梅乙”医疗歧视-从我做起
- 临床医学检验试题及答案
- 2024塔式太阳能热发电站熔融盐储热系统安装规范
评论
0/150
提交评论