版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
维度建模概述度量和粒度度量:是用于评价业务状况的数值型数据或关键的性能指标例如:销售额成本利润库存量交易数不同的度量反映出不同的业务性质。度量之间相互独立。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。设计粒度是设计数据仓库中的一个重要的前提事实表(FactTable)事实表:通常包含了一系列的度量值。事实表所有度量值必须具有相同粒度。每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行特征:数据量大、列数少,经常变化销售事实收益数量支出毛利…维度表(DimensionTable)维度:可以看作是用户来分析数据的窗口,维度表中包含事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据。每一张维表对应现实世界中的一个对象或者概念。例如:客户、产品、日期、地区、商场维表的特征:属性列很多,行数较少,内容较固定客户维时间维商场维产品维销售事实时间ID客户ID产品ID商场ID收益数量支出毛利…
维层次:明细数据的层次维成员(类别):是各维度每层中数据的具体取值,每一个维成员属于某一个特定的维层次。例如:时间维:三个层次,日、月、年,
维成员:
1999年5月20日、1999年5月;1999年维层次属性(ATTRIBUTES):维层次上的描述属性,例如产品的“规格”、“颜色”、“销地”、“产地”…粒度、层次(Hierarchy)和类别(Categories)粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。设计粒度是设计数据仓库中的一个重要的前提维粒度:数据的细化程度多维分析:对多维数据组织和分析的过程。既在线分析处理(OLAP)过程。多维数据能按照贴近业务规则的方式组织数据,多个多角度探查和回答业务问题,发现某种信息或者知识。多维分析
、切片(Slice)从多维数组选定一个二维子集,切出一个“平面”切块(Dice)从多维数组选定一个三维子集,切出一个“立方体”旋转改变一个报告(或页面)显示的维方向钻取根据维层次,改变数据的粒度多维分析的基本分析动作
1997年1月产品销售情况产品维产品维
产品
销售情况时间维选定时间维的维成员"1997年1月"选定两个维:产品维和地区维
数据切片定位地区维地区维
注:多维数组(地区、时间、产品、销售额)
若在时间维上选定维成员“1997年11月”
切片举例旋转:改变一个报告或页面显示的内容产品维时间维产品维
行列交换时间维
把一个横向为时间,纵向为产品的报表旋转成为横向为产品和纵向为时间的报表
旋转的含义
年份月份销售量20132013011002013201302200......2013201313100年份销售量201320000钻取:钻取是改变维的层次,变换分析的粒度。钻透:直接下钻到最明细的数据。钻取、钻透钻取钻透年份月份日期销售量201320130120130101100201320130120130102200......201320131220131231100维度建模是什么
建模是建立一个可回答用户业务问题的过程,通过维度事实对数据进行重新组织的过程。
建模方法:建模时由事实驱动维度。先建立要分析事实,以此为中心找出(扩展)处相应维度,维度是从事实上剥离出去的。通过模型建立起数据之间的关联关系。注意:数据进行维度和事实的划分并非是固定的。有时同一数据在不同的分析场景既是事实也是维度。例如:统计客户数量时,客户是事实。
统计客户的销量时,客户是维度。模型设计的好坏主要取决于业务数据的规范和对业务数据及其关系的理解。维度的三种模型星形模型(StarSchema)雪花模型(SnowflakeSchema)多维模型(Multi-dimensionSchema)一些影响维度建模的因素数据或展现的安全性复杂的查询和分析星形模型(StarSchema)事实被维度所包围,且维度没有被新的表连接优点:数据结构关系清晰。查询效率较高。最终用户更加容易理解(表数量最少)可编辑和扩展,可以轻松添加一个新的事实并重复使用现有维度
客户维时间维商场维产品维销售事实时间ID客户ID产品ID商场ID收益数量支出毛利…星形模型是一个比较折中的的建模方式(BIAPPS中都是用的是星形的建模方式)雪花模型(SnowflakeSchema)事实表被多个维表或一个或多个层次所包围。特点:可实现复杂的业务情景。通过多个维表代表一个维表的客户维时间维商场维产品维销售事实时间ID客户ID产品ID商场ID收益数量支出毛利…联系人维联系人维雪花模型一般在处理大的且相对静态的层次的时候使用多维模型(Multi-DimensionSchema)层次数据库,只有一个结构(立方体Cube)相当于一个多维数组。它包含了所有数据在各种级别的汇总需要特定的多维数据库或者多维数据库引擎(Essbase)的支持数据存储空间的问题:当新添加一个维度的时候,数据的量便会成指数增长维度的类型
缓慢变化维(SlowlyChangingDimension)快速变化维(RapidlyChangingDimension)大维(HugeDimension)和迷你维(Mini-Dimension)退化维(DegenerateDimension)缓慢变化维(SCD)大多数的维度的内容都会有不同程度的改变。比如:
雇员的升职
客户更改了他的名称或地址我们如何去处理这些维度中的变化呢?下面提供了三个处理缓慢变化维的方式
直接更新到原先记录中
标记记录有效时间的开始日期和结束日期,加入版本控制
在记录中添加一个字段来记录历史快速变化维(FCD)当某个维度的变化是非常快的时候,我们认定他为快速变化维(具体要看实际的变化频率),比如:
产品的价格,地产的价格等对于这种快速变化维的变化捕获应该在实施中进行捕获而不是维度中大维度(HugeDimension)数据仓库中最有意思的维度是一些非常大的维度,比如客户,产品等等。一个大的企业客户维度往往有上百万记录,每条记录又有上百个字段。而大的个人客户维度则会超过千万条记录,这些个人客户维度有时也会有十多个字段,但大多数时候比较少见的维度也只有不多的几个属性。大维度需要特殊的处理。由于数据量大,很多涉及大维度数据仓库功能可能会很慢,效率很低。你需要采用高效率的设计方法、选择正确的索引、或者采用其它优化技术来处理以下问题,包括:
向大维度表填充数据
非限制维度的浏览性能,尤其是那些属性较少的维度
多限制的维度属性值的浏览时间
涉及大维度表的对事实表查询的低效率问题
为处理第二类修改所需要增加的额外的记录迷你维(MiniDimension)将常用的大维度中的少数字段提取出来,形成一个字段少的维度,在查询的时候便可以使用迷你维中的字段这样的设计明显提高查询效率事实的类型粒度事实表(AdditiveFact)周期快照事实表(Semi-AdditiveFact)聚合快照事实表(Non-AdditiveFact)非事实事实表(FactlessFactTable)粒度事实表(AdditiveFact)客户维时间维商场维产品维销售事实时间ID客户ID产品ID商场ID价格…表示的是在特定时间、空间点上的一次瞬间的测量。与粒度同层次的事实表,可以直接将事实字段进行Sum,Count等聚合操作周期快照事实表(Semi-AdditiveFact)周期快照事实表表现的是一个时间段,或者规律性的重复。这类表非常适合跟踪长期的过程,例如银行账户和其他形式的财务报表。最常用的财务上的周期快照事实表通常有一个月粒度。在周期快照事实表中的数据必须符合该粒度(就是说,他们必须量测的是同一个时间段中的活动)。对于一个好的周期快照事实表来说就是在粒度上有更多的事实。代理键(WID)月(FK)账户(FK)机构(FK)家庭成员(FK)期末余额(Fact)变更余额(Fact)日平均额(Fact)保证金数(Fact)保证金总计(Fact)回收款数(Fact)……(Fact)聚合快照事实表(Non-AdditiveFact)聚合快照事实表用于描述那些有明确开始和结束的过程,例如合同履行,保单受理以及常见的工作流。聚合快照不适合长期连续的处理,如跟踪银行账户或者描述连续的生产制造过程,如造纸。聚合快照事实表的粒度是一个实体从其创建到当前状态的完整的历史。代理键(WID)请求发货日期(FK)实际发货日期(FK)交付日期(FK)退货日期(FK)结算日期(FK)仓库(FK)客户(FK)产品(FK)固定价格清单(Fact)额外补助(Fact)支付数量(Fact)退还数量(Fact)货物净利数(Fact)标准假设非事实事实表(FactlessFactTable)每个事实表的粒度是一个事件量测。用来描述数据或事件。事件可以发生,但是没有具体的测量值。事故事件(FK)位置(FK)事故类型(FK)事故当事人组(FK)原告组(FK)证人组(FK)事故当事人组(FK)事故当事人(FK)事故角色原告组(FK)原告(FK)原告角色证人组(FK)证人(FK)证人角色事故当事人PK)属性..原告PK)属性..证人(PK)属性..维度建模四个步骤分析内容是什么A选取要建模的业务处理过程如何描述事实表单个行B定义业务处理的粒度(事实表)1.对分析内容(事实)给出明确说明,维度分析的达到层级。2确定每个事实表的粒度从那些方面描述事实C选取用于每个事实表的维度1确定维度的属性2确定维度的层次3确定每个事实所需要关联的维度用那些内容(指标)进行评测D确定用于分析形成每
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《会计从业总账管理》课件
- 《广场规划设计》课件
- 寒假自习课 25春初中道德与法治八年级下册教学课件 第三单元 第六课 第4课时 国家监察机关
- 短信营销合同三篇
- 农学启示录模板
- 理发店前台接待总结
- 儿科护士的工作心得
- 探索化学反应奥秘
- 收银员的劳动合同三篇
- 营销策略总结
- DB21-T 2931-2018羊肚菌日光温室栽培技术规程
- 贵州省黔东南州2023-2024学年九年级上学期期末文化水平测试化学试卷
- 《空调零部件介绍》课件
- 2024年度医院内分泌与代谢科述职报告课件
- 手术室无菌操作流程
- 农业机械控制系统硬件在环测试规范
- 翁潭电站大王山输水隧洞施工控制网设计说明书
- 隆胸术培训课件
- 钢筋焊接培训课件
- 行政内勤培训课件
- 化纤企业(化学纤维纺织企业)安全生产操作规程
评论
0/150
提交评论