【建模教程】-维度建模的基本概念及过程_第1页
【建模教程】-维度建模的基本概念及过程_第2页
【建模教程】-维度建模的基本概念及过程_第3页
【建模教程】-维度建模的基本概念及过程_第4页
【建模教程】-维度建模的基本概念及过程_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

----宋停云与您分享--------宋停云与您分享----维度建模的基本概念及过程个基本构成要素的基础知识;其次,介绍个基本步骤;再次,围绕某银行为实现业务价值链数据集成的需要,介绍多维3个关键性概念:数据仓库总线结构、一致性维度、一致性事实。维度表;事实表;维度模型设计过程;数据仓库总线结构;一致性维度;一致性事实。引言:Kimball本人并没有定义“维度”和“事实”这样的术语。术2060General与Dartmouth大学主持的70和都一致地使用这些术语描述他们的数据发布应用,用现在更为准确的话来说,就是关于零售数据的维度数据集市。在简明性成为生活方式的潮流之前的长时期内,早期的数据库垄断组织们致力于将这些概念用来简化用做分析的信息。他们意识到,除非数据库做得简单易用,否则没有人会用它。因此,在将可理解性和性能作为最高目标的驱动下,产生了维度模型的构造思想。维度表和事实表事实表事实表是维度模型的基本表,其中如图所示存放有大量的业务性能度量值。力图将从一个业务处理过程得到的度量值数据存放在单个数据集市。由于度量值数据压倒性地成为任何数据集市的最大部分,因此应该避免在企业范围内的不同地方存储其拷贝。用术语“事实”代表一个业务度量值。可以设想一个作为例子的情形:查询某个客户在某个机构下某个产品合约账户----宋停云与您分享--------宋停云与您分享----是什么。事实表的一行对应一个度量值,一个度量值就是事实表的一行;事实表的所有度量值必须具有相同的粒度。最有用的事实是诸如账户余额这样的数字类型为可做加法的事实。可加性是当然,有些事实是半加性质的,而另外一些是非加性质的。半加性事实仅仅沿某些维度相加,例如销售占比,周期余额;而非加性事实根本就不能相加,例如状态。对于非加性事实,如果希望对行进行总结就不得不使用计数或平均数,或者降为一次一行地打印出全部事实行。度量事实在理论上讲可以是文本形式的,不过这种情况很少出现。在大多数情况下,文本度量值可以是某种事物的描述并取自某个离散列表的值。设计者应该尽各种努力将文本度量值转换成维度,原因在于维度能够与其他文本维度属性更有效地关联起来,并且消耗少得多的空间。不能将冗余的文本信息存放在事实表内。除非文本对于事实表的每行来说都是唯一的,否则它应该归属到维度表中。真正的文本事实在数据仓库中是很少出现的,文本事实具有像自由文本内容那样的不可预见性内容,这几乎是不可能进行分析的。K确匹配,就可以说这些表满足引用完整性的要求。事实表要通过与之相连的维度表进行存取。----宋停云与您分享--------宋停云与您分享----交易事务事实;周期快照事实表用来记录有规律的、固定时间间隔的业务累计数据,通常粒度比较高,例如账户月平均余额事实表;累积快照事实表用来记录具有时间跨度的业务处理过程的整个过程的信息,通常这类事实表比较少见。这里需要值得注意的是,在事实表的设计时,一定要注意一个事实表只能有一个粒度,不能将不同粒度的事实建立在同一张事实表中。维度表维度表是事实表不可分割的部分。如图所示,维度表包含有业务的文字描述。在一个设计合理的维度模型中,维度表有许多列或者属性,这些属性给出对维度表的行所进行的描述。应50100个属性的情形100PK维度属性是查询约束条件、成组与报表标签生成的基本来源。在查询与报表请求中,属性----宋停云与您分享--------宋停云与您分享----用by这个单词进行标识。例如,一个用户表示要按“产品合约编号”与“机构编号”来查看账户余额,那么“产品合约编号”与“机构编号”就必须是可用的维度属性。维度表属性在数据仓库中承担着一个重大的角色。由于它们实际上是所有令人感兴趣的约束条件与报表标签的来源,因此成为使数据仓库变得易学易用的关键。在许多方面,数据仓库不过是维度属性的体现而已。数据仓库的能力直接与维度属性的质量和深度成正比。在提供详细的业务用语属性方面所花的时间越多,数据仓库就越好。在属性列值的给定方面所花的时间越多,数据仓库就越好。在保证属性列值的质量方面所花的时间越多,数据仓库就越好。维度表是进入事实表的入口。丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口。最好的属性是文本的和离散的。属性应该是真正的文字而不应是一些编码简写符号。应该通过用更为详细的文本属性取代编码,力求最大限度地减少编码在维度表中的使用。有时候在设计数据库时并不能很确定,从数据源析取出的一个数字型数据字段到看字段是一个含有许多的取(Degenerate维度表和事实表的融合在理解了事实和维度表之后,现在就考虑将两个组块一起融合到维度模型中去的问题。如图所示,由数字型度量值组成的事实表连接到一组填满描述属性的维度表——这个星型特征结构通常被叫做星型连接方案。该术语可以追溯到最早的关系数据库时期。----宋停云与您分享--------宋停云与您分享----维度模型的简明性也带来了性能上的好处。数据库优化器可以更高效率地处理这些连接关关于其中用到的维度方案,应该注意的第一件事就是其简明性与对称性。很显然,业务用户会因为数据容易理解和浏览而从简明性方面受益。维度模型的简明性也带来了性能上的好处。数据库优化器可以更高效率地处理这些连接关系较少的简单方案。数据库引擎可以采取的非常强劲的做法是,首先集中对建立了充足的索引的维度表进行约束(过滤)处理,然后用满足用户约束条件的维度表关键字的笛卡尔乘积一次性处理全部的事实表。令人惊奇的是,利用这种方法只需使用一次事实表的索引,就可以算出与事实表之间的任意n种连接结果。最后,维度模型能够很自然地进行扩展以适应变化的需要。维度模型的可预定框架能够经受住无法预见的用户行为变化所带来的考验。每个维度都是平等的,所有维度都是进入事实表的对等入口。这个逻辑模型不存在内置的关于某种期望的查询形式方面的偏向,不存在这个月要问的业务问题相对于下个月来说具有优先方面的考虑。没有谁会希望,如果业务用户采用新的方式进行业务分析,就要调整设计方案这样的事情发生。系较少的简单方案。数据库引擎可以采取的非常强劲的做法是,首先集中对建立了充足的索引的维度表进行约束(过滤)处理,然后用满足用户约束条件的维度表关键字的笛卡尔乘积一次性处理全部的事实表。令人惊奇的是,利用这种方法只需使用一次事实表的索引,就可以算出与事实表之间的任意n种连接结果。最后,维度模型能够很自然地进行扩展以适应变化的需要。维度模型的可预定框架能够经受住无法预见的用户行为变化所带来的考验。每个维度都是平等的,所有维度都是进入事实表的对等入口。这个逻辑模型不存在内置的关于某种期望的查询形式方面的偏向,不存在这个月要问的业务问题相对于下个月来说具有优先方面的考虑。没有谁会希望,如果业务用户采用新的方式进行业务分析,就要调整设计方案这样的事情发生。最佳粒度或者原子数据具有最佳的维度。被聚合起来的原子数据是最有表现力的数据。原----宋停云与您分享--------宋停云与您分享----子数据应该成为每个事实表设计的基础,从而经受住业务用户无法预见的查询所引起的特别攻击。对于维度模型来说,完全可以向方案中加入新的维度,只要其值对于每个现有的事实行存在唯一性定义就行。同样,可以向事实表加入新的不曾预料到的事实,只要其详细程度与现有事实表处在一致的水平面上就可以了。可以用新的不曾预料到的属性补充先前存在的维度表,也可以从某个前向时间点的角度在一个更低的粒度层面上对现存维度行进行分解。在每种情况SQLALTER命令来对现存表格进行适当的修改。数据用不着重新加载,所有现存的数据存取应用可以继续运行而不会产生不同的结果。维度建模设计过程本文按照图具有一定顺序的四个步骤的方式进行维度数据库的设计。第一步选取业务处理业务处理过程是机构中进行的一般都由源系统提供支持的自然业务活动。听取用户的意见是选取业务处理过程的效率最高的方式。在选取业务阶段,数据模型设计者需要具有全局和发展的视角,应该理解整体业务流程的基础上,从全局角度选取业务处理。要记住的重要一点是,这里谈到的业务处理过程并不是指业务部门或者职能。通过将注意----宋停云与您分享--------宋停云与您分享----力集中放在业务处理过程方面,而不是业务部门方面,就能在机构范围内更加经济地提交一致的数据。如果建立的维度模型是同部门捆绑在一起的,就无法避免出现具有不同标记与术语的数据拷贝的可能性。多重数据流向单独的维度模型,会使用户在应付不一致性的问题方面显得的开发量,以及后续数据管理与磁盘存储方面的负担。第二步定义粒度粒度定义意味着对各事实表行实际代表的内容给出明确的说明。粒度传递了同事实表度量粒度定义是不容轻视的至关重要的步骤。在定义粒度时应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息,这样的数据不能再做更进一步的细分。通过在最低层面上装配数据,大多原子粒度在具有多个前端的应用场合显示出其价值所在。原子型数据是高度维结构化的。事实度量值越细微并具有原子性,就越能够确切地知道更多的事情,所有那些确切知道的事情都转换为维度。在这点上,原子型数据可以说是维度方法的一个极佳匹配。原子型数据可为分析方面提供最大限度的灵活性,因为它可以接受任何可能形式的约束,并可以以任何可能的形式出现。维度模型的细节性数据是稳如泰山的,并随时准备接受业务用户的特殊攻击。当然,可以总是给业务处理定义较高层面的粒度,这种粒度表示最具有原子性的数据的聚集。不过,只要选取较高层面的粒度,就意味着将自己限制到更少或者细节性可能更小的维度上了。具有较少粒度性的模型容易直接遭到深入到细节内容的不可预见的用户请求的攻击。聚集概要性数据作为调整性能的一种手段起着非常重要的作用,但它绝对不能作为用户存取最低----宋停云与您分享--------宋停云与您分享----层面的细节内容的替代品。遗憾的是,有些权威人士在这方面一直显得含糊不清。他们宣称维度模型只适合于总结性数据,并批评那些认为维度建模方法可以满足预测业务需求的看法。这样的误解会随着细节性的原子型数据在维度模型中的出现而慢慢地消逝。第三步选定维度第四步确定事实设计过程的第四步同时也是最后一步,在于仔细确定哪些事实要在事实表中出现。事实的确定可以通过回答“要对什么内容进行评测”这个问题来进行。业务用户在这些业务处理性能步中定义的粒度要求。明显属于不同粒度的事实必须放在单独的事实表中。通常可以从以下三个角度来建立事实表:针对某个特定的行为动作,建立一个以行为活动最小单元为粒度的事实表。最小活动单元的定义,依赖于分析业务需求。比如用户的一次网页点击行为、一次网站登录行为,一次电话通话记录。这种事实表,主要用于从多个维度统计,行为的发生情况,主要用于业务分布情况,绩效考核比较等方面的数据分析。针对某个实体对象在当前时间上的状况。我们通过对这个实体对象在不同阶段存储它的快照,比如账户的余额、用户拥有的产品数等,通过这种可以统计实体对象在不同的生命周期中的关键数量指标。----宋停云与您分享--------宋停云与您分享----针对业务活动中的重要分析和跟踪对象,统计在整个企业不同业务活动中的发生情况。比如会员,可以执行或参与多个特定的行为活动。这种事实表是以上两种事实表的一个总结和归纳。它主要用于针对我们业务中的活动对象进行跟踪和考察。数据仓库总线结构IT机构一般都对不同业务处理过程的集成很感兴趣如果针对这些业务处理分别进行维度建模、建立数据集市,数据集市之间没有共享公共的维度,那么就会出现问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致----宋停云与您分享--------宋停云与您分享----性维度的提出正式为了解决这个问题。图给出了这种维度共享情形的逻辑表示形式.共享公共的维度对于设计可以进行集成的数据集市来说,具有绝对的决定性作用。这样做使得来自不同处理的性能度量值可以被组合到单个报表中去。具体的实现过程是,使用多通路的SQL单独查询各个集市,然后基于共同的维度属性对查询结果施加外连接。这个通常称作交叉探查(Drill将一组分布在各处的相关业务处理成一个综合的数据仓库来说,总线结构是最基本的要素。数据仓库总线结构很显然,想一个步骤就建成企业数据仓库太令人望而生畏了,然而,将它分成孤立的片段进行建造又会挫败一致性这个压倒一切的目标。要使数据仓库能够长期地成功运转,很需要有一种在体系结构上可以按增量方式建造企业数据仓库的方法。这里提倡使用的一种方法就是数据仓库总线结构。通过为数据仓库环境定义标准的总线接口,的数据集市就可以由不同的小组在不同的时间进行实现。只要遵循这个标准,的数据集市就可以插入到一起并有效地共存。所有业务处理将创建一个维度模型系列,这些模型共享一组综合的具有一致性的共用维度。----宋停云与您分享--------宋停云与您分享----数据仓库总线结构提供了一种可用于分解企业数据仓库规划任务的合理方法。在体系结构确立阶段的较短时间内,开发团队设计出一整套在企业范围内具有统一解释的标准化维度与事实。这样,数据体系结构的框架就建立起来了。然后,开发团队可以全力以赴去实现严格依照体系结构进行迭代开发的数据集市。随着数据集市的投入使用,它们像积木块一样搭在了一起。在某种意义上讲,需要存在足够的数据集市才可能为集成的企业数据仓库带来美好的前景。总线结构使数据仓库管理人员获取两个方面的优势。一方面,他们有了指导总体设计的体一致性维度在理解了总线结构的重要性以后,现在可以进一步开发发挥数据仓库总线奠基石作用的一致性标准维度了。一致性维度要么是同一的,要么是具有最佳粒度性与细节性的维度在严格数一致的维度具有一致的维度关键字、一致的属性列名字、一致的属性定义以及一致的属性----宋停云与您分享--------宋停云与您分享----一致的维度以几种不同的样式出现。在最基本的层次上,一致的维度意味着与同它们相连接的每种可能的事实表具有完全相同的内容。连接到产品服务签约事实上的日期维度表与连接到产品服务账户余额事实上的日期维度表是同一的。实际上,一致的维度在数据库范围内可能就是相同的物理表。不过,基于对配有多种数据库平台的数据仓库技术环境的典型复杂性的考虑,维度更有可能同时在每个数据集市都存在拷贝。在其中任何一种情况下,两个数据集市的日期维度都将具有相同数目的行、相同的关键字值、相同的属性标签、相同的属性定义与相同的属性值等。同样,也存在一致的数据内容、数据解释与用户展示。一致性事实到现在为止,我们已经讨论了建立一致性维度以将数据集市维系在一起的中心任务。这涵盖了数据仓库迁移开发所要付出的大量工作努力,余下的努力要投入到建立一致性事实定义上。通常,像利润、经济资本、产品覆盖度、客户满意度以及其他关键性指标需要在企业级共享的度量指标,都是必须保持一致性的事实。一般地说,事实表数据并不在各个数据集市之----宋停云与您分享--------宋停云与您分享----总结本文作为维度建模综述性文章,基于维度建模理论知识并结合某企业的维度建模实践介绍了事实表、维度表、数据仓库总线结构、一致性维度、一致性事实等维度模型中的基本概念以及维度建模的设计过程。参考资料RalphKimball著,谭明金译.《数据仓库工具箱:维度建模的完全指南(第二版)》,电子工业出版社,2003.星型模式之所以广泛被使用,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。通过这些预处理,能够极大的提升数据仓库的处理能力。特别是针对3NF的建模方法,星型模式在性能上占据明显的优势。同时,维度建模法的另外一个优点是,维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型中的业务问题。不需要经过特别的抽象处理,即可以完成维度建模。这一点也是维度建模的优势。维度建模的优点可以总结如下:维度建模是可预测的标准框架。允许数据库系统和最终用户查询工具在数据方面生成强大的假设条件,这些数据主要在表现和性能方面起作用。星型连接模式的可预测框架能够忍受不可预知的用户行为变化。具有非常好的可扩展性,以便容纳不可预知的新数据源和新的设计决策。可以很方便在不改变模型粒度情况下,增加新的分析维度和事实,不需要重载数据,也不需要为了适应新的改变----宋停云与您分享--------宋停云与您分享----而重新编码。较好的扩展性意味着以前的所有应用都可以继续运行,并不会产生不同的结果。但是,维度建模法的缺点也是非常明显的,由于在构建星型模式之前需要进行大量的数据预处理,因此会导致大量的数据处理工作。而且,当业务发生变化,需要重新进行维度的定义时,往往需要重新进行维度数据的预处理。而在这些与处理过程中,往往会导致大量的数据冗余。另外一个维度建模法的缺点就是,如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准确性,而且在数据仓库的底层,不是特别适用于维度建模的方法。事实表一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受SQLServer就会对事实表进行如预生成处理等。维度表的主键一般都取整型值的标志列类型,这样也是为了节省事实表的存储空间----宋停云与您分享--------宋停云与您分享----国内生产总值预测与评价(方红供题)1992-2009年各季度国内生产总值以及各年总额、20082009年三次产业的产值。根据这些统计数据,请你解决下列问题。120102011年我国各季度国内生产总值以及年度生产总值。2201020111问预测的数值进行对比分析。第3问从2008年到2009年各省三次产业结构类型是否发生了改变,发生了怎样的改变。注:解答过程要求思路清晰,步骤完整。地区 地区生产总地区 地区生产总第一产第二产第三产 地区 地区生值业业业值北京12153.03118.292855.559179.19北京10488天津7521.85128.853987.843405.16天津6354.河北17235.482207.348959.836068.31河北16188ft西7358.31477.593993.82886.92ft西6938.内蒙古9740.25929.651143696.65内蒙古7761辽宁15212.491414.97906.345891.25辽宁13461吉林7278.75980.573541.922756.26吉林6424.黑龙江85871154.334060.723371.95黑龙江831上海15046.45113.826001.788930.85上海13698江苏34457.3226108618566.3713629.07江苏30312浙江22990.351163.0811908.499918.78浙江21486安徽10062.821495.454905.223662.15安徽8874.福建12236.531182.746005.35048.49福建10823江西7655.181098.663919.452637.07江西6480.ft东33896.653226.6418901.8311768.18ft东31072----宋停云与您分享--------宋停云与您分享--------宋停云与您分享--------宋停云与您分享----河南19480.46河南19480.462769.0511010.55700.91河南18407湖北12961.11795.96038.085127.12湖北11330湖南13059.691969.695687.195402.81湖南11156广东39482.562010.2719419.718052.59广东35696广西7759.161458.493381.542919.13广西7171.海南1654.21462.19443.43748.59海南1459.重庆6530.01606.83448.772474.44重庆5096.四川14151.282240.616711.875198.8四川12506贵州3912.68550.271476.621885.79贵州3333陕西8169.8789.64陕西8169.8789.644236.423143.74陕西6851.甘肃3387.56497.051527.241363.27甘肃3176.青海1081.27107.4575.33398.54青海961.宁夏1353.31127.25662.32563.74宁夏1098.新疆4277.05759.741929.591587.72新疆4203.

1067.663.88

2582.53 2519.62136.63 240.85

云南 5700西藏 395.----宋停云与您分享--------宋停云与您分享----总额

就业人员单位:万人

能源消耗单位:万吨标准煤----宋停云与您分享--------宋停云与您分享----1992785559432109170199312457.860220115993199417042.961470122737199520019.362338131176199622913.668850135192199724941.169600135909199828406.269957136184199929854.770586140569200032917.771150145531200137213.573025150406200243499.973740159431200355566.674432183792200470477.475200213456200588773.6758252359972006109998.276400258676----宋停云与您分享--------宋停云与您分享----2007137323.9769902805082008172828.4774802914482009224598.877995306647按属性分国内生产总值季度统计地区:全 国单位:亿元累计值单季值1992年1季度 4974.3284974.3281992年2季度 11332.1186357.7901992年3季度 18451.4687119.3501992年4季度 26923.4778472.0091993年1季度 6500.4976500.4971993年2季度 14543.5418043.0441993年3季度 23591.5149047.9731993年4季度 35333.92511742.4101994年1季度 9064.7329064.7321994年2季度 20149.72711084.9951994年3季度 32596.64912446.9221994年4季度 48197.85615601.2071995年1季度 11858.46711858.4671995年2季度 25967.56514109.0981995年3季度 41502.55715534.9921995年4季度 60793.72919291.1721996年1季度 14261.22014261.2201996年2季度 30861.77716600.5581996年3季度 48533.06017671.2831996年4季度 71176.59222643.5321997年1季度 16256.68416256.6841997年2季度 34954.30818697.6241997年3季度 54102.36019148.0521997年4季度 78973.03524870.6751998年1季度 17501.31217501.3121998年2季度 37222.71619721.4031998年3季度 57595.24420372.5281998年4季度 84402.28026807.036----宋停云与您分享--------宋停云与您分享----1999年1季度18789.68318789.6831999年2季度39554.88120765.1971999年3季度61414.22321859.3421999年4季度89677.05528262.8322000年1季度20646.96020646.9602000年2季度43748.22023101.2602000年3季度68087.50124

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论