2、数据仓库设计_第1页
2、数据仓库设计_第2页
2、数据仓库设计_第3页
2、数据仓库设计_第4页
2、数据仓库设计_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商业智能核心技术与应用数据仓库库设计数据仓库库的基本本概念数据仓库库是面向向主题的的、集成成的、稳稳定的、随时间间不断变变化的数数据库系系统。它它介于数数据源与与多维数数据库之之间,起起到承上上启下的的作用。数据仓库库是通过过对来自自不同的的数据源源进行统统一处理理及管理理,通过过灵活的的展现方方法来帮帮助决策策支持。数据源数据仓库决策数据仓库库的设计计理念在设计仓仓库数据据库之初初把用户户的分析析需求纳纳入考虑虑范围是是十分有有必要的的。同时时,数据据仓库的的构建必必需基于于业务数数据库,业务数数据源的的结构也也是不得得不考虑虑的问题题。因此此在设计计数据仓仓库的时时候,应应该坚持持用户驱驱

2、动与数数据驱动动相结合合的设计计理念。业务数据据模型设设计的设设计范式式1NF如果一个个表中没没有重复复组(即即行与列列的交叉叉点上只只有一个个值,而而不是一一组值),且定义了了关键字字、所有有 非关关键属性性都依赖赖于关键键字,则则这个表表属于第第一范式式(常记记成1NF)2NF如果一个个表属于于1NF,且不包包含部分分依赖性性,既没没有任何何属性只只依赖于于关键字字的一部部分,则则这个表表属于第第二范式式(常记记成2NF)。3NF如果一个个表属于于2NF,且不包包含传递递依赖性性(即没没有一个个非关键键属性依依赖于另另一个非非关键属属性,或或者说没没有一个个非关键键属性决决定另一一个非关关

3、键属性性),则则这个表表是第三三范式(常记成成3NF)。业务数据据模型设设计的ER图表示ER模型(实实体联系系模型)简称ER图。它是是描述概概念世界界,建立立概念模模型的实实用工具具。ER图包括三三个要素素:实体体、属性性、实体体之间的的联系联系归结结为三种种类型:一对一联联系(1:1)设A、B为两个实实体集。若A中的每个个实体至至多和B中的一个个实体有有联系,反过来来,B中的每个个实体至至多和A中的一个个实体有有联系,称A对B或B对A是1:1联系。一对多联联系(1:n)如果A实体集中中的每个个实体可可以和B中的几个个实体有有联系,而B中的每个个实体至至我和A中的一个个实体有有联系,那么A对B

4、属于1:n联系。多对多联联系(m:n)若实体集集A中的每个个实体可可与和B中的多个个实体有有联系,反过来来,B中的每个个实体也也可以与与A中的多个个实体有有联系,称A对B或B对A是m:n联系。多对多联系举举例统计特征FatLeanUglyWealthy统计特征客户客户统计特征销售Fact客户统计特征JohnFatRichardLeanJohnUglyRichardWealthy客户JohnRichardCristian客户销售额John1.0Richard3.0Cristian10.0每个统计计特征对对销售人人员来说说是怎么么样的呢呢?统计特征销售额All Demographics14.0Fa

5、t1.0Lean3.0Ugly1.0Wealthy3.0数据仓库库模型设设计最佳佳实践数据仓库库模型设设计主要要分三个个阶段:1、概念设设计2、逻辑设设计3、详细设设计并分别产产生三类类设计模模型1、主题域域模型2、业务数数据模型型3、物理模模型8数据仓库库模型设设计采用用迭代式式开发,这一点点也符合合数据仓仓库系统统迭代开开发的特特点。它它具有较较好的灵灵活性和和易变性性,适应应于主题题不明确确或不确确定的需需求。概念设计计数据仓库库是面向向主题来来组织数数据,一一个数据据仓库有有若干个个主题,而每个个主题又又有一个个数据集集合体做做支撑,这个数数据集合合称为主主题域。概念设计计的中心心工作

6、是是在需求求分析基基础上设设计的主主题域模模型。主主体域模模型是客客观到主主观之间间的桥梁梁,是与与硬件环环境、软软件选择择无关的的数据抽抽象模型型,是为为下一步步建立业业务数据据模型、物理模模型服务务的概念念性工具具。主题域具有两两个特性1、独立性性,即主主题域具具有明确确的边界界与独立立的内涵涵,虽然然主题间间可以有有交叉,但不影影响其独独立性。2、完备性性,即每每个主题题的分析析要求所所需的数数据均应应能在主主题域中中得到。采用概概念数据据模型设设计就是是要设计计主题域域的数据据结构。数据仓库库项目的的主题域域模型示示例逻辑设计计逻辑设计计设计到到的知识识点包括括:业务数据据模型设设计的

7、建建模对象象应包含含实体、属性、关键字字和联系系。业务数据据模型设设计应该该遵守规规范化准准则:即即第三范范式设计计准则。业务数据据模型的的ER图表示法法。逻辑设计计的中心心工作是是设计业业务数据据模型,业务数数据模型型是用具具体的软软件结构构来实现现概念数数据模型型。目前数据据仓库一一般是建建立在关关系数据据库基础础上,因因此数据据仓库的的设计中中采用的的业务数数据模型型就是关关系模型型。业务数据据模型设设计的建建模对象象实体我们把客客观存在在并且可可以相互互区别的的事物称称为实体体。实体体可以是是实际事事物,也也可以是是抽象事事件。属性描述实体体的特性性称为属属性。关键字如果某个个属性值值

8、能唯一一地标识识出实体体集中的的每一个个实体,可以选选作关键键字。联系实体集之之间的对对应关系系称为联联系,它它反映现现实世界界事物之之间的相相互关联联。联系系分为两两种,一一种是实实体内部部各属性性之间的的联系。另一种种是实体体之间的的联系。逻辑设计计方法定义实实体主题域主题实体粒度类型说明生皮分选物料物料物料代码,唯一标识每种物料维度物料分类物料分类代码,唯一标识每种物料分类维度分选结果分选结果物料代码*仓库*供应商*产地*皮种量度组逻辑设计计方法定义实实体层级级日月季年物料物料分类供应商逻辑设计计方法定义量量度组主题域量度组量度聚合计算公式说明生皮分选分选结果分选结果数量累加财务员工员工

9、工资平均逻辑设计计方法定义关关系 主题实体采购分选结果预算日期日* 月* 季 年物料物料* 物料分类逻辑设计计的关键键因素粒度特例详细设计计物理模型型是从业业务数据据模型创创建而来来的,建建立物理理模型通通过扩展展业务数数据模型型,使模模型中包包含关键键字和物物理特性性。物理模型型设计包包括:设计存储储结构创建实体体设计索引引策略创建索引引设计存储储策略创建分区区设计存储储结构创建实体体创建物理理实体表视图约束创建事实实表只包括主主键、外外键和度度量事实表一个OLAP模型可以以有多个个事实表表事实表经经常有millionsofrows事实往往往是数字字量度有些事实实可以被被累加,另一些些不能最

10、小粒度度原则不欢迎描描述性属属性(瘦高vs.矮胖)创建维度度表维度描述述事实逻辑上通通过key关联维度表往往往包含含相当多多的属性性典型的属属性是文文本的、离散的的维度往往往含有层层次主键往往往是系统统产生的的primary key很可能是是共享的的维度表设设计常规维度度主键代理键(可选)名称排序键(可选)自定义汇汇总公式式(可选选)父子维度度父键一元运算算符(可可选)数据仓库库的星型型结构Employee_DimEmployeeKeyEmployeeID.EmployeeKeyTime_DimTimeKeyTheDate.TimeKeyProduct_DimProductKeyProduct

11、IDProduceNameProductBrandProductCategory.ProductKeyCustomer_DimCustomerKeyCustomerID.CustomerKeyShipper_DimShipperKeyShipperID.ShipperKeySales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice.TimeKeyCustomerKeyShipperKeyProductKeyEmployeeKey多个外键事实维度键数据仓库库的雪花花型结构构二级维度度表Sales_FactTimeKe

12、yEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice.Product_Brand_IdProduct BrandProduct Category IDProduct_Category_IdProductCategoryProduct Category IDProduct_DimProductKeyProduct NameProduct SizeProduct Brand ID主维度表表雪花型结结构的特特点节省存储储空间一定程度度上的范范式星型vs.雪花型Whichoneisbetter?长期以来来的争论论两种观点点各有支支持者争论在继继续目

13、前看来来,大部部分更加加倾向于于星型支持星型型维度的的论点事实表总总会是很很大的,在维度度表上节节省的空空间相对对来说是是很小的的增加了数数据模型型的复杂杂度查询操作作概念上上更复杂杂了从数据仓仓库到多多维数据据库的加加载时间间会更长长因此,只只有当维维度表极极大,存存储空间间是个问问题时,才考虑虑雪花型型维度简而言之之,最好好就用星星型维度度即可支持雪花花型维度度的论点点从数据仓仓库到多多维数据据库的加加载过程程中,雪雪花型维维度的效效率更高高。雪花型维维度描述述了更清清晰的层层次概念念。只有当最最终用户户可能直直接访问问数据仓仓库时才才考虑星星型。(而这是是不被建建议的)。思考:Prima

14、ry Key与KeyPrimary KeykeyNameColorSizeDescription1A001捷达银灰2B003宝马火红.3C010切诺基宝石蓝本身已经经有了Key的标识以以后,是是否还需需要Primary Key?技巧:创创建数字字主键数字之间间的比较较永远比比字符比比较快得得多。物理存储储时,数数字简单单得多,因为它它们长度度一样。字符则则不同。内存中,字符占占的空间间大得多多。(4byte的指针+文本长度度 *2(Unicode)+ 2。数字则则仅有4 bytes支持变化化维度注意维度表与与事实表表不是绝绝对的同一个表表,可以以同时是是维度表表与事实实表同一个表表,可以以有时

15、是是维度表表,有时时是事实实表创建“父父子型”维度EmployeeManagerThe BoardSteveBThe BoardBillGThe BoardJimAllSteveBPaulMaSteveBBobMuSteveBTodNPaulMaDavidVPaulMaPaulFleDavidV父子维度度缓慢变化化维不变化更新新增举例:当当某销售售人员从从一个部部门调至至另一个个部门,他的历历史业绩绩该如何何核算?创建物理理模型主键:PK_,整型自自增外键:FK_排序键:Sort_字符类型型:nvarchar量度类型型:float、numeric创建视图图、约束束视图尽量少用用或不用用视图,以避免免意想不不到的逻逻辑陷阱阱约束尽量使用用约束,以确保保数据的的完整性性。正确确的数据据所带来来的益处处会远远远大于ETL性性能的损损失。设计索引引策略创建索引引创建索引引用以提提高查询询速度避免索引引对ETL的的不良影影响设计存储储策略创建分区区分区存储储后的数数据单元元易于:重构索引重组恢复监控设计数据据更新数据提取是捕获源源数据的的过程。有两种种捕获数数据的主主要方法法(1)完全刷刷新:对移入中中间数据据库的数数据进行行完全复复制。该该复制可可能替换换数据仓仓库中的的内容,及时在在新的时时间点上上添

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论