版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、15.2 数据仓库的规划(guhu)5.2.1 选择(xunz)数据仓库实现策略开发策略主要有:自顶向下:实际应用比较困难 。自底向上:用于一个数据集市或一个部门的数据仓库开发 ,容易获得成功 。两种策略的联合使用 :能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值(jizh)的数据仓库方案。在实际使用中难以操作 。 首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。第1页/共29页第一页,共30页。2第2页/共29页第二页,共30页。3第3页/共29页第三页,共30页。45.3 数据仓库的概念模型设计(shj)第4页/共29页第
2、四页,共30页。55.3.2 概念模型的定义(dngy)决策分析问题客户购买商品趋势分析需求信息类日期地点商品客户年龄组客户经济状况客户信用需求信息1层需求信息2层需求信息3层需求信息4层需求信息5层年(4)季(16)月(48)国家(15)省(60)市(200)街道(2100)商店(20000)商品种类(7)商品小类(40)商品(220)年龄组(8)经济类(10)信用(10)第5页/共29页第五页,共30页。6 实体功能客户销售单商品销售代表供货商销售单输入CRUDCRUDRRURU销售单处理CRUDCRUD商品管理RRRUR预算系统RRRRUR财务计算RURRURR库存控制RRUCRUDR后
3、勤RRURRUC:Create产生、R:Read引用(ynyng)、U:Update更新D:Delete删除。第6页/共29页第六页,共30页。7OracleSysbaseSQL ServerVFP其它模式销售单输入销售单处理商品管理预算系统(Excel)财务计算库存控制后勤外部数据源商品供应商市场调查公司第7页/共29页第七页,共30页。85.3.3 概念模型的分析(fnx) 客户变动信息商品变动信息客户号商品固有信息 客户固有 信息 客户号供应商号开 户 日期 日期销售数量 日期 商品号 商品 客户 销售第8页/共29页第八页,共30页。95.3.4 概念模型的设计(shj)经济(年收入)
4、100万以上10万以上1万以上1万以下地点国家省市销售销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品种类ID小类ID商品ID信用10万元以上1万元以上1千元以上1千元以下 0元第9页/共29页第九页,共30页。10经济(年收入)100万以上10万以上1万以上地点国家省市销售销售ID销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品ID种类小类商品信用10万元以上1万元以上1千元以上1千元以下 0元商品ID生产厂家进货价格进货日期客户客户ID姓名地址电话邮政编码
5、详细(xingx)类别表第10页/共29页第十页,共30页。115.3.5 概念模型文档与评审(pn shn)1.概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。 2.概念模型的评审3.概念模型的评审人员4.概念模型的评审内容数据仓库开发任务书;用户(yngh)决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。 第11页/共29页第十一页,共30页。125.4 数据仓库的逻辑模型(mxng)设计1.数据仓库的逻辑模型设计任务:分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义(dngy)和记录系统定义
6、(dngy)、确定数据抽取模型等。2.逻辑模型最终设计成果:每个主题的逻辑定义(dngy),并将相关内容记录在数据仓库的元数据中粒度划分数据分割策略表划分和数据来源等。 第12页/共29页第十二页,共30页。13主题名公共码键属性组商品商品号商品固有信息:商品号,商品名,类型,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品库存信息:商品号,库房号,库存量,日期等销售销售单号销售单固有信息:销售单号,销售地址等销售信息:客户号,商品号,销售价,销售量、销售时间等客户客户号客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等客户经济息:客户号,年收入,家庭总收入等
7、第13页/共29页第十三页,共30页。145.4.2 粒度层次和聚集(jj)的确定数据分割标准1.数据量2.数据分析处理的对象(duxing)3.粒度分割的策略 第14页/共29页第十四页,共30页。155.4.5 数据仓库的实体(sht)定义实体的逻辑(lu j)分析实体所有列的具体特征 列名列的键属性值来源/值域完整性约束类型与大小Customer_Number主键列、外部键列来自客户实体的合法客户键列没有客户键列,数据就不存在Char(10)Order_Number主键列、外部键列来自销售单实体的合法键列没有销售单键列,数据就不存在Char(10)Product_Number主键列、外部
8、键列来自商品实体的合法键列没有商品键列,数据就不存在Char(10)Product_Price正的金额数Money(float)第15页/共29页第十五页,共30页。165.4.5 数据仓库的实体(sht)定义实体容量更新频率Customer中等容量,有100个重点客户,2000个跟踪客户每月对客户情况进行一次分析,更新频率也为每月一次Product小容量,500种商品大约有500种商品,商品的更新是每月一次,数据更新也照此。Order_Detail大容量,其上限是354,000,000,000,考虑到各种客户类型与各种商品的组合情况,一般很少达到。数据每月汇总一次,但是业务处理系统的数据每日
9、需要更新一次,因此更新频率为每日一次。第16页/共29页第十六页,共30页。175.4.6 数据(shj)仓库的数据(shj)抽取模型F1 数据(shj)抽取规则P2清理数据(shj)记录F8 数据清理规则F2KHCGF5 CQLS_KHCGF6 CQLS_KHCGF7 SJCK_KHCGP4加载到数据仓库F3SPQKF4ZGYJP3数据排序聚集P1抽取数据源记录第17页/共29页第十七页,共30页。185.4.6 数据(shj)仓库的数据(shj)抽取模型2.数据仓库的数据抽取、转换与加载计划(1)影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间 (2)数据
10、抽取、转换与加载对策 全库比较利用程序日志(rzh)利用数据库日志(rzh)利用时间戳或利用位图索引第18页/共29页第十八页,共30页。195.4.6 数据(shj)仓库的数据(shj)抽取模型3.数据仓库的数据清理转换方法(1)类型转换(2)串操作(3)数学函数(4)参照完整性(5)关键字翻译(fny)(6)聚集运算4.数据仓库的数据抽取、清理与转换模型第19页/共29页第十九页,共30页。205.4.6 数据(shj)仓库的数据(shj)抽取模型数据平台数据库表名备注Windows/SQL ServerXSSJKHCG客户采购商品表Windows/SQL ServerXSSJSPQK商品
11、情况表Windows/AccessRSGLZGYJ职工业绩表数据源抽取(chu q)对象表 第20页/共29页第二十页,共30页。215.4.6 数据仓库的数据抽取(chu q)模型表.列名过滤与连接条件比较值复合条件备注KHCG.CGSL500AND采购商品数量大于500SPQK.SPIDABOR商品前两位非AB第21页/共29页第二十一页,共30页。225.4.6 数据(shj)仓库的数据(shj)抽取模型目标表.列源表.列转换公式备注SJCK_KHCG.KHZYKHCG.KHZY直接转换客户职业SJCK_KHCG.CGRQKHCG.CGRQ将月/年/日的日期格式转换成年/月/日格式客户采
12、购日期第22页/共29页第二十二页,共30页。235.4.6 数据仓库的数据抽取(chu q)模型表.列名排序概括/导出备注CQLS_KHCG.CGSL降序分组按照采购数量从大到小排序、按照日期进行分组SJCK_KHCG.CGHZ概括对每一客户采购量按照星期分别进行概括处理,计算客户的采购总量SJCK_KHCG.PJL导出对每一客户采购情况按照星期分别进行平均采购量计算第23页/共29页第二十三页,共30页。245.4.6 数据仓库的数据抽取(chu q)模型概括表表.列名是否导出事实表.列名备注SPGKB.SP_ID 否SPGYB.SP_ID商品编号SPGKB.GYS_ID否SPGYB.GY
13、S_ID供应商编号SPGKB.SPGYZSL是SPGYB.SPGYL商品供应总量,按照供应商编号对供应数量求和SPGKB.SPGYZJE是SPGYB.SPGYJE商品供应总金额,按照供应商编号对供应商品的金额进行汇总第24页/共29页第二十四页,共30页。255.4.7 数据仓库的元数据模型建立(jinl)与应用数据源物理模型 查询统计逻辑模型 业务分组来源定义 加载统计来源-目标映射元数据目录数据仓库前端展示工具ab第25页/共29页第二十五页,共30页。265.4.8 逻辑(lu j)模型的评审逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实
14、体的关系模式和数据抽取模型。对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。数据的约束条件和业务规则是否在这些(zhxi)模型中得到了正确的反映。第26页/共29页第二十六页,共30页。27课堂练习课堂练习 1请为一个学生成绩分析应用设计(shj)数据库星型模型。分析问题学生成绩分析需求信息类学期学生课程需求信息1层需求信息2层需求信息3层年(3)学期(6)班级(1)学生(173)课程名称(6)任课老师(12)第27页/共29页第二十七页,共30页。28练练 习习 2.数据仓库的生命周期应该包含(bohn)哪几个阶段?需要完成哪些工作? 3.在数据仓库的需求分析中需要对哪些人员进行需求调查,应该调查哪些内容? 4.数据仓库的设计包含(bohn)那些内容? 5.怎样通过数据仓库的应用来增强数据仓库的功能与作用?第28页/共29页第二十八页,共30页。29感谢您的欣赏(xnshng)!第29页/共29页第二十九页,共30页。NoIma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度半导体企业人员聘用合同范本3篇
- 2024年原木门定制安装及售后服务协议书3篇
- 2024至2030年中国尼龙聚酰胺增塑剂行业投资前景及策略咨询研究报告
- 2024年度旋挖钻机研发与知识产权转让合同2篇
- 2024-2030年中国儿童安全座椅市场销售模式及投资竞争力分析报告
- 2024-2030年中国供销合作社行业管理模式及投资规划分析报告
- 2024-2030年中国伺服电机市场运行状况及发展趋势预测报告
- 2024至2030年手动咖啡磨豆机项目投资价值分析报告
- 2024-2030年中国人造假发行业发展前景预测及竞争战略研究报告
- 北师大版四年级下册数学第一单元 小数的意义和加减法 测试卷含答案(预热题)
- DB12-T 1173-2022 电动汽车充电设施消防安全管理规范
- 《坠积性肺炎研究(论文)》
- GB/T 9754-2007色漆和清漆不含金属颜料的色漆漆膜的20°、60°和85°镜面光泽的测定
- GB/T 3179-1992科学技术期刊编排格式
- GB/T 26495-2021镁合金压铸转向盘骨架坯料
- GB 12130-1995医用高压氧舱
- 《当代网络文学》课件-
- 《教师专业发展》课件
- 家长会 课件(共44张ppt) 九年级上学期
- 三年级上册音乐课件-第四单元 紫竹调 |人教新课标 (共15张PPT)
- 妊娠期VTE的防治课件
评论
0/150
提交评论