




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术部建设数据仓库的八个步骤2021年04月25日编制建设数据仓库的八个步骤摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题.关键词:数据仓库元数据建设数据仓库建立数据仓库 是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务, 不知道应该建立哪些决策主题, 从数据 源中抽取哪些数据. 因此数据仓库 的工程小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库.开发数据仓库的过程包括以下几
2、个步骤1 .系统分析,确定主题建立数据仓库 的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库 所要解决的问题的真正含义,确定各个主题下的查询分析要求.业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能.一旦确定问题以后,信息部门的人员还需要确定一下几个因素:操作出现的频率,即业务部门每隔多长时间做一次查询分析.在系统中需要保存多久的数据,是一年、两年还是五年、十年用户查询数据的主要方式,如在时间维度上是根据自然年,还是财政年.用户所能接受的响应时间是多长、是几秒钟,还是几小时由于双方在理解上的差异,确定问题和了解问题可能是一个
3、需要屡次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的.2 .选择满足数据仓库系统要求的软件平台在数据仓库所要解决的问题确定后、第二个步骤就是选择适宜的软件平台,包括数据库、建 模工具、分析工具等.这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等, 以下是一些公认的选择标准:厂商的背景和支持水平,能否提供全方位的技术支持和咨询效劳.数据库对大数据量(TB级)的支持水平数据库是否支持并行操作.能否提供数据仓库的建模工具,是否支持对 元数据的治理能否提供支持大数据量的数据加载、转换、传输工具( ETT)能否提供
4、完整的决策支持工具集,满足数据仓库中各类用户的需要3 .建立数据仓库的逻辑模型具体步骤如下:(1)确定建立 数据仓库 逻辑模型的根本方法.(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中(3)识别主题之间的关系(4)分解多对多的关系(5)用范式理论检验逻辑数据模型.(6)由用户审核逻辑数据模型.4 .逻辑数据模型转化为数据仓库数据模型具体步骤如下:(1)删除非战略性数据: 数据仓库 模型中不需要包含逻辑数据模型中的全部数据项,某些用 于操作处理的数据项要删除.(2)增加时间主键: 数据仓库中的数据一定是时间的快照,因此必须增加时间主键.(3)增加派生数据:对于用户经常需要分析的数据
5、,或者为了提升性能,可以增加派生数据(4)参加不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高.粒度是 数据仓库 设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型.显然,粒度级别越低,那么支持的查询越多;反之,能支持的查询就有限.对数据操作的效率与能得到数据的详细程度是一对矛盾,通常,人们希望建成的系统既有较 高的效率,又能得到所需的详细资料.实施数据仓库的一个重要原那么就是不要试图包括所有详细 数据,由于90%的分析需求是在汇总数据上进行的.试图将粒度细化到最低层,只会增加系统 的开销,降低系统的性能.5 .数据仓库数据模型优化数据仓
6、库 设计时,性能是一项主要考虑因素.在数据仓库 建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整.优化数据仓库设计的主要方法是:合并不同的数据表.通过增加汇总表预防数据的动态汇总通过冗余字段减少表连接的数量,不要超过35个用ID代码而不是描述信息作为键值.对数据表做分区6 .数据清洗转换和传输数据仓由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到 生之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性.在设计数据仓库 的数据加载方案时,必须考虑以下几项要求:加载方案必须能够支持访问不同的数据库和文件系统.数据的清洗、转换和传输必须满足时间要求
7、,能够在规定的时间范围内完成.支持各种转换方法,各种转换方法可以构成一个工作流.支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库7 .开发数据仓库的分析应用建立数据仓库 的最终目的是为业务部门提供决策支持水平,必须为业务部门选择适宜的工具 实现其对数据仓库中的数据进行分析的要求.信息部门所选择的开发工具必须能够:满足用户的全局部析功能要求.数据仓库 中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同.如有的用户只是简单的分析报表,有些用户那么要求做预测和趋势分析.提供灵活的表现方式.分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表.使 用方式上,可以是客户
8、机 /效劳器方式,也可以是浏览器方式.事实上,没有一种工具能够满足 数据仓库 的全局部析功能需求,一个完整的 数据仓库 系统的 功能可能是由多种工具来实现, 因此必须考虑多个工具之间的接口和集成性问题, 对于用户来说, 希望看到的是一致的界面.8 .数据仓库的治理只重视数据仓库的建立,而无视数据仓库的治理必然导致 数据仓库工程的失败. 数据仓库管 理主要包括数据库治理和元数据治理.数据库治理需要考以下几个方面:平安性治理. 数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加 密策略.数据仓库的备份和恢复.数据仓库的大小和备份的频率直接影响到备份策略.如何保证数据仓库系统的可用
9、性,硬件还是软件方法.数据老化.设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保 存汇总数据,当年数据保存详细记录.然而,元数据治理贯穿于整个系统的建设过程中,元数据是描述数据的数据.在数据采集阶段,元数据 主要包括以下信息:源数据的描述定义:类型、位置、结构数据转换规那么:编码规那么、行业标准目标数据仓库 的模型描述:星型/雪花模型定义,维/事实结构定义源数据到目标 数据仓库 的映射关系:函数/表达式定义代码:生成转换程序、自动加载程序等.在数据治理阶段,元数据主要包括以下信息:汇总数据的描述:汇总 /聚合层次、物化视图结构定义历史数据存储规那么:位置、存储粒度.多维数
10、据结构描述:立方体定义、维结构、度量值、钻取层次定义等.在数据展现阶段,元数据主要包括以下信息:报表的描述:报表结构的定义.统计函数的描述:各类统计分析函数的定义.结果输出的描述:图、表输出的定义元数据不但是独立存放,而且对用户是透明的,标准元如庭之间可以互相转换1、培训目的1.1 改善部门各级各类员工的知识结构、提升员工的综合素质, 提升员工的工作技能、工作态度和行为模式,满足部门的快速开展需 要,更好的完成部门的各项工作方案与工作目标.1.2 、增强部门各级各类员工职业素养与敬业精神,增强员工服 务意识与效劳水平,打造高绩效团队,减少工作失误,提升客户满意 度,提升工作效率.1.3 提升部
11、门凝聚力、吸引力、向心力和战斗力,为部门进一 步开展储藏相关人才.1.4 锻炼员工的学习表达水平.1.5 完善部门各项培训制度、培训流程以及建立系统的培训体 系,实现各项培训工作顺利、有效实施.2、培训原那么2.1 以部门战略与员工需求为主线.2.2 以素质提升与水平培养为核心.2.3 以针对性、实用性、价值型为重点.2.4 以工程式培训和持续性培训相互穿插进行.2.5 坚持理论与实践相结合、学习与总结相结合.2.6 坚持部门内部培训为重点、内训与外训相结合.2.7 坚持学历性教育培训和岗位培训相结合.2.8 实现由点、线式培训到全面系统性培训转变.3、培训的实施3.1 培训内容的决定部门所有
12、成员对自己要培训的需求提出建议, 相关负责人收集并 统计,根据统计结果,按需求量较大或需求的紧迫性来决定培训的内 容.3.2 培训方式分为正式培训和技术交流.正式培训需要讲师准备PPT有关课件,利用投影等设备进行讲 授,并进行培训效果考核和学员成绩考查.技术交流可不准备课件,直接采用即兴口头演讲的方式进行.3.3 培训时间根据学习要求,不定期进行有关主题内容的培训.3.4 讲师安排讲师实行报名制.根据部门发布的员工培训需求统计结果, 选择 自己熟悉或感兴趣的培训科目报名.部门经理根据报名情况决定讲师 人选.3.5 培训效果评估3.5.1 培训后,参与人员对培训的讲师、培训的内容、总体效果 等做
13、出评价.3.5.2 讲师准备10个以内的培训内容相关的试题,受训者根据 培训内容来做答,经讲师批阅后整理到员工培训考核成绩表, 并把成 绩表交由部门经理审阅,最后相关负责人存入个人培训档案.3.6 奖惩方式对于正式培训,培训完后,参与培训人员给讲师打分,根据打分情况给予讲师0、1、2、3分积分.对于技术交流,根据培训内容和效果,给予所有主要参与者0,1,2 分不等的积分.参加培训者考核合格后给予0.5、1分不等积分.年终累计积分,根据积分情况给予奖励.对于年终参加培训积分缺乏年度部门总培训积分的80崎,给予一定的惩罚.4、培训材料4.1 员工培训签到表4.2 讲师应提前准备好培训的PPT,如果
14、培训工程开发知识应准备好实例.4.3 培训内容相关的试题4.4 内部培训效果评估表4.5 员工培训考核成绩表5、相关附件附件一员工培训签到表培训内容培训时间培训讲师培训地点培训方式考核方式应到人数实到人数缺席人数出勤率序 号姓名出席时间(HH:MM)离席时间备注序 号姓名出席时间离席时间备注1.12.3.::4.5.i6.7.48.9.510.11. 6i12.13. 114.15.::16.17. 3i18.19. 420.21. 522.23. 6i24.25. 126.27.::28.29. 3i30.31. 432.33. 534.35. 6i36.37. 138.39.::40.41
15、. 3i42.43. 444.45. 546.47. 6i48.49.50.评估工程好差培训总评课堂纪律学习态度讲师表达课堂气氛评估人/日期附件二员工培训考核成绩表培训内容培训时间培训讲师培训地点培训方式考核方式厅P姓名理论得分应用得分厅P姓名理论得分应用得分1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.43.44.45.46.47.48.49.50.51.52.说明:员工入职培训考核分为书面考核70%与应用
16、考核30%两局部;考核标准为:60分 以下为不合格,60-700分为合格,70-80分为一般,80-90分为良,90分以上为优.附件三内部培训效果评估表部 门:姓 名:培训内容:培训时间: 请就下面每一项进行评价,并请在相对应的分数上打“,:课程内容很差差好很好优秀1.课程目标是否符合我的工作和个人开展需要56789102.课程知识是否深度适中、易于理解56789103.课程内容是否切合实际、便于应用5678910培训师4.培训师表达是否清楚、态度友善56789105.培训师对培训内容是否有独特精辟见解56789106.培训师是否鼓励学员参与,现场气氛很好56789107.培训师对学员提问是否所作出的答复与指导5678910培训收获8.获得了适用的新知识和新理念56789109.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南地矿职业学院《化学教学论实验》2023-2024学年第二学期期末试卷
- 南京机电职业技术学院《外国文学概论》2023-2024学年第一学期期末试卷
- 河北大学工商学院《数字电路与逻辑设计》2023-2024学年第二学期期末试卷
- 2025年消防救援知识题库及答案
- 护理管理方案
- 硬山屋面施工方案
- 截骨手术麻醉管理规范
- 宣讲宪法知识
- 幼儿园课程实践与管理
- 中医药文化科普教育基地
- 静脉治疗护理技术操作标准解读
- 2021《超星尔雅》舞蹈鉴赏章节测试答案
- 2024年江西省高考物理试卷真题(含答案解析)
- 精益生产知识学习考试复习题库300题(含答案)
- 第三单元第1课 标志设计 课件 2024-2025学年人教版(2024)初中美术七年级上册
- 法律咨询制度
- 中班音乐《月亮婆婆喜欢我》课件
- 赛力斯招聘在线测评题
- 网络舆情风险评估与预警
- 学做麦糊烧课件
- 内蒙古师范大学定向协议书
评论
0/150
提交评论