数据仓库的建设实施课件_第1页
数据仓库的建设实施课件_第2页
数据仓库的建设实施课件_第3页
数据仓库的建设实施课件_第4页
数据仓库的建设实施课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数据中心(数据仓库)的建设实施深圳海联讯科技股份公司张千福一体化平台总体拓扑图身份管理认证代理人员目录认证目录人力资源安全生产物资管理协同办公营销管理财务管理项目管理综合管理操作型数据存储(ODS)数据仓库商务智能全 局 数 据 字 典 公 共 信 息 模 型 业 务 流 程 集 成业 务 数 据 集 成身份认证登录数据中心业务系统数 据 交 换网省公司网省公司安全管理企业资源管理平台ETL1 运维管理企 业 门 户单点登录基础支撑功能 个性化定制多渠道接入Portlet框架虚拟门户门户管理与维护基本应用 扩展应用 展现层的应用集成Web内容管理搜索协同工作待办事宜BI展现对8大系统中协同办

2、公的规范要求对应用集成项目的规范要求对BI接入的规范要求ETL2 基本概念广义数据中心:数据中心是提供所有应用系统的运营场所。数据中心也是容纳用以支持应用系统运行的基础设施(包括服务器、网络、存储设备)的物理地点。 数据中心本身的ODS、数据仓库及建立在其上的决策分析应用。 数据中心需要有一套成熟的运行、维护体系支持其日常运行,保证应用系统高效地不间断运行,数据被正确的访问 狭义数据中心:狭义的数据中心是指数据仓库和建立在数据仓库之上的决策分析应用,具体包括:数据源,数据的ETL,ODS数据库,数据仓库,数据集市,商务智能应用和元数据管理等。 在此作业指导书中,除非特别说明数据中心都是指侠义的

3、数据中心,即数据仓库及建立在数据仓库之上的商务智能和决策分析应用。 作业指导书概述数据仓库概念:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库可以帮助用户更好地理解信息,从新的角度看待这些信息,以便获得更好的洞察力,看到模式和趋势,并更好地进行商业决策。数据仓库为整个企业的需要服务。数据仓库需要访问不同的数据源,需要存储海量的数据,需要对企业数据进行分析,并用适当的方式展现给出来。数据仓库的建设不仅涉及到许多先进的技术,更涉及到企业所有的业务知识,所以说数据仓库不是一个产品,而是一个具体的解决方案。数据中心概念数据仓库概念背景与目的建设步骤建议

4、迭代关系实例说明整体架构图O_x:数据横向移动V_x:数据纵向移动数据中心建设过程需求分析逻辑分析ODS建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程迭代式开发国网典设建议的甲方项目组织海联讯的项目组织实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现需求分析调研内容调研对象调研时间调研地点内容1内容2内容3内容4调研计划实际调研需求规格说明书需求分析调研计划实际调研需求规格说明书调研方式:当面访谈;问卷调查;访谈及问卷提纲模板请参见附录2需求分析调研计划实际调研需求规格说明书

5、实例调研内容:针对不同层面的人员,调研内容不同对企业领导层 领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关?领导层最关心哪几个指标?针对这些指标,领导层目前采用何种获取方式?针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?目前状况下,针对这些指标都有哪些展现方式?领导层对数据仓库的期望是什么?领导层希望决策分析系统能提供哪些分析功能?领导层希望以何种方式来看这些指标?领导层希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书调研内容:针对不同层面的人员,调研内容不同对中间管理层中间管理层通常需要上报哪些指标?和此分析主题相关的有哪些指标

6、?平时领导层通常询问哪些指标?在这些指标中哪几个和此分析主题有关?中间管理层目前的工作重点有哪些和此主题相关,和哪几个指标相关?中间管理层本身最关心哪几个指标?中间管理层对下属的工作人员都考核哪些指标?哪几个指标与此分析主题有关?针对这些指标,中间管理层目前采用何种获取方式?针对这些指标,中间管理层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?目前状况下,针对这些指标都有哪些展现方式?中间管理层对数据仓库的期望是什么?中间管理层希望决策分析系统能提供哪些分析功能?中间管理层希望以何种方式来看这些指标?中间管理层希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书调

7、研内容:针对不同层面的人员,调研内容不同对业务人员平时工作中最关心的是哪些指标?有哪几个指标与此分析主题有关?平时直属领导通常询问哪些指标?在这些指标中哪几个和此分析主题有关?业务人员目前的工作重点有哪些和此主题相关,和哪几个指标相关?业务人员对数据仓库的期望是什么?业务人员希望系统能提供哪些分析功能?业务人员希望以何种方式来看这些指标?业务人员希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书调研内容:针对不同层面的人员,调研内容不同对IT人员此主题所需要的数据源都取自哪些业务系统?与本主题有关的现有的业务系统的数据结构怎样?与本主题有关的现有的业务系统的数据更新频率如

8、何?IT人员对数据仓库的期望是什么?IT人员在平时的工作中最关心的哪些指标? 需求分析调研计划实际调研需求规格说明书需求规格说明书需求规格说明书模板详见附录4实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现逻辑分析单一主题处理逻辑分析从业务逻辑入手,分析各指标的组成关系;多主题处理逻辑分析综合考虑各分析主题间的逻辑关系;处理逻辑分析支撑数据分析业务元数据建立逻辑分析单一主题支撑数据分析 单个主题分析所需要的原始支撑数据分析多主题支撑数据分析所有主题统一考虑做需要的支撑数据分析处理逻辑分析支撑数据分析业务元数据建立逻辑

9、分析业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。 处理逻辑分析支撑数据分析业务元数据建立实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现ODS建模ODS逻辑模型逻辑结构:完成实体的定义,各实体间的关系等存储周期(立即删除、过一段时间删除或者是备份到其它介质上)存储粒度(与源系统基本保持一致)ODS物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型验证实例ODS建模逻辑模型物理模型验证实

10、例实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现需求分析逻辑分析ODS建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程数据仓库建模数据仓库逻辑模型划分粒度层次 确定数据分割策略 确定存储周期 定义关系模式 数据仓库物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型验证实例数据仓库建模逻辑模型物理模型验证实例实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现数据源

11、分析 数据源范围包括数据源逻辑范围和物理范围数据源格式理解各数据源的格式,确定统一的格式,制定相应的转换规则数据源范围数据源格式数据量数据质量数据更新频率数据源分析ORACLE数据源名称代码用电分类AC_ELEC_CLASS电价表AC_TARIFF行业AC_TRADE_TYPE欠费信息表CHG_RECEIVABLES客户信息EP_CUST_INFO电量与电费表EP_RESULT地区(单位)SU_AREA部门SU_DEPT电压AC_VOLT_GRADE数据源范围数据源格式数据量数据质量数据更新频率数据源分析SYBASE数据源名称代码用户基本信息User_inf按户电费数据User_cost电费数

12、据bill_data用电性质代码表Code_e_kind用电类别Code_usage_date电价表Price计费日期对应电价日期cal_price_date单位代码Dept行业代码表Code_trade_new电压代码表Codvolt时段Code_period用户类别Code_user_type用户使用电表 User_ammeter用电分类代码表rep_salse_kind用电分类与用电性质关系表rep_salse_relation其它电费数据Bill_data_oth数据源范围数据源格式数据量数据质量数据更新频率数据源分析 名称代码更新用电类AC_ELEC_CLASS维表(缓慢变化)电价表

13、AC_TARIFF维表(缓慢变化)行业AC_TRADE_TYPE维表(缓慢变化)欠费信息表CHG_RECEIVABLES月客户信息EP_CUST_INFO维表电量与电费表EP_RESULT月地区(单位)SU_AREA维表(缓慢变化)部门SU_DEPT维表(缓慢变化)电压AC_VOLT_GRADE维表(缓慢变化)数据源范围数据源格式数据量数据质量数据更新频率数据源分析 名称代码数据量用电分类AC_ELEC_CLASS92电价表AC_TARIFF355行业AC_TRADE_TYPE595欠费信息表CHG_RECEIVABLES1309341客户信息EP_CUST_INFO147692电量与电费表E

14、P_RESULT2775326地区(单位)SU_AREA15部门SU_DEPT102电压AC_VOLT_GRADE6数据源范围数据源格式数据量数据质量数据更新频率数据源分析 数据源范围数据源格式数据量数据质量数据更新频率实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现数据的获取与整合 直接抽取ETL服务器直接连接到应用系统后台数据库中,直接抽取所需数据。采用这种抽取方式时,必须注意安全控制和抽取时间窗口两个问题。 WEB服务通过WEB服务获取系统需要的数据的抽取方式。 文件交换文件交换是指应用系统将需要抽取的业务数据

15、保存为有格式的文本文件,然后ETL服务器通过读此文件内容来获取业务数据的数据抽取方式。 数据获取方式数据转换方式数据装载方式数据的获取与整合 字段映射代码转换字段拆分字段合并字段运算字段补充行列转换数据获取方式数据转换方式数据装载方式数据的获取与整合 全部覆盖记录追加记录更新数据获取方式数据转换方式数据装载方式实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用设计8性能调优9数据展现应用设计 OLAP分析方法ROLAPMOLAPHOLAPOLAP分析预定义报表即席查询数据挖掘应用设计 OLAP分析预定义报表即席查询数据挖掘应用设计 预定义报表

16、对单报表可以直接从数据库中取出数据进行分析展现。同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。因此,可以对多个报表进行整合。 OLAP分析预定义报表即席查询数据挖掘应用设计 即席查询基于单个事实表的即席查询基于多个事实表关联的即席查询OLAP分析预定义报表即席查询数据挖掘应用设计 数据挖掘定义问题:清晰地定义出业务问题,确定数据挖掘的目的。数据准备:包括:选择数据:在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理:进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。数据挖掘:根据数据功能的类型和和数据的特点选择相应

17、的算法,在净化和转换过的数据集上进行数据挖掘。结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。知识运用:将分析所得到的知识集成到业务信息系统的组织结构中去。 OLAP分析预定义报表即席查询数据挖掘实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用展现8性能调优9数据展现性能调优 优化指标对系统性能进行评估,得出相关性能指标综合各种相关因素,得出各项指标的期望值优化步骤根据经验调整,无固定的步骤汇报内容数据仓库建模51概述2需求分析3逻辑分析数据源分析64ODS建模元数据管理117数据获取与整合8应用分析9性能调优1

18、0数据展现数据展示展现内容展现数据以及展现格式展现方式报表图形图标展现方法打印报表电子报表WEB发布展现界面设计前端展现实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用设计8性能调优9数据展现元数据管理流程元数据管理 元数据模型采用公共仓库元模型(Common Warehouse Metamodel,简称CWM)。CWM的主要目的是在异构环境下,帮助不同的数据中心工具、平台和元数据知识库进行元数据交换。CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。元数据管理涉及到数据仓库构造、运行、维护的整个生命周

19、期,是数据仓库构建过程中十分重要的一环。元数据以数据库存储,集中管理控制。元数据模型元数据管理元数据报告元数据导入导出元数据管理 元数据的存储:元数据应以数据库存储,便于管理,维护和扩展。数据交换:支持以XML等标准进行数据交换。应用编程接口(API):通过API接入为元数据管理提供所需的灵活性。元数据集中控制:元数据为整个经营分析系统的信息资源提供了记录,应对元数据集中管理控制,以确保信息的一致性和准确性。影响分析:从元数据中发现任何变化给全局带来的影响,确定某个实体的用途和与其它实体的关联。版本控制:指测试和生产过程中的版本控制,应按部门进行。允许多个开发人员同时开发项目,并且开发人员可以

20、根据要求修改对象,而不影响其他开发人员。元数据模型元数据管理元数据报告元数据导入导出元数据管理 逻辑模型报告实体:实体属性、数据类型关系:实体之间的关系维度:维度定义、层次、属性、度量:维度、计算公式物理模型报告表、视图汇总表立方体存储模式ETL报告数据映射关系数据装载过程元数据模型元数据管理元数据报告元数据导入导出元数据管理 元数据管理需要遵循OMG-CWM元数据标准,元数据库中的内容可以按CWM的标准导出,提供给其它软件,也可以从其它工具中导入元数据。元数据模型元数据管理元数据报告元数据导入导出以数据为驱动的快速实施我们有什么可供分析的数据?收集数据样本快速开发界面原型并确认对有价值的原型

21、进行深入数据分析,确定数据提供策略和方式。模型固化数据贯通在省公司数据中心架构已经实现的基础上,以集中式的数据中心建设,可以采用快速实施的方法调整与性能优化多年数据仓库的建设体会1、数据展现的开发和准确数据的数据,是能否做好仓库的基础。形式很重要。2、只要有好的数据就可以开展一定的工作,不一定要等应用系统建设成功才开展。3、数据模型并不是最重要的事情。分析模型的建立往往取决于分析的要求。对于大家追求的数据共享和分析的通用模型,取决于数据源,这个工作应该在业务系统层面去实现。通用的共享视图模型可以是虚拟存在的,比如采用数据库视图来实现。4、数据集中很重要,没有数据的集中,就会失去动力和基础。数据

22、有了量的积库累,一定是有文章做的,分析模型的抽象一定是在大量数据的基础上的。对于每个业务系统,我们一定要厂家提供数据库设计文档,最好安排资源对文档与数据库的一致性进行检查。这个工作做好了,其实可以少很多后续的协调工作。5、完整意义上的一体化建设,会存在多次迭代和反复。数据分析的要求,会促使业务系统的升级和改造。同时业务系统的升级,也会提供新的数据,同时引发新的数据展现要求。6、商业智能分析工具也呈一体会趋势,目前整合趋势这提格局已定,未来就是以几大软件巨头竞争,我们没有太多的选择。7、早期建设,不建设做过多的数据处理,以便于核对数据的准确性。模型加工的对应性一定要可直接追溯。问题交流1、不是井

23、里没有水,而是你挖的不够深。不是成功来得慢,而是你努力的不够多。2、孤单一人的时间使自己变得优秀,给来的人一个惊喜,也给自己一个好的交代。3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!25、你不能拼爹的时候,你就只能去拼命!26、如果人生的旅程上没有障碍,人还有什么

24、可做的呢。27、我们无法选择自己的出身,可是我们的未来是自己去改变的。励志名言:比别人多一点执着,你就会创造奇迹28、伟人之所以伟大,是因为他与别人共处逆境时,别人失去了信心,他却下决心实现自己的目标。29、人生就像一道漫长的阶梯,任何人也无法逆向而行,只能在急促而繁忙的进程中,偶尔转过头来,回望自己留下的蹒跚脚印。30、时间,带不走真正的朋友;岁月,留不住虚幻的拥有。时光转换,体会到缘分善变;平淡无语,感受了人情冷暖。有心的人,不管你在与不在,都会惦念;无心的情,无论你好与不好,只是漠然。走过一段路,总能有一次领悟;经历一些事,才能看清一些人。31、我们无法选择自己的出身,可是我们的未来是自

25、己去改变的。32、命好不如习惯好。养成好习惯,一辈子受用不尽。33、比别人多一点执着,你就会创造奇迹。50、想像力比知识更重要。不是无知,而是对无知的无知,才是知的死亡。51、对于最有能力的领航人风浪总是格外的汹涌。52、思想如钻子,必须集中在一点钻下去才有力量。53、年少时,梦想在心中激扬迸进,势不可挡,只是我们还没学会去战斗。经过一番努力,我们终于学会了战斗,却已没有了拼搏的勇气。因此,我们转向自身,攻击自己,成为自己最大的敌人。54、最伟大的思想和行动往往需要最微不足道的开始。55、不积小流无以成江海,不积跬步无以至千里。56、远大抱负始于高中,辉煌人生起于今日。57、理想的路总是为有信

26、心的人预备着。58、抱最大的希望,为最大的努力,做最坏的打算。59、世上除了生死,都是小事。从今天开始,每天微笑吧。60、一勤天下无难事,一懒天下皆难事。61、在清醒中孤独,总好过于在喧嚣人群中寂寞。62、心里的感觉总会是这样,你越期待的会越行越远,你越在乎的对你的伤害越大。63、彩虹风雨后,成功细节中。64、有些事你是绕不过去的,你现在逃避,你以后就会话十倍的精力去面对。65、只要有信心,就能在信念中行走。66、每天告诉自己一次,我真的很不错。67、心中有理想 再累也快乐68、发光并非太阳的专利,你也可以发光。69、任何山都可以移动,只要把沙土一卡车一卡车运走即可。70、当你的希望一个个落空

27、,你也要坚定,要沉着!71、生命太过短暂,今天放弃了明天不一定能得到。72、只要路是对的,就不怕路远。73、如果一个人爱你、特别在乎你,有一个表现是他还是有点怕你。74、先知三日,富贵十年。付诸行动,你就会得到力量。75、爱的力量大到可以使人忘记一切,却又小到连一粒嫉妒的沙石也不能容纳。1、这世上,没有谁活得比谁容易,只是有人在呼天抢地,有人在默默努力。2、当热诚变成习惯,恐惧和忧虑即无处容身。缺乏热诚的人也没有明确的目标。热诚使想象的轮子转动。一个人缺乏热诚就象汽车没有汽油。善于安排玩乐和工作,两者保持热诚,就是最快乐的人。热诚使平凡的话题变得生动。3、起点低怕什么,大不了加倍努力。人生就像

28、一场马拉松比赛,拼的不是起点,而是坚持的耐力和成长的速度。只要努力不止,进步也会不止。4、如果你不相信努力和时光,那么时光第一个就会辜负你。不要去否定你的过去,也不要用你的过去牵扯你的未来。不是因为有希望才去努力,而是努力了,才能看到希望。5、人生每天都要笑,生活的下一秒发生什么,我们谁也不知道。所以,放下心里的纠结,放下脑中的烦恼,放下生活的不愉快,活在当下。人生喜怒哀乐,百般形态,不如在心里全部淡然处之,轻轻一笑,让心更自在,生命更恒久。积极者相信只有推动自己才能推动世界,只要推动自己就能推动世界。6、人性本善,纯如清溪流水凝露莹烁。欲望与情绪如风沙袭扰,把原本如天空旷蔚蓝的心蒙蔽。但我知道,每个人的心灵深处,不管乌云密布还是阴淤苍茫,但依然有一道彩虹,亮丽于心中某处。7、每个人的心里,都藏着一个了不起的自己,只要你不颓废,不消极,一直悄悄酝酿着乐观,培养着豁达,坚持着善良,只要在路上,就没有到达不了的远方!8、不要活在别人眼中,更不要活在别人嘴中。世界不会因为你的抱怨不满而为你改变,你能做到的只有改变你自己!9、欲戴王冠,必承其重。哪有什么好命天赐,不都是一路披荆斩棘才换来的。10、放手如拔牙。牙被拔掉的那一刻,你会觉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论