数据仓库基础课件.ppt_第1页
数据仓库基础课件.ppt_第2页
数据仓库基础课件.ppt_第3页
数据仓库基础课件.ppt_第4页
数据仓库基础课件.ppt_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库基础,信息技术部开发三处徐景春,日程,日程:技术知识,基本概念体系结构设计方法技术实现,背景:数据处理的发展历程,文件方式数据与程序混杂管理复杂并发问题一致性问题,数据库OLTP处理交易统计类需求数据源繁杂,传统数据仓库OLAP处理分析性能问题非结构化数据实时,说明不是“替代”关系本文档重点介绍“传统数据仓库”,DW2.0大数据平台,OLTP与OLAP,OLTP处理交易流程运转,OLAP分析数据数据记录、观察,数据仓库定义,Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagementsdecision.Inmon,1996数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。,数据仓库其他定义,Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform.Ladley,1997是一组方法、技术、工具Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure.Appleton,1995Haley,1997Gardner1998是一个过程,四个特征Inmon,1996,面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤确定主题确定每个主题所包含的数据内容每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗)代码、粒度、结构非易失的(不可更改的)批处理增加,仓库已经存在的数据不会改变随时间变化键码都包含时间项,以标明数据的历史时期,面向主题,集成,非易失的(不可更改的),随时间变化,DataMart、ODS、ETL,DataMart数据集市小型的,面向部门或工作组级数据仓库。Inmon:部门级仓库,数据仓库数据的部分拷贝Kimball:数据仓库的组成部分,构成数据仓库OperationDataStore操作数据存储支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境四个基本特点面向主题的(Subject-Oriented)集成的可变的当前或接近当前的ETL数据抽取、转换、装载(Extract/Transformation/Load),元数据、分割、粒度,元数据关于数据的数据。用于构造、维持、管理使用数据仓库。分割数据分散到各自的物理单元中去,它们能独立地处理。粒度指数据仓库的数据单位中保存数据的细化或综合程度的级别粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多粒度影响数据仓库中数据量的大小粒度问题是设计数据仓库的一个重要方面在数据仓库的细节级上创建两种粒度短期储存的低粒度(真实档案),满足细节查询具有综合的高粒度(轻度综合),做分析,BI的由来,商业智能(BusinessIntelligence,简称BI)最早是由美国GartnerGroup于1996年提出的。当时将其定义为一类数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI也不会过时。本文没有严格区分数据仓库和BI,日程:技术知识,基本概念体系结构设计方法技术实现,体系结构的重点,重点问题:数据的获取、存储和使用数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要,DataStaging:数据处理区域,为了实现ETL过程的临时存储,体系结构Pieter,1998,带ODS的体系结构,小结:体系结构,数据源,用户,数据获取:ETL,职责负责将数据从源系统提取到数据仓库中功能去掉操作型数据库中不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值关键问题增量数据获取异常处理异常捕获、异常处理非功能需求如何复用代码性能:是否使用存储过程、如何转换易用性:并行开发、维护,增量数据获取方式,时间戳源表有时间戳字段,记录新增、修改、删除更新时间戳字段触发器源表中创建触发器,通过触发器捕获数据的增、删、改数据库日志对事务数据库的日志文件进行分析,获取变化的数据Hash值通过比对记录的hash值,识别出变化的数据业务日期根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付费表的实收日期,保全生效日等CDC组件ChangeDataCapture改变数据捕获,CDC整体连接示意图,CDCFORORACLE连接核心Oracle数据库作为数据源CDCFORDATASTAGE让数据源的增量数据落地成数据文件,作为目标端CDCFORACCESSSERVER连接CDCFORORACLE和CDCFORDATASTAGE并提供用户管理,如何选择增量获取方式,数据存储:数据仓库,职责负责存储数据功能快速存取,适应变化关键问题4个基本特征的数据集合数据架构:分哪几层数据模型:每层如何存储数据数据流向,数据使用:分析,职责负责数据的使用、分析、展现常见方式报表:常规的制式固定报表OLAP:联机分析处理数据挖掘即席查询自助查询,联机分析处理(OLAP),是针对特定问题的联机访问和分析通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许分析人员对数据进行深入观察概念变量是数据的实际意义,描述数据是什么维是人们观察数据的特定角度维的层次是维在不同细节程度的描述维成员是维的一个取值多层次维的维成员是各层次取值的组合对应一个数据项,维成员是该数据项在该维中位置的描述多维数组可以表示为(维1,维2,变量),如(地区,时间,销售渠道,销售额)多维数组的取值称为数据单元(单元格)可以理解为交叉表的数据格,钻取和上卷,旋转,示例:钻取-操作,示例:钻取-效果,基于多维数据库的OLAPMOLAP,以多维方式组织数据(综合数据)以多维方式显示(观察)数据多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系如:产品、地区、销售额关系多维多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据,MOLAP架构,基于关系数据库的OLAPROLAP,以二维表与多维联系来表达多维数据(综合数据)星型结构事实表,存储事实的量及各维的码值(BCNF)维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余)事实表通过外键与每个维表相联系雪花、星座、雪暴模拟多维方式显示(观察)数据,ROLAP架构,MOLAP与ROLAP,MOLAP计算速度较快支持的数据容量较小缺乏细节数据的OLAP多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据ROLAP结构较复杂以关系模拟多维支持适当细节的OLAP较成熟HOLAP是以上两种的综合,数据挖掘(DataMining),探测型的数据分析发现信息、发现知识基于人工智能、机器学习、统计学由计算机自动智能地分析数据,获取信息,作出预测或帮助决策需要算法的支持和机器的环境,数据挖掘的常用方法,决策树方法利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支在每个分支子集中重复建立下层节点和分支关联分析为了挖掘出隐藏在数据间的相互关系支持度/置信度作为输入的条件,进行筛选、分析序列模式分析类似与关联分析着重于分析数据的前因后果分类分析对于不同分类的数据进行分析,找出他们的规律、特征聚类分析是分类的逆过程根据数据特征,进行分类,数据挖掘与OLAP,都属于分析型工具DM是挖掘型工具DM试图自动地发现隐藏在数据中的模式或规律OLAP是验证型工具OLAP更多地依赖于用户的输入和假设两者相辅相成,互补以DM挖掘潜在的模式、预测未来趋势以OLAP来验证DM的结果,调度管理,职责负责监控、管理ETL程序(ETL程序类型通常会有所扩展)的执行。功能调度策略(定时、依赖关系)调度监控手工处理其他扩展:分布式,总分间的数据传输ETL工具有相关功能定制开发,元数据管理,职责负责元数据的管理应用场景,元数据分类-AlexBersonetc,1999,业务元数据定义:给用户易于理解的信息主题区和信息对象类型,包括查询、报表、图像、音频、视频等维度、指标、报表技术元数据定义:为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。数据源信息转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,示例:元数据管理模块的逻辑架构,数据管控,系统建设,制定流程,技术支撑,日程:技术知识,基本概念体系结构设计方法技术实现,设计方法,从顶层、抽象角度,数据仓库的建设方法可分为:自顶而下,自底而上。,从系统架构设计角度,数据仓库作为一个系统,其架构设计应包括的内容。如:系统定位、模块组成及相互关系、各模块的架构设计等。,数据存储是数据仓库建设的核心问题,因此数据架构的设计更值得关注。包括数据层、数据流向、数据模型。,方法论:自顶而下,构建企业数据仓库(EDW)CommoncentraldatamodelDatare-engineeringperformedonce最低限度减少数据冗余和不一致性明细历史数据,全局数据查找基于EDW构建数据集市(DM)和部门相关的数据仓库子集几乎是汇总级数据直接依赖EDW的数据,方法论:自底而上,创建部门的数据集市(DM)范围局限于一个主题区域快速的ROI-局部的商业需求得到满足本部门自治-设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库(EDW)创建EDW作为一个长期的目标,系统架构设计,体系结构架构5视图,数据架构,51,示例:参考数据架构,参考数据架构的说明,分层是从逻辑角度划分的,并非物理上的整合层、通用语义层、应用层是可灵活组合的数据流向并非严格的顺层流动整合层的主流行业概念模型(EDW)IBMIIWTeradataFS-LDM(FinancialServiceLogicalDataModel),52,数据模型(逻辑模型),数据模型模型是对现实世界进行抽象的工具。在数据仓库系统中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。,模型设计方法,第三范式建模(ThirdNormalForm简称3NF)定义:(1)第三范式设计必须满足以下条件,每个属性的值唯一,不具有多义性;(2)每个非主属性必须完全依赖于整个主键,而非主键的一部分;(3)每个非主属性不能依赖于其他关系中的属性。优点:数据冗余少;抽象程度高、信息高度集成;支持应用灵活;缺点:数据获取效率较差;建设难度大;周期较长;维度建模(Star-Schema)定义:维度建模是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimensionTable)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据。优点:信息显性化,因此运行效率较高;周期较短,容易见效;缺点:数据冗余大;对信息跳跃性较强的应用支持不够理想;,模型设计方法:第三范式建模,BillInmon先生系统地阐述了企业级数据仓库的定义及体系结构,被誉为数据仓库之父。其核心观点认为数据仓库应该从构建高度抽象的企业数据模型开始。,特点:是一种数据驱动方法;以3NF建模为基础;着眼公司中、长期目标;建成后系统具备较好的适应性和扩展性。,ETL,产品,渠道,客户,保单,客户流失,渠道分析,产品分析,保费分析,数据源,业务,收付,外部,ETL,数据仓库,数据集市,模型设计方法:维度建模,RalphKimball先生作为数据仓库体系结构的最早实践者,在数据仓库的建设方面做了大量的工作,其业务维度生命周期方法指引了世界范围内众多数据仓库项目的实施。业务维度生命周期方法的突出贡献是采用了一致的维度与事实的概念来构建数据仓库总线结构。,特点:是一种需求驱动方法;以维度建模为基础;实施周期短,见效快;实施风险较低维度模型可理解性让所有事项尽可能简单,但是又不能简单得过了头模型要保留“源”有信息,有价值与元价值信息都要保留;反规范化维度层次结构设计是维度建模提高查询性能保障;每个维都是一个等效的事实表入口点;BI展现工具多维立方体是维度建模完善体现;维度模型扩展易用性;,数据仓库,数据源,业务,收付,外部,ETL,一致的维度下的数据集市,保费分析,客户留存,渠道分析,产品分析,维度模型VS规范化模型,57,规范化模型描述业务的逻辑关系消除冗余,解决数据的一致性问题模型灵活、稳定如果数据源没有企业数据模型控制,ETL抽取很难维度模型易于理解因为冗余,性能好易于访问多维模型在满足用户需求方面是非常高效的,但是灵活性不好,整合层,通用语义层集市层,数据模型的评估,58,数据模型,集成性,管理性,性能,扩展性,可用性,完整性,支持BI应用扩展支持数据源扩展支持模型自身扩展快速扩展,支持各类BI应用涵盖保险业务各环节参考主流行业模数据型,安全管理支持数据的维护数据生命周期管理易于理解设计合理,优化BI应用性能优化ETL性能,结构集成内容集成主题集成扩展集成集成可操作增量策略,模型管理制定标准和规范,维度建模相关概念,59,维度基本概念:以日期维度为例,主键维度属性每一字段,列成员每一行层次关系(路径)年、半年、季度、月、日,60,维度属性,代理键,成员,层次关系,维度特点,观察的角度包含丰富的维度属性,即很多列,且带有描述性质维度属性用于查询约束条件、报表标签、分组汇总丰富的维度属性带来丰富的分析能力“维度表是进入事实表的入口”理论上不必有代码,如果用户很熟悉代码则可加通用性:日期、机构、险种、渠道、,61,缓慢变化维(SCD),SlowlyChangingDimensions背景在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。处理缓慢变化维的方式TYPE1:第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。TYPE2:第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。TYPE3:第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。,示例:SCD,维度展业机构业务键展业机构代码(AgentGroup)代理键展业机构ID(AgentGroupID)类型2BranchattrBranchtypeBranchtype2逻辑当上述3个维度属性的值发生变化时,增加一条记录,代理键,可以保证源系统的变化不会对BI系统产生影响可以允许BI系统整合多个源系统中的数据可以允许在维度表中加入不存在的行提供了一种跟踪维度属性随时间变化的方法使用整型的代理键在关系库、多维库中是高效的方法,提高系统查询和处理性能,减少了事实表本身的大小代价:ETL的性能耗费根据成员个数选择smallint、int、bigint,64,退化维度、杂项维度,退化维度维度除了主键以外没有其他维度属性。没有维度表如订单号杂项维度(junkdimension)通过创建一个抽象的维度将多个低基数的标志位合并以将其放到维度体系中,星型模型,以事实表为中心,加上若干维表,组成星型数据模式。事实表存放基本数据,,雪花模型,维一般是由若干层次组成把维按其层次结构表示成若干个表规范化、节省存储空间但需多做连接操作,事实表,事务型事实表事务发生时,每个事务记录一行,不需要更新维度:事务日期例子:支付事实表、收费事实表周期快照型事实表周期性快照,不需要更新维度:快照日期例子:待发货、有效保单、有效人力累积快照型事实表一个事件一行,由多个步骤组成,步骤发生时更新维度:关键步骤的多个日期例子1:购买(订购日期、付款日期、发货日期、收货日期)例子2:承保(申请日期、暂收日期、核保日期、签单日期、核销日期),68,示例:维度与事实,设计过程,70,示例:总线矩阵、一致性维度,日程:技术知识,基本概念体系结构设计方法技术实现,技术实现,硬件,操作系统,数据库,ETL工具,报表工具,开发工具,中间件,逻辑,分析工具,Gartner2015数据仓库和分析市场魔力象限,:领导者Teradata,Oracle,IBM,微软,SAP,惠普:挑战者MapRTechnologies,Cloudera,1010data,AWS:特定领域者Exasol,MarkLogic,Kognitio,Hitachi,Infobright:远见者Actian,Pivotal,各厂商解决方案及产品,管理,业务,前台,分析,后台,知识体系,保险实务,SQL编程,分析工具,DW设计,前端工具,Java编程,项目管理,技术(*),数据库原理数据仓库数据建模,面向对象程序设计设计模式,保险原理,统计学数据挖掘,项目管理软件工程,参考书,数据仓库(原书第4版)数据仓库工具箱(第3版):维度建模权威指南数据仓库工具箱:面向SQLServer2005和Microsoft商业智能工具集数据仓库设计数据模型资源手册,日程,开发过程及相关角色,集成测试,用户测试,项目经理技术经理业务顾问模型设计师数据分析师ETL工程师前端工程师Java工程师,Copyright,Inc.Allrightsreserved.,各角色责任细分(一),项目经理负责协调资源,控制项目进度、质量,达成项目目标。项目的灵魂人物,项目成败的关键。应具备的能力有效计划和分配资源团结并激励整个团队并使其保持和谐善于与客户沟通控制项目范围风险管理定期评定项目开发成果并评估每个人员敢于承认失败并把项目带回正轨技术经理负责系统的架构设计,确保各模块能组装到一起。应具备的能力系统架构设计经验,各角色责任细分(二),业务顾问负责需求调研、分析,解答业务问题,分析指标统计逻辑,协助数据探查及分析。应具备能力相关业务经验比最终用户还要丰富了解行业的标准及发展趋势了解数据仓库的一些技术实现善于将业务转化为技术人员所能接受的语言模型设计师负责设计数据模型、设计转换规则、数据探查。应具备的能力分析并引导用户的需求对数据库的范式和星型结构熟练运用设计系统的ER图和数据字典如属性、约束等善于沟通,能把项目的设计架构清晰的告诉别人熟悉RDBMS并有良好商业分析能力,各角色责任细分(三),ETL工程师负责ETL程序的开发。工作量最大。应具备能力深入了解就有系统,并理解系统内数据存储向最终用户的顾问学习业务知识熟悉各种常用系统的接口和规范有很强的编码和开发能力最好能熟悉一些常用工具能够制定计划并使数据的迁移过程自动进行应该是一个认真仔细的人,脏数据对系统的影响往往能超出一的想象前端工程师、Java工程师负责报表程序、JAVA程序的开发。应具备能力应该是个完美主义者,用户们喜欢上帝的感受善于与用户沟通,记住他们是以后的使用者了解用户才操作上的喜好,投其所好大家都欢迎有一定的美学基础,漂亮的界面总是让人喜欢,尤其是新用户要有足够的耐心,某些中国特色的东西很锻炼人的耐力,成长路径,保险实务,SQL编程,分析工具,DW设计,前端工具,Java编程,ETL工程师,前端工程师,数据分析师,技术经理,Java工程师,项目经理,模型设计师,项目管理,业务顾问,不同于OLTP系统的开发,基础工作数据探查理解数据源:正确写出统计逻辑;正确设计数据转换规则;正确分析数据;需求分析统计逻辑不明确有标准值:直接取用标准值,或分析标准值计算逻辑。无标准值:自行计算基准值,然后与业务一同核对。不断修正。成果物:指标卡片业务部分:业务语言描述;技术部分:SQL描述系统设计数据架构、数据模型开发ETL开发用户测试数据准确性测试进度取决需求是否明确,不明确的话在这个阶段“补课”,工作量更大。,本质:数据类项目,关于逻辑确认:越早越好,日程,传统数据仓库的困境,数据源频繁变化非结构化数据数据质量不高存储的数据越来越多访问速度要求越来越快应用越来越复杂:混合场景、实时、快速变化,DW2.0,数据生命周期交互区整合区近线区归档区非结构化数据元数据技术基础能够随时间变化,图摘自DataWarehousingintheAgeofBigDataP142FIGURE6.6,大数据特征,不仅仅是技术,改变人的思维方式视野更加开阔信息更加丰富数据分析价值链商业模式,大数据技术组件,分布式文件系统HDFS2,离线批量计算,MAPR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论