数据仓库实践系列课程(1)-数据仓库基本概念_第1页
数据仓库实践系列课程(1)-数据仓库基本概念_第2页
数据仓库实践系列课程(1)-数据仓库基本概念_第3页
数据仓库实践系列课程(1)-数据仓库基本概念_第4页
数据仓库实践系列课程(1)-数据仓库基本概念_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库实践系列课程(1)

——数据仓库基本概念文思海辉©Pactera.Confidential.AllRightsReserved.2数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施数据仓库出现的背景需求的变化业务系统的建设逐渐完善分析类需求不断增加不断增加的信息孤岛导致数据集成问题不断增加技术发展状况关系数据库技术日趋成熟报表和复杂查询处理起来非常困难各个系统之间数据不一致数据仓库与OLTPOLTP系统(生产系统)面向应用事务驱动的实时性高数据检索量相对少只存当前数据数据仓库系统(决策系统)面向主题分析和决策实时性要求不是特别高数据检索量大存储大量的历史数据和当前数据分析型系统与操作型系统之间的区别操作型数据分析型数据细节的细节的,综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道对性能要求高对性能要求相对宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求数据仓库建设的分歧数据仓库建设的分歧BillInmonKimball1991年,提出了企业级数据仓库企业级数据仓库建设遭受大面积失败Kimball出版了TheDataWarehouseToolkit数据集市建设在初期取得了成功多个数据集市之间的复杂的ETL/数据不一致争论与混乱期(1996-1997)EDWODSDataMart走向融合(1998-2001)提出了企业信息工厂(CorporateInformationFactory)的架构,融合了EDW/ODS/DataMartKimball也提出了数据仓库的扩展架构,把EDW/ODS/DataMart结合在了一起数据仓库理论的形成数据仓库的四个特征数据仓库是面向主题的(Subject-Oriented)集成的(Integrated)随时间不断变化(Time-variant)不可更新的(Nonvolatile) 数据仓库之父:BillInmon数据仓库面向主题与面向应用OLTP应用是面向应用进行数据组织的分析应用面向主题进行组织主题一个抽象的概念在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。例如:对于一个保险公司来说OLTP数据库所面向的应用可能是汽车保险、健康保险、人寿保险与意外伤亡保险数据仓库所面向的主题域可能是顾客、保险单、保险费与索赔。目前主流的数据仓库大都是采用关系数据库技术来实现的数据仓库的数据最终也会用关系模型表现。因此要把握主题和面向主题的概念,需要将它们提高到一个更高的抽象层次上来理解,也就是要特别强调概念的逻辑意义。数据集成数据集成的内务数据清洗按照数据质量管理的要求进行数据的清洗数据转换按照源系统与数据仓库中模型之间的差异进行转换数据整合不同源系统的数据在数据仓库中可能会进入到相同的模型中为什么要进行数据集成?源系统的多样性数据质量的要求模型的差异不可更新与不断变化不可更新不会修改细节数据(源系统传来的详细数据)数据转换:通常需要保留原值不断变化不断增加新的数据删除旧的数据新的汇总周期带来的新的汇总数据数据集市数据集市(DataMart)是部门级决策支持的数据集合。数据集市数据仓库数据访问与分析(企业级)(部门级)数据集市数据集市建设的几种体系架构数据仓库逻辑数据集市物理数据集市依赖数据集市独立数据集市14©Pactera.Confidential.AllRightsReserved.数据集市的缺点多个数据模型多个传输转换程序数据不一致系统复杂,难于维护生产系统独立数据集市市场部......财务部储蓄系统信用卡系统MedicaidWelfareMentalHealthChildServices分布式(数据集市)集中式(数据仓库)MedicaidWelfareMentalHealthChildServicesEmployeesClientServicesProgramEffectivenessDistrictOfficesCostsEligibility“垂直”“水平”数据仓库与数据集市的业务分析能力DW/DM的流派之争----BillInmon与RalphKimballADW(ActiveDataWarehouse)n=1,072BI已经深入到企业的各个部门后台管理人员前台业务人员问:BI在您的企业中的哪些领域被用来制定关键的决策,请选择所有适用的选项。Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI已经不仅仅是办公室的管理人员的专利主要发现在美国企业中,监管和审计要求(SarbOx)是驱动BI应用的重要原因–这是与其它地区非常大的区别。IDC观点财务分析通常是BI应用的主要推动力,但这一应用仍然只有不到50%的企业使用。n=1,072BI在企业内部的用户群Q:在您的企业中,哪些用户正在通过BI的解决方案在获取信息。请选择所有适用的答案Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI深入企业的各个层面主要发现一线业务人员也急需决策支持。BI从后端角落里转移到企业的中心。BI解决方案不仅向内部人员提供访问,而且向外部用户提供访问。领导企业中,外部用户可以访问BI的比例是平均值的两倍。IDC观点业务分析解决方案可以帮助企业中的各类用户群。BI解决方案不仅帮助业务分析人员和高层管理者。支持外部用户可以加强外部用户对企业的依赖,从而增强用户关系。内部外部什么是并行处理并行处理的概念在某一个数据库系统中能同时采用多个硬件设备完成某一任务的方法。多个硬件设备可同时工作于该任务的不同方面。并行处理的主要目的是节省大型和复杂问题的解决时间。并行处理与并发处理并发是指在某一个数据库系统中允许多个任务的同时执行,任务与任务之间没有联系。并行是指将一个任务划分为多个子任务,这些子任务同时执行。在所有子任务处理完成后,将它们的结果进行合并,就得到该任务的最终处理结果OLTP与OLAP对系统的不同要求OLTP操作使用特点请求短小而密集技术要求能够将用户的请求进行均衡分担并发操作。OLAP操作使用特点请求庞大而稀疏每一个查询和统计都很复杂,但访问的频率并不是很高技术要求能够将所有的硬件资源调动起来为这一个复杂的查询请求服务并行处理结论并行处理技术在数据仓库中比OLTP系统更加重要。并行技术的几种类型SMPSymmetricMulti-Processor对称多处理器NUMANon-UniformMemoryAccess非一致存储访问结构MPPMassiveParallelProcessing海量并行处理结构SMPCPU服务器中多个CPU对称工作,无主次或从属关系。CPU共享相同的物理内存,每个CPU访问内存中的任何地址所需时间是相同的。也被称为一致存储器访问结构(UMA:UniformMemoryAccess)。特征共享:系统中所有资源(CPU、内存、I/O等)都是共享的。冲突:每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加。SMP的性能扩展实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU。NUMANUMA的特征CPU具有多个CPU模块每个CPU模块由多个CPU(如4个)组成每个CPU模块具有独立的本地内存、I/O槽口每个CPU模块之间可以通过互联模块进行连接和信息交互特征可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU访问本地内存的速度将远远高于访问远地内存当CPU数量增加时,系统性能无法线性增加MPP系统架构由多个SMP服务器通过一定的节点互联网络进行连接协同工作,完成相同的任务从用户的角度来看是一个服务器系统基本特征由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成每个节点只访问自己的本地资源(内存、存储等)ShareNothing结构扩展能力最好与NUMA的区别不存在异地内存访问的问题节点之间的信息交互是通过节点互联网络实现的这个过程一般称为数据重分配(DataRedistribution)数据仓库应用的特征数据仓库大量复杂的数据处理要求很高的I/O处理能力存储系统提供足够的I/O带宽与之匹配OLTP每个交易所涉及的数据不多要求系统具有很高的事务处理能力能够在单位时间里处理尽量多的交易NUMA架构更适用于OLTP事务处理环境大量复杂的数据处理必然导致大量的数据交互,将使CPU的利用率大大降低体系架构决定了可扩展能力LargeSMP/NUMA设计来做OLAP应用对于小数据量的应用效率很高当CPU数量增加以及数据量增加的时候,由于资源竞争导致效率急剧下降。MemoryCacheCacheCPU(s)MemoryCacheCPU(s)CPU(s)MemorySPEEDLIMIT55

Disk

StorageDisk

StorageCPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CacheCacheCacheCacheCacheCacheCacheCacheMemoryMemoryMemoryMemoryMemoryMemoryMemoryMemoryDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorage交换网络通过互联网络访问共享内存CPU通过互联网络访问共享磁盘Shared-NothingMPP斜率为1的线性扩展被优化用作非常大量的磁盘读写对数据仓库应用来讲,效率非常高

线性扩展斜率为1NUMA衰减20%SMP衰减10%

CPU个数系统性能11109876543211 2 3 4 5 6 7 8 9 10

有时候这个也被称作线性扩展共享资源导致CPU效率降低ScalingResultsofSMP/NUMAandMPP架构选择示例©Pactera.Confidential.AllRightsReserved.32数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施模型和数据模型模型——现实世界特征的模拟和抽象,比如地图、建筑设计沙盘,模型飞机等。数据模型DataModel——是现实世界数据特征的抽象。数据模型数据模型从计算机实现的观点来对数据建模是信息世界中的概念和联系在计算机世界中的表示方法一般有严格的形式化定义,以便于在计算机上实现数据模型种类数据模型层次模型网状模型关系模型多维模型层次模型层次模型用树结构表示实体之间联系的模型叫层次模型树由节点和连线组成节点代表实体型连线表示两实体型间的一对多联系树的特性每棵树有且仅有一个节点无父节点,称为树的根树中的其它节点都有且仅有一个父节点层次模型地址系名系号教研室名教研室号年级姓名学号职称姓名职工号系教研室学生教员1:N联系实体层次模型优点结构简单,易于实现缺点支持的联系种类太少只支持二元一对多联系数据操纵不方便子结点的存取只能通过父结点来进行插入、删除复杂代表产品:IBM的IMS数据库,1969年研制成功网状模型网状模型是一个满足下列条件的有向图可以有一个以上的节点无父节点至少有一个节点有多于一个的父节点(排除树结构)节点代表实体,有向边(从箭尾到箭头)表示两实体间的一对多联系学生课程选课网状模型优点表达的联系种类丰富缺点结构复杂语言复杂代表产品HP的IMAGE,

CullinetSoftware公司的IDMS等关系模型属性元组男女男性别192221年龄D01李红S02D02王伟S03D01张军S01系号姓名学号Thebasicprincipleoftherelationalmodelisthe

InformationPrinciple:all

information

isrepresentedby

datavalues

inrelations.关系模型简单,表的概念直观、单一,用户易理解非过程化的数据请求,数据请求可以不指明路径数据独立性,用户只需提出“做什么”,无须说明“怎么做”坚实的理论基础关系数据建模E.F.Codd于70年代初提出关系数据理论,他因此获得1981年的ACM图灵奖关系理论,是以“关系”(RELATION)为中心的,指的是具有单值(singlevalued)项的二维表。关系模型为我们提供了数据组织的技术,这种技术考虑到了存储与检索数据过程中数据的一致性,并采用了公认的数学运算方法。规范化理论提出了一些规则,这些规则以新的方式来组织数据,从而减少冗余和数据异常。规范化什么是规范化一种对数据元素进行组织的数据建模技术,消除数据冗余,确保数据一致性。Normalizationisasetofrulesandamethodologyformakingsurethattheattributesinadesignarecarriedinthecorrectentitytomapaccuratelytoreality,eliminatedataredundancyandminimizeupdateanomalies.非规范化的数据库非规范数据库导致的数据异常现象:更新异常。数据多处存放,更新时可能会导致数据不一致。插入异常。插入数据可能会导致原有的关系被破坏。删除异常。删除数据可能会导致其他关系被删除。Arelationisinfirstnormalformifitcontainsatomicvaluesonlyandnorepeatingvalues.第一范式(1NF)第二范式(2NF)Before- Cust#andCustNamearedependentonlyonPO#,notthewholeprimarykey.Cust#QtyPO#SeqNumPartNamePart#CustNameAfter(2NF)–Part#,PartName,andQtyareeachfullydependentontheprimarykey.Part#QtyPO#SeqNumPartNameCust#PO#CustNameArelationisinsecondnormalformifitisin1NFandeverynon-keyattributeisfullyfunctionallydependentontheprimarykey.第三范式(3NF)After(3NF)–Part#andQtyaremutuallyindependent.PartNamePart#Part#QtyPO#SeqNumArelationisinthirdnormalformifitisin2NFandeverynon-keyattributeismutuallyindependent(non-transitivelydependentontheprimarykey).Before-PartNameisdependentonPart#.Part#QtyPO#SeqNumPartNameCust#PO#CustNameneedtobechanged?多维模型多维模型通常用Cube来表示。多维模型可以更加直观的表示现实中的复杂关系多维模型的基本组成:维、度量。举例:计算每一个商场、每个产品的销售额ProductStore多维模型发展联机分析处理(OLAP)的提出联机事务处理OLTP无法适应分析型应用的需求,包括对大量的数据从各个角度进行综合分析(多维分析),从不同级别(层次)进行综合分析。联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理(OLTP)明显区分开来。多维数据模型的组成维(Dimension)维层次路径、维层次、维成员(维实例)、维层次属性度量(Measure)数据立方体(Cube)维维的组织方式:维层次路径(HIERARCHY)维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度维:对数据进行分类的一种结构,用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途 选择针对期望详细程度的层次的数据 分组对细节数据综合(聚集)到相应的详细程度的数据层次度量度量(指标):数据的实际意义,一般是一个数值度量指标例如:销售量、销售额,……一个度量的两个组件数字型指标聚集函数Cube一个多维模型构成的多维数据空间我们将其称做数据立方体(Cube)其逻辑上相当于一个多维数组这个方格代表在某个时间、某个地区通过某个销售渠道所销售的产品的销售额地域时间销售渠道

多维分析的基本分析动作切片(Slice)切块(Dice)旋转(Rotate)钻取(Rollup/Drilldown)切片切块timetime=“December2008”旋转钻取多维数据模型的实现技术RelationalOLAP(ROLAP)利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理具有良好的可扩展性MultidimensionalOLAP(MOLAP)利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引HybridOLAP(HOLAP)利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。星型模式(StarSchema)雪花模式(SnowFlakeSchema)数据架构缓冲层结构几乎和源系统一致保持业务原貌少量数据保持少量历史整合层面向整合主题设计提供规范和共享应用集市层面向应用按需定制汇总层初级的数据加工明细VS汇总依赖对应用的提炼分析型应用系统灵活查询数据挖掘其他OLAP固定报表/KPIDashboard数据接口行内系统接口行外系统接口IT人员业务分析人员决策用户高级分析人员模型描述应用模式应用数据模型Application汇总层指星型固定查询与报表初级阶段的Ad-hoc汇雪花预Fact表偏逻辑化模型的PDM高阶Ad-hoc数据挖掘源模型单系统固定报表及审计ETC专项应用©Pactera.Confidential.AllRightsReserved.64数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施基本概念元数据是描述数据的数据,其内容主要包括数据的格式、结构、约束、加工过程、部署情况等。元数据管理包括元数据采集与关联、元数据信息维护、标准代码及术语信息维护等内容。对元数据的分析包括血缘分析、影响分析等。元数据管理——什么是元数据元数据业务元数据业务属性业务实体数据质量业务规则技术元数据列/字段表/视图/文件数据库/文件服务器数据质量控制规则数据映射逻辑……业务指标企业级数据模型/

数据规范定义数据质量贷款余额的定义贷款合同的定义还款日期>贷款日期CAPMCURBALCAPMdb2、sybase、oracleLen(身份证)=15或18ETL过程……不良贷款率的口径指标体系、报表体系数据质量包含子项示例关联工作数据架构业务元数据与技术元数据数据仓库的例子城市的例子对象T03_Agreement鼓楼技术元数据1:19个字段2:1个索引3:41个源、20个目标、0接口文件4:65个ETL任务5:对应LDM实体—协议6:共修改3次1:8条公交2:一条地铁3:北向南单行线4:附近的餐馆、旅馆5:门票20元业务元数据协议是金融机构与团体之间针对某种特定产品或服务而签立的契约关系如:风险敞口的计算、不同种类协议的评级、资产负债的缺口分析、客户和银行的往来情况(客户贡献、客户买的什么产品、何时购买的产品)等。

北京鼓楼在东城区地安门外大街。明永乐十八年(1420年)建,清嘉庆五年(1800年)重修。北京鼓楼下为高约4米的城台,北京鼓楼台前后各有券门三道,左右各一道。北京鼓楼面阔5间,重檐三滴水灰瓦歇山顶。北京鼓楼是明清两代向全城击鼓报时之处。数据仓库为什么需要元数据管理普通的应用为什么不需要元数据管理?表的数量少数据加工简单数据来源单一访问方式单一交钥匙的应用数据仓库为什么必须元数据管理?上下游系统多,变更频繁加工复杂用户访问方式复杂维护周期长某银行的DW数据举例:上游系统60个,下游系统20多个,仓库内部的表12000多个,运行的ETL任务3000多个,每个月都有新版本上线数据质量问题背景数据仓库建设如火如荼数据质量现状堪忧ETL源系统数据文件企业级数据仓库数据集市多维立方体×!?数据质量问题对专业从事数据仓库的人来说,大都听说过“garbagein,garbageout”这样的言论,意思是有问题的数据产生不出有意义的结果。有关“数据质量”的争执从数据仓库建设伊始就开始了“我的数据不是这样的,一定是你的数据加载有问题”,“我们在其它系统中统计的结果与你们的不一样,一定是你们的统计有问题”

……因此,对数据质量问题的统一认识以及如何“保证”数据仓库中数据的质量,对数据仓库的接收认可和推广应用起着至关重要的作用。数据质量问题概要分析:特点质量问题是非常隐蔽的质量问题是会扩散的质量问题是会遗留的质量问题是长期的工作质量问题是所有人的工作源数据数据仓库数据集市问题数据正常数据正常数据正常数据正常数据正常数据ETLETL数据质量管理——方法论影响分析&共性分析第三步

预防/修复数据质量问题人员流程信息趋势监控TimeErrorcount第六步研究趋势变化ErrorcountTime第一步

Value第二步

追踪根本原因第四步技术TimeErrorcount第五步TimeErrorcountErrorcountTimeErrorcountTime定义&验证ValueNo.ofOccurrencesValue当今最具权威人士认可的数据质量管理最佳实践方式数据质量管理——处理策略产生环节集成环节使用环节业务源系统数据仓库数据集市分析型应用企业内数据的流向数据质量问题产生的数量数据质量问题发现的数量基于数据仓库和数据集市构建数据质量管理系统,并将源系统、相关应用以及相关科技和业务用户都纳入到数据质量的发现-修正-跟踪-评估的闭环流程当中,是实施企业级数据质量管理的最佳选择。数据安全管理——概述数据安全管理体系可以分为管理控制策略与技术控制策略两大类。管理控制策略:主要指安全管理制度和流程、组织机构。技术控制策略:使用技术手段监视和控制对于数据的访问,即数据库安全、操作系统安全、物理安全和网络安全等。数据安全管理体系数据安全管理——管理策略管理策略包括数据安全等级分类、组织机构和管理流程安全等级分类机密信息:涉及企业机密的信息,比如HR数据、财务数据敏感信息:涉及客户隐私的信息,比如证据信息、联系信息公共信息:代码信息、产品信息、统计汇总信息组织架构安全管理策略制定数据分类和用户角色设定审计和监管安全管理措施的执行管理流程数据需求部门向安全主管部门提出数据访问申请主管部门对该申请进行审核,审核通过后会向申请提出者发访问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论