数据仓库概述课件_第1页
数据仓库概述课件_第2页
数据仓库概述课件_第3页
数据仓库概述课件_第4页
数据仓库概述课件_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据仓库概述DW&DM第1章数据仓库概述DW&DM11.l数据库到数据仓库的演变DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景数据库到数据仓库的演变数据库的发展→企业运营环境→以数据库为中心企业级数据库市场部→销售、市场策划财务部→产生财务报表人事部→人员变动情况……蜘蛛网问题(图1-1)数据分析的结果缺乏可靠性

图1-2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。市场部认为“业务A的市场前景很好”,而计划部却得到截然相反的结果“业务A没有市场前景”。作为企业的最棕决策者,将如何根据这样的结论进行决策呢?一、蜘蛛网问题1.l数据库到数据仓库的演变DW&DM第一章数据仓库概述2DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景图1-1企业中存在的“蜘蛛网”现象企业级部门极抽取程个人级DW&DM第一章数据仓库概述1.1数据库到数据仓库的演3DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景外部市场信息A分析程序1分析结果1:业务A市场前景很好分析结果2:业务A没有市场前景外部市场信息B外部市场信息C抽取数据的时间不同分析程序2抽取数据的内容不同外部信息分析程序和内容不同图1-2两个分析过程的差异企业级数据库市场部计划部DW&DM第一章数据仓库概述1.1数据库到数据仓库的演4两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析两个过程的差异来寻求原因。首先,市场部门和计划部门从企业数据库中抽取的数据可能不同,比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取的是在普通客户中对业务A的使用情况,二者分析的数据存在差异。其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最终分析结果不同。最后,市场部门使用的分析程序可能与计划部不同,通过上面的分析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是数据的来源部一致,对于不同来源的数据的分析结果显然是不一致的。两个分析的数据都来自于企业数据库,但是结论却不同,下面通过52.数据处理的效率很低

在错综复杂的体系中,不同级别的数据库可能使用不同类型的数据库系统,对于有巨型数据量的企业级数据库可能使用IBMDB2,对于中小型数据库可能使用SQLServer。各种数据库的开发工具和开发环境不同,抽取程序应用的技术不同,因而难以集成。如果一个大型企业的决策者需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到,首先,需要确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员\分析员对应用进行分析,设计和编码。

由于数据分散在各个数据库中,因此需要编写的程序很多。由于在企业中使用的数据库类型很多,因此可能需要使用多种的技术来实现。程序的重用性很差,因为决策者明天想看的内容很可能和今天是不同的。可见,动用大量的人力,物力和时间才能完成的报表不仅实效性很差,数据处理的效率也很低。2.数据处理的效率很低

在错综复杂的体系中,不同级别的数据6DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景以数据库为中心以数据库为中心以数据仓库为中心操作应用A操作应用B操作应用C数据库数据库数据库分析应用A分析应用B分析应用C生产环境生产环境应用A应用B应用C以数据仓库为中心图1-3以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图DW&DM第一章数据仓库概述1.1数据库到数据仓库的演73.难以将数据转化成信息除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结构还难以将数据转化为信息。比如,某电力公司想分析某个大客户今年的情况和过去的3年有什么不同?大客户的情况可能包括客户的呼叫行为,话费情况,交费情况,咨询问题等。因此想要比较完整的回答这个问题,实际上需要将客户多方面的数据综合成信息。在实际的数据库系统中,记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图1-4所示。每个数据库由于其数据量和业务处理的需求不同,对于历史数据的存储时间也不同,因此以现有的数据库系统难以提供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数据中提取出完整的信息。3.难以将数据转化成信息8DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景图1-4现有数据库系统难以提供完整的数据历史数据2年1年3个月需要3年的数据时间咨询数据库财务数据库呼叫记录DW&DM第一章数据仓库概述1.1数据库到数据仓库的演9操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析型系统的使用人员通常是企业的中高层的管理者,或者是从事数据分析的工程师。分析型系统包含的信息而非具体的细节,其目的是为企业的决策者提供支持信息。操作型系统和分析型系统的划分如图1-4所示。操作型处理和分析型处理的分离,划清了数据处理的分析型环境和操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境,如图1-5所示。操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常10DW&DM第一章数据仓库概述1.1数据库到数据仓库的演变1.3仓库的应用前景以数据库为中心以数据库为中心以数据仓库为中心操作应用A操作应用B操作应用C数据库数据库数据库分析应用A分析应用B分析应用C生产环境生产环境应用A应用B应用C以数据仓库为中心图1-5以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图DW&DM第一章数据仓库概述1.1数据库到数据仓库的演11DW&DM2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线1.2数据仓库体系结构一、数据仓库体系结构(图1-6)由于数据库和数据仓库的出发点不同,数据仓库将独立于业务数据库系统,但是数据仓库又同数据库系统息息相关。也就是说,数据仓库不是简单对数据进行存储,而是对数据进行“再组织”。2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2.1数据仓库的体系结构2.2数据仓库的特点212DW&DM数据挖掘系统/数据展现系统数据集市数据提取提取仓库数据元数据数据集市数据集市数据集市数据仓库存储企业外部数据业务操作型数据2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据数据清洗/转换DW&DM数据挖掘系统/数据展现系统数据数据提取提取仓库数13DW&DM1.3数据仓库重要名词

数据提取(DataExtraction)——数据抽取数据仓库按主题从业务数据库提取相关数据的过程。

从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必须的。数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必须的那一部分数据。例如:某超市确定以分析客户的购买行为为主题建立数据仓库,只需将同客户购买行为相关的数据提取出来,超市员工的数据没有必要放进数据仓库。2数据清洗(DataCleaning)企业建立很多不同的数据库数据的不一致

是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性。图2-2所示,客户数据库中有客户基本信息表,客户服务数据库中有一张客户咨询信息表,由于操作人员的失误,将客户信息表中的“张山”在客户咨询表录入为“张三”。图2-3所示,客户信息表“张三”的手机状态是正常,此时张山去办理停机,在客户业务变更表中,手机状态修改为“停机”,如果数据刷新不够实时,导致客户基本信息表和客户业务表变更不同步。2.1数据仓库的体系结构DW&DM1.3数据仓库重要名词数据提取(DataExtr14DW&DM客户基本信息表客户咨询信息表客户基本信息表客户业务变更信息表图1-7操作失误导致数据不一致图1-8数据刷新不时实导致数据不同步客户号:100姓名:张山年龄:23客户号:100姓名:张山咨询问题:…客户号:100姓名:张山年龄:23手机服务状态:正常客户号:100姓名:张山业务变更:停机2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM客户基本信息表客户咨询信息表客户基本信息表客户业务15DW&DM3数据转化(DataTransformation)(图2-4)把源数据的数据格式转换成统一的数据格式的过程。也叫:数据集成(DataIntegration)

由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、informix、Sybase.Sqlserver等,各种数据库产品提供的数据类型可能不同,需要将不同格式的数据转换成统一的格式。4提取仓库由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在数据放进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。提取日志(ExtractionStore)当从业务系统提取数据时,需要记录提取数据的过程,该过程被记载在提取日志中。提取日志详细的记录了数据的来源,数据的转化过程等。6数据管理员是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据提取的错误和源于业务系统的错误。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM3数据转化(DataTransformat16DW&DM图1-9数据格式的不一致2000-2-3…..2000-2-52000-2-42/3/2000…..2/5/20002/4/20002000/2/3…..2000/2/52000/2/42.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM图1-9数据格式的不一致2000-2-3…..217DW&DM7外部数据源(ExternalSource)从系统外部获取的同主题分析相关的数据来源。

例:采购部——(确定采购订单)采购货单——产品销售情况(内部)商品的价格水平质量水平竞争对手的采购信息(外部)数据仓库存储用于存放数据仓库数据和元数据的存储空间。数据存储方式:多维数据集,关系型数据库以及二者的结合。数据业务系统中提取的或者从外部数据源中导入的数据进行清洗,转化后成为数据仓库的原始数据,它们是数据仓库数据的一部分,不是全部。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM7外部数据源(ExternalSource)18DW&DM10元数据(MetaData)(图2-5)数据是对事物的描述,而元数据是对数据的描述;它提供了有关数据的环境。数据仓库中的元数据有两类:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据的名称,属性及其在提取仓库中的转化;第二种是在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持系统元数据,包括

(1)数据仓库中的信息的种类,存储位置,存储格式(2)信息之间的关系,信息和业务的关系,数据使用的业务规则(3)数据模型(4)数据模型和数据仓库的关系。

例如:从customer业务数据库的user表中取出3列(user_id,user_name,address),在清洗转换过程中,将user_name从char(20)转化为varchar(50)格式,最终放进user维表(User_ID,User_name,Address)中,转换后(User_ID,User_name,Address)3列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都作为元数据的一部分,图2-5所示。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM10元数据(MetaData)(图2-5)19DW&DMChar(20)User_nameVarchar(50)User_NameUser表User_idUser_nameaddress…User_IDUser_NameAddressUser维表图1-10元数据内容示例原始数据位置数据清洗转化数据最终存放位置格式转化Customer数据库维表数据库2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DMChar(20)Varchar(50)User20数据集市(DataMarket)面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集。

减少数据处理量,使信息更快捷,灵活。数据集市(DataMarket)21DW&DM权威定义,WilliamInmon博士90年代初,给出:

数据仓库:通常是一个面向主题的、集成的、随时间变化的、但信息本身是相对稳定的数据集合,用于对管理决策过程的支持。1.4数据仓库定义操作型数据的特点分析型数据的特点细节的综合的、经过提炼的在存取的瞬间是准确的代表过去的数据可更新的不可更新操作需求通常事先知道分析需求通常事先不知道生命周期符合SDLC生命周期不同于SDLC对性能(如操作时延)要求高对性能要求较宽一个时刻操作一个数据单元一个时刻操作一个数据集合事务驱动(数据驱动)分析驱动(模型驱动)面向应用面向分析一次操作数量小一次操作数据量很大支持日常操作需求支持管理需求操作型数据和分析型数据的特性比较2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM权威定义,WilliamInmon博士22DW&DM一、数据库的功能和特性数据的安全性(以SQLServer为例)用户DBAPDBMS操作系统数据库身份验证操作权控制文件操作控制加密存储与控制计算机系统的安全模式数据库数据的加密存取——防止有意的非法活动;使用用户身份验证限制操作权——控制有意的非法操作;提高系统可靠性数据备份——控制无意的损坏2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM一、数据库的功能和特性数据的安全性用户DB23DW&DM2数据处理的并发性事务T1时间

事务T2读A=16T1

T2读A=16B=B2,写回B=200A=A-1T3写回A=15

T4A=A-4写回A=12(覆盖了T1对A的修改)丢失数据修改2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2数据处理的并发性事务T124DW&DM事务T1时间

事务T2对A加X锁T1

获得

读A=16T2

T3要对A加X锁等待

修改A=A–1T4等待写回A=15释放对A的X锁T5等待T6获得对A的X锁T7读A=15T8修改A=A–4写回A=11T9释放对A的X锁

没有丢失数据2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM没2.1数据仓库的体系结构2.2数据仓库的特点25DW&DM3事务处理的可靠性事务(Transaction):是用户定义的数据操作系列,这些操作可作为一个完整的工作单元。一个事务内的所有语句是一个整体,要么全部执行,要么全部不执行。例如:A账户向B账户转帐100元第一个动作——A账户—100元第二个动作——B账户+100元事务的特征:(1)原子性(Atomicity)事务是数据库的逻辑工作单位,其中的操作,要么都进行,要么都不进行;(2)一致性(Consistency)事务的执行结果,必须是从数据库的一个一致性状态转换到另一个一致性状态;(3)隔离性(Isolation)一事务的操作不受其它事务的干扰,即事务操作中使用的数据是隔离的;(4)持续性(Durability)事务一旦提交,对数据库的操作就是永久性(Permanence)的。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM3事务处理的可靠性事务(Transacti26DW&DM4数据的一致性和完整性二、数据仓库的功能和特性1面向主题

主题:用户使用数据仓库进行决策时所关心的重要方面。(如,销售情况、利润情况、客户情况)面向主题:数据仓库中的信息是按主题进行组织的,为按主题进行决策的过程提供支持。(尽管数据仍以表方式存储,但数据组织和建模方法已不同)需要数据库设计、应用开发、系统维护等方面进行复杂的大量工作。由此可见,操作型的环境涉及到事务管理,封锁管理,死锁管理,数据备份恢复,系统日志管理,数据存储管理等一系列复杂技术。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM4数据的一致性和完整性二、数据仓库的功27DW&DM计费数据库客户服务数据库市场信息数据库帐务数据库收益数据客户数据市场数据图1-11数据仓库面向主题的特性现有业务系统2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM计费数据库客户服务数市场信息数帐务数据库收益数据客28DW&DM客户标识号客户姓名客户年龄客户地址...客户基本信息表客户呼叫记录表客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率......客户话费表客户标识表客户本月总话费本月月租费本月通话费本月短信费...客户标识号客户咨询内容咨询答案...客户咨询表图1-12属于相同主题域的数据集合使用相同的公共键码连接2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM客户标识号客户基本信息表客户呼叫记录表客户标识号29DW&DM2数据的集成性

OLTP建表的数据在多个库中抽取→蜘蛛网问题OLAP要求数据的一致性→集成的(李强,李强)

图2-8所示中,示例了一个数据集成的例子,某电信公司建立数据仓库时包括了客户这个主题,公司的业务系统中,客户的信息分散在各个业务数据库中,需要从客户基本信息表,客户呼叫记录表,客户话费表,客户咨询表等表中将数据提取并进行集成。图2-9示例了在实际问题中可能遇到的需要进行数据转换的工作。

数据的集成性需要对数据进行ETL,特别是转化和清洗,其中,要注意的问题:⑴数据格式⑵测量单位⑶数据代码⑷数据名称数据的集成是动态的,不是静态的。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2数据的集成性OLTP建表的30DW&DM客户基本信息表客户标识号客户姓名客户年龄客户地址...客户呼叫记录表客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率...客户话费表客户标识号客户本月总话费本月月租费本月通话费本月短信费...客户咨询表客户标识号客户咨询内容咨询答案...客户标识号客户姓名客户年龄客户地址...客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率...客户标识号客户本月总话费本月月租费本月通话费本月短信费...客户标识号客户咨询内容咨询答案...图1-13数据从操作型环境提取到分析型环境的同时进行数据集成2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM客户基本信息表客户标识号客户呼叫记录表客户标识号客31DW&DM客户信息表客户呼叫记录表客户话费表客户咨询表

1

0

F

M

女男

fmA表通话时长B表通话时长C表通话时长2小时

120分钟7200秒客户信息表客户呼叫记录表客户话费表客户咨询表nameuser_nameUSERNAMENAME客户信息表客户呼叫记录表客户话费表客户咨询表姓名姓名姓名姓名char(10)

varchar(10)

char(12)

varchar(20)统一编码/编码间转化统一度量单位统一变量命名统一字段格式集成后数据图1-14数据集成中数据转化的工作2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM客户信息表客户呼叫记录表客户话费表客户咨询表132DW&DM任务调度:定期进行数据刷新业务系统数据清洗,转换整理数据仓库图1-15数据刷新示意进一步考虑,决策支持系统需要的不是静态的集成,而是动态的集成。静态集成的最大缺点在于数据集成后数据源中的数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。因此数据仓库必须能够使集成数据以一定的周期(例如24小时)进行刷新,使决策者能够使用新增的数据,其过程如图1-15所示。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM任务调度:定期进行数据业务系统数据清洗,转换整理数33DW&DM3数据的稳定性OLTP中的操作——存入、查询、修改、删除OLAP中的操作——存入、查询(注意:两个存入的不同)

数据仓库中,数据一旦写入,就不再变化了。所以,也可以把数据仓库看作是一个虚拟的只读存储器。我们在图中演示了一个简单的例子。例如在3月23日,100号顾客的消费金额变成250元,这一信息在业务系统中被更新了。但是在数据仓库中(假定数据仓库每天进行一次数据提取),3月23日的数据提取结果是在数据仓库中增加了记录XXX,说明100号顾客在3月23日的消费金额为200元,在执行3月24日的数据提取工作后,原先记录的XXX并没有发生任何的改变,而是在数据仓库中增加了一条新的纪录YYY,说明100号顾客在3月24日的消费金额为250元。可见,数据仓库实际上是为100号顾客的消费行为进行了定期的拍照,并将快照存储起来后供后续的分析工作使用。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM3数据的稳定性OLTP中的34DW&DM客户号:100费用(元):200客户号:100费用(元):250记录号:XXX时间:3月23日客户号:100费用(元):200记录号:XXX时间:3月23日客户号:100费用(元):200记录号:YYY时间:3月24日客户号:100费用(元):250业务运营系统数据仓库系统数据仓库中增加一个记录3月23日数据抽取3月24日数据抽取数据更新图1-16数据仓库的数据稳定性2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM客户号:100客户号:100记录号:XXX记录号:35DW&DM4数据随时间变化的特性

OLTP的存入=修改OLAP的存入=增加(数据保存大约5—10年)数据仓库——记录系统的各个瞬态,并通过各个瞬态的连接形成动画。

由于在数据仓库中数据只增不删,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬间,并通过各个瞬间连接起来形成动画。从而在数据分析的时候再现系统运动的全过程。数据提取的周期实际上决定了动画间隔的时间,数据提取的时间短,则动画的速度快,图1-17示意了这个特点。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM4数据随时间变化的特性2.1数据仓库的36DW&DM业务系统的运营数据仓库的快照集合t1t2t3tn图1-17数据仓库数据随时间变化的特点2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM业务系统的运营数据仓库的快照集合t1t2t3tn图37DW&DM5多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)

——支持决策三、数据仓库的工作目标2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据数据库系统中硬件资源利用率曲线数据仓库系统中硬件资源利用率曲线时间时间0%0%100%100%DW&DM5多维性数据是带有时间轴的→数据是多维的38DW&DM一、数据仓库的数据组织形式数据仓库的数据级别:早期细节级当前细节级轻度综合级高度综合级1.5数据仓库的数据组织2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM一、数据仓库的数据组织形式数据仓库的数据级别:早39DW&DM后备数据后备数据后备数据后备数据高度细节级轻度细节级当前细节级早期细节级图1-18数据仓库的数据组织结构图2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM后备数据后备数据后备数据后备数据高度细节级轻度细节40DW&DM如图1-19,所示是一个数据仓库数据组织的示例。由于客户的呼叫数据的数据量很大,并且数据仓库的使用者常常只关心近期的细节数据,因此我们可以在系统中只保留近三个月的呼叫数据,而将3个月之前的详细数据到处到备份设备中。在数据仓库中,细节数据可以聚合成轻度和高度综合级别的数据,比如按“月”、“季度”、“年”统计,需要说明的是轻度和高度是一种相对的概念,而没有绝对的边界,并且在数据仓库中数据的综合程度常常有很多的级别。在2001/3时,系统保留了从2001/1~2001/3的呼叫详细数据,等到2001/4月,2001/1的细节数据被导出,保留的是从2001/2~2001/4的呼叫详细数据。实际上综合数据也可能被导出系统,比如企业的管理者认为企业的决策只同企业近15年来的运营数据有关,则15年前的综合数据也可以导出。对于高度综合的数据,由于其数据量已经很少,所以一般不考虑它们的导出问题。总的来说,数据仓库的这种组织方式的核心思想是在系统中保留最有可能被客户使用的数据,而用户很少使用的数据则备份出系统。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM如图1-19,所示是一个数据仓库数41DW&DM当前细节级轻度综合级高度综合级最近3个月(2001年1月-2001年3月)客户呼叫详细数据1995-2001年按月统计的客户呼叫信息1995-2001年按季度统计的客户呼叫信息1995-2001年按年统计的客户呼叫信息2001年1月以前的呼叫详细数据2001/3数据仓库中数据的状态最近3个月(2001年2月-2001年4月)客户呼叫详细数据1995-2001年按月统计的客户呼叫信息1995-2001年按季度统计的客户呼叫信息1995-2001年按年统计的客户呼叫信息2001年2月以前的呼叫详细数据2001/4数据仓库中数据的状态图1-19数据仓库数据组织示例2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM当前细节级轻度综合级高度综合级最近3个月1995-42DW&DM二、数据的颗粒度数据粒度越小→信息越细节→数据粒度级别越低→数据量越大数据粒度越大→综合度越高→数据粒度级别越高→数据量越小数据粒度的两种形式:⑴是对数据仓库中数据的综合程度的度量

如图所示的例子,按照每“月”统计的客户呼叫数据和按照每次呼叫记载的客户呼叫数据,两者的数据量相差极大。我们假定每个字段为8个字节,每个用户一天进行5次通话,则一个客户一个月的呼叫细节数据的数据量为:8×6×30×5=7200字节,而一个客户1个月的呼叫汇总数据的数据量为8×4=32字节。图1-20所示细节数据和综合数据用途上的差异。图1-21所示的细节数据和综合数据在回答综合问题上代价的差异。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM二、数据的颗粒度数据粒度的两种形式:⑴是对43DW&DM8X630X58X4客户呼叫记录表客户呼叫记录按月汇总表客户标识号客户呼叫时间客户呼叫地点客户呼叫号码呼叫时长呼叫费率客户标识号月份呼叫总时长呼叫总次数图1-20按“月”统计的客户呼叫数据和按每次呼叫记载的客户呼叫数据2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM8X630X58X4客户呼叫记录表客户呼叫记录客户44DW&DM细节数据综合数据综合数据能够回答的问题:王五这个月打了几个电话?王五这个月的通话总时长是多少?细节数据回答的问题:王五这个月3号在北京打了几个电话?王五这个月3号给李明打过电话妈?通话时间是多少?图1-21综合数据和细节数据的用途不同2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM细节数据综合数据综合数据能够回答的问题:细节数据回45DW&DM细节数据综合数据综合数据回答综合问题,只需在访问很少的数据细节数据回答综合问题需要访问大量的记录,进行大量的计算。图1-22综合数据和细节数据回答综合问题的代价不同2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM细节数据综合数据综合数据回答综合问题,只需在访细节46DW&DM从图中我们可以看出,综合程度不同的数据其用途不同,在数据仓库多重的数据粒度是必不可少的,但是由于数据仓库最主要的目的是反映企业整体信息和DSS分析,回答综合程度较高的问题。如果为了回答许多细节问题,而使系统的数据量极度膨胀,从而降低系统的运营效率,就背离了系统建设的初衷,这也是我们在数据仓库数据组织方式中说明的,对细节数据和综合数据采用不同综合策略的原因。实际的工程项目中,我们可以将综合程度较高的数据存放在访问速度较高的磁盘上,而将细节数据定期导出到低俗的磁带上。例如,我们将近三个月的呼叫细节数据和按月综合的数据、按年综合的数据放在高速磁盘上,而将以往的细节数据放在低俗磁带上,如图1-23所示。需要注意的是:从数据仓库中导出的数据仍然属于数据仓库,只是在存储介质上发生了变化。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM从图中我们可以看出,综合程度不47DW&DM3个月内的客户呼叫细节数据

3个月以前的客户呼叫细节数据高速磁盘低速的磁带设备5年内按月综合的呼叫数据

10年内按年综合的呼叫数据

图1-23不同的数据采用不同的存储介质2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM3个月内的客户3个月以前的客户呼叫细节数据高速磁盘48DW&DM⑵针对数据挖掘——统计中的抽样样本空间(数据挖掘常常会使用非常负责的算法(如神经元网络),其计算的复杂度较高,如果我们将数据仓库中存放的巨量数据直接运算,则计算时间和空间复杂度将太高,以致于系统难以承受。因此我们在进行数据挖掘时,需要对数据仓库中的数据进行抽样。粒度的第二种形式是指抽样率,即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库,数据挖掘将在这个样本数据库上进行,如图2-20。这样抽象的思想是合理的,因为我们进行数据挖掘是为了建立分析模型,反映事务发展的规律和趋势。由抽样带来的模型误差可以在模型建立之后再次使用源数据对模型进行校验和调整,这样可以大大缩短模型建立的时间,提高模型的精确度。实际上,数据挖掘通过循环不断地改进分析模型,如图1-24所示。

2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM⑵针对数据挖掘——统计中的抽样样本空间(49DW&DM数据仓库样本数据库数据挖掘算法以一定抽样率进行抽样图1-24使用样本数据库进行数据挖掘2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM数据仓库样本数据库数据挖掘以一定抽样率图1-2450DW&DM数据仓库样本数据库数据挖掘算法(1)以一定抽样率进行抽样(2)通过挖掘建立模型(3)使用源数据进行校验(4)再次进行循环分析模型图1-25数据挖掘的循环2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM数据仓库样本数据库数据挖掘算(1)以一定抽样率进行51DW&DM评价抽样率和抽样方法是否合适,关键在于抽样得到的样本是否能够反映源数据集合的特征,图1-26所示一种常见的评价方法:通过比较样本集合间的数值特征来评价本集合和元数据之间的相似性。如:我们使用某种抽样方法进行随即抽样,得到样本1和样本2,然后比较这两个样本集合之间如均值、方差等数值特征,如果这两个样本的数值特征不类似,则继续抽样。等到抽样获得的样本4,样本5和样本6它们的数值特征非常的相似,则认为再继续进行抽样的样本集合的数值特征也都类似,并且都同数据源具有类似的特征,抽样的过程到此即可以结束,过程如图1-26.2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM评价抽样率和抽样方法是否合适,关52DW&DM源数据样本1样本2样本3样本4样本5样本6抽样1抽样2抽样3抽样4抽样5抽样6图1-26数据抽样的评价方法2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM源数据样本1样本2样本3样本4样本5样本6抽样1抽53DW&DM三、数据分割:

将数据分散到各自的物理单元中,以便能够独立处理,提高数据处理的效率,数据分割后的数据单元成为:分片。数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。分割方法常常可以选择时间、地点、业务领域来划分。如图1-28所示,显示了按照地理位置进行的一个分割。如果涉及的数量非常大,可爱按照问题的需求从多个角度进行分割,例如按照时间和地理位置两个角度进行分割,如图1-29。按照时间进行分割符合数据仓库数据随时间变化的特点,并且分割后数据分布比较均匀,所以是最常见的分割方法。

分割使得数据可以更容易索引、监控和顺序扫描,并且重构、重组简单。重构是分割的反面,而重组是对分割的数据进行新的组合,如图1-27所示。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM三、数据分割:将数据分散到各自的物理单54DW&DM1995…1996…1997…1998…1999…2000…2001…1995…1997…1999…2001…1996..1998…2000…70,000,000条记录10,000,000条记录图1-27数据在时间上的分割2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM199519951997199920011996155DW&DM中国各地区的产量福建上海宁夏贵州…图1-28按照地理位置分割1999…2000…2001…1999福建…34340,000条记录30,000,000条记录1999广东…1999山西…………………2000福建…2000广东…2000山西…2001福建…2001广东…2001山西…图1-29按照时间和地理位置分割2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM中国各地区的福建上海宁夏贵州…图1-28按照地理56DW&DM1995-20011995199619971998199920012000分割重构1996-19971998-20002001重组图1-30重构和重组2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM1995-2001199519961997199857DW&DM四、数据仓库的数据组织形式(发展过程中出现)⑴简单堆积文件数据由数据库中提取后逐天存储简单直接文件(对数据库进行快照(不一定按天),并存储)(图1-31)⑵定期综合文件数据存储单位被分成日、周、旬、月、季、年等多个级别,定期进行综合(图1-32)

优点:存储量小;缺点:细节在综合中丢失2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM四、数据仓库的数据组织形式(发展过程中出现)⑴58DW&DM2001/1/12001/1/22001/1/3……2001/2/12001/2/22001/2/3业务系统数据库快照图1-31简单堆积文件……2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1/12001/1/22001/1/3…59DW&DM2001/1/12001/1/2…2001/1/72001年第1周2001年第2周…2001年第7周2001年1月2001年2月…2001年12月2001年1季度2001年2季度…2001年4季度2001年数据综合逐渐增加图1-32定期综合文件(丢失细节换空间)2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1/12001/1/2…2001/1/760DW&DM⑶连续文件连续文件保留了简单堆积和定期综合的优点(图1-34,1-35,1-36)在简单堆积文件中,每天的数据表中有很多雷同的信息,如图2-29所示的某商场2001/1和2001/2的两张采购表,其中“牙膏”和“毛巾”在两个表都出现了。牙膏在2001/1是从上海购买的,而2001/2是在北京购买,其他的信息都相同。如果能够记录两表之间不同的信息,则既能保留细节信息,又能大大减少数据量。图1-35中显示了对两张表使用连续文件的形式进行存储的结果。对于两个表中相同的表项“毛巾”,只需在时间列上说明使用范围是“2001/1-2001/2”,对于两表不同的表项分别记录。随着时间的推移,如果又有新的数据表加入,则我们可以使用连续文件和新的数据表进行类似的处理,以达到“两全其美”的目的。如图2-31所示,我们将2001年1月~2001年2月的连续文件和2001年3月的新文件进行综合,而后得到2001年1月~2001年3月的连续文件。但是,我们应当指出:连续文件增加的“时间”列也会为查询带来一定的不便。一个系统某些性能的提高,总是通过牺牲其他的性能来获得的。注意:连续文件的缺点是给查询带来不方便2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM⑶连续文件注意:连续文件的缺点是给查询带来不方61DW&DM2001/1月采购表2001/2月采购表图1-34某商场2001/1和2001/2的两张采购表商品编号商品名购买地点1牙膏上海2毛巾广州4水杯深圳商品编号商品名

购买地点1牙膏北京2毛巾广州3笔杭州6裤子宁波2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1月采购表2001/2月采购表图1-3462DW&DM2001/1月采购表2001/2月采购表1商品编号商品名购买地点121商品编号商品名购买地点124牙膏毛巾水杯上海广州深圳3毛巾牙膏笔北京广州杭州6裤子宁波2001/1—2001/2月采购表商品编号112346商品名牙膏牙膏毛巾笔水杯裤子购买地点上海北京广州杭州深圳宁波时间2001/12001/22002/1-2001/22001/22001/12001/2图1-35连续文件示例2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1月采购表2001/2月采购表1商品编号63DW&DM2001/1—2001/2月采购表商品编号112346商品名牙膏牙膏毛巾笔水杯裤子购买地点上海北京广州杭州深圳宁波时间2001/12001/22002/1-2001/22001/22001/12001/22001/3月采购表1商品编号商品名购买地点123毛巾牙膏笔北京广州杭州6裤子宁波2001/1—2001/3月采购表商品编号112346商品名牙膏牙膏毛巾笔水杯裤子购买地点上海北京广州杭州深圳宁波时间2001/12001/2-2001/32002/1-2001/32001/2-2001/32001/12001/2-2001/3图1-36连续文件和新的数据表的结合2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1—2001/2月采购表商品编号112364DW&DM五、数据仓库的数据追加技术数据组织结构数据组织形式解决数据存储问题数据仓库完成数据的初始加载后,还需要不断地增加新数据数据追加技术→关键是捕获数据变化→把变化记录下来⑴时标法给(数据库)中的数据增加一个时间标记,当检索到新的时间标记时,把带有新时间标记的记录作为数据仓库的数据追加内容。如图1-37,在完成2001/1的数据导入工作后,2001/1/2日数据条目(2001/1/1,1,牙膏,上海)发生了变化,则将其时间标记改成2001/1/2,这样在执行2001/1/2的数据导入工作时,数据库将会检索到的具有新时间标记的条目(2001/1/2,1,牙膏,北京)作为数据追加的内容。问题:一般数据库不会增加时间标记(因为时间标记对于OLTP没有意义)2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM五、数据仓库的数据追加技术数据组织结构解决数据存储65DW&DM比较时间标记,发现比2001/1/1更新的时间标记的记录追加进数据仓库时间标记商品编号商品名购买地点2001/1/12001/1/112牙膏毛巾上海上海时间标记2001/1/22001/1/1商品编号12商品名牙膏毛巾购买地点北京上海2001/1/21牙膏北京2001/1/1完成数据导入后2001/1/2再次数据导入图1-37时标法2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM比较时间标记,发现比2066DW&DM⑵前后映像比较法对数据库进行快照,把当前快照和原来快照作比较,决定数据追加内容(图1-38)。缺点:数据库数据量大时,全数据库比较无法做到。

⑶DELTA文件法从应用程序中记录修改了哪些数据,形成DELTA文件,作为数据追加内容(图1-39)。(很难使所有应用程序都支持DELTA文件功能)⑷日志文件法由数据库服务器详细记录数据操作,形成数据库日志文件,通过分析数据库日志文件,获取数据变化情况,得到数据追加内容图1-40中我们示意了一段简化了的系统日志,它包含操作时间、操作人员、操作内容、操作结果(包括正确和错误)等基本信息。我们可以通过对数据追加任务完成后新生成的系统日志进行分析,得到追加内容。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM⑵前后映像比较法对数据库进行快照,把当67DW&DM原先业务数据库当前业务数据库快照1快照2比较后追加图1-38前后映像比较法业务数据库应用程序DELTA文件:记录应用程序对业务数据成功的修改对于修改操作图1-39DELTA文件示意图2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM原先业务数当前业务数快照1快照2比较后追加图1-368DW&DM应用程序a应用程序b应用程序c数据库服务器业务数据库系统日志:记录所应用程序对业务数据库的访问情况图1-40日志文件法2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM应用程序a应用程序b应用程序c数据库服务器业务数69DW&DM2001/1/1:9:00:LiMingUPDATE=‘林冲’WHEREuser_id=100;2002/1/1:9:01:LiMingSELECT*FROMWHEREuser_id>100;2001/1/1:9:02:saUPDATE=‘林胜之’WHEREuser_id=100;2001/1/1:9:03:saCREATETABLEuserinfo………查询性质的操作可以不做处理对user表的两种操作,只需执行第二次删除操作图1-41分析日志文件六、清理数据仓库中的数据◆数据从操作型环境进入分析型环境;◆数据从细节数据逐渐转换为综合数据;◆数据从高速磁盘上转移到低速磁带机上;◆数据失去使用价值,最终被清除。——数据在数据仓库中的生命周期数据仓库中清理的过程如下:2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM2001/1/1:9:00:LiMingUP70DW&DM一、ODS的概念

问题:企业经常会遇到介于OLTP和OLAP之间的业务问题

例:超市采购

采购部经理——确定进货清单了解商品存货是否充足商品近期的销售情况近期的仓储情况超市的现有资金情况…分析→进货清单数据仓库数据量太大→信息检索时间太长→无法完成问题类型:既要方便分析,又要快速进行数据检索,同时,数据应该是全局一致的信息

用于支持企业日常的全局应用的数据集合。1.7操作数据存贮ODS(OperationalDataStore)2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据ODS定义ODSDW&DM一、ODS的概念1.7操作数据存贮O71DW&DM二、ODS的特性类似于传统的数据库

引入数据是可变的;

数据是当前或者近期的(ODS市面向全局应用的,因此ODS中的数据需要面向主题来组织,并且应当是实时集成的)有别于分散的操作型系统

数据按照主体来组织在企业级上要求保持一致,因此进入ODS的数据必须经过清洗和整理到达集成和一致的目的区别于DW的特性

存放当前和近期的数据,ODS中的数据可以进行联机修改,包括增加、删除、更新等操作,而DW的数据只增不删。

2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据DW&DM二、ODS的特性2.1数据仓库的体系结构2.272DW&DM三、ODS应用⑴企业级的OLTP应用由于ODS提供的是集成的、企业级一致的数据,因此,企业级的OLTP成为可能。企业级OLTP:是指在实际事物的处理中,常常涉及多个部门的数据,需要通过多个部门的数据协同才能更好的完成任务。2.1数据仓库的体系结构2.2数据仓库的特点2.3数据仓库的数据组织2.4数据仓库建设的两条技术路线2.5操作数据存储ODS2.6外部数据和非结构数据实例:在一个大型国有企业中存在多个部门:人事处、财务处、企业医院、幼儿园等。当一个职工工作调动时,需要办理企业规定的一系列调动手续。如图2-40所示。DW&DM三、ODS应用⑴企业级的OLTP应用2.173DW&DM人事处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论