版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CRM与数据仓库基本内容1.1数据仓库概述 1.2客户关系管理中的数据仓库 1.1数据仓库概述数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。利用数据仓库,企业可以对客户行为进行分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性能。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中建设数据仓库。1.1.1数据仓库的产生早期的数据库主要支持联机事务处理传统数据库系统不适宜决策支持应用事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题(1)事务处理和分析处理的性能特性不同。所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集地越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、数据不一致问题、外部数据和非结构化数据。(3)数据动态集成问题。静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些
变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。(6)操作繁简问题。业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。而数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。1.1.2数据仓库的概念和特征目前,数据仓库一词尚没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作《BuildingtheDataWarehouse》一书中给予如下描述:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库概念的两个层次功能上:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库四个特点-面向主题传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有完全实现数据与应用的分离。但这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一领域所涉及的分析对象,即将数据组织成主题域。例如,在银行经营运作中,业务(存款、贷款、汇兑)、货币、客户、机构、会计科目是其主要构架或方向,因此在银行业务数据仓库中,选择业务、货币、客户、机构、会计科目五个主题,并将会计科目作为连接其他四个主题的交易主题进行处理。面向主题可以独立于数据处理逻辑,适用于分析型数据环境,适用于建设企业全局数据库;数据仓库四个特点-集成的面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。应用问题的设计人员历经多年制定出来的不同的设计决策有很多种不同的表示方法,没有什么应用在编码、命名习惯、实际属性、属性度量等方面是一致的,各个应用问题设计员自由地做出他或她自己的设计决策。数据仓库中的数据是集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。在数据仓库建设中,这是最关键最复杂的一个步骤,主要工作有:一是,进行数据的综合和计算;二是,统一源数据中所有不一致和矛盾的地方(如同名异义、异名同义、字长不一致、单位不一致等)。数据仓库四个特点-相对稳定的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库四个特点-相对稳定的数据仓库四个特点-反映历史变化操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。数据仓库四个特点-反映历史变化数据仓库本质数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析决策使用。数据仓库所要研究和解决的问题就是从数据库中获取信息。1.1.3数据仓库的内容数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。存储和管理数据仓库的真正关键之处是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。数据的表现数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。1.1.4数据仓库系统的体系结构数据源数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。数据的存储与管理数据的存储与管理是整个数据仓库系统的核心。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。OLAP服务器OLAP服务器对分析所需数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。1.2客户关系管理中的数据仓库1.2.1CRM与数据仓库的关系CRM的业务整合需要数据仓库数据清理与集中需要数据仓库数据分析需要数据仓库1.2客户关系管理中的数据仓库1.2.2数据仓库的作用客户行为分析行为分组、客户理解、行为规律分析、组间交叉分析重点客户发现潜在客户、交叉销售、增量销售、忠诚客户个性化服务市场性能评估1.3数据仓库的项目实施数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产品。不同企业会有不同的数据仓库。企业人员往往不懂如何建立和利用数据仓库,发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据。这需要双方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过程。数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以“总体规划、分步实施、步步见效”为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。数据仓库提供了有效地存取和管理大量数据的理想环境,而数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。因此数据仓库的建立可以从数据、技术和应用三方面展开。1.3数据仓库的项目实施数据仓库的项目实施1.3.1项目计划项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经验。1.3.2业务需求分析业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护人员进行深入的沟通。1.3.3数据线数据线的实施可以分为模型设计、物理设计、数据预处理三个步骤,用以满足对数据的有效组织和管理。数据线-模型设计需求分析已经确定了用户业务分析所需要的数据。模型设计阶段将确定数据仓库系统将来的蓝图。数据仓库的逻辑设计一般采用星型模型和雪花模型设计其数据模型。包括选择合适的主题,确定事实表、相关的维、属性和粒度划分,设计正确的表结构和主键、外键关系等。模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实表。数据线-模型设计ER图数据线-模型设计三维透视图数据线-模型设计ER图中所示的数据模型中有四个相互关联的简单实体。如果数据库设计只需要考虑数据模型的话,可以推断所有的实体都是平等关系。换言之,从数据模型的设计角度来看,所有的实体之间的关系是对等的。仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。实际上,由于种种原因,数据仓库的实体绝不会是相互对等的。一些实体,要求有它们自己的特别处理。为了明确为什么从数据模型的角度看一个组织中的数据和关系会发生失真,根据在数据仓库中建立实体时将载入数据实体的数据量,我们来考虑数据仓库中数据的一种三维透视。三维透视图表明了这种三维透视。代表供应商、客户、产品、发货的实体被稀疏地载入,而代表订单的实体则大量地载入。将会有大量的数据载入代表订单实体的表中,而在代表别的实体的表中载入的数据量则相对较少。由于大量的数据要载入订单实体,因此需要一种不同的设计处理方式。数据线-模型设计用来管理数据仓库中载入某个实体的大量数据的设计结构通常用“星型连接”。首先确立主题,订单是有大量数据的重要主题,那么“订单”位于星型连接的中央。在其周围分别是“产品”、“客户”、“供应商”和“发货”实体。这些实体仅仅会产生不大的数据量。星型连接中央的“订单”被称作是“事实表”,而其周围的其他实体—“产品”、“客户”、“供应商”和“发货”则被称为“维表”。事实表包含了“订单”独有的标识数据,也包含了订单本身的独有数据。事实表还包含了指向其周围的表—维表的外键。数据线-模型设计数据线-模型设计创建和使用星型连接的一个有趣的方面是,在很多情况下,文本数据与数值数据是分离开的。文本数据常出现在维表中,数值数据常出现在事实表中,这种划分似乎在所有情况都会发生。数据线-模型设计数据线-模型设计创建和使用星型连接的好处是可以为决策支持系统的处理优化数据。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据,这正是数据仓库所需要的。如果不是在决策支持系统数据仓库环境中使用星型连接,则会有很多的缺点。在决策支持系统数据仓库环境以外,常有数据更新,而且数据关系的管理要在秒的一级上进行。在这种情况下星型连接在创建和维护上就是很麻烦的数据结构。但是由于数据仓库是一个装载—访问环境,它包括很多历史数据,且有大量的数据要管理,因此,星型连接的数据结构是十分理想的。数据线-模型设计雪花模型。雪花模型是对星型模型的扩展,每个维表都可以向外连接到多个详细类别表。雪花模型对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。在维表上连接对事实表进行详细描述的详细类别表,达到了缩小事实表,提高查询效率的目的。数据线-模型设计数据线-模型设计雪花模型的优点是:通过最大限度的减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。数据线-物理设计物理设计的主要任务是定义支持模型设计必需的物理结构。其过程包括以下三个方面:1)确定物理存储结构;2)确定索引策略;3)确定存储分配。数据线-数据处理(1)数据预处理。它是数据仓库设计工程中非常重要的过程,它由三个主要步骤组成:抽取(Extraction)、转换(Transformation)、加载(Load),简称ETL。抽取过程将会暴露源系统中数据的质量问题。由于数据的质量严重影响着数据仓库的可信程度,因此在数据预处理过程中,需要提高数据质量,让数据仓库使用真正有效的数据。目前有很多工具可以帮助用户完成数据抽取、转换和装载工作,但是还有相当一部分工作是要手工编程来完成的。根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。例如,有两个数据源存储与人员有关的信息,在定义数据组成的人员编码类型时,可能一个是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是char(2),存储的数据值为“男”和“女”,而另一个属性类型为char(1),数据值为“F”和“M”。这两个数据源的值都是正确的,但对于目标数据来说,必须加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这样才能保证数据的质量。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的真正统一。(2)数据使用。(3)数据维护。数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。1.3.4技术线技术线的实施分为技术选择和产品选择两个步骤。如何采用合理有效的技术是实现一个好的数据仓库系统的基本条件。在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术。技术体系选择必须从为这些技术建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、计划的策略技术方向。技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平台、ETL工具、OLAP服务器、数据展现工具等,并进行产品的安装和测试。现在市场上的数据仓库产品有很多,数据仓库厂商通常都提出了自己的一系列解决方案,限于篇幅,在这里不再展开,而主要着眼于数据仓库实现的一些关键技术,以便对数据仓库的建立有更深层的理解。1.3.5应用线应用线的实施分为应用设计和应用开发两个步骤。数据仓库的建立最终是为应用服务的,所以需要对应用进行设计和开发,以更好地满足用户的需要。数据仓库的建立是为满足用户的不同查询需求服务的,用户的需求可能是只访问一些预定义的查询、生成报表等简单操作,也可能是自己定义复杂的查询,直接分析数据仓库中存放的各种数据。因此,需要设计合适的应用工具,为不同的用户提供友好的用户界面。应用设计和开发的一个有效办法是针对不同的用户需求,设计和实现标准的用户应用模板,提供给用户高效的接入方式。应用设计的任务是设计标准的用户应用模板。应用设计的过程一般包括:确定初始的模板集、设计模板的标准、设计详细模板、最后通过用户反馈进行改进。应用开发是通过应用设计说明书,按照标准的软件开发流程,实现模板的设计。应用开发的一般过程是选择实现的方法,然后进行模板的实现、测试和数据验证,最后是应用模板的维护。应用是数据仓库建立的最终目的,对于应用提出的要求,数据仓库建立过程中是必须加以充分考虑的。1.3.6系统运行维护数据仓库建成后就进入运行维护,在运行中要不断验证评价分析设计是否符合用户需求,产生出新的分析要求及时反馈回需求分析,进行系统设计的改进。运行维护分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信息的一致性。数据仓库实施总的来说,数据仓库的实施是为了建立一个良好的数据组织和管理环境,以满足决策支持的需要。数据仓库包含了数据、技术、应用三方面的要求,所以只有把良好的数据模型、合理的技术和准确的应用设计结合起来,形成一套有效的方法,才能建立起一个成功的数据仓库。数据仓库系统的设计是一个动态反馈和循环的过程,以上只完成了数据仓库建立的一个生命周期。在实际建立的过程中,一方面数据仓库的数据内容、结构、粒度和其他物理设计需要根据用户的反馈信息不断地调整完善;另一方面,应用环境发生重大变化或者新技术出现,都有可能导致用户的应用需求发生重大变化,使现有系统不能满足用户要求,需要重新设计系统,开始一个新的生命周期。因此,数据仓库的建立是运用一套有效的数据仓库建立方法不断反复循环的过程。粒度问题粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。粒度级别低粒度级,每个活动(如一次电话)被详细记录下来。高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录。粒度级别比较低粒度级,每个活动(如一次电话)被详细记录下来,数据的格式如图所示。到月底每个顾客平均有200条记录(全月中每个电话都记录一次),因而总共需要40000个字节。高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需200个字节。显然,如果数据仓库的空间很有限的话(数据量总是数据仓库中的首要问题),用高粒度级表示数据将比用低粒度级表示数据的效率要高得多。高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。然而数据量大小和原始空间问题不是仅有的应考虑的问题。为了访问大量数据,其处理能力的大小同样也是应考虑的一个因素。粒度的权衡粒度的双重级别企业既需要提高存储与访问数据的效率,又需要非常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑双重(或多重)粒度级是很有意义的。企业需要多个粒度级而不是一个粒度级的需求,是因为粒度级设计采用双重级别应该是几乎每个机构默认的选择。数据仓库包括两种类型的数据:轻度综合数据和“真实档案”细节数据。“真实档案”细节数据。在操作层是大量的细节数据,其中大部分细节是为了满足结帐系统的需求。多达30多天的细节存放在这种操作层中。轻度综合数据库中的数据量比细节数据库中的数据量少得多。大部分DSS处理是针对被压缩的、存取效率高的轻度综合级数据进行的。如果什么时候需要分析更低的细节级(5%时间或更少的可能),可以到数据的真实档案层。鉴于费用、效率、访问便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好选择。数据仓库中的数据组织简单堆积。轮转综合。简单直接。连续。简单堆积结构数据仓库中最简单最常用的数据组织形式也许是简单堆积结构。从操作型环境中取出每天的事务处理,然后综合成数据仓库记录,这个综合可根据顾客、帐目或者任何组织到数据仓库的主题领域来进行。这里的事务处理是以天来进行综合。换句话说,对一个顾客的一个帐号的每天的所有活动进行合计,并在一天一天的基础上输入数据仓库。轮转综合数据存储轮转综合数据存储。数据先用与前面相同的处理方法从操作型环境输入到数据仓库环境中。然后定期进行轮转综合。第一周的七天中的活动被逐一综合到七个每日相应的位置,到第八天,将七个每日位置的数据加到一起,并放入第一周的数据位置中。然后,第八天的每日总计加到第一个每日数据位置。月底将每周位置的数据加到一起,并放入第一个每月相应的数据位置处,然后每周数据位置清零。到了年底,将每月位置数据加到一起,放入第一个年度相应的数据位置处,然后每月数据位置清零。轮转综合数据存储简单堆积vs轮转综合简单直接文件数据仅仅是从操作型环境拖入数据仓库环境中,并没有任何累积。简单直接文件不是在每天的基础上组织的,而是以较长时间为单位的,比如一个星期或一个月。简单直接文件是间隔一定时间的操作型数据的一个快照。连续文件依据两个或更多的简单直接文件能生成一种连续文件。把1月份和2月份的两个数据快照合并,创建数据的一个连续文件。连续文件中的数据代表从第一个月到最后一个月的连续数据。当然,连续文件也可以通过把一个快照追加到一个以前生成的连续文件上来创建。从直接文件创建一个连续文件简单直接文件追加到连续文件数据仓库环境中的元数据元数据作为数据的数据,可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。在数据仓库环境中的元数据所扮演的角色和在操作型环境中数据所扮演的角色是不同的。在操作型环境中,元数据几乎被当成文档来处理并且降低到同样的重要性级别。然而,在数据仓库环境中,元数据的重要性提高了。数据仓库环境中的元数据操作型数据和数据仓库中的数据服务于两类不同的群体,操作型数据由IT专业人员使用,许多年来IT人员都是偶然地使用元数据。IT专业人员不仅懂计算机,而且由于学历背景和所受的培训,他们会在系统中找到他们自己的方法。然而,数据仓库数据是给DSS分析者用的。DSS分析人员通常首先是专业人员,他们通常没有很高的计算机水平。为了能够有效地使用数据仓库环境,DSS分析人员需要尽量多的帮助,而元数据恰能很好地帮助他们。另外,在DSS分析者计划该怎样去做信息型/分析型处理时,他们要首先去看元数据。由于所服务的人员的种类不同,以及元数据在每天的工作中所起的作用不同,元数据在数据仓库环境中比在操作型环境中重要得多。元数据的类型-按类型分类(1)关于基本数据的元数据。基本数据:数据源、DW、数据集市、和应用成序管理的所有数据。基本数据元数据:包括定义、结构的所有描述。(2)用于数据处理的元数据对数据装载、更新处理、分析处理、管理方面的信息,如数据抽取、转换、聚合规则等的描述。(3)关于企业的组织结构的元数据包括与企业相关的管理方面的数据和信息,如用户访问DW、数据源、数据集市的权限信息等等。元数据的类型-按抽象级别分类(1)概念级:包括业务的全部描述,如定义主要的业务实体、特征及其相互关系。系统的使用方法,已定义的查询,视图和现有的应用等相关的信息。(2)逻辑级:包括数据库的关系方案,逻辑多维模型等一般用伪码或数学语言描述数据抽取/转换规则等。(3)物理级:包括业务规则相应的SQL代码、关系的索引文件、分析应用的代码。元数据的类型-按承担任务分类静态元数据。静态元数据主要与数据结构有关。名称类——用于为系统提供标识时,区分数据的符号。描述类——对DW中的多种数据元素进行说明。格式类——提供DW中数据的表达规则。数据类型——DW中数据所持有的类型。关系类——说明DW中多种数据对像之间的关系,例如客户与商品之间有购买关系。域类——用于说明DW中数据的有效值范围。业务规则类——用于说明DW中数据在业务处理中所要遵守的规则。例如Customer_ID表示客户的编号,开头字母为A表示集体客户,B为个人客户。动态元数据。动态元数据主要与数据的状态与使用方法有关。数据质量表——用于描述数据仓库中数据的精确度、完整性、一致性和有效性。统计信息类——统计数据访问的用户,访问时间和访问次数。这些统计信息对于数据仓库性能的提高具有较高的参考价值。状态类——用于跟踪DW的运行情况,例如,数据最近一次的备份时间,备份所需要的时间,出现的错误情况等状况。这些系统运行中的状况有助于DW管理人员对DW性能的了解。处理类——描述DW系统的使用方法和管理的特性,例如数据的使用方法概括数据的概括公式等。元数据的内容数据源的元数据数据模型的元数据数据准备区元数据DBMS元数据前台元数据元数据的内容-数据源的元数据每个来源的所有者描述信息每个来源的业务描述信息原始来源的更新频率每个来源使用的法律约束存取方法、存取权利、特权,以及来源的存取口令用来实现抽取过程的程序代码自动抽取工具设置特定抽取作业的结果信息,包括抽取时间、抽取内容以及完成情况元数据内容-数据模型的元数据企业概念模型DW数据模型数据源到目标的映射数据仓库环境中的元数据从操作型环境到数据仓库环境的映射需要数据转换元数据,没有这种映射,对接口进行控制是非常困难的。元数据的内容-数据准备区元数据(1)
数据传输调度以及特定传输的结果(2)
数据准备区文件使用情况(3)
用于连接来源、删除字段、查找属性的作业规范(4)
数据清洗规范(5)
数据增强和映射转换(6)
DM所要求的转换(比如解释空值的度量值)(7)
目标模式设计、来源到目标系统的数据流,目标数据的所有者(8)
聚集定义、聚集使用统计、基本表使用统计(9)
数据来源情况和审核检查记录(该记录真正来自何地、何时)(10)数据转换运行时间(11)数据转换软件的版本号(12)数据抽取处理的业务描述(13)有关抽取文件、软件以及元数据的安全性设置(14)数据传输的安全性设置(15)数据准备区的存档日志和恢复程序(16)数据准备区存档的安全性设置元数据的内容-DBMS元数据(1)
分区设置(2)
索引(3)
DBMS层次的安全性特权与授权(4)
视图定义(5)
存储过程与SQL管理脚本(6)DBMS备份状态、备份程序以及备份安全性数据仓库环境中的元数据对于数据仓库环境中的元数据需要细致管理有另外一个重要原因,仓库中数据会存在一段很长的时间—从5年到10年。而在5年到10年这么长的时间段内,数据仓库改变它的结构是很正常的。换句话说,一个数据结构能在5到10年内保持不变是很不平常的。那么,随着时间的流逝来跟踪数据结构的变化,则是数据仓库中元数据很自然的一项任务。数据仓库环境中的元数据元数据的内容-前台元数据(1)
业务名称和有关列、表以及分组的描述(2)
现有的查询和和报告定义(3)
连接规范工具设置(4)
打印工具规范(5)
最终用户文档(6)
网络安全性用户特权概况(7)
网络安全性身份验证证书(8)
网络安全性使用统计,包括登录尝试、存取尝试以及按位置报告的用户标识符(9)
个人用户概况(10)有关数据源、表、视图以及报告的使用及存取映射元数据在数据仓库中的作用元数据实际上是要解决人在何时、何地、何因、如何使用DW的问题。⑴为数据仓库服务与DSS分析员机高层决策人员服务提供便利。DW元数据的广义索引中存有每次数据装载时产生的有关决策的数据,在做决策时,可以先查询该部分数据,再决定是否进行进一步的搜索。⑵解决操作型环境和DW的复杂关系。从OLTP到DW的转换是复杂的多方面的。元数据应包括对这种转换的描述。并清晰的表示出来,管理起来。既保证这种转换是正确的、合理的,又要使其是可变的。灵活的。元数据在数据仓库中的作用元数据在数据仓库开发期间的使用。数据仓库的开发过程是一个构造工程的过程,必须提供清晰的文档。这个过程产生的元数据主要用于DW的应用管理目的。描述DW目录表的每个运作的模式,还须捕获用于数据的转化、净化、转移、概括和聚集的商业规则与处理规则。元数据在数据仓库中的作用元数据在数据源抽取中的作用。元数据对多个来源的数据集成发挥着关键作用。⑴资源领域的确定。利用元数据可以确定将数据元的哪些资源加载到DW中。⑵跟踪历史数据结构变化过程。⑶属性到属性的映射。⑷属性转换。元数据在数据仓库中的作用元数据在数据求精与重构工程上的应用。数据求精与重构工程负责净化资源中的数据、增加资源戳和时间戳,将数据转换为符合数据仓库的数据格式,预算概括和衍生数据的值。数据仓库主要应用数据仓库直接访问使用浏览分析工具在DW中寻找有用的信息。数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)。数据仓库主要应用在证券业的应用:可处理客户分析、帐户分析、证券交易数据分析、非资金交易分析等多个业界关心的主题,为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。在银行领域的应用:防范银行的经营风险、实现科学管理以及进行决策.在税务领域的应用:可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。
在保险业的应用:满足保险行业日益增长的各种查询、统计、报表以及分析的需求,提高防范和化解经营风险的能力,有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机.在客户服务及营销方面的应用:CRM在保健领域的应用:揭示出如何以较低费用获取较高质量的治疗策略趋势和模式.联机分析处理(OLAP)联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大量数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据分析的概念即OLAP。联机分析处理(OLAP)OLAP是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况。OLAP大部分策略都是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。这种多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它允许用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。共享多维信息的快速分析。OLAP特性(1)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。
(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。。(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLTPvsOLAP
OLTP细节的综合的或派生的当前的历史的可更新不可更新需求事先可知道需求事先不知道符合系统生命周期完全不同的生命周期对性能要求高对性能要求相对宽松事务驱动数据驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常事务支持管理需求
OLAPOLAP的多维数据概念多维结构是决策支持的支柱,也是OLAP的核心。OLAP展现在用户面前的是一幅幅多维视图。维是人们观察问题的特定角度,例如:时间维、地理维、产品维。假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道哪个商品在哪段时间的销售情况。在某一时间,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持来帮助制定销售政策。这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成。OLAP的多维数据概念维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)、计算逻辑(是基于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。维层次——人们在观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。例时间维:日期,月份,季度,年不同层次。维成员——维的一个取值成为该维的一个维成员。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。例如:某公司销售数据在省、市、县,地理维有三个层次,则“山东省日照市五莲县”就构成地理维的一个维成员。维成员并不一定要在维的每一个层次上都取值,例如:山东省,山东省日照市,日照市五莲县都是地理维的维成员。OLAP的多维数据概念多维数据集——数据立方体或超立方。多维数据集是决策支持的支柱,也是OLAP的核心。数据仓库的数据队以多位数据的形式存储。多维数据集可以用一个多维数组表示。多维数据集的形式化表示:(维1,维2,...,维n,观察变量)。人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。OLAP通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。OLAP的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。OLAP的多维数据概念OLAP的多维数据概念数据单元。多维数据集的取值称为数据单元。当在多维数据集的每个维都选中一个维成员以后,这些维成员的组合就惟一确定了观察变量的值。数据单元也就可以表示为:(维1维成员,维2维成员,维3维成员,观察变量)。OLAP的多维数据概念多维数据集的度量值(测量值)。多维数据集的度量值是基于多维数据集中事实表的一列或多列,数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。OLAP多维数据分析1.切片和切块(SliceandDice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。2.钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。
3.旋转(Rotate)/转轴(Pivot)通过旋转可以得到不同视角的数据。OLAP的分析方法(一)切片、切块OLAP的分析方法(二)钻取按时间维向下钻取按时间维向上钻取60OLAP的分析方法(三)旋转OLAP分类按照存储方式OLAPMOLAPHOLAPROLAP按照处理地点ClientOLAPServerOLAPServervsClientOLAPServerOLAP多维数据存储于OLAP服务器,客户提出请求,服务器做出响应。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有BrioDesigner,BusinessObject。OLAP存储方式OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星模式的扩展称为“雪花模式”。
MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(HybridOLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实现OLAP的方法,如提供一个专用的SQLServer,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。OLTP、ROLAP与MOLAP模式ROLAP的星型模式(StarSchema)事实表:用来存储事实的度量值和各个维的码值。维表:用来存放维的元数据(维的层次、成员类别等描述信息)。BudgetTime_idSalesTableDiscount%DollarsUnits"FactTable"Market_idProduct_idScenarioProduct_idProductTableSizeBrandProduct_Desc"DimensionTable"Time_idYearQuarterPeriod_DescPeriodTable"DimensionTable"ScenarioTableActualProfitScenario"DimensionTable"Market_idMarketTableRegionDistrictMarket_Desc"DimensionTable"MOLAP的多维立方体(Multicube)数据组织形式RDB数据组织-MDDB数据组织-关系表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024幼儿园特色课程开发与教师聘用合同2篇
- 2025年度城市道路桥梁养护与维修合同范本3篇
- 2024年餐馆承包经营协议6篇
- 2024年车联网技术研究与应用合同
- 2025年度化学品船运输安全责任协议书模板3篇
- 2024版文化创意产业项目投资与合作协议
- (完整版)信号与系统(吴大正)-完整版答案-纠错修改后版本
- 世界现代设计史简述
- 克雷洛夫寓言中的狐狸和乌鸦好词好句读后感
- 浙江理工大学《城市经济学》2023-2024学年第一学期期末试卷
- 体育单杠课件教学课件
- 新版浙教版2024-2025学年度八年级数学上册几何复习专题卷含答案
- 《现代控制理论》全套课件(东北大学)
- 建筑信息模型(BIM)技术应用示范项目申报表
- 2025届陕西省咸阳市礼泉县数学高一上期末考试试题含解析
- 查理和巧克力工厂微课公开课获奖课件省赛课一等奖课件
- 附着式升降脚手架(爬架)安全技术交底
- 六年级下册道德与法治-【说课稿】9 日益重要的国际组织
- 2024年中国作家协会所属单位公开招聘工作人员14人历年高频难、易错点500题模拟试题附带答案详解
- 术后镇痛讲解
- 北师大版九年级数学上册期末考试题(带答案)
评论
0/150
提交评论