CRM与数据仓库概述_第1页
CRM与数据仓库概述_第2页
CRM与数据仓库概述_第3页
CRM与数据仓库概述_第4页
CRM与数据仓库概述_第5页
已阅读5页,还剩197页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章

CRM与数据仓库

邵兵家于同奎第5章CRM与数据仓库5.1数据仓库概述 5.1.1数据仓库的产生 5.1.2数据仓库概念及特征5.1.3数据仓库的内容5.1.3数据仓库系统的体系结构5.2客户关系管理中的数据仓库

5.2.1客户关系管理需要数据仓库5.2.2客户关系管理中数据仓库的作用客户关系管理数据仓库的系统结构5.3客户关系管理数据仓库的实施5.4客户关系管理数据仓库试验5.4.1客户关系管理数据仓库设计试验5.4.2客户关系管理数据仓库使用试验5.1数据仓库概述数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。利用数据仓库,企业可以对客户行为的分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性能,并通过销售和服务等部门与客户交流,实现企业利润的提高。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。5.1.1数据仓库的产生早期的数据库主要支持联机事务处理决策支持对数据分析的需求传统数据库系统不适宜DSS事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题(1)事务处理和分析处理的性能特性不同。所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。(3)数据动态集成问题。静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些

变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。(6)操作繁简问题。业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。有人感感叹::20年前查查询不不到数数据是是因为为数据据太少少了,,而今今天查查询不不到数数据是是因为为数据据太多多了。。要提高高分析析和决决策的的效率率和有有效性性,分分析型型处理理及其其数据据必须须与操操作型型处理理及其其数据据相分分离。。必须须把分分析型型数据据从事事务处处理环环境中中提取取出来来,按按照DSS处理的的需要要进行行重新新组织织,建建立单单独的的分析析处理理环境境,数数据仓仓库正正是为为了构构建这这种新新的分分析处处理环环境而而出现现的一一种数数据存存储和和组织织技术术。数据仓仓库的的数据据从联联机的的事务务处理理系统统、异异构的的外部部数据据源、、脱机机的历历史业业务数数据中中得到到。它它是一一个联联机的的系统统,专专门为为分析析统计计和决决策支支持应应用服服务,,通过过它可可满足足决策策支持持和联联机分分析应应用所所要求求的一一切。。数据仓仓库的的概念念和特特征目前,,数据据仓库库一词词尚没没有一一个统统一的的定义义。著名的的数据据仓库库专家家在其著著作《BuildingtheDataWarehouse》》一书中中给予予如下下描述述:数据仓仓库((DataWarehouse)是一一个面面向主主题的的(SubjectOriented)、集集成的的(Integrate)、相相对稳稳定的的(Non-Volatile)、反反映历历史变变化((TimeVariant)的数数据集集合,,用于于支持持管理理决策策。数据仓仓库概概念的的两个个层次次功能上上:数数据仓仓库用用于支支持决决策,,面向向分析析型数数据处处理,,它不不同于于企业业现有有的操操作型型数据据库;;内容和和特征征上::数据据仓库库是对对多个个异构构的数数据源源有效效集成成,集集成后后按照照主题题进行行了重重组,,并包包含历历史数数据,,而且且存放放在数数据仓仓库中中的数数据一一般不不再修修改。。数据仓仓库四四个特特点-面向主主题传统的的数据据库是是面向向应用用而进进行数数据组组织的的,其其抽象象程度度不够够高,,没有有完全全实现现数据据与应应用的的分离离。但但这种种方式式能较较好地地将企企业业业务活活动与与数据据库模模式相相对应应,利利于从从手工工处理理向计计算机机处理理过渡渡,因因而具具有较较好的的可操操作性性;数数据仓仓库是是面向向主题题而进进行数数据组组织的的。主主题是是一个个在较较高层层次上上对数数据的的抽象象,在在逻辑辑意义义上,,它是是对企企业中中某一一宏观观领域域所涉涉及的的分析析对象象,即即将数数据组组织成成主题题域。。例如如,在在银行行经营营运作作中,,业务务(存款、、贷款款、汇汇兑)、货币币、客客户、、机构构、会会计科科目是是其主主要构构架或或方向向,因因此在在银行行业务务数据据仓库库中,,选择择业务务、货货币、、客户户、机机构、、会计计科目目五个个主题题,并并将会会计科科目作作为连连接其其他四四个主主题的的交易易主题题进行行处理理。面向主题可以以独立于数据据处理逻辑,,适用于分析析型数据环境境,适用于建建设企业全局局数据库;数数据仓库中目目前仍采用关关系数据库技技术来实现,,其面向主题题所作较高程程度上的抽象象,应强调其其逻辑意义。。数据仓库四个个特点-集成的面向事务处理理的操作型数数据库通常与与某些特定的的应用相关,,数据库之间间相互独立,,并且往往是是异构的。在数据仓库的所所有特性之中中,这是最重重要的。应用用问题的设计计人员历经多多年制定出来来的不同的设设计决策有很很多很多种不不同的表示方方法,没有什什么应用在编编码、命名习习惯、实际属属性、属性度度量等方面是是一致的,各各个应用问题题设计员自由由地做出他或或她自己的设设计决策。数据仓库中的的数据是集成成的。而数据据仓库中的数数据是在对原原有分散的数数据库数据抽抽取、清理的的基础上经过过系统加工、、汇总和整理理得到的,必必须消除源数数据中的不一一致性,以保保证数据仓库库内的信息是是关于整个企企业的一致的的全局信息。。在数据仓库库建设中,这这是最关键最最复杂的一个个步骤,主要要工作有:一一是,进行数数据的综合和和计算;二是是,统一源数数据中所有不不一致和矛盾盾的地方(如同名异义、、异名同义、、字长不一致致、单位不一一致等)。数据仓库四个个特点-相对稳定的操作型数据库库中的数据通通常实时更新新,数据根据据需要及时发发生变化。数数据仓库的数数据主要供企企业决策分析析之用,所涉涉及的数据操操作主要是数数据查询,一一旦某个数据据进入数据仓仓库以后,一一般情况下将将被长期保留留,也就是数数据仓库中一一般有大量的的查询操作,,但修改和删删除操作很少少,通常只需需要定期的加加载、刷新。。数据仓库四个个特点-相对稳定的数据仓库四个个特点-反映历史变化化操作型数据库库主要关心当当前某一个时时间段内的数数据,而数据据仓库中的数数据通常包含含历史信息,,系统记录了了企业从过去去某一时点(如开始应用数数据仓库的时时点)到目前的各个个阶段的信息息,通过这些些信息,可以以对企业的发发展历程和未未来趋势做出出定量分析和和预测。数据仓库中的的数据时间期期限要远远长长于操作型系系统中的数据据时间期限。。操作型系统统的时间期限限一般是60~90天,而数据仓仓库中数据的的时间期限通通常是5~10年。操作型数据库库含有“当前前值”的数据据,这些数据据的准确性在在访问时是有有效的,同样样当前值的数数据能被更新新。而数据仓仓库中的数据据仅仅是一系系列某一时刻刻生成的复杂杂的快照。操作型数据的的键码结构可可能包含也可可能不包含时时间元素,如如年、月、日日等。而数据据仓库的键码码结构总是包包含某时间元元素。数据仓仓库的数据码码键都包含时时间项,用作作标明数据的的历史时期。。数据仓库中中的数据包含含有大量综合合数据,很多多与时间有关关,如按时间间段进行综合合或隔时间片片进行抽样。。随着时间变变化,数据仓仓库需要不断断增加新数据据、删去旧数数据。数据仓库四个个特点-反映历史变化化数据仓库本质质数据仓库实际际上是一个“以大型数据管管理信息系统统为基础的、、附加在这个个数据库系统统之上的、存存储了从企业业所有业务数数据库中获取取的综合数据据的、并能利利用这些综合合数据为用户户提供经过处处理后的有用用信息的应用用系统”。如果说传统数数据库系统的的重点与要求求是快速、准准确、安全、、可靠地将数数据存进数据据库中的话,,那么数据仓仓库的重点与与要求就是能能够准确、安安全、可靠地地从数据库中中取出数据,,经过加工转转换成有规律律信息之后,,再供管理人人员进行分析析使用。数据仓库所要要研究和解决决的问题就是是从数据库中中获取信息。。数据仓库的内内容数据仓库并没没有严格的数数学理论基础础,也没有成成熟的基本模模式,且更偏偏向于工程,,具有强烈的的工程性。因因此,在技术术上人们习惯惯于从工作过过程等方面来来分析,并按按其关键技术术部份分为数数据的抽取、、存储与管理理以及数据的的表现等三个个基本方面。。数据的抽取数据的抽取是是数据进入仓仓库的入口。。由于数据仓仓库是一个独独立的数据环环境,它需要要通过抽取过过程将数据从从联机事务处处理系统、外外部数据源、、脱机的数据据存储介质中中导入到数据据仓库。数据据抽取在技术术上主要涉及及互连、复制制、增量、转转换、调度和和监控等方面面。数据仓库库中的数据并并不要求与联联机事务处理理系统保持实实时同步,因因此数据抽取取可以定时进进行,但多个个抽取操作执执行的时间、、相互的顺序序、成败对数数据仓库中信信息的有效性性则至关重要要。存储和管理数据仓库的真真正关键是数数据的存储和和管理。数据据仓库的组织织管理方式决决定了它有别别于传统数据据库,同时也也决定了其对对外部数据的的表现形式。。要决定采用用什么产品和和技术来建立立数据仓库的的核心,则需需要从数据仓仓库的技术特特点着手分析析。数据的表现数据表现实际际上相当于数数据仓库的门门面,其性能能主要集中在在多维分析、、数理统计和和数据挖掘方方面。而多维维分析又是数数据仓库的重重要表现形式式,近几年来来由于互联网网的发展,使使得多维分析析领域的工具具和产品更加加注重提供基基于Web前端联机分析析界面,而不不仅仅是在网网上发布数据据。数据仓库系统统体系结构数据源数据源是数据据仓库系统的的基础,是整整个系统的数数据源泉。通通常包括企业业内部信息和和外部信息。。内部信息包包括各种业务务处理数据和和各类文档数数据。外部信信息包括各类类法律法规、、市场信息和和竞争对手的的信息等等。。数据的存储与与管理数据的存储与与管理是整个个数据仓库系系统的核心。。数据仓库的的真正关键是是数据的存储储和管理。数数据仓库的组组织管理方式式决定了它有有别于传统数数据库,同时时也决定了其其对外部数据据的表现形式式。要决定采采用什么产品品和技术来建建立数据仓库库的核心,则则需要从数据据仓库的技术术特点着手分分析。针对现现有各业务系系统的数据,,进行抽取、、清理,并有有效集成,按按照主题进行行组织。数据据仓库按照数数据的覆盖范范围可以分为为企业级数据据仓库和部门门级数据仓库库(通常称为为数据集市))。OLAP服务器OLAP服务器对分析析需要的数据据进行有效集集成,按多维维模型予以组组织,以便进进行多角度、、多层次的分分析,并发现现趋势。其具具体实现可以以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚聚合数据均存存放在RDBMS之中;MOLAP基本数据和聚聚合数据均存存放于多维数数据库中;HOLAP基本数据存放放于RDBMS之中,聚合数数据存放于多多维数据库中中。前端工具前端工具主要要包括各种报报表工具、查查询工具、数数据分析工具具、数据挖掘掘工具以及各各种基于数据据仓库或数据据集市的应用用开发工具。。其中数据分分析工具主要要针对OLAP服务器,报表表工具、数据据挖掘工具主主要针对数据据仓库。数据仓库概述述小结数据仓库的产产生数据仓库概念念及特征数据仓库的内内容数据仓库系统统的体系结构构数据仓库的项目实施数据仓库系统统是一种解决决问题的过程程,而不是一一个可以买到到的现成产品品。不同企业业会有不同的的数据仓库。。企业人员往往往不懂如何何建立和利用用数据仓库,,发挥其决策策支持的作用用,而数据仓仓库公司人员员又不懂业务务,不知道建建立哪些决策策主题,从数数据源中抽取取哪些数据。。这需要双方方互相沟通,,共同协商开开发数据仓库库,因此是一一个不断往复复前进的过程程。数据仓库的建建设是一个系系统工程,是是一个不断建建立、发展、、完善的过程程,通常需要要较长的时间间。这就要求求各企业对整整个系统的建建设提出一个个全面、清晰晰的远景规划划及技术实施施蓝图,将整整个项目的实实施分成若干干个阶段,以以“总体规划划、分步实施施、步步见效效”为原则,,不仅可迅速速从当前投资资中获得收益益,而且可以以在已有的基基础上,结合合其他已有的的业务系统,,逐步构建起起完整、健壮壮的数据仓库库系统。数据仓库的项目实施数据仓库提供供了有效地存存取和管理大大量数据的理理想环境,而而数据仓库系系统的建立是是一个由数据据驱动、以技技术支撑并满满足应用需求求的不断增长长和完善的开开发过程。因因此数据仓库库的建立可以以从数据、技技术和应用三三方面展开。。数据仓库的项目实施项目计划项目计划是指指定义创建数数据仓库的项项目目标和确确定项目范围围,包括对项项目计划的评评估和流程的的调整。数据据仓库在构建建之初应明确确其主题,主主题是一个在在较高层次将将数据归类的的标准,每一一个主题对应应一个宏观的的分析领域,,针对具体决决策需求可细细化为多个主主题表,具体体来说就是确确定决策涉及及的范围和所所要解决的问问题。但是主主题的确定必必须建立在现现有联机事务务处理(OLTP)系统基础础上,否则则按此主题题设计的数数据仓库存存储结构将将成为一个个空壳,缺缺少可存储储的数据。。但一味注注重OLTP数据信息,,也将导致致迷失数据据提取方向向,偏离主主题。需要要在OLTP数据和主题题之间找到到一个“平衡点”,根据主题题的需要完完整地收集集数据,这这样构建的的数据仓库库才能满足足决策和分分析的需要要。确定范围的的主要任务务包括了解解方向性分分析处理需需求,确定定信息需求求,确定数数据覆盖范范围。方向向性需求包包括:决策策类型、决决策者感兴兴趣的问题题(或对象象)等。在在确定范围围时应该重重视的因素素是必须用用户驱动和和数据驱动动相结合,,同时可以以借鉴国内内外已有的的成功经验验。业务需求分分析业务需求分分析是数据据仓库中一一个很重要要的阶段,,好的业务务需求分析析会使项目目成功的机机率大大增增加。分析析阶段主要要包括两个个方面的任任务是深入入了解数据据源和分析析数据仓库库系统所包包含的主题题域及其相相互之间的的关系。分分析阶段必必须坚持用用户参与,,并且与原原有系统开开发或维护护人员进行行深入的沟沟通。数据线数据线的实实施可以分分为模型设设计、物理理设计、数数据预处理理三个步骤骤,用以满满足对数据据的有效组组织和管理理。数据线-模型设计需求分析已已经确定了了用户业务务分析所需需要的数据据。模型设设计阶段将将确定数据据仓库系统统将来的蓝蓝图。数据仓库的的逻辑设计计一般采用用星型模型型和雪花模模型设计其其数据模型型。包括选选择合适的的主题,确确定事实表表、相关的的维、属性性和粒度划划分,设计计正确的表表结构和主主键、外键键关系等。。模型设计主主要包括四四个基本步步骤:确定定合适的主主题、划分分粒度层次次、设计维维表和设计计事实表。。数据线-模型设计ER图数据线-模型设计三维透视图图数据线-模型设计ER图中所示的的数据模型型中有四个个相互关联联的简单实实体。如果果数据库设设计只需要要考虑数据据模型的话话,可以推推断所有的的实体都是是平等关系系。换言之之,从数据据模型的设设计角度来来看,所有有的实体之之间的关系系是对等的的。仅仅从数据据模型的角角度来着手手设计数据据仓库会产产生一种““平面”效效应。实际际上,由于于种种原因因,数据仓仓库的实体体绝不会是是相互对等等的。一些些实体,要要求有它们们自己的特特别处理。。为了明确为为什么从数数据模型的的角度看一一个组织中中的数据和和关系会发发生失真,,根据在数数据仓库中中建立实体体时将载入入数据实体体的数据量量,我们来来考虑数据据仓库中数数据的一种种三维透视视。三维透透视图表明明了这种三三维透视。。代表供应应商、客户户、产品、、发货的实实体被稀疏疏地载入,,而代表订订单的实体体则大量地地载入。将将会有大量量的数据载载入代表订订单实体的的表中,而而在代表别别的实体的的表中载入入的数据量量则相对较较少。由于于大量的数数据要载入入订单实体体,因此需需要一种不不同的设计计处理方式式。数据线-模型设计用来管理数数据仓库中中载入某个个实体的大大量数据的的设计结构构通常用““星型连接接”。首先确立主主题,订单单是有大量量数据的重重要主题,,那么“订订单”位于于星型连接接的中央。。在其周围分分别是“产产品”、““客户”、、“供应商商”和“发发货”实体体。这些实实体仅仅会会产生不大大的数据量量。星型连接中中央的“订订单”被称称作是“事事实表”,,而其周围围的其他实实体—“产品”、““客户”、、“供应商商”和“发发货”则被被称为“维维表”。事实表包含含了“订单单”独有的的标识数据据,也包含含了订单本本身的独有有数据。事事实表还包包含了指向向其周围的的表—维表的外键键。数据线-模型设计数据线-模型设计创建和使用用星型连接接的一个有有趣的方面面是,在很很多情况下下,文本数数据与数值值数据是分分离开的。。文本数据常常出现在维维表中,数数值数据常常出现在事事实表中,,这种划分分似乎在所所有情况都都会发生。。数据线-模型设计数据线-模型设计创建和使用用星型连接接的好处是是可以为决决策支持系系统的处理理优化数据据。通过数数据预连接接和建立有有选择的数数据冗余,,设计者为为访问和分分析过程大大大简化了了数据,这这正是数据据仓库所需需要的。如果不是在在决策支持持系统数据据仓库环境境中使用星星型连接,,则会有很很多的缺点点。在决策策支持系统统数据仓库库环境以外外,常有数数据更新,,而且数据据关系的管管理要在秒秒的一级上上进行。在在这种情况况下星型连连接在创建建和维护上上就是很麻麻烦的数据据结构。但但是由于数数据仓库是是一个装载载—访问环境,,它包括很很多历史数数据,且有有大量的数数据要管理理,因此,,星型连接接的数据结结构是十分分理想的。。数据线-模型设计雪花模型。雪花模型是是对星型模模型的扩展展,每个维维表都可以以向外连接接到多个详详细类别表表。雪花模型对对星型模型型的维表进进一步层次次化,原有有的各维表表可能被扩扩展为小的的事实表,,形成一些些局部的““层次”区区域。在维维表上连接接对事实表表进行详细细描述的详详细类别表表,达到了了缩小事实实表,提高高查询效率率的目的。。数据线-模型设计数据线-模型设计雪花模型的的优点是::通过最大大限度的减减少数据存存储量以及及联合较小小的维表来来改善查询询性能。雪花模型增增加了用户户必须处理理的表数量量,增加了了某些查询询的复杂性性,但这种种方式可以以使系统进进一步专业业化和实用用化,同时时降低了系系统的通用用程度。数据线-物理设计物理设计的的主要任务务是定义支支持模型设设计必需的的物理结构构。其过程程包括以下下三个方面面:1)确定物理理存储结构构;2)确定索引引策略;3)确定存储储分配。数据线-数据处理(1)数据预处处理。它是是数据仓库库设计工程程中非常重重要的过程程,它由三三个主要步步骤组成::抽取(Extraction)、转换(Transformation)、加载(Load),简称ETL。抽取过程程将会暴露露源系统中中数据的质质量问题。。由于数据据的质量严严重影响着着数据仓库库的可信程程度,因此此在数据预预处理过程程中,需要要提高数据据质量,让让数据仓库库使用真正正有效的数数据。目前前有很多工工具可以帮帮助用户完完成数据抽抽取、转换换和装载工工作,但是是还有相当当一部分工工作是要手手工编程来来完成的。。根据元数数据库中的的主题表定定义、数据据源定义、、数据抽取取规则定义义对异地异异构数据源源(包括各各平台的数数据库、文文本文件、、HTML文件、知识识库等)进进行清理、、转换,对对数据进行行重新组织织和加工,,装载到数数据仓库的的目标库中中。在组织织不同来源源的数据过过程中,先先将数据转转换成一种种中间模式式,再把它它移至临时时工作区。。加工数据据是保证目目标数据库库中数据的的完整性、、一致性。。例如,有有两个数据据源存储与与人员有关关的信息,,在定义数数据组成的的人员编码码类型时,,可能一个个是字符型型,一个是是整型;在在定义人员员性别这一一属性的类类型时,一一个可能是是char(2),存储储的数据据值为“男”和“女”,而另一一个属性性类型为为char(1),数据据值为“F”和“M”。这两个个数据源源的值都都是正确确的,但但对于目目标数据据来说,,必须加加工为一一种统一一的方法法来表示示该属性性值,然然后交由由最终用用户进行行验证,,这样才才能保证证数据的的质量。。在数据据抽取过过程中,,必须在在最终用用户的密密切配合合下,才才能实现现数据的的真正统统一。(2)数据使使用。(3)数据维维护。数数据仓库库规模一一般都很很大,从从建立之之初就要要保证它它的可管管理性,,一个企企业可能能建立几几个数据据仓库或或数据集集市,但但他们可可共用一一个元数数据库对对其进行行管理。。首先从从元数据据库查询询所需元元数据,,然后进进行数据据仓库更更新作业业,更新新结束后后,将更更新情况况记录于于元数据据库中。。当数据据源的运运行环境境、结构构及目标标数据的的维护计计划发生生变化时时,需要要修改元元数据。。元数据据是数据据仓库的的重要组组成部分分,元数数据的质质量决定定整个数数据仓库库的质量量。技术线技术线的的实施分分为技术术选择和和产品选选择两个个步骤。。如何采采用合理理有效的的技术是是实现一一个好的的数据仓仓库系统统的基本本条件。。在数据仓仓库建立立的过程程中会遇遇到一些些新的特特定的问问题,如如管理大大量数据据的需求求,如何何对数据据进行快快速和方方便的访访问等。。为解决决这些问问题人们们采用了了新的技技术。技技术体系系选择必必须从为为这些技技术建立立全局的的结构框框架和视视角出发发,选择择中需要要同时考考虑三个个因素::商业需需求、当当前的技技术环境境、计划划的策略略技术方方向。技术体系系确定以以后需要要选择实实现数据据仓库应应用的各各种产品品,包括括硬件平平台、ETL工具、OLAP服务器、、数据展展现工具具等,并并进行产产品的安安装和测测试。现现在市场场上的数数据仓库库产品有有很多,,数据仓仓库厂商商通常都都提出了了自己的的一系列列解决方方案,限限于篇幅幅,在这这里不再再展开,,而主要要着眼于于数据仓仓库实现现的一些些关键技技术,以以便对数数据仓库库的建立立有更深深层的理理解。应用线应用线的的实施分分为应用用设计和和应用开开发两个个步骤。。数据仓仓库的建建立最终终是为应应用服务务的,所所以需要要对应用用进行设设计和开开发,以以更好地地满足用用户的需需要。数据仓库库的建立立是为满满足用户户的不同同查询需需求服务务的,用用户的需需求可能能是只访访问一些些预定义义的查询询、生成成报表等等简单操操作,也也可能是是自己定定义复杂杂的查询询,直接接分析数数据仓库库中存放放的各种种数据。。因此,,需要设设计合适适的应用用工具,,为不同同的用户户提供友友好的用用户界面面。应用设计计和开发发的一个个有效办办法是针针对不同同的用户户需求,,设计和和实现标标准的用用户应用用模板,,提供给给用户高高效的接接入方式式。应用设计计的任务务是设计计标准的的用户应应用模板板。应用用设计的的过程一一般包括括:确定定初始的的模板集集、设计计模板的的标准、、设计详详细模板板、最后后通过用用户反馈馈进行改改进。应应用开发发是通过过应用设设计说明明书,按按照标准准的软件件开发流流程,实实现模板板的设计计。应用用开发的的一般过过程是选选择实现现的方法法,然后后进行模模板的实实现、测测试和数数据验证证,最后后是应用用模板的的维护。。应用是数数据仓库库建立的的最终目目的,对对于应用用提出的的要求,,数据仓仓库建立立过程中中是必须须加以充充分考虑虑的。系统运行行维护数据仓库库建成后后就进入入运行维维护,在在运行中中要不断断验证评评价分析析设计是是否符合合用户需需求,产产生出新新的分析析要求及及时反馈馈回需求求分析,,进行系系统设计计的改进进。运行行维护分分为目标标数据维维护和元元数据维维护两方方面。目目标数据据维护是是根据元元数据库库所定义义的更新新频率、、更新数数据项等等更新计计划任务务来刷新新数据仓仓库,以以反映数数据源的的变化,,且对时时间相关关性进行行处理。。更新操操作有两两种情况况,即在在仓库的的原有数数据表中中进行某某些数据据的更新新和产生生一个新新的时间间区间的的数据,,因为汇汇总数据据与数据据仓库中中的许多多信息元元素有关关系,必必需完整整地汇总总,这样样才能保保证全体体信息的的一致性性。数据仓库库实施总的来说说,数据据仓库的的实施是是为了建建立一个个良好的的数据组组织和管管理环境境,以满满足决策策支持的的需要。。数据仓仓库包含含了数据据、技术术、应用用三方面面的要求求,所以以只有把把良好的的数据模模型、合合理的技技术和准准确的应应用设计计结合起起来,形形成一套套有效的的方法,,才能建建立起一一个成功功的数据据仓库。。数据仓库库系统的的设计是是一个动动态反馈馈和循环环的过程程,以上上只完成成了数据据仓库建建立的一一个生命命周期。。在实际际建立的的过程中中,一方方面数据据仓库的的数据内内容、结结构、粒粒度和其其他物理理设计需需要根据据用户的的反馈信信息不断断地调整整完善;;另一方方面,应应用环境境发生重重大变化化或者新新技术出出现,都都有可能能导致用用户的应应用需求求发生重重大变化化,使现现有系统统不能满满足用户户要求,,需要重重新设计计系统,,开始一一个新的的生命周周期。因因此,数数据仓库库的建立立是运用用一套有有效的数数据仓库库建立方方法不断断反复循循环的过过程。粒度问题题粒度问题题是设计计数据仓仓库的一一个最重重要方面面。粒度是指指数据仓仓库的数数据单位位中保存存数据的的细化或或综合程程度的级级别。细细化程度度越高,,粒度级级就越小小;相反反,细化化程度越越低,粒粒度级就就越大。。在数据仓仓库环境境中粒度度之所以以是主要要的设计计问题,,是因为为它深深深地影响响存放在在数据仓仓库中的的数据量量的大小小,同时时影响数数据仓库库所能回回答的查查询类型型。在数数据仓库库中的数数据量大大小与查查询的详详细程度度之间要要作出权权衡。粒度级别低粒度级,,每个活动动(如一次电话话)被详细记录录下来。高粒度级。。数据代表表一位顾客客一个月的的综合信息息,每位顾顾客一个月月只有一个个记录。粒度级别比比较低粒度级,,每个活动动(如一次电话话)被详细记录录下来,数数据的格式式如图所示示。到月底底每个顾客客平均有200条记录(全月中每个个电话都记记录一次),因而总共共需要40000个字节。高粒度级。。数据代表表一位顾客客一个月的的综合信息息,每位顾顾客一个月月只有一个个记录,这这样的记录录大约只需需200个字节。显显然,如果果数据仓库库的空间很很有限的话话(数据量总是是数据仓库库中的首要要问题),用高粒度度级表示数数据将比用用低粒度级级表示数据据的效率要要高得多。。高粒度级级不仅只需需要少得多多的字节存存放数据,,而且只需需要较少的的索引项。。然而数据据量大小和和原始空间间问题不是是仅有的应应考虑的问问题。为了了访问大量量数据,其其处理能力力的大小同同样也是应应考虑的一一个因素。。粒度的权衡衡粒度的双重重级别企业既需要要提高存储储与访问数数据的效率率,又需要要非常详细细地分析数数据的能力力。当一个个企业或组组织的数据据仓库中拥拥有大量数数据时,在在数据仓库库的细节部部分考虑双双重(或多重)粒度级是很很有意义的的。企业业需需要要多多个个粒粒度度级级而而不不是是一一个个粒粒度度级级的的需需求求,,是是因因为为粒粒度度级级设设计计采采用用双双重重级级别别应应该该是是几几乎乎每每个个机机构构默默认认的的选选择择。。数据据仓仓库库包包括括两两种种类类型型的的数数据据::轻轻度度综综合合数数据据和和““真真实实档档案案””细细节节数数据据。。“真真实实档档案案””细细节节数数据据。。在在操操作作层层是是大大量量的的细细节节数数据据,,其其中中大大部部分分细细节节是是为为了了满满足足结结帐帐系系统统的的需需求求。。多多达达30多天天的的细细节节存存放放在在这这种种操操作作层层中中。。轻度度综综合合数数据据库库中中的的数数据据量量比比细细节节数数据据库库中中的的数数据据量量少少得得多多。。大部部分分DSS处理理是是针针对对被被压压缩缩的的、、存存取取效效率率高高的的轻轻度度综综合合级级数数据据进进行行的的。。如如果果什什么么时时候候需需要要分分析析更更低低的的细细节节级级(5%时间间或或更更少少的的可可能能),可可以以到到数数据据的的真真实实档档案案层层。。鉴于于费费用用、、效效率率、、访访问问便便利利和和能能够够回回答答任任何何可可以以回回答答的的查查询询的的能能力力,,数数据据双双重重粒粒度度级级是是大多多数数机机构构建建造造数数据据仓仓库库细细节节级级的的最最好好选选择择。。数据据仓仓库库中中的的数数据据组组织织简单单堆堆积积。。轮转转综综合合。。简单单直直接接。。连续续。。简单单堆堆积积结结构构数据据仓仓库库中中最最简简单单最最常常用用的的数数据据组组织织形形式式也也许许是是简简单单堆堆积积结结构构。。从操操作作型型环环境境中中取取出出每每天天的的事事务务处处理理,,然然后后综综合合成成数数据据仓仓库库记记录录,,这这个个综综合合可可根根据据顾顾客客、、帐帐目目或或者者任任何何组组织织到到数数据据仓仓库库的的主主题题领领域域来来进进行行。。这这里里的的事事务务处处理理是是以以天天来来进进行行综综合合。。换换句句话话说说,,对对一一个个顾顾客客的的一一个个帐帐号号的的每每天天的的所所有有活活动动进进行行合合计计,,并并在在一一天天一一天天的的基基础础上上输输入入数数据据仓仓库库。。轮转转综综合合数数据据存存储储轮转转综综合合数数据据存存储储。。数据据先先用用与与前前面面相相同同的的处处理理方方法法从从操操作作型型环环境境输输入入到到数数据据仓仓库库环环境境中中。。然后后定定期期进进行行轮轮转转综综合合。。第第一一周周的的七七天天中中的的活活动动被被逐逐一一综综合合到到七七个个每每日日相相应应的的位位置置,,到到第第八八天天,,将将七七个个每每日日位位置置的的数数据据加加到到一一起起,,并并放放入入第第一一周周的的数数据据位位置置中中。。然然后后,,第第八八天天的的每每日日总总计计加加到到第第一一个个每每日日数数据据位位置置。。月月底底将将每每周周位位置置的的数数据据加加到到一一起起,,并并放放入入第第一一个个每每月月相相应应的的数数据据位位置置处处,,然然后后每每周周数数据据位位置置清清零零。。到到了了年年底底,,将将每每月月位位置置数数据据加加到到一一起起,,放放入入第第一一个个年年度度相相应应的的数数据据位位置置处处,,然然后后每每月月数数据据位位置置清清零零。。轮转转综综合合数数据据存存储储简单单堆堆积积vs轮转转综综合合简单单直直接接文文件件数据据仅仅仅仅是是从从操操作作型型环环境境拖拖入入数数据据仓仓库库环环境境中中,,并并没没有有任任何何累累积积。。简单单直直接接文文件件不不是是在在每每天天的的基基础础上上组组织织的的,,而而是是以以较较长长时时间间为为单单位位的的,,比比如如一一个个星星期期或或一一个个月月。。简单单直直接接文文件件是是间间隔隔一一定定时时间间的的操操作作型型数数据据的的一一个个快快照照。。连续续文文件件依据据两两个个或或更更多多的的简简单单直直接接文文件件能能生生成成一一种种连连续续文文件件。。把把1月份份和和2月份份的的两两个个数数据据快快照照合合并并,,创创建建数数据据的的一一个个连连续续文文件件。。连连续续文文件件中中的的数数据据代代表表从从第第一一个个月月到到最最后后一一个个月月的的连连续续数数据据。。当然然,,连连续续文文件件也也可可以以通通过过把把一一个个快快照照追追加加到到一一个个以以前前生生成成的的连连续续文文件件上上来来创创建建。。从直接文件创创建一个连续续文件简单直接文件件追加到连续续文件数据仓库环境境中的元数据据元数据作为数数据的数据,,可对数据仓仓库中的各种种数据进行详详细的描述与与说明,说明明每个数据的的上下文关系系,使每个数数据具有符合合现实的真实实含义,使最最终用户了解解这些数据之之间的关系。。在数据仓库环环境中的元数数据所扮演的的角色和在操操作型环境中中数据所扮演演的角色是不不同的。在操作型环境境中,元数据据几乎被当成成文档来处理理并且降低到到同样的重要要性级别。然然而,在数据据仓库环境中中,元数据的的重要性提高高了。数据仓库环境境中的元数据据操作型数据和和数据仓库中中的数据服务务于两类不同同的群体,操操作型数据由由IT专业人员使用用,许多年来来IT人员都是偶然然地使用元数数据。IT专业人员不仅仅懂计算机,,而且由于学学历背景和所所受的培训,,他们会在系系统中找到他他们自己的方方法。然而,数据仓仓库数据是给给DSS分析者用的。。DSS分析人员通常常首先是专业业人员,他们们通常没有很很高的计算机机水平。为了了能够有效地地使用数据仓仓库环境,DSS分析人员员需要尽尽量多的的帮助,,而元数数据恰能能很好地地帮助他他们。另另外,在在DSS分析者计计划该怎怎样去做做信息型型/分析型处处理时,,他们要要首先去去看元数数据。由由于所服服务的人人员的种种类不同同,以及及元数据据在每天天的工作作中所起起的作用用不同,,元数据据在数据据仓库环环境中比比在操作作型环境境中重要要得多。。元数据的的类型-按类型分分类(1)关于基基本数据据的元数数据。基本数据据:数据据源、DW、数据集集市、和和应用成成序管理理的所有有数据。。基本数据据元数据据:包括括定义、、结构的的所有描描述。(2)用于数数据处理理的元数数据对数据装装载、更更新处理理、分析析处理、、管理方方面的信信息,如如数据抽抽取、转转换、聚聚合规则则等的描描述。(3)关于企企业的组组织结构构的元数数据包括与企企业相关关的管理理方面的的数据和和信息,,如用户户访问DW、数据源源、数据据集市的的权限信信息等等等。元数据的的类型-按抽象级级别分类类(1)概念级级:包括括业务的的全部描描述,如如定义主主要的业业务实体体、特征征及其相相互关系系。系统统的使用用方法,,已定义义的查询询,视图图和现有有的应用用等相关关的信息息。(2)逻辑级级:包括括数据库库的关系系方案,,逻辑多多维模型型等一般般用伪码码或数学学语言描描述数据据抽取/转换规则则等。(3)物理级级:包括括业务规规则相应应的SQL代码、关关系的索索引文件件、分析析应用的的代码。。元数据的的类型-按承担任任务分类类静态元数数据。静静态元数数据主要要与数据据结构有有关。名称类——用于为系系统提供供标识时时,区分分数据的的符号。。描述类——对DW中的多种种数据元元素进行行说明。。格式类——提供DW中数据的的表达规规则。数据类型型——DW中数据所所持有的的类型。。关系类——说明DW中多种数数据对像像之间的的关系,,例如客客户与商商品之间间有购买买关系。。域类——用于说明明DW中数据的的有效值值范围。。业务规则则类——用于说明明DW中数据在在业务处处理中所所要遵守守的规则则。例如如Customer_ID表示客户户的编号号,开头头字母为为A表示集体体客户,,B为个人客客户。动态元数数据。动动态态元数据据主要与与数据的的状态与与使用方方法有关关。数据质量量表——用于描述述数据仓仓库中数数据的精精确度、、完整性性、一致致性和有有效性。。统计信息息类——统计数据据访问的的用户,,访问时时间和访访问次数数。这些些统计信信息对于于数据仓仓库性能能的提高高具有较较高的参参考价值值。状态类——用于跟踪踪DW的运行情情况,例例如,数数据最近近一次的的备份时时间,备备份所需需要的时时间,出出现的错错误情况况等状况况。这些些系统运运行中的的状况有有助于DW管理人员员对DW性能的了了解。处理类——描述DW系统的使使用方法法和管理理的特性性,例如如数据的的使用方方法概括括数据的的概括公公式等。。元数据的的内容数据源的的元数据据数据模型型的元数数据数据准备备区元数数据DBMS元数据前台元数数据元数据的的内容-数据源的的元数据据每个来源源的所有有者描述述信息每个来源源的业务务描述信信息原始来源源的更新新频率每个来源源使用的的法律约约束存取方法法、存取取权利、、特权,,以及来来源的存存取口令令用来实现现抽取过过程的程程序代码码自动抽取取工具设设置特定抽取取作业的的结果信信息,包包括抽取取时间、、抽取内内容以及及完成情情况元数据内内容-数据模型型的元数数据企业概念念模型DW数据模型型数据源到到目标的的映射数据仓库库环境中中的元数数据从操作型型环境到到数据仓仓库环境境的映射射需要数数据转换换元数据据,没有有这种映映射,对对接口进进行控制制是非常常困难的的。元数据的的内容-数据准备备区元数数据(1)数据传输输调度以以及特定定传输的的结果(2)数据准备备区文件件使用情情况(3)用于连接接来源、、删除字字段、查查找属性性的作业业规范(4)数据清洗洗规范(5)数据增强强和映射射转换(6)DM所要求的的转换((比如解解释空值值的度量量值)(7)目标模式式设计、、来源到到目标系系统的数数据流,,目标数数据的所所有者(8)聚集定义义、聚集集使用统统计、基基本表使使用统计计(9)数据来源源情况和和审核检检查记录录(该记记录真正正来自何何地、何何时)(10)数据转转换运行行时间(11)数据转转换软件件的版本本号(12)数据抽取取处理的业业务描述(13)有关抽取取文件、软软件以及元元数据的安安全性设置置(14)数据传输输的安全性性设置(15)数据准备备区的存档档日志和恢恢复程序(16)数据准备备区存档的的安全性设设置元数据的内内容-DBMS元数据(1)分区设置(2)索引(3)DBMS层次的安全全性特权与与授权(4)视图定义(5)存储过程与与SQL管理脚本(6)DBMS备份状态、、备份程序序以及备份份安全性数据仓库环环境中的元元数据对于数据仓仓库环境中中的元数据据需要细致致管理有另另外一个重重要原因,,仓库中数数据会存在在一段很长长的时间—从5年到10年。而在5年到10年这么长的的时间段内内,数据仓仓库改变它它的结构是是很正常的的。换句话话说,一个个数据结构构能在5到10年内保持不不变是很不不平常的。。那么,随随着时间的的流逝来跟跟踪数据结结构的变化化,则是数数据仓库中中元数据很很自然的一一项任务。。数据仓库环环境中的元元数据元数据的内内容-前台元数据据(1)业务名称和和有关列、、表以及分分组的描述述(2)现有的查询询和和报告告定义(3)连接规范工工具设置(4)打印工具规规范(5)最终用户文档档(6)网络安全性用用户特权概况况(7)网络安全性身身份验证证书书(8)网络安全性使使用统计,包包括登录尝试试、存取尝试试以及按位置置报告的用户户标识符(9)个人用户概况况(10)有关数据据源、表、视视图以及报告告的使用及存存取映射元数据在数据据仓库中的作作用元数据实际上上是要解决人人在何时、何何地、何因、、如何使用DW的问题。⑴为数据仓仓库服务与DSS分析员机高层层决策人员服服务提供便利利。DW元数据的广义义索引中存有有每次数据装装载时产生的的有关决策的的数据,在做做决策时,可可以先查询该该部分数据,,再决定是否否进行进一步步的搜索。⑵解决操作作型环境和DW的复杂关系。。从OLTP到DW的转换是复杂杂的多方面的的。元数据应应包括对这种种转换的描述述。并清晰的的表示出来,,管理起来。。既保证这种种转换是正确确的、合理的的,又要使其其是可变的。。灵活的。元数据在数据据仓库中的作作用元数据在数据据仓库开发期期间的使用。。数据仓库的开开发过程是一一个构造工程程的过程,必必须提供清晰晰的文档。这个过程产生生的元数据主主要用于DW的应用管理目目的。描述DW目录表的每个个运作的模式式,还须捕获获用于数据的的转化、净化化、转移、概概括和聚集的的商业规则与与处理规则。。元数据在数据据仓库中的作作用元数据在数据据源抽取中的的作用。元数数据对多个来来源的数据集集成发挥着关关键作用。⑴资源领域域的确定。利利用元数据可可以确定将数数据元的哪些些资源加载到到DW中。⑵跟踪历史史数据结构变变化过程。⑶属性到属属性的映射。。⑷属性转换换。元数据在数据据仓库中的作作用元数据在数据据求精与重构构工程上的应应用。数据求精与重重构工程负责责净化资源中中的数据、增增加资源戳和和时间戳,将将数据转换为为符合数据仓仓库的数据格格式,预算概概括和衍生数数据的值。数据仓库主要要应用数据仓库直接接访问使用浏览分析析工具在DW中寻找有用的的信息。数据仓库系统统支持在DW上的应用,形形成决策支持持系统(DSS)。数据仓库主要要应用在证券业的应应用:可处理客户分分析、帐户分分析、证券交交易数据分析析、非资金交交易分析等多多个业界关心心的主题,为为客户提供针针对其个人习习惯、投资组组合的投资建建议,从而真真正作到对客客户的贴心服服务。在银行领域的的应用:防范银行的经经营风险、实实现科学管理理以及进行决决策.在税务领域的的应用:可以以解决三个方方面的问题::一是查出应应税未报者和和瞒税漏税者者,并对其进进行跟踪;二二是对不同行行业、产品和和市场中纳税税人的行为特特性进行描述述,找出普遍遍规律,谋求求因势利导的的税务征稽策策略;三是对对不同行业、、产品和市场场应收税款进进行预测,制制定最有效的的征收计划。。在保险业的应应用:满足保险行业业日益增长的的各种查询、、统计、报表表以及分析的的需求,提高高防范和化解解经营风险的的能力,有效效利用这些数数据来实现经经营目标,预预测保险业的的发展趋势,,甚至利用这这些数据来设设计保险企业业的发展宏图图,在激烈的的竞争中赢得得先机.在客户服务及及营销方面的的应用:CRM在保健领域的的应用:揭示出如何以以较低费用获获取较高质量量的治疗策略略趋势和模式式.联机分析处理理(OLAP)联机分析处理理(OLAP)的概念最早早是由关系数数据库之父于1993年提出的。当当时,Codd认为联机事务务处理(OLTP)已不能满足足终端用户对对数据库查询询分析的需要要,SQL对大量数据库库进行的简单单查询也不能能满足用户分分析的需求。。用户的决策策分析需要对对关系数据库库进行大量计计算才能得到到结果,而查查询的结果并并不能满足决决策者提出的的需求。因此此Codd提出了多维数数据分析的概概念即OLAP。联机分析处理理(OLAP)OLAP是一种软件技技术,他使分分析人员能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论