




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章
CRM与数据仓库
邵兵家于同奎第5章CRM与数据仓库5.1数据仓库概述 5.1.1数据仓库的产生 5.1.2数据仓库概念及特征5.1.3数据仓库的内容5.1.3数据仓库系统的体系结构5.2客户关系管理中的数据仓库
5.2.1客户关系管理需要数据仓库5.2.2客户关系管理中数据仓库的作用客户关系管理数据仓库的系统结构5.3客户关系管理数据仓库的实施5.4客户关系管理数据仓库试验5.4.1客户关系管理数据仓库设计试验5.4.2客户关系管理数据仓库使用试验5.1数据仓库概述数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。利用数据仓库,企业可以对客户行为的分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性能,并通过销售和服务等部门与客户交流,实现企业利润的提高。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。5.1.1数据仓库的产生早期的数据库主要支持联机事务处理决策支持对数据分析的需求传统数据库系统不适宜DSS事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题(1)事务处理和分析处理的性能特性不同。所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。(3)数据动态集成问题。静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些
变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。(6)操作繁简问题。业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。有人感感叹::20年前查查询不不到数数据是是因为为数据据太少少了,,而今今天查查询不不到数数据是是因为为数据据太多多了。。要提高高分析析和决决策的的效率率和有有效性性,分分析型型处理理及其其数据据必须须与操操作型型处理理及其其数据据相分分离。。必须须把分分析型型数据据从事事务处处理环环境中中提取取出来来,按按照DSS处理的的需要要进行行重新新组织织,建建立单单独的的分析析处理理环境境,数数据仓仓库正正是为为了构构建这这种新新的分分析处处理环环境而而出现现的一一种数数据存存储和和组织织技术术。数据仓仓库的的数据据从联联机的的事务务处理理系统统、异异构的的外部部数据据源、、脱机机的历历史业业务数数据中中得到到。它它是一一个联联机的的系统统,专专门为为分析析统计计和决决策支支持应应用服服务,,通过过它可可满足足决策策支持持和联联机分分析应应用所所要求求的一一切。。数据仓仓库的的概念念和特特征目前,,数据据仓库库一词词尚没没有一一个统统一的的定义义。著名的的数据据仓库库专家家在其著著作《BuildingtheDataWarehouse》》一书中中给予予如下下描述述:数据仓仓库((DataWarehouse)是一一个面面向主主题的的(SubjectOriented)、集集成的的(Integrate)、相相对稳稳定的的(Non-Volatile)、反反映历历史变变化((TimeVariant)的数数据集集合,,用于于支持持管理理决策策。数据仓仓库概概念的的两个个层次次功能上上:数数据仓仓库用用于支支持决决策,,面向向分析析型数数据处处理,,它不不同于于企业业现有有的操操作型型数据据库;;内容和和特征征上::数据据仓库库是对对多个个异构构的数数据源源有效效集成成,集集成后后按照照主题题进行行了重重组,,并包包含历历史数数据,,而且且存放放在数数据仓仓库中中的数数据一一般不不再修修改。。数据仓仓库四四个特特点-面向主主题传统的的数据据库是是面向向应用用而进进行数数据组组织的的,其其抽象象程度度不够够高,,没有有完全全实现现数据据与应应用的的分离离。但但这种种方式式能较较好地地将企企业业业务活活动与与数据据库模模式相相对应应,利利于从从手工工处理理向计计算机机处理理过渡渡,因因而具具有较较好的的可操操作性性;数数据仓仓库是是面向向主题题而进进行数数据组组织的的。主主题是是一个个在较较高层层次上上对数数据的的抽象象,在在逻辑辑意义义上,,它是是对企企业中中某一一宏观观领域域所涉涉及的的分析析对象象,即即将数数据组组织成成主题题域。。例如如,在在银行行经营营运作作中,,业务务(存款、、贷款款、汇汇兑)、货币币、客客户、、机构构、会会计科科目是是其主主要构构架或或方向向,因因此在在银行行业务务数据据仓库库中,,选择择业务务、货货币、、客户户、机机构、、会计计科目目五个个主题题,并并将会会计科科目作作为连连接其其他四四个主主题的的交易易主题题进行行处理理。面向主主题可可以独独立于于数据据处理理逻辑辑,适适用于于分析析型数数据环环境,,适用用于建建设企企业全全局数数据库库;数数据仓仓库中中目前前仍采采用关关系数数据库库技术术来实实现,,其面面向主主题所所作较较高程程度上上的抽抽象,,应强强调其其逻辑辑意义义。数据仓仓库四四个特特点-集成的的面向事事务处处理的的操作作型数数据库库通常常与某某些特特定的的应用用相关关,数数据库库之间间相互互独立立,并并且往往往是是异构构的。。在数据仓仓库的的所有有特性性之中中,这这是最最重要要的。。应用用问题题的设设计人人员历历经多多年制制定出出来的的不同同的设设计决决策有有很多多很多多种不不同的的表示示方法法,没没有什什么应应用在在编码码、命命名习习惯、、实际际属性性、属属性度度量等等方面面是一一致的的,各各个应应用问问题设设计员员自由由地做做出他他或她她自己己的设设计决决策。。数据仓库库中的数数据是集集成的。。而数据据仓库中中的数据据是在对对原有分分散的数数据库数数据抽取取、清理理的基础础上经过过系统加加工、汇汇总和整整理得到到的,必必须消除除源数据据中的不不一致性性,以保保证数据据仓库内内的信息息是关于于整个企企业的一一致的全全局信息息。在数数据仓库库建设中中,这是是最关键键最复杂杂的一个个步骤,,主要工工作有::一是,,进行数数据的综综合和计计算;二二是,统统一源数数据中所所有不一一致和矛矛盾的地地方(如同名异异义、异异名同义义、字长长不一致致、单位位不一致致等)。数据仓库库四个特特点-相对稳定定的操作型数数据库中中的数据据通常实实时更新新,数据据根据需需要及时时发生变变化。数数据仓库库的数据据主要供供企业决决策分析析之用,,所涉及及的数据据操作主主要是数数据查询询,一旦旦某个数数据进入入数据仓仓库以后后,一般般情况下下将被长长期保留留,也就就是数据据仓库中中一般有有大量的的查询操操作,但但修改和和删除操操作很少少,通常常只需要要定期的的加载、、刷新。。数据仓库库四个特特点-相对稳定定的数据仓库库四个特特点-反映历史史变化操作型数数据库主主要关心心当前某某一个时时间段内内的数据据,而数数据仓库库中的数数据通常常包含历历史信息息,系统统记录了了企业从从过去某某一时点点(如开始应应用数据据仓库的的时点)到目前的的各个阶阶段的信信息,通通过这些些信息,,可以对对企业的的发展历历程和未未来趋势势做出定定量分析析和预测测。数据仓库库中的数数据时间间期限要要远远长长于操作作型系统统中的数数据时间间期限。。操作型型系统的的时间期期限一般般是60~90天,而数数据仓库库中数据据的时间间期限通通常是5~10年。操作型数数据库含含有“当当前值””的数据据,这些些数据的的准确性性在访问问时是有有效的,,同样当当前值的的数据能能被更新新。而数数据仓库库中的数数据仅仅仅是一系系列某一一时刻生生成的复复杂的快快照。操作型数数据的键键码结构构可能包包含也可可能不包包含时间间元素,,如年、、月、日日等。而而数据仓仓库的键键码结构构总是包包含某时时间元素素。数据据仓库的的数据码码键都包包含时间间项,用用作标明明数据的的历史时时期。数数据仓库库中的数数据包含含有大量量综合数数据,很很多与时时间有关关,如按按时间段段进行综综合或隔隔时间片片进行抽抽样。随随着时间间变化,,数据仓仓库需要要不断增增加新数数据、删删去旧数数据。数据仓库库四个特特点-反映历史史变化数据仓库库本质数据仓库库实际上上是一个个“以大型数数据管理理信息系系统为基基础的、、附加在在这个数数据库系系统之上上的、存存储了从从企业所所有业务务数据库库中获取取的综合合数据的的、并能能利用这这些综合合数据为为用户提提供经过过处理后后的有用用信息的的应用系系统”。如果说传传统数据据库系统统的重点点与要求求是快速速、准确确、安全全、可靠靠地将数数据存进进数据库库中的话话,那么么数据仓仓库的重重点与要要求就是是能够准准确、安安全、可可靠地从从数据库库中取出出数据,,经过加加工转换换成有规规律信息息之后,,再供管管理人员员进行分分析使用用。数据仓库库所要研研究和解解决的问问题就是是从数据据库中获获取信息息。数据仓库库的内容容数据仓库库并没有有严格的的数学理理论基础础,也没没有成熟熟的基本本模式,,且更偏偏向于工工程,具具有强烈烈的工程程性。因因此,在在技术上上人们习习惯于从从工作过过程等方方面来分分析,并并按其关关键技术术部份分分为数据据的抽取取、存储储与管理理以及数数据的表表现等三三个基本本方面。。数据的抽抽取数据的抽抽取是数数据进入入仓库的的入口。。由于数数据仓库库是一个个独立的的数据环环境,它它需要通通过抽取取过程将将数据从从联机事事务处理理系统、、外部数数据源、、脱机的的数据存存储介质质中导入入到数据据仓库。。数据抽抽取在技技术上主主要涉及及互连、、复制、、增量、、转换、、调度和和监控等等方面。。数据仓仓库中的的数据并并不要求求与联机机事务处处理系统统保持实实时同步步,因此此数据抽抽取可以以定时进进行,但但多个抽抽取操作作执行的的时间、、相互的的顺序、、成败对对数据仓仓库中信信息的有有效性则则至关重重要。存储和管管理数据仓库库的真正正关键是是数据的的存储和和管理。。数据仓仓库的组组织管理理方式决决定了它它有别于于传统数数据库,,同时也也决定了了其对外外部数据据的表现现形式。。要决定定采用什什么产品品和技术术来建立立数据仓仓库的核核心,则则需要从从数据仓仓库的技技术特点点着手分分析。数据的表表现数据表现现实际上上相当于于数据仓仓库的门门面,其其性能主主要集中中在多维维分析、、数理统统计和数数据挖掘掘方面。。而多维维分析又又是数据据仓库的的重要表表现形式式,近几几年来由由于互联联网的发发展,使使得多维维分析领领域的工工具和产产品更加加注重提提供基于于Web前端联机机分析界界面,而而不仅仅仅是在网网上发布布数据。。数据仓库库系统体体系结构构数据源数据源是是数据仓仓库系统统的基础础,是整整个系统统的数据据源泉。。通常包包括企业业内部信信息和外外部信息息。内部部信息包包括各种种业务处处理数据据和各类类文档数数据。外外部信息息包括各各类法律律法规、、市场信信息和竞竞争对手手的信息息等等。。数据的存存储与管管理数据的存存储与管管理是整整个数据据仓库系系统的核核心。数数据仓库库的真正正关键是是数据的的存储和和管理。。数据仓仓库的组组织管理理方式决决定了它它有别于于传统数数据库,,同时也也决定了了其对外外部数据据的表现现形式。。要决定定采用什什么产品品和技术术来建立立数据仓仓库的核核心,则则需要从从数据仓仓库的技技术特点点着手分分析。针针对现有有各业务务系统的的数据,,进行抽抽取、清清理,并并有效集集成,按按照主题题进行组组织。数数据仓库库按照数数据的覆覆盖范围围可以分分为企业业级数据据仓库和和部门级级数据仓仓库(通通常称为为数据集集市)。。OLAP服务器OLAP服务器对对分析需需要的数数据进行行有效集集成,按按多维模模型予以以组织,,以便进进行多角角度、多多层次的的分析,,并发现现趋势。。其具体体实现可可以分为为:ROLAP、MOLAP和HOLAP。ROLAP基本数据据和聚合合数据均均存放在在RDBMS之中;MOLAP基本数据据和聚合合数据均均存放于于多维数数据库中中;HOLAP基本数据据存放于于RDBMS之中,聚聚合数据据存放于于多维数数据库中中。前端工具具前端工具具主要包包括各种种报表工工具、查查询工具具、数据据分析工工具、数数据挖掘掘工具以以及各种种基于数数据仓库库或数据据集市的的应用开开发工具具。其中中数据分分析工具具主要针针对OLAP服务器,,报表工工具、数数据挖掘掘工具主主要针对对数据仓仓库。数据仓库库概述小小结数据仓库库的产生生数据仓库库概念及及特征数据仓库库的内容容数据仓库库系统的的体系结结构数据仓库库的项目实施施数据仓库库系统是是一种解解决问题题的过程程,而不不是一个个可以买买到的现现成产品品。不同同企业会会有不同同的数据据仓库。。企业人人员往往往不懂如如何建立立和利用用数据仓仓库,发发挥其决决策支持持的作用用,而数数据仓库库公司人人员又不不懂业务务,不知知道建立立哪些决决策主题题,从数数据源中中抽取哪哪些数据据。这需需要双方方互相沟沟通,共共同协商商开发数数据仓库库,因此此是一个个不断往往复前进进的过程程。数据仓库库的建设设是一个个系统工工程,是是一个不不断建立立、发展展、完善善的过程程,通常常需要较较长的时时间。这这就要求求各企业业对整个个系统的的建设提提出一个个全面、、清晰的的远景规规划及技技术实施施蓝图,,将整个个项目的的实施分分成若干干个阶段段,以““总体规规划、分分步实施施、步步步见效””为原则则,不仅仅可迅速速从当前前投资中中获得收收益,而而且可以以在已有有的基础础上,结结合其他他已有的的业务系系统,逐逐步构建建起完整整、健壮壮的数据据仓库系系统。数据仓库库的项目实施施数据仓库库提供了了有效地地存取和和管理大大量数据据的理想想环境,,而数据据仓库系系统的建建立是一一个由数数据驱动动、以技技术支撑撑并满足足应用需需求的不不断增长长和完善善的开发发过程。。因此数数据仓库库的建立立可以从从数据、、技术和和应用三三方面展展开。数据仓库的项目实施项目计划项目计划是指指定义创建数数据仓库的项项目目标和确确定项目范围围,包括对项项目计划的评评估和流程的的调整。数据据仓库在构建建之初应明确确其主题,主主题是一个在在较高层次将将数据归类的的标准,每一一个主题对应应一个宏观的的分析领域,,针对具体决决策需求可细细化为多个主主题表,具体体来说就是确确定决策涉及及的范围和所所要解决的问问题。但是主主题的确定必必须建立在现现有联机事务务处理(OLTP)系统基础上上,否则按此此主题设计的的数据仓库存存储结构将成成为一个空壳壳,缺少可存存储的数据。。但一味注重重OLTP数据信息,也也将导致迷失失数据提取方方向,偏离主主题。需要在在OLTP数据和主题之之间找到一个个“平衡点”,根据主题的的需要完整地地收集数据,,这样构建的的数据仓库才才能满足决策策和分析的需需要。确定范围的主主要任务包括括了解方向性性分析处理需需求,确定信信息需求,确确定数据覆盖盖范围。方向向性需求包括括:决策类型型、决策者感感兴趣的问题题(或对象))等。在确定定范围时应该该重视的因素素是必须用户户驱动和数据据驱动相结合合,同时可以以借鉴国内外外已有的成功功经验。业务需求分析析业务需求分析析是数据仓库库中一个很重重要的阶段,,好的业务需需求分析会使使项目成功的的机率大大增增加。分析阶阶段主要包括括两个方面的的任务是深入入了解数据源源和分析数据据仓库系统所所包含的主题题域及其相互互之间的关系系。分析阶段段必须坚持用用户参与,并并且与原有系系统开发或维维护人员进行行深入的沟通通。数据线数据线的实施施可以分为模模型设计、物物理设计、数数据预处理三三个步骤,用用以满足对数数据的有效组组织和管理。。数据线-模型设计需求分析已经经确定了用户户业务分析所所需要的数据据。模型设计计阶段将确定定数据仓库系系统将来的蓝蓝图。数据仓库的逻逻辑设计一般般采用星型模模型和雪花模模型设计其数数据模型。包包括选择合适适的主题,确确定事实表、、相关的维、、属性和粒度度划分,设计计正确的表结结构和主键、、外键关系等等。模型设计主要要包括四个基基本步骤:确确定合适的主主题、划分粒粒度层次、设设计维表和设设计事实表。。数据线-模型设计ER图数据线-模型设计三维透视图数据线-模型设计ER图中所示的数数据模型中有有四个相互关关联的简单实实体。如果数数据库设计只只需要考虑数数据模型的话话,可以推断断所有的实体体都是平等关关系。换言之之,从数据模模型的设计角角度来看,所所有的实体之之间的关系是是对等的。仅仅从数据模模型的角度来来着手设计数数据仓库会产产生一种“平平面”效应。。实际上,由由于种种原因因,数据仓库库的实体绝不不会是相互对对等的。一些些实体,要求求有它们自己己的特别处理理。为了明确为什什么从数据模模型的角度看看一个组织中中的数据和关关系会发生失失真,根据在在数据仓库中中建立实体时时将载入数据据实体的数据据量,我们来来考虑数据仓仓库中数据的的一种三维透透视。三维透透视图表明了了这种三维透透视。代表供供应商、客户户、产品、发发货的实体被被稀疏地载入入,而代表订订单的实体则则大量地载入入。将会有大大量的数据载载入代表订单单实体的表中中,而在代表表别的实体的的表中载入的的数据量则相相对较少。由由于大量的数数据要载入订订单实体,因因此需要一种种不同的设计计处理方式。。数据线-模型设计用来管理数据据仓库中载入入某个实体的的大量数据的的设计结构通通常用“星型型连接”。首先确立主题题,订单是有有大量数据的的重要主题,,那么“订单单”位于星型型连接的中央央。在其周围分别别是“产品””、“客户””、“供应商商”和“发货货”实体。这这些实体仅仅仅会产生不大大的数据量。。星型连接中央央的“订单””被称作是““事实表”,,而其周围的的其他实体—“产品”、“客客户”、“供供应商”和““发货”则被被称为“维表表”。事实表包含了了“订单”独独有的标识数数据,也包含含了订单本身身的独有数据据。事实表还还包含了指向向其周围的表表—维表的外键。。数据线-模型设计数据线-模型设计创建和使用星星型连接的一一个有趣的方方面是,在很很多情况下,,文本数据与与数值数据是是分离开的。。文本数据常出出现在维表中中,数值数据据常出现在事事实表中,这这种划分似乎乎在所有情况况都会发生。。数据线-模型设计数据线-模型设计创建和使用星星型连接的好好处是可以为为决策支持系系统的处理优优化数据。通通过数据预连连接和建立有有选择的数据据冗余,设计计者为访问和和分析过程大大大简化了数数据,这正是是数据仓库所所需要的。如果不是在决决策支持系统统数据仓库环环境中使用星星型连接,则则会有很多的的缺点。在决决策支持系统统数据仓库环环境以外,常常有数据更新新,而且数据据关系的管理理要在秒的一一级上进行。。在这种情况况下星型连接接在创建和维维护上就是很很麻烦的数据据结构。但是是由于数据仓仓库是一个装装载—访问环境,它它包括很多历历史数据,且且有大量的数数据要管理,,因此,星型型连接的数据据结构是十分分理想的。数据线-模型设计雪花模型。雪花模型是对对星型模型的的扩展,每个个维表都可以以向外连接到到多个详细类类别表。雪花模型对星星型模型的维维表进一步层层次化,原有有的各维表可可能被扩展为为小的事实表表,形成一些些局部的“层层次”区域。。在维表上连连接对事实表表进行详细描描述的详细类类别表,达到到了缩小事实实表,提高查查询效率的目目的。数据线-模型设计数据线-模型设计雪花模型的优优点是:通过过最大限度的的减少数据存存储量以及联联合较小的维维表来改善查查询性能。雪花模型增加加了用户必须须处理的表数数量,增加了了某些查询的的复杂性,但但这种方式可可以使系统进进一步专业化化和实用化,,同时降低了了系统的通用用程度。数据线-物理设计物理设计的主主要任务是定定义支持模型型设计必需的的物理结构。。其过程包括括以下三个方方面:1)确定物理存存储结构;2)确定索引策策略;3)确定存储分分配。数据线-数据处理(1)数据预处理理。它是数据据仓库设计工工程中非常重重要的过程,,它由三个主主要步骤组成成:抽取(Extraction)、转换(Transformation)、加载(Load),简称ETL。抽取过程将将会暴露源系系统中数据的的质量问题。。由于数据的的质量严重影影响着数据仓仓库的可信程程度,因此在在数据预处理理过程中,需需要提高数据据质量,让数数据仓库使用用真正有效的的数据。目前前有很多工具具可以帮助用用户完成数据据抽取、转换换和装载工作作,但是还有有相当一部分分工作是要手手工编程来完完成的。根据据元数据库中中的主题表定定义、数据源源定义、数据据抽取规则定定义对异地异异构数据源((包括各平台台的数据库、、文本文件、、HTML文件、知识库库等)进行清清理、转换,,对数据进行行重新组织和和加工,装载载到数据仓库库的目标库中中。在组织不不同来源的数数据过程中,,先将数据转转换成一种中中间模式,再再把它移至临临时工作区。。加工数据是是保证目标数数据库中数据据的完整性、、一致性。例例如,有两个个数据源存储储与人员有关关的信息,在在定义数据组组成的人员编编码类型时,,可能一个是是字符型,一一个是整型;;在定义人员员性别这一属属性的类型时时,一个可能能是char(2),存储的数数据值为“男”和“女”,而另一个属属性类型为char(1),数据值为为“F”和“M”。这两个数据据源的值都是是正确的,但但对于目标数数据来说,必必须加工为一一种统一的方方法来表示该该属性值,然然后交由最终终用户进行验验证,这样才才能保证数据据的质量。在在数据抽取过过程中,必须须在最终用户户的密切配合合下,才能实实现数据的真真正统一。(2)数据使用用。(3)数据维护护。数据仓仓库规模一一般都很大大,从建立立之初就要要保证它的的可管理性性,一个企企业可能建建立几个数数据仓库或或数据集市市,但他们们可共用一一个元数据据库对其进进行管理。。首先从元元数据库查查询所需元元数据,然然后进行数数据仓库更更新作业,,更新结束束后,将更更新情况记记录于元数数据库中。。当数据源源的运行环环境、结构构及目标数数据的维护护计划发生生变化时,,需要修改改元数据。。元数据是是数据仓库库的重要组组成部分,,元数据的的质量决定定整个数据据仓库的质质量。技术线技术线的实实施分为技技术选择和和产品选择择两个步骤骤。如何采采用合理有有效的技术术是实现一一个好的数数据仓库系系统的基本本条件。在数据仓库库建立的过过程中会遇遇到一些新新的特定的的问题,如如管理大量量数据的需需求,如何何对数据进进行快速和和方便的访访问等。为为解决这些些问题人们们采用了新新的技术。。技术体系系选择必须须从为这些些技术建立立全局的结结构框架和和视角出发发,选择中中需要同时时考虑三个个因素:商商业需求、、当前的技技术环境、、计划的策策略技术方方向。技术体系确确定以后需需要选择实实现数据仓仓库应用的的各种产品品,包括硬硬件平台、、ETL工具、OLAP服务器、数数据展现工工具等,并并进行产品品的安装和和测试。现现在市场上上的数据仓仓库产品有有很多,数数据仓库厂厂商通常应用线应用线的实实施分为应应用设计和和应用开发发两个步骤骤。数据仓仓库的建立立最终是为为应用服务务的,所以以需要对应应用进行设设计和开发发,以更好好地满足用用户的需要要。数据仓库的的建立是为为满足用户户的不同查查询需求服服务的,用用户的需求求可能是只只访问一些些预定义的的查询、生生成报表等等简单操作作,也可能能是自己定定义复杂的的查询,直直接分析数数据仓库中中存放的各各种数据。。因此,需需要设计合合适的应用用工具,为为不同的用用户提供友友好的用户户界面。应用设计和和开发的一一个有效办办法是针对对不同的用用户需求,,设计和实实现标准的的用户应用用模板,提提供给用户户高效的接接入方式。。应用设计的的任务是设设计标准的的用户应用用模板。应应用设计的的过程一般般包括:确确定初始的的模板集、、设计模板板的标准、、设计详细细模板、最最后通过用用户反馈进进行改进。。应用开发发是通过应应用设计说说明书,按按照标准的的软件开发发流程,实实现模板的的设计。应应用开发的的一般过程程是选择实实现的方法法,然后进进行模板的的实现、测测试和数据据验证,最最后是应用用模板的维维护。应用是数据据仓库建立立的最终目目的,对于于应用提出出的要求,,数据仓库库建立过程程中是必须须加以充分分考虑的。。系统运行维维护数据仓库建建成后就进进入运行维维护,在运运行中要不不断验证评评价分析设设计是否符符合用户需需求,产生生出新的分分析要求及及时反馈回回需求分析析,进行系系统设计的的改进。运运行维护分分为目标数数据维护和和元数据维维护两方面面。目标数数据维护是是根据元数数据库所定定义的更新新频率、更更新数据项项等更新计计划任务来来刷新数据据仓库,以以反映数据据源的变化化,且对时时间相关性性进行处理理。更新操操作有两种种情况,即即在仓库的的原有数据据表中进行行某些数据据的更新和和产生一个个新的时间间区间的数数据,因为为汇总数据据与数据仓仓库中的许许多信息元元素有关系系,必需完完整地汇总总,这样才才能保证全全体信息的的一致性。。数据仓库实实施总的来说,,数据仓库库的实施是是为了建立立一个良好好的数据组组织和管理理环境,以以满足决策策支持的需需要。数据据仓库包含含了数据、、技术、应应用三方面面的要求,,所以只有有把良好的的数据模型型、合理的的技术和准准确的应用用设计结合合起来,形形成一套有有效的方法法,才能建建立起一个个成功的数数据仓库。。数据仓库系系统的设计计是一个动动态反馈和和循环的过过程,以上上只完成了了数据仓库库建立的一一个生命周周期。在实实际建立的的过程中,,一方面数数据仓库的的数据内容容、结构、、粒度和其其他物理设设计需要根根据用户的的反馈信息息不断地调调整完善;;另一方面面,应用环环境发生重重大变化或或者新技术术出现,都都有可能导导致用户的的应用需求求发生重大大变化,使使现有系统统不能满足足用户要求求,需要重重新设计系系统,开始始一个新的的生命周期期。因此,,数据仓库库的建立是是运用一套套有效的数数据仓库建建立方法不不断反复循循环的过程程。粒度问题粒度问题是是设计数据据仓库的一一个最重要要方面。粒度是指数数据仓库的的数据单位位中保存数数据的细化化或综合程程度的级别别。细化程程度越高,,粒度级就就越小;相相反,细化化程度越低低,粒度级级就越大。。在数据仓库库环境中粒粒度之所以以是主要的的设计问题题,是因为为它深深地地影响存放放在数据仓仓库中的数数据量的大大小,同时时影响数据据仓库所能能回答的查查询类型。。在数据仓仓库中的数数据量大小小与查询的的详细程度度之间要作作出权衡。。粒度级别低粒度级,,每个活动动(如一次电话话)被详细记录录下来。高粒度级。。数据代表表一位顾客客一个月的的综合信息息,每位顾顾客一个月月只有一个个记录。粒度级别比比较低粒度级,,每个活动动(如一次电话话)被详细记录录下来,数数据的格式式如图所示示。到月底底每个顾客客平均有200条记记录录(全月月中中每每个个电电话话都都记记录录一一次次),因因而而总总共共需需要要40000个字字节节。。高粒粒度度级级。。数数据据代代表表一一位位顾顾客客一一个个月月的的综综合合信信息息,,每每位位顾顾客客一一个个月月只只有有一一个个记记录录,,这这样样的的记记录录大大约约只只需需200个字字节节。。显显然然,,如如果果数数据据仓仓库库的的空空间间很很有有限限的的话话(数据据量量总总是是数数据据仓仓库库中中的的首首要要问问题题),用用高高粒粒度度级级表表示示数数据据将将比比用用低低粒粒度度级级表表示示数数据据的的效效率率要要高高得得多多。。高高粒粒度度级级不不仅仅只只需需要要少少得得多多的的字字节节存存放放数数据据,,而而且且只只需需要要较较少少的的索索引引项项。。然然而而数数据据量量大大小小和和原原始始空空间间问问题题不不是是仅仅有有的的应应考考虑虑的的问问题题。。为为了了访访问问大大量量数数据据,,其其处处理理能能力力的的大大小小同同样样也也是是应应考考虑虑的的一一个个因因素素。。粒度度的的权权衡衡粒度度的的双双重重级级别别企业业既既需需要要提提高高存存储储与与访访问问数数据据的的效效率率,,又又需需要要非非常常详详细细地地分分析析数数据据的的能能力力。。当当一一个个企企业业或或组组织织的的数数据据仓仓库库中中拥拥有有大大量量数数据据时时,,在在数数据据仓仓库库的的细细节节部部分分考考虑虑双双重重(或多多重重)粒度度级级是是很很有有意意义义的的。。企业业需需要要多多个个粒粒度度级级而而不不是是一一个个粒粒度度级级的的需需求求,,是是因因为为粒粒度度级级设设计计采采用用双双重重级级别别应应该该是是几几乎乎每每个个机机构构默默认认的的选选择择。。数据仓库包括括两种类型的的数据:轻度度综合数据和和“真实档案案”细节数据据。“真实档案””细节数据。。在操作层是是大量的细节节数据,其中中大部分细节节是为了满足足结帐系统的的需求。多达达30多天的细节存存放在这种操操作层中。轻度综合数据据库中的数据据量比细节数数据库中的数数据量少得多多。大部分DSS处理是针对被被压缩的、存存取效率高的的轻度综合级级数据进行的的。如果什么么时候需要分分析更低的细细节级(5%时间或更少的的可能),可以到数据据的真实档案案层。鉴于费用、效效率、访问便便利和能够回回答任何可以以回答的查询询的能力,数数据双重粒度度级是大多数机构建建造数据仓库库细节级的最最好选择。数据仓库中的的数据组织简单堆积。轮转综合。简单直接。连续。简单堆积结构构数据仓库中最最简单最常用用的数据组织织形式也许是是简单堆积结结构。从操作型环境境中取出每天天的事务处理理,然后综合合成数据仓库库记录,这个个综合可根据据顾客、帐目目或者任何组组织到数据仓仓库的主题领领域来进行。。这里的事务务处理是以天天来进行综合合。换句话说说,对一个顾顾客的一个帐帐号的每天的的所有活动进进行合计,并并在一天一天天的基础上输输入数据仓库库。轮转综合数据据存储轮转综合数据据存储。数据先用与前前面相同的处处理方法从操操作型环境输输入到数据仓仓库环境中。。然后定期进行行轮转综合。。第一周的七七天中的活动动被逐一综合合到七个每日日相应的位置置,到第八天天,将七个每每日位置的数数据加到一起起,并放入第第一周的数据据位置中。然然后,第八天天的每日总计计加到第一个个每日数据位位置。月底将将每周位置的的数据加到一一起,并放入入第一个每月月相应的数据据位置处,然然后每周数据据位置清零。。到了年底,,将每月位置置数据加到一一起,放入第第一个年度相相应的数据位位置处,然后后每月数据位位置清零。轮转综合数据据存储简单堆积vs轮转综合简单直接文件件数据仅仅是从从操作型环境境拖入数据仓仓库环境中,,并没有任何何累积。简单直接文件件不是在每天天的基础上组组织的,而是是以较长时间间为单位的,,比如一个星星期或一个月月。简单直接文件件是间隔一定定时间的操作作型数据的一一个快照。连续文件依据两个或更更多的简单直直接文件能生生成一种连续续文件。把1月份和2月份的两个数数据快照合并并,创建数据据的一个连续续文件。连续续文件中的数数据代表从第第一个月到最最后一个月的的连续数据。。当然,连续文文件也可以通通过把一个快快照追加到一一个以前生成成的连续文件件上来创建。。从直接文件创创建一个连续续文件简单直接文件件追加到连续续文件数据仓库环境境中的元数据据元数据作为数数据的数据,,可对数据仓仓库中的各种种数据进行详详细的描述与与说明,说明明每个数据的的上下文关系系,使每个数数据具有符合合现实的真实实含义,使最最终用户了解解这些数据之之间的关系。。在数据仓库环环境中的元数数据所扮演的的角色和在操操作型环境中中数据所扮演演的角色是不不同的。在操作作型环环境中中,元元数据据几乎乎被当当成文文档来来处理理并且且降低低到同同样的的重要要性级级别。。然而而,在在数据据仓库库环境境中,,元数数据的的重要要性提提高了了。数据仓仓库环环境中中的元元数据据操作型型数据据和数数据仓仓库中中的数数据服服务于于两类类不同同的群群体,,操作作型数数据由由IT专业人人员使使用,,许多多年来来IT人员都都是偶偶然地地使用用元数数据。。IT专业人人员不不仅懂懂计算算机,,而且且由于于学历历背景景和所所受的的培训训,他他们会会在系系统中中找到到他们们自己己的方方法。。然而,,数据据仓库库数据据是给给DSS分析者者用的的。DSS分析人人员通通常首首先是是专业业人员员,他他们通通常没没有很很高的的计算算机水水平。。为了了能够够有效效地使使用数数据仓仓库环环境,,DSS分析人人员需需要尽尽量多多的帮帮助,,而元元数据据恰能能很好好地帮帮助他他们。。另外外,在在DSS分析者者计划划该怎怎样去去做信信息型型/分析型型处理理时,,他们们要首首先去去看元元数据据。由由于所所服务务的人人员的的种类类不同同,以以及元元数据据在每每天的的工作作中所所起的的作用用不同同,元元数据据在数数据仓仓库环环境中中比在在操作作型环环境中中重要要得多多。元数据据的类类型-按类型型分类类(1)关于于基本本数据据的元元数据据。基本数数据::数据据源、、DW、数据据集市市、和和应用用成序序管理理的所所有数数据。。基本数(2)用于数据处理的元数据对数据装载、更新处理、分析处理、管理方面的信息,如数据抽取、转换、聚合规则等的描述。(3)关于企业的组织结构的元数据包括与企业相关的管理方面的数据和信息,如用户访问DW、数据源、数据集市的权限信息等等。
元数据据的类类型-按抽象象级别别分类类(1)概念念级::包括括业务务的全全部描描述,,如定定义主主要的的业务务实体体、特特征及及其相相互关关系。。系统统的使使用方方法,,已定定义的的查询询,视视图和和现有有的(2)逻辑级:包括数据库的关系方案,逻辑多维模型等一般用伪码或数学语言描述数据抽取/转换规则等。(3)物理级:包括业务规则相应的SQL代码、关系的索引文件、分析应用的代码。元数据据的类类型-按承担担任务务分类类静态元元数据据。静静态元元数据据主要要与数数据结结构有有关。。名称类类——用于为为系统统提供供标识识时,,区分分数据据的描述类——对DW中的多种数据元素进行说明。格式类——提供DW中数据的表达规则。数据类型——DW中数据所持有的类型。关系类——说明DW中多种数据对像之间的关系,例如客户与商品之间有购买关系。域类——用于说明DW中数据的有效值范围。业务规则类——用于说明DW中数据在业务处理中所要遵守的规则。例如Customer_ID表示客户的编号,开头字母为A表示集体客户,B为个人客户。动态元数据。动态元数据主要与数据的状态与使用方法有关。数据质量表——用于描述数据仓库中数据的精确度、完整性、一致性和有效性。统计信息类——统计数据访问的用户,访问时间和访问次数。这些统计信息对于数据仓库性能的提高具有较高的参考价值。状态类——用于跟踪DW的运行情况,例如,数据最近一次的备份时间,备份所需要的时间,出现的错误情况等状况。这些系统运行中的状况有助于DW管理人员对DW性能的了解。处理类——描述DW系统的使用方法和管理的特性,例如数据的使用方法概括数据的概括公式等。
元数据据的内内容数据源源的元元数据据数据模模型的的元数数据数据准准备区DBMS元数据
前台元数据
元数据据的内内容-数据源源的元元数据据每个来来源的的所有有者描描述信信息每个来来源的的业务务描述述信息息原始来来源的的更新新频率率每个来来源使使用的的法律律约束束存取方方法、、存取取权利利、特特权,,以及及来源源的存存取口口令用来实实现抽抽取过过程的的程序序代码码自动抽抽取工工具设设置置特定抽抽取作作业的的结果果信息息,包包括抽抽取时时间、、抽取取内容容以及及完成成情况况元数据据内容容-数据模模型的的元数数据企业概概念模模型DW数据模模型数据源源到目目标的的映射射数据仓仓库环环境中中的元元数据据从操作作型环环境到到数据据仓库库环境境的映映射需需要数数据转转换元元数据据,没没有这这种映映射,,对接接口进进行控控制是是非常常困难难的。。元数据据的内内容-数据准准备区区元数数据(1)数据传传输调调度以以及特特定传传输的的结果果(2)数据准准备区区文件件使用用情况况(3)用于连连接来来源、、删除除字段段、查查找属属性的的作(4)
数据清洗规范(5)
数据增强和映射转换(6)
DM所要求的转换(比如解释空值的度量值)(7)
目标模式设计、来源到目标系统的数据流,目标数据的所有者(8)
聚集定义、聚集使用统计、基本表使用统计(9)
数据来源情况和审核检查记录(该记录真正来自何地、何时)(10)数据转换运行时间(11)数据转换软件的版本号(12)数据抽取处理的业务描述(13)有关抽取文件、软件以及元数据的安全性设置(14)数据传输的安全性设置(15)数据准备区的存档日志和恢复程序(16)数据准备区存档的安全性设置(1)分区设置(2)索引(3)DBMS层次的安全全性特权与与授权(4)视图定义(5)存储过程与与SQL管理脚本(数据仓库环环境中的元元数据对于数据仓仓库环境中中的元数据据需要细致致管理有另另外一个重重要原因,,仓库中数数据会存在在一段很长长的时间—从5年到10年。而在5年到10年这么长的的时间段内内,数据仓仓库改变它它的结构是是很正常的的。换句话话说,一个个数据结构构能在5到10年内保持不不变是很不不平常的。。那么,随随着时间的的流逝来跟跟踪数据结结构的变化化,则是数数据仓库中中元数据很很自然的一一项任务。。数据仓库环环境中的元元数据元数据的内内容-前台元数据据(1)业务名称和和有关列、、表以及分分组的描述述(2)现有的查询询和和报告告定义(3)连接规范工工具设置(4)打印工具规规范(5)最终用户文文档(6)网络安全性性用户特权权概况(7)网络安全性性身份验证证证书(8)网络安全性性使用统计计,包括登登录尝试、、存取尝试试以及按位位置报告的的用户标识识符(9)个人用户概概况(10)有关数数据源、表表、视图以以及报告的的使用及存存取映射元数据在数数据仓库中中的作用元数据实际际上是要解解决人在何何时、何地地、何因、、如何使用用DW的问题。⑴为数据据仓库服务务与DSS分析员机高高层决策人人员服务提提供便利。。DW元数据的广广义索引中中存有每次次数据装载载时产生的的有关决策策的数据,,在做决策策时,可以以先查询该该部分数据据,再决定定是否进行行进一步的的搜索。⑵解决操操作型环境境和DW的复杂关系系。从OLTP到DW的转换是复复杂的多方方面的。元元数据应包包括对这种种转换的描描述。并清清晰的表示示出来,管管理起来。。既保证这这种转换是是正确的、、合理的,,又要使其其是可变的的。灵活的的。元数据在数数据仓库中中的作用元数据在数数据仓库开开发期间的的使用。数据仓库的的开发过程程是一个构构造工程的的过程,必必须提供清清晰的文档档。这个过程产产生的元数数据主要用用于DW的应用管理理目的。描描述DW目录表的每每个运作的的模式,还还须捕获用用于数据的的转化、净净化、转移移、概括和和聚集的商商业规则与与处理规则则。元数据在在数据仓仓库中的的作用元数据在在数据源源抽取中中的作用用。元数数据对多多个来源源的数据据集成发发挥着关关键作用用。⑴资源领域域的确定。利利用元数据可可以确定将数数据元的哪些些资源加载到到DW中。⑵跟踪历史史数据结构变变化过程。⑶属性到属属性的映射。。⑷属性转换换。元数据在数据据仓库中的作作用元数据在数据据求精与重构构工程上的应应用。数据求精与重重构工程负责责净化资源中中的数据、增增加资源戳和和时间戳,将将数据转换为为符合数据仓仓库的数据格格式,预算概概括和衍生数数据的值。数据仓库主要要应用数据仓库直接接访问使用浏览分析析工具在DW中寻找有用的的信息。数据仓库系统统支持在DW上的应用,形形成决策支持持系统(DSS)。数据仓库主要要应用在证券券业的的应用用:可处理理客户户分析析、帐帐户分分析、、证券券交易易数据据分析析、非非资金金交易易分析析等多多个业业界关关心的的主题题,为为客户户提供供针对对其个个人习习惯、、投资资组合合的投投资建建议,,从而而真正正作到到对客客户的的贴心心服务务。在银行行领域域的应应用:防范银银行的的经营营风险险、实实现科科学管管理以以及进进行决决策.在税务务领域域的应应用::可以以解决决三个个方面面的问问题::一是是查出出应税税未报报者和和瞒税税漏税税者,,并对对其进进行跟跟踪;;二是是对不不同行行业、、产品
在保险业的应用:满足保险行业日益增长的各种查询、统计、报表以及分析的需求,提高防范和化解经营风险的能力,有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机.在客户服务及营销方面的应用:CRM在保健领域的应用:揭示出如何以较低费用获取较高质量的治疗策略趋势和模式.联机分分析处处理((OLAP)联机分分析处处理((OLAP)的概概念最最早是是由关关系数数据库库之父父于1993年提出出的。。当时时,Codd认为联联机事事务处处理((OLTP)已不不能满满足终终端用用户对对数据据库查查询分分析的的需要要,SQL对大量量数据据库进进行的的简单单查询询也不不能满满足用用户分分析的的需求求。用用户的的决策策分析析需要要对关关系数数据库库进行行大量量计算算才能能得到到结果果,而而查询询的结结果并并不能能满足足决策策者提提出的的需求求。因因此Codd提出了了多维维数据据分析析的概概念即即OLAP。联机分分析处处理((OLAP)OLAP是一种种软件件技术术,他他使分分析人人员能能够迅迅速、、一致致、交交互地地从各各个方方面观观察信信息,,以达达到深深入理理解数数据的的目的的,这这些信信息是是从原原始数数据直直接转转换过过来的的,他他们以以用户户容易易理解解的方方式反反映企企业的的真实实情况况。OLAP大部部分分策策略略都都是是将将关关系系型型的的或或普普通通的的数数据据进进行行多多维维数数据据存存贮贮,,以以便便于于进进行行分分析析,,从从而而达达到到联联机机分分析析处处理理的的目目的的。。这这种种多多维维DB也被被看看作作一一个个超超立立方方体体,,沿沿着着各各个个维维方方向向存存贮贮数数据据,,它它允允许许用用户户沿沿事事物物的的轴轴线线方方便便地地分分析析数数据据,,与与主主流流业业务务型型用用户户相相关关的的分分析析形形式式一一般般有有切切片片和和切切块块以以及及下下钻钻、、挖挖掘掘等等操操作作。。共共享享多多维维信信息息的的快快速速分分析析。。OLAP特性性(1)快速速性性:用户户对对OLAP的快快速速反反应应能能力力有有很很高高的的要要求求。。系系统统应应能能在在5秒内内对对用用户户的的大大部部分分分分析析要要求求做做出出反反应应。。(2)可分分析析性性:OLAP系统统应应能能处处理理与与应应用用有有关关的的任任何何逻逻辑辑分分析析和和统统计计分分析析。。(3)多维性:多维性是是OLAP的关键属属性。系系统必
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钯带材企业制定与实施新质生产力战略研究报告
- 高碳锰铁企业制定与实施新质生产力战略研究报告
- 2025-2030中国汽车租赁行业市场发展分析及竞争格局与投资机会研究报告
- 2025-2030中国汽车检测行业市场深度分析及竞争格局与发展前景展望研究报告
- 2025-2030中国汽车刹车片行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国水吧制水机市场销售前景与未来投资效益行业深度调研及投资前景预测研究报告
- 2025-2030中国水下电动泵行业市场深度调研及发展潜力与投资研究报告
- 2025-2030中国氢能行业市场发展分析及建设案例与投资前景研究报告
- 2025-2030中国氟化钨(VI)-六氟化钨行业战略规划及供需前景预测研究报告
- 2025-2030中国毛细胞白血病的治疗行业市场发展趋势与前景展望战略研究报告
- 2025至2030年石榴养生酒项目投资价值分析报告
- 广西壮族自治区桂林市2025届高三下学期第一次跨市联合模拟考试语文试题(含答案)
- 2025-2030MicroLED显示器行业市场现状供需分析及投资评估规划分析研究报告
- 手榴弹投掷实施教案
- 2025年中国螺旋埋弧焊管行业发展前景预测及投资战略咨询报告
- 长沙2025年湖南长沙县招聘机关事业单位工作人员26人笔试历年参考题库附带答案详解
- 国家开放大学2025年《管理学基础》形考作业1-4答案
- 政府会计知到课后答案智慧树章节测试答案2025年春西安财经大学
- 2025年全民国家安全教育日知识竞赛考试题库500题(含答案)
- 学院专业实验室的开放共享模式
- 2023国家卫健委中国结直肠癌诊疗规范
评论
0/150
提交评论