版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与商务智能钱沄涛浙江大学计算机学院人工智能研究所1主要内容数据仓库与数据挖掘概述 数据仓库的数据模型与数据组织 数据仓库的设计 数据加载技术 数据仓库系统的体系结构与实现技术数据挖掘中的常用方法 关联规则挖掘 分类和预测 聚类分析 时序数据和序列数据的挖掘 Web数据挖掘 数据挖掘的应用 2教学方式与考核方式教学方式本课程以课堂教学为主,以课件的内容为主线课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。考核方式及要求撰写课程论文一篇课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际应用。课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。进行大组报告与交流。3教材与参考书W.H.Inmon,《BuildingtheDataWarehouse》,王志海等译,机械工业出版社,2000.5康晓东等,《基于数据仓库的数据挖掘技术》,机械工业出版社,2004.01JiaweiHan,MichelineKambr,《DATAMININGCONCEPTSANDTECHNIQUES》(影印版),高等教育出版社陈京民等,《数据仓库与数据挖掘技术》,电子工业出版社,2002TomMitchell,《MachineLearning》,McGraw-HillCompanies,1997网上有关参考资料和文献学术刊物上有关论文4第1章
数据仓库与数据挖掘概述数据仓库的发展数据仓库的基本概念数据挖掘的发展数据挖掘的基本概念数据仓库与数据挖掘的集成5数据仓库的发展NCR公司为WalMart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。6数据仓库的发展IBM:在其DB2发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2OLAPServer外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。Informix公司:在其动态服务器IDS(InformixDynamicServer)中提供一系列相关选件,如高级决策支持选件(AdvancedDecisionSupportOption)、OLAP选件(MetaCubeROLAPOption)、扩展并行选件(ExtendedParallelOption)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。7数据仓库的发展微软公司:在其SQLServer7.0以及SQLServer2000中集成了代号为Plato的OLAP服务器。Sybase:提供了专门的OLAP服务器SybaseIQ,并将其与数据仓库相关工具打包成WarehouseStudio。PLATINUM:提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。;Oracle公司:则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如OracleWarehouseBuilder、OracleExpress、DataMartSuit等)。
8数据仓库的我国的发展现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。原因:尚不存在可靠的、完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等);由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加大。9数据仓库的我国的发展前景:随着计算机技术的发展,尤其是分布式技术的发展,数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。10数据挖挖掘的的发展展数据挖挖掘是是与数数据仓仓库密密切相相关的的一个个信息息技术术新领领域,,它是是信息息技术术自然然演化化的结结果。。随着数据库库技术的迅迅速发展以以及数据库库管理系统统的广泛应应用,人们们积累的数数据越来越越多,但缺缺乏挖掘数数据中隐藏藏的知识的的手段,导导致了“数数据爆炸但但知识贫乏乏的”现象象。自80年代代后期以来来,联机分分析处理((OLAP)和数据据挖掘技术术应运而生生。11数据挖掘的的发展数据挖掘((DataMining,,简记为DM)是从从关系数据据库、数据据仓库、WEB数据据库以及其其他文件系系统中发现现重要的数数据模式、、规律的过过程,因此此又称为数数据库中的的知识发现现(KnowledgeDiscoveryinDatabase,简记记为KDD),它是是OLAP的高级阶阶段。自20世纪纪80年代代起,开始始了数据挖挖掘技术的的研究。1989年年在美国召召开的国际际学术会议议上包含了了“从数据据库中知识识发现”的的主题;1995年年在加拿大大召开了第第一届知识识发现与数数据挖掘国国际学术会会议。12从数据库到到数据仓库库数据库应用用的规模和和深度点线线面互互联网在线分析处处理(OLAP)在在线事务务处理决决策支持持(DS)(OLTP)数据挖掘(DataMining)13事务型处理理与分析型型处理事务型处理理:即操作作型处理,,是指对数数据库的联联机操作处处理。事务务型处理是是用来协助助企业对响响应事件或或事务的日日常商务活活动进行处处理。它是是事件驱动动、面向应应用的,通通常是对一一个或一组组记录的增增、删、改改以及简单单查询等。。事务型处处理的应用用程序和数数据是紧紧紧围绕着所所管理的事事件来构造造的。在事事务型处理理环境中,,数据库要要求能支持持日常事务务中的大量量事务,用用户对数据据的存取操操作频率高高而每次操操作处理的的时间短。。14分析型处理理分析型处理理:用于管管理人员的的决策分析析,例如DSS、EIS、、和多维分分析等。它它帮助决策策者分析数数据以察看看趋向、判判断问题。。分析型处处理经常要要访问大量量的历史数数据,支持持复杂的查查询。在分分析型处理理中,并不不是对从事事务型处理理环境中中得到的细细节数据进进行分析。。细节数据据量太大,,会严重影影响分析的的效率,而而且太多的的细节数据据不利于分分析人员将将注意力集集中于有用用的信息。。分析型处处理过程中中经常用到到外部数据据,这部分分数据不是是由事务型型处理系统统产生的,,而是来自自于其他外外部数据源源。15事务型处理理数据和分分析型处理理数据的区区别事务型处理理数据分分析析型处理数数据细节的综综合的的,或提炼炼的在存取瞬间间是准确的的代代表过去的的数据可更新不不可更新,,只读的操作需求事事先可知道道 操作作需求事先先不知生命周期符符合SDLC完完全不同的的生命周期期对性能要求求高对对性能能要求宽松松一个时刻操操作一个单单元 一个个时刻操作作一个事务驱动分分析析驱动面向应用面面向向分析一次操作数数据量小一一次操操作数据量量大支持日常操操作支支持管理需需求16数据库系统统的局限性性数据库适于于存储高度度结构化的的日常事务务细节数据据,而决策策型数据多多为历史性性、汇总性性或计算性性数据,多多表现为静静态数据,,不需直接接更新,但但可周期性性刷新。决策分析型型数据是多多维性,分分析内容复复杂。在事务处理理环境中,,决策者可可能并不关关心具体的的细节信息息,在决策策分析环境境中,如果果这些细节节数据量太太大一方面面会严重影影响分析效效率,另一一方面这些些细节数据据会分散决决策者的注注意力。17数据库系统统的局限性性当事务型处处理环境和和分析型处处理环境在在同一个数数据库系统统中,事务务型处理对对数据的存存取操作频频率高,操操作处理的的时间短,,而分析型型处理可能能需要连续续运行几个个小时,从从而消耗大大量的系统统资源。决策型分析析数据的数数据量大,,这些数据据有来自企企业内部的的,也有来来自企业外外部的。来来自企业外外部的数据据又可能来来自不同的的数据库系系统,在分分析时如果果直接对这这些数据操操作会造成成分析的混混乱。对于于外部数据据中的一些些非结构化化数据,数数据库系统统常常是无无能为力的的。18多库系统的的限制可用性:源源站点或通通信网络故故障将导致致系统瘫痪痪,源站站点不能通通过网络在在线联入多多库系统。。响应速度::全局查询询多级转换换和通信传传输,延延迟和低层层效率影响响响应速度度。系统性能::总体性能能取决于源源站点中性性能最低的的系统,影影响系统统性能的发发挥;系统开销::每次查询询要启动多多个局部系系统,通通信和运行行开销大。。19数据仓库(DataWarehouse)的的定义数据仓库用用来保存从从多个数据据库或其它它信息源选选取的数据据,并为为上层应用用提供统一一用户接口口,完成数数据查询和和分析。数据仓库是是作为DSS服务基础的的分析型DB,用来来存放大容容量的只读读数据,为为制定决策策提供所需需要的信息息。数据仓库是是与操作型型系统相分分离的、基基于标准企企业模型集集成的、带带有时间属属性的、面面向主题及及不可更新新的数据集集合。W.H.Inmon对数据仓仓库所下的的定义:数据仓库是是面向主题题的、集成成的、稳定定的、随时时间变化的的数据集合合,用以支支持管理决决策的过程程。20数据据仓仓库库的的适适用用范范围围信息息源源中中的的数数据据变变化化稳稳定定或可可预预测测应应用用不不需需要要最最新新的的数数据据或允允许许有有延延迟迟应应用用要要求求有有较较高高的的查查询询性性能能而而降降低低精精度度要要求求21数据据仓仓库库中中数数据据的的特特点点面向向主主题题集成成性性稳定定性性时变变性性支持持管管理理决决策策22面向向主主题题主题题::是是一一个个抽抽象象的的概概念念,,是是在在较较高高层层次次上上将将企企业业信信息息系系统统中中的的数数据据综综合合、、归归类类并并进进行行分分析析利利用用的的抽抽象象。。在在逻逻辑辑上上,,它它对对应应于于企企业业中中某某一一宏宏观观分分析析领领域域所所涉涉及及的的分分析析对对象象。。面向向主主题题的的数数据据组组织织方方式式可可在在较较高高层层次次上上对对分分析析对对象象的的数数据据给给出出完完整整、、一一致致的的描描述述,,能能完完整整、、统统一一的的刻刻画画各各个个分分析析对对象象所所涉涉及及的的企企业业的的各各项项数数据据以以及及数数据据之之间间的的联联系系,,从从而而适适应应企企业业各各个个部部门门的的业业务务活活动动特特点点和和企企业业数数据据的的动动态态特特征征,,从从根根本本上上实实现现数数据据与与应应用用的的分分离离。。23集成成性性数据据仓仓库库中中的的数数据据是是从从原原有有分分散散的的源源数数据据库库中中提提取取出出来来的的,,其其每每一一个个主主题题所所对对应应的的源源数数据据在在原原有有的的数数据据库库中中有有许许多多冗冗余余和和不不一一致致,,且且与与不不同同的的应应用用逻逻辑辑相相关关。。为为了了创创建建一一个个有有效效的的主主题题域域,,必必须须将将这这些些来来自自不不同同数数据据源源的的数数据据集集成成起起来来,,使使之之遵遵循循统统一一的的编编码码规规则则。。因因此此,,数数据据仓仓库库在在提提取取数数据据时时必必须须经经过过数数据据集集成成,,消消除除源源数数据据中中的的矛矛盾盾,,并并进进行行数数据据综综合合和和计计算算。。经经过过数数据据集集成成后后,,数数据据仓仓库库所所提提供供的的信信息息比比数数据据库库提提供供的的信信息息更更概概括括、、更更本本质质。。24稳定定性性数据据仓仓库库中中的的数数据据反反映映的的是是一一段段时时间间内内历历史史数数据据的的内内容容,,是是不不同同时时点点的的数数据据库库快快照照的的集集合合,,以以及及基基于于快快照照的的统统计计、、综综合合和和重重组组的的导导出出数数据据,,而而不不是是联联机机处处理理的的数数据据。。主主要要供供企企业业高高层层决决策策分分析析之之用用,,所所涉涉及及的的数数据据操操作作主主要要是是查查询询,,一一般般情情况况下下并并不不进进行行修修改改操操作作,,即即数数据据仓仓库库中中的的数数据据是是不不可可实实时时更更新新的的,,仅仅当当超超过过规规定定的的存存储储期期限限,,才才将将其其从从数数据据仓仓库库中中删删除除,,提提取取新新的的数数据据经经集集成成后后输输入入数数据据仓仓库库。。25时变变性性时变变性性::许许多多商商业业分分析析要要求求对对发发展展趋趋势势做做出出预预测测,,对对发发展展趋趋势势的的分分析析需需要要访访问问历历史史数数据据。。因因此此数数据据仓仓库库必必须须不不断断捕捕捉捉OLTP数数据据库库中中变变化化的的数数据据,,生生成成数数据据库库的的快快照照,,经经集集成成后后增增加加到到数数据据仓仓库库中中去去;;另另外外数数据据仓仓库库还还需需要要随随时时间间的的变变化化删删去去过过期期的的、、对对分分析析没没有有帮帮助助的的数数据据,,并并且且还还需需要要按按规规定定的的时时间间段段增增加加综综合合数数据据。。26支持持管管理理决决策策数据据仓仓库库支支持持OLAP((联联机机分分析析处处理理))、、数数据据挖挖掘掘和和决决策策分分析析。。OLAP从从数数据据仓仓库库中中的的综综合合数数据据出出发发,,提提供供面面向向分分析析的的多多维维模模型型,,并并使使用用多多维维分分析析的的方方法法从从多多个个角角度度、、多多个个层层次次对对多多维维数数据据进进行行分分析析,,使使决决策策者者能能够够以以更更加加自自然然的的方方式式来来分分析析数数据据。。数数据据挖挖掘掘则则以以数数据据仓仓库库和和多多维维数数据据库库中中的的数数据据为为基基础础,,发发现现数数据据中中的的潜潜在在模模式式和和进进行行预预测测。。因因此此,,数数据据仓仓库库的的功功能能是是支支持持管管理理层层进进行行科科学学决决策策,,而而不不是是事事务务处处理理。。27数据仓库的技技术要求大量数据的组组织和管理::包含了大量的的历史数据,,它是从数据据库中提取得得来的,不必必关心它的数数据安全性和和数据完整性性。复杂分析的高高性能体现::涉及大量数据据的聚集、综综合等,在进进行复杂查询询时经常会使使用多表的联联接、累计、、分类、排序序等操作。对提取出来的的数据进行集集成:数据仓库中的的数据是从多多个应用领域域中提取出来来的,在不同同的应用领域域和不同的数数据库系统中中都有不同的的结构和形式式,所以如何何对数据进行行集成也是构构建数据仓库库的一个重要要方面。对进行高层决决策的最终用用户的界面支支持:提供各种分析析应用工具。。28数据挖掘的定定义数据挖掘(DataMining,简记为DM):是指指从大型数据据库或数据仓仓库中提取隐隐含的、未知知的、非平凡凡的及有潜在在应用价值的的信息或模式式的高级处理理过程。模式:即知识识,它给出了了数据特性或或数据之间的的关系,是对对数据所包含含的信息更抽抽象的描述。。按功能可以以分为预测型型模式和描述述型模式。在在实际应用中中,可以细分分为关联模式式、分类模式式、聚类模式式和序列模式式等。数据挖掘和数数据仓库是作作为两种独立立的信息技术术出现的。它它们都可以完完成对决策过过程的支持,,并且相互间间有一定的内内在联系。因因此,将数据据仓库与数据据挖掘集成到到一个系统中中将能够更有有效地提高系系统的决策支支持能力。数据挖掘是一一门交叉性学学科,它涉及及到机器学习习、模式识别别、统计学、、智能数据库库、知识获取取、数据可视视化、高性能能计算、专家家系统等多个个领域。29数据挖掘的类类型数据挖掘的任任务是从大量量的数据中发发现模式。根根据数据挖掘掘的任务可分分为多种类型型,其中比较较典型的有::预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖挖掘Web数据挖挖掘30预测模型预测模型(PredictiveModeling)::所谓预测即即从数据库或或数据仓库中中已知的数据据推测未知的的数据或对象象集中某些属属性的值分布布。建立预测模型型的常用方法法:回归分析线性模型关联规则决策树预测遗传算法神经网络31关联分析关联(Association)分分析:关联规规则描述了一一组数据项之之间的密切度度或关系。关关联分析用于于发现项目集集之间的关联联。在关联规规则挖掘算法法中,通常给给出了置信度度和支持度两两个概念,对对于置信度和和支持度均大大于给定阈值值的规则称为为强规则,而而关联分析主主要就是对强强规则的挖掘掘。关联规则则挖掘近几年年研究较多。。现在,关联联规则的挖掘掘已经从单一一概念层次关关联规则的发发现发展到多多概念层次的的关联规则的的发现,并把把研究的重点点放在提高算算法的效率和和规模可收缩缩性上。它广广泛地运用于于帮助市场导导向、商品目目录设计客户户关系管理))(CRM))和其他各种种商业决策过过程中。关联分分析算算法::APRIORI算算法、、DHP算算法、、DIC算算法、、PARTITION算算法及及它们们的各各种改改进算算法等等。另另外,,对于于大规规模、、分布布在不不同站站点上上的数数据库库或数数据仓仓库,,关联联规则则的挖挖掘可可以使使用并并行算算法,,如::Count分分布算算法、、Data分布算算法、、Candidate分分布布算法法、智智能Data分布算算法((IDD))和DMA分布布算法法等。。32分类分分析分类((Classification)分分析::所谓谓分类类是根根据数数据的的特征征为每每个类类别建建立一一个模模型,,根据据数据据的属属性将将数据据分配配到不不同的的组中中。在在实际际应用用过程程中,,分类类规则则可以以分析析分组组中数数据的的各种种属性性,并并找出出数据据的属属性模模型,,从而而确定定哪些些数据据属于于哪些些组。。这样样就可可以利利用该该模型型来分分析已已有数数据,,并预预测新新数据据将属属于哪哪一个个组。。类的的描述述可以以是显显式的的,如如用一一组特特征概概念描描述;;也可可以是是隐式式的,,如用用一个个数学学公式式或数数学模模型描描述。。分类类分析析已经经成功功地用用于顾顾客分分类、、疾病病分类类、商商业建建模和和信用用卡分分析等等。分类分分析的的常用用方法法:决策树树神经网网络统计分分析法法33聚类分分析聚类(Clustering)分分析::所谓谓聚类类是指指一组组彼此此间非非常““相似似”的的数据据对象象的集集合。。相似似的程程度可可以通通过距距离函函数来来表示示,由由用户户或专专家指指定。。聚类类分析析是按按照某某种相相近程程度度度量方方法将将数据据分成成互不不相同同的一一些分分组。。每一一个分分组中中的数数据相相近,,不同同分组组之间间的数数据相相差较较大。。好的的聚类类方法法可以以产生生高质质量的的聚类类,保保证每每一聚聚类内内部的的相似似性很很高,,而各各聚类类之间间的相相似性性很低低。聚聚类分分析的的核心心是将将某些些定性性的相相近程程度测测量方方法转转换成成定量量测试试方法法。采采用聚聚类分分析,,系统统可以以根据据部分分数据据发现现规律律,找找出对对全体体数据据的描描述。。聚类分分析的的常用用方法法:基于目目标函函数优优化的的方法法层次方方法34序列分分析序列((Sequence)分分析::序列列分析析主要要用于于分析析数据据仓库库中的的某类类与时时间相相关的的数据据,搜搜索类类似的的序列列或子子序列列,并并挖掘掘时序序模式式、周周期性性、趋趋势和和偏离离等。。例如如,它它可以以导出出类似似“若若AT&T股票票连续续上涨涨两天天且DEC股票票不下下跌,,则第第三天天IBM股股票上上涨的的可能能性为为75%””的数数据关关系。。序列列模式式可以以看成成是一一种特特定的的关联联模型型,它它在关关联模模型中中增加加了时时间属属性。。35偏差检检测与与模式式相似似性挖挖掘偏差检检测((DeviationDetection)):用于于检测测并解解释数数据分分类的的偏差差,它它有助助于滤滤掉知知识发发现引引擎所所抽取取的无无关信信息,,也可可滤掉掉那些些不合合适的的数据据,同同时可可产生生新的的关注注性事事实。。模式相相似性性挖掘掘:用于在在时间间数据据库或或空间间数据据库中中搜索索相似似模式式时,,从所所有对对象中中找出出用户户定义义范围围内的的对象象;或或找出出所有有元素素对,,元素素对中中两者者的距距离小小于用用户定定义的的距离离范围围。模模式相相似性性挖掘掘的方方法有有相似似度测测量法法、遗遗传算算法等等。36Web数据据挖掘掘Web数据据挖掘掘:万万维网网是一一个巨巨大的的、分分布广广泛的的和全全球性性的信信息服服务中中心,,其中中包含含了丰丰富的的超链链接信信息,,为数数据挖挖掘提提供了了丰富富的资资源。。Web数数据挖挖掘包包括Web使用用模式式挖掘掘、Web结构构挖掘掘和Web内容容挖掘掘等。。Web使用用模式式挖掘掘:在在Web环环境中中,文文档和和对象象一般般都是是通过过链接接来便便于用用户访访问。。捕捉捉用户户的存存取模模式或或发现现一个个Web网网站最最频繁繁的访访问路路径称称为Web使用用模式式挖掘掘或Web路径径挖掘掘。Web结构构挖掘掘:是是挖掘掘Web的的链接接结构构,并并找出出关于于某一一主题题的权权威网网站。。Web内容容挖掘掘:是是指在在大量量训练练样本本的基基础上上,得得到数数据对对象之之间的的内在在特征征,并并以此此为依依据进进行有有目的的的信信息筛筛选,,从而而获得得指定定内容容的信信息。。基于Web的研研究::搜索索引擎擎的设设计、、文件件自动动分类类技术术、关关键词词的自自动提提取、、半结结构化化信息息的提提取及及Web上上新型型应用用的研研究等等。37第2章章数数据据仓仓库库的的数数据据模模型型与与数数据据组组织织数据据仓仓库库的的数数据据模模型型概念念模模型型逻辑辑模模型型物理理模模型型数据据仓仓库库数数据据组组织织的的基基本本概概念念粒度度维度度元数数据据数据据分分割割数据据仓仓库库的的数数据据组组织织数据据仓仓库库的的数数据据组组织织方方式式数据据仓仓库库的的数数据据存存储储组组织织38数据据仓仓库库中中的的数数据据组组织织高度度综综合合级级轻度度综综合合级级当前前综综合合级级早期期细细节节级级多级级数数据据3940星型型图图模模型型物理理数数据据模模型型概念念模模型型逻辑辑模模型型物理理模模型型面向向用用户户的的需需求求细化化层层次次更详详细细的的技术术细细节节数据据仓仓库库的的数数据据模模型型信息息包包图图41信息息包包图图((概概念念模模型型))信息息包包图图::是数数据据仓仓库库的的数数据据模模型型的的第第一一层层或或最最高高层层。。由由于于大大多多数数商商务务数数据据是是多多维维的的,,但但传传统统的的数数据据模模型型表表示示三三维维以以上上的的数数据据有有一一定定困困难难。。而而信信息息包包图图简简化化了了这这一一过过程程并并且且允允许许用用户户设设计计多多维维信信息息包包并并与与开开发发者者和和其其他他用用户户建建立立联联系系。。这这种种模模型型集集中中在在用用户户对对信信息息包包的的需需要要,,信信息息包包提提供供了了分分析析人人员员思思维维模模式式的的可可视视化化表表示示。。工作作::确定定系系统统边边界界::决决策策类类型型、、需需要要的的信信息息、、原原始始信信息息确定定主主题题域域及及其其内内容容::主主题题域域的的公公共共键键码码、、联联系系、、属属性性组组确定定维维度度::如如时时间间维维、、销销售售位位置置维维、、产产品品维维、、组组别别维维等等确定定类类别别::相相应应维维的的详详细细类类别别确定定指指标标和和事事实实::用用于于进进行行分分析析的的数数值值化化信信息息42信息息包包图图信息息包包::维度度类别别空白白信信息息包包图图样样式式指标和事实43信息息包包图图〖例例〗〗试试画画出出销销售售分分析析的的信信息息包包图图。。解::首首先先根根据据销销售售分分析析的的实实际际需需求求,,确确定定信信息息包包的的维维度度、、类类别别和和指指标标与与事事实实::(1))维维度度::包包括括日日期期维维、、销销售售地地点点维维、、销销售售产产品品维维、、年年龄龄组组别别维维、、性性别别维维等等。。(2))类类别别::确确定定各各维维的的详详细细类类别别,,如如::日日期期维维包包括括年年((10))、、季季度度((40))、、月月((120))等等类类别别,,括括号号中中的的数数字字分分别别指指出出各各类类别别的的数数量量;;销销售售地地点点维维包包括括国国家家((15))、、区区域域((45))、、城城市市((280))、、区区((880))、、商商店店((2000))等等类类别别,,括括号号中中的的数数字字同同样样分分别别指指出出各各类类别别的的数数量量;;类类似似地地,,可可以以确确定定销销售售产产品品、、年年龄龄组组别别维维、、性性别别维维等等的的详详细细类类别别。。(3)指指标和事事实:确确定用于于进行分分析的数数值化信信息,包包括预测测销售量量、实际际销售量量和预测测偏差等等。44销售分析析的信息息包图日期销售地点销售产品年龄组别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实:预测销售量、实际销售量、预测偏差信息包::销售分析析维度类别45星型图模模型(逻逻辑模型型)星型图::数据仓仓库的数数据模型型的第二二层是向向最终的的数据结结构添加加某些细细节的星星型图模模型。与与传统的的关系模模型相比比,星型型图模型型简化了了用户分分析所需需的关系系,从支支持决策策的角度度去定义义数据实实体,更更适合大大量复杂杂查询。。星形图包包括了三三种逻辑辑实体::指标维度详细类别别46星型图模模型(逻逻辑模型型)〖例〗销销售分析析的星型型图模型型。时间维产品维地区维组别维其他维销售分析析:实际销售售预测销售售预测偏差差47物理数据据模型物理数据据模型::数据模模型的第第三层,,它是星星型图模模型在数数据仓库库中的实实现,如如物理的的存取方方式、数数据存储储结构等等。在物理设设计时,,常常要要按数据据的重要要程度、、使用频频率以及及对响应应时间的的要求进进行分类类,并将将不同类类的数据据分别存存储在不不同的存存储设备备中。重重要程度度高、经经常存取取并对响响应时间间高的数数据就存存放在高高速存储储设备上上,如硬硬盘;存存取频率率低或对对存取响响应时间间要求低低的数据据则可以以放在低低速存储储设备上上。48粒度-第一种形形式粒度:对对数据仓仓库中的的数据综综合程度度高低的的一个度度量,它它既影响响数据仓仓库中的的数据量量的多少少,也影影响数据据仓库所所能回答答询问的的种类。。粒度越小小,综合合程度越越低,回回答查询询的种类类越多;;粒度度越高,,综合程程度越高高,查询询的效率率也越高高。在数据仓仓库中可可将小粒粒度的数数据存储储在低速速存储器器上;大大粒度的的数据存存储在高高速存储储器上。。49粒度-第二种形形式:样样本数据据库样本数据据库:在在分析过过程中,,有许多多探索的的过程有有时分析析的目的的并不要要求精确确的结果果,只需需要得到到相对准准确、能能反映趋趋势的数数据,所所以可以以提取出出样本数数据库。。样本数据据库的粒粒度:是是根据采采样率的的高低来来划分的的,采样样粒度不不同的样样本数据据库可以以具有相相同的综综合级别别,它是是按一定定的采样样率从细细节数据据库或轻轻度综合合数据库库中提取取的一个个子集。。样本数据据库的抽抽取按照照数据的的重要程程度不同同进行,,利用样样本数据据库采集集重要数数据进行行分析既既可提高高分析效效率,又又有助于于抓住主主要因素素和主要要矛盾。。50维度维度:是是一个物物理特性性(如时时间、地地点、产产品等)),它是是表达数数据仓库库中信息息的一个个基本途途径,可可作为标标识数据据的索引引。通常常的报表表只包含含有行和和列两维维,但在在数据仓仓库中所所存储的的数据大大多是用用多维((三维或或三维以以上)视视图表示示的。例如:一个销售售系统中中的数据据可分为为时间维维、产品品维和地地理位置置维等;;一个财务务系统中中的数据据可分为为时间维维、支出出维和收收入维等等;一个企业业决策支支持系统统中的数数据可分分为成本本开支维维、销售售收入维维、利润润维、股股票价值值维等。。51聚合在数据仓仓库技术术中,每每一维可可包括多多个层次次,这些些层次反反过来可可以向用用户提供供某一层层次的数数据。例例如,在在地理位位置维中中,由所所有的街街区组成成了地区区,由所所有的地地区组成成了城市市等。聚聚合就是是指在维维的不同同层次内内移动数数据,从从而构成成维内不不同层次次的数据据集,使使用户不不仅能够够在一个个维度内内观察数数据,而而且能够够在维度度内的不不同层次次上观察察数据。。52分解与合成成分解与合成成是在一个个维度内进进一步细分分数据或将将数据按照照另一标准准组合的过过程。例如如,当以地地理位置维维观察数据据时,用户户可以首先先以国家((如中国))为单位观观察数据,,然后可以以选择观察察某一个地地区(如华华东地区))的数据,,接下来可可以选择观观察某一个个省或城市市(如上海海)的数据据,这就是是数据分解解的过程。。而合成则则是分解的的逆过程,,例如用户户开始以省省市为观察察对象,接接着再以地地区、国家家等为观察察对象,就就是一个数数据合成的的过程。53分割及其标标准分割:将数数据分散到到各自的物物理单元中中去以便能能分别处理理,提高数数据处理效效率,数据据分割后的的数据单元元称为分片片。数据分割的的标准:可可按日期、、地域、业业务领域或或按多个分分割标准的的组合。数据分割的的目的:便便于进行数数据的重构构、索引、、重组、恢恢复、监控控、扫描54数据分割的的方法垂直分割::垂直分割割就是把一一个表垂直直分成两部部分。这种种类型的分分割有助于于把一大堆堆列分成两两个独立的的表,这两两个表之间间通过一个个关键字段段相关联。。水平分割::水平分割割就是把表表按行分成成两部分。。这种类型型的分割被被用来存储储与用户联联系紧密的的本地重要要数据,从从而减少网网络查询。。图解分割::经由多个个分布系统统把一个图图分解成两两部分。可可以从指定定的服务器器或在多个个服务器之之间建立连连接而得到到一个表所所需要的全全部数据。。这种类型型的分割被被用来把小小的、静止止的表从不不稳定的、、越变越大大的表中分分割出来。。55元数据元数据:是是用来描述述数据的数数据。它描描述和定位位数据组件件、它们的的起源及它它们在数据据仓库进程程中的活动动;关于数数据和操作作的相关描描述(输入入、计算和和输出)。。元数据可可用文件存存在元数据据库中。要有效的管管理数据仓仓库,必须须设计一个个描述能力力强、内容容完善的元元数据。56元数据的种种类转换元数据据:为了从从事务处理理型环境向向数据仓库库中转换而而建立的元元数据,它它包含了所所有源数据据的信息、、事务描述述、数据结结构的定义义、提取数数据和传送送数据的算算法、综合合数据和净净化数据的的规则、数数据访问和和传送的记记录等。DSS元数数据:在数数据仓库中中用来与终终端用户的的多维商业业模型/前前端工具之之间建立映映射,这种种元数据常常称为DSS元数据据,常用来来开发更先先进的决策策支持工具具。57数据仓库中中的元数据据的内容与数据库的的数据字典典中相似的的内容数据仓库的的主题描述述外部数据和和非结构化化数据的描描述记录系统定定义逻辑模型的的定义数据进入数数据仓库的的转换规则则数据的提取取历史粒度的定义义数据分割的的定义广义索引有关存储路路径和结构构的描述关于源数据据的元数据据:数据源源中所有物物理数据结结构;所有有数据项的的业务定义义;每个数数据项更新新的频率,,以及由谁谁或哪个过过程更新的的说明;每每个数据项项的有效值值;其它系系统中具有有相同业务务含义的数数据项的清清单。关于数据仓仓库映射的的元数据。。用元数据据反映数据据仓库中的的数据项是是从哪个特特定的数据据源填充的的,经过哪哪些转换、、集成过程程。关于系统安安全的元数数据。描述述系统中用用户、权限限组及用户户权限信息息。与设计时采采用的具体体技术以及及具体应用用环境有关关的内容。。58数据仓库的的数据组织织为了提高分分析和决策策的效率和和有效性,,分析型处处理及其数数据必须与与事务型处处理及其数数据相分离离,把分析析型处理所所需要的数数据从事务务型处理环环境中提取取出来,按按照分析型型处理的要要求进行重重新组织,,建立单独独的分析处处理环境。。数据仓库库正是构建建这种新的的分析处理理环境而出出现的一种种数据存储储和组织技技术。数据仓库的的数据组织织结构不同同于一般的的数据库系系统,需要要将从原有有的业务数数据库中获获得的基本本数据和综综合数据分分成一些不不同的级别别。在数据据仓库中,,数据按照照粒度从小小到大可分分为四个级级别:早期期细节级、、当前细节节级、轻度度细节级和和高度细节节级。从事事务型处理理环境中提提取的源数数据经过综综合后,首首先进入当当前细节级级,并根据据需要进行行进一步的的综合进入入轻度综合合级或高度度综合级,,老化的数数据将进入入早期细节节级。59数据仓库的的数据组织织方式虚拟存储方方式:数据仓库数数据的虚拟拟存储方式式是指在数数据仓库中中实际上并并没有具体体的数据存存储,数据据仓库中的的数据仍然然存储在源源数据库中中,只是根根据用户的的多维分析析需求而形形成多维视视图,临时时在源数据据库中找出出并提取所所需要的数数据,完成成多维分析析。这种组组织方式比比较简单、、花费少、、使用灵活活,但同时时它也存在在一个致命命的弱点::即只有当当源数据库库的组织比比较规范、、数据完备备并没有冗冗余,同时时又比较接接近多维数数据模型时时,虚拟数数据仓库的的多维语义义层才容易易定义。而而一般数据据库的组织织关系都比比较复杂,,数据库中中的数据存存在许多冗冗余和相互互矛盾的地地方,数据据的净化、、提取、集集成需要花花费大量的的时间,在在实际应用用中这种方方式难以建建立起有效效的、为决决策服务的的数据支持持。60数据仓库的的数据组织织方式基于关系表表的存储方方式:基于关系表表的存储方方式是将数数据仓库的的数据存储储在关系型型数据库的的表结构中中,在元数数据的管理理下完成数数据仓库的的功能。这这种组织方方式在建库库时有两个个主要过程程用以完成成数据的提提取:首先先要提供一一种可视化化的操作界界面,使决决策分析人人员能对源源数据库的的内容进行行选择,定定义多维数数据模型;;然后再编编制程序把把数据库中中的数据提提取到数据据仓库的数数据库中。。这种方式式的主要问问题是在多多维数据模模型定义好好后,从数数据库中提提取数据往往往需要编编制独立、、复杂的程程序,因此此,通用性性较差,且且很难维护护。多维数据库库存储方式式:多维数据库库的组织方方式是直接接面向OLAP分析析操作的数数据组织形形式。这种种数据库产产品也比较较多,实现现方法也不不尽相同。。其数据组组织采用多多维数据结结构文件进进行存储,,并有维索索引及相应应的元数据据与其对应应。61数据仓库中中文件的存存储方式简单堆积文文件:它将每天从从数据库中中提取加工工后的数据据逐日积累累的存储起起来。按这这种方式存存储的数据据细节化程程度很高,,可以应付付多种细节节查询,但但分析时查查询的效率率较低。轮转综合文文件:它将数据按按不同的期期限轮转地地存储。例如,可将将每一天的的数据记录录在一个日日记录集中中,当到达达一个星期期后再将这这七天的数数据进行综综合然后存存储在一个个周记录中中,同时将将原来日记记录集中的的数据清空空开始对新新一周的每每一天的数数据进行记记录;同理理,当到达达一个月后后,将周记记录集中的的数据进行行综合然后后存储在一一个月记录录中,而周周记录中又又开始新一一个月的每每一周的记记录,以此此类推。按按这种形式式存储的数数据较按简简单堆积文文件形式存存储的数据据其数据量量大大减少少,但是它它是以损失失细节程度度为代价的的,时间越越久的数据据,细节程程度越低。。62数据仓库库的数据据组织形形式简化直接接文件:数据是从从操作型型环境直直接装入入数据仓仓库中,,并没有有任何积积累,只只不过这这种文件件不是在在每天的的基础上上组织的的,而是是以较长长时间((如一个个星期、、一个月月)为单单位的。。因此,,简单直直接文件件是按一一定时间间操作型型数据库库的一个个快照,,即按一一定所时时间间隔隔对数据据库的采采样。连续文件件:它是通过过比较两两个连续续的简单单直接文文件的不不同而生生成的另另一种连连续文件件,生成成的连续续文件又又可以和和新的简简单直接接文件一一起生成成新的连连续文件件。例如如:通过过比较两两个简单单文件““1月份份顾客表表”和““2月份份顾客表表”生成成一个连连续文件件“1~~2月份份顾客表表”,然然后再通通过比较较连续文文件“1~2月月份顾客客表”和和另一个个简单直直接文件件“3月月份顾客客表”生生成一个个相等连连续文件件“1~~3月份份顾客表表”等。。63第3章
数据据仓库的设计计数据仓库设计计与数据库设设计的区别数据仓库的设设计步骤高层设计技术准备工作作中层设计低层设计数据仓库生成成64数据仓库的设设计数据仓库是企企业信息化环环境的核心,,它是建立决决策支持系统统的基础。一一个企业在实实施其数据仓仓库战略时,,数据仓库体体系结构的选选择是关系到到数据仓库成成功与否的关关键问题。为为了提高系统统的效率和性性能,数据仓仓库的数据内内容、结构、、粒度、分割割以及其他物物理设计需要要根据用户所所返回的信息息不断地调整整和完善,而而且数据仓库库需要通过不不断地理解用用户的分析需需求,向用户户提供更准确确、更有用的的决策信息,,所以数据仓仓库对灵活性性和扩展性有有较高的要求求,它的建立立是一个动态态、循环和反反馈的过程。。65数据仓库的设设计-与数据库设计计的区别系统设计的目目标不同:数据库是面向向事务型处理理的,所以事事务型处理性性能是系统设设计的一个主主要目标。而而数据仓库是是为了支持决决策分析而建建立的一种数数据存储集合合,在系统设设计时,更关关心的是建立立起一个全局局一致的分析析型处理环境境来支持企业业的决策分析析。面向的需求不不同:数据库系统是是面向应用的的,所以在系系统设计时应应以此为出发发点和基础。。而在决策分分析时,决策策者分析问题题的角度多种种多样,所以以数据处理流流和信息流不不固定,甚至至决策者对所所要进行的分分析处理都不不太明了,数数据的分析处处理的需求更更灵活。这就就决定了在数数据仓库系统统设计时,不不可能完全从从用户需求出出发来进行设设计。66数据仓库的设设计-与数据库设计计的区别数据来源不同同:数据库系统中中数据是从企企业外部通过过输入得到的的,所以系统统设计时就是是设计如何与与外部对话得得到数据,如如何存储这些些数据,它关关心的是数据据的安全性和和完整性等。。数据仓库中中的数据大部部分是从企业业内部的数据据库系统得到到的,还有一一部分是企业业外部的非结结构化数据,,这些数据都都是安全可靠靠且正确有效效的,所以在在系统设计时时它关心的不不是数据的安安全性和完整整性,而是数数据的一致性性。数据的处理类类型不同:数据库系统支支持的是事务务型处理,主主要指数据的的增、删、改改、查等等,,系统计时时都是针对某某一具体应用用。数据仓库库是面向分析析的,它的数数据处理大都都是对数据的的复杂查询,,所以在设计计时考虑的是是如何更好的的面向主题,,如何提高查查询的效率等等。67数据仓库的设设计-与数据库设计计的区别设计方法不同同:由于在数据库库系统中业务务过程和规则则比较规范固固定,系统设设计人员能清清楚的知道应应用需求和数数据流程,所所以系统设计计一般采用系系统生命周期期法(SystemsDevelopmentLifeCycle,SDLC)。。在决策分析析时,决策人人员往往无法法给决策需求求一个规范的的说明,只能能给出一个模模糊的描述,,对这种需求求不确定的开开发过程,设设计方法有很很大的不同,,采用与SDLC相反的CLDS法。68收集应用需求求分析应用需求求构建数据库数据仓库建模模数据获取与集集成构建数据仓库库系统实施应用编程系统测试DSS应用编编程系统测试理解需求DB应用B应用ADBDB外部数据DWSDLC方法法CLDS方法法69数据仓库设计计的技术要求求对大量数据的的组织和管理理。数据仓库中包包含了大量的的历史数据,,它是一段较较长时间内的的数据。另外外,数据仓库库中的数据是是从数据库中中提取得来的的,所以不必必关心它的数数据安全性和和数据完整性性,它要求进进行大量数据据的组织与管管理。支持高性能的的复杂分析。。复杂分析时通通常涉及大量量数据的聚集集、综合等,,在进行复杂杂查询时经常常会使用多表表的联接、累累计、分类、、排序等操作作,这对数据据仓库基于的的数据库系统统的性能特别别是并行处理理能力提出了了挑战。对提取出来的的数据进行集集成。数据仓库中的的数据是从多多个应用领域域中提取出来来的,在不同同的应用领域域和不同的数数据库系统中中都有不同的的结构和形式式。如果直接接对这些数据据进行分析,,会得到不同同的结果,所所以如何对数数据进行集成成也是构建数数据仓库的一一个重要方面面。对高层决策的的最终用户提提供工具。数据仓库只是是一个数据存存储的集合,,如果没有各各种分析应用用工具,一个个庞大的数据据仓库是毫无无意义的。这这些工具的设设计对于开发发一个完整的的数据仓库及及其应用体系系是致关重要要的。70数据仓库的设设计步骤高层设计技术准备工作作中层设计低层设计数据仓库生成成71高层设计(概概念模型设计计)高层设计:主主要考虑商业业过程和商业业需求的集成成,将与目前前商业过程有有关的信息和和数据仓库试试图实现的目目标合并在一一起,创建信信息包图。创建信息包图图的过程:分分析用户需求求,收集信息息将信息打包包的过程。分析用户需求求(确定系统统边界):确定用户要做做的决策类型型确定用户决策策时需要的信信息确定原始信息息决定数据仓库库所需要的信信息的级别,,采用多级信信息包图定义关键性能能指标(确定定主要的主题题域):主题域的公共共键码主题域间的联联系充分代表主题题的属性72高层设计(概概念模型设计计)定义维度:每每一个维代表表一个统一的的访问数据仓仓库中信息的的途径。这些些维也定义了了一个完整的的主题分类,,而且这些分分类将被用作作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江省哈尔滨市师大附中2023级高二上学期10月阶段性考试历史试卷
- 陕西省咸阳市2017-2018学年高一上学期期末考试语文试题
- 《蜀道难》原文及翻译蜀道难原文带拼音
- 第二章-热力学第一定律-1
- 2024年聘请常年法律顾问合同(四)
- 2024年鹤岗资格证客运题库
- 专家咨询协议书2024年
- 2024年内蒙古客运资格证模拟题库及答案
- 2024年哈尔滨客运资格证节能驾驶考试题
- 2024年汕头客运从业资格证考试答案
- 汉语词汇与文化智慧树知到期末考试答案章节答案2024年浙江师范大学
- 软件项目管理大作业
- 行政事业单位报销流程
- 银行分行“职工之家”活动室管理暂行规定
- 安全防范工程建设及维护保养费用预算编制办法
- 水的饱和蒸汽压表
- 代持股权协议书.doc
- 《提高小学英语写作能力的策略研究》方案
- 监理公司业绩提成办法
- 综合门诊部设置标准
- 工程项目技术管理人员批评与自我批评
评论
0/150
提交评论