数据仓库及数据挖掘期末复习_第1页
数据仓库及数据挖掘期末复习_第2页
数据仓库及数据挖掘期末复习_第3页
数据仓库及数据挖掘期末复习_第4页
数据仓库及数据挖掘期末复习_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

..1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。特性:面向主题的、集成的、非易失的、随时间不断变化的。1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。2、集成的〔最重要〕:数据仓库必须将不一致的数据进展有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一局部工作,另外还需要根据主题进展有效的数据组织。3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进展更新操作,而只进展查询操作。即不进展一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。4、随时间不断变化的〔数据因时而变的特点〕"与操作型数据比拟的,书上14页":〔1〕数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天,数据仓库5-10年。=2\*GB2⑵操作型环境中的数据库含有数据的"当前值〞,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。=3\*GB2⑶操作型环境中的数据键码构造可能含有也可能不含有;数据仓库的键码构造总是包含某时间元素。2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。数据清洗:所谓"清洗〞是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据仓库中对象的位置。数据集市:面向企业中的某个部门〔主题〕而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。数据仓库的数据组织构造:早期细节级〔通常用于备用的、批量化的存储〕、当前细节级、轻度综合数据级〔数据集市〕以及高度综合数据级。一旦数据过期,就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。数据粒度的两种形式:第一种形式的粒度是对数据仓库中的数据的综合程度上下的一种度量,另一种形式即样本数据库,是针对数据挖掘的,样本数据库是以一定的采样率〔或按数据的重要程度的不同〕从细节档案数据或轻度综合数据中抽取的一个子集。数据分割:分割是指将数据分割到各自的物理单元中以便能分别进展处理,提高数据处理效率,数据分割后形成的数据单元称为分片。数据库数据仓库面向应用数据是详细保持当前数据数据是可更新对数据的操作是重复的操作需事先可知的一个操作只存取一条记录数据非冗余操作较频繁所查询的是原始数据事务处理需要当前数据鲜有复杂的计算支持事务处理面向主题数据是综合的或提炼的保存过去的和现在的数据数据是不可更新对数据的操作是启发式的操作需临时决定的一个操作存取一个数据集合数据常冗余操作相对不频繁所查询的是经过加工的数据决策分析需要过去的和现在的数据需做复杂的计算支持决策分析操作型数据分析型数据细节的在存取瞬间,数据是准确的可更新的事先可知操作需求生命周期符合SDLC〔软件开发生命周期〕对性能的要求较高某一时刻操作一个单元事务驱动面向应用一次操作的数据量较小支持日常操作综合的或提炼的历史数据不可更新操作需求事先不可知完全不同的生命周期对性能的要求较为宽松某一时刻操作一个集合分析驱动面向分析一次操作的数据量较大支持管理需求4.数据仓库的数据追加与方法数据追加:数据仓库中的数据初装完成后,再向数据仓库输入数据的过程。数据仓库的容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。捕捉变化数据的常用途径如下:〔1〕时标方法:如果数据含有时标,对于插入或更新的数据记录,在记录中设置相应的时标,那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。〔2〕DELTA文件1.DELTA文件是由应用生成的,记录应用所改变的所有容。2.利用DELTA文件效率很高,它防止扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成DELTA文件的应用并不普遍,还有更改应用代码的方法,可在生成新数据时将其自动记录下来,但应用数目庞大,修改的代码十分繁琐。〔3〕前后映像文件的方法:1.在抽取数据前后对数据库各做一次快照,然后比拟两幅快照从而确定新数据。2.它占用大量资源,对性能影响极大,因此无实际意义。〔4〕日志文件〔最切实有效〕日志是DMBS的固有机制系统日志能把数据库效劳器所执行的所有操作详细记录下来,通过分析日志获取数据变化情况。它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。固有机制,不影响OLTP性能。5..数据仓库的数据清理1.数据参加失去原有细节的一个定期综合文件2.数据从高性能介质转移到大容量介质上3.数据从系统中实质性的去除4.数据从体系构造的某一个层次转至另一个层次,必须从操作型层次转至数据仓库层次6.数据集市的类型概念,在企业中很重要的作用数据集市(DataMart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体效劳的数据源中收集数据的仓库。数据仓库在整个组织围为各个部门提供管理与决策支持,而数据集市通常处于部门级,只能为某个局部围的管理人员提供效劳,因此也称为部门级数据仓库。因此可以说数据集市是针对特定应用的数据仓库,即针对某个具有战略意义的应用或部门级应用,支持用户利用已有的数据做出管理决策。数据集市〔DataMarts〕是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。1.独立型数据集市〔独立数据集市〕其数据直接来自各个生产系统,许多企业考虑投资问题,最终建成独立数据集市,用来解决个别部门较为迫切的决策问题。从这种意义上讲,它和企业数据仓库除了在数据量和效劳对象上存在差异外,逻辑构造并无多大区别,也许就是把数据集市成为部门级数据仓库的主要原因。2.附属性数据集市〔附属集市〕:数据直接来自中央数据仓库访问数据仓库频繁的关键业务部门建立附属数据集市,可以提供查询操作的反响速度。7.数据仓库VS数据集市工程数据仓库数据集市数据来源围主题数据粒度数据构造历史数据优化索引遗留系统、OLTP系统、外部数据企业级企业主题最细的粒度规化构造〔第三式〕大量的历史数据处理海量数据/数据索引高度索引数据仓库部门级或工作级部门级或特殊的分析主题较粗的粒度星型模式、雪花模式、两者混合适量的历史数据便于访问、分析、快速查询高度索引8.数据仓库的体系构造数据仓库系统的层次构造数据仓库在逻辑上可以分为:数据获取/管理层、数据存储层、数据分析/应用层1.数据获取/管理层:〔1〕.数据仓库的定义与修改、〔2〕.数据的获取、〔3.〕数据仓库系统的管理2.数据存储层:是数据仓库的主体,包括〔1〕.从外部数据源抽取数据,经清洗、转换处理,并按主题进展组织和存放称其为业务数据仓库〔2〕.数据仓库的元数据〔3.〕针对不同的数据挖掘和分析主题而生成的数据集市3.数据分析/应用层:〔1〕查询/统计功能〔2〕OLAP效劳〔3〕数据挖掘效劳9.数据仓库的构造模式〔加上有反响的~~~六种〕自顶向下模式自底向上模式、平行开发模式1.自定向下模式特点:在这种模式下,数据集市是数据仓库的真子集,数据由数据仓库流向数据集市。数据仓库的设计过程直观,概念清晰,易于只要对外部数据源所支持的决策有较深入的额理解,保证各数据集市都是数据仓库的真子集,就可以完全消除信息之间的"蜘蛛网〞现象。这种模式缺乏之处在于要求设计者对具体业务有较深入的理解,系统设计规模较大,实施周期过长,工程见效缓慢,尤其是在工程实施初期,成效并不明显构造方向:从左到右决策分析主题<数据集市数据仓库外部数据源2.自底向上模式自底向上模式设计思路是先具体,后综合构造方向:从右到左决策分析主题<数据仓库数据集市外部数据源特点:投资少,见效快,由于数据集市缺少元数据,因而最终构造数据仓库的过程具有一定的难度,并有可能影响数据仓库整体构造的合理性以及系统的运行效率3.平行开发模式〔又称企业级数据集市模式〕平行模式是在自顶向下模式的根底上,吸收了自底向上的优点开展而成的,是他们的有机结合。4.改良的开发模式均在上面介绍的根底上经改良开展而来,共同特点是:按照软件工程学的观点,接收用户对所构建的数据仓库系统的反响信息,加以分析和整理,并以此为依据,对数据仓库进展修改,以不断提高数据系统对决策的支持能力。12.联机分析处理p40联机分析处理OLAP定义:OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以到达深入理解数据的目的。目标是满足决策支持或多维环境下特定的查询和报表需求,因此OLAP可以说是多维数据分析工具的集合。OLAP是针对特定问题的联机数据访问和分析处理OLAP功能:数据分析、报表〔p67〕13.OLAP相关的根本概念p41变量:是数据的实际意义,用来描述数据〞是什么〞维:是人们观察数据的特定角度维的层次:人们观察数据的某个特定角度还可以存在细节程度不同的多个描述,这就是维的层次维的成员:维的一个取值称为该维的的一个成员多维数组:是维和变量的组合表示数据单元:是多维数据的取值14.OLAP准那么〔12条,选择题〕p441.OLAP模型必须提供多维概念2.透明性3.存取能力准那么4.稳定的报表能力5.客户—效劳器体系构造6.维的等同性准那么7.动态的稀疏矩阵处理准那么8.多用户支持能力9.非受限的夸维操作10.直观的数据操作11.灵活的报表的生成12.非受限维语聚集层次简化的5条原那么:1.快速性、2.可分析性、3.共享性、4.多维性、5.信息性15.OLAP根本分析动作,每个动作是什么意思p49数据切片:多维数据的子集是多维数据的维i上切片数据切片是一种优化功能,可以帮助将查询指向相应的数据。数据切片无法为分区指定数据源。也就是说,数据切片不能用于限制从分区事实数据表中选择的数据和包含在分区中的数据。数据切片仅适用于使用ROLAP存储模式的对象。使用分区向导创立分区时,可以指定一个数据切片。数据切块:是将完整的数据立方体切取一局部数据而得到得心的数据立方体数据钻取:就是从较高的维度层次下降到较低的维度层次上来观察多维数组数据聚合:是钻取得逆向操作,是对数据进展高层次综合的操作数据旋转:16.OLAP数据组织1、多维数据组织MOLAPp57多维数据库基于多维数据库的MOLAP〔多维联机分析处理〕是以多维数据库〔MDDB〕为核心的。简言之,多维数据库是以多维方式来组织和存储数据。2、关系数据组织ROLAPp60ROLAP〔关系联机分析处理〕将多维构造进展分解,利用两种表来表达多维信息。17.星形构造的存储实现p61-62、雪花构造星型模型由事实表和多个维度表组成。事实表中存放大量关于企业的事实数据,对象个数通常都很大,而且非规化程度很高。为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。事实表是星型模型的核心,数据量大,冗余小维度表是事实表的附属表优点:星形模型是非规化的,以增加存储空间的代价,提高了多维数据的查询速度。而规化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。容易从维度表中的数据分析开场,获得维度关键字,以便连接到事实表进展查询,减少事实表中扫描数据量,从而提高查询性能缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。由于事实表的主键由所有的围标的主键组成,这种维度的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。2.雪花模型雪花模型由一个事实表和多个维度表组成雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。优点:雪花模型在星型模型根底上,引入一个新表-----详细类别表,借助这个表对维度表进展描述,提高了数据模型的规化程度,并使之具有较低的粒度。雪花模型减少冗余,将表细化,具有较高的灵活性;是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。缺点:随着表的数量的增多,表之间的关联会增加,存在着降低系统性能的可能。雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的"层次〞区域。18.星形模型和雪花模型的差异〔p63,好似是选择?〕星型模式VS雪花模式1.雪花模式的维表可能是规化的,以便减少冗余。这种表易于维护,并节省存储空间。2.实际上,与巨大的事实表相比,这种空间的节省可以忽略。3.由于执行查询需要更多的连接操作,雪花构造可能降低浏览的性能。4.在数据仓库设计中,雪花模式不如星型模式流行。一样点:进展OLAP处理,是以外键为根底进展维表与事实表、维表与维表之间的关联操作不同点:雪花模型虽然具有较小的事实表,但在执行某些查询时,需要做表间的二次运算,占用CPU资源较多,因而其与运行效率可能低于星型构造模型19.两种数据组织的比拟〔MOLAP、ROLAP〕P66表格1.构造分析:两种组织都满足OLAP数据处理流程,即数据装入、汇总、建立索引和提高使用方法。MOLAP较之ROLAP要简明一些。MOLAP的索引及数据综合可以自动完成,根据元数据。自动管理所有的索引及模式,灵活性弱;ROLAP的实现较为复杂,但灵活性强2.数据存取速度:MOLAP相应速度快,ROLAP相应速度慢3.数据存储容量:ROLAP对于存储容量没有限制,MOLAP有限制4.维度变化的适应性:MOLAP支持高性能的决策型计算,包括跨维计算、行级计算;ROLAP无法完成多行的计算和维之间的计算5.多维计算机能力:ROLAP适应性更好6.数据变化的适应性:ROLAP对于数据变化的适应性高7.软硬台平台的适应性:ROLAP对软硬件平台的适应性很好,MOLAP那么相对性差8.元数据管理:元数据是OLAP和数据仓库的核心数据,OLAP的元数据包括层次关系、计算转化信息、报表中的数据项描述、平安存取控制等MOLAP以多维数据库为核心,在数据的存储和综合上有明显的优势,但它不适应太大的数据存储,特别对于汗大量稀疏数据的存储将浪费大量的存储空间;ROLAP以RDBMS为根底,利用成熟的技术为用户的使用和数据管理带来方便9.系统培训和维护工作工程数据存储技术特征MOLAP详细数据通过关系表存储在数据仓库中;各种汇总数据保存在多维数据库中;从数据仓库中询问详细数据,从多维数据库中询问汇总数据有MOLAP引擎创立;预先建立多维数据立方体;多维视图存储在阵列而非表格中;可以高速检索矩阵数据;利用稀疏矩阵技术来管理汇总的稀疏数据询问的相应速度快;能轻松的适应多维分析;有广泛的钻取和多层次/多视角查询能力ROLAP全部数据以关系表形式存储在数据仓库中,可获得细节的综合汇总的数据;有非常大的数据容量;从数据仓库中询问所有数据使用复杂SQL从数据库中获取数据;ROLAP引擎在数据分析中创立多维数据立方体;表示层能够表示多维视图在复杂的数据分析功能上具有局限性,需要采用优化的OLAP;向下钻取数据较容易,但死跨维向下钻取数据较困难24.概念模型设计p83很多,自己看特点:1.反映现实世界,满足用户对数据的需求,能帮助用户做出决策,是现实世界的真实模型2.易于用户理解和参与,便于与用户交流3.易于修改,能够随时根据用户需求的变化对模型进展修正与扩大4.易于向数据仓库的数据模型〔星型模型、雪花模型、事实星座模型〕进展转换24.1逻辑模型设计逻辑模型包括:1.初始数据组、2.二次数据组、3.连接数据组、4.类型数据组维度表的设计:维度表示事实表的进一步细化,它也要基于逻辑模型来设计;维度表就是将这些详细说明的额数据按逻辑关系进展存放工具。一个维度表拥有很多属性,参考事实表的数据。事实表的设计:事实表是星型模型的核心,通常包括:键〔主键、外键〕和详细指标,事实表需要大量的数据来对其属性和细节加以详细说明索引策略:了解B树P9925.元数据的类型p1021、按元数据描述的容分基于根本数据的元数据、关于数据处理的元数据、关于企业组织的元数据2、按用户的角度分技术元数据、业务元数据3、按元数据在数据仓库中承当的任务分静态元数据动态元数据4、按数据仓库的功能区域分类:1.数据获取、2.数据存储、3.信息传递螺旋式开发方式:26.元数据的作用:P1041、元数据在数据求精、开发、重构中的作用〔1〕描述业务规那么与数据之间的映射〔2〕数据分割〔3〕概括与聚集〔4〕提高系统灵活性〔5〕定义标准处理规那么〔6〕预算与推导〔7〕转换与再映射2.元数据在数据抽取与转换中作用〔1〕确定数据源〔2〕保证数据仓库容的质量〔3〕实现属性间的映射与转换元数据的收集:1.来源于源系统、2.来源于抽取的数据、3.来源于转换与抽取和清洗的数据、4.来源于存储的数据、5.来源于装载的数据、6.来源于信息传递26.粒度的划分:粒度数据仓库数据单元的详细程度和级别每个表的存储空间应是其数据存储空间和索引空间之和〔1〕数据存储空间的估算数据存储空间=表的行数X每行占用的空间〔2〕索引存储空间估算索引存储空间=表的行数X码占用的客户一年数据5年数据10000000双重粒度,仔细设计20000000双重粒度,仔细设计1000000双重粒度10000000双重粒度100000单粒度,仔细设计1000000单粒度,仔细设计10000不考虑100000不考虑28.建立数据仓库的的步骤:〔1〕收集并分析业务需求〔2〕建立数据模型和数据仓库的物理设计〔3〕定义数据源〔4〕选择数据仓库技术和平台〔5〕从操作型数据库提取、转换和净化数据并将其加载至数据仓库〔6〕选择访问和报表工具〔7〕选择数据库连接软件〔8〕选择数据分析和数据展示软件〔9〕更新数据仓库30.SQLServer2005是基于客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论