




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商业智能 技 术 白 皮 书 1 第一章、 数据仓库技术 . 1 一、 数据仓库的背景和历史 . 1 二、什么是数据仓库 . 1 三、 数据仓库的组织结构 . 2 3.1、数据仓库的逻辑及物理结构 . 2 3.2、数据仓库系统 . 2 四、 数据仓库的物理存储形式 . 3 4.1、基于关系数据库的存储形式 . 3 4.2、多维数据库存储形式 . 4 4.3、虚拟存储方式 . 5 4.4、几种存储形式的比较 . 5 五、数据集市 . 5 5.1、 数据集市的产生 . 5 5.2、 数据集市的概念 . 5 5.3、 数据集市的特征 . 5 六、数据抽取、转换、清洗( ETL) . 6 6.1、 ETL 的重要性及概念 . 6 6.2 ETL 阶段的问题 . 6 第二章、 联机分析技术 (OLAP). 8 一、什么是 OLAP . 8 1.1 、 OLAP 的起源 . 8 1.2 、 OLAP 的概念 . 8 1.3、 OLAP 的分类 . 8 二、 OLAP 的多维数据结构 . 9 2.1、 OLAP 的多维数据数据概念 . 9 2.2、 OLAP 的多维数据结构 . 9 三、 OLAP 的特点 . 11 四、 OLAP 的功能 . 11 第三章、 数据挖掘技术 . 12 一、什么是数据挖掘 . 12 二、数据挖掘的步骤 . 13 三、数据挖掘的模式 . 13 四、数据挖掘的方法 . 14 第四章、各种技术的结合 . 16 1 第一章、 数据仓库技术 一、 数据仓库的背景和历史 随着计算机技术的迅速发展 ,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩展到信息管理距今已有三十多年了,从 70 年代中期的 MIS 系统发展到现代的数据仓库 (Data Warehouse)技术,用辩证的眼光来看,实际上是信息管理的一种回归,是螺旋式的上升。 二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现,使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统 , SQL 的使 用更使这一切成为不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个 80 年代直到 90 年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决 策分析 我们把它称之为联机分析处理 比以往任何时候都显得更为重要。 其实,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易:第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事 务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹: 20 年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。 二、什么是数据仓库 数据仓库的概念在 90 年代初被 提出来,以 Prism Solutions 公司副总裁 W.H.Inmon 在 1990 年出版的建立数据仓库 (Building the Data Warehouse)一书为标志。 W. H. Inmon 对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说:数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。 主题是数据仓库中数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等, 它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库 的数据是极少更新的。 数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要。 从数据组织的角度来说, 数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始 数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。 其最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库内的数据时限为 5 年至 10 年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为 10GB 左右。它是一般数据库( 100MB)数据量的 100 倍,大型数据仓库达到 TB 级。 三、 数据仓库的组织结构 3.1、数据仓库的逻辑及物理结构 数据仓库作为存储数据的一种组织形式,随着时间的推移,数据仓库的时间控制机制将当前 基 本数据层转为历史数据层。可见数据仓库中逻辑结构数据由 3 层到 4 层数据组成,它们均由元数据( Meta Data)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组织形式(由关系型事实表和维表组成)。以下是数据仓库的技术体系结构图 3.2、数据仓库系统 数据仓库系统( DWS)由源数据、仓库管理和分析工具三部分组成。如下图: 信息目录模块 数据仓库之元数据 数据管理员模块 数据仓库之数据 数据获取模块 数据传递模块 中间件 模块 数据访 问模块 设计模块 管理模块 外部元数据 源数据 外部数据 源数据 仓库管理 分析工具 源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的 数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统 (DBMS)的功能。 分析工具:用于完成实际决策问题所需的各种 查询检索工具、多维数据的 OLAP 分析工具、数据开采 DM 工具等,以实现决策支持系统的各种要求。 四、 数据仓库的物理存储形式 数据仓库中数据的物理存储形式分为:基于关系数据库存储形式(由关系型事实表和维表组成)、多维数据库存储形式(空间超立方体形式)和虚拟存储形式。 4.1、基于关系数据库的存储形式 基于关系数据库的存储形式就是将多维数据库的多维结构划分为两类表 : 一类是事实表 , 用来存储数据和维关键字 ; 另一类是维表 , 即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系 在一起 , 形成“星型模式 ”。对于层次复杂的维 , 为避免冗余数据占用过大的存储空间 , 可以使用多个表来描述 , 这种星型模式的扩展称为“雪花模式 ”。 星型模式 (StarSchema)存在数据冗余、多维操作速度慢的缺点。但这种方式是主流方案,大多数数据仓库集成方案都采用这种形式。如下图: 星型模式 雪花模式 (Snowflake Schema)的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性。如下图: 雪花模型 4.2、多维数据库存储形式 多维数据库( MultiDimesional Database, MDDB)存储形式就是以多维的方式存储数据 , 以多维的方式来显示数据,即将数据存放在一个 n 维数组中,而不是像关系数据库那样以记录的形式存放。“维 ”是人们观察客观世界的角度 , 是一种高层次的类型划分。“维 ”一般包含着层次关系。多维数据在存储中将形成“超立方块( Hypercube) ”的结构。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。 当使用 多维数据库作为数据仓库的基本数据存储形式时,其最主要的特点是:大大减少了以维为 基本框架的存储空间,针对多维数据组织的操作算法,极大地提高了多维分析操作的效率。 4.3、虚拟存储方式 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据,只是把指针存储于中心位置 , 而数据仍然在源数据库中,只是根据用户的多维需求及形成的多维视图,临时在源数据库中找出所需要的数据,完成多维分析,数据源可以被实时地组合、传输和显示 , 而不必进行数据移动和复制 , 对于数据源也无须做任何改变。它让用户既能实时地看到历史 数据 , 同时也能实时地看到当前数据 , 而不是像过去那样只看到历史数据。 4.4、几种存储形式的比较 多维数据库对多维概念表达清楚 , 占用的存储空间较小 , 而且数据的综合速度高 , 这些方面具有关系数据库无法比拟的优势,它也存在一些缺点 : 一是多维数据库管理系统缺乏标准;另一个问题是多维数据库管理大规模数据库的能力不够强大。 基于关系数据库的存储形式 , 在灵活性和处理大规模数据的能力上完全可以满足数据仓库的需要。其不足在于数据库中存放了大量的细节数据和相对较少的综合数据 , 需要以牺牲效率为代价动态地综合数据。 虚拟存储形式虽然 较简单、花费少、使用灵活,但同时它也存在一个致命的缺点,即只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义,在实际中这种方式很难建立起有效的决策服务数据支持。 由于多维数据库管理系统及虚拟数据仓库技术的相对不成熟 , 关系数据库系统的广泛应用 , 目前在数据仓库市场上基于关系数据库的存储形式占据着主流地位。 五、数据集市 5.1、 数据集市的产生 数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光对待 任何一次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图形接口且价格更具吸引力的工具即数据集市( Data Marts)应运而生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 5.2、 数据集市的概念 数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价途径。它是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,它支持客户利用已有的数据获得重要的竞争优势或找到进入新市场的解决方案。 5.3、 数据集市的特征 数 据集市的特征包括:规模小;有特定的应用;面向部门;由业务部门定义、设计和开发;业务部门管理和维护;能快速实现;购买较便宜;投资快速回收;工具集的紧密集成;提供更详细的、预先存在的、数据仓库的摘要子集;可升级到完整的数据仓库。 六、数据抽取、转换、清洗( ETL) 6.1、 ETL 的重要性及概念 我们可以这样给 ETL 下个定义,即 ETL 是数据抽取( Extract)、转换( Transform)、清洗( Cleansing)、装载( Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗 ,最终 按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。它关系到数据仓库的 持续发展问题,因为当数据仓库进一步发展时, 如果完善、精确、可预见的数据来源得不到保障的话,就 将成为阻碍数据仓库发展的最大的障碍 。 6.2 ETL 阶段的问题 整个数据仓库的建设 如果 按照其不同性质, 可奖 它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现 ,而 ETL 横跨数据源和数据准备,而我们常说的 的 OLAP 分析和决策支持等,都是属于数据呈现的部分 。在 ETL 阶段,需要经过许多步骤,如下图所示: 在 ETL 阶段,有几个重要 的问题: 数据的有效性检查 为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。 清除和转换数据 有效性检查是决定是否符合给定标准的过程。标准是依赖于制订的,为某个站点开发和执行的标准可能在其他地方毫无意义。如果数据不在给定的界限之内,它就成为我们称作 scrubbing(清除)过程的对象。清除数据包括对 那些在给定范围之外的数据采取纠正措施。 数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。 在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转 换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准,常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化,包括复杂问题,如掩匿的数据、传统标准的缺乏及不统一的关键数据。 我们可以定义数据变换的几个基本类型,每一类都有自己的特点和表现形式: 简单变换 顾名思义,它是数据变换中最简单的形式,这些变换一次改变一个数据属性而不考虑该属性的背景或与它相关的其他信息。包括数据类型转换,日期 /时间格式的转换,字段解码。 清洁和刷洗 清洁和刷洗是两个可互换的术语, 指的是比简单变换更复杂的一种数据变换。在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完成,重新格式化也是一个主要方法。 集成 要把从全然不同的数据源中得到的业务数据结合在一起,真正的困难在于将它们集成为一个紧密结合的数据模型。这是因为数据必须从多个数据源中提取出来,并结合成为一个新的实体。这些数据来源往往遵守的不是同一套业务规则,在生成新数据时,必须考虑到这一差异。 聚集和概括 大多数数据仓库都要用到数据的某种聚 集和概括。这通常有助于将某一实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以使每个查询不必计算它们。概括是指按照一个或几个业务维将相近的数值加在一起。聚集指将不同业务元素加在一起或为一个公共总数。在数据仓库中它们是以相同的方式进行的。 数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时,就有必要在变换业务数据的过程中加入一些数据聚集功能。这可以减少存储在数据仓库中的行数。 聚集还可以去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要以很具体的水平存 放着,一旦数据到了某一时限,对所有这些细节的需求就大大减弱了。此时,这些非常具体的数据应该传送到离线存储器或近线存储器中,而数据的概括形式则可以存放在数据仓库中。 目前可以得到的数据刷洗工具中,许多都已内置了概括功能,尤其是在时间维上进行聚集的功能。当然,不管如何做到这一点,重要的是用户能够轻松地访问元数据,了解生成总和数据所用的标准。 移动数据 将数据移出操作系统一般包括:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支 持系统。如果还未完成大量的更新,就不应该移动数据。如果数据仓库中的数据来自多个相互关联的操作系统,就应该保证在这些系统同步工作时移动数据。 1 第二章、 联机分析技术 (OLAP) 一、什么是 OLAP 1.1 、 OLAP 的起源 联机分析处理 (On-Line Analytical Process OLAP)的概念最早是由关系数据库之父 E.F.Codd 于 1993年提出的。当时 ,Codd 认为联机事务处理 (OLTP)已不能满足终端用户对数据库查询分析的需要 ,SQL 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析 需要对关系数据库进行大量计算才能得到结果 ,而查询的结果并不能满足决策者提出的需求。因此 Codd 提出了多维数据库和多维分析的概念 ,即 OLAP。 到 90 年代中期,数据仓库已经形成潮流。在美国,数据仓库已成为紧次于 Internet 之后的又一技术热点。随着数据仓库的发展, OLAP 也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据;而 OLAP 则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。 OLAP 的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。 OLAP 技术 中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。OLAP 技术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要建立模型进行计算 1.2 、 OLAP 的概念 根据 OLAP 委员会的定义 , OLAP 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取 , 从而获得对数据的更深入了解的一类软件技术。 OLAP 技术是对由语义动态对象建立的 、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。 OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求 , 它的技术核心是“维 ”这个概念 , 因此 OLAP 也可以说是多维数据分析工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。 1.3、 OLAP 的分类 可以在两个层面上对 OLAP 进行分类,按照存储方式的不同,可将 OLAP 分成 ROLAP、 MOLAP和 HOLAP;按照处理地点的不同,可将 OLAP 分成 Server OLAP 和 Client OLAP。 ROLAP 基于 Codd 的 12 条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构( starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的 OLAP 称为 Relational OLAP,简称 ROLAP。代表产品有 Informix Metacube、 Microsoft SQL Server OLAP Services.。 ROLAP 采用 星型模式 来组织关系数据库数据很好地解决多维分析的问题。 星型模式 只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够 找到一个固定的算法将用户的多维查询请求转换成针对该数据模式的标准 SQL 语句,而且该语句是最优化的。 星型模式 的应用为关系数据库在数据仓库领域大开绿灯。是数据仓库处理大规模的数据提供了极大的伸缩性。 ROLAP 的优势:没有大小限制;现有的关系数据库的技术可以沿用;可以通过 SQL 实现详细数据与概要数据的储存;现有关系型数据库已经对 OLAP 做了很多优 化,包括并行存储、并行查询、并行 数据管理、基于成本的查询优化、位图索引、 SQl 的 OLAP 扩展等大大提高了 ROALP 的速度;可以针对 SMP 或 MPP 的结构进行查询优化。 ROLAP 的缺点:一般比 MDD 响应速度慢;只读、不支持有关预算的读写操作; SQL 无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。 MOLAP 严格遵照 Codd 的定义,自行建立了多维数据库,来存放联机分析系统数据。 Arbor Software,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为 MuiltDimension OLAP,简称 MOLAP,代表产品有 Hyperion(原 Arbor software) Essbase、 Showcase STRATEGY 等。 MOLAP在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 MOLAP 的优势:性能好、响应速度快;专为 OLAP 所设计;支持高性能的决策支持计算;复杂的跨维计算;多用户的读写操作;行级的计算。 MOLAP 的缺点:增加系统复杂度,增加系统培训与维护费用;受操作系统平台中文件 大小的限制,难以达到 TB 级;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访问的标准。 HOLAP 鉴于 ROLAP 和 MOLAP 都有这样那样的缺点,于是产生了 HOLAP 这种 OLAP 模型,它综合了 ROLAP和 MOLAP的优点。它将常用的数据存储为 MOLAP,不常用或临时的数据存储为 ROLAP,这样就兼顾了 ROLAP 的伸缩性和 MOLAP 的灵活、纯粹的特点。 ClientOLAP 又称 DiskOLAP 相对于 Server OLAP 而言。部分分析工具厂家建议把部分数据下载到本地,为用户提 供本地的多维分析。代表产品有 Brio Designer, Business Object.ClientOLAP 提供了有别以传统 OLAP 的实时性和极大的灵活 . 二、 OLAP 的多维数据结构 2.1、 OLAP 的多维数据数据概念 多维结构是 OLAP 的核心。 OLAP 展现在用户面前的是一幅幅多维视图。 1、维 假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店, 也许他想知道哪个商品在哪段时间的销售情况。在某一时间,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持来帮助制定销售政策。 这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成。 维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排 序(定义变量时要用到)、计算逻辑(是基于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。 2、多维性 人们很容易理解一个二维表 (如通常的电子表格 ),对于三维立方体同样也容易理解。 OLAP 通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。 OLAP 的多维分析视图就是冲破了物理的三维概念, 采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。 2.2、 OLAP 的多维数据结构 数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此, OLAP 系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多 方法可以构造多维数据。 1超立方结构 超立方结构( Hypercube)指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各 个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的 OLAP 系统中,其主要特点是简化终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。 2多立方结构 在多立方结构( Multicube)中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据(特别是稀疏数据)的分析效率。 一般来说,多立方结 构灵活性较大,但超立方结构更易于理解。终端用户更容易接近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的 MIS 专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 3 活动数据的存储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: ( 1)关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况下,数据以星型结构或雪花结构进行存储。如下图: ( 2)多维数据库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库和终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允许多维数据结构存储在 RAM 上。有些数据被提前计算,计算结果以数组形式进行存储。如下图: ( 3)基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建立,如 Web 文件。 与服务器上的多维数据库一样,活动数据可放在磁盘或 RAM 上。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。 4 OLAP 数据的处理方式 OLAP 有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行。 ( 1)关系数据库 即使活动的 OLAP 数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为 SQL 的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需要多重 SQL。在许多情况下,一些 OLAP 工具用 SQL 做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用 RAM 来存储数据,提高响应速度。 ( 2)多维服务引擎 大部分 OLAP 应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时优化引擎和数据库,而服务器上充分的内存为有效地计算大量数组提供了保证。 ( 3)客户机 在客户机上进行计算,要求 用户具备性能良好的 PC 机,以此完成部分或大部分的多维计算。对于日益增多的瘦型客户机, OLAP 产品将把基于客户机的处理移到新的 Web 应用服务器上 三、 OLAP 的特点 3.1 快速性 用户对 OLAP 的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。如果终端用户在 30 秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。 3.2 可分析性 OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在 OLAP 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。 3.3 多维性 多维性是 OLAP 的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是 OLAP 的灵魂。 3.4 信息性 不论数据量有多大,也不管数据存储在何处, OLAP 系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、 OLAP 产品的性能及与数据仓库的结合度等。 四、 OLAP 的功能 4.1、 对数据的多维分析 多维观察是实际业务模型固有的要求, OLAP 应用能够从一种自然的、合乎人的思维心理的角度来灵活地观察、访问多维数据 , 为对事情的分析处理提供良好的基础。产生多维数据报表的主要技术就是“旋转 ”、“切块 ”、“切片 ”、“上钻”和“下钻”等。 旋转( Pivoting): 即将表格的横、纵坐标交换 (x, y) (y, x),通过旋转可以得到不同视角的数据。 切片和切块( Slice and Dice): 主要根据维的限定做投影、选择等数据库操作从而获取数据。 上钻和下钻( Roll up or Drill down):钻取是用户获得详细数据的手段。它一般能回答为什么的问题。 一层一层的钻取使我们能快速而准确的定位到问题所在。 钻取的深度与维所划分的层次相对应 。 4.2、复杂的计算能力 对分析过程来说 , 常需要对数据进行深入的加工 , 把数据简单陈列给管理人员是不够 的。 OLAP 系 统能够提供丰富多样、功能强大的计算工具 , 但同时方法又简单明了 , 并且是非过程 (non-procedural)的,从而可以及时完成系统的改变访问到即时信息。 4.3、时间智能 对任何分析应用程序来说 , 时间都是不可缺少的一个因素。时间只有一维 , 因为它只能从前往后延伸。 OLAP 系统能够很好的理解时间的这种序列特性。由于 OLAP 系统中对时间的智能管理 , 从而使得不同年份的同期比较和同一年份的期间比较等,成为很容易定义的事情。 第三章、 数据挖掘技术 一、什么是数据挖掘 1.1、数据挖掘的历史 近十几年来 ,人们利用信息技术生产和搜集数据的能力大幅度提高 ,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等 ,这一势头仍将持续发展下去。于是 ,一个新的挑战被提了出来 :在这被称之为信息爆炸的时代 ,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没 ,从中及时发现有用的知识 ,提高信息利用率呢 ?要想使数据真正成为一个公司的资源 ,只有充分利用它为公司自身的业务决策和战略发展服务才行 ,否则大量的数据可能成为包袱 ,甚至成为垃圾。因此 ,面对 人们被数据淹没 ,人们却饥饿于知识 的挑战。另一方面计算机技术 的另一领域 人工智能自 1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现 (KDD: Knowledge Discovery in Databases)的产生,因此,数据挖掘和知识发现 (DMKD)技术应运而生 ,并得以蓬勃发展 ,越来越显示出其强大的生命力。 数据 挖掘又称从数据库中发现知识 (KDD)、数据分析、数据融合 (Data Fusion)以及决策支持。 KDD一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。随后在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤矿安装综掘机施工方案
- 辽宁管道防腐施工方案
- 新乡停车场照明施工方案
- 全面提高云杉育苗质量和成活率的栽培技术研究
- 新未来大学英语 视听说教程1(智慧版) 听力脚本汇 Unit 1 -6
- 新未来大学英语 视听说教程1(智慧版) 听力脚本 Unit 2
- 变电站无人机智能识别技术
- 任务型教学法在高中语文教学中的应用研究
- 基于问题链的高中英语阅读教学实践探究
- 加强污染防治和生态建设的策略及实施路径
- 剪力墙止水对拉螺栓施工方案
- QES三体系内审检查表 含审核记录
- 2023年江苏省无锡市中考模拟英语试卷(附答案)
- 北京市新英才学校教职员工手册
- 带电核相试验报告
- 肾单位的结构(课堂PPT)
- 春季常见传染病预防知识PPT课件
- VDA2供货质量保证培训PPT课件
- 折叠纸盒结构设计
- 轧机安装方案
- 教师教学常规工作检查记录表
评论
0/150
提交评论