




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库系统的理论研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着信息时代的到来,数据库规模只益扩大,形成了数掘量大、分散、格式 异化等特点,这些数据中包含了大量的潜在的对决策者有价值的信息。由此产生 了数据仓库和数据挖掘技术。 本文从数据仓库的产生背景丌始,介绍了数据仓库的概念、特点及其与传统 的数据库的区别:基于数据分层概念,给出了数据仓库的三层体系结构。同时, 对数据仓库中数据的结构也进行了一定程度的探讨。此外,联机分析处理和数据 挖掘( o l a p & d m ) 作为数据仓库系统的两种最重要应用,本文也对它们进行了仔细 而深入的研究。在第三章详细介绍了数据仓库的实现过程,包括数据源的选取、 后端加工以及前端数据展示三个环节,并以s q l s e r v e r 的数据仓库工具为例展现 了一个数据仓库的具体实现过程,同时又将关联规则数据挖掘技术运用与该数据 仓库多维数据集,挖掘出基于数据仓库的多维关联规则,展示了一个完整的数据 仓库系统的设计过程。 美键词:数据库数据仓库o l a p 数据挖掘关联规则 a b s t r a c t w h e nt h ey e a rc o m e si n t ot h ei n f o r m a t i o na g e ,t h ed a t a b a s es i z eb e c o m e l a r g e ra n d l a r g e r 。t h e s ev a s ta m o u n to fd i s p e r s e dd a t ah a v ed i f f e r e n tf o r m a ta n dt h e ym a y h a v e m u c hu s e f u li n f o r m a t i o nt ot h ed e c i s i o n - m a k e r t h ed a t aw a r e h o u s et e c h n o l o g ya n d d a t am i n i n g t e c h n o l o g y a r e b r o u g h tu n d e r t h i sc o n d i t i o n t h i s p a p e rf i r s t l y i n t r o d u c e st h e c o n c e p t i o n a n dm a i nc h a r a c t e r i s t i c so fd a t a w a r e h o u s e ,t h e ng “+ e si t st h r e e t i e ra r c h i t e c t u r eb a s e do nd a t a - l a y e r i n gc o n c e p t i o n t h e d a t as t r u c t u r eo ft h ed a t aw a r e h o u s ei sa l s od i s c u s s e d i na d d i t i o n ,t h ea r t i c l e d e e p l y s t u d i e so l a pa n dd a t am i n i n gi nd e t a i l t h e n ,t h ep a p e re x p l i c a t e st h e d e v e l o p i n g p r o c e s so f d a t aw a r e h o u s e s y s t e m ,i n c l u d i n g t h es e l e c t i o no f o r i g i n a ld a t a 、d a t ap r o c e s s a n dd a t ae m e r g e n c e i nc h a p t e r 3 ,t h ep a p e rg i v e se x a m p l ef o rh o wt ob u i l dad a t a w a r e h o u s e s y s t e mb y m e a n so fs o ls e r v e r , a n du s et h ea s s o c i a t i o nr u l eo nt h e m u h i d i m e n s i o n a ld a t a s e tw h i c hh a sb e e nb u i l tt os e e kt h em u l t i d i m e n s i o n a la s s o c i a t i o n r u l e 创新性声明 y6 9 5 6 9 4 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学 或其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所 做的任何贡献均己在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 一丛日期逝上理 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论 文在解密后遵守此规定) j 嚯 本人签名: 越: 日期越:塑 导师签名: 墨触日期盛正塑 第一章绪论 1 1 1 数据库的发展 第一章绪论 1 1 数据仓库的起源 信息是事物特性方面以及事物之间相互联系方面的一种抽象反映,向人们提 供关于现实世界事实的知识。因而,信息又可以看成是客观世界的真实反映。它 既可反映具体的看到的事物,也可反映不可触及的看不到的抽象概念。数据是信 息的载体。人们使用各种各样的符号来表示信息,这种具有一定意义的符号组合 就是数据。因而数据是信息的具体表现形式。表示数据的符号包括文字、数字和 图形等。一定形式的数据表示确定的信息,但同一信息却可以用不同形式的数据 表示。此外,我们所提到的数据又可分为“数值数据”和“非数值数据”两大数 据类型。数据库( d a t a b a s e ) 是数据的存储池,它发展大致经历了三个阶段1 4 1 6 j : 1 9 6 1 年b a c h m a n 设计了第一个通用的d b m s 系统i d s ( i n t e g r a t e dd a t as t o r e ) 。 1 9 6 9 年美国的m m 公司开发了第一个d b m s 系统i m s 。这是一个层次数据库系 统,在数据库系统发展史上有着重要的地位。同年,由美国c o d a s y l ( c o n f e r e n c e o i ld a t as y s t e ml a n g u a g e ) 组织的数据库任务组( d b t g ) 发表了著名的d b t g 报告, 这份报告定义了数据库操纵语言、模式定义语言和子模式定义语言的概念。 7 0 年代初,e e c o d d 提出了关系数据模型的概念,提出了关系代数和关系演 算。在整个7 0 年代,关系数据库从理论到实践都取得了辉煌成果。在理论上,确 立了完整的关系理论、数据依赖理论以及关系数据库的设计理论等等;在实践上, 开发了许多著名的关系数据库系统,如:s y s t e mr 。i n g r e s ,o r a c l e 等。 8 0 年代至今,关系数据库成为数据库产品的主流,但在研究与开发领域,探 讨新型数据库的工作不断进行。1 9 8 6 年美国国家标准协会( a n s i ) j l 过了关系数据 库查询语言s q l 的文本标准。二十世纪后期出现了空间数据库、图像数据库、数 据仓库等新型的数据库技术。 1 1 2 从数据库到数据仓库 随着计算机软硬件技术的发展和计算机应用领域的不断扩大,数据库技术的 发展速度之快,使用范围之广是其它计算机技术不能比拟的,企业的运营环境也 逐渐转化成以数据库为中心的运营环境。 用于事务处理。然而,市场竞争的加剧, 数据库系统作为信息管理的手段,主要 社会的广泛电子化、信息化和自动化, 企业数据库系统中逐渐保存了前所未有的、大量的有待加工和处理的同常业务数 据,这些数据可能五年就会增长一倍。另外,数据形式的多元化也给数据管理和 数据仓库系统的理论研究与实现 分析带来了困难。数据库技术旨在使数据库本身能胜任各种类型的信息处理任务, 但它对数据的分析处理一直不能令人满意,尤其当以业务处理为主的联机事务处 理( o l t p ) 应用与以分析处理为主的d s s 应用共存于同一个数据库系统中时,两类 处理会发生明显的冲突。数据资源将难以进行充分合理的应用,甚至可能成为业 务系统运行的负担,造成服务器速度降低和响应时自j 延长。随着社会的需求和技 术的发展,人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分析 的环境,以更好的支持决策分析。 数据仓库正是在这种情况下提出并发展起来的一种额型的数据库技术。这种技 术以分析型操作为主,主要是利用企业数据库中的大量的历史数据资源,面向企 业各层管理人员,为商务运作提供结构与工具,以便系统地组织、理解和使用数 据,并进行商业战略决策。1 9 9 2 年,w h i n m o n 在( b u i l d i n g t h ed a t aw a r e h o u s e ) ) 中首先提出了“数据仓库”的概念,并给出了数据仓库的一个较权威的定义:数 据仓库是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e n e r a t e d ) 、稳定的 ( n o n v o l a t i l e ) 、不同时间的( r u n e - v a r i a n t ) 数据集合,用于支持经营管理部门的决策 过程l l j 。至此,数据仓库的研究和应用得到了广泛的关注。在当今这个充满竞争和 快速发展的世界,数据仓库是一个有价值地工具。它能够集成各种不同结构的数 据源,并能满足对数据查询的快速响应,其最终目的是为企业的高层管理者提供 决策的信息支持。数据仓库的出现掀起了数据库技术的一场“革命”,它解决了以 前用数据库技术所不能解决的问题,是计算机应用领域里的个崭新方向,已成 为现代信息系统体系结构新的技术焦点。 1 2 建立数据仓库的意义 1 2 1 为什么需要一个分离的数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,完成事务处理、 批处理和决策分析等各种类型的数据处理工作。但不同类型的数据处理有着不同 的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满 足不了数据处理多样性的要求。 数据处理大致分为两大类:操作型处理和分析型处理【7 】。操作型处理也称作 事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修 改,主要是为企业特定应用服务,用户关心的是响应时间、数据的安全性和完整 性;分析型处理主要是用于管理人员的决策分析,如d s s ( 决策支持系统) 、e i s 和多维分析等。经常对大量的历史数据进行访问,为决策支持提供依据,用户关 心的是对数据的预测和分析结果。相应的数掘类型也分为针对日常操作应用程序 优化过的操作型数据( o p e r a t i o n a ld a t a ) 和针对决策支持信息的应用程序优化过的分 第一章绪论 析型数据( i n f o r m a t i o nd a t a ) 。两种数据处理类型之间的巨大差异使得操作型处理和 分析型处理的分离成为必然。这种分离,划清了数据处理的分析型环境与操作环 境之间的界限,由原来的以单一数据库为中心的数据环境发展为一种新的体系化 环境。 迸一步来看,分离的主要原因是要提高两种处理系统的性能【2 j 。操作数据库 是为已知的任务和负载设计的,如使用主关键字索引和散列,检索特定的记录和 优化查询。另一方面,数据仓库的查询通常涉及大量数据在汇总级的计算,可能 需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处 理o l a p 查询,可能会大大降低操作任务的性能。 此外,操作数据库支持多事务的并行处理,需要加锁和日志等并行控制和恢复 机制,以确保一致性和事务的强健性。通常。o l a p 查询只需要对数据记录进行只 读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种o l a p 操作, 就会危害并行事务的运行,从而大大降低o l t p 系统的吞吐量。 1 2 2 建立数据仓库的意义 数据仓库的主要设计思想就是将分析决策所需的大量数据从传统的操作型环 境中分离出来,把分散的、难以访问的操作数据转换成集中统一、随时可用的信 息而建立的一种数据存储环境。在这种环境中,以汇总信息为基础。进而支持数 据挖掘、多维数据分析( m d a ) 和传统查询及报表功能。 数据仓库、数据挖掘和联机分析处理( o t a p ) 技术构成了决策支持系统( d s s ) 的 新框架。使d s s 进入实用化阶段。由于数据仓库中巨大的数据量,如果缺乏相应 的查询、报表和分析工具,数据仓库就可能变成数据监狱。如今,行业间的竞争 日趋激烈。是否能够正确的决策是一个企业能否在这个大环境中生存和发展的关 键。越来越多的企业意识到,仅拥有数据仓库,而没有高效的数据分析手段,就 难以提高数据仓库数据的利用率,只有充分利用、挖掘其现有数据,做出正确的 决策,才能实现更大的效益。 1 d c 在1 9 9 6 年的一次对9 0 年代前期进行的6 2 个数据仓库项目的调查结构表 明,进行数据仓库项目开发的公司在平均2 7 3 年的时问内获得了平均为3 2 1 的 投资回报率。i d c 预测,整个数据仓库市场将以每年2 0 5 的速度增长。使用数据 仓库所产生的巨大效益同时又刺激了对数据仓库技术的需求。数据仓库研究开发 和应用的大潮正席卷而来。 1 3 数据仓库的国内外应用情况 由于我国企业信息化起步相对较晚,信息系统建设没有形成规模。数据仓库 4 致据仓库系统的理论研究与实现 技术在国内的发展还处在积累经验的阶段。许多行业构建的数据仓库应用都是采 用国外技术和方案,建成的数据仓库项目效果如何还有待检验。大量数据是实现 决策分析的前提。特别是历史数据。但目前我国除了银行、电信、保险等少数行 业以外。其它行业的数据积累都不够充分。数据仓库是新技术、新概念,国内还 缺乏数据仓库项目的典型范例。因此,企业领导对数据仓库技术的认可还有一段 时间,数据仓库市场还需要进一步培育。尽管我国数据仓库技术同国外还有很大 差距,但是,许多科技工作者开始对相关技术进行深入研究。国内数据仓库的研 究主要是吸收和借鉴,在此基础上提出适合国内需求的技术方案。企业领导已经 意识到了数据仓库的重要性,并已经或者计划实旎数据仓库项目。 在国外由于对数据仓库技术研究比较早,数据积累比较充分,技术相对成 熟。不同的数据仓库提供商提出了不同的解决方案。应用方面,除了投入具体应 用的各种数据仓库产品和工具外,还有许多从事数据仓库技术咨询的企业。以数 据仓库为基础的联机分析处理( o u ”) 和数据挖掘( d a t am i n i n g ) 应用首先在金融、 保险、证券、电信等传统数据密集型行业取得成功。 l b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 、和s a s 等有实力的 公司相继( 通过收购或研发的途径) 推出了自己的数据仓库解决方案,i b m 公司 提供了一套基于可视数据仓库的商业智能( b d 解决方案,包括:v i s u a l w a r e h o u s e ( v w ) 、e s s b a s e d b 2 o l a ps e r v e r 5 0 、i b md b 2u d b 以及来自第三方的 前端数据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。o r a c l e 数据仓库解决方案主 要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两部分。s y b a s e 提供的数据仓库解决方 案称为w a r e h o u s es t u d i o ,包括数据仓库的建模、数据抽取与转换、数据存储与管 理、元数据管理以及可视化设计分析等工具。 1 4 本文的结构 本文对数据仓库系统的相关理论进行了深入的研究,从数据仓库的原理到数 据仓库的实现过程以及前端数据分析方法的o l a p 和数据挖掘技术做了有浅入深 的探讨。利用m ss o l s e v e r 构建数据仓库的组件实现了一个简单的数据仓库系统。 并在此基础之上实现了基于数据仓库的多维关联规则的挖掘算法。本文的具体结 构如下; 第一章介绍了数据仓库的相关背景知识以及其发展历程。 第二章详细介绍了数据仓库的基础理论知识以及相关的关键技术,给出数据 仓库系统构建过程的详细描述。 第三章介绍了基于数据仓库多维结构的o l a p 技术,利用一个示例详细的说 明了数据仓库的实际构建过程以及o l a p 建模技术的实现。 第一章绪论 第四章介绍了数据挖掘技术的理论知识以及基于数据仓库的数据挖掘的特 点。 第五章展示了数据挖掘技术在数据仓库上的应用,在第三章建立的数据仓库 上进行了维问多维关联规则的挖掘。 6数据仓库系统的理论研究与实现 第二章数据仓库原理 2 。1 数据仓库的定义 “数据仓库之父”w h i n m o n 在他的( b u i l d i n g t h ed a t aw a r e h o u s e ( 数 据仓库卜一书中指出:“数据仓库是面向主题的、集成的、非易失的,随时间变化 的用来支持管理人员决策的数据集合【l j 。”这是目前公认的最为准确、全面的关于 数据仓库的概念定义。这个简短而又全面的定义指出了数据仓库的主要特征。四 个关键词,“面向主题”、“集成的”、“时变的”、“非易失的”,将数据仓库与其他 数据存储系统( 如关系数据库系统、事务处理系统和文件系统) 相区别。 从上边这个概念的字面意来看,数据仓库包含两层含义: 数据,即关于某事的事实和信息: 仓库,即存储货物和商品的地方或设施。 建立数据仓库系统的目的是要构建一种体系化的数据存储环境,将分析决策 所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转 换成集成的、统一的信息,运用这些信息,发现问题、分析问题、解决问题,进 而进行决策,为在以后获得更多的经济效益服务。 2 2 数据仓库的特点 数据仓库的定义说明它一方面类似于原来的数据库,是一个存储数据的空间, 另一方面它所存储的不是一般意义的原始数据,而是经过加工处理的、支持管理 决策过程的数据集合,该数据集合具有“面向主题”、“集成性”、“非易失性”和 。时变性”四大特点。 2 2 1 数据仓库是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓库通常是围绕一 些主题,如客户、供应商、产品来建立的。这是数据仓库技术最重要的一个特征。 数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事 务处理。业务系统是以优化事务处理的方式来构造数据结构的,对于某个主题的 数据常常分布在不同的业务数据库中。这对于决策支持来说是极为不利的,因为 这意味着访问某个主题的数据实际上需要去访问多个分布在不同数据库中的数据 集合。 主题,是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、 归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分 第二:章数据仓库原理 7 析对象的数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉 及的企业的各项数据,以及数据之间的联系。这使得数据仓库的数据组织可以独 立于数据的处理逻辑,从而在这种数据环境上方便的开发新的分析型应用。 图2 - 1 给出一个保险公司的业务数掘在传统操作型系统和仓库系统中不同的 组织形式: 操作型环境c 应用, 操作型环境( 应用)( 汽乍险】( 人寄睑】( 健康险】 、- _ _ ,、_ i - ,、_ _ , 效据仓库( 主题) 囝囝囝囝 图2 - 1 面向士题的例子 从上面两种不同的组织形式可以看出,在操作型环境中,应用可以分为汽车保 险、人寿保险和健康保险等:在仓库环境中,主题域可能为顾客、保险单、索赔和 保险费等。假设我们想要了解客户的投保情况,在操作环境中,我们需要遍历几乎 所有的表,而在数据仓库环境中,我们只需要在保险费主题中进行查询,因为数据 仓库将和每一种主题相关的数据集中存放在一个地方,这样针对不同的决策需求, 决策者可以非常方便的在数据仓库中的一个维中检索包含这个主题的所有数据,从 而极大的方便了数据分析、决策的过程。不同类型的用户主题集合也是不同的。 2 2 2 敦据仓库的数据是集成的 数据集成性是数据仓库的数据特性中最重要的。全面正确的数据是有效地分析 和决策地基础,相关地数据收集的越完整,得到的结果就越可靠。数据仓库中的 数据通常来自不同的多个数据源,如关系数据库、一般文件和联机事务处理记录 等,这些数据源提供的数据通常使得准备进入数据仓库的数据产生数据格式不一 致问题。因此当它们进入数据仓库时,数据的清洗、转化和集成是必须的,以确 保命名约定、编码结构、属性度量等的一致性。图2 2 给出了数据集成问题的两种 描述。 数据集成的过程中一般所要完成的工作有: 统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、 字长不一致等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽 取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合 生成的。 数据仓库系统的理论研究与实现 :s 刚e x m f m 1 f 一一1 应用b 应用c 辩x 男,女一 竺:i 面f i i f 包1 1151¥二二三三三三三三三多卣包” 应用b 面包¥一一 应用c 面包l 一一 数据仓库的另一个重要特点是数据仓库是非易失的。对操作型数据库的访问 是进行数据添加、删除和查询,一般是按一次一条记录的方式进行,且随着业务 量的不断加大和时间的推移,操作型数据库中的数据必然要不断的更新。然而数 据仓库的数据主要供企业的决策人员进行决策分析之用,所涉及的数据操作主要 是在数据查询的基础上进行统计、汇总和分析。数据仓库的数据通常是以批量的 方式载入和访问的,在数据仓库环境中并不进行一般意义上的数据更新,其反映 的应该是一段相当长的时间内历史数据的内容,是不同时间的数据库静态快照的 集合,以及基于这些快照进行统计、综含和重组的导出数据,而不是联机处理的 数据。当产生后继变化时,一个新的快照记录就会被写入数据仓库。为了确保分 析的客观性、公正性、科学性,进入到数据仓库的原始数据是不允许修改和更新 的。 2 2 4 数据仓库数据的时变性 数据仓库的最后一个显著特点是它是随时间变化的。数据仓库中的数据不可 更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数 据更新操作的。但是并不是说,在从数据集成输入数据仓库开始到最终被删除的 整个数据生存周期中,所有的数据仓库数据都是永远不变的。图2 3 显示了数据仓 库中数据随时间变化的特性的几种表示方法【l i 。 数据仓库中的数据随时问变化的特性一般表现在以下几个方面【l i j : ( 1 ) 数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉 o l t p 数据库中变化的数据,追加到数据仓库中去,也就是要不断的生成o l t p 数 据 第二章数据仓库原理 9 操作耍! ! 环境 时间期限:当前到9 0 天 记录更新 时间的变化 数据仓库 时间范围:5 l o 年 数据的复杂快照 关键字结构可能包括不包括时间元素关键字结构包括时间元素 图2 - 3 数据仓厍的肘变性 库的快照,经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快 照,如果捕捉到新的变化数据,则生成一个新的数据库快照增加进去,而不会对 原有的数据库快照进行修改。 ( 2 ) 数据仓库随时间变化不断删去旧的数据内容。数据仓库的数据也有存储期 限,一旦超过了这个期限,过期的数据就要被删除掉。只是数据仓库内的数据时 限要远远长于操作型环境中的数据时限。操作型环境中数据的时间范围一般是 6 0 - - 9 0 天,而数据仓库中数据的时间范围通常是5 1 0 年。由于这种在时间范围 上的差异,数据仓库含有比任何其他环境中都多的历史数据。 ( 3 ) 数据仓库中包含有大量的综合数据这些综合数据中很多时间有关,如时 间经常按照时问段进行综合。或隔一定的时间片进行抽样等。这些数据要随时间 的变化不断地进行重新综合。 “) 操作型数据地的关键字结构可能包含也可能不包含时间元素,如年、月、 日等。而数据仓库的关键字结构总是包含时间元素的。时问有多种形式,如为每 个记录加时戳,为整个数据库加时戤等。 2 3 数据仓库的数据组织 2 3 1 数据仓库的数据组织结构 在数据仓库中,数据被分成四种级别,分别是高度综合级、轻度综台级、当前 细节级、早期细节级i l j 。图2 - 4 所示的是一个典型的数据仓库的数据组织结构图。 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数 据聚合成轻度综合和高度综合级。由此可见,数据仓库中存在着不同的综合级别 一般称之为。粒度”。随着时闻的推移,系统中的一些细节数据已经老化,很少会 被用户使用,此时为了节省系统的存储空间,可以将这些老化的细节数据导出到 1 0数据仓库系统的理论研究与实现 每月数据 ( 2 0 0 0 2 0 0 5 ) 每闱数据 ( 2 0 0 0 2 0 0 5 ) 细节数据 ( 2 0 0 0 2 0 0 5 ) 操作数据 ( 1 9 9 5 2 0 0 0 ) 图2 4 数据仓库的数据组织结构图 备份设备上。数据仓库的这种组织方式的核心思想是在系统中保留最有可能被用 户使用的数据,而将很少使用的数据则备份出系统。 “粒度”的设计问题是设计数据仓库的最重要的方面。粒度是指数据仓库中 数据单元的细节程度或综合程度的级别【l j 。细节程度越高,粒度级就越低:相反, 细节程度越低,粒度级就越高。例如,一个简单的银行交易处于低粒度级,而每 月所有交易的汇总则处于一个高粒度级。在早期的操作型系统中,一般不考虑粒 度问题当更新细节数据时,几乎总是假定把它存放在最低粒度级上。在数据仓 库环境中,一些访问是相对概括的、而某些时候又需要访问细节的数据。此外, 数据的粒度直接影响数据仓库的存储容量,粒度越小,数据存储量就越大,相反 亦之因此,在数据仓库环境中粒度之所以是重要的设计问题,是因为它会深刻 的影响存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型。图 2 5 显示了一个粒度对能回答什么问题和回答问题所资源多少的影响。 由图2 5 可以看出,数据粒度的划分使得数据仓库在回答综合性的问题时显示 出了很好的效率,而这类问题正是决策者常常关心的问题。 2 3 2 数据分区设计 数据仓库中的另一个重要问题是数据的分区。数据分区是指把数据分散到可独 立访问的分类的物理单元中。将结构相似的数据分到多个数据的物理单元时数据 便被分区,并且一个数据单元仅属于一个分区。数据仓库的建立需要灵活的数据 访问机制,如果是大块的数据,就不能达到这一要求。因而对当前细节数据分区 是必须的。比如将1 9 9 5 年2 0 0 0 年的数据按年放在不同的表中,则当问题的范围 圈圈圈回 苎三兰墼塑垒壁堡里堡 轰诲次数;2 3 2 0 0 0 0 0 0 次 l 帕访闷:1 4 加0 0 0 0 次 查询次数:2 3 2 0 0 0 0 次 i 0 访向:1 4 0 0 0 0 次 图2 - 5 数据粒度对数据量和回答问题的影响 只涉及2 0 0 0 年时只需要检索一张表,当数据量很大时将大大的提供访问效率。 在数据仓库的设计中核心问题不是要不要分区设计而是如何去分区。分区的 标准时完全由开发人员来决定的,通常包括:时间、业务范围、地理位置、组织 单位等然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部 分。 2 3 3 数据仓库的数据组织形式 在数据仓库的发展过程中,出现了几种不同的数据组织形式u 剧。 简单堆积文件:简单堆积文件的数据组织形式是将每天由数据库提取后处 理过的数据逐天存储起来。还有一种形式被称为简单直接文件,它同简单堆积文 件非常相似,只是按照一定的时间间隔对数据库进行快照并存储,但是时间的间 隔不一定是每一天。 定期综合文件:在定期综合文件这种方式中,数据存储单位被分成日、周、 旬、月、季度、年等多个级别。数据被逐一地添加到每天地数据集合中,当一个 星期过去了,每天数据被综合成周数据,依次类推周数据被综合成月数据。这种 1 2数据仓库系统的理论研究与实现 方式使得数据量比简单堆积文件方式大大减小,但是由于数据被进行高度地综合, 使得数据地细节在综合中丢失。因此,定期综合文件地形式是牺牲数据地细节换 取数据量级地减小。 连续文件:比较两个连续的简化直接文件而生成的新的连续文件,连续文 件也可和新的简化直接文件一起生成新的连续文件。 2 3 4 数据仓库的数据组织方式 数据仓库的数据组织方式分为虚拟存储方式、基于关系表的存储方式和多维数 据库存储三种方式。 虚拟存储方式:虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门 的数据仓库数据存储,数据仓库中的数据仍然在源数据库中,只是根据用户的多 维需求及形成的多维视图,临时在源数据库中找出所需要的数据,完成多维分析。 这种形式要求源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比 较接近多维数据模型。因而,它虽然简单但在实际中这种方式很难建立起有效的 决策服务数据支持。 基于关系表的存储方式:这种方式是将数据仓库的数据存储在关系数据库的 表结构中,在元数据的管理下完成数据仓库的功能。这种存储方式在建库时,首 先要提供一种图形化的点击操作界面使分析员能对源数据库的内容进行选择, 定义多维数据模型,然后再编制程序把数据库中的数据抽取到数据仓库的数据库 中。这种方式的主要问题是在多维数据模型定义好后,从数据库中抽签数据往往 需要编制独立、复杂的程序,因此通用性差、根难维护。 多维数据库存储方式:多维数据库的组织是直接面向o l 蟑分析操作的数据 存储形式。这种存储方式的数据组织采用多维数据组结构文件进行数据存储,并 有维索引及相应的元数据管理文件与数据相对应。 2 3 5 数据的抽取 在数据仓库构建过程中,任务最重、日常运行中问题最多的是将数据从源数 据库( 业务数据库) 向数据仓库移动的过程。这个过程称为数据的装载或抽取。数据 的抽取是数据进入数据仓库的入口。数据仓库的设计通常包括两部分:数据模型 的设计和数据装载接口的设计。 数据仓库是一个独立的数据存储环境,它需要通过抽取过程将数据从操作数 据库、外部数据源和其他数据存储介质中导入其中。数据仓库不是数据的简单堆 积,所以在进入数据仓库时,需要经过提取、变换、清洗、加载和汇总等步骤。 数据仓库是按主题来组织数据的,数掘提取保证提取出决策析必需的那一部分数 第二章数据仓库原理 1 3 据,而不需要对所有数据源中的数据进行分析;数据转换对从多个不同数据源中 提取的数据进行数据项名称的统一、编码的统一和度量标准的统一,消除数据之 间的不一致,使进入的数据仓库的数据具有集成性;数据加载通常指数据从存储 源数据数据库的计算机到数据仓库的计算机之间的物理移动。 4 数据仓库体系结构化环境 在体系结构化环境的核心,主要存在两种数据:原始数据和导出数据。实际 中,一个企业的部门组织结构往往不是单一的,而是根据职责和权限的不同划分 为若干层次的,管理工作可分为高层、中层及基层三种。基层管理也称为事务管 理,其主要任务是一般日常业务处理。中层管理既包含一般业务处理,又需要进 行简单分析,做出一般的决策和控制。高层管理的主要任务是进行战略决策,需 要进行复杂的分析加工。功能的不同决定了每一层的管理对数据处理的要求的不 同。数据仓库使数据发生了的质的变化,由原始数据转化为适合分析的导出型数 据。但这种转化和综合对各种分析来说是远远不够的,仍需进一步的加工。此外, 随着数据的不断载入,数据仓库将越来越庞大,分析工作若完全基于数据仓库, 性能将十分低下。因而需要建立起分层的数据仓库体系结构,如图2 6 所示。 数据从操作型环境经过综合整理进入全局数据仓库,企业中的有关部门再从全 局数据仓库中组织适合自己特殊分析需求的数据,建立自己的局部仓库( 数据集 市:而个人不仅可以从全局数据仓库中提取数据,而且可以从部门级仓库中提取 所需数据。由于数据在全局数据仓库中都已经是集成的、一致的,所以部门和个 人的抽取工作效率将会很高。 基层管理全局层中层管理高层管理 注:。”表示数据的流向 图2 - 6 数据仓库体系化环境 2 4 1 数据集市 数据仓库按规模和级别可分为两种基本类型:全局级( 企业级) 数据仓库和数据 集市企业级数据仓库包括企业范围内的信息,数据分析的数据来自所有可能的 数据源。且企业级数据仓库通常包括几个分析主题域,如客户、产品和销售,并 用于制定企业整体战略。数据集市是企业级数据仓库的一个子集,是一个小型的 数据仓库。专门针对企业中的个别部门提出有效的解决方案。数据集市一般只包 1 4 数据仓库系统的理论研究与实现 括一个主题区域和一种分析 目前创建数据集市有两种方法。一种是直接从o l t p 系统中将数据提取到需要 该数据的数据集市中;另一种是将o l t p 系统中的数据先提取到企业级数据仓库 中,再将需要的数据填充到某一数据集市中。 2 4 2 数据仓库前端工具 数据仓库系统的前端工具主要分为三种:联机分析查询( o l a p ) 的分析查询型 工具、决策支持系统( d s s ) 的分析预测型工具、用于数据挖掘的数据挖掘工具。 1 、联机分析查询( o l i n ) 联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,0 u 蟑) 主要通过多维的方式来对 数据进行分析、查询和生成报表。o l a p 应用主要是对用户当前及历史数据进行分 析,辅助领导决策。o l a p 具有快速性、多维性和分析性的特点。 上一章中在讨论“为什么要分离一个数据仓库? ”的时候,我们谈到了现代 企业的数据类型分为操作型数据和分析型数据,这也是导致需要分离设计数据仓 库系统的一个重要原因。在数据处理的过程中,针对这两种数据类型,数据处理 方式大致也可分为两大类:联机事务处理( o l t p ) 和联机分析处理l a p ) 。 o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理, 例如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果。o l r p 和o l a p 的区别如表2 1 所示d i :】 表2 1o l t p 和o l a p 的区别 特征 0 i :i 甲0 l a p 面向面向业务应用。事务驱动面向分析,分析驱动 用户一般数据库管理人员决策人员,支持中高管理者 设计基于e - r 模型,面向应用星型,雪花模型面向主题 数据当前的业务系统中的原始的细节数据历史的经过清洗、转化的综合数据 趣模1 m b 劐g b1 0 0 g b 到t b 操作主关键字索引大量扫描 存取读,写大多为读 从上表,我们可以看出,o l a p 涉及的数据量很大,并且是针对某个问题的多 维数据进行处理,因此o l a p 通常建立在数据仓库的基础上。o l a p 使用的是数 据仓库记录的历史数据,数据定期追加但不更新。而o l t p 系统的数据是基于业务 系统中的原始细节数据,主要面向操作人员。 o l a p 主要供企业的高中层决策人员使用,它面向分析由分析驱动。分析问题 常常需要从多种维度进行观察,并且需要考察历史数据,因此一次o l a p 处理常 常需要访问大量的数据。而一次o l t p 操作只是一次事务处理,一般涉及的面比较 窄,需要的数据比较少。 第二章数据仓库原理 2 、数据挖掘( d a t am i n i n g ) 随着企业数据库的猛增,特别是数据仓库的出现,原有的数据库工具已无法 满足用户的需求,用户不仅需要一般的查询和报表工具,更需要的是那些能够帮 助他们从浩瀚的数据海洋中提取出高质量信息( 综合分析与预测性) 的工具。通 过对于存储于数据库或者数据仓库中的数据的有效的数据挖掘,可以主动的去发 现数据中存在的知识和规则,或者对于未来数据发展进行预测,这样就可以为用 户科学的制定经营策略提供了依据。 从数据仓库观点,数据挖掘可以看作联机分析处m ( o l a p ) 的高级阶段。数据 挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、 模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。 数据挖掘作为数据分析的高级阶段原则上是可以在任何类型的信息存储上进行 的,这包括传统的关系数据库、数据仓库、事务数据库、高级数据库系统,展开 文件和w w w 。其中高级数据库系统包括面向对象和对象一关系数据库;面向特 殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。 数据挖掘( d m ) 和o l a p 都是数据分析工具,但是它们处理的问题不同,数据 分析的深度不同d m 是一种挖掘性质的数据分析,它能够自动的发现事物间潜在 的关系和特征模式,并且可以利用这些特征模式进行有效的预测分析。o l a p 是一 种验证性质的数据分析,用户提出问题或者某种假设,o l a p 负责从上到下、由浅 到深的展现问题相关的详细信息,供用户判断提出假设是否合理。 3 、决策支持系统( d s s ) 决策支持系统( d s s ) 和数据仓库的目标用户相同,都是面向企业的中高层领导, 它们执行的都是决策和趋势分析类的应用。d s s 系统的一些技术可以很好的集成 到数据仓库中,使数据仓库的分析能力更加强大。 决策支持系统从出现到目前,经历了多种解决方案传统的d s s 系统是基于 模型库、方法库和知识库的一种解决方案,通常由三部分组成:交互语言及问题 求解系统、三库系统( 模型库、方法库和知识库) m r 数据库系统。随着数据仓库技 术、数据挖掘技术的发展,产生了基于数据仓库技术的d s s 解决方案,形成智能 决策支持系统( i n t c l l i g e n c ed e c i s i o ns u p p o r ts y s t e m s ,t o s s ) ,使其能够对非结构化 的问题进行分析推理。数据仓库和联机分析处理( o l a p ) 以及d m 技术的应用使得 对大量数据的抽取和分析变得简单起来,其中数据仓库能够实现对决策主题的存 储和综合,o l a p 实现多维数据分析,数据挖掘用以挖掘数据库和数据仓库中的知 识它们集成的决策支持系统将相互补充、相互依赖、发挥各自的辅助决策优势, 实现更有效的辅助决策。 数据仓库系统的理论研究与实现 2 4 3 数据仓库系统的三层体系结构 数据仓库系统( d a t aw a r e h o u s es y s t e m ) 是以数据仓库为基础,通过集成工具、 查询工具和分析工具完成对数据的转换和对信息提取的系统。通常采用如图2 - 7 所示的三层体系结构:操作环境层、数据仓库层和业务操作层t 2 1 3 j 。其中,操作环 境层是指整个企业内有关业务的o l t p 系统和一些外部数据源;数据仓库层是通过 把操作环境层的相关数据抽取到一个以数据仓库为中心的层次;业务操作层是为 了完成对业务数据的分析而由各种数据处理工具所组成;左侧的元数据库是对数 据的一种描述,贯穿整个系统的各个层面。 数据仓库的数据一般分为操作数据库源数据和外部源数据两部分。操作数据 源包括各种生产系统数据库、联机事务处理系统的操作数据库等;外部源数据一 般来自企业的外部信息,如市场调查与分析及各类文档等。导入的源数据形成了 数据仓库的原始数据,然而源数据只是数据仓库的一部分,但不是全部。由于需 要数据仓库进行o 乙心分析和数据挖掘,因此需要在原始数据的基础上增加冗余 信息,比如进行大量的预运算,建立多维数据库,以求得到更好的分析结果。 壹黼告l o l a p 分析1矗撂挖掘 j 、 1 输出广 画画 叼裂e 黼刁畸i i i j 8 i h 蠢妇ll 仍mj 叶 操作数据库 外部数据源 图2 7 效据仓库三层体系结构 数据仓库监控( m o n j t 丽n g ) 和管理( a d m i n i s t 阳t i o n ) 工具对数据仓库的运行提供 监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、存 储管理等多方面的内容。 第二章数据仓库原理 1 7 数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据的 信息。数据仓库中的元数据主要包含两类数据:一种是为了从操作型环境向数据 仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓 库中的转化:另一种元数据是用来与最终用户的多维商业模型和前端展现工具之 间建立映射的,这种数据称为决策支持系统( d s s ) 元数据,它包括数据仓库中信息 的种类、存储位置、存储格式;信息之间的关系、信息和业务之间的关系:数据 模型和数据模型与数据仓库的关系。 联机分析处理( o l a p ) 技术的核心是“维”,使分析人员能够从多种角度针对 需求分析原始数据。数据仓库和0 u 垤工具是基于多维数据模型的,该模型将数 据看作数据立方体( d a t ac u b e ) 的形式,允许以多维对数据建模和观察。它由维和事 实定义。 2 6 数据仓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论