(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf_第1页
(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf_第2页
(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf_第3页
(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf_第4页
(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(控制理论与控制工程专业论文)数据挖掘技术应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 ( _ 今天,我们已被诸如科学数据、医疗数据、人口统计数据、财经数据和市 场数据等所淹没。必须找到一种方法来自动分析数据、自动对数据分类、自动 对数据汇总、自动发现和描述数据中的趋势、自动标记异常。数据挖掘就是从 大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信息和知识的过程,是当今数据库研究、 开发和应用最活跃的分支之一a j 本文包括数据挖掘的基本概念、数据仓库的相关技术、数据挖掘的数据预 处理技术( 包括数据清理、数据集成和转换、数据归约等方法) 、以及传统关联 规则挖掘及a p r i o r i 算法、模糊关联规则和模糊关联规则算法在实际系统中的应 用几个部分。 在电信行业中,每天都有成千上万条通话记录。通过对这些大量数据的分 析,可以挖掘出不同电话号码之间的相互关系及其它大量有用的信息。论文以 佛山电信关于通话记录的数据挖掘为背景,在深入研究传统关联规则挖掘及 a 嘶o r i 算法的基础上。针对其在电信行业挖掘方面的局限性,结合模糊知识处 理的理论和相关技术,提出了一种新的模糊关联规则算法及其改进公式。并研 究了新算法及改进公式用于电信行业这个特定领域的特点。最后阐述了改进公 式的实现过程。用实践证明模糊关联规则算法是一种行之有效的数据挖掘算法。 当然,该算法不仅局限于电信行业,在我们所熟知的购物篮分析以及文本数据 挖掘、空间数据挖掘等方面都有一定的实际意义,具有较好的通用性及可扩展 件。 关键词:数据挖掘;数据仓库;关联规则;a p r i o r i 算法:模糊关联规则 一 i 华中科技大学硕- t :学位论文 a b s t r a c t t o d a y ,w e a r e d e l u g e db y d a t a ,s u c h a ss c i e n t i f i c d a t a , m e d i c a ld a t a , d e m o g r a p h i c d a t a , f i n a n c i a ld a t a , a n dm a r k e t i n gd a t a w e m u s tf i n d w a y s t o a u t o m a t i c a l l ya n a l y z e t h e d a t a , t oa u t o m a t i c a l l yc l a s s i f yi t ,t oa u t o m a t i c a l l y s u m m a r i z ei t ,t o a u t o m a t i c a l l y d i s c o v e ra n dc h a r a c t e r i z e 仃e n d si ni t ,a n dt o a u t o m a t i c a l l yf l a ga n o m a l i e s d a t am i n i n gi s ap r o c e s st of i n dt h eu n d e r l y i n ga n d u s e f u li n f o r m a t i o nf r o mam a s so f , i n c o m p l e t e ,n o i s e d ,f u z z ya n dr a n d o md a t a 也a t p e o p l ed i d n o tk n o wb e f o r e d a t am i n i n gi so n eo f t h em o s ta c t i v eb r a n c ho f r e s e a r c h , d e v e l o p a n d a p p l i c a t i o na b o u t d a t a b a s e t h i sp a p e ri n c l u d e sb a s i cc o n c e p t so fd a t am i n i n g ,c o r r e l a t i v et e c h n i q u ea b o u t d a t aw a r e h o u s e ,t e c h n i q u e sf o rp r e p r o c e s s i n gt h ed a t ap r i o rt om i n i n g ( m e t h o d so f d a t a c l e a n i n g ,d a t ai n t e g r a t i o n a n d t r a n s f o r m a t i o n , a n dd a t a r e d u c t i o n e t c ) , c o n v e n t i o n a lm e t h o d sf o r m i n i n g a s s o c i a t i o nr u l e sa n dt h e a p r i o r ia l g o r i t h m , m e t h o d sf o r m i n i n gf u z z y - a s s o c i a t i o nr u l e sa n d t h eu s eo f f u z z y - a s s o c i a t i o nr u l e t h i s p a p e r i sb a s e do nt h ed a t a m i n i n g a b o u tc a l lr e c o r do ff o s h a n t e l e c o m m u n i c a t i o no f f i c e i nt h et e l e c o m m t m i c a t i o ni n d u s t r y , t h e r ea r et 1 1 0 u s a n d s u p o nt h o u s a n d sc a l lr e c o r d sw ek n o w t h r o u g ht h e s eq u a n t i t i e so fd a t a , w ec a nf i n d t h er e l a t i o nb e t w e e nt h ed i f f e r e n tc a l ln u m b e ra n do t h e rm u c ho fu s e f u li n f o r m a t i o n b a s e do i ll u c u b r a t i o na b o u tc o n v e n t i o n a lm e t h o d sf o rm i n i n ga s s o c i a t i o nr u l e sa n d t h ea p r i o r i a l g o r i t h m ,a i m i n ga t t h el i m i to fc o n v e n t i o n a lm e t h o d sf o rm i n i n g a s s o c i a t i o nr u l e sa n dt h e a p n o r ia l g o r i t h m ,c o m b i n i n gt h ef u z z yt h e o r y a n d c o r r e l a t i v et e c h n o l o g y , w eb n n gf o r w a r dan e w f u z z y - a s s o c i a t i o nr u l ea n di m p r o v e d f o r m u l aa b o u ti t w ea l s og i v es o m er e s e a r c ho nt h i sn e w a l g o r i t h ma n dt h en e w i m p r o v e df o r m u l aw h e nt h e ya r e u s e do nt e l e c o m m u n i c a t i o ni n d u s t r y l a t e rw e e x p o u n dt h ep r o c e s so ft h i si m p r o v e df o r m u l a a tl a s t ,p r o v i n gi t b yp r a c t i c e , 一。一 i i 华中科技大学硕士学位论文 f u z z y a s s o c i a t i o nr u l ei s ae f f e c t i v e a l g o r i t h ma b o u td a t am i n i n g m o r e o v e r , t h i s a l g o r i t h mi s n o tl i m i t e di nt h et e l e c o m m u n i c a t i o ni n d u s t r y i nt h em a r k e tb a s k e t a n a l y s i s ,t e x td a t am i n i n g ,s p a t i a ld a t am i n i n ga n do t h e mt h i sa l g o r i t h mh a ss o m e d o u b t l e s ss i g n i f i c a n c e w es e e ,f h z z y a s s o c i a t i o nr u l eh a saw i d eu s ea n di tc a l lb e e x p a n d e d k e yw o r d :d a t am i n i n g ;d a t aw a r e h o u s e ;a p r i o f ia l g o r i t h m ;a s s o c i a t i o nr u l e f u z z y - - a s s o c i a t i o nr u l e i i i 华中科技大学硕士学位论文 1 ,1引言 1绪论 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储 的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些 信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据 库中挖掘信息的技术,就称为数据挖掘( d a t am i n i n g ) 。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种 商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访 问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高 级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之 间的潜在联系,从而促进信息的传递。现在数据挖掘在商业应用中已经可以投 入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是:海 量数据搜集、强大的多处理器计算机和数据挖掘算法。 在商业应用里,数据挖掘表现为在大型数据库或数据仓库里搜索有价值的 商业信息,并且能够智能且精确地定位潜在价值所在。对于给定了大小的数据 库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会。如自动趋势预 测:数据挖掘能自动在大型数据库或数据仓库里面找寻潜在的预测信息,传统 上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答 案,一个典型的利用数据挖掘进行预测的例子就是营销目标,数据挖掘工具可 以根据过去邮件推销中的大量数据找出最有可能对将来的邮件推销做出反应的 客户;自动探测以前未发现的模式:数据挖掘工具扫描整个数据库并辨认出那 些隐藏着的模式,比如通过零售数据来辨别出表面上看起来没联系的产品,实 际上很多情况下是一起被售出的情况;数据挖掘技术可以让现有的软件和硬件 更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运 华中科技大学硕士学位论文 行于高性能的并行处理器系统上的时候,它能在数分钟内分析一个超大型的数 据库,这种更快的处理速度意味着用户有更多的机会来分析数据,让分析的结 果更加准确可靠,并且易于理解。 在数据挖掘中最常用的技术有【1 】: 人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习进行 模式识别。 决策树:代表着决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异以及自然选择等设 计方法的优化技术。 近邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据中的“i f t h e n ”规则进行寻找和推导。 采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这 些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型 的工业标准的数据仓库和联机分析系统中去了。 数据挖掘工具要准确的找出那些隐藏在数据库深处的重要信息并做出预 测,必须建立自己的数学模型。建模实际上就是在知道结果的情况下建立起一 种模型,并且把这种模型应用到不知道的情况中去。数据挖掘的基本实现过程 如下: 1 数据取样( s a m p l e ) 当进行数据挖掘时,首先要从企业大量数据中取出一个与要探索问题相关 的样本数据子集,而不用动用全部企业数据。通过数据样本的精选,不仅能减 少数据处理量,节省系统资源,而且能通过数据的筛选,使想要它反映的规律 性更加凸现出来。 在数据取样过程中,我们同时还要把好数据的质量关。即使事实上从一个 数据仓库中进行数据取样,数据质量的检查也是必须的。通过数据挖掘是要探 索企业运作的规律性,如果原始数据有误,那么从中探索出规律性必然会大打 折扣。 华中科技大学硕士学位论文 其次,要根据所要达到的目标来从巨大的企业数据母体中取出合适的数据 样本,并采用不同的方法:如果要进行过程的观察、控制,这时可进行随机取 样,然后根据样本数据对企业或其中某个过程的状况做出估计;若想通过数据 挖掘得出企业或某个过程的全面规律性时,必须获得在足够广泛范围变化的数 据,以使其具有代表性。 2 数据特征探索、分析和预处理( e x p l o r e ) 数据取样多少是在带着如何达到数据挖掘目的的先验认识进行操作的。实 际在拿到一个数据集后,判断其是否达到预先设想的要求:有没有明显的规律 和趋势;有没有从未设想过的数据状态;各因素之间的相关性:可区分成怎样 一些类别等等都是首先要探索的内容。 数据特征的探索、分析和预处理,实际也就是个深入调查的过程,搞清 楚多因素之间相互影响的十分复杂的关系,而且这种复杂的关系并不可能一下 子建立起来。首先要观察众多因素之间的相关性,再按其相关性的程度,了解 它们之间相互作用的情况。这个过程需要我们反复的试探、仔细的观察。运用 我们所学的专业技术知识,同时又不能为专业技术所束缚。 3 问题明确化、数据调整和技术选择( m o d i f y ) 完成上述两个步骤后,对数据的状态和趋势已经进一步的了解,对原来要 解决的问题也进一步明确了。下面要做的工作就是对要解决的问题作进一步的 量化,将诸如质量不好、生产率低等模糊问题进一步明确,以量化的形式来表 示。同时针对问题的需要,可能对数据进行增删,或者组合生成一些新的变量, 以体现对状态的有效的描述。然后就是要选择合适的技术手段。 4 模型的研发、知识的发现( m o d e l ) 这一步是数据挖掘的核心环节。数理统计方法还是数据挖掘工作中的主流 技术手段,包括各种不同类型模型、不同特点数据的回归分析,如正交回归、 响应面回归、非线性回归等,且有各种各样模型化的方法选择。可处理的数据 有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。 在方差分析方面,有一般线性模型和广义线性模型的专用过程。在多变量统计 华中科技大学硕士学位论文 分析方面,有主成分分析、典型相关分析、判别分析和因子分析等许多专用过 程。通过这些数理统计工具不仅能揭示企业已有数据间的新关系、隐藏着的规 律性,而且反过来预测它的发展趋势,或是在一定条件下将会出现什么结果。 5 模型和知识的综合解释与评价( a s s e s s ) 从上述过程一般只能得出对目标问题的多侧面描述,而不能得出一个直接 的结论。我们需要很好的综合它们的影响规律性,以提供合理的支持信息。也 就是要在所付出的代价和达到预期目标可靠性的平衡上做出选择。比如说在数 据挖掘的过程中,需要把平衡的指标尽可能的量化,以利于综合抉择。 提供的决策支持信息的适用性如何,也是一个十分重要的问题。有很多评 价方法对其进行检验,我们可以直接用原来建立模型的样本数据来进行检验, 或者在实际运行的环境中取出新鲜数据进行检验等。 综合解释和评价的过程是一个反复进行的过程,在反复过程中,不断地趋 近事物的本质,不断地优化问题的解决方案。 应用数据挖掘技术,较为理想的起点是从一个数据仓库开始,这个数据仓 库里面可以保存所有客户的通话记录,还有客户的年龄、工作单位、收入状况 信息等等。下面一章我们将详细介绍有关数据仓库及其相关技术以及我们为什 么选择在数据仓库中而不是在传统的操作数据库系统中进行数据挖掘。 1 2 论文背景 本论文以广东省佛山市电信局关于通话记录的数据挖掘为背景。以佛山市 电信局2 0 0 0 年8 、9 两个月的移动电话通话记录为样本,主要挖掘出不同电话 号码之间的关系,也即不同的手机号码是否为同一个客户所占有等。另外,还 可以挖掘出其它一些辅助信息,如不同客户类型不同的通话习惯,像年青人喜 欢以手机短信息的方式联系,中老年人习惯于直接通话联系,还有不同客户类 型、不同年龄段通话方式的区别等,以用于指导电信部门实行客户跟踪、线路 维护、广告宣传等。 4 华中科技大学硕士学位论文 1 3 论文的工作和意义 电信业是典型的数据密集行业,随着电信体制改革的深化,电信业的竞争 也日趋激烈。与其它行业相比,电信行业拥有更多的有关用户的数据。谁能正 确的分析这些数据得到有用的知识,谁就能更好的向用户提供服务,能够发现 更多的商机,从而在竞争中获胜。电信企业必须保存用户的呼叫数据以计费, 监视网络运行状况和网络规划,电信企业也要对这些数据进行分析以发现有用 的规律以便于网络优化、线路维护等。因此,数据挖掘在电信业中有着重要的 应用价值。 华中科技大学硕士学位论文 2 数据仓库相关知识介绍 构造数据仓库涉及数据清理和数据集成,可以看作数据挖掘的一个重要预处 理步骤。此外,数据仓库提供联机分析处理( o l a p ) 工具,用于各种粒度的多 维数据分析,有利于有效的数据挖掘。进一步讲,许多数据挖掘功能,如分类、 预测、关联和聚集,都可以与o l a p 操作集成,以加强多个抽象层上的交互知识 挖掘。因此,数据仓库已经成为数据分析和联机分析处理日趋重要的平台。 2 1 什么是数据仓库 按照w h l r l i d _ o n 这位数据仓库系统构造方面的领头设计师的说法,“数据仓 库是一个面向主题的、集成的,时变的、非易失的数据集合,支持管理部门的 决策过程”f 2 】 引。四个关键词,面向主题的、集成的、时变的、非易失的,将 数据仓库书其它数据存储系统( 如关系数据库系统、事务处理系统和文件系统) 相区别。、s 面向主题的( s u b j e c t - o r i e n t e d ) :数据仓库围绕一些主题,如顾客、供应 商、产品等组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织 机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供 特定主题的简明视图。 集成的( i n t e g r a t e d ) :通常,构造数据仓库是将多个异种数据源,如关 系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集 成技术,确保命名约定、编码结构、属性度量等的一致性。 时变的( t i m e v a r i a n t ) :数据存储从历史的角度( 例如过去5 1 0 ) 提供 信息。数据仓库中的关键结构,隐式或显式地包含时间元素。哿 非易失的( n o n v o l a t i l e ) :数据仓库总是物理地分离存放数据:这些数据 源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复 和并发控制机制。通常,它只需两种数据访问:数据初始化装入和数据查询。 概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模 6 ,“糊l 华中科技大学硕士学位论文 型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体 系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和专门的 查询、分析报告和决策制定。 。2 1 1 操作数据库系统和数据仓库的区别 联机操作数据库系统的主要任务是执行联机事务和查询处理。这种称为联 机事务处理( o l t p ) 系统。它们涵盖了一个组织的大部分日常操作,如客户电 话号码查询、客户话费查询等。另一方面,数据仓库系统在数据分析和决策方 面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数 据,以便满足不同用户形形色色的需求。这种系统称为联机分析处理( o l a p ) 系统。o l t p 和o l a p 的主要区别概述如下5 j : 表2 - lo l t p 系统和o l a p 系统的比较 特性 o l t po l a p 特征操作处理 信息处理 面向事务 分析 用户办事员、d b a 、数据库专业人员知识工人( 如经理、主管、分析员) 功能日常操作长期信息需求、决策支持 d b 设计e r ,面向应用星型雪花,面向主题 数据当前的、确保最新历史的,跨时间维护 汇总原始的,高度详细汇总的,统一的 视图详细,一般关系汇总的,多维的 工作单位短的,简单事务复杂查询 存取读写大多为读 关注数据进入信息输出 操作主关键字上索引散列大量扫描 访问记录数量数十个数百万 用户数数千数百 d b 规模1 0 0 船到g bi o o g b 到t b 优先高性能,高可用性高灵活性,端点用户自治 度量事务吞吐量查询吞吐量,响应时间 华中科技大学硕士学位论文 2 12 建立数据仓库系统在数据挖掘中的意义 我们知道,在操作数据库中已经存放了大量的数据,那么我们为什么还要 专门花费时间和资源去构造数据仓库咧? 其主要原因是为了提高两个系统的性 能。操作数据库是为已知的任务和负载设计的,如使用主关键字索引,检索特 定的记录等。另一方面,数据仓库的查询通常是复杂的,涉及大量数据在汇总 级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。 在操作数据库上处理o l a p 查询,可能会大大降低操作任务的性能。 此外,操作数据库支持多事务的并行处理,需要加锁和日志等并行控制和 恢复机制,以确保一致性和事务的强健性。通常,o l a p 查询只需要对数据记录 进行只读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种o l a p 操作,就会危害并行事务的运行,从而大大降低0 l a p 系统的吞吐量。 最后,数据仓库与操作数据库这两种系统中数据的结构、内容和用法都不 相同。决策支持需要历史数据,而操作数据库一般不维护历史数据。在这种情 况下,操作数据库中的数据尽管很丰富,但对于决策,常常还是远远不够的。 决策支持需要将来自异种数据源的数据统一( 如聚集和汇总) ,产生高质量的、 纯净的和集成的数据。相比之下,操作数据库只维护详细的原始数据( 如事务) , 这些数据在进行分析之前需要统一。由于这两种系统提供很不相同的功能,需 要不同类型的数据,因此我们需要建立专门的数据仓库用于数据挖掘。 2 2 多维数据模型 数据仓库和o l a p 工具基于多维数据模型。该模型将数据看作数据立方体 ( d a t ac u b e ) 形式。下面将介绍数据立方体如何对n 维( n - d ) 数据建模、概念 分层以及如何在基本o l a p 操作中使用它们,在多个抽象层上进行交互式挖掘。 2 2 1 由表和电子数据表到数据立方体 数据立方体允许以多维对数据建模和观察,它由维和事实定义。维是关于 个组织想要记录的实体。在我们所创建的数据仓库p h o n e s 中,涉及维d i s t r i c t ( 呼 华中科技大学硕士学位论文 叫发生地) ,p h n t i m e ( 电话呼叫时间) ,t y p e s ( 呼叫类型,包含本地电话、国内 长途、国际长途等) ,i n t p s v ( 主被叫类型) 等,这些维使得p h o n e s 中能记录本 市内所有通话记录。每一个维都有一个表与之相关联,该表称为维表。通常情 况下,多维数据模型围绕中心主题( 如p h o n e s ) 组织,该主题用事实表表示, 如s l f p h n ( 本方号码) 、o t h p h n ( 对方号码) 、p h n f l u x ( 通话时间长度) 、m b l m n y ( 移动话费) 、l d s t n m n y ( 长途话费) 等。事实表包括事实的名称或度量,以及 每个相关维表的关键字。在数据仓库中,数据立方体是n d 的,尽管我们经常 将数据立方体看作是3 d 几何结构。 2 2 2 多维数据库模式 星型、雪花和事实星座模式是主要的存在形式,星型模式是最常见的模型 范例,包含一个大的包含大批数据的事实表和一系列维表。雪花模式是星型模 式的变种,不同的是将某些维表范化,因而进一步将数据分解到附加的表中。 事实星座模式对应多个事实表芡享维表,这种模式可以看作是星型模式集。我 们这里采用星型模式,其对应的表结构如图2 一l 所示: 图2 - i p h o n e s 数据仓库结构图 9 华中科技大学硕士学位论文 22 3 度量的分类和计算 数据立方体空间的多维点由维一值对定义。如d i s t r i c t = s a n s h u i , i n t p s v = a ,m o n t h = j u l y ,g e n d e r = m a l e 。数据立方体的度量是一个数值函数, 该函数可以对数据立方体的每一个点求值。通过对给定点的各维一值对聚集数 据,计算该点的度量值。度量可以根据其所用的聚集函数分为三类【5 】: 分布的:设数据被划分为n 个集合,函数在每一部分上的计算得到一个聚集 值。如果将函数用于n 个聚集值得到的结果,与将函数用于所有数据得到的结果 一样则该度量是分布的,例如c o u n t 0 ,s u m ( ) 等。 代数的:如果一个聚集函数能够由一个具有m 个参数的代数函数计算,且每 个参数都可以用一个分布聚集函数求得。如a v 9 0 可以由s u m 0 c o u n t 0 计算,其中 s u m ( ) 和c o u n t ( ) 是分布聚集函数。 整体的:如果一个聚集函数无法用具有m 个参数的代数函数进行这一计算, 则称这个函数是整体的,如m e d i a n 0 ,r a n d ( ) 等。 大部分数据立方体应用需要有效的计算分布和代数的度量。对于这些,存 在许多有效的技术。相比之下,有效的计算整体度量是很困难的。然而,对于 有些整体函数的近似计算,有效的技术是存在的。例如,有些技术可以以满意 的结果估计大数据值的中值,而不是精确地计算m e d i a n 0 。在许多情况下,这些 技术可以克服整体函数有效计算的困难。 2 2 ,4 多维数据模型的o l a p 操作 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽 象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些o l a p 数据 立方体操作用来物化这些不同视图,允许交互查询和分析手头数据,o l a p 为交 互数据分析提供了友好的环境。典型的多维数据o l a p 有如下几种: 上卷操作( d r i l l - u p ) ,通过一个维的概念分层向上攀升或者通过维规约,在 数据立方体上进行聚集。如我们按d a y ( 天) 一( m o n t h ( )q u a r t e r ( 季度) 一 y e a r ( 年) 的方式来统计通话费用,一层一层向上,这称之为上卷操作。 1 0 g 狰强t 华中科技大学硕士学位论文 下钻操作( d r i l l d o w n ) :是上卷操作的逆操作,由不太详细的数据到更详细 的数据下钻可通过沿维的概念分层向下或引入新的维来实现。 切片和切块:切片在给定的数据立方体的一个维上进行选择,导致一个子 方,如我们可以选择( p h n d a t e = 2 0 0 1 0 9 0 1 ) 来统计通话费用。切块则是在两个 或两个以上的维进行选择,如选择( p h n d a t e = 2 0 0 1 0 9 0 1 ) a n d ( d i s t r i c t = s a n s h u i ) 来对中心事实表进行切块操作。 转轴( p i v o t ) :转动数据的视觉,是一种目视操作,它提供数据的替代表示。 其它o l a p 操作:有些o l a p 还提供其它钻取操作。例如,钻过执行涉及 多个事实表的查询;钻透操作使用关系s q l 机制,钻到数据立方体的底层,到 后端关系表。 2 3 数据仓库系统结构 下面我们简要介绍一下数据仓库的结构问题,像如何设计和构造数据仓库, 三层数据仓库结构,数据仓库类型、用于o l a p 处理的各种不同类型的仓库服 务器等。 2 3 1 数据仓库的设计 为建立有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析 框架。构造一个大的、复杂的信息系统就像建一个大型的复杂建筑,业主、设 计师、建筑者都有不同的视图。这些观点结合在一起,形成一个复杂的框架, 代表白顶向下的、商务驱动的或业主的视图,也代表自底向上的、建筑者驱动 的或信息系统实现者的视图。关于数据仓库的设计,四种不同的视图必须考虑: 自顶向下视图、数据源视图、数据仓库视图、商务查询视图。 自顶向下视图:使我们可以选择数据仓库所需的相关信息,这些信息能够 满足当前和未来商务的需求。 数据源视图:揭示被操作数据库系统捕获、存储和管理的信息。这些信息 可能以不同的详细程度和精度建档,存放在由个别数据源表到集成的数据源表 。瓣 华中科技大学硕士学位论文 中。 数据仓库视图:包括事实表和维表,它们提供存放在数据仓库内部的信息, 包括预先计算的总和与计数,以及关于源数据、日期等信息。 商务查询视图:从最终用户的角度透视数据仓库中的数据。 建立和使用数据仓库是一个复杂的任务,因为它需要商务技巧、技术技巧 和程序管理技巧。关于商务技巧,建立数据仓库涉及理解这样一个系统如何存 储和管理它的数据;如何够构造提取程序,将数据由操作数据库转换到数据仓 库;如何构造一个仓库刷新软件,合理地保持数据仓库中数据相对于操作数据 库中数据的当前性。使用数据仓库涉及理解数据的含义,以及理解商务需求并 将它转换成数据仓库查询。关于技术技巧,数据分析需要理解如何由定量信息 做出估价,以及如何根据数据仓库中的历史信息得到的结论推导事实。这些技 巧包括发现模式和趋势,根据历史推断趋势和发现不规则的能力,并根据这种 分析提出相应的管理建议。最后,程序管理技巧涉及需要许多技术人员、经销 商、最终用户交往,以便以及时和合算的方式提交结果。数据仓库设计过程包 含如下步骤: ( 1 ) 取待建模的商务处理,如订单、发票、出货、库存、记帐管理、销售 和一般分类帐。 ( 2 ) 取商务处理的粒度,例如单个事务,一天的快照等。 ( 3 ) 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应 商、仓库、事务类型和状态。 ( 4 ) 选取将安放在事实表中的度量如图2 1 中的m b l m n y 和l d s t n m n y 等。 由于数据仓库的构造是一个困难而长期的任务,它的实现范围应当清楚的 定义。一个初始的数据仓库的实现目标应当是特定的、可实现和可测量的。这 涉及时间和预算的分配,一个组织的哪些子集要建模,选择的数据源数量,提 供服务的部门数量和类型等。 1 2 华中科技大学硕士学位论文 2 3 2 三层数据仓库结构 ( 1 ) 底层数据仓库服务器,它几乎总是一个关系数据库系统,由操作数据 库和外部数据源提取数据。 ( 2 ) 中间层是o l a p 服务器,一种特殊的服务器,它直接实现多维数据的 操作。 ( 3 ) 顶层是客户,它包括查询和报告工具,分析工具和数据挖掘工具( 例如 趋势分析,预测等) 。 2 3 3 数据仓库的类型 ( 1 ) 企业仓库:企业仓库收集了关于主题的所有信息,跨越整个组织,它提 供企业范围内的数据集成。 ( 2 ) 数据集市:包含企业范围数据的一个子集,对于特定的用户是有用的, 其范围限于选定的主题。 ( 3 ) 虚拟仓库:是操作数据库上的视图集合。为了有效地处理查询,只有一 些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有 剩余能力。 2 3 4 o l a p 服务器类型 ( 1 ) 关系0 l a p ( r o l a p ) 模型,使用关系或扩充关系d b m s 存放并管理数据 仓库。 ( 2 ) 多维o l a p ( m o l a p ) 服务器,这些服务器通过基于数组的多维存储,支 持数组的多维视图。 ( 3 ) 混合o l a p ( i - i o l a f ) j 艮务器,结合r o l a p 和m o l a p 技术,得宜于 r o l a p 的可伸缩性,和m o l a p 的快速计算。 ( 4 ) 特殊的s q l 服务器,为了满足在关系数据库中日益增长的0 l a p 需要 实现了特殊的s q l 服务器,提供高级查询语言和查询处理,在星型和雪花模式上 支持s q l 查询。 华中科技大学硕士学位论文 2 4 数据仓库实现 数据仓库包含了海量数据。要求o l a p 服务器在若干秒内回答决策支持查 询。因此,重要的是,数据仓库要支持高效的数据立方体计算技术、存取方法 。 和查询处理技术。 2 4 1 数据立方体的有效计算 多维数据分析的核心是有效地计算多个维集合上的聚集。对于不同的查询, 联机分析处理可能需要访问不同的方体。因此,预先计算数据立方体中所有或 者至少一部分方体,可以带来快速的响应时间,并避免一些冗余计算。实际上, 大多数o l a p 产品都借助于多维聚集的预先计算。然而,如果数据立方体中所 有的方体都预先计算,所需要的存储空间可能爆炸,特别是当多个维涉及多个 层次时。下面我们看看1 3 维数据立方体有多少个方体:如果每个维都没有分层, 显然n 维数据立方体的方体总数为2 ”,实际上,如图2 1 所示,大部分维都有分 层,那么n 维数据立方体可能产生的方体总数是【5 】【6 1 : 上 t = i i ( 三。+ 1 ) ( 2 1 ) 名? 其中,厶是维i ( 除去虚拟的顶层a l l ,因为概化到a l l 等价于去掉一个维) + 的层次数。该公式基于这样一个事实:每个维最多只有一个抽象层出现在一个 方体中。例如,如果数据立方体有1 0 维,每维有4 个层次,由( 2 1 ) 式则可能 产生的方体总数将是5 ”a 9 8x1 0 6 。显然,预先计算并物化由数据立方体( 或 由基本方体) 可能产生的所有方体是不现实的。如果有很多方体,并且这些方 体很大,较合理的选择是部分物化,关于方体的物化有三种选择: ( 1 ) 不物化:不预先计算任何“非基本”方体,这种方式导致运行时计算昂 贵的多维聚集,速度极慢。 ( 2 ) 全部物化:预先计算所有的方体,这可能需要海量存储空间,存放所有 预先计算的方体。 ( 3 ) 部分物化:在整个可能的方体中,有选择地物化一个适当的子集,该选 1 4 熬 华中科技大学硕士学位论文 择在存储空间和响应时间二者之间提供了很好的折衷c 2 4 2 索引o l a p 数据 为提供有效的数据访问,大部分数据仓库系统都支持索引结构,下面简要 介绍一下位图索引、连接索引及复合连接索引。 位图索引:位图索引在o l a p 产品中很流行,因为它允许在数据立方体中快 速检索。在给定属性的位图索引中,属性域中的每个值v ,有一个不同的位向量 b v 。如果给定的属性域中包含n 个值,则位图索引每项需要n 位( 即n 位向量) 。 如果数据表中给定行的属性为v ,则在位图索引的对应行,表示该值的位为1 , 该行的其它位均为0 。 连接索引:源于关系数据库的查询处理,登记来自两个关系数据库的可连接 行。 复合连接索引:数据仓库的星型模式使得连接索引特别吸引人,因为事实表 和它对应维表的连接属性是事实表的外关键字和维表的主关键字。 24 3 o l a p 查询的有效处理 物化方体和构造o l a p 索引结构,目的是加快数据立方体中的查询处理。 给定物化的视图,查询处理应按如下步骤进行: ( 1 ) 确定那些操作应当在可利用的方体上执行,这涉及将查询中的选择、 投影、上卷、下钻操作转换成对应的s q l 或o l a p 操作。 ( 2 ) 确定相关操作应当使用哪些物化的方体,这涉及到找出可能用于回答 查询的所有物化方体。 2 4 4 元数据存储 元数据是关于数据的数据,在数据仓库中,元数据是定义仓库对象的数据。 与数据仓库中的其他数据相比,元数据扮演很不相同的角色,也是数据仓库的 重要角色之一,元数据的存储应当包括: ( 1 ) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数 耄逡錾溜 华中科技大学硕士学位论文 据的定义,以及数据集市的位置和内容。 ( 2 ) 操作元数据,包括移植数据的历史和用于它的转换序列,数据流通( 主 动的、档案的、或净化的) 以及监视信息( 仓库使用统计、错误报告、审计跟 踪等) 。 ( 3 ) 汇总用的算法,包括度量和维定义算法,数据所处粒度、分割、主题 领域、聚集、汇总、预定义的查询与报告。 ( 4 ) 由操作环境到数据仓库的映射,包括源数据库和它们的内容、网间连 接程序描述、数据分割、数据提取、清理、转换规则和缺省、数据刷新和剪裁 规则、安全( 用户授权和存取控制等) 。 ( 5 ) 关于系统性能的数据,除刷新、更新和定时复制周期外,还包括改善 数据存取和检索性能的索引、配置等。 ( 6 ) 商务元数据包括商务术语和定义、数据拥有者信息和收费策略等。 2 4 5 数据仓库后端工具和实用程序 数据仓库使用后端工具和实用程序来加载和刷新它的数据。这些工具和机 制包含以下功能: ( 1 ) 数据提取:从多个异种的外部数据源收集数据。 ( 2 ) 数据清理2 检测错误,可能时修改错误。 ( 3 ) 数据变换1 将数据转换成数据仓库格式。 ( 4 ) 装入:排序、综合、合并、计算视图、检查整体性,并建立索引和划分。 ( 5 ) 刷新:传播由数据源到数据仓库的更新。 2 5 从数据仓库到数据挖掘 数据仓库和数据集市已在广泛的应用领域使用。几乎每个行业的商务管理 人员都使用收集、集成、预处理和存储在数据仓库与数据集市中的数据,进行 数据分析和决策。 通常,数据仓库使用时间越长,它进化的越好。开始,数据仓库主要用于 1 6 弘瞳删l 华中科技大学硕士学位论文 产生报告和回答预先定义的查询。渐渐它用于分析汇总和细节的数据,结果以 报告和图标形式提供。稍后,数据仓库用于决策,进行多维分析和复杂的切片 和切块操作。最后,数据仓库可能用于知识发现,并使用数据挖掘工具进行决 策。 1 7 潼,瞅涵, 华中科技大学硕士学位论文 3 挖掘前的数据预处理过程 由于数据库和数据仓库中的数据量太大,其中必然存在不完整的、含噪声 的和不一致的数据。有些我们感兴趣的属性,以佛山电信的数据仓库为例,客 户所在地的区号、客户手机号码、通话时间等,由于理解错误、命名规则不一 致、所用的数据代码不一致、设备故障等原因并非总是输入正确。而高质量的 决策必然依赖于高质量的数据,因此首先必须进行数据预处理。通过数据预处 理可以检测数据异常、尽早调整数据、归约待分析数据等,从而改进数据的质 量,提高其后挖掘过程的精度和性能。数据预处理以下几种方法【5 】i6 】:数据清理、 数据集成和变换、数据归约。 3 1 数据清理 现实世界的数据一般是脏的、不完整的和不一致的。数据清理主要用于填 充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。 3 1 1 空缺值 对于数据仓库中的空缺值,我们一般采取如下几种方法: ( 1 ) 忽略元组:当类标号缺少时通常这样做( 假定挖掘任务涉及分类和描 述) 。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值 的百分比变化很大时,它的性能非常差。我们在将数据导入数据仓库( p h o n e s ) 的过程中,曾经出现过事实表数据整行为空的情况,这种情况下一般采取忽略 元组的办法。 ( 2 ) 人工填写空缺值:该方法很费时,特别当数据集很大、缺少值很多时, 此方法一般行不通。在我们所建的数据仓库p h o n e s 中,每月事实表的数据量一 般在四千多万条左右,显然,人工填写空缺值几乎是不现实的。 ( 3 ) 使用一个全局常量填充空缺值:将空缺值的属性用同一个常 华中科技大学硕士学位论文 “u n k n o 、1 1 ”或一0 0 ) 替换。如果空缺值都用“u n k n o w n ”替换,挖掘程序可能 误以为它们形成了一个有趣的概念,因为它们都具有相同的值一“u n k n o w n ”。 因此一般情况下不使用此方法。 ( 4 ) 使用属性的平均值填充空缺值:比如用户每次平均移动话费为l 元, 则可以用该值替换事实表中m b l m n y ( 移动话费) 的空缺值。 ( 5 ) 使用与给定元组属同一类的所有样本的平均值:比如在数据仓库 ( p h o n e s ) 中,我们将用户按k i n d 分类,则一般就用同类用户的平均通话时长 替换事实表p h n f l u x ( 通话时长) 的空缺值。 ( 6 ) 使用最可能的值填充空缺值:可以用回归、基于推导的使用贝叶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论