




已阅读5页,还剩76页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库技术在crm中的应用与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
心川大学硕士论文r 6 54 7 2 7 数据仓库技术在c r m 中的应用与研究 计算机软件与理论专业 研究生:胡常忠指导教师:张洪伟教授 数据仓库技术是当前计算机领域的一个热门话题,它立足于数据分析,将数据 的操作环境与分析环境做了分离,并提供了先进的数据分析方法:c r m 是继e r p 之后,企业信息化建设领域中的又一个亮点,它着眼于企业最宝贵的资源即客 户提供先进的管理方案,并充分贯彻以客户为中心的企业管理理念。本文对这 两种技术进行了介绍,针对二者所面临的问题,提出了将数据仓库技术应用于 c r m ,并且将数据挖掘建立在o l a p 联机数据分析以及与其对应的多维数据库之 上的观点,并在实际开发中进行了具体的应用,文中对此有详细介绍。 数据仓库系统中的主要技术包括数据仓库、o l a p 联机数据分析以及数据挖 掘,以这三种技术为基础构成了完备的数据仓库解决方案,文中给出了这种解 决方案的基本系统结构。c r m 是一种企业信息化解决方案,它包含多种功能,可 以分为协作型c r m 、操作型c r m 和分析型c r m 。 文中对数据仓库技术在c r m 中的应用进行了详细的讨论,其中包括,数据 仓库在c r m 中应用、o l a p 联机数据分析在c p n 中的应用以及数据挖掘在c r m 中 的应用。同时,还探讨了三者如何在c r f l 应用中相互配合,特别是将数据挖掘 建立在o l a p 和其对应的多维数据库之上。另外,本文针对国内某大企业的具体 应用,对基于数据仓库技术的分析型c r m 进行了具体设计。在我们的解决方案 中充分利用了数据仓库技术,整个分析系统以数据仓库为基础,采用o l a p 与数 据挖掘分析技术,并将数据挖掘分析建立在o l a p 及其对应的多维数据库之上。 文中探讨了数据仓库的建模方法,o l a p 联机数据分析的模型设计、数据挖掘的 模型设计以及c i 分析处理的模块化设计。最后,本文对我们所提供的解决方 案的实现环境做了简单介绍,并给出了一个基于数据仓库和o l a p 进行数据挖掘 的实例,即客户分类分析。 本文所介绍的数据仓库技术在c r m 中的应用,来自于实践,具有一定的现 实意义,同时作者在应用过程中进行了较多的思考与研究,其应用和研究具有 一定的理论意义。 关键词:数据仓库;联机数据分析;数据挖掘;客户关系管理 四川大学顿士论文 t h ea p p l i c a t i o na n dr e s e a r c ho fd a t a w a r e h o u s et e c h n o l o g yi nc r m c o m p u t e rs o f t w a r ea n dt h e o r y p o s t g r a d u a t e :c h a n g z h o n gh us u p e r v is o t :p r o f h o n g w e iz h a n g n o w a d a y s ,d a t aw a r e h o u s et e c h n o l o g yh a sb e e nah o tt o p i ci ac o m p u t e r s c i e n c ef i e l d i ts p e c i a l i z e si nd a t aa n a l y s i s ,a n ds e p a r a t e st h ed a t a a n a l y s i s e n v i r o n m e n tf r o mt r a n s a c t i o ne n v ir o n m e n t i na d d i t i o n ,i t s u p p l i e sa d v a n c e dd a t aa n a l y s i sm e t h o d s a tt h es a m et i m e ,c r mh a sb e e n a n o t h e r l i g h ts p o tf o l l o w i n g e r pi nt h ef i e l do f e n t e r p r i s e i t c o n s t r u c t i o n i tf o c u s e so ns u p p l y i n gs o l u t i o nf o rt h em a n a g e m e n to f c u s t o m e rw h oi st h em o s ti m p o r t a n tr e s o u r c eo fe n t e r p r i s et o d a y t h i s a r t i c l ei n t r o d u o e sb o t ho ft h e m ,a n db r i n g sf o r w a r di d e a sw h i c ha r eu s e d i np r a c t i c ea n da r ed i s c u s s e di nd e t a i li nt h ea r t i e l eo fa p p l y i n gt h e d a t aw a r e h o u s et e c h n o l o g yt oc r ma n di m p l e m e n t i n gd a t am i n i n gb a s e do n o l a pa n di t sc o r r e s p o n d i n gm u l t i d i m e n s i o n a ld a t a b a s e ,a n dw ed e s i g na n d i m p l e m e n t a n a n a l y t i c a l c r ms y s t e mb a s e do nd a t aw a r e h o u s et e c h n o l o g y f o l l o w i n g t h ei d e a t h em a i n t e c h n o l o g i e s i nd a t aw a r e h o u s e s y s t e m i n c l u d ed a t a w a r e h o u s e ,d a t am i n i n ga n do l a p ,a n daw h o l ed a t aw a r e h o u s es o l u t i o ni s b u i i tb a s e do nt h e mw h o s ea r e h i t e c t u r ei ss h o w ni nt h ea r t i c l e c r mi s a ne n t e r p r i s ei ts o l u t i o n ,a n di ti n c l u d e sm a n yf u n e t i o n s c r mc a nb e c l a s s i f i e da sc o o p e r a t i o nc r m ,t r a n s a c t i o nc r ha n da n a ly t i c a l c r mb y f u n c t i o n 四j i i 大学硕士论文 t h ea r t i c l em a k e sp a r t i c u l a rd i s c u s s i o no ft h ea p p l i c a t i o no fd a t a w a r e h o u s et e c h n o l o g yi nc r mw h i c hi n c l u d e st h ea p p l i c a t i o n so fd a t a w a r e h o u s e ,o l a pa n dd a t am i n i n g a tt h e s a m et i m e ,i te m p h a s i z e st h e c o o p e r a t i o no ft h et h r e e k i n d so ft e c h n o l o g y a n di m p l e m e n t i n gd a t am i n i n g b a s e do no l a pa n di t s c o r r e s p o n d i n g m u l t i d i m e n s i o n a ld a t a b a s e i n a d d i t i o n ,w ed e s i g na na n a l y t i c a lc r mb a s e do nd a t aw a r e h o u s es y s t e mf o r ah u g eh o m ee n t e r p r i s e i nt h es o l u t i o n ,w em a k ew e l lu s eo ft h ed a t a w a r e h o u s et e c h n o l o g i e s t h ew h o l es y s t e mi sb a s e do nd a t aw a r e h o u s ea n d a d o p t sa d v a n c e dd a t am i n i n ga n do l a pt e c h n i q u e s ,a n dt h ei m p l e m e n t o f d a t am i n i n gi sb a s e do no l a pa n di t sc o r r e s p o n d i n gm u l t i d i m e n s i o n a l d a t a b a s e t h ea r t i c l ed i s c u s s e st h em o d e l i n gm e t h o d so fd a t aw a r e h o u s e , o l a pa n dd a t am i n i n g ,a n dt h em o d u l a r i z a t i o no fa n a l y t i c a lc r h a tt h e l a s tp a r to ft h ea r t i c l e ,i ti n t r o d u c e st h er e a l i z a t i o ne n v i r o n m e n ti n b r i e f ,a n dg i v e sa ne x a m p l eo fc u s t o m e rc l a s s i f i c a t i o na n a l y s i si nw h i c h i m p l e m e n t sd a t am i n i n g b a s e do nd a t aw a r e h o u s ea n do l a p t h ei d e ao fa p p l y i n gd a t aw a r e h o u s et e c h n o l o g y t oc r mc o m e sf r o m p r a c t ic e s oi tisf e a s i b l e a tt h es a m eti m e ,t h e r e ism u c ht h e o r y t h i n k i n ga n dr e s e a r c ha b o u ti t ,a n dt h ea p p l i c a t i o na n dr e s e a r c h h a s c e r t a i nt h e o r ym e a n i n g k e yw o r d s :d a t aw a r e h o u s e :o l a p ;d a t am i n i n g :c r m 数据仓库技术在c r m 中的应用与研究 1 引言 1 1 课题背景 随着数据库技术与互联网的应用与发展,人类已经进入了“数据大爆炸” 时代,面对如此众多的数据,如何不被这些数据所淹没,如何对数据进行充分 利用,使数据能够完成从数据到信息,再到知识的转化,成为业界普遍关心的 问题,于是数据仓库技术应运而生。另一方面,在企业管理领域,继e r p 之后, 又一个概念进入了人们的视野,它就是c r m 。c r m 不仅是一套企业信息化解决方 案,更是一种全新的以客户为中心的管理理念,这种理念已深入人心,今天“客 户就是上帝”不仅仅是一个口号,更是关系到企业成败的关键。 数据仓库技术是随着o l a p 联机数据分析技术与数据挖掘技术的发展而逐 渐发展成为一种完备的技术体系,从而为企业应用提供从数据的集成、分析以 及决策支持等一体化的解决方案。数据仓库概念始于本世纪8 0 年代中期,首次 出现是在“数据仓库之父”w i l l i a mh i n m o n 的建立数据仓库一书中。数 据仓库是整个数据仓库技术体系的基础设施部分,它通过数据的抽取、转化、 集成以及数据的存储与追加向上层分析功能提供统一的、具有不同的综合层次 的以及随时间变化的海量基础数据平台。数据仓库并没有严格的数学理论基础, 也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。数据仓库技术 中最主要的两种分析技术是o l a p 与数据挖掘。 2 0 世纪6 0 年代末,关系数据库之父e f c o d d 提出的关系数据库模型促进 了关系数据库和联机事务处理( o l t p ) 的发展。数据也不再以简单文件的形式 和应用程序捆绑在一起,而是单独分离出来以关系表的形式供多种应用程序共 享使用。o l a p 联机分析处理的概念是1 9 9 3 年提出的,e f c o d d 认为0 l t p 已不 能满足终端用户对数据库查询分析的需要,s q l 结构化数据库查询语言对大数 据库进行简单的查询也已经不能满足用户的分析需求,用户的决策分析往往需 要对关系数据库进行大量的分析才能得到结果,而查询的结果并不能满足决策 者的实际需求。因此e f c o d d 提出了多维数据库与多维分析的概念,即0 l a p 。 0 l a p 是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式 删川大学硕士论文 从多个维度、多种综合程度将系统的运营情况展现给使用者。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,它使数据 库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并 且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘是一个 逐渐演变的过程。从早期的机器学习,到知识工程、专家系统最终发展到数据 挖掘。数据挖掘是在8 0 年代末出现了一个新的术语,它又被称为数据库中的知 识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。它泛指所有从原数据 中发掘模式或联系的方法。从广义的观点来看,数据挖掘是从存放在数据库、 数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。 在数据仓库技术得到快速发展的同时,另一种技术,更是一种理念也深入 人们的生活,它就是c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) ,即客户关系 管理。从早期的帮助办公桌( h e l pd e s k ) 软件、接触管理( c o n t a c tm a n a g e m e n t ) 等应用系统到今天的客户关系管理( c r m ) ,其中经历了近十年的演变。美国 的服务质量一直是其引以为豪的东西,但形成以客户为中心的软件服务系统, 则像是在拼一幅拼图,通过近十年的时间,才得出一个完整的客户关系管理 ( c r m ) 图像。如今c r m 已经有了较为完善的协作处理和业务流程处理功能。 通过不断的发展,今天数据仓库技术已经形成了较为全面的理论体系: c r m 已经能够提供较为完善的协作处理与业务流程处理功能,其理念也被人们 所接受。但两者都面临着需要解决的问题,数据仓库技术的应用依然没有得到 大范围的推广,人们往往对它缺少信心或敬而远之;c r m 的分析能力依然很弱, 与人们的期望相差很远。鉴于两者的内在特性,以及两者所面临的需要解决的 问题,本人结合实践与研究提出了将数据仓库技术应用于c r m 的观点。 1 2 本课题的研究意义 在当前,一方面数据仓库技术理论得到了快速的发展,已形成了较为完善 的理论体系,但其应用却难以得到大范围的推广,特别是在国内,即使是在国 外,其应用也仅局限在少数大公司;另一方面,c r m 的观念虽然已深入人心, 已经实现基本的业务与协作处理功能,但其效果却与人们的期望相差很远,其 数据仓库技术在c r m 中的应用与聊f 究 中的主要原因是分析能力的不足。因此,本文提出了将数据仓库技术应用于c r m 的观点,并对此进行详细的探讨,这是具有显著的现实意义的。本文不但探讨 各种数据仓库技术在c r m 中的应用,而且研究使这些具体的技术相互配合,以 便在c r m 的应用中形成巨大的合力。 1 3 本文所做的工作 本文基于实践,研究了将先进的数据仓库技术应用于c r m 的相关方法,具 体说来,本文做了如下工作: 夺对数据仓库技术做了较为全面的论述; 夺分析了c r m 体系结构,并根据其在企业中的不同应用进行了具体划分, 介绍了各类c r m 在企业信息自动化中所担负的作用; 夺对各种数据仓库技术在c r m 中的应用进行了具体的探讨,同时介绍了将 数据挖掘建立在o l a p 及与其对应的多维数据库之上的观点; 令针对国内某大企业的具体应用,对基于数据仓库技术的分析型c r m 进行 了具体设计; 夺根据实际应用探讨了数据仓库的建模方法,o l a p 联机数据分析的模型 设计以及数据挖掘的模型设计。并探讨了将o l a p 与数据挖掘配合使用 的方式; 夺本文最后对实现工作,进行了介绍。 1 4 本文的组织结构 本文主要对数据仓库技术在c r m 中的应用进行了研究,并给出了基于数据 仓库系统的分析型c r m 的设计过程。论文的组织结构如下: 第一章,( 即本章) 介绍了课题的背景、课题研究的意义、本文所做的工作 以及本文的组织结构。 第二章,论述了数据仓库技术,包括数据仓库、o l a p 联机数据分析技术、 数据挖掘技术,以及数据仓库系统的总体结构。 3 四川大学硕上论文 第三章,对c r m 的定义、发展历程、生命周期以及现代营销理论等进行了 具体介绍,分析了c r m 的功能结构,并进行了分类。 第四章,针对数据仓库技术应用方面的不足和c r m 分析功能方面的不足, 探讨了将数据仓库技术应用于c r m 中的具体方式。 第五章,首先提出了基于数据仓库系统的分析型c r m 的三层体系结构,然 后对其中的主要部分的设计进行了详细介绍。 第六章,简要介绍了一些相关的实现技术。 第七章,对全文进行了总结,并提出了尚待研究的问题。 2 数据仓库技术介绍 随着计算机应用与网络计算的发展,“计算”正在向两个方向发展:一个是 广度计算,另一个是深度计算。广度计算是指计算机的应用范围;深度是指“计 算”的智能化水平。如今,人们对计算机的深度计算提出了更高的要求,希望 它能够更多地参与数据分析与辅助决策的工作。然而传统的数据库技术是单一 的数据库资源,它适合操作型事务处理,但对分析型事务处理能力较弱,特别 是当数据量增大时。因此,数据仓库及相关的先进的分析技术应运而生。数据 仓库技术的出现,将操作型与分析型环境做了分离,较好地满足了分析型事务 处理。 数据仓库技术以改进后的数据库技术作为存储数据和管理资源的基本手 段,以统计分析技术作为分析数据和提取信息的有效方法,通过人工智能、神 经网络、知识推理等数据挖掘技术来发现数据背后隐藏的规律,从而实现“数 据”到“信息”再到“知识”这一转换过程,给用户提供各种层次的决策支持。 数据仓库技术主要包括数据仓库、o l a p 联机数据分析和数据挖掘三种技术, 它们是整个数据仓库系统的基本组成部分。在介绍具体技术之前需要区分两个 概念,即数据仓库与数据仓库系统,前者是一个分析型数据的存储实体以及与 其相关的一些基本概念,后者是一个完整的系统,它包括数据仓库、数据挖掘、 o l a p 以及其它一些相关的概念。下面对这些关键技术具体介绍。 4 数据仓库技术存c r m 中的应用与研究 2 1 数据仓库 2 1 1 数据仓库定义 数据仓库是数据仓库系统的基本单元,它的主要用途是用于存放整合后的 数据。它的具体定义可表述为:数据仓库是一个面向主题的、集成的、相对稳 定的、反映历史变化的数据集合,用于支持管理决策【2 1 。根据这个定义,数据 仓库拥有以下四个特点: 1 ) 面向主题 操作型数据库的数据组织是面向事务处理任务的,各个业务系统之间各自 分离,而数据仓库中的数据是围绕一些主题进行组织,如顾客、供应商、产品 等。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点 方面,一个主题通常与多个操作型信息系统相关。 2 ) 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相 互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库中 的数据进行抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的、一致的全 局信息。 3 ) 相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据 仓库的数据主要供企业决策分析用,所涉及的数据操作主要是数据查询,一旦 某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一 般有大量的查询操作,但修改和删除操作却很少,通常只需要定期的加载、刷 新。 4 ) 反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据 通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的 时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未 来趋势做出定量分析和预测。 四川大学硕士论文 总之,数据仓库存放的是整个企业的信息,并且是按照不同的主题来组织 的,它在面向分析的系统中处于基础的地位,是各种数据分析与数据挖掘的数 据源,在整个数据仓库系统的构造中处于关键地位。数据仓库中的数据主要是 从不同的业务数据库中提取并经过清洗、转化以及集成等处理操作而得到的。 2 1 2 数据库与数据仓库的区别 从本质上说两者的区另日在于它们所存放的数据,传统的数据库主要用于企 业的日常事务处理,存放在其中的数据基本上符合操作型数据;数据仓库主要 用于数据分析,存放在其中的数据基本上符合分析型数据。操作型数据与分析 型数据具有许多明显不同的特征,两者的区别也从根本上体现了事务处理与分 析处理的差异,w h i n m o n 在b u i i d i n gt h ed a t aw a r e h o u s e ) ) 书中列举了 操作型数据与分析型数据的差异,如表2 - 1 所示。 表2 1操作型数据与分析行数据的区别 操作型数据的特点分析型数据的特点 细节的综合的、经过提炼的 在存储的瞬间是准确的代表过去的数据 可更新不更新 操作需求通常事先可知分析需求通常事先不知道 生命周期符合s d l c生命周期不同于s d l c 对性能( 如操作时延) 要求较高对性能的要求较宽 一个时刻操作一个数据单元一个时刻操作一个数据集合 事务驱动分析驱动 面向应用面向分析 一次操作数据量少一次操作数据量较大 支持日常操作需求支持管理需求 6 数据仓库技术在c r m 中的应用与研究 2 1 3 数据仓库中的基本概念 1 ) 数据提取( d a t ae x t r a c t i o n ) 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所 需要的,我们只关心与分析相关的部分而与分析无关的则不需要导入数据仓库。 通常,数据仓库是按照分析的主题来组织数据的,只需要提取出与分析主题相 关的那一部分数据。 2 ) 数据清洗( d a t ac l e a n j n g ) 数据仓库往往需要从不同的业务数据库中抽取数据,这些业务数据库中的 数据往往存在重复和不一致的现象。所谓清洗,就是将错误的、不一致的数据 在进入数据仓库之前予以更正或删除,以免影响分析结果的正确性。 3 ) 数据转化 由于业务数据库可能采用不同数据库厂商的产品,如s y b a s e ,o r a c l e ,m s s q ls e r v e r 等,各种数据库产品提供的数据类型可能不同,因此在提取时需要 进行转化操作,将不同格式的数据转化为统一格式的数据。 4 ) 数据仓库存储( d a t ar e p o si t o r y ) 数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。数据的存 储方式主要有三种:多维数据库、关系型数据库以及这两者的结合。 5 ) 元数据 数据是对事物的描述,而“元数据”是对数据的描述,它提供了有关数据 的存放环境。数据仓库的元数据主要包括两类数据:第一类是为了从操作型环 境向数据仓库环境转换而建立的数据,它包括所有源数据项的名称、属性及其 在提取仓库中的转化;第二种元数据在数据仓库中是用来与最终用户和多维商 业模型的前端工具之间建立映射的,这种数据成为决策支持系统的元数据,它 包括:数据仓库中信息的种类、存储位置以及存储格式;信息之间的关系、信 息和业务的关系以及数据使用的业务规则;数据模型;数据模型和数据仓库之 间的关系。 2 1 ,4 数据仓库中的数据组织 四j i l 大学硕上论文 数据仓库中的数据组织主要包括数据仓库的数据组织结构、数据颗粒度、 数据的分害4 以及数据仓库的数据组织形式。它们是构建数据仓库时必须考虑的 主要因素,以下分别介绍。 一个典型的数据仓库的数据组织结构如下图所示: 图2 1 :数据仓库的数据组织结构图 在数据仓库中,数据被分成四种级别,分别是高度综合级、轻度综合级、 当前细节级和早期细节级。当前的数据总是首先进入当前细节级,然后根据应 用的需求,通过预运算将数据聚合成轻度综合级和高度综合级。而随着时间的 推移,系统中的一些细节老化了,很少会被用户使用,此时为了节省系统的存 储空间可以将这些细节数据导出到备份设备上,从而成为早期数据。在数据仓 库中有两个重要的概念:数据颗粒度与分割。 数据颗粒度有两种含义,个是针对联机分析处理的,另一个是针对数据 挖掘的。第一种数据颗粒度是数据仓库中对数据综合程度的一个度量,它是用 于o l a p 联机数据分析的:第= 种数据颗粒度是抽样率,即以一定的抽样率对数 据仓库中的数据进行抽样后得到一个样本集合,数据挖掘就在这个集合上进行, 它是针对数据挖掘的。 8 数据仓库技术在c r m 中的应用与研究 数据的分割是数据仓库中的又一重要的概念。所谓数据分割是指将数据分 散到各自的实体中,以便能够独立处理,提高数据处理的效率,数据分割后的 单元成为分片。数据分割没有固定的标准,分割的方法和粒度应该根据实际情 况来确定,分割的方法常常可以根据时间、地点、业务领域等来具体划分。 在数据仓库的发展过程中,出现了不同的数据组织形式,如简单堆文件、 定期综合文件、连续文件等。 2 1 5 总结 数据仓库是一种复杂的技术,它是从关系数据库中发展而来的,但有很多 新的特点和复杂的技术。与数据仓库有关的技术还有数据仓库中数据的追加、 数据的清除等,在此不一一进行介绍。 2 2o l a p 技术 0 l a p 联机分析处理的概念是在1 9 9 3 年由e f c o d d 提出的,他认为0 l t p 已不能满足终端用户对数据库查询分析的需要,s q l 对大型数据库进行的简单 查询也已经不能满足用户分析的需求,用户的决策分析需要对关系数据库进行 大量的计算才能得到结果,而查询的结果与效率并不能满足用户的需求。因此 e f c o d d 提出了o l a p 的概念。 2 2 1o l a p 的定义 o l a p 是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的 方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。0 l a p 的 目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术 核心是“维”这个概念。 9 四川大学硕士论文 2 2 2o l p 中的基本概念 以下是o l a p 中的基本概念: 1 ) 维 如上文所提到的,维是o l a p 中的核心概念。抽象地说,维是与某一事件相 关的因素在关系模型中的抽象。也可认为是人们观察客观世界的角度,是一种 高层次的类型划分。具体来说,维是关于一个组织想要记录的透视或实体。每 一个维都有一个表与之相关联,该表称为维表。 维一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体 的多项重要的属性定义为多个维( d i m e n s i o n ) ,使用户能对不同维上的数据进行 比较。因此o l a p 也可以说是多维数据分析工具的集合。另一方面可以在维上进 行取值,也可以对维进行分类。维的取值也称为维的成员,而维的分类是按照 一定的划分标准对维的所有取值集合进行类别划分。 2 ) 事实 事实是不同维度在某一取值下的交叉点,它是对事件的度量。通常多维数 据模型是围绕主题来组织,该主题用事实表来表示。事实是用数值进行度量的, 事实表包括事实的名称、度量以及与每个维相关的关键字 3 ) 多维数据立方体 是由维划分出来的一个实体对象,它代表了一类数据集合中的一个子集, 在数学上多维数据立方体可以对应一个多维数组。 2 2 ,3o l a p 中的基本分析操作 o l a p 的基本分析操作有数据钻取、数据切片和切块、数据旋转以及数据聚 合等。 1 ) 数据钻取 数据钻取是通过改变维的层次,变换分析的粒度来观察、分析数据的一种 方法。它通过从较高的维度层次下降到较低的维度层次来观察数据。 2 ) 数据切片和切块 1 0 数据仓库技术在c r m 中的应用与研究 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。 如果剩余的维只有两个,则是切片;如果多于两个,则是切块。 3 ) 数据旋转 数据旋转是指变换维的方向,即在表格中重新安排维的放置( 例如行列互 换) 。 4 ) 数据聚合 数据聚合实际上是钻取的逆向操作,是对数据进行高层次的综合操作,也 可以称之为上钻。 2 2 4o l a p 的体系结构与实现方法 o l a p 的体系结构通常采用三层客户服务器结构如图2 2 所示。第一层是 数据仓库服务器,它实现与基层运营的业务数据库系统进行连接,完成企业级 数据一致、数据共享以及数据集成的工作:第二层是o l a p 服务器,它根据最终 用户的请求实现o l a p 联机数据分析的各种分析动作,并使用数据仓库中的数据 完成这些分析动作:第三层是前端的展现工具,用于将o l a p 的处理结果以直观 的形式展现给用户。提供o l a p 服务器的工具很多,通常根据存储数据的方式不 同可以分为r o l a p 、m o l a p 、h o l a p 。 巨三l 图2 - 2 :o l a p 的三层结构图 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) ,即以关系数 据库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库 的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类 是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信 四川i 大学硕士论文 息。维表和事实表通过主关键字和外关键字联系在一起。形成了“星型模式”。 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来 描述,这种星型模式的扩展称为“雪花型模式”。 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。它 以多维数据组织方式为核心,也就是说,m o l a p 使用多维数组存储数据。多维 数据在存储中将形成“立方块( c u b e ) ”的结构,在m o l a p 中对”立方块”的“旋 转”、“切块”以及“切片”是产生多维数据报表的主要技术。 h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系 型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实 现o l a p 服务器的方法,如提供一个专用的s o ls e r v e r ,对某些存储模式( 如 星型、雪片型) 提供对s q l 查询的特殊支持。 根据综合性数据的组织方式的不同,目前常见的o l a p 主要有基于多维数据 库的m o l a p 及基于关系数据库的r o l a p 两种。m o l a p 是以多维的方式组织和存 储数据,r o l a p 则利用现有的关系数据库技术来模拟多维数据。在数据仓库应 用中,o l a p 应用一般是数据仓库应用的前端工具,同时o l a p 工具还可以同数 据挖掘工具、统计分析工具配合使用,增强决策分析功能 2 3 数据挖掘技术 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变 着整个人类和社会,大量信息在给人们带来方便的同时也带来了一大堆问题: 第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以 保证:第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号: “要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时 地发现有用的知识、提高信息利用率? ”面对这一挑战,数据开采和知识发现 ( d m k d ) 技术应运而生,并显示出强大的生命力。 另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望 能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统 1 2 数据仓库技术在c r m 中的应用与研究 可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关 系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏 的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 所有这些都促进了数据挖掘这一技术的产生与发展,如今数据挖掘已经逐 渐获得了巨大的商业利益,并不断完善和发展。 2 3 1 数据挖掘的演变过程 数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图 通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器 学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机 器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们 可以解决某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意 力转向知识工程,知识工程不像机器学习那样给计算机输入范例,让它生成出 规则,而是直接给计算机输入已被代码化的规则,计算机是通过使用这些规则 来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果 不很理想等缺点。8 0 年代人们又在新的神经网络理论的指导下,重新回到机器 学习的方法上,并将其成果应用于处理大型商业数据库。随后,在8 0 年代末一 个新的术语,它就是数据库中的知识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) ,也就是我们通常所说的广义上的数据挖掘,最近人们却逐渐开始使 用数据挖掘,其中有许多工作可以由统计方法来完成,并认为最好的策略是将 统计方法与数据挖掘有机的结合起来。 另一方面,数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的 发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的 先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息 2 3 2 数据挖掘的定义 匹| 川大学硕士论文 目前,对数据挖掘的定义已经达成了广泛的共识,我们在此从技术和商业 角度给出其定义。 从技术上来说,数据挖掘( d a t am i n i n g ,简称d m ) ,又称为数据库中的知 识发现( k d d ) ,它是一个从大量数据中抽取、挖掘出未知的、有价值的模式或 规律等知识的复杂过程。这个定义包括好几层含义:数据源必须是真实的、大 量的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。所谓知识,从广 义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、 规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采 矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是 半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的,也可以是非数学的:可以是演绎的,也可以是 归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等, 还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数 据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在 这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到 数据挖掘这一新兴的研究领域,形成新的技术热点。这里所说的知识发现,不 是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯 数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的, 是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。 最好能用自然语言表达所发现的结果。 从商业角度来看,数据挖掘可以描述为:按企业既定业务目标,对大量的 企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一 步将其模型化的先进有效的方法。数据挖掘是一种新的商业信息处理技术,其 主要特点是,首先对商业数据库中的大量业务数据进行抽取、转换和集成( 或 直接从数据仓库中进行数据的提取) ,然后进行分析和其他模型化处理,以便从 中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的 数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和 1 4 数据仓库技术在c r m 中的应用b 研究 分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进 行分析的复杂数据分析方法受到很大限制。当前,由于各行业业务自动化的实 现,商业领域产生了大量的业务数据,这些数据不是为了分析的目的而收集的, 而是由于纯随机的商业运作而产生。分析这些数据也不再是单纯为了研究的需 要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业 面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少, 因此从大量的数据中经过深层次分析,获得有利于商业运作、提高竞争力的信 息,就像从矿石中淘金一样,数据挖掘也因此而得名。 2 3 3 数据挖掘的技术基础 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种 商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访 问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高 级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之 间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可 以投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是: 夺海量数据搜集 夺强大的多处理器计算机 夺数据挖掘算法 f r i e d m a n 1 9 9 7 列举了四个主要的技术理由激发了数据挖掘的开发、应用和研 究的兴趣: 夺超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记 录: 先进的计算机技术,例如更快和更大的计算能力和并行体系结构; 夺对海量数据的快速访问; 夺对这些数据应用精深的统计方法进行计算的能力。 商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应 用于各种行业;对计算机硬件性能越来越高的要求,也可以用现在已经成熟的 四川大学硕士论文 并行多处理机的技术来满足:另外数据挖掘算法经过了这1 0 多年的发展也已经 成为一种成熟,稳定,且易于理解和操作的技术。 2 3 4 基本的数据挖掘方法 从广义上看,数据分析可分成o l a p 与数据挖掘分析。在数据挖掘分析中 可分为描述性分析与预测性分析。 2 3 4 1 描述性分析 描述性分析用于了解系统实际数据的存放特性,其目的是为预测做准备, 也可以作为有用的信息显示给用户。描述性分析包含了关联分析、聚类分析、 序列模型分析等方法。 1 ) 关联分析 所谓关联分析是发现事物之间有意义的联系和规则。数据关联是数据库中 存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规 律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的 目的是我出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数, 即使知道也是不确定的,因此关联分析生成的规则带有可信度。 2 ) 聚类分析 聚类分析是在事先不规定分组规则的情况下,将数据按照其自身特性划分 成不同的分组。聚类增强了人们对客观事实的认识程度,是概念描述和偏差分 析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。8 0 年代 初,m c h a l s k i 提出了概念聚类技术级及其要点是,在划分对象时不仅考虑对象 之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某 些片面性。聚类技术试图找出数据集合中的共性和差异,并将具有共性的元组 聚合在相应的类中。聚类技术可以根据数据之间的差异将它们分组。从分组的 图表中我们可以获得数据集中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能化阀岛企业县域市场拓展与下沉战略研究报告
- 加热嵌板企业ESG实践与创新战略研究报告
- 中铁局合同样本
- 变换炉企业数字化转型与智慧升级战略研究报告
- 单胶微波连续硫化生产线企业县域市场拓展与下沉战略研究报告
- 2025年CTD剖面仪项目建议书
- 节庆庆典用气球企业ESG实践与创新战略研究报告
- 功能陶瓷企业县域市场拓展与下沉战略研究报告
- 切菜机购销合同标准文本
- 2025届浙江省温州市第五十一中高三下学期第五次调研考试物理试题含解析
- 山东省威海市文登区城区重点初中联考2023-2024学年七年级下学期5月期中数学试题【含答案解析】
- 2024年1月浙江省普通高校招生选考物理试题和答案
- DL∕T 619-2012 水电厂自动化元件(装置)及其系统运行维护与检修试验规程
- 新版工贸企业重大事故隐患-题库
- 内蒙古建筑图集 DBJ-T 03-76-2018 自保温砌块建筑构造图集
- 企业规范化管理与标准化建设
- 物流营销与客户关系 习题答案 张广敬
- CHT 8023-2011 机载激光雷达数据处理技术规范
- 河北省唐山市路北区2023-2024学年八年级下学期4月期中物理试题
- 2024届高中语文高考作文资料及素材系列
- 幼儿园中班韵律《阿凡提寻宝记》课件
评论
0/150
提交评论