(信号与信息处理专业论文)关联分析及其在移动通信行业中的应用研究.pdf_第1页
(信号与信息处理专业论文)关联分析及其在移动通信行业中的应用研究.pdf_第2页
(信号与信息处理专业论文)关联分析及其在移动通信行业中的应用研究.pdf_第3页
(信号与信息处理专业论文)关联分析及其在移动通信行业中的应用研究.pdf_第4页
(信号与信息处理专业论文)关联分析及其在移动通信行业中的应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关联分析及其在移动通信行业中的应用研究 摘要 数据挖掘是指从数据库中发现隐含的、新颖的、有用的信息的过程,关联分 析是数据挖掘的主要技术手段之一,至今已在理论和方法上取得了丰硕的研究成 果。随着移动通信市场竞争的不断加剧和市场的日益饱和,移动通信企业的市场 营销逐步由过去的产品中心论演变为客户中心论。以客户为中心、深入了解客户、 引导客户、留住客户、提升现有客户的价值、提高客户的满意度、降低客户的流 失率是提高移动通信企业利润的主要方法;而交叉销售则是提升现有客户价值进 而提高企业利润的重要途径。本文针对移动通信企业的交叉销售需求,研究和提 出了一种基于项目约束的频繁模式挖掘算法和一种优化的基于项目约束的关联规 则产生算法,在此基础上建立了移动通信企业的交叉销售模型,提出了基于交叉 销售的市场营销方法。所做工作归纳如下: 1 介绍了数据仓库和数据挖掘技术,详细论述了数据挖掘中的关联分析,总 结了关联分析的方法、特点和分类,重点讨论和研究了a p r i o r i 挖掘算法、基于 f p t r e e 的f p g r o w t h 挖掘算法等目前常用的关联分析算法,并详细分析了它们 的优缺点。 2 a p r i o r i 算法以及f p g r o w t h 算法虽然能够挖掘出数据库中隐含的所有频 繁模式,但应用于移动通信企业海量数据的挖掘时运算量太大。因此,如何节省 时间开销是频繁模式挖掘算法要解决的一个主要问题。解决这一问题的一种思路 是:在移动通信企业的业务交叉销售中,通常只需要挖掘与某种特定业务或项目 有关的频繁模式,而不必挖掘出数据中隐含的全部频繁模式。遗憾的是:对于这 种具有特定导向性的频繁模式挖掘,目前常用的a p r i o r i 挖掘算法以及f p g r o w t h 挖掘算法不是优化的,必须研究和采用新的挖掘算法。基于上述分析,本文提出 了一种基于项目约束的频繁模式树i c f p t r e e ( i t e m s c o n s t r a i n tf r e q u e n t p a t t e r n t r e e ) 和直接在此树上挖掘所需频繁模式的新算法i c f p m i n e ( i t e m s c o n s t r a i n tf r e q u e n tp a t t e r n m i n e ) 。i c f p t r e e 用来压缩存放所有包含约束项 目的事务的相关信息;i c f p m i n e 算法通过调整i c f p t r e e 的相关节点信息直接 在i c f p t r e e 上采用深度优先的策略挖掘所需频繁模式,而不需要任何其它附加 的数据结构,每次挖掘只需i c f p t r e e 的一棵子树即可,既有效地节省了存储空 间又大大提高了挖掘效率。理论分析和实验结果表明,i c f p m i n e 算法在内存占 用和时间开销等方面比a p r i o r i 算法和f p g r o w t h 算法更优越。此外,本文还在常 规的由频繁项集产生关联规则的方法中引入了项目约束,提出了一种优化的基于 项目约束的关联规则产生算法。 i i 硕士学位论文 3 论述了交叉销售的基本理论、方法和步骤,研究了基于项目约束的、改进 的关联分析算法在移动通信企业业务交叉销售领域中的应用,建立了移动通信企 业的业务交叉销售模型,并对该模型的实际运用结果进行了详细的讨论和分析。 关键词:数据挖掘;关联分析;频繁模式;交叉销售 i i i a b s t r a c t d a t a m i n i n g i st h e p r o c e d u r e o f e x t r a c t i n g o f i m p l i c i t ,o r i g i n a l ,u s e f u l k n o w l e d g ei nt h ed a t a b a s e a s s o c i a t i o na n a l y s i si so n eo ft h em a i nt e c h n 0 1 0 9 yi nt h e r e 8 e a r c ho nd a t am i n i n ga m o n gam a s so ft h e o r i e s a n dm e t h o d sa c h i e v e d w i t ht h e s e v e r ec o m p e t i t i o na n dm a r k e ts a t u r a t i o ni nm o b i l et e l e c o m m u n i c a t i o n ,t h em o b i l e t e i e c o m m u n i c a t i o n e n t e r p r i s e s m a r k e t i n gt r a n s f e r sg r a d u a l l yf r o mt h ep r e v i o u s p r o d u c t s 。c e n t e r e di n t ot h ec u s t o m e r c e n t e r e d t h em a i nm e t h o do fi m p r o v i n gt h e p r o f i t so fm o b i l et e l e c o m m u n i c a t i o ne n t e r p r i s ei st ou n d e r s t a n dc a s t o m e r si n - d e p t h , g u i d ec u s t o m e r s ,r e t a i nc u s t o m e r s ,e n h a n c et h ev a l u eo f e x i s t i n gc u s t o m e r s ,i m p r o v e c u s t o m e r s s a t i s f a c t i o na n dl o w e r c u s t o m e r s l o s s r a t e c r o s s s e l l i n g i st h e i m p o r t a n tw a yo fe n h a n c i n gt h ev a l u eo fe x i s t i n gc u s t o m e r s ,t h e r e b yi tc a ni n c r e a s e t h e e n t e r p r i s ep r o f i t s 。f o rt h en e e d so fm o b i l et e l e c o m m u n i c a t i o n e n t e r p r i s e s c r o s s 。s e l l i n g ,t h i sp a p e rs t u d i e sa n dp r o p o s e sa na l g o r i t h mf o rm i n i n g f r e q u e n t p a t t e mb a s e do ni t e m s 。c o n s t r a i n ta n da n o p t i m i z e da lg o r i t h mf o r g e n e r a t i n g a s s o c i a t i o nr u l e sb a s e do ni t e m s c o n s t r a i n t ,t h e ne s t a b l i s h e sa c r o s s s e l l i n gm o d e lf o r t h em o b i l et e l e c o m m u n i c a t i o ne n t e r p r i s ea n d p r o p o s e sm a r k e t i n gm e t h o d sb a s e do n c r o s s 。s e l l i n g 。t h er e s e a r c hi ss u m m a r i z e da sf o l l o w s : 1 t h et e c h n o l o g yo fd a t aw a r e h o u s ea n dd a t am i n i n gi si n t r o d u c e db r i e f l y ,a n d a s s o c i a t i o n a n a l y s i s i nd a t a m i n i n g i s d i s s e r t e d ,i n v o l v i n gt h em e t h o d s c h a r a c t e r i s t i c sa n ds o r t s o fa s s o c i a t i o n a n a l y s i s ,w i t he m p h a s i so nt h ec u r r e n t c o m m o n l ya s s o c i a t i o na n a l y s i sa l g o r i t h m s ,s u c ha sf p g r o w t hm i n i n ga l g o r i t h m b a s e do nf p - t r e ea n da p r i o r i m i n i n ga l g o r i t h m , a n dt h e i r a d v a n t a g e sa n d d i s a d v a n t a g e s 2 a p r i o r ia l g o r i t h ma n df p g r o w t ha l g o r i t h mc a nm i n ea l lf r e q u e n tp a t t e r n s w h i c hi m p l i e di nt h ed a t a b a s e ,b u tt h ec o m p u t a t i o ni st o om u c h w h e nf a c i n gw i t ht h e m a s s i v ed a t ai nm o b i l et e l e c o m m u n i c a t i o n e n t e r p r i s e t h e r e f o r e ,h o wt od e c r e a s e c o m p u t a t i o ni sam a j o rp r o b l e mo ff r e q u e n tp a t t e r nm i n i n ga l g o r i t h m s am e t h o dt o s o l v et h ep r o b l e mi s o n l yt om i n et h ef r e q u e n tp a t t e r n sw h i c ha r er e l a t e dt ot h e p a r t i c u l a rb u s i n e s so ri t e m ,r a t h e rt h a nm i n i n ga l lt h ef r e q u e n tp a t t e r n si m p l i e di nt h e d a t ai nt h em o b i l et e l e c o m m u n i c a t i o ne n t e r p r i s e c r o s s s e l l i n g i ti sr e g r e t t a b l et h a t f o rs u c hf r e q u e n tp a t t e r nm i n i n gw i t hs p e c i f i cc o n s t r a i n t s ,t h ec o m m o n l y u s e da p r i o r i m l n m ga l g o r i t h m sa n dt h ef p - g r o w t hm i n i n ga l g o r i t h ma r en o to p t i m a l s ot h e r ei s i v 硕十学位论文 t h en e e dt os t u d ya n da d o p tan e wm i n i n ga l g o r i t h m 。b a s e do na b o v ea n a l y s i s ,t h e p a p e rp r o p o s e sa ni c f p t r e e ( i t e m s c o n s t r a i n tf r e q u e n tp a t t e r n t r e e ) a n dan e w i c f p m i n e ( i t e m s c o n s t r a i n tf r e q u e n tp a t t e r n - m i n e ) a l g o r i t h mw h i c hd i r e c t l ym i n e s i nt h et r e e 。t h ei c f p - t r e ec o m p r e s s e sa n ds t o r e sa l lt h ei n f o r m a t i o no ft h ea f f a i r s i n c l u d e dc o n s t r a i n ti t e m s i c f p m i n ea l g o r i t h md i r e c t l ym i n e st h en e e d e df r e q u e n t p a t t e r n si nt h ei c f p - t r e ea c c o r d i n gd e p t h - f i r s ts t r a t e g yb ya d ju s t i n gt h ei c f p t r e e c o r r e l a t i v en o d e si n f o r m a t i o n ,w i t h o u ta n yo t h e ra d d i t i o n a ld a t as t r u c t u r e e a c ht i m e t h e a l g o r i t h mm i n e sj u s to n es u b t r e eo fi c f p - t r e ea n ds a v e ss t o r a g es p a c e e f f e c t i v e l ya n dg r e a t l yi m p r o v e st h ee f f i c i e n c yo fm i n i n g t h e o r e t i c a la n a l y s i sa n d e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei c f p m i n ea l g o r i t h mi ss u p e r i o rt oa p r i o r ia n d f p - g r o w t ha l g o r i t h mi nm e m o r yo c c u p a n c ya n dt i m ec o s t s i na d d i t i o n ,t h ep a p e r i n t r o d u c e si t e m s c o n s t r a i n ti n t ot h ec o n v e n t i o n a lm e t h o do fg e n e r a t i n ga s s o c i a t i o n r u l e sf r o mf r e q u e n ti t e m s ,p r o p o s e sa no p t i m i z e da l g o r i t h mf o rg e n e r a t i n ga s s o c i a t i o n r u l e sb a s e do ni t e m s c o n s t r a i n t 3 t h ep a p e rd i s c u s s e st h eb a s i ct h e o r y ,m e t h o d sa n dp r o c e s so fc r o s s s e l l i n g , s t u d i e sa ni m p r o v e da s s o c i a t i o na n a l y s i sa l g o r i t h mb a s e do ni t e m s c o n s t r a i n ta p p l i e d i nt h ea r e ao fm o b i l et e l e c o m m u n i c a t i o n e n t e r p r i s e sb u s i n e s sc r o s s s e l l i n g ,t h e n e s t a b l i s h e sm o b i l et e l e c o m m u n i c a t i o ne n t e r p r i s e sb u s i n e s sc r o s s - s e l l i n gm o d e la n d d e t a i l l yd i s c u s s e sa n da n a l y s e st h er e s u l t so ft h em o d e l sp r a c t i c a la p p l i c a t i o n k e yw o r d s :d a t am i n i n g ;a s s o c i a t i o na n a l y s i s ;f r e q u e n tp a t t e r n ;c r o s s s e l l i n g v 关联分析及其在移动通信行业中的应用研究 插图索引 图3 1 存放压缩的频繁模式信息的f p t r e e 2 8 图3 2 具有条件节点1 3 的条件f p 碲寸2 9 图3 3 由表3 1 得出的i c f p 树3 0 图3 4 挖掘前缀路径1 1 1 2 的子树3 2 图3 5 挖掘完后的树一3 2 图3 6i c f p m i n e 算法与其它算法的性能比较3 3 图4 1 指导产品交叉销售的模型4 2 图4 2 基于关联规则算法的交叉销售模型4 3 图4 3 经营分析系统逻辑体系结构图4 5 v i i i 硕士学位论文 附表索引 表3 1a l l e l e c t r o n i c s 某分店的事务数据一2 7 表3 2 通过创建条件( 子) 模式基挖掘f p t r e e 2 9 表3 3 挖掘i c f p 树后的频繁模式3 2 表4 1 样本数据品牌分布4 6 表4 2 大客户样本数据( 部分) 4 7 表4 3 大客户用户群业务关联规则( 部分) 4 8 表4 4 普通用户群业务关联规则( 部分) 一4 9 i x 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:建声扫瓮 日期: 4 年夕月9 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密囱。 ( 请在以上相应方框内打”) 作者签名:女声触 导师签名:c 了朽( 弋 日期:d 各年 日期:口矿年 月口日 月10 日 夕夕 硕上学位论文 1 1 数据仓库 第1 章绪论 1 1 1 数据仓库的定义 什么是数据仓库? 不同的学者都有不同的看法。数据仓库之父w h i n m o n 在 其著作b u i l d i n gt h ed a t aw a r e h o u s e ) ) 中对数据仓库是这样定义的:“数据仓库是 用于支持企业或组织的决策分析处理的,面向主题的、集成的、时变的、非易失 的数据集合【l ,2 1 。 从数据仓库的定义可以看出数据仓库的特点及其产生的原因。 ( 1 ) 什么是集成 对于移动通信等数据密集型企业来说,在建设数据仓库系统以前,已经存在 有各种联机事务处理( o n l i n et r a n s a c t i o np r o c e s s i n g 简称o l t p ) 系统,例如:营 业系统、计费系统、帐务系统、结算系统、网管系统、客户服务系统等,这些系 统分属于不同的部门。在这些联机事务处理系统中,一个事务( 例如用户新入网、 缴话费、投诉、打印发票等) 可能要连接数据库中的好几个表,但通常只访问或生 成数据库表中的一条或几条记录,系统可以及时响应用户的需求,可以有效支持 企业的运营。 但是,o l t p 系统难以满足企业的经营分析需求。例如:要在o l t p 数据库 系统中查询去年一年内的所有离网客户在不同消费层次、不同年龄段、不同在网 时长层次的客户数分布,试图发现客户离网与客户消费行为的关系并为客户保持 提供决策依据,则可能要查询和统计百万甚至千万条的记录,仅有营业系统的数 据还不够,还要关联帐务系统的数据库。这样的经营分析需求即使能够实现,其 响应也不是实时的;在o l t p 系统中直接进行这样的复杂统计和查询,会占用 o l t p 系统的大部分c p u 处理能力,严重影响o l t p 系统的运行效率。 鉴于上述原因,将企业的业务运营支撑系统与经营分析系统分离开来成为必 然的发展趋势。将企业的各种对经营分析有用的数据从不同的o l t p 系统中剥离 出来,统一收集到一个所谓数据仓库的中央存储库中进行集中处理,可以在不影 响o l t p 系统性能的情况下利用各种业务数据对企业的经营情况进行分析。 数据集成的目的还不仅仅如此。数据的集中统一可以改变信息的独裁与无政 府主义,充分实现企业的信息民主和跨部门的商业智能。作为某个部门的决策者, 在没有赋予对其他相关部门信息的知情权的情况下,要想做出好的成绩是很难的。 关联分析及其祚j 移动通信行业中的应用研究 有了集中统一的数据仓库,就可以关联不同部门的数据,协调企业不同部门的行 动。 此外,数据的集中统一可以减少相同的数据在不同部门的重复存储与不一致 性。为了对付信息独裁,在没有数据仓库之前,企业某个部门通常通过一定的渠 道获取与保存其他部门中与本部门密切相关的数据,这些数据很难与其他部门的 数据同步更新,其结果是造成数据的不一致性与决策依据的过时性。 ( 2 ) 什么是面向主题 数据集中统一了,在不影响o l t p 系统性能的情况下就可以进行一些复杂的 经营信息数据的统计和查询了。但是,在企业需要经营信息进行决策的时候,怎 样才能及时响应企业的决策需求、保证决策的时效性呢? 一个聪明的企业信息服 务人员为了不被上司骂得狗血喷头,通常都要预测企业主管的需求,提前进行有 关数据的收集、积累、更新与处理,这样在主管真正需要信息的时候,就能及时 地提供,而不是临时去收集和处理数据;对于具有海量数据的企业,临时收集和 处理数据肯定是不行的。 数据仓库就是要做这样一个聪明的企业信息服务者! 数据仓库与数据库的一个重要区别是:前者是逆规范化的,而后者是规范化 的。所谓逆规范化,即响应在需求之前。数据仓库必须根据企业的经营分析需求 以及企业数据的性质与特点,预测企业在相当长的一定时期内的经营分析需求, 事先规划好数据的存储结构、数据变换与加工处理的方式与流程,在加载数据( 从 o l t p 系统中将数据倒入至数据仓库) 时,就可以按经营分析需求进行各种预处理, 而不是在需要查看信息时临时进行大量的处理运算。 预测企业经营信息需求的方法是:经过详细和科学的需求分析,将经营信息 需求划分为若干的分析主题,对每一个分析主题的分析目的、分析角度与分析指 标都在事先进行明确的定义,在每次装载新的数据时对这些指标进行计算和更新, 将海量数据的统计处理运算分散到不同的数据装载时间执行。 指标数据在数据仓库中以多维数据库表的形式存放,分析人员可以从不同的 维度或分析角度对指标数据进行分析。 ( 3 ) 什么是时变 所谓时变是指数据仓库沉淀与保存不同时期的历史数据并随着时间的推移而 不断更新数据仓库。 保存历史数据的一个重要作用是进行趋势分析和对比分析,根据历史数据预 测将来的数据。o l t p 系统不能保存大量的历史数据,因为数据量越大,系统的 响应时间就会越慢,会影响到企业的运营。有了数据仓库,历史数据就可以从 o l t p 系统中迁移到数据仓库,只让o l t p 系统保存当前数据、保证其运行效率。 数据仓库如何保存历史数据呢? 难道数据仓库就没有类似的数据过载问题 2 硕士学位论文 吗? 的确,如果数据仓库中的数据量太大,也会影响经营信息的查询效率、需要 过于庞大的存储开销。 历史数据蕴涵了大量对经营分析有用的信息,但不能容忍历史数据的无情增 长。这一问题的解决牵涉到所谓的数据存储的粒度( 细节性程度) 问题以及历史数 据的沉淀问题。例如:最近三个月的数据可以按与o l t p 系统数据相同的细节程 度存储,而三个月前到三年内的历史数据可以汇总成周概要或旬概要数据存储, 三年前的历史数据只需要汇总成月概要数据存储,因为细节已经不那么重要了。 历史数据的存储必须按分析主题的要求,将那些对经营分析长期有效的信息 保留下来,去掉那些用处不大的东西,即所谓的“沉淀 。 ( 4 ) 什么叫支持企业或组织的决策分析处理 如果说数据仓库可以做决策,那是技术人员在政治上极其幼稚的表现,也是 市场与管理人员在技术上极其幼稚的表现。数据仓库技术可以帮助市场与管理人 员作出正确的决策。为了说明这个问题,有必要对几个名词进行解释。 数据:例如计费、营业、帐务等o l t p 系统中的原始数据,它们是未经加工 处理的原材料。 信息:例如数据仓库生成的各种静态报表和动态报表,它们是经过提炼、加 工与集成的,含有一定商务价值与意义的数据。 智能:是市场营销人员与决策管理人员从商务与应用的角度( 而非技术的角度) 对信息的理解、传播,是有机化了的信息。 决策与行动:在智能的基础上制定正确的措施和采取明智的行动,是信息的 施效过程,是信息到生产力的转换过程。 数据仓库抢不了决策管理人员的饭碗;但是,数据仓库青睐那些善于理解与 应用信息的优秀的市场营销人员与决策管理人员。 1 1 2 数据密集型企业的数据仓库与商业智能 所谓商业智能( b u s i n e s si n t e l l i g e n c e 简称b i ) ,是将运营数据转化为有商业价 值的信息、并在信息的基础上实现企业智能的一个过程。 商业智能最主要的支撑技术是数据仓库( d a t aw a r e h o u s e 简称d w ) 、联机分 析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g 简称o l a p ) 与数据挖掘( d a t am i n i n g 简 称d m ) 。 其实,早在数据仓库之前的上世纪8 0 年代,市场上已经有了o l a p 分析软 件;数据仓库诞生后,o l a p 的功能更加完善。上世纪9 0 年代初,数据仓库的基 本原理与结构框架,包括关系型数据存取、网络、c s 架构和图形界面技术均已 具备;l9 9 6 年以前,国外一些数据密集型企业实施了数据仓库的子集:部门级的 数据集市;19 9 6 、19 9 7 期间,存在着由数据集市构成数据仓库( 由下向上) 以及由 集中统一的、面向主题的企业级数据仓库发布各个部门的数据集市( 自顶向下) 之 关联分析及j e 在移动通信行业中的应用研究 间的争论;19 9 8 年以后,支持c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t - 客户关系 管理) 、e r p ( e n t e r p r i s er e s o u r c ep l a n n i n g - 企业资源规划) 、s c m ( s u p p l yc h a i n m a n a g e m e n t 供应链管理) 等各种应用的企业级数据仓库成为主流应用。 自上世纪9 0 年代以来,商业智能的国际市场已经形成。近二十年来,由于电 信、金融等数据密集型企业经营分析市场的推动,已经涌现了大量的商业智能工 具软件提供商及解决方案提供商。 在商业智能系统软件市场上,主要有两类厂商,一类是可以全面提供数据仓 库存储、前端应用工具软件与后台的数据采集e t lt 具软件的厂商,如:o r a c l e 、 i b m 、s y b a s e 、m i c r o s o f t 、c a 、n c r 等;另外一类是只提供前端应用工具软件或 后台数据采集工具软件的厂商,如:b u s i n e s so b j e c t 、b r i o 、c o g n o s 、s a g e n t 等。 这些厂商,有的在数据采集效率与对多平台的支持上有优势,有的在o l a p 、数 据挖掘方面有优势。 从商业智能前端应用工具软件( 查询、报表、展现、o l a p ) 来看,b u s i n e s s o b j e c t 、b r i o 、c o g n o s 是目前最活跃的,根据i d c ( i n t e r n a t i o n a ld a t ac o r p o r a t i o n , 国际数据公司) 报告,2 0 0 1 年,b u s i n e s so b j e c t s 在b i 领域的市场份额为1 6 2 , 占据了b i 市场最大的份额,c o g n o s 在b i 领域的市场份额为1 1 1 ,排名第三。 从商业智能后台数据采集工具软件( 数据抽取、转换、装载) 来看,目前市场 上比较活跃的有i n f o r m a t i c a 的p o w e r m a r t 、p o w e r c e n t e r ,s a g e n t 的e t ls o l u t i o n , o r a c l e 的o w b ,a s c e n t i a l 的d a t a s t a g e 等。 从商业智能的数据挖掘工具软件来看,目前市场上比较活跃的有s a s 的 e n t e r p r i s em i n e r ,i b m 的i n t e l l i g e n tm i n e r ,s p s s 的c l e m e n t i n e ,o r a c l e 的d a r w i n , c o g n o s 的s c e n a r i o 等。 从数据仓库设计与存储工具软件来看,目前市场上比较活跃的有o r a c l e 的 9 i ,i b m 的d b 2 ,s y b a s e 的w a r e h o u s ea r c h i t e c t 、a d a p t i v es e r v e ri q ,n c r 的 t e r a d a t a ,m i c r o s o f t 的s q ls e v e r ,c a 的d e c i s i o nb a s e 、n e u g e n t s 等。 在商业智能技术的推动下,国外先进国家的大型数据密集型企业基本实施了 商业智能。以电信企业为例: a t & t ( 美国) 1 ) 建立更详细的客户分类档案,对现有客户提供更好的差异性服务; 2 ) 建立预测模型,尽可能准确地预报客户流失的概率和可能性,以便尽早采 取相应的措施进行客户挽留,防止现有客户的流失; 3 ) 提高直接营销的能力。 m c i ( 美国) 1 ) 对市场变化迅速做出响应,制定出切实可行的市场营销策略; 2 ) 决策支持人员熟练使用数据挖掘技术,减少信息技术外包的费用。 4 硕十学位论文 t e l e c o mi t a l i am o b i l e ( 意大利) 1 ) 预防了客户的流失; 2 ) 通过业务关联分析加强了客户交叉销售的机会; 3 ) 对客户的行为有更深的理解,发现客户深层次的需求。 英国电信 为了在经营过程中获得更高的投资回报,选用了s p s s 的数据挖掘产品 c l e m e n t i n e ,通过分析用户数据,建立模型来预测客户使用某种业务的倾向。通 过应用该模型使运营商能更好地了解其客户以及他们在电信市场的行为特征。从 而为销售人员提供了有可能使用该项业务的潜在的客户清单,同时使直邮活动在 这些客户中的回应率提高了lo o 。 除此之外,世界上一些主要的移动通信企业都已经采用了针对移动通信行业 的数据仓库系统,如s p r i n t 公司、法国移动通信局、加拿大移动通信局、澳大利 亚移动通信局和比利时移动通信局等。 数据仓库以及商业智能技术在中国数据密集型企业的应用则是2 0 0 0 年以后 的事情。同样以电信行业为例: 中国移动 从2 0 世纪9 0 年代后期开始,就在一些省份进行了数据仓库与经营分析系统 建设的试点工作,并取得了很好的成绩;从2 0 0 1 年开始,进行全国范围内的数据 仓库与经营分析系统的建设工作,并编制了具体的指导规范,并于2 0 0 3 年底基本 完成。 经过几年来的数据沉淀,已经可以从数据中挖掘出大量的、有商业价值的知 识;中国移动通信公司的经营分析已经逐步从传统的手工报表、自动报表、o l a p 动态报表上升到数据挖掘层次。例如:中国移动的“数据业务深度运营 已经开 始将关联技术运用到交叉销售中、中国移动经营分析系统的营销子系统已经开始 将分类预测技术运用于目标客户群的定位与获取、中国移动的“拜年卡 “游子返 乡”等产品或营销活动的设计也运用了数据聚类等技术。 中国联通 为加强企业信息化系统建设,公司在2 0 0 2 年6 月的总裁办公会议纪要中明确 提出了企业信息化系统( u n i i t ) 的总体框架体系结构,即企业信息化系统是在基 础网络和网络管理之上,由企业资源规划( u n i e r p ) 、客户关系管理( u n i c r m ) 和办公自动化( u n i o a ) 三个部分组成。 c r m 系统以数据为核心、以业务流程和市场竞争为驱动,提供以客户为中心 的服务,并面向企业内部提供经营管理信息服务支持。u n i c r m 涵盖了以计费、 营业、帐务等为主的操作型c r m 功能以及以客户信息分析、经营信息统计等为 主的分析型c r m 功能两部分,是目前的综合电信业务支撑系统的功能提升与拓 关联分析及其在移动通信行业中的应用研究 展。 中国联通计划在2 0 0 3 年至2 0 0 4 年实现各省市统一经营信息分析服务系统的 完善,在2 0 0 5 年至2 0 0 8 年建立完善的客户关系管理系统,在企业商业智能方面 达到发达国家水平。 统一经营信息分析服务系统的建设采用了分期实施的方案;以辽宁联通为例: 2 0 0 3 年上半年,以业务信息为主、客户信息为辅、统计报表需求为主、分析需求 为辅,构建数据仓库,实现企业运营数据的信息沉淀;2 0 0 3 年下半年,建立以客 户为核心的经营信息中心,实现客户与业务的关联分析;2 0 0 4 年开始,提供以数 据挖掘型知识为代表的发现型经营信息,采用专题分析的方式实现经营信息决策 支持功能。 1 1 3 联机分析处理及其缺陷 o l a p ( 联机分析处理) 是一种基于数据仓库多维数据立方体的联机在线分析 技术,具有数据汇总、合并和聚集功能,以及从不同的角度观察信息的能力。例 如:你可以根据不同的条件组合观察离网客户的数目以便发现客户离网的规律性。 除了多维组合分析外,o l a p 还提供旋转分析( 分析角度之间的转换) 、钻取分析( 宏 观到微观的转换) 、上卷分析( 从微观到宏观的转换) 等。 o l a p 支持多维分析和决策,在发现海量数据背后的知识方面迈出了可喜的 一步。 但是,o l a p 对于深层次的分析功能,如数据分类与预测、聚类和发现数据 间的关联规则,仍然是难以满足的。o l a p 的主要缺陷在于:( 1 ) 难以发现数据库 中蕴涵的隐性知识;o l a p 必须有明确的分析角度和分析指标,而企业的经营分 析往往难以提出明确的分析角度;例如:移动通信公司应该怎样对客户进行细分, 以便对不同的客户群提供有针对性的产品与服务? ( 2 ) 难以发现数据中的预测性 知识;例如:通过o l a p 分析虽然可以发现离网客户的一些特征:集中在什么消 费层次、年龄结构、职业特点等等,但直观能够感觉的条件组合很难超过三维, 当离网因素在三维以上时,要预测一个客户的离网倾向性就比较难;( 3 ) 难以发现 数据中的新颖性知识;o l a p 分析的分析角度以及分析指标一般来说是根据主观 经验以及已有的业务知识事先定义好的,随着市场环境的变化,当数据中出现新 的关联模式时,不能及时有效地提取与展现。 鉴于上述原因,能够从数据中有效地发现“隐性的、“新颖的”、“预测性的” 知识的数据挖掘技术就应运而生了。 6 硕士学位论文 1 2 数据挖掘技术 1 2 1 数据挖掘概念 随着信息技术的迅速发展,数据仓库的规模不断扩大,现代数据密集型企业 已经积累与沉淀了大量的数据。激增的数据背后隐藏着许多重要的信息,人们希 望能够对其进行更高层次的分析,以便更好地利用这些数据为企业提供决策支撑。 但传统的查询、报表、o l a p 已经难以满足企业的高层次信息需求。因此,需要 一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在的知识,数据挖 掘技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完 善起来的d , 3 j 。 所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的数据 库中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。这个定义包括以下四个层次的含义:( 1 ) 数据源必须是真实的、大量的、含噪 声的数据;( 2 ) 发现的是用户感兴趣的知识;( 3 ) 发现的知识要可接受、可理解、可 运用,最好能用自然语言或商业语言表达出发现的结果;( 4 ) 并不是要求发现放之 四海而皆准的知识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是 什么机器定理证明,所有发现的知识都是相对的,是有特定前提和约束条件、面 向特定领域的。 1 2 2 数据挖掘的主要方法及算法综述 数据挖掘技术是数据仓库技术、统计技术和人工智能技术共同发展的产物【i j 。 从功能角度来看,主要的数据挖掘方法及其算法分析如下: l 、聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类或簇 的过程被称为聚类。由聚类所生成的类是对象的集合,这些对象与同一个类中的 对象彼此相似,与其它类中的对象相异。现有的主要聚类算法主要有以下几个: k 平均( k m e a n s ) 算法【4 】和k 一中心( k m e d o i d s ) 算法【5 1 以及神经网络方法,其中神 经网络方法主要包括r u m e l h a r t 等人提出的竞争学习( c o m p e t i t i v el e a r n i n g ) 算法1 6 j 和k o h o n e n 提出的自组织特征映射( s e l f - o r g a n i z i n gf e a t u r em a p ,s o m ) 算法l7 1 。 k m e a n s 使用的聚类准则函数是聚类集中的每个样本点( 数据或对象) 到该类 中心的误差平方和,并使它最小化。k m e a n s 算法有以下缺点:每个类用该类中 对象的均值来表示,因此它不适合处理有分类属性的数据( 标称变量) ;另外,需 要预先给定聚类数,不能动态添加新的聚类,这也是该算法的一个缺点;此外, 该算法对差别很大带有孤立点数据的类的聚类效果不是很好,并且对初始值的选 取比较敏感,因此实际使用时需要对该算法加以改进。 j k m e d o i d s 算法采用最接近于聚类中心的数据点作为类的中心以增强算法的 7 关联分析及其存移动通信行业中的应用研究 鲁棒性,这个样本点就称为中心点( m e d o i d s ) 。与k 。m e a n s 算法相比,当存在噪 声和孤立点数据的时候,k m e d o i d s 算法的聚类效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论