




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 中文摘要 随着中国电信的改革重组。中国电信业取得了跨越式的发展,成为国民经 济中发展速度最快的行业之一,但同时发展后面的深层次问题凸显出来。据信息 产业部最新统计,我国电信运营商最近两年电信客户数虽然不断增加,但是业务 收入却明显下降。一方面是迅猛增长的客户数,另一方面却是企业收益的日益收 缩,这种发展越多亏损越严重的现状不能不让人担忧。中国的电信是否正在经历 丰收的悖论? 从表面上看,“增量不增收”正是丰收悖论的特征,究其原因正是 电信企业客户价值不高所导致。所以这就要求我国的电信企业转变过去传统观 念,不应该只注重以客户数为考核业绩的最终标准,同时还要注重本企业的客户 价值和客户质量。 电信市场竞争日益激烈,运营商从高速扩张变为平稳或低速增长。同时,竞 争的加剧也使电信客户有了更多的选择,新客户入网的同时,又有大批原有客户 离网流失。调查数据表明,开发一个新客户的费用是维持一个老客户成本的4 5 倍。电信部门8 0 9 6 的利润将来自于2 0 的客户。那么,在激烈的市场竞争和不断变 化的市场需求面前,如何最大程度的降低客户的流失率呢? 常用的方法之一就是 数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。简单地讲,数据 挖掘就是面对海量的存储数据,通过建立数学模型的方法找出隐含的业务规则, 发现其内在的人们事先不知道的规律,在便在实际中发挥作用。在很多的行业已 经具有成功的应用。 本文主要是应用数据挖掘算法来分析解决上海电信部门主要存在的客户流 失问题,主要使用的数据挖掘软件是s p s s 公司目前比较流行的c l e m e n t i n e 软件。 本文对上海电信提供的数据仓库的信息进行了分析,使用了决策树算法、神经网 络算法、聚类算法和关联规则算法,通过这些算法建立多个模型,比较这些模型 的精确度,最终选取最佳的数学模型一决策树c 5 o 产生的模型,根据运算的结果 山东大学硕七学位论文 并具体分析该数据库,发现了哪些客户易于流失,并找到了客户流失的原因,根 据结果采取相应的措施来减少客户的流失,提高经济效益。制定合理的套餐保留 入网时间较长的老客户;使老客户能够介绍更多的新客户;根据客户对电信业务 的需求推出满足客户需求的打包服务及交叉销售模式,提高客户的忠诚度并留住 客户;对目标客户的类别划分更加明确,针对性地服务以及提高自身的服务质量, 这些措施在实际的应用中也取得了较好的效果,有效地减少了客户的流失。 关键词:数据挖掘;决策树;神经网络;聚类算法;关联规则;流 山东大学硕十学位论文 a l o n g - i t hc h i n e s et e l e c o m m u n i c a t i o nr e f o r mr e o r g a n i z a t i o n t h e c h i n e s et e l e c o m m u n i c a t i o ni n d u s t r yh a so b t a i n e dt h es u r m o u n t i n g 一1 i k e d e v e l o p m e n t ,a n dh a sb e c o m eo n eo ft h eq u i c k e s td e v e l o p m e n ts p e e d i n d u s t r i e si nt h en a t i o n a le c o n o m y ,b u tb e h i n dd e v e l o p m e n tt h ed e e pl e v e l q u e s t i o n si sb e c o m i n gm o r ea n dm o r eo b v i o u s a c c o r d i n gt ot h en e w e s t s t a t i s t i c so ft h ei n f o r m a t i o ni n d u s t r i e sd e p a r t m e n t ,a l t h o u g ht h en u m b e r o ft e l e c o m m u n i c a t i o nc u s t o m e ri n c r e a s e dr e c e n t l yt w o y e a r s i nt h e t e l e c o m m u n i c a t i o no p e r a t i o nb u s i n e s so fc h i n e s e ,t h es e r v i c ei n c o m e a c t u a l l yo b v i o u s l yh a sd r u p p e d o nt h eo n eh a n dt h eg r o w t hc u s t o m e rn u m b e r i ss w i f ta n dv i o l e n t ,o nt h eo t h e rh a n dt h ei n c o m ee a r n i n go fa ne n t e r p r i s e i sa c t u a l l yd a i l yc o n t r a c t i o n t h es i t u a i t o nt h a tt h ed e v e l o p m e n ti sm o r e b u tl o s e sm o n e yi sm o r es e r i o u si sw o r r i e d w h e t h e ri sc h i n a 7s t e l e c o m m u n i c a t i o ne x p e r i e n c i n gt h ea b u n d a n th a r v e s t t h ep a r a d o x ? l o o k e d f r o mt h es u r f a c et h a t 。t h ei n c r e a s ed o e sn o ta d d i t i o n a l l yr e c e i v e ”i s p r e c i s e l yt h ea b u n d a n th a r v e s tp a r a d o xc h a r a c t e r i s t i c ,a n di t sr e a s o ni s t h a tt h et e l e c o m m u n i c a t i o ne n t e r p r i s ec u s t o m e rv a l u ei sn o th i g h t h i s r e q u e s t e dc h i n e s et ot r a n s f o r mt h ep a s tt r a d i t i o n a li d e a s ,a n ds h o u l dn o t o n l yp a yg r e a ta t t e n t i o nt ot a k et h ec u s t o m e rn u m b e rf i n a l l yi ss t a n d a r d a st h ei n s p e c t i o na c h i e v e m e n t ,m e a n w h i l em u s tp a yg r e a ta t t e n t i o nt ot h i s e n t e r p r i s et h ec u s t o m e rv a l u ea n dt h ec u s t o m e rq u a li t y t h et e l e c o w m u n i c a t i o nm a r k e tc o m p e t i t i o ni si n t e n s ed a yb yd a y ,a n d o p e r a t i o nb u s i n e s sb e c o m e ss t e a d yo rt h el o ws p e e dg r o w t hf r o mt h eh i g h s p e e de x p a n s i o n a tt h es u m et i m e ,t h ec o m p e t i t i o ni n t e n s i f i e da l s oe n a b l e t h et e l e c o m m u n i c a t i o nc u s t o m e rt oh a v em o r ec h o i c e s t h en e wc u s t o m e r e n t e r st h en e ta tt h es a m et i m e ,a l s ot h el a r g eq u a n t i t i e so fo r i g i n a l c u s t o m e r sd r a i n sf r o mt h en e t t h ei n v e s t i g a t i o nd a t ai n d i c a t e dt h e e x p e n s et h a td e v e u p san e wc u s t o m e ri sa s4 5t i m e sa st h ee x p e n s e t h a tm a i n t a i n sa no i dc u s t o m e rc o s t t h e8 0p e r c e n tp r o f i to ft h e t e l e c o m m u n i c a t i o ne n t e r p r i s ec o m e sf r o mt h e2 0p e r c e n tc u s t o m e r s t h e n , i nf r o n to fu n c e a s i n g l yc h a n g e si nt h ei n t e n s em a r k e ta n dc o m p e t i t i o nt h e m a r k e td e m a n d ,h o wd o e st h et e l e c o m m u n i c a t i o ne n t e r p r i s er e d u c et h e c u s t o m e rd r a i n i n gr a t ei nt h eg r e a t e s td e g r e e ? o n eo fc o m m o n l yu s e d m e t h o d si st h ed a t am i n i n gt e c h n o l o g y t h ed a t am i n i n gt e c h n o l o g yi st h em o s tf o r m i d a b l ed a t aa n a l y s i sm e t h o d i nt h ep r e s e n td a t aw a r e h o u s ed o m a i n s i m p l ys p e a k i n g ,t h ed a t am i n i n g d i s c o r e r st h ec o n c e a l m e n tr u l et h r o u g ht h ee s t a b l i s h m e n tm a t h e m a t i c a l m o d e l m e t h o d ,t h e nd i s c o v e r e st h er u l e st h a tp e o p l e d i dn o tk n o w b e f o r e h a n df a c i n gt h em a g n a n i m o u ss t o r e dd a t a ,a n dt h e nw i l lb eu s e di n t h ep r a c t i c e d a t am i n i n ga l r e a d yh a dt h es u c c e s s f u la p p l i c a t i o ni nv e r y m a n yp r o f e s s i o n s i nt h i sa r t i c l ed a t am i n i n ga l g o r i t h mi su s e dt or e s o l v et h ed r a i n s o ft e l e c o m m u n i c a t i o ne n t e r p r i s e t h et o o lu s e di sc l e m e n t i n es o f t w a r e 山东大学硕十学位论文 t h a ti st h em o r ep o p u l a ri nt h es p s sc o r p o r a l i o n t h ed a t aw a r e h o u s e p r o v i d e db ys h a n g h a it e l e c o m m u n i c a t i o nd e p a r t m e n t i s a n a l y s i s e d t h e a l g o r i t h mu s e di nt h ea r t i c l ei sd e c i s i o nt r e ea l g o r i t h m ,n e u r o nn e t w o r k a l g o r i t h m ,c l u s t e r i n ga l g o r i t h ma n da s s o c i a t i o nr u l ea l g o r i t h m t h r o u g h e s t a b l i s h i n gm a n ym a t h e m a t i c a lm o d e l s ,c o m p a r i n g t h ep r e c i s eo ft h e m o d e l s ,a n dt h e nw ec h o o s et h eb e s tm o d e l s - - t h em o d e lg e n e r a t e db yc 5 0 , a c c o r d i n gt ot h er e s u l t ,if i n dt h a tw h i c hk i n do fc u s t o m e r sa r ee a s i l y d r a i n e d ,a n a l y s i st h ec a u s eo ft h ed r a i n i n gc u s t o m e r s ,a n dl e tt h et h e c o r r e s p o n d i n gt e e c o m u n i c a t i o nd e p a r t m e n tt a k e t h e c o r r e s p o n d i n g m e a s u r ei no r d e rt or e d u c et h ec u s t o m e rd r a i n i n ga n de n h a n c e st h ee c o n o m i c e f f i c i e n c y m a k i n gt h er e a s o n a b l ew r a dm e a lr e t e n t st h ec u s t o m e r st h a t e n t e rt h en e tl o n g e r ,a n dl e t st h eo l d e rc u s t o m e r si n t r o d u c em o r en e w c u s t o m e r s u n d e r s t a n d i n gt h ed e m a n do ft h ec u s t o m e r ,t e l e c o m u n i c a t i o n e n t e r p r i s ec a np r o m o t ep a c kt h es e r v i c ea n do v e r l a p p i n gs a l e sm o d e lt h a t m e e t st h ec u s t o m e r ,a n de n h a n c e st h ec u s t o m e rt h el o y a l t ya n dd e t a i n st h e c u s t o m e r :t h eg o a lc u s t o m e rc a t e g o r yd i v i s i o ni sm o r ec l e a r ,t h e t e l e c o m m u c i t i o nd e p a r t m e n te n h a n c e si t st h eq u a l i t yo fs e v i c e ,a n dt h e s e m e a s u r e sa r em o r ee f f e c t i r ei nt h ep r a c t i c ea n dd e c r e a s et h ed r a i n so f c h s t o m e r s k e y , o r d s :d a t am i n i n g :d e c i s i o nt r e e ;n e u r o nn e t w o r k :c l u s t e r i n g a s s o c i a t i o nr u l e :s t r e a m 原创性声明及关于学位论文使用授权的声明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:立殓 日 期:趔:乡7 ) 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:宣象导师签名:噬龇日期:坳) l 山东大学硕十学位论文 第一章引言 本章第一节首先简单介绍目前电信运营市场客户流失的主要原因和存在的 类型;第二节主要介绍了数据挖掘的基本知识,和一些常用的算法。 1 1 中国电信客户流失的原因和类型 电信市场竞争日益激烈,运营商从高速扩张变为平稳或低速增长。同时,竞 争的加剧也使电信客户有了更多的选择,新客户入网的同时,又有大批原有客户 离网流失。调查数据表明,开发一个新客户的费用是维持一个老客户成本的4 5 倍。电信部f 8 0 的利润将来自于2 0 的客户;客户入网时间越长,对电信部门的 价值越高;同时老客户介绍新客户是最有效、最经济的销售方式;了解客户对电 信业务的需求才能推出满足客户需求的打包服务,提高客户的忠诚度并留住客 户;目标客户的类别划分越明确,促销效果越好。因此,降低客户流失率,提高 客户的满意度及忠诚度,提升客户价值,是运营商在竞争中制胜的关键。 一般情况下,价格、服务质量、公司形象、竞争对手等因素会影响客户的流 失。基于客户流失的原因,客户流失可分为四种类型:自然流失、恶意流失、竞 争流失和过失流失。自然流失不是人为因素造成的,如客户的搬迁、死亡等。这 个数量不大,不是重点分析对象。恶意流失是指客户为了满足自己的某些私利而 选择离开一家企业。如恶意欠费被动离网用户,对于这类用户造成的问题主要从 预防恶意高额欠费和信用监控等角度着手解决。竞争流失是由于企业竞争对手 的影响而造成的。竞争焦点主要集中在价格、质量和服务上。过失流失是指由于 企业自身工作过失造成的流失。后两种类型的流失客户占流失客户总量的比重比 较大。客户流失分析的目标主要是发现因为竞争或过失原因造成的易流失群体, 特别是高端易流失客户群体。企业通过客户流失分析,可以达到了解流失现状、 预警未来流失的目的。 详细的讲,有如下几点: 山东大学硕士= 学位论文 分析历史流失客户,得到客户流失的总体情况。如不同时期、不同地市 流失客户占总客户的比例、流失客户数与新发展客户数的对比情况等; 了解流失客户的具体特征。如流失客户的客户价值分布情况、流失客户 的入网时长分布情况、流失客户的通话消费特征、流失客户的自然属性 特征等;得到制定减少客户流失策略所需要的启发性信息; 预测有价值客户流失概率。为市场营销、客服部门提供易流失客户名单。 辅助市场部制定客户挽留策略,并对客户挽留策略进行评估。 为了了解客户流失原因,并且预测将来可能会流失的客户,需要对流失的客 户特征进行分析,分析客户基本属性如入网时长、年龄、性别等;帐务属性如应 收金额、实收金额、欠费金额等;话务行为如相对月份的基本通话时长、通话次 数、通话费、增值业务使用的次数( 流量) 、费用等。最终得出客户流失与因素 的关系。还有一类客户是异常波动客户,异常波动客户不一定是会流失的客户, 但是需要引起注意,因为连续较长一段时间的异常波动,往往是具有流失倾向的 先兆。这些异常波动征兆如下:话费连续下降;客户投诉情况。出现过严重投诉, 或者投诉次数超过特定指标;转移呼叫情况;呼叫转移到其他运营商。对具有这 些特征的异常波动客户要特别注意,采取一定切实可行的措施避免流失。 在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时, 客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发 展。那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低 客户的流失率呢? 常用的方法之一就是数据挖掘技术。 1 2 数据挖掘技术 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。简单地讲,它的 分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很 多的行业己经具有成功的应用。 2 山东大学硕士学位论文 一、数据挖掘知识简介 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数 据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。 什么是数据挖掘? 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。 随着科技的发展,数据日益膨胀起来,现在的批量数据极易受噪声数据、空缺数 据和不一致数据的侵扰,想从大量的这样的数据中获取有用的信息可不是件易 事,数据挖掘就是为了解决这个难题而出现的,数据挖掘能够对数据进行清理、 集成、选择和变换,对数据进行建模分析,找出其中数据的潜在关系,从而进行 信息的传递,还可以根据过去的数据对将来进行预测和分类,以便指导实践活动 来获得预想的效果或是高额的利润。 当今现实世界中的数据库极易受噪声数据、空缺数据和不一致性数据的侵 扰,因为数据库太大,如何预处理数据才能提高数据质量而提高挖掘结果的质 量? 怎样预处理数据才能使得挖掘过程更加有效、更加容易? 数据预处理技术有:数据清理、数据集成、数据变换、数据归约。 二、数据挖掘算法 数据挖掘的方法有很多,在本文中主要使用了聚类分析,决策树分析,关 联规则分析和神经网络算法等。现简单介绍如下: ( 一) 决策树分析 决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上 的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最 顶层节点是根节点。决策树归纳的基本算法是贪心算法,它以自顶向下递归的各 个击破方式构造决策树,是一种著名的决策树归纳算法i d 3 版本。 在树的每个节点上使用信息增益( i n f o r m a t i o ng a i n ) 度量选择测试属性。 这种度量称作属性选择度量或分裂的优良性度量。选择具有最高信息增益( 或最 大熵压缩) 的属性作为当前节点的测试属性。该属性使得对结果划分中样本分类 所需的信息量最小,并反映划分的最小随机性或“或纯性”。这种信息理论方法 山东大学硕七学位论文 使得对一个对象分类所需的期望测试数日达到最小,并确保找到一棵简单的( 但 不必是最简单的) 树。 设s 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义m 个不同 类c ,( i = l ,m ) 。设s ,是类c ,中的样本数。对一个给定的样本分类所需的期望信 ,佤,s :,_ s 。,一p ,l o g :0 ,) 其中p ,是任意样本属于c ,的概率,并用s s 估计。注意,对数函数以2 为底,因 为信息用二进们编码。 设属性a 具有v 个不同值( a 。a :,a ,) 。可以用属性a 将s 划分5 b y 个子集 ( s l ,s2 ,s ,) ;其中,s ,包含s 中这样一些样本,它们在a 上具有值a 。如果a 选作测试属性( 即最好的分裂属性) ,则这些子集对应于由包含集合s 的节点生长 出来的分枝。设s 。是子集s ,中类c ,的样本数。根据由a 划分成子集的熵( e n t r o p y ) 或期望信息由下式给出: 。吣,:喜竽挚h ) & ,+ + , 司 3 。 项广充当第j 个子集的权,并且等于子集( 即a 值为a j ) 中的样本 个数除以s 中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的 子集s ,: i ( s 圹s :- s 叫) 一窆岛1 。g 瓴) ,= l 勖 其中喁2 同是8 ,中样本属于类q 的概率。 4 在a 上分枝将获得的编码信息是 g a i n ( a ) = i ( s 1 ,s2 ,s 。) 一e ( a ) 换言之,g a i n ( a ) 是由于知道属性a 的值而导致的熵的期望压缩。 山东大学硕十学位论文 算法计算每个属性的信息增益。具有最高信息增益的属性选作给定集合s 的 测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此 划分样本。当决策树创建时,由于数据中的噪声和孤立点,许多分枝反映的是数 据中的异常。剪枝方法处理这种过分适应数据问题。通常,这种方法使用统计度 量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分 类的能力。常用的剪枝方法有两种:先剪枝方法和后剪枝。 ( 二) 神经网络 神经网络是一组连接的输入输出单元,其中每个连接都与一个权相相联。 在学习阶段,通过调整神经网络的权使得能够预测输入样本的正确类标号来学 习。神经网络的优点包括其对噪声数据的高承受能力,以及它对未经训练的数据 分类模式的能力,最流行的神经网络算法是后向传播算法。我们先介绍多层前馈 网络,后向传播算法在这种类型的网络上运行,最后再介绍后向传播算法。 1 ,多层前馈神经网络 后向传播算法在多层前馈神经网络上学习。一个简单的例予如下图:输入对 应于对每个训练样本度量的属性。输入同时提供给称作输入层的单元层。这些单 元的加权输出依次同时地提供给称作隐藏层的“类神经元的”第二层;该隐藏层 的加权输出可以输入到另一个隐藏层;如此下去。隐藏层的数量是任意的,尽管 实践中通常只用一层,最后一个隐藏层的加权输出作为构成输出层的单元的输 入。输出层发布给定样本的网络预测。隐藏层和输出层的单元,有时称作n e u r o d e 或输出单元。 输入层隐藏层输出层 x l x 2 x i 山东大学硕士学侥论文 2 、后向传播 后向传播通过迭代地处理一组训练样本,将每个样本的网络预测与实际知 道的类标号比较,进行学习。对于每个训练样本,修改权,使得网络预测和实际 类之间的均方误差最小。这种修改“后向”进行。即由输出层,经由每个隐藏层, 到第一个隐藏层,尽管不能保证,一般地,权将最终收敛,学习过程停止。 初始化权:网络的权被初始化为很小的随机数,每个单元有一个偏置,每个 样本x 按以下步骤处理: 向前传播输入:计算隐藏层和输出层每个单元的净输入和输出。首先,训练 样本提供给网络的输入层,对于输入层的单元它的输出等于它的输入,隐藏 层和输出层的每个单元的净输入用其输入的线性组合计算。为计算它的净输入, 连接该单元的每个输入乘以其对应的权,然后求和,给定隐藏层或输出层的单元 到单元j 的净输入堤 i j = w 口o j + 9 j f 其中,堤由上一层的单元朋连接的权;d j 是上一层的单元珀g 输出;而口,是 单元确偏置。隐藏层和输出层的每个单元取其净输入,然后将一个赋活函数作 用于它该函数用符号表现单元赌注神经元活性。使用l o g i s t i c 或s i m o i d 函数。给 定单元瑚净输入,则单元尚输出d ,用计算: o j = 百 后向传播误差:通过更新权和偏置以反映网络预测的误差,向后传播误差。 对于输出层单元误差e r r j 用 哪= o j ( i g 弦,一q ) 计算,其中d j 是单元瑚实际输出,而乃是基于给定训练样本的已知类标号的 真正输出。q ( 1 一d j ) 是l o g i s t i c 函数的导数。 为计算隐藏层单元尚误差,考虑下一层中连接瑚单元的误差加权和。隐藏 层单元珀| 勺误差是 6 山东大学硕十学位论文 川= q ( 1 一q 废e r r k w p 其e e 是由下一较高层中单元履单元瑚连接权,而西是单元五的误差。 更新权和偏差,以反映传播的误差。权由下式更新其中,a w , j 是权w 。的 改变。 蛳q = ( 1 ) e r r , o = + f 是学习率,通常取。和1 之间的一个常数值。偏置由下式更新,其中a o , 是偏置q 的改变: a o , = 矾 8 j = e i + 厶8 i 每处理一个样本就更新权和偏置,称作实例更新。权和偏置的增量也可以 累积到变量中使得可以在处理完训练集中的所有样本之后再更新权和偏置。 终止条件:训练停止,如果 前- - n $ 所有的a w , j 都很4 、,小于某个指定的阈值,或 前一周期未正确分类的样本百分比小于某个阈值,或 超过预先指定的周期数。 实践中权收敛可能需要数十万期。 ( 三) 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称 为聚类。由聚类所生成的簇是组数据对象的集合,这些对象与同一个簇中的对 象彼此相似,与其他簇中的对象相异。主要集中基于距离的聚类分析,基于 k - m e a n s ( k - 平均值) 、k - m e d o i d s ( k - 中心点) 等聚类方法。在机器学习领域,聚类 分析是无指导学习。 目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的 目的和应用。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多 种算法,以发现数据可能揭示的结果。 7 山东大学硕士学位论文 k 一平均算法的处理流程如下。首先,随机地选择k 个对象,每个对象初始地 代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离, 将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准 则函数收敛,通常,采用平方误差准则,其定义如下: , 。:。p 。g ip - m ,i 这里的e 是数据库中所有对象的平方误差的总和,p 是空间中的点,表示给定的数 据对象,新,是簇c ,的平均值( p 和册,都是多维的) 。这个准则试图使生成的结果 簇尽可能地紧凑和独立。 这个算法尝试找出使平方误差函数最小的k 个划分。当结果簇是密集的,而 簇与簇之间区别是明显时,它的效果较好。对处理大数据集,该算法是相对可伸 缩的和高效率的,因为它的复杂度是o ( n k ,其中,n 是所有对象的数目,k 是簇 的数目,t 是迭代的次数。通常地,k n ,用t n 。这个算法经常以局部最优结 束。 但,k - 平均方法只有在簇的平均值被定义的情况下才能使用。这可能不适用于某 些应用,例如涉及有分类属性的数据。要求用户必须事先给出k ( 要生成的簇的 数目) 可以算是该方法的一个缺点。k 一平均不适合于发现非凸面形状的簇,或者 大小差别很大的簇。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类 数据能够对平均值产生极大的影响。 ( 四) 关联规则 p r i o r i 算法 a p r i o r i 算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法。算 法使用频繁项集性质的先验知识,a p r i o r i 使用一种称作逐层搜索的迭代方法, 项集用于探索限十) 一项集。首先,找出频繁卜项集的集合。该集合记作厶 厶用于找频繁手项集的集合易而厶用于找厶,如此下去,直到不能找到频繁 项集。找每个厶需要一次数据库扫描。 频繁项集的所有非空子集都必须也是频繁的。如果项集,不满足最小支持 度阈值r a i n _ s u p , 则,不是频繁的,即尸亿j ( m i n _ s u p o 如果项a 添加到,则结 s 山东大学硕+ 学位论文 三! ! ! 苎! ! 鼍暑竺曼鼍= = ! ! ! ! = = ! 暑! ! ! = ! 詈詈! 詈! ! ! ! ! ! ! 皇詈詈皇皇喜! ! 皇! ! ! ! ! ! ! 皇! i li 鼍皇曼詈詈皇! 皇! 岂 果项集( 即i t a ) 不可能比,更频繁出现。因此i u a 也不是频繁的,即pf , u a ) ( r a i n _ s u p 。 如何用厶,找厶。下面的两步过程由连接和剪枝组成。 ( 1 )连接步:为找厶,通过“与自己连接产生侯选詹项集的集合。 该侯选项集的集合记作g 。设j ,和厶是厶,中的项集。记号j ,以玛 示l t 的第j 项( 例如,伍刃表示,的倒数第3 项) 。为方便计,假定事务或项集中的项按 字典次序排序。执行连接厶,一厶。,其中k 一的元素是可连接的,如果它们前( ) - 砂 个殒枢佩。即是l 卜l 镝元素i l 瓤j 2 跫可连强的。弧栗( i l e 幻= i 2 ( 1 ) ) ( 1 | f 2 ) = 12 ( 2 ) ) 八 ( 1 l ( k 一2 】= 1 2 e k 一2 j ) ( 1 l c k 1 3 1 2 c k 1 3 ) 。每犁l ie k 1 3 b ) = p ( a i b ) = s u p p o r t _ c o u n t ( a u b ) s u p p o r t c o u n t ( a ) 其中,s u p p o r tc o u n t 伪“是包含项集a u b 的事务数,s u p p o r t _ c o u n t 现堤包 含项集a 的事务数,根据该式,关联规则可以产生如下: 对于每个频繁项集五产生,的所有非空子集。 对于的每个非空子集s ,如果s u p p o r t _ c o u n t ( ) s u p p o c t _ c o u n t 9 山东大学硕t 学位论文 r a i n _ c o n f , 则输出规则“s 门- s ) ”。其中,r a i n _ c o a l 是最小置信度闽值。 由于规则由频繁项集产生,每个规则都自动满足最小支持度,频繁项集连同它 们的支持度预先放在散列表中,使得它们可以快速被访问。 山东大学硕十学位论文 第二章数据挖掘的方法论和c l e m n t i n 6 工具 本章丰要论述了数据挖掘常用的方法,以及使用数据数据挖掘工具通常采用 的c r i s pd m 六步骤。 2 1 方法论与工具 数据挖掘选择了世界上最通用的方法论c r i s p - d m ( 跨行业数据挖掘标准流 程) 作为项目的指导。c r i s p 一删把数据挖掘过程分为六个阶段,即商业理解、 数据理解、数据准备、建立模型、模型评估、结果发布。 目前在中国主流的通用( 区别于面向特定领域应用) 的数据挖掘系统主要有: s a s e m i b m i m s p s s c l e m e n t i n e s a s 由于其昂贵的价格以及只租不售的销售策略使得它在中国的市场上失去 了竞争力。相对来说s p s s 和i b m 的价格较为便宜( 注意:只是相对,实际上也是 很昂贵的) 是企业级数据挖掘系统的首选。根据k d n u g g e t s 的调查显示 s p s s c l e m e n t i n e 是市场上最常使用的数据挖掘系统。 c l e m e n t i n e 的优点有: 1 、所有数据挖掘系统中最美观的界面和最容易的操作 2 ,算法相当丰富提供主流的数据挖掘算法同时还能无缝集成强大的统计分 析软件s p s s 3 、结果美观易于管理且容易再利用 i b m i m 相比c l e m e n t i n e 来说很多方面没有优势,但是他最大的优势在于其算法 都是线性的,可伸缩性很强,也就意味着对特大型数据的处理速度比较快,这个 速度甚至超过s a s 作为独立使用数据挖掘工作c l e m e n t i n e 无疑是首选,方便而且快捷。 山东大学硕十学位论文 c l e m e n t i n e 是i s l ( i n t e g r a ls o l u t i o n sl i m i t e d ) 公司开发的数据挖掘工 具平台。1 9 9 9 年s p s s 公司收购了i s l 公司,对c l e m e n t i n e 产品进行重新整合和 开发,现在c l e m e n t i n e 已经成为s p s s 公司的又一亮点。作为一个数据挖掘平台, c l e m e n t i n e 结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮 助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得c l e m e n t i n e 在业界久负盛誉。 2 2 数据挖掘的具体步骤 以客户流失案例为基础简介电信领域数据挖掘的思路。共有六个步骤,具 体介绍如下: 一,商业理解 商业理解最重要的是业务问题的定义,业务问题的定义要求非常明确。任何 不明确的定义都会严重影响模型的准确和应用时的效果。例如:在客户流失分析 系统中,需要明确客户流失的定义。在客户流失分析中,主要有两个核心的变量: 1 、财务原因非财务原因;2 、主动流失被动流失。客户的流失类别根据这两个 核心变量可以分为四种,其中自愿的、非财务原因的流失客户往往是高价值的、 稳定的客户。他们会正常的支付自己的服务费用,并对市场活动有所响应。所以 这种客户才是我们真正想保持的客户。而真正在分析客户流失的状况时,我们还 必须区分公司客户与个人客户,不同服务的贡献率,或是不同客户消费水平流失 标准的不同。举例来说,对于同一种新服务替代原有服务的客户,是否作为流失 客户? 又或者,平均月消费额为2 0 0 0 元左右的客户,当连续几个月消费额降低到 5 0 0 元以下,我们就可以认为客户发生流失了,而这个流失标准就不能适用于原 本平均月消费额就为5 0 0 元左右的客户。实际上,在国外成熟的电信行业客户流 失分析系统中,经常是根据相对指标判别客户流失。市场调查表明,通常大众的 个人通信费用约占总收入的2 一7 ,当客户的个人通信费用降低到远远低于此比 山东大学硕士学位论文 例时,就可以认为客户流失发生。研究电信客户流失的时候我们会考虑以下的一 些问题: 1 现有的客户哪些客户即将流失? 2 现有客户他们的流失概率如何? 3 哪些因素造成了客户的流失? 4 客户流失对客户自身会造成什么影响? 5 客户流失对电信公司的影响如何? 6 不同类别之间客户的流失情况有什么差 别? 7 如果某个客户将要流失,他会在多长时间内流失? 以上的问题都可以在c l e m e n t i n e 中设计合适的数据挖掘流程来解决。研究哪 些客户即将流失时,将其定位为一个分类问题,即将现有客户分为流失和不流失 两类。所以,客户流失分析系统必须针对各种不同的种类分别定义业务问题,进 而分别进行处理。 二、数据理解 电信业数据挖掘中使用最多的数据是通话明细数据,这类数据的结构通常都 比较简单,包括呼出方电话号码、被叫电话号码、通话开始时间、通话时长、收 费方式( 如市话、长途等) 、不同计费服务( 比如呼叫转移服务等) 等,每个变 量都对应一个字段。通话明细数据通常从以下三个途径获得,一个是交换机直接 记录,这种来源的数据最为丰富但也最不干净,需要作的处理动作最多;第二类 是计费系统输入的数据,这一类数据比较干净,但不完整,比如某些免费电话就 不会记入;第三类是数据仓库提供的数据,这一类数据更为干净,但受数据仓库 设计之初结构的限制。 在这一过程我们还要考虑数据的选择。数据选择包括目标变量的选择,输 入变量的选择和建模数据的选择等多个方面。 l 、 目标变量的选择 目标变量表示了数据挖掘的目标,在流失分析应用目标变量通常为客户流失 状态。依据业务问题的定义,我们可以选择一个已知量或多个已知量的明确组合 作为目标变量。目标变量的值应该能够直接回答前面定义的业务问题。在客户流 山东大学硕士学位论文 失分析系统中,我们实际面对的流失形式主要有两种:账户取消发生的流失和帐 户休眠发牛的流失。对于不同的流失形式,我们需要选取不同的目标变量。对于 帐户取消发生的流失,目标变量直接就可以选取客户的状态;流失或正常。对于 帐户休眠发生的流失,情况就较为复杂。通常的定义是持续休眠超过给定时间长 度的客户被认为是发生了流失。但是,这个给定时间长度定义为多长合适呢? 另 外一方面,每月的通话金额低于多少就可以认为是客户处于休眠状态? 或者要综 合考虑通话金额,通话时长和通话次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国互动亭行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国二氧化钛行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国乳胶液行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国主题餐厅行业发展分析及发展前景与趋势预测研究报告
- 2025-2030中国中药材GAP基地行业竞争力剖析与投资效益分析研究报告
- 2025-2030中国中央空调清洗器行业市场发展分析及竞争格局与投资前景研究报告
- 2025-2030中国两轮摩托车行业市场发展分析及前景趋势与投资研究报告
- 2025-2030中国专项债券市场运营风险及未来发展格局分析研究报告
- 2025-2030中国三氯异氰尿酸市场投资建议与发展现状调研研究报告
- 农业资源合理利用与管理机制协议
- 食品安全案例-课件-案例十二-苏丹红事件
- 肝硬化失代偿期
- 2023年非车险核保考试真题模拟汇编(共396题)
- 2024年中国分析仪器市场调查研究报告
- “龙岗青年”微信公众号代运营方案
- DB11-T 478-2022 古树名木评价规范
- 施工现场扬尘控制专项方案
- 年度固定污染源排污许可证质量审核、执行报告审核技术支持服务 投标方案(技术标 )
- 五年级科学上册(冀人版)第17课 彩虹的形成(教学设计)
- 科学与文化的足迹学习通超星期末考试答案章节答案2024年
- 医院培训课件:《病区药品安全管理与使用》
评论
0/150
提交评论