




已阅读5页,还剩46页未读, 继续免费阅读
(应用数学专业论文)markov模型在电信客户流失预测中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中t l l 大学硕士学位论文m a r k o v 模型在电信客户流失顸测中的应用 m a r k o v 模型在电信客户流失预测中的应用 专业:应用数学 硕士生:芦陈辉 指导老师:姚正安教授 摘要 客户流失是所有电信企业所面临的严重问题,同时也是生存发展的主要障碍 如何利用电信企业长期积累的庞大的数据库资源,对客户的行为特征进行分析, 为决策层的决策提供支持,是目前电信企业迫切需求的若找到流失客户的特 征,就可以在那些具有相似特征的客户还未流失之前,采取针对性的措施,从而 减少企业的损失 从客户消费的记录可以看出,在数据挖掘领域这是一个解决多维不等长不平 衡时间序列的分类问题,解决这个问题是非常具有挑战性的鉴于m a r k o v 模型 在时间序列处理上的成功应用,本文将集中考虑如何将m a r k o v 模型用于电信的 客户流失预测中去。本文分三个步骤合理的解决了序列数据的多维、不等长、不 平衡这三个难点首先采用一种基于模型的聚类算法s 0 m 对序列数据进行 预处理,很好的处理了序列数据的多维性,并且保留了序列的特征;然后基于 m a r k o v 模型构建分类器,利用m a r k o v 模型的优点巧妙的解决了序列数据不等长 这个问题:接着再利用构建出来的分类器用于不平衡数据的向下取样,以此尽可 能的降低数据的不平衡性给分类器构建所带来的不利影响通过以上三个步骤, 最终输出了鲁棒性很强的分类器在这篇文章中,叙述了主要的理论和算法而 且通过大量的实验表明此方法在电信的客户流失预测中可以有效地判别客户的 类别 关键词:m a r k o v 模型客户流失向下取样s o m 聚类a u c i i 中山大学硕士学位论文 m a r k o v 模型在电信客户流失预测中的应用 m a r k o vm o d e li np r e d i c t i n gc u s t o m e r sc h u r n i n g f o rt e l e c o m m u n i c a t i o n si n d u s t r y m a j o r :a p p l i e dm a t h e m a t i c s n a m e :l uc h e n h u i s u p e r v i s o r :p r o f e s s o ry a oz h e n ga n a b s t r a c t c u s t o m e r sc h u r n i n gi sas e r i o u sp r o b l e mi nt e l e c o mi n d u s t r y , a n di ti st h em a i n o b s t a c l ef o rd e v e l o p i n g h o wt ou s et h ep l e n t yo fd a t a ,w h i c hs t o r e di nt h ed a t ab a s e b yt h et e l e c o mc o m p a n y , a n dt h e nd i gu pu s e f u li n f o r m a t i o nf o rt h eh a n d l e r sd e c i s i o n , i sb e c o m em o r ea n dm o r eu r g e n t i ff i n do u ta n yp a r t i c u l a rb e h a v i o ro fc h u r n e d c u s t o m e r , t h e ni nt h ef u t u r e ,a c c o r d i n gt ot h e s eb e h a v i o r s ,w ec a na d o p ts o m e m e a s u r e sf o rp r e v e n t i n gt h ec u s t o m e r sc i m m i n g a c c o r d i n gt ot h ec o n s u m er e c o r d so fc u s t o m e r s ,w ec a l lf i n dt h i si sac h a l l e n g e p r o b l e mi nd a t am i n i n gd o m a i n ,w h i c hi sc l a s s i f y i n gm u l t i - d i m e n s i o n ,v a r i a b l e - l e n g t h a n du n b a l a n c et i m es e r i e s b e c a u s eo ft h es u c c e s s f u la p p l i c a t i o no fm a r k o vm o d e l i nt i m es e r i e s ,w ew i l lf o c u so nh o wt ou s et h em a r k o vm o d e lt od i l lw i t ho u rp r o b l e m w ew i l ld i v i d et h ep r o b l e mi n t ot h r e ep a r t s ,a n du s et h r e et o o l st os o l v et h e m s t e p o n e ,w eu s eam o d e l b a s e dc l u s t e r i n gt oc o n v e r tt h er e c o r d si n t oo n ed i m e n s i o n ;s t e p t w o ,w ec o n s t r u c tac l a s s i f i c a t i o na l g o r i t h mw h i c hb a s e dm a r k o vm o d e l ,a n dt h i s m o d e lc a l la v o i dt h ep r o b l e mo fv a r i a b l e - l e n g t hs e r i e s ;s t e pt h r e e ,w eu s et h e c l a s s i f i c a t i o na l g o r i t h mf o ru n d e r - s a m p l i n g ,w h i c hc a r ls o l v et h eu n b a l a n c ep r o b l e m f i n a l l y , w eg e tar o b u s tc l a s s i f i c a t i o na l g o r i t h m i nt h i sp a p e r , w ed e s c r i b et h e t h e o r ya n da l g o r i t h m sf o rt h et a s k ,a n de m p i r i c a l l yd e m o n s t r a t et h a tt h em e t h o di s e f f e c t i v e k e yw o r d s :m a r k o vm o d e l ,c u s t o m e rc h u r n i n g ,u n d e r - s a m p l i n g ,s o m ,a u c i 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 第一章引言 本章主要是介绍本文研究的实际背景,确定此问题的在数据挖掘中理论范 畴,然后通过对国内外在此领域的相关研究工作的分析,以及本文研究内容、方 法描述,确定出本文的研究意义和主要贡献 1 1 论文的实际背景 随着市场竞争的激烈化,在通讯领域,客户选择服务商时面临着多种选择 这也造成了越来越多的客户从一个机构的服务商跳到另一个服务商,这种现象对 服务商来说称为客户的“逃离”或者“损失”为了盈利,服务商或企业和公司 都要考虑这个重要的问题服务商或企业判断哪些是可能逃离的客户,从而可以 制定相应措施防止客户逃离是非常重要的 在移动通信领域,用户的客户流失是一个长期以来困扰全球移动电话运营商 的难题在欧洲,每年有3 5 5 0 的客户流失;而获取一个新客户的平均成 本超过$ 7 0 0 ,这几乎相当于一个客户5 年内给公司带来的净利润这种情况直接 导致客户回报率的f 降根据流失的客户和没有流失的客户性质和消费行为,进 行推理分析,建立客户流失预测模型,分析哪些客户的流失概率较大,流失客户 的消费行为如何,正成为通讯公司面临的重要课题 在国内,中国电信业的未来发展,一靠技术,二靠管理到目前为止,中国 电信企业在技术方面堪称世界一流,但是在管理方面始终稍逊一筹其中客户流 失是所有电信企业都大为头疼的问题,同时也是电信企业生存发展的主要障碍 目前许多电信运营商用了很大力气去积累有关客户的信息,但是并不能有效地进 行客户关系管理,因为信息只是一些原材料经过组织、分析并理解后,才可以用 来构建成有关客户的知识而数据挖掘技术就可以完成对信息的处理,用合理的 数据挖掘方法处理此类问题将具有很大的应用价值i 司时要指出的是这往往是 一个处理不平衡数据的现实问题在现实中流失的客户毕竟是少数,如在的本文 问题中只有不到5 的客户是逃离的,这将会给问题的解决带来不少的难题 中山大学硕士学位论文m m k o v 模型在电信客户流失预测中的应用 本文所选取的数据集从很多方面来看这都是一个困难问题首先,这些数据 是不平衡的,正例即逃离客户占得比例低于5 其次,每一个数据记录是由每 月帐单组成的一个时间序列,从帐单中也可以抽取大量的属性进一步,这些时 间序列是不等长的,有一些很长,同时有一些很短再次,根据资料显示,客户 是何时逃离是未知的一些客户完全有可能已经把主要消费项目转到电信的竞 争对手中去了,但还在电信保持了一些基本功能 1 2 相关的研究工作 在机器学习和数据挖掘的研究中,客户逃离问题是在对费用敏感 ( c o s t - s e n s i t i v e ) 的分类和排列问题中提出来的 1 0 ,5 ,6 ,1 2 例如,在k d d c u p 9 8 竞赛中,客户逃离问题就是中心点但是,电信公司中的来源于市场的实际问题 提出了更多新的挑战首先,类似于传统的不平衡问题,电信公司中的数据也是 高度不平衡的,只有5 的客户是真正逃离了其次,不像k d d c u p 9 8 的问题, 电信数据本质上就是序列形式的,其中序列中的元素是多维的,而且序列是不等 长的在序列数据中,很多传统的方法如都不能被直接使用另外目前对客户流 失分析常用的方法有自动聚类、决策树和人工神经网络 2 ,3 ,4 ,但它们都要求数 据量比较丰富,而且模型的训练有一定的困难 不平衡数据的分类是k d d 竞赛中的一个主要任务例如,一个著名的基准 数据集是k d d c u p 9 8 的数据集,这个数据集是从1 9 9 7 年美国瘫痪退役军人的 邮件筹款活动结果中整理出来的这个数据集是不平衡的,只有5 的邮件有回 信优胜方法的主要特点是根据估计的客户可能回应率把客户排队,相应的工作 包括【1 0 考虑到回应的可能性和捐款数目之间的负相关性,一个解决方法是应 用费用敏感( c o s t - s e n s i t i v e ) 的学习,其中错误的正例划分和负例划分将和概率 估计统一在一起综合估计【5 】提出了一个m e t a c o s t 的框架,通过整合进费用矩阵 c ( i ;j ) ( 表示当把真实是,类的错分为f 类时费用) ,把基于精确度的分类改进成 费用敏感学习 1 3 考虑了更一般的例子,其中的费用不仅涉及到类,而且和个 人客户有关 在数据挖掘和知识发现中,序列学习已经引起了很多研究者和实践者的特别 2 中山大学硕士学位论文 m a r k o v 模型在电信客户流失预测中的应用 兴趣过去已经提出了很多技术和应用,包括使用有限状态操作的模型、用于 w e b 挖掘的基于模型的马尔町夫分类和聚类方法、用于市场分析的基于关联规则 的方法等等在这些过去的工作中,用户行为的挖掘是很多研究和应用中的中心 问题由于对大数据库和基于w e b 的系统,人工地提供标签信息是困难的,很多 研究者已经把无监督的学习方法,如序列聚类方法用于序列数据中 在聚类上,w e b 研究学者如c a d e z 等用一阶马尔可夫模型对用户行为进行了 分类,这些模型用e m 算法进行训练这些聚类算法通过可视化来揭示了用户浏 览网页行为的内部特征 在本文中将会涉及到用多种传统、经典的分类算法,其中有1 一类或者多类 s v m 、决策树、k n n ( k 近邻) 利用决策树进行分类有其自身明显的优点,如 产生的分类规则易于理解、速度相对较等,但会出现过拟合s v m 在机器学习领 域中占有重要的地位,在很多的领域中得到成功的应用,但是当越来越多实验者 将其应用到不平衡数据集中时,发现s v m 分类算法所得到的分类结果会严重的 偏向其中的一类,结果并不理想,具体请参考文献 1 5 1 ,文中是采用转换特征空 间的方法来解决不平衡问题而在 1 6 】中阐述了对不平衡数据进行分类, o n e c l a s ss v m 体现出明显的优势,但是参数和核的选取敏感,这个缺点同样体 现在2 - c l a s ss v m 中文章 1 4 】是k n n 分类算法在不平衡数据分类问题中的应 用,在其所用的数据集中具有良好的分类效果,但是分类算法对样本选择的数量 比较敏感,值得指出的是随机选择样本的效果会比利用抽样方法后所做的结果要 好 1 3 本文的主要工作及意义 本文面对的是一个新问题,比序列长度为1 的特殊情况要复杂得多本义工 作的最重要特性是使用了一种合理的数据预处理方法,从而将数据项转化成了包 含时间特性的单维数据通过这个转换后,再利用m a r k o v 模型避免序列数据不 等长所带来的问题然后针对数据的不平衡性,在做分类的时候用分类器对样本 的多数类( 在本文中是指未逃离客户) 做了向取样,不断的调整训练样本集 在这篇文章里,采用的是一种基于m a r k o v 模型的分类方法,同时将会用这 中lj 大学硕士学位论文 m a t k o v 模型在电信客户流失预测中的应用 个模型针对数据的不平衡性做出适当的向下取样,通过比较得到:这个方法可以 得出一个理想的结果。 尽管本文的方法与以往的研究有些相似,但以往方法都是针对非序列数据的 更进一步,它们仪仅考虑了最大化分类精度或者相关的标准( 如最大化利润) , 而没有很好地给出客户重要性的一个排序在本文的工作中,集中考虑了通过最 优化a u c 来对序列数据进行排序 9 】研究了把a u c 作为衡量费用敏感分类问 题的总体标准,表明了总体上a u c 比精确度有更好的区分度 本文把逃离客户分为正类,没有逃离的客户定为负类本文的主要方法包括 两个步骤:首先本文用基于模型的聚类算法来聚类然后,通过聚好类的数据来 构造模型再用构造出来的分类模型用于样本的向下取样,不断调整训练集,训 练出更优的分类模型通过大量实验,发现本文的算法在大规模数据集上非常有 效 本文的主要有以下三个贡献:第一,使用了一种聚类方法,把多维的数据项 转变成一维的值:第二,把转变后所得到的值作为m a r k o v 模型中的状态值,用 于构建基于m a r k o v 模型的分类器的构建:第三,用m a r k o v 分类器进行向下取 样,调整训练集得到性能良好的m a r k o v 分类器本为提供了一个良好的解决方 案,用于解决一个具有挑战性的实际问题。 4 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 第二章聚类分析 本文是通过聚类的方法为数据进行预处理,这是m a r k o v 模型中状态确定的 关键,因此选择一个合适的聚类算法对本文也非常重要本章将对聚类算法的整 体做简单的概述,比较各类聚类算法的优缺点最后会着重介绍本文最终选择的 聚类算法s o m 2 1 聚类分析概述 聚类分析是将总体中的个体分类以发现数据中的结构在某种意义上,希望 一个类内的个体彼此接近或相似,而与其它类内的个体相异 聚类问题可以定义如下:给定d 维空间的n 个数据点,把这n 个点分成k 个 组。即满足最大的组内相似性和最小的组间相似性,使得不同聚类中的数据尽可 能地不同,而同一聚类中的数据尽可能地相似 3 1 聚类分析主要解决的问题就 是如何在没有先验知识的前提下实现满足这种要求的聚簇的聚合聚类分析称 为无监督学习( u n s u p e r v i s e ds t u d y ) ,主要体现在聚类学习的数据对象没有类别 标记,需要由聚类学习算法自动计算 随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,积累 了大量的数据,而这些数据后面隐藏着许多重要的信息,因此人们希望能够对其 进行分析,从中提取有价值的信息数据聚类正是解决这一问题的有效手段之一 它是数据挖掘的重要组成部分,用于发现在数据库中未知的对象类,为数据挖掘 提供有力的支持,广泛地应用于相似搜索、顾客划分、趋势分析等领域中,它是 近年来广为研究的问题之一聚类本身是一个极富有挑战性的研究领域,采用基 于聚类的方法的数据挖掘在实践中已取得了较好的效果聚类分析也可以作为 其他一些算法的预处理步骤,聚类可以作为一个独立的工具来获知数据的分布情 况,使数据形成簇,其他算法再在生成的簇上处理,聚类算法既可作为特征和分类 算法的预处理步骤,也可将聚类结果用于进一步关联分析迄今为止,人们提出 了许多聚类算法 3 2 ,3 3 ,所有这些算法都试图解决大规模数据的聚类问题 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 2 2 主要聚类算法的分类 聚类分析是作为数据挖掘中的一个重要的研究领域,已经提出了许多聚类算 法目前文献中存在着大量的聚类算法,通常可以分为基于划分的、基于层次 的、基于密度的、基于网格的和基于模型的聚类方法五大类,下面对这些算法类 型逐一做简单的介绍 2 2 1 基于划分的聚类 给定簇数目k 和目标函数日,划分聚类算法把对象数据,记为d ,划分成足 个簇,使得目标函数在此划分下达到最优,同时满足如下要求:( 1 ) 每个簇至少 包含一个对象;( 2 ) 每个对象必须属于且只属于一个簇注意在一些模糊划分技 术中第二个要求可以放宽划分算法把聚类问题转化成一个优化问题。从一个初 始划分或者一个初始聚点集合开始,利用迭代控制策略优化目标函数,尝试通过 对象在划分问移动来改进划分判断一个划分是否合理,一般会采用一个划分准 则( 通常称为相似度函数) 例如距离,使得在同一簇中的对象之问尽可能“接 近”或相关,而在不同簇中的对象之间尽可能“远离”或不同流程如图2 一l 所 不: 图2 1 基于划分的聚类的流程图 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 下面是基于划分最常用的一个聚类算法k 一平均 名称k 平均 输入: 簇的数目k ,对象数据d 输出: k 个簇,使平方误差准则最小 步骤:算法 1 任意选择k 个对象作为初始的簇中心 2 重复 3 根据簇中对象的平均值,将每个对象( 重新) 赋给最类似的 簇 4 更新簇的平均值,即计算每个簇中对象的平均值 5直到不再发生变化 常用的基于划分的聚类算法还包括:k 一中心点法,c l a r a ( c l u s t e r i n gl a r g e a p p l i c a t i o n ) 法和c l a r a n s 法等 划分算法一般要求将处理过程中的数据装入内存,例如:k - m e a n s 要将样本 之间的两两距离存入内容,一个长度为n 的数据集,在聚类过程中要进将会生成 n x n 的矩阵,通常距离是一个f l o a t 型的数字,这大大加重的内存的负担这 点限制了它们在大规模数据上的应用,同时划分算法只使用某一固定的原则来决 定聚类,这就使得当聚类的形状不规则或者大小差别很大时,聚类的结果不能令 人满意, 2 2 2 基于层次聚类方法 把对给定的数据对象集合按层次进行分解,结果是形成一棵以数据子集为节 点的类别树根据层次分解的方式不同,其又可以分为凝聚的层次方法和分裂的 层次方法凝聚的层次方法,也称为自底向上的方法,一开始将每个对象作为独 立的一个组,然后相继地合并相近的对象或组,直到所有的组并为一个,或者达 到个终止条件分裂的层次方法,也称为自顶向下的方法,一开始将所有的对 7 中山大学硕士学位论文 m a r k o v 模型在电信客户流失预测中的应用 象放入一个组中在迭代的每一步中,一个组被分为更小的组,直到最终每个对 象在单独的一个组中,或者达到一个终止条件 步 步二 步三 步四 分裂 凝聚 步四 步三 步二 图2 2 在数据对象集合 a ,b ,c ,d ,e 上的凝聚和分裂层次聚类 现在比较常用的层次聚类方法有b i r c h 、c u b e 、r o c k 、c h a m e l e o n 、ag n e s 、 d i a n a 等 层次方法要求人工的给定一个合并或分解的终止条件,例如聚类的个数或者 两个聚类间的最小距离层次聚类的优点在于算法能得到不同粒度上的多层次 聚类结构,缺点在于一旦一个步聚( 合并或分裂) 完成,它就不能被撤消 2 2 3 基于密度的聚类方法 这种算法的主要思想为:只要临近区域的( 对象或数据点的数目) 超过某个 闽值,就继续聚类,这样就能很好的过滤掉“噪声”数据,发现任意形状的簇基 于密度的聚类方法主要分为两种,一种是基于高密度连接区域的密度聚类,其典 型算法有d b s c a n 、o p t i c s ,另一种是基于密度分布函数的聚类,其典型算法是 d e n c l u e 基于密度的聚类的基本想法会涉及一些新的定义在此给出这些定义: 给定对象半径s 内的区域称为该区域对象的s 领域 如果一个对象的s 领域至少包含最小数目m i n p t s 个对象,则称该对象为 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 核心对象 给定一个对象结台d ,如果p 是在q 的s - 领域内,而p 是核心对象,称 对象p 从对象q 出发是直接密度可达的 如果存在一个对象链a ,p 2 ,n ,p l = 吼p 。= p ,对只d ,( 1 i ”) ,只“ 是从肛关于s 和m i n p t s 直接密度可达的,则对象p 是从对象q 关于和 m i n p t s 密度可达 如果对象集合d 存在一个对象集合o ,使得对象p 和g 是从。关于和 m i n p t s 密度可达,那么对于p 和q 是关于s 和m i n p t s 密度相连的 基于密度的聚类方法将簇看作是数据空间中被低密度区域划分开的高密度 对象区域。其优点是一遍扫描,并可以在带有“噪声”的空间数据库中发现形状任 意、个数不定的聚类 2 2 4 基于网络的聚类方法 基于网络的聚类方法采用一个多分辨率的网络数据结构,它将空间量化为 有限个数据的单元,这些单元形成了网络结构,所有的聚类操作都在网络上进行, 基于网络方法的有代表性的例子包括:s t i n g ,它利用存储在网络单元中的统计 信息;w a v e c l u s t e r ,它用一种小波转换的方法来聚类:c l i q u e ,它是在高维数 据空间中基于网络和密度的聚类算法 但是所有的网格聚类算法都存在量化尺度的问题。一般来说,划分太粗糙造 成不同聚类的对象被划分到同一个单元的可能性增加( 量化不足) 相反,划分太 细致会得到许多小的聚类( 量化过度) ,通常的方法是采用先从小单元开始寻找聚 类,再逐渐增大单元的体积,重复这个过程直到发现满意的聚类为止 这种方法的优点是处理的速度快,其处理时间独立于数据对象的数目,仅依 赖于量化空间中每一维上的单元数目 9 中山大学硕士学位论文 m a r k o v 模型在电信客户流失预测中的应用 2 2 5 基于模型的聚类方法 给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集 常用的模型又可分为基于统计的方法和基于神经网络的方法典型的基于模型 的聚类方法包括统计学方法,如c o b w e b 、c l a s s i t 和a u t o c l a s s ,神经网络方法, 例如有竞争学习和白组织映射( s o m ) 基于模型的方法的缺点:其中的一些方法( 如c o b w e b ) 是在假定根据统计得到 的对于单个属性的概率分布函数和其它的属性之间是独立的,但实际上在两个属 性之间通常会存在一些联系 作为神经网络聚类的一种著名方法s 0 m 法,是一种无监督的聚类方法,它 是通过反复学习来聚类数据的。其聚类过程也是通过若干个单元竞争当前对象来 进行的此方法以其所具有的无监督学习、可视讫、拓扑结构保持以及概率保持 等特性,广泛应用于聚类分析、图像处理、语音识别等众多信息处理领域s o m 聚类算法对领域知识的依赖性比较小,噪音对其聚类影响的敏感性也比较小,另 外s 0 m 对处理高维数据的能力也较强,其最大的局限是,当学习模式较少时,网络 的聚类效果取决于输入模式的先后顺序鉴于本文实验的对象具有较大的数据 量,其中又有明显的异常点,并且缺乏相关领域的先验知识,因此在的分类过程 中的聚类预处理将会采用s o m 这个聚类算法,下一节将会对s o m 聚类算法作详细的 介绍 2 。3s o m 聚类 2 3 1 概述 t k o h o n e n 在1 9 8 1 年提出了s o m 的概念,并给出了相应的k o h o n e n 神经 网络模型由于k o h o n e n 网络的自动调整过程模仿了人类大脑的自组织过程, 因而它可以用来模仿有关外界信息载入人脑时,自组织形成概念的过程 其主要功能是将输入的n 维空间数据映射到低维度“通常是一维或者二维” 1 0 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 输出,同时保持数据原有的拓扑逻辑关系,与其他类型神经网络的区别在于,它 不是以一个神经元或网络的状态矢量反映分类结果,而是以若干神经元吲时反映 分类结果 s o m n 络由输入层和输出层,输入层中的每一个神经元通过权与输出层中的 每一个神经元相联,如图2 3 所示: 图2 3s o m 输入输出示意图 输入层 s o m 网络利用其自组织特性,通过自调整进行信息的特征提取或称聚类这 种白组织聚类过程是系统在自主、无导师指导的条件下完成的 s o m 网络的学习过程可分为以下两步: ( 1 ) 神经元竞争过程 对于每一个输入样本,通过输入向量值与权重值之间的比较,在神经元之间 产生竞争,权重向量与输入模式最相近的神经元被认为对于输入模式反映最强 烈,将其标定为“获胜神经元”,并称此神经元为输入模式的像,相同的输入向 量会在输出层产生相同的像 ( 2 ) 竞争层神经元的侧反馈过程 为了使接近“获胜神经元”的其他神经元的权值向“获胜神经元”靠拢,而 使远离“获胜神经元”的神经元的权值远离“获胜神经元”,从而在输出层能够 将特征进行聚集,以便于在输出层中相互靠近的位置可以找到类似的特征,需要 在输出层中引入侧反馈,侧反馈是在输出层建立的反馈连接,反馈的大小和类型 “兴奋或抑制”,用侧向权值表示侧向权值是输出层阵列内神经元之间距离的一 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 个函数,它决定了哪种侧向连接将产生预期的结果 在竞争层上,邻近神经元相互激励、远邻神经元相互抑制,比远邻更远的神 经元则表现弱激励作用,通常,用“墨西哥小帽”函数对神经元侧反馈进行计算 交互作用厂 。 、 vv 7 侧向距离 图2 4 “墨西哥小帽”函数 应用侧反馈原理,在每个“获胜神经元”附近形成一个“聚类区”学习的 结果是使聚类区内各神经元的权重向量保持向输入向量逼近,从而使具有相近特 性的输入向量聚集在一起,这个过程被称为自组织 2 3 2 算法步骤 为了能够进一步了解s o m 的聚类过程,在此就s o m 的算法步骤做详细的叙述, 具体步骤如下: 步骤一:初始化将网络的连接权 赋予 0 , 1 之间的随机值,确定学习速率 叩o ) 的初始值吁( o ) ( 0 口( o ) 1 ) ,确定。( f ) 邻域的初始值。( f ) 步骤二:任选个学习模式中的一个模式最提供给网络的输入层,进行归一化 处理: 瓦= 南= 丽等孺 , 步骤三:对连接权矢量髟= ( ,:,玎) 进行归一化处理,计算与最之间 的欧式距离: 中山大学硕士学位论文 m a c k o v 模型在电信客户流失预测中的应用 衫2 南2 而筹铬, 2 , 嘭= 弦一嘲”俨啦,叭 c z s , 步骤四:找出最小距离以,确定获胜神经元g : 吐= a r g m i n ( d j ) ( j = 1 ,2 ,m ) ( 2 4 ) 步骤五:进行连接权的调整对竞争层邻域以( f ) 内所有的神经元与输入层神经 元之间的连接权进行修正: 啄丽= 丽州,) p 一丽 ,( 2 - 5 ) 其中( ,n g ( f ) ,= l ,2 ,m ;i = 1 ,n ,0 口( f ) 1 ) , 步骤六:更新学习速率_ ( f ) 及邻域。( f ) : - ( f ) = - ( 。) ( 一; , ( z s ) 式中:口( 0 ) :初始学习速率:f :学习次数:t :总的学习次数 设竞争层某神经元g 在二维阵列中的坐标值为( x g ,y 。) ,则邻域的范围是以点 ( + 扎( r ) ,y g + 。( f ) ) 和点( 一致( f ) ,一扎( f ) ) 为右下角和左下角的正方形 其修正公式为: 嗽,= 1 n t n g , , 式中:扎( o ) 表示。( r ) 的初始值 步骤七:选取另一学习模式提供给网络的输入层,返回至步骤三,直至n 个学 习模式全部提供给网络 步骤八:令t :h 1 ,返回步骤二直至t = t 为止 中山大学硕士学位论文m 蹈k o v 模型在电信客户流失预测中的应用 第三章m a r k o v 模型 本文主要是利用基于m a r k o v 模型来进行分类的,因此m a r k o v 这个模型的概 念在本文当中是相当重要的,故在此作详细的介绍本章主要介绍m a r k o v 模型 的统计基础,以及m a r k o v 模型在各个领域中的应用 3 1m a r k o v 模型概述 m a r k o v 过程是随机过程模型中的一种,它是2 0 世纪初由前苏联学者m a r k o v 首先提出,自2 0 世纪6 0 年代以来,m a r k o v 过程模型得以迅速发展和逐步完善 7 】 马尔柯夫链作为是一种特殊的随机过程,是研究随机事件变化趋势的一种方 法它表明事物的状态由过去转变到现在,再由现在转变到未来,一环扣一环, 像一根链条其特点是“无后效性” 定义3 1 :随机序列 以,n 0 ) ,在任一时刻n ,它可以处在状态毛,s :,一。, 且它在时刻m - t - 1 所处的状态为s 。的概率,只与它在m 时刻的状态j 。有关,而 与m 时刻以前它所处的状态无关从概率的角度来看就是: p ( x 。= s 。1 乞= s ,x 。一= s 。 ,x i = q ) = p ( x 。= s 。i x = s ,) , ( 3 一1 ) 其中j ,( s l ,s 2 ,s ) 则称以为离散时间的m a r k o v 链 若把j 0 的状态理解为“现在”则x o ,x 一和x n + 的状态分别表示 j 0 ) 的 “过去”和“将来”于是,( 3 - 1 ) 式表明若已知序列 以) 现在的状态,则( 从概 率分布律的观点来看) 这序列将来的演变与它过去历史无关换句话说,序列过 去的全部历史提供的信息都能通过他现在的状态反映出来这种性质称为 m a r k o v 性,即无后效性( 3 - 1 ) 式右边的条件概率是已知序列在时刻m 处于状态s 。 时,经过单位时间后它在时刻肌+ 1 转移到状态j 。的概率,如果这概率不依赖于 m ( 从而可记为胁) ,称它是平稳的,具有平稳转移概率的m a r k o v 链称为齐次 1 4 中i l l 大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 m a r k o v 链 定义3 2 :设e 为状态集,转移概率有如下性质:对于任意的f ,ee , 0 毋1 ,岛= 1 可以把转移概率写成如下矩阵形式 p = p 1 1 只2 p 2 1 p z 2 p 1 n p 2 n p u l p 2 + p n n ( 3 - 2 ) ( 3 3 ) 称之为转移概率矩阵 对于任意的正整数n 和任意的j 。,s 。e ,由条件概率性质和m a r k o v 性知n 维联合分布 p ( 凰= ,以一。= s n - i 以= ) = 尸( 五= j 。) 只,。只。见。 类似于一步转移概率岛可以定义k ( k 2 ) 步转移概率 岛壮l p ( x o + 。= ,阮= i ) f ,j e 和t 步转移概率矩阵 p ( ”;( 蝶) 盔砘 p :p 乏 氏 p 知 贰。p :p u u ( 3 - 4 ) ( 3 - 5 ) ( 3 6 ) 这个可以通过归纳法得到: 岛= 谚硝 f e ,( 3 7 ) ,e e 其中西”= 毛,这是著名的c h a p m a n - k o l m o g o r o y 方程 从上述看出,状态转移矩阵p 是描述m a r k o v 链的重要参数但要完全描述 m a r k o v 链,还需要引入初始概率矢量三= ( p ,口,) ,其中6 1 i = p ( x t = 最) ,v f 显 然有0 口。1 , z q = 1 中t l j 大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 3 2m a r k o v 模型的应用 m a r k o v 模型近几十年来都是众多学者的研究对象,不同领域的研究人员将 其广泛的应用到各个领域中由m a r k o v 模型延伸得到的隐m a r k o v 模型,半 m a r k o v 模型,m a r k o v 网,在不少领域上得到了的成功应用,其中涉及到语音、 故障检测、图像处理、视频分类,甚至客户关系管理等众多领域 由m a r k o v 理论所发展出来的m a r k o v 众多模型中,隐m a r k o v 模型( h m m s ) 的应用最为广泛【8 1 ,h m m s 是因为在近二三十年来在语音识别方面的成功应用 而得到广泛的关注【1 7 专门对h m v s 在语音识别方面的应用作了详细的介绍 对h m s 算法的参数估计在本世纪六、七十年代得到了充分的发展 8 ,1 9 ,2 0 2 1 ,2 2 是率先将h m m s 应用于语音识别,【1 7 ,2 3 ,2 4 发展了h m m s 在语音识别 领域的应用除了语音识别领域,h m m s 的应用扩展到了手写文字的识别上 【2 6 , 2 7 ,2 8 ,2 9 ,3 0 ,分子的模式识5 l j 3 4 ,3 5 ,3 6 ,3 7 ,经济学领域 1 4 ,1 5 ,4 0 ,时间序 列领域 4 1 ,以及信号处理, 4 4 o c a k 等人提出了i - i m m s 在轴承故障检测中的 应用近年来m a r k o v 链也广泛应用于模拟自然灾害过程,其深度和广度也在不断 地拓展 2 5 1 m a r k o v 场( m r f ) 模型应用在图像研究领域也已经有很长的历史了 【3 8 ,3 9 , 8 】用隐马尔可夫模型对电视节目作5 种视频场景的分类,天气预报、 新闻、广告、足球和篮球在客户关系管理中,m a r k o v 模型的运用也越来越受 重视 4 2 , 4 3 在客户关系管理中的成功运用是因为逃离型的客户不具有明显的忠诚度,所 以该种客户下期对服务商的选择,是在本期服务商选择的基础上,根据当时各服 务的促销、价格、服务和广告等因素决定的,而受此前状况的影响较弱这一 无后效性的特点,符合m a r k o v 过程要求因此,对逃离客户的分类上用m a r k o v 模型时有其模型上的合理性 在 1 5 d p ,作者是通过对最优邮寄策略( o p t i m a m a i l i n gp o l i c y ,o m p ) 模 型的分析,提出了动态客户关系管理的概念及模型o m p 模型是由g o n u l 等 人提出的,其研究对象是直接邮寄行业,在客户最大化效用及直邮商最大化利润 的动态环境下研究最优邮寄策略的直接决定因素文章中客户的状态及其演变, 也就是m a r k o v 模型中的状态的确定由先验知识给出在度量客户购买行为的主 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 要特性中,基本的细分客户的基础是流失时f 司( r e c e n c y ) ,购买次数( f r e q u e n c y ) , 购买金额( m o n e t a r yv a l u e ) ,即知名的r f m 分类法,因为不考虑购买的金额, 故只以流失的时间,连续购买的次数决定因为对m a r k o v 模型的应用的难点是 在于模型状态的确定,因此在这篇文章中充分的先验知识成为此问题解决得关 键 本文虽然解决的问题与以上有比较大的相似之处,但是本文并未运用先验知 识,而是用特殊的方式来确定m a r k o v 模型的状态确定的难题,并且实验结果表 明此方法的有效性 1 7 中山大学硕士学位论文m a f k o v 模型在电信客户流失预测中的应用 第四章电信客户流失的m a r k o v 分类模型 本章将首先介绍分类问题的传统思路,然后根据这个思路对电信客户流失问 题和解决思路进行概述文中将重点介绍l a r k o v 分类模型的在电信客户流失分 类中的具体过程,其中会重点介绍文章的三个重点,预处理、分类器构造和向下 取样 4 1 分类问题概述 数据的分类可分为两个过程第一步,建立一个模型,描述预定的数据类集 或概念集通过分析由属性描述的数据库元组构造模型假定每个元组属于一 个预定的类,由一个称作类标号的属性确定对于分类,数据元组也称作样本、 实例或对象为建立模型而被分析的数据元组形成训练数据集训练数据集中 的单个元组称作训练样本,并随机的由样本群产生由于提供了训练样本的类称 号,该步也称作有指导的学习( 即模型的学习在被告知每个训练样本属于哪个类 的“指导”下进行) 它不同于无指导的学习( 或聚类) ,那里每个训练样本的 类标号是未知的,要学习的类集合或数量可能事先不知道第二步,使用模型进 行分类,同时用合理的指标对估计模型的预测准确度进行度量 为了得到尽可能准确地分类效果,通常要先对数据进行清理,这是为了消除 或减少噪声和处理空缺值,尽管大部分的分类算法都有处理噪声和空缺值的机 制,但该步骤有助于减少学习时的混乱接下来便是对数据的变换,数据可以概 化为较高层的概念例如将数据进行规范化,从而来消除属性与属性之间数量级 的差异,或者将连续的数据离散化,将多维的数据转化为低维的数据等等,这通 常都会为提高分类的效果、算法的速度等方面带来贡献 在本文要解决的是一般二类的分类问题,具体的步骤采取传统的流程,先是 对数据进行清理,然后再由针对性的对数据项进行变换,达到降维、离散的目的, 然后再用基于m a r k o v 模型进行分类,此间考虑到数据的不平衡性将会用基于分 类器本身进行向下取样,调整训练集最终得到分类结果与一般的二类分类问题 1 8 中山大学硕士学位论文m a r k o v 模型在电信客户流失预测中的应用 输出不同的是本文最终对一个测试样本的分类结果并不是一个具体的类标,而是 一个相对的概率值,这用于a u c 指标评价,a u c 在下一章会有具体介绍在此为 了方便,本文把流失的客户记作“正例”,用“+ 1 ”表示,为流失的客户记作“负 例”,用“一l ”表示当客户的概率值越接近1 就越有可能是正例,当客户的概 率值越接近0 则越可能是负例在应用中一般需要给出一个具体的类标,那么可 以设置一个具体的阂值口,当样本通过分类模型得到的输出大于a 时,则记为正 例,反之则记为负例至于口的具体取值可根据正负例的错分代价决定 4 2 客户流失问题的描述 4 2 1 问题的现实描述 中国电信的分析专家从数据库中提取客户信息,根据客户的消费记录挑选出 认为可能逃离的客户,然后对其中一部分的客户,通过问卷调查的方式询问客户 是否已经放弃了中国电信的服务然后对通过这些反馈的信息分析逃离客户的 行为特征,根据这些分析得到的判别依据,即逃离客户的行为特征在对有问卷调 查结果的客户进行分类,判断其是否逃离,再从结果中挑选出了两万多条用专家 提取出来的规律难以解释的客户本文的工作任务就是用数据挖掘的方法,对这 两万多个数据进行分类,希望能够得到较好的结果 从本文的任务来看,这是非常有挑战性的问题: 第一、因为这两万多条的数据是专家挑选出来的,即正负例样本的特征比较 相似,从分类的角度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 做安装合同范例
- 兼职货车司机劳务合同范例
- 智慧树知到《质量管理(山东建筑大学)》2025章节测试附答案
- 智慧树知到《脂肪的秘密-认识肥胖与健康(浙江大学)》2025章节测试附答案
- 智慧树知到《艺术概论(云南艺术学院)》2025章节测试附答案
- 智慧树知到《教师口语艺术(鲁东大学)》2025章节测试附答案
- 浙教版八年级数学下册教学工作计划
- 2025年职高信息技考试题及答案
- 2025年手术室院感试题及答案
- 信息化建设在医管合力中的作用
- GB/T 5510-2024粮油检验谷物及制品脂肪酸值的测定
- 医院护理人员末位淘汰管理制度
- 英语雅思8000词汇表
- 护士2024思想汇报5篇
- 电力系统应急物资储备手册
- 中医馆痔疮治疗方案
- 电梯安全检测招标文件
- 配送异物控制方案
- 双重血浆置换
- 2024年贵州省六盘水市中考二模道德与法治试题
- 中班语言《玩具火车轰隆轰隆》课件
评论
0/150
提交评论