版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、CC匡巒技越袁圧堞数据挖掘技术在客户分析中的应用祖巧红1胡吉全2陈定方2(1,2.武汉理工大学物流工程学院,武汉 430063)摘 要:本文对五种数据挖掘预测算法分别进行介绍,并结合实例对各种方法适用的情况进行了比较,以便在对客户的不同情况进行分析的时候采取有效的预测方法。其中,回归预测是比较传统的预测方法,常根据历史记录分析得出总体趋势;决策树方法是一种类似于“枝丫”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测,来解决 定性分析的问题;神经网络方法主要对客户行为进行分析和预测,从定量的角度进行分析; 聚类和邻点预测方法主要是对未来数据进行预测;规则导引则是从一个样本数
2、据库中发现并归纳出“数据行为”模式。关键词:数据挖掘 决策树神经网络聚类邻点预测1. 综述理论上,数据挖掘技术或方法有很多,技术的“变种”也不少,数据仓库技术也支持多种预测模型以便对客户进行相应的分类和分析,针对各种具体情况,采取不同的预测方法是我们在进行客户分析中非常迫切解决的问题,因此我们有必要对它们进行分析比较。2. 常用的预测方法2.1回归预测回归预测是比较传统的预测方法,是根据历史记录分析得出总体趋势,并将这种趋势用某种数学方程式表示。利用这个方程式,就可以输入未来的一个或多个变量计算出预测 结果。如果方程式的变量是一次方的,那么就称为直线线性回归,如果是多次方的,称为曲 线线性回归
3、。最简单的一元线性回归预测预测模型为Y=a+bX。一个实用的一元线性预测模型的建立就是为用户提供一个求解参数a和b的过程。不断输入历史数据X和Y值,反复校准,反复验证,直到求解出误差率最小的参数,并确定a和b的值。计算机运算大量的数据的能力是非常强大的,利用误差比较法不断对参数进行修正 便可以得到最佳模型。现实生活中问题,其预测模型就会变为多元多次的,其数学模型为Y=a+b 1X1 + b2X2+b3X3 +bnXn。当然对于参数求解法的整个过程还是一样的,对于人脑是无法想像,但对于可以高速处理数据的电脑,再复杂的模型都是可以得出结果的,至于结果准确不准确,有赖于历史数据的多寡以及很多其他的“
4、不可测因素”的干扰程度了。2.2 决策树决策树是一种类似于“枝桠”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测。决策树运用最多的是,市场营销部门根据客户的特征,对客户大市场进行“分割”,从而得到相对较小的客户群体。这样市场预算有限的情况下,可以针对性地开展市场营销活动,从而节省资金,避免浪费,提高促销活动地汇报率。另外,决策树也广泛用于其他数据挖掘工具, 如神经网络地数据预处理工具,通过对数据地初步探索, 找出最相关地变量集。客户集6客户集4客户集4客尸集4是客户集411C0C4节点駆节点B1点从硫失客户祥本(20001")图1对客户流失情况进行分析预测的决策
5、树例子隸禺题=客户険护理新节点C1 BOO ©D%节点口分支空 调:用尸年龄 >30900个45菊图1是一个典型的对“流失客户”特征进行分析的决策树,每个“树丫”的生长,表示了流失客户的进一步划分,直到这个树丫无法继续细分,或者说,这个树丫所代表的客户群其性质“相当类似”,任何更多的细分都没有什么意义了,这就是树的“枝末”,也是最后的最小分割,如果这种最小分割达到一个客户,就是所谓的“一对一营销”的理想境界了。营销人员便可以对一个或多个“枝末”客户进行促销,以实现留住客户,提高促销成功率的目 的。决策树的目的是对一个数据样本进行最大限度的分割,也就是让这棵树得到合理生长。要坐到
6、这一点,对每个节点所提的问题要尽量有效,并且,所有问题要尽量同要探索的业务目的相关。在对一个数据样本分析之前, 如何知道哪些问题是相关的,哪些问题是不相关的呢?如果知道了,那也失去了数据挖掘的意义了,因为数据挖掘的目的就是为了找到隐含的、尚未明了的某种行为模式。在进行决策树分析时,首先要明确到底要分析什么,目的是什么,这点是很重要的,并且,提供学习的样本数据要尽量多而且准确。支持决策树模型的数据仓库产品中,提供了 “决策树”生长得机制,计算机可以帮助我们优化树的生长,一个问题不是很有效,用另外一个,直到找到每个级别都是最优分割为止。在预测方面,企业可以根据需要“生长”多棵树,经 大量时间证明后
7、,可以成为企业特有的有效预测模型,提高决策能力。比如,客户行为预测 的多个决策树(类比于决策“森林”)可以包括客户获利能力预测树,再购买可能性预测树, 连带销售可能性树以及流失可能性树等。每个部门,每个企业的情况千差万别,因而预测树 的大小、预测逻辑也都不一样。2.3神经网络人脑基本上是由神经细胞组成的,称为神经元。每个神经元接收来自其他神经元的输入,经过处理后,向其他神经元输出。用于数据挖掘的神经网络技术其实就是对人脑对信息处理的简单模拟,人工神经网络系统的“神经元”,基本上模拟人脑神经元处理过程,以最简单的乘积之和(输入值乘以每个 输入的比重参数)作为输出,即Y =刀Wn*Xn(n=0,1
8、, - ,n)。图2 一个简单的贷款可能性预测神经网络一个人工的银行预测客户向银行贷款可能性的神经元算法如图2所示。这个有四个结点的神经网络通过对年龄、收入和教育的分析对贷款可能性进行预测。通过定义各输入的恰当取值(如,30岁,可以用0.30表示,硕士取得 0.7,收入0.7表示年薪7万),则可以得到可能性 Y值为0.72。神经网络的“学习过程”就是对一个样本进 行数据计算和校正,从而求解出每个输入的比重的过程。根据事实结果(有无贷款1或0),在预定比重的基础上,通过最小误差法不断调整参数值,直到找出最佳参数,并用另外一套测试数据进行检验, 直到参数的预测准确率得到提高。神经网络的模型一旦建立
9、,便可以对潜在客户进行贷款可能性判断,从而为企业提供进行营销和销售活动的决策依据。图4 一个典型的单输出三层的神经网络图一个单输出的典型的线性神经网络如图4所示,除了输入和输出层外, 还有一个或多个中间层(隐含层)。层与层之间的节点的关系可以是完全连接,也可以是部分连接,总之, 最后输出的结果总是各输入变量的函数,并在中间层提供必要的校正。神经网络技术应用于 CRM,可以对客户行为进行分析和预测。相对于决策树的定性分 析预测方法,神经网络可以达到定量阶段。不过,决策树的一些结果可以作为定义神经网络 输入变量的依据。目前,神经网络的应用产品大部分还不太成熟,处于研究阶段的较多。预 计随着企业对数
10、据挖掘需要的提高,适用于特定行业特定业务员的分析预测的神经网络产品将不断城市,就像认得经验具有很强的个人特点一样,适用于企业A的比重参数,如果用于企业B,其结果可能就是毫无可信度。2.4聚类和邻点预测聚类是讲如何将一批数据按照相似特性归类,使我们能对它们有一个形象的概括性理 解:邻点预测是在归类的基础上对未来数据进行预测,是一个简单的只有两个变量的聚类图,目的是看看公司销售的所有产品的销售量有无特别的地域优势(输入5000个随机交易数据)。一个聚类应用系统其实是一个中心点“逼近”过程,每一次所计算的点都向最佳中心点移动,直到所有记录的“座次排定”,确定最后聚类归属。一旦对培训样本数据的聚类成功
11、结束,便可以用邻点预测法对新的未来数据预测它的归属,所采取的办法一般也是距离最小法,即新的数据离哪个类的中心点最小,那么,这个数据就应该属于这个类,具有这个类 所有的类似特征。当然,实际的聚类应用要复杂得多,但区别在于聚类准则的不同,主要概念都是类似的。 相对于其他数据挖掘技术,聚类比较容易让人理解, 倾向于定性分析,较难定量地获得某种-5-CC匡巒技越袁圧堞结果。因此,在很多场合下,聚类结果作为其他技术的应用基础,在类的基础上采用其他如决策树和神经网络方法,进一步对特定类进行分析,可以达到消除数据噪音,提高数据可靠性的效果.2.5规则导引规则导引是从一个样本数据库中发现并归纳出“数据行为”模
12、式,用我们人类比较容易理解的“如果A.那么B,否则就是C”这样的判断语句来描述这种隐藏在数据仓库中的“规律”。我们日常生活中经常用此类语音来描述事件的规律。这些规则己经成为我们人类智能的重要组成部分,并广泛应用于我们的逻辑判断。如果我们认真考虑这些判断,就会发现有两个重要的因素来衡量这种判断,一个是准确率,我们平常所讲的“八九不离十”是准确率相当高的意思;另一个指标是规则覆盖率,即这个规则 适用于大部分场合吗?或者说可以应用于数据库里的多少条记录?判断的准确率的高低取 决于我们的经验是否足够丰富,亦即这个现象过去的发生率的高低,发生得越多,那么,今 后发生的概率也就越大。用于客户行为分析的规则
13、主要有以下三种。连带相关规则 Association Rule连带相关规则是指一个事件的发生伴随着另外一件事件的发生。挖掘出特定客户购买行为的连带相关性,可以预测出该客户的消费模式,从而为CRM应用中向特定客户提出准确的连带销售建议准备了重要的决策资源。顺序相关规则 Seque nee Correlatio n Rule顺序相关规则讲的是一个事件的发生之后,一定时间内也会发生另一个事件。掌握了客户购买行为的时间相关性,就可以帮助你确定何时才是“最佳”的向客户提出建议的时间, 为促销提供重要的决策依据。分类相关规则一一 -Classification Rule分类相关是指具有某种特征的群体倾向于
14、特定的行为。这个概念同上面提到的聚类是相似的。数据挖掘技术中的规则导引就是要从大量的客户数据中挖掘出这些规则。规则导引的引擎(应用软件)要将一个规则的几个部分模型化,并根据统计结果对各个部分进行“填写”。由于规则是用人类的语言来描述规律性行为,因此比较容易被企业员工理解和执行。3. 结论数据挖掘技术的预测方法虽然有多种,但是每一种预测方法都适用于不同的情况,解决不同类型的问题。有些数据挖掘在定性和数据分类方面使用方便,可以用做为更高一级预测的“探索”工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势以及预测变量相关 性之后,再用神经网络或规则导引方法有针对性的建模,一来可以细化数据,提高性
15、能,二 来在某种程度上也可以帮助消除噪音;另一方面也可以作为不同方法比较之用。数据挖掘技术中,决策树和聚类是市场分割的常用工具。大多数分类型数据挖掘系统都提供高度自动化的市场分割工具,给出一定的参数,经过一定时间的运算,就可以给出一个 分类,如果同事实情况不符,那十有八九是数据不够准确和完整,或者噪音太多。总结来看:回归预测主要是根据历史记录分析得出总体趋势,一般解决能够用数学方程式表示的问题;决策树主要进行归类分割和预测,一般从定性的角度分析解决问题,神经网络主要是对某种情形的可能性进行预测,可以精确到定量的角度解决问题;聚类方法倾向于定性的分析,主要是把客户进行分类比较难定量地获得某种结果
16、,所以一般作为其他如决策树和神经网络等方法地应用基础,在归类以后,对某种特定类型进行分析,可以达到消除数据噪音,提高数据可靠性的效果;规则导引主要对客户行为进行分析,通过归纳分析导引出预测结果。参考文献1 何荣勤,CRM原理 设计 实践,电子工业出版社,北京,20032 汤兵勇 王素芬等,客户关系管理,高等教育岀版社,北京, 2003.3 邵兵家,于同奎等,清华大学出版社,北京, 2004.Applyme nt of the tech no logy of data mi ning in clie nt an alysis1 2 2ZU Qiaoho ng ,CHEN Din gfa ng ,
17、 HU Jiquan(1. 2.School of Logistics Engineering,WHUT, wuhan ,430063,)Abstract: In this paper, five popular forecast ing algorithms of data mining will be discussedseparately. At the same time, the situati ons which are fit for the algorithms are comparedcomb ined with the examples. Then, the efficie
18、 nt forecast ing methods can be adopted whe n thediffere nt situati ons of clie nts are an alyzed. There in to, regressi on forecast ing whichofte n educesthe gen eral trend accord ing with the historical records is traditi on al. The Decisi on Tree method is a data analysis and forecasting method which is shaped like“ Y” . It is used mainly to divide inclassification and forecast so as to solve the problem of qualitative analysis. The method of NeuralNetworks main ly an alyzes and forecasts the clie nts' behaviors with the qua ntitative p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度养老地产项目承包经营开发合同3篇
- 2024版建筑行业物联网应用服务合同
- 二零二五年度建筑工程通风排烟系统安装合作协议2篇
- 2024年电子商务平台关键技术研发合同
- 2024毛纱原料进出口贸易长期战略合作合同3篇
- 2024年电商企业项目管理合同3篇
- 2024影视制作公司与影视发行公司的发行合同
- 2025年度物业管理招投标合同范本及物业管理法律法规3篇
- 二零二五年度小微企业设备租赁抵押贷款担保合同3篇
- 2025年西藏货运从业资格证考试模拟考试题库及答案大全
- 焊接工序首件检验记录表
- (通桥【2018】8370)《铁路桥梁快速更换型伸缩缝安装图》
- 七年级上学期期末考试历史试卷及答案(人教版)
- 信念系统课件完整版
- 饮品创业项目计划书
- 外国文学史期末考试题库(含答案)
- GB 18384-2020电动汽车安全要求
- FZ/T 52003-1993丙纶短纤维
- 索拉燃气轮机Titan130介绍
- 某银行操作风险管理讲义
- 快递公司客服外包服务协议
评论
0/150
提交评论