![聚类分析在客户细分领域中的应用_第1页](http://file3.renrendoc.com/fileroot_temp3/2021-12/20/0258714c-d0a5-4a22-832e-058cd9e849f8/0258714c-d0a5-4a22-832e-058cd9e849f81.gif)
![聚类分析在客户细分领域中的应用_第2页](http://file3.renrendoc.com/fileroot_temp3/2021-12/20/0258714c-d0a5-4a22-832e-058cd9e849f8/0258714c-d0a5-4a22-832e-058cd9e849f82.gif)
![聚类分析在客户细分领域中的应用_第3页](http://file3.renrendoc.com/fileroot_temp3/2021-12/20/0258714c-d0a5-4a22-832e-058cd9e849f8/0258714c-d0a5-4a22-832e-058cd9e849f83.gif)
![聚类分析在客户细分领域中的应用_第4页](http://file3.renrendoc.com/fileroot_temp3/2021-12/20/0258714c-d0a5-4a22-832e-058cd9e849f8/0258714c-d0a5-4a22-832e-058cd9e849f84.gif)
![聚类分析在客户细分领域中的应用_第5页](http://file3.renrendoc.com/fileroot_temp3/2021-12/20/0258714c-d0a5-4a22-832e-058cd9e849f8/0258714c-d0a5-4a22-832e-058cd9e849f85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、邮局订阅号:82-946360元/年技术创新软件大地PLC技术应用200例您的论文得到两院院士关注聚类分析在客户细分领域中的应用The Application of Clustering Analysis in Customer Segmentation(河北省电力研究院吴军英辛锐WU Jun-ying XIN Rui摘要:本文研究和分析了基于划分的 K-means算法和基于密度的DBSCAN算法, 结合两种算法的优点和不足给出了一种改进的算法DBSK算法。该算法由于划分了数据集,降低了对主存的要求;算法中给出了计算各局部数据集参数的方法;对 于分布不均匀的数据集,由于各个局部采用不同的参数值
2、,使得算法对全局参数的依 赖性降低,聚类质量更好。文章最后介绍基于聚类技术的客户细分系统的设计及实 现。关键词:数据挖掘;聚类技术;K-means;DBSCAN;客户细分中图分类号:TP312文 献标识码:BAbstract:This paper analyses the K -means algorithm based on partition and the DBSCAN algorithm based on density.Combining advantages with disadvantages of the two algorithms,the improved algorith
3、m DBSK is proposed.Because of the partition of data set,DBSK reduces the requirement of memory;the method of computing variable value is put forward;to the uneven data set,because of adopting different variable values in each local data set,the dependence on global parameters is reduced,so the clust
4、ering result is better.At last,the paper expatiates the design and realization of customer segmentation system based on clustering technology.Key words:data mining;clustering technology;K-means;DBSCAN;customer segmentation文章编号:1008-0570(201010-1-0199-021引言聚类分析是数据挖掘中的一个重要研究方向。通过聚类,人们能够识别密集的和稀疏的区域,因而发
5、现全局的分布模式。目前的许多领域活动中,多数情况是无先 验规律和程式的,因而聚类分析就拥有了广阔的市场,包括模式识别、数据分析、图 像处理以及市场研究等。将数据挖掘中的聚类技术应用于客户细分领域能够发现隐 藏在客户数据库中的潜在知识,并对客户群进行有效地客户价值评估。基于聚类技术的客户细分可以有效地解决多种市场问题,实现高效的、差异化的精确营销。2数据挖掘中的聚类算法分析2.1 K-means 算法K-means算法首先随机选取K个点作为初始聚类中心,然后计算各个样本到聚 类中心的距离,把样本归到离它最近的那个聚类中心所在的类;对调整后的新类计算新的聚类中心,如果相邻两次的聚类中心没有任何变化
6、,说明样本调整结束,聚类准则 函数Jc已经收敛。2.2 DBSCAN 算法该算法首先从数据库中选择任意的一个对象。,然后查找该对象o关于Eps和 MinPts的可密度到达的所有对象。如果对象 o的Eps-邻域内所有对象个数大于某个阀值MinPts,则该对象o为核心对象,邻域中的点将作为下一次的考察对象,否则对 象o被暂时标记为噪声点。若对象o是核心对象,则在数据库中存在一个关于 Eps 和MinPts的类C,这个类C能够被其中的任意一个核心对象所确定。该算法就是不 断地进行区域查询来进行类的扩展,直到一个完整的类。下面给出一个数值例子:假设有10个对象xi,i 1,2,,10,描述每一个对象的
7、属性为xi1,xi2,取值如表所示,需要输入的两个参数分别 为Eps=2和MinPts=2,采用欧几里德距离进行差异度计算。表1对象x1,x2,刈弧性取值表(1根据核心对象的定义x 1,x 2,M伽各自的2-邻域内都至少包含个2个 对象,因此都是核心对象,以灰色圆圈表示,x 1、x 8不是核心对象,以黑色圆圈表示;(2根据直接密度可达、密度可达和密度相连的定义,例如:x 2和x 6是从x 4直接密度可达的,以箭头表 示;x 5和x 7是从x4密度可达的;x 5和x 7是密度相连的;(3形成的聚类为两个,即x 2、x 3、x 4、x 5、x 6、x 7和x 9、x 10,x 1和x 8不属于任何
8、一个类,是噪声。图1DBSCAN算法聚类结果2.3 改进的算法一一DBSK算法改进的 DBSK 算法(DBSCAN Algorithm Based on Sampling吴军英:助理工程师硕士199-技术创新微计算机信息(测控自动化2010年第26卷第10-1期360元/年邮局订阅号:82-946现场总线技术应用200例软件大地K-means首先采用取样技术优化K-means算法并划分数据集;然后根据每个数 据集的情况,分别选取每个局部数据集的 MinPtsi并进行DBSCAN聚类;最后合并各 个局部数据集的聚类结果,得到整个数据集的聚类结果。输入:控制参数、聚类数据集输出:聚类结果Stepl
9、初始化控制参数,包括:抽样率,K值,Eps值;Step2从点集中按抽样率随机选 取点集的子集;Step3子集大小为n,对子集进行以下操作:选取k个初始聚类中心Z j (I ,j= 1,2,3,上;计算子集中每个数据对象与聚类中心的距离D(x i ,Z j(I ,i=1,2,3,n,j=1,2,3如果满眼 D(x i ,Z k (I=minD (x i ,Z j (I ,j=1,2,3,,n则 x ie w k ;差平方和准则函数Jc判断:若,则算法结束;否则I=I+1,计算k个新的聚类中心,j=1,2,3,近间(2;将点集中其余的点加入距离最近的类中,每一类为一个局部数据集;Step4对于各个
10、局部数据集进行以下操作:计算各个局部数据集的参数MinPts,根据Eps值和MinPts i值,应用DBSCAN算法进行聚类;Step5合并各个局部 数据集的聚类结果;Step6输出聚类结果,算法结束。3聚类算法在客户细分领域中的应用本文将客户细分系统分为数据获取、数据存储和数据应用三层。3.1 数据获取层实现本文的数据来自某商场,该数据源提供的数据包括:顾客表存储顾客的基本信息 包括顾客卡号、建卡日期、积分、顾客姓名、身份证号、性别,年龄,电话号码,通信地址,职业、受教育程度、婚否 等;商品表存储商品的基本信息,包括商品编号、商品名称、商品类型、进价、销售金额、入出库日期、入出库数量等;销售
11、收款表为顾客每次购物的 数据包括购物金额、付款方式、积分等;商品销售表为顾客购买具体商品的有关数据,包括购买数量、单价、折扣率、实际销售金额等;库存账表为每一进货批次的入出库数据,包括 进货批号、入出库日期、入出库数量、进价、实际销售金额等。3.2 数据存储层实现首先根据数据源的情况构建事实表,然后再以这些事实表为中心,构建关联的维 表。根据本文聚类分析需求,维度表只需要两个,即顾客维度表和商品维度表,商品销 售和顾客消费是事实表。3.3 数据应用层实现本文采取随机抽样的方法从顾客表中抽取 100个样本,形成顾客样本表,再根据 顾客标识,从消费表中提取客户相关信息,统一汇到一张表中,作为客户细
12、分的数据模 型。对数据集中的数据进行汇总和预处理,并选择细分变量:平均购买金额和购买次 数。首先运行DBSCAN算法,设置参数Eps=30,MinPts=10结果如图2所示;然后运 行DBSK算法,设置参数K=4,Eps=30,结果如图3所示,由于划分了数据集,设置了不 同的MinPts值,所以DBSK算法能识别分布稀疏的类,且噪音点明显少于DBSCAN 算法,这也符合实际情况。图2DBSCAN算法运行结果图3DBSK算法运行结果3.4 结果分析由仿真实验的结果可知,DBSK算法的聚类质量优于DB -SCAN算法。下面详细分析DBSK算法的聚类结果。它将数据分成五类,1类是消费金额一 股,消费
13、次数也一般的顾客,大部分顾客都属于这一类;2类是消费金额高,但消费次数 却很低的顾客,这类顾客只是偶尔来光顾商场,但每次的消费却很高,应该制定各种策 略留住这些顾客;3类是消费金额高,消费次数一般的顾客,学历高,较年轻,是有潜力的 客户;4类是消费金额和次数都高的顾客,是学历高,收入好,人近中年的成熟客户,这类 客户创造了企业的大部分利润;5类是经常光顾的老客户,且每次的消费金额较多,是 应该重点对待的老顾客。4类和5类客户的数据不大,约占20%,但他们创造的利润 占总利润的80%,是最有价值的客户,是企业的基础,是必须要保持的;2类客户属于有 潜力的客户,未来有可能转化为4类或5类客户;1类
14、客户价值最小,是铅质客户;1 类、2类和3类客户在数量上占了总客户的80%,但创造的利润只占总利润的20%。4结论本文结合抽样技术,K-means算法和DBSCAN算法给出了一种改进的算法,并将 改进算法应用于客户细分领域。但是如何(J转第207页200-邮局订阅号:82-946360元/年技术创新软件大地PLC技术应用200例您的论文得到两院院士关注图 5相移条纹Fig5Phase-shift fringe图6立体匹配点云Fig6The points cloud with stereo matching利用彩色结构光的色彩信息,只投射一幅数字光图就可以将视场进行划分,达到 了格雷编码同样的效
15、果,极大的减少了数字光投射的数量,提高了系统扫描的速度。 影响数字彩色条纹的主要因素在于分色算法的好坏,由于被测物体存在本底颜色,在测量图像中会造成一定程度的偏色。颜色分辨技术的好坏直接关系到这一方法的应 用范围和测量的准确性。传统的相位解包裹技术采用格雷编码与相移技术相结合的方式,投射6幅格雷 编码,把光场划分为64个周期,为了便于解码时候图像的二值化,一般还需要投射黑 白各1幅结构光,加上四步相移光栅,一共需要12幅,对于测量人体或者不太容易长时间保持静止的物体不是十分有利。采用彩色编码结构先进行相位解包裹,只需要投射一幅彩色结构光就可以代替8幅格雷编码结构光,投射的时间大大减少,缩短为原
16、来的1/2,而且还可以得到被测量 对象的彩色点右。5结论基于相位投影和双目视觉的三维光学测量系统,一般采用格雷编码的方式进行 相位的解包裹,但是该技术需要投射的结构光幅数较多,不利于人体等测量。针对这 一问题,探讨了基于四位二进制的彩色编码结构光的相位求解技术,利用彩色编码结 构光得到被测量对象的相位周期,将解包裹需要投射的光栅数减少为原来的1/2,再结合四步相移法得到的相位主值,便可以方便快速的得到被测量对象的真实相位,最 后利用三维光学测量系统标定得到的标定参数和双目视觉的对极几何立体匹配的原 理,就可以得到被测量对象的三维彩色点云,实验证明该方法大大减少了结构光投射 的幅数,能快速而准确
17、地得到真实的绝对相位。参考文献1彭瑾,汪春晓,王黎.FTP测量物体的三维轮廓信息实验J.微计算机信 息,2009,6-3:211-2132赵焕东.相位测量轮廓术的理论研究及应用D.浙江:浙江大学,2001:11-283潘伟,赵毅.提高光栅投影测量精度的相移精确测量法J.上海交通大学学 报,2003,7:1068-10714陈罡,赵毅.一种应用于反向工程的结构光相位求解技术J.模具技 术,2004,1:44-465刘维一,王肇圻,母国光,方志良.彩色编码投影光栅三维轮廓术中分色问题的 研究J.光学学报,2001,21(4:454-458作者简介:陈小宁(1981-,女(汉族,江苏沛县人,硕士,西
18、南财经大学天府学院老师, 主要研究方向:光电信息处理。Biography:CHEN Xiao-ning (1981-,Female(The Han Nationl -ity,Peixian of JiangsuProvince,Tian Fu College of Southwest -ern University of Finance and Economics,master,teacher,Ma -jor:Optoelectronic processing.(621000四川绵阳西南财经大学天府学院陈小宁姚一永郭进(621000四川绵阳西南科技大学刘先勇通讯地址:(621000四川绵阳九洲
19、大道中段西南财经大学天府学院信息技术中心 陈小宁(收稿日期:2009.12.280稿日期:2010.03.28(上接第200页在尽可能小的样本集上获取尽可能精确的结果,即在一定的精确性要求下,如何 确定合适的样本大小(也称为抽样复杂性的问题需进一步研究。DBSK算法在本文 中只应用于二维属性的数据集中,对于三维甚至多维的复杂数据未进行探讨和研究, 而大量的数据集往往具有多维的属性,在今后的工作中应该对多维的、更为复杂的数据进行挖掘分析工作。创新之处:结合K-means算法和DBSCAN 算法给出了一种改进的算法,并将改进的算法应用于客户细分。参考文献1Kuo R.J.,Ho L.M.,Hu C.M.Integration of Self-organizing Fea -ture Map and K - means Algorithm for Market Segmentation J.Computers and Operations Research,2002,29(11:147514932D T Pham,S S Dimov,C D Nguyen.Selection of K in K-means clu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2《用水计量时间》说课稿-2024-2025学年科学五年级上册教科版
- 2025产品购销合同样书
- 2023九年级数学下册 第25章 投影与视图25.1 投影第2课时 正投影说课稿 (新版)沪科版001
- 2025城市民用户燃气工程实施合同书范本范文
- 2025妇女发展监测评估项目工程合同管理
- 2025合同模板合伙人利润分配协议范本
- 2024-2025学年高中政治 第3单元 第6课 第1框 源远流长的中华文化说课稿 新人教版必修3001
- Unit 1 Wish you were here Reading (2) 说课稿-2024-2025学年高中英语译林版(2020)选择性必修第三册001
- 产品配方技术转让合同范例
- 七人合同范例
- 2025年上半年中煤科工集团北京华宇工程限公司中层干部公开招聘易考易错模拟试题(共500题)试卷后附参考答案
- 北京市海淀区2024-2025学年五年级上册语文期末试卷(有答案)
- 《亚太经合组织》课件
- 2024年高考政治必修三《政治与法治》常考材料题考点梳理汇编
- 《会展概述》课件
- 燕子山风电场项目安全预评价报告
- 高一英语课本必修1各单元重点短语
- 完整版金属学与热处理课件
- T∕CSTM 00640-2022 烤炉用耐高温粉末涂料
- 心脑血管病的危害教学课件
- 民用机场不停航施工安全管理措施
评论
0/150
提交评论