(控制理论与控制工程专业论文)聚类分析在客户关系管理中的研究与应用.pdf_第1页
(控制理论与控制工程专业论文)聚类分析在客户关系管理中的研究与应用.pdf_第2页
(控制理论与控制工程专业论文)聚类分析在客户关系管理中的研究与应用.pdf_第3页
(控制理论与控制工程专业论文)聚类分析在客户关系管理中的研究与应用.pdf_第4页
(控制理论与控制工程专业论文)聚类分析在客户关系管理中的研究与应用.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人) 进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本 文的研究做出重要贡献的个人和集体,均已在论文中作了明确的说明 并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名:窟诫、 日 期:讪。睁3 月罗日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:夏敞尊文作者签名:纽一一 日 期:! :丝生兰月 主 旦 垦塑些三查堂堕土堕苎垫竺! 兰旦一 论文摘要 在“客户为向导”的时代,企业实施客户关系管理可以持续与消费者建立良好的互动 关系,其经营策略是“卖客户真正需要的产品”。然而,不同的客户其需求各不相同的,只 有发掘客户的潜在需求与喜好来开发消费者乐于接受的产品,并通过维系住最有价值的客 户群,才能创造更大更多的利润。所以,对客户进行聚类、划分、分群便成为经营者们考 虑的首要问题。 面对越来越多的错综复杂的客户信息,借助于数据挖掘技术中的聚类分析,将有助于 企业从堆积如山的数据中,发掘更多有利于营销的具有商业价值的信息。 利用聚类分析方法能从数据中找出相关的特征或模式,可以从客户的交易数据中,萃 取其消费行为模式,实现对客户进行动态区分,在获得详细的客户区分后,进一步针对个 别的客户层进行量身订制的特别营销,希望借此获取其忠诚度,以实现企业经营的最佳化。 针对数据中的异常数值,以及类水平数难以确定的问题本论文提出了一种带约束的最 小离差系统聚类法( r e s t r i c t e dm i n i m u mv a r i a n c eh i e r a r c h i c a lc l u s t e r ,r m v h c ) , 其基本思想来自方差分析。即如果分类正确,则类内样品的离差平方和应较小,而不同类 间样品的离差平方和应较大。 r m v h c 聚类法先对原数据集进行预处理,以削弱不合理数值对聚类过程的影响,然后进 行样品间或簇间离差平方和计算,合并最小的两个,一直迭代下去;针对类数难判别的实 际问题,采用的是利用检验指标、点图矩阵、主因素分析来综合比较,最终确定分类数的 方法。通过测试,该算法对不合理数据有较好的约束作用而且对类数的判别比较客观、有 效。在整个建模过程中,可以通过表格直观地看到聚类过程、多种统计技术指标以及随时 查看类内和类间的接近程度和距离变化情况,从主分量散点图和树状分类图可以清楚明了 看到聚类结果。 为验证模型,先用快速聚类法输入相同变量得到的结果是一致的,通过对考察对象进 行特征分析以及部分变量的拟和分析发现,不同群体间的差异程度是比较明显的,其购买 行为、购买模式、消费金额和消费习惯是不相同的,说明原模型具有较强的说服力,从而 验证了模型的合理性、有效性和实用性。 关键词:c r m 数据挖掘聚类分析r m v h c 算法 垦翌型三查堂堕圭兰兰 一三塑! 兰三二旦一 i n v e s t i g a t i o na n da p p l i c a t i o n o fc l u s t e r a n a l y s i s i nc u s t o m e r a b s t r a c t : r e l a t i o n s h i pm a n a g e m e n t a te r ao n ”c u s t o m e rg u i d e ”,i m p l e m e n t a t i o no fc u s t o m e rr e l a t i o n s h i pm a n a g e m e n tm a n a g e m e n t w i l l s e tu pag o o dl a s ti n t e r d y n a m i cr e l a t i o nw i t hc o n s u m e r s t h ep u r p o s ei s ”s e l lp r o d u c t sc u s t o m e rn e e dr e a l l y ” h o w e v e r , d i f f e r e n tc u s t n m e r sd i f f e r e n td e m a n d s o n l yw h oe x p l o r ec u s t o m e r sp o t e n t i a ld e m a n da n do f f e r d j f f e r e n ts e r v i c e sa n dm a i n t a i nt h er e l a t i o nw i t ht h em o s tv a l u a b l ec o s t o m e rw h oc r e a t e sp r o f i t sa n dg r o w su p s o ,c l u s t e ra n dd i s t i n g u i s hc u s t o m e r sb e c o m e sp r i m a r yp r o b l e m t oe v e r ym a n a g e r i nt h ef a c eo ft h ei n f o r m a t i o no fm o r ea n dm o r ei n t r i c a t ec u s t o m e r s u s et h et e c h n o l o g yo fd a t am i n i n g a n dc l u s t e r i n gw i l lh e l pe n t e r p r i s e st oe x p l o r em o r ei n f o r m a t i o nw i t hc o m m e r c i a lv a l u ew h i c hi sf a v o r a b l et o m a r k e t i n g f r o mt h ed a t ap i l i n gu pl i k eam o u n t a i n u t i l i z et h ea n a l y t i c a lm e t h o do ft h ec l u s t e rt of i n do u tr e l e v a n tc h a r a c t e r i s t i co rm o d ef r o mt h ed a t ac a l l e x t r a c ti t sm o d eo fc o n s d l t l e r s b e h a v i o ra n d d i s t i n g u i s h t h ec u s t o m e r s d y n a m i c t l y a n dt h e n o f f e r i n d i v i d u a l i z e dp r o d u c t sw h i c hw i l lo b t a i nt r u s tf r o m c u s t o m e r s f i n a l l ym a k i n ge n t e r p r i s e sm a n a g e b e t t e r b e c a u s eo fi n s u f f i c i e n t si nt h et r a d i t i o n a lc l u s t e rm e t h o d ,s u c ha su n u s u a ln u m b e ra v u l s e so fd a t a ,a n d k i n d so fl e v e lc o u n td i f f i c u l tt od e f i n e t h et h e s i sh a sp u tf o r w a r dam e t h o do fr e s t r i c t e dm i n i m u mv a r i a n c e h i e r a r c h i c a lc l u s t e r i t sb a s i ct h o u g h t sc o m ef r o mv a r i a l i c ea n a l y s i s 1 1 1 ev a r t a l i c ei sl i t t e ra m o n gs i m i l a r c l u s t e rb u th e a v yb e t w e e nd i f f e r e n to n e s p r e t r e a t m e n tt h eo r i g i n a ld a t af i r s t ,i no r d e rt ow e a k e nt h ei m p a c to n c l u s t e rc o u r s eo fu n r e a s o n a b l en u m b e rv a l u e c a l c u l a t ev a r i a n c eb e t w e e nd i f f e r e n t s a m p l e s o rc l u s t e r s a m a l g a m a t e t h es m a l lc o u p l e g o o ns o c a l c u l a t et h et e s ts t o n e d i f f e r e n t i a t et h en u m b e ro f c l u s t e rt e n t a t i v e l y t h e nc h o o s ep r i n c i p a lc o m p o n e n t s t h r o u g hs c a t t e rp l o tm a t r i x d e t e r m i n et oc l a s s i f ya n dc o u n tt h r o u g hs y n t h e s i z ec o m p a r a t i v ea n a l y s i s t h e o n e st h a tc a nd i r e c t l yp e r c e i v e dt h r o t l g ht h es e n s e si nt h ew h o l em o d e l i n gc o u r s e t h em e t h o dc a nc a l c u l a t e m a n yk i n d so fs t a t i s t i c st e c h n i c a li n d i c a t o ra n dl o o ko v e rt h ec h a n g eo f d i s t a n c ei ns a m eg r o u po rd i f f e r e n t g r o u p s i tc a nr e c e i v et h er e s u l tt h r o u g ht h et r e e l i k e sf i g u r ea n ds c a t t e rp l o t i no r d e rt ov e r i f ym o d e l s ,t h er e s u l t si st h es a m ew h e ni n p u ts - n ev a r i a b l ew i t hq u i c kc l u s t e r 。t h e c h a r a c t e r i s t i ci sv e r yo b v i o u sb e t w e e nd i f f e r e n tg r o u p s i ti sd i f f e r e n to f p u r c h a s em o d e a n dc o n s u m p t i o na n d b e h a v i o ro fd i f f e r e n tg r o u p s i th a sp r o v e dt h a tt h e o r i g i n a lm o d e li sp r a c t i c a l a n dh a sr e l a t i v e l y s t r o n g c o n v i n c i n g n e s s k e y w o r d s :c r m d a t am i n i n g c l u s t e r a n a l y s i s r m v h c a l g o r i t h m 2 昆i ! j j 理t 大学f i ! i ! j j 论文 1 1 经济背景与客户关系管理 第一章绪论 2 1 世纪将是一个“客户经济”的时代,企业的经营理念正在从“以产品为中心”向“以 客户为中心”转变。持续与消费者建立良好的互动关系,让客户的满意度、忠诚度维持于标 准之上,建立忠诚客户群,将成为企业得到持续获利的原动力。 过去是企业引导消费,企业生产什么,人们就用什么,现在是人们需要什么,企业就生 产什么;过去企业注重的是市场占有率,现在转变为争取对客户的终身占有率:过去企业大 都其从单一产品获利,现在则更重视其客户终身价值( 通过为客户提供不同阶段所需的不同 产品而获利) 。 为实现上述目的,一个核心的问题就是如何定位客户的需求,解决这个问题的办法就是 在企业实施客户关系管理。在这种时代背景下,客户关系管理( c u s t o m e rr e l a t i o n s h i d m a n a g e m e n t ,c r m ) 便孕育而生。 客户关系管理是一个企业凭借积极地深化与客户之间的关系,以掌握客户信息,同时利 用这些客户情报,量身定制不同的商业模式及策略运用,以满足个别客户的需求 6 1 1 ”。 从适用对象讲,客户关系管理涉及到市场、销售、服务、支持等所有与客户相关的部门, 从系统功能讲,可分为三类:分析管理一利用数据仓库数据挖掘技术提供决策支持:流程管 理一实现市场、销售、服务等部门的全程量化管理及工作自动化;接触管理一利用电子商务、 呼叫中心实现与客户的互动及快速响应。 客户关系管理的核心是:与能带来利润的客户建立持久的合作关系。因为对企业面言, 长期的忠诚客户比短期客户更有利可图。为了实现这样的目标,企业可通过建立完整的客户 数据、量身订制的产品及服务以及有效的管理,来建立以客户为中心的组织去了解客户生命 周期、掌握最有价值的客户及其需求、发展以个人财务需求为导向的销售模式,最终达到提 高客户满意度、赢取其终身价值并提升企业的竞争力与获利率。 在客户关系管理的具体实施过程中,对于客户购买行为的分析、购买能力的分析、购买 趋势的分析又是关键和难点,因为这些分析结果往往是企业营销策划和战略决策的重要依据。 所以,“卖客户真正需要的产品”才是各商家的营销策略。然而,不同的客户其需求是各 不相同的,而且同一客户在不同时期的需求也是不相同的。只有发掘客户的潜在需求与喜好 昆明巡工夫学l i - 1 。论文 来开发消费者乐于接受的产品,企业才能创造出更多的利润。 1 2 客户划分是g e m 中的首要问题 当我们在进行射击是都有这样的经验,先看清楚靶子在哪里,应该向哪个方向射击,当 第一次射击完毕后,观察弹着点与实际目标的差距,然后经过修正再射击,如此反复几次命 中目标的几率将会大大提高。 同样的道理,当企业歼始着手规划其c 蛳蓝图时,必须先确认其组织定位、目标、策略以 及支持实现策略目标的一系列活动,这是一个严谨的“技准”( a 1 i g n m e n t ) 过程,并在组织 各阶层达成共识,开发出高级商业流程( h i g h l e v e rb u s i n e s sp r o c e s s ) ,以作为c r m 的基 本框架。只有经过这种“策略校准”过程而确认的目标定位。才能确保日后c r m 的执行符台企 业的最高利益。 所以,一个企业在经营策划时要非常明确: 销售对象是哪个客户层? 哪些客户需要这样的产品? 是否考虑了客户生命周期? 是否有足够的信息为客户量身订制其所需的产品及服务? 是否建立了以客户需求为导向的客户关系? 谁是公司最有价值的客户? 要瞳i 答和解决以上问题,首要任务就是综合各种数据,从不同角度把客户进行分群、分组 或划分。 1 3 用聚类分析深化c 1 e m 面对客户群如何进行划分? 分到什么程度? 传统的做泫有两种: 令一是根掘客户交易过程中的不同变量确定一个门限值,列实际数据作简单判别,从两化 分出不同的组( 簇) 。比如,当某一客户单次交易额达到5 万元州就把他f e 为“金牌客p ”, 达到4 万元时就视为“银牌客户”等; 令二:是凭借经营管理者的经验根据各神关系来对客户进行分群。比如:谈到一托银行或政 府部门的订单,虽然总金额不多,而且对方的款项也不能马上到位,但是把这样的客户 6 昆f ! f : 耻t 大学坝j j 论文 2 0 0 4 年3j 列为重要客户或重点客户是很容易理解的。 这两种做法对于小规模、少客户的情形很实用,特别是在市场经济不太规范时,可以起 到计算机以及复杂算法无法达到的效果。 但是当经营规模不断扩大,客户的数量不断增多,特别是面对错综复杂的客户信息,和 各种各样的消费习惯、消费意识和消费行为时,就必须利用现代化的信息技术和人工智能的 手段,比如“数据仓库”( d a t aw a r e h o u s e ) 、“数据市场”( d a t am a r t ) 、“数据挖掘” ( d a t am i n i n g ) 、“在线分析”( o l a p ) 等来处理这些大量而复杂的客户数据。 通过在交易过程中收集大量的信息,建立完整的客户数据库,如客户的基本数据、客户 交易数据、客户服务数据、活动响应数据及其它相关的互动记录等,然后分析整体数据,寻 找客户交易的轨迹,挖掘他们的内在需求,找出与客户有关的各种趋势,进而预测客户的购 买偏好,达到促进购买的目的。 要达到和实现上述目的,聚类分析就是很好的途径。聚类分析是一个非常实用、方便、 有效的划分方法,它可以帮助市场人员发现客户群中所存在的不同特征的组群,并可以利用 购买模式来描述这些具有不同特征的顾客组群1 1 2 1 。 对客户进行聚类和分组可以帮助企业有策略的定义市场营销计划,选择营销渠道及策划 广告以达到改善客户关系并对将来的趋势和行为进行预测,支持企业决策。 1 4 聚类分析的现状和发展方向 聚类一词最早来源于分类学,其初始定义是:比较各事物之间的性质,将性质相近 的归为一类,将性质差别较大的归入不同的类儿2 ”。随着计算机技术的发展,聚类逐渐 形成为一种多元分折方法。 聚类分析发展到现在已是一个跨学科多交叉的领域,它涉及到数据库技术、计算机技 术、统计学、经济学、市场及营销学、机器学习、心理学和方法论等。它被应用于经济分 析、模式识别、图像处理、数据分析等领域。 员发现顾客群中所存在的不同特征组群。 聚类分析是人类活动中的一个重要内容。 特别在商业方面,聚类分析可以帮助市场人 早在儿童时期,一个人就是通过不断完善潜 意识中的分类模式,来学会识别不同物体的,如:狗和猫,动物和植物等:通过聚类,人 们可以辨别出空旷和拥挤的区域,进而发现整个全体的分布模式,以及数据属性之间所存 昆明理工火学硕士论文 2 0 0 4 年3 月 在有价值的相互关系;在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构, 或根据基因功能对其进行分类以获得对人群中所固有的结构更深入的认识;聚类分析还可 以从地球观测数据库中帮助识别具有相似的土地使用情况的区域;此外,还可以帮助识别 互联网上的文档信息把内容相近的文档归为一类,并自动为该类生成主题词,从而实现智 能搜索、隋报分析、安全过滤等等。 根据潜在的各项应用,目前聚类分析的研究和发展方向有以下几方面 2 j : 算法的可伸缩性研究,即不论对于小数据集还是对于大数据集,算法都应是有 效的: 非数值性数据聚类的研究,即既可处理数值型数据,又可处理非数值型数据,既 可以处理离散数据,又可以处理连续域内的数掘: 能够发现任意形状的聚类研究,传统使用欧几里德距离的算法趋向于发现具有 相近密度和尺寸的球状簇,但对于一个簇可能是任意形状的情况,提出能发现 任意形状簇的算法是很重要的; 处理高维数据算法的研究,很多聚类算法擅长处理低维数据,当数据对象在高 位空间时,尤其是考虑到这样的数据可能高度偏斜并且非常稀疏时聚类的难度 就很大: 处理噪声数据能力的研究,在现实应用中绝大多数的数据都包含了孤立点,未 知数据、空缺或者错误的数据,有些聚类算法对于这样的数据敏感,将会导致 质量较低的聚类结果,所以对噪声的处理就十分重要; 模糊聚类的研究,如对于文本、图像、声音等信息的聚类。 传统聚类算法有多种,如k 均值法、a g n e s 法、d i a n a 法1 1 1 等,但在这些算法中 i 对彳i 合理数据的处理提得很少,而且对于应当聚到什么程度即类数f 类水i 卜数) 的判别也 没有一个定式,针对这两个问题,本文本论文提h :了。种带约束的最小离差、r ,j 车系统浆 类法,该方法可以约束不合理数据对聚类过程的影响,并且解决了聚类类数难以判别的问 题,足聚类结果更客观、更合理,通过应用于实际客,- 的划分得到r 比较好的效果。 昆l w 理丁大学硕士论文 2 0 0 4 年3 月 1 5 本论文研究的内容和意义 本论文研究的任务是寻找客户划分中不合理异常数据的处理方法,使异常数据对聚类 过程的影响最小化,以及如何解决类数难以判别的问题。研究的主要内容有: 1 ) 针对初始数据中个别异常值,提出处理和解决办法,以减小和削弱其对聚类 过程产生的不利影响; 2 ) 虽然目前关于聚类分析的算法有多种,但关于类数的判别一直没有一个定式, 不同的应用者就会有不同的见解和看法,且考虑的角度和侧重点各不相同,所 以针对客户划分研究和寻找一种有效的确定类数的方法; 3 ) 研究聚类算法的具体实施步骤,特别是怎样应用于实际客户,把他们分为不同 特征的组群: 4 ) 根据聚类结果分析和讨论客户特征,为市场营销提供依据。 本研究的意义在于通过对聚类分析算法及其应用的研究,使客户关系管理中对客户的 分析和评价更全面、更科学,能为企业的经营和决策提供更有力的支持。 9 昆j 珊理1 二大学预士论文 2 0 0 4 年3 月 2 1 聚类与数据挖掘 2 1 1 数据挖掘 第二章聚类分析原理 2 1 1 1 数据挖掘的定义 数据挖掘( d a t a m i n i n g 。简称陇) ,就是从大量数据中挖掘或抽取出知识。数据挖掘又 称为知识发现( k n o w l e d g ed js c o v e r yf r o md a t a b a s e 简称k d d ) ,它是一个从大量数珊中 抽取挖掘出未知地、有价值的模式或规律等知t 的复杂过程f :】【”。 2 1 1 2 数据挖掘的过程 数据挖掘的过程如图2 1 所示: 幽21k d d 个过样不恿描述 由圈2 1 町见,栏个k d d 过槲是山若 挖掘步骤组成,而数斟- :挖拥仅是其巾的 个卜 要j p 骤。整个知泌发现的步骤有: 数掘清洗( d a t ac l e a r _ in g ) ,就是清除数据噪卢和与挖枷j i 题叫裎厄关的数辑- :。 数据集成( d a t ai n t e g r a t i o n ) ,就是将来自多数据源t 榴天数抓组龠刘起。 数据转换( d a t at r a n s f o r m a t i o n ) ,就是将数据转换为易】:进行数据挖抓的数粥 一储形 式。 数据挖掘( d a t am i n in g ) ,它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖 掘数掘模式或规律知识。 1 0 昆i 川j 坐7 2 = 学硕士论文 2 0 0 4 自二3 月 就是根据一定评估标准从挖掘结果筛选出有意义的 知识表示( k n o w l e d g ep r e s e n t a t i o n ) ,就是矛用可视化和知识表达技术,向用户展示 所挖掘出的相关知识。 尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前工业界、媒体、 数据库研究领域中,广义地使用“数据挖掘”一词来表示整个知识挖掘过程。所以数据挖 掘就是一个从数据库、数据仓库或其它信息资源库的大量数据中发掘出有趣的知识。 一个典型的数据挖掘系统如同2 2 所示,它主要包含以下主要部件: 国2 2 数据挖掘系统总体结构描述 数据库、数据仓库或其它信息库; 数据库或数据仓库服务器: 知识库; 数据挖掘引擎; 模式评估模块; 可视化用户界面。 2 1 1 3 数据挖掘的目的 通过数据挖掘,可从数据库中挖掘出有意义的知识、规律、或更高层次的信息,并 )0lt旧龃叫n盯t ( 估识评知式式 模模 昆叫理工大学硕士论文 2 0 0 4 年3 月 可以从多各角度对其进行浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、 信息管理、查询处理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之 一,也是信息工业中最富有前景的数据库应用领域之一。 数据挖掘技术在企业市场营销中得到了比较普遍的应用,通过收集、加工和处理涉 及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向 和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对 所识别出来的消费群体进行特定内容的定向营销,这与传统手段相比,节省了营销成本, 提高了营销效果,从而为企业带来更多的利润。 2 1 1 4 数据挖掘的分类 数据挖掘按功能划分可分为:关联分析、分类与预测、聚类分析、异类分析、演化分 析。 关联分析( a s s o c i a t i o na n a l y s i s ) ,就是从给定的数据集中发现频繁出现的项集模式 知识( 又称为关联规则,a s s o c i a t i o a r u l e s ) 。关联分析广泛应用于市场营销、事务分 析等应用领域。 分类与预测,就是找出组能够描述数据集合典型特征的模型( 或函数) ,以便能够分 类识别未知数据的归属或类别( c l a s s ) ,即将未知的事例映射到某类离散类别之一。所 学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法。 聚类分析( c l u s t e r in ga n a l y s i s ) ,就是从给定的数据集中搜索数据对象之间所存在的 有价值关系。聚类分析所分析处理的数据均是无( 事先确定) 类别归属,类别归属标志 在聚类分析处理的数据集中是不存在的。 异类分析,一个数据库中那些不符台大多数数据对象所构成的规律( 模型) 的数据对 象被称为异类( o u l l i e r ) ,对异豢数据进行分析在一+ 些应用场合,如各种商业欺诈行 为的自动检测等更有挖掘价值。 演化分析( e v o lu t i o na n a ly s i s ) ,就是对随时间变化的数据刈象的变化规律和趋势进 行分析、建模和描述。演化分析在很多场合有很好的应用,如利j 罚演化分析力法t q 对肢 市主要股票交易数据进行分析,以便获得整个股票市场的股票演化规律,以及个特定 股票的变化规律,这i 4 规律能够帮助预测股票1 1 了场上的般票价格,从而有效地提高投资 汇报率。 目前,在很多重要的领域,数据挖掘都可以发挥积极促进的作用。尤其是在如银行、电 昆明理工大学坝l 论文 2 0 0 4 年3 月 信、保险、交通、零售( 如超级市场) 等商业应用领域。将数据挖掘技术用在客户关系管理 上,将有助于企业从堆积如山的数据中,挖掘更多有利于营销的信息,而这些信息都具有商 业价值。 2 1 2 聚类与数据挖掘的关系 正如上面所说的,聚类分析是数据挖掘功能之一,也可以说是数据挖掘的方法之一。 聚类分析在数据挖掘中的应用i i 主要有以下几个方面: 1 ) 聚类分析可以作为其他算法的预处理步骤,这些算法再在生成的簇上进行处理。也 可作为特征和分类算法的预处理步骤,或将聚类结果用于进一步关联分析。 2 ) 可以作为一个独立的工具来获得数据的分布情况、了解各数据类的特征、确定所感 兴趣的数据类,以便作进一步分析。可以用在市场细分、目标顾客定位、业绩评估、生物 种群划分等方面。 3 ) 聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者 排除他们。然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点可能预示着欺诈 行为的存在。 另外在概念聚类方面,聚类分析可以:一是发现适当的类( 仅当一组对象可以由个 概念所描述时) ;二是根据每个类形成相应的特征描述。 在数据挖掘中,大多数工作都集中在设计能够有效、高效地对大数据库进行聚类分析的 方法上。相应的研究课题包括:聚类方法的可扩展性、复杂形状和复杂数据类型的聚类分析 及其有效高效性、高维聚类技术,以及混合数值属性与符号属性数据库中的聚类分析方法等 i l 】f 2 l 。 2 2 聚类分析在客户关系管理中的作用 举例而言,当我们想在网络商店上提供网友产品或服务时,一定希望: 增加访问人数; 从彼此的互动中找出上网者的偏好与特性。 通过对访问者的分析,来调整我们的产品结构;又比如,我们可以从客户的消费组合 中( 如选购手机吲还考虑小灵通) ,推测出消费者的潜在需求,并给予适当的建议。 昆明翌l ! 工大学硕士论文 要实现上述目标,就必须掌握不同客户的不同需求、反应、期望与相关的消费行为,聚 类分析正可以帮助达到这样的目的。 具体地说把聚类分析应用于在客户关系管理有以下六个方向【7 l l : 1 ) 客户的分群:对企业或公司现存的客户进行动态的区分,在获得详细的客户区分后, 进一步针对个别的客户层级进行“量身订制”的特别营销,借此获取客户的忠诚度。在对客 户进行划分时应作敏感度分析,凭借某项要素的微调,从而使决策最佳化。 2 ) 获取新客户:通过对现有客户的聚类分析,来预测潜在客户的需求模式,并从中挑 选出那些尚未成为我们的客户,但最有可能会对我们的产品感兴趣的人。 3 ) 维系客户:当信息显示企业的基本客户已经丌始流失时,公司就该采取挽留措施, 同时对那些还算稳定的客户,就该给些诱因使其更愿意留下来。 4 ) 剔除客户:当客户数据中出现“黑名单”,也就是企业投注于其身上的费用远超过 他所回馈的时,就应该考虑是否停止为这些客户付出努力与成本。 5 ) 购物篮分析:购物篮指的就是消费者所购买的商品种类及数量,分析哪些商晶最好 销,什么样的人最喜欢这类商品,这种商品主要被谁购买( 主力客户) 等,最终分析出对公 司产生多少经济效益。 6 ) 需求预测与目标营销:在处理过大量的数据后,当再次收到一笔新的数据时,计算 机系统便会仿真它的结果。换句话说,就是根据某类潜在客户的特性去预测其需求,从而找 出对所能提供的商品缳具有消费倾向的客户。这方面的分析可以加强商家对各种商品的主力 客户的促销,进而提高销售业绩。另一方面。又可节省不必要的浪费,如营销费用与存货的 过剩或不足等。 7 ) 交叉销售与主动销售:比如当我们在基会市场购买某种基金时会发现有许多特性刁: _ l 同的毓金组台,如成 型、吲际型、稳定型、股票型等。这样做既迎合了投资人, 教风险的 需求,又为客户提供了操作上的便利。或暂是和行业结盟形成张完整的销信阀,辟可能满 足客户“一次购足”的需求,像航空公司与租车行、饭店的结盟就是个例子。 同时还可以根据不同群体的消费特性,向潜在客户介绍适合的产 i | l ,如保险公司可以向 双薪并有年幼予女、年收入6 万元的保户提出以下建议:仃7 5 。捅i 他们条f l 堋 同的保川涂了购 买意外险外,也会帮自己的子女购买教育基金,如此一来便激起了客,。的潜= f 】 :需求。 昆l w 理工大学硕士论文 2 0 0 4 年3 月 2 3 聚类分析 2 3 1 聚类的概念 聚类( c l u s t e r i n g ) 是一个将数据集划分为若干组( c l a s s ) 或类( c l u s t e r ) 的过程, 并使得同一个组内的数据对象具有较高的相似度,而不同组内的数据对象则是不相似的 1 1 】【3 l 【1 3 】。一个聚类( c l u s t e r ) 就是由彼此相似的一组对象所构成的集合,不同聚类中的对 象通常是不相似的。相似或不相似的度量是基于数据对象描述属性的取值来确定的。 聚类分析就是从给定的数据集中搜索数据对象之问所存在的有价值联系,它所涉及的 领域包括数据挖掘、统计学、机器学习、数据库技术、市场学等。 聚类分析属于一种无指导学习方法和通过观察学习方法,而不是示例学习,与分类学 习不同,无指导学习不依靠事先确定的数据类别,以及标有数据类别的学习训练样本集合。 聚类分析和判别分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分类然 后总结出判别规则,是一种有指导的学习:而聚类分析则是有了一批样本。不知道它们的 分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同类的 观测比较接近,不同类的观测相差较大。 聚类问题可一般性地描述为【2 j :待聚类样本空间为z ;i z 。x 。l ,每个样本j 由一组特征数据组成的m 维向量b 。x 。) 表示,x 的样本聚类是x 的一个划分 彳,彳, ,满足u 4 = 盖并且爿,f l a ,。巾 ( 每个划分4 的元素的相互之间的 i - i 距离都很小) ,当i 为定值时的聚类是静态聚类,即决策者己事先定出聚类的类别数,t 为 变量时的聚类是动态聚类,即决策者事先不定出聚类的类别数,t 的大小完全由样本空间 的客观情况而定。 所以,聚类分析依赖于对观测间的接近程度( 距离) 或相似程度的理解,定义不同的 距离量度和相似性量度就可以产生不同的聚类结果。 聚类的工作过程就是采用问隔数值属性、二值属性、符号属性、顺序属性、比值属性, 或这些属性的组合进行处理,以计算出对象之间的差异值,利用数据差异值就可以对对象 进行聚类分析了。 昆明理工夫学硕士论文2 0 0 4 年3 月 2 3 2 传统聚类算法的分类和特点 现有的主要聚类算法可以划分为:划分方法、层次的方法、基于密度的方法、基于网 格的方法和基于模型的方法【”。 划分的方法:给定一个n 个对象或者元组的数据库,一个划分方法构建数据的k 个划分,每个划分表示一个簇,并且k 2 ,n ) 蜘一1 ) ( 3 - 3 ) 数值差愈大,平方后增大的就愈多,所以离均差稍有变化,就能从指标j :反映出 来,故用方蒡来反映数据的离散程度是很有效的。方差小说明波动小,反之则波动大。 标准差:又称离差,是方差的平方根。离差是常用的。个变异指标。 系统聚类法【2 】的指导思想是:一个合理的聚类应当是类内的离差平方和较小,类间的 离差平方和较大。具体做法是,先将n 个观测各自成一类,计算其两蕊的距离得到一个距 离矩阵,然后把离得最近的两个观测合并为一类,于是只剩了一一1 个类,每缩小一类离差 昆明理t 大学硕士论文 2 0 0 4 年3 月 平方和就要增加,选择使离差平方和增加最小的两类合并,就只剩下了n 一2 个类,如此合 并下去直到剩下两个类,把它们合并为一个类为止。 当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水 平数( 即未合并的类数) 停下来,最终的类数就取这些未合并的类。决定聚类个数是一个 很复杂的问题。 在系统聚类法中,把n 个观测看作r l 类,就会有这样一个问题,如果这n 个观测值并 不是个个都是有效值,也就是说如果有异常数据和不合理数据,那么它就会对聚类过程产 生不利的影响,换句话说当对含有奇异数据进行聚类时,可能干扰判别类数的结果,这对 于小样本空间和较小数据库时尤为突出。 在实际应用时就有这样的情况,比如在数据搜集进行问卷调查时,有的调查对象( 客 户) 在填写调查表时很不认真,有些内容随意填写,有的全写零,有的全部写成一个值, 有的是照着别人的内容抄写,有的帮别人填写,还有的是作恶作剧故意写一些奇特值,等 等。这样调研的结果造成有的数据不能反映真实情况,但又是极少数的,进行人工排查很 困难,如果对样本数据先进行数据处理,以减小奇异数据的影响或者说降低奇异数据的干 扰使其对聚类过程的影响最小化,这样就会增强聚类过程的有效性和增强聚类结果的说服 力。 所以,针对上述问题就应当对初始数据进行预处理。 3 1 2 预处理方法和原理 对样本数据进行预处理,以削弱异常数据对整个聚类过程的影响很有必要。这里采用 线性变换的方法,既先对数据集作线性变换, 围的值,把变换的结果作为一个新的数据集, 析。 这样可以把不符合标准的数据转化为定范 然后再用最小离差平方和法进行系统聚类分 变换过程是:先从数据矩阵的每一个变量中找出最大值和最小值,然后用当前值减去 该变量的最小值,再除以该变量的最大值与最小值之差,最后乘以比例系数。 设初始数据集为: x= 工1 1x 1 2 z 1 m x 2 1x 2 2 j 2 m 1 9 昆明理工大学硕 论文 n 为样本数,m 为变量数,设变换后的数据为石:,有 蜘蒜x q - r a i no k 滢引 ( 3 - 4 ) 由矩阵论理论可得p i 。线性变换就是一种映射,线性变换不影响线性相关性,其本质 由不变量决定,个转动或平移变换的具体形式随坐标系而异,但变换矩阵的本征值并没 有改变,它们与坐标的取舍没有关系。 处理后再做方差运算进行比较、合并,具体步骤下面详细蜕明。 3 2r m v h c 聚类法的实现 3 2 1 聚类公式 设观测个数为n 变量个数为啪,g 为在某一聚类水平上的类的个数,x ,为第i 个观测 c 。是当前( 水平g ) 的第k 类,n 。为c 中的观测个数,只为均值向量, 为类c k 中的 均值向量( 中心州i 为欧氏长度2 弘一玎为总离差平方平,2 酚司为 类c r 的类内离差平方和,昂= 为聚类水平g 对应的各类的类内离差平方和的总和。 假设某一步聚类把类c 。和类q 合并为下一水平的类c 0 ,则定义口。= 一k 一为合并 导致的类内离差平方和的增量。用d i 代表两个观测之问的口 ! 离,d 。为第g 水平的类c 。和 类c 。之f u j 的距离。 常j 】距离算法有【2 5j : 明氏距离( m i n k o w s k i ) 。= ( 羹l x 。一x ,1 4 ) 马氏距离( m a h a l a n o b i s ) d 一( t x ,) 。_ 1 ( x ,一工,) 艺为协差阵 ( 3 5 ) ( 3 6 ) 昆叫理工大学硕l :论文2 0 0 4 年3 月 兰氏距离( c a n b e r r a ) 卟吉耋鼎 , 斜交空间距离 叫寺薹扣嘞,c x i t - x f l ,。 2 泞s , 其中憎是变量屯与变量闯的相关系数。 进行系统聚类时,类间距离可以直接计算,也可以从上一聚类水平的距离递推得到。 观测间的距离可以用欧氏距离或欧氏距离的平方,如果用其它距离或非相似性测度得到了 一个观测间的距离矩阵也可以作为系统聚类方法的输入。 最小离差平方和法的具体计算公式如下。 设已将n 个样品分为k 个类:c 。,c :,c 。,则第i 个类c ,样品间离差平方和为; 彤。x ,一习。一i ) k 个类的类内离差平方和为: 只= ;| ;彬= ;| ;黔一x 1 ) 协一动 n 个样品总的离差平方和为 丁2 2 荟o ,一;) f ,一;) ;为所有样品的总重,d 一1 击一 扣i 刍q 。 当k 固定时,应选择使坟达到最小的分类。 两类合并后增加的离著平方和看成类问的平方距离,即 d 口= ) 一+ ) ( 3 9 ) ( 3 一l o ) ( 3 - 1 1 ) ( 3 - 1 2 ) ( 3 】3 ) 当c 。 和c ,合并为新类c 【。) 后,按离差平方和法计算类c ( 。) 与其它类c ,之 2 1 昆l w 理工大学顶t 。论文 2 0 0 4 年3 月 间的距离的递推公式为 ,= 端即糟即盘 3 2 2 聚类类数的确定 ( 3 1 4 ) 系统聚类最终得到一个聚类树,可以把所有观测聚为一类。到底应该把观测分为几类 是一个比较困难的问题,因为分类问题本身就是没有定标准的,应根据具体情况综台分 析得出。 针对这个问题本文采用检验指标结合主因素分析的方法来综合比较判定。具体方法 是: 1 ) 多取几个变量进行聚类: 2 ) 判断贡献率较大的变量个数( 有几个主因素) : 3 ) 根掘聚类过程中榆验值的波动情况初步确定类数: 4 ) 作检验值的变化曲线,根据峰值修正类数; 5 ) 作变量散点图矩阵和三维图,找出主因素; 6 ) 根据主因素敝点图,最终确定聚类的类数。 确定类数的检验指标有8 】【1 9 】f 2 d j : r 2 统计量 rz :l 一髦( 31 5 ) 。l 其中最为分类数为g 个类时的总类内离差平疗和,t 2 为所仃变量的总离莠1 卜j ,f 。r : 越大。说明分为g 个类时惩个类内的离差平方和都比较小f ! ;l 就是分为g 个类是合适的。 但是,矬然分类越多,每个类越小,r2 越大。所以 能取g 使得月! 足够火,但g 奉身比较 小,而h 尺2 不再火幅度增加。 半偏相关系数 在把类c 。和类c 。合并为下一水平的类c 。州,定义半偏棚关系数为: 昆明理工大学碗一二论文2 0 0 4 年3 月 半偏rz :缉 r 2 ( 3 1 6 ) 其中b 。为合并类引起的类内离差平方和的增量,半偏相关系数越大,说明这两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论