(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf_第1页
(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf_第2页
(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf_第3页
(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf_第4页
(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(应用数学专业论文)聚类算法在银行客户细分中的研究和应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学研究生硕士学位论文第1 页 摘要 数据挖掘是一种新兴的决策支持工具,而聚类分析是该领域的核心技术和非常 活跃的研究方向。客户细分是客户关系管理的重要组成部分,它是指企业根据客 户的内在和外在属性、及客户的消费行为特征对其分类,从而为不同类别的客户 提供针对性的产品和服务。聚类是客户细分的有力工具,尤其是在金融行业中日 益发挥出积极的导向作用。 聚类是一种无监督学习过程,它按照事物的属性特征把事物聚集成若干簇,使 同一簇内的数据对象之间具有较高的相似性,而不同簇之间的数据对象相似度较 低。聚类融合是将多个聚类结果进行组合来获得更加鲁棒和聚类准确率更高的数 据划分结果。本文提出了一种基于投票机制的两层聚类融合模型,它通过解决以 下几个方面的问题来实现对聚类精度及算法鲁棒性的提升: 聚类成员的生成问题:聚类成员是聚类融合算法的基础,生成聚类成员的核心 问题是获得多个相互具有差异性的原始聚类结果。在本文提出的模型中,涉及两 个层次的聚类成员:第一层聚类成员为原始的聚类算法产生的聚类结果,它通过 为多种聚类算法设置不同的参数来获得;第二层的聚类成员是将同一种算法在不 同参数下的聚类结果进行组合得到的聚类融合结果,也就是说第二层的聚类成员 兼具聚类融合结果和聚类成员两个方面的性质。通过选择不同类型的聚类算法和 设置不同的初始化参数可以得到有差异性的聚类成员,提高聚类融合质量。 聚类融合函数设计问题:它是指用什么样的方法将多个聚类结果组合起来从而 提升原始聚类算法的聚类效果。在本文的两层聚类融合模型中,主要采用多个聚 类结果投票的方法作为聚类融合函数。投票机制的核心思想是一组成员对某件事 物的共同判断优于单个成员的判断,它具有简单有效且便于理解的特点。 聚类标签的匹配问题:在采用基于投票的聚类融合方法时,确定不同数据划分 中簇的对应关系也是一个十分重要的问题。不同的算法、甚至同一个算法在不同 参数下的聚类结果对实质相同的同一个簇的描述或标签都可能是不同的。在本文 研究中,通过将两次聚类中共享数据点最多的两个簇设置相同的类标号来解决标 签匹配问题。 第l i 页河南大学研究生硕士学位论文 本文还探讨了客户细分的一般性方法;并采用实证分析方法,利用某银行投资 理财业务的客户基本资料和各类原始交易数据,通过设计先聚类后分类的数据挖 掘方案,建立了有效的客户细分模型,这对银行提高客户关系管理的科学性有一 定借鉴意义;并通过实际应用,验证了本文所提出的两层聚类融合方法的效果和 适用性。 关键词:数据挖掘;客户细分;聚类;聚类融合 河南大学研究生硕士学位论文第1 i i 页 a b s t r a c t d a t am i n i n gi sa e m e r g i n gd e c i s i o n - m a k i n gs u p p o r tp r o c e s s ,a n dc l u s t e r i n ga n a l y s i s i st h ec o r et e c h n o l o g ya n dv e r ya c t i v er e s e a r c hd i r e c t i o no ft h ed a t am i n i n g t h e c u s t o m e rs e g m e n t a t i o ni sac o m p o n e n to ft h ec u s t o m e rr e l a t i o n sm a n a g e m e n t ( c r m ) , w h i c hm e a n st h a tt h ee n t e r p r i s e sc l a s s i f yt h ec u s t o m e r si n t od i f f e r e n tg r o u p sb a s e do n t h e i rc h a r a c t e r i s t i c ,d e m a n d , f a n c ya n do t h e rs y n t h e s i sf a c t o r ss oa st op r o v i d et h e s p e c i f i cp r o d u c t sa n ds e r v i c e st od i s s i m i l a rc u s t o m e r s a st h ep o w e r f u lt o o li nc u s t o m e r s e g m e n t a t i o n ,t h ec l u s t e r i n gm e t h o d sa r ed i s p l a y i n gi t sf u n c t i o no fg u i d a n c ei nt h i sf i e l d , e s p e c i a l l yi nt h ef i n a n c i a li n d u s t r y c l u s t e r i n gi sau n s u p e r v i s e dl e a r n i n gp r o c e s s ,i td i v i d e st h ed a t ap o i n t si n t os e v e r a l p a r t sb ym a k i n go b j e c t si nt h es a m ep a r th a v eah i g hs i m i l a rf e a s u r ea n do b j e c t si n d i f f e r e n tp a r ta r ea sd i s s i m i l a ra sp o s s i b l e c l u s t e r i n ge n s e m b l em e t h o da r em o r er o b u s t a n dh i g h e ra c c u r a t eb yc o m b i n i n gm u l t i p l ec l u s t e r i n gr e s u l t s i nt h i sp a p e r , w ep r o p o s e d an e wt w o - l a y e rc l u s t e r i n ge n s e m b l ea l g o r i t h mb a s e do nt h ev o t i n gm e c h a n i s mt o f u r t h e ri m p r o v et h er e s u l t so fe n s e m b l e t h i sa l o g r i t h mm a i n l ys o l v et h ef o l l o w i n g p r o b l e m : g e n e r a t i o no ft h ec l u s t e r i n gm e m b e r s :t h ec l u s t e r i n gm e m b e r sa r et h eb a s eo ft h e c l u s t e r i n ge n s e m b l e t h ep r o p e rd i f f e r e n c eb e t w e e nm e m b e r s 研l lg e ta b e t t e re n s e m b l e r e s u l t t h em o d e lp r o p o s e di n v o l v et w ol e v e l so fc l u s t e rm e m b e r s :t h em e m b e r so ft h e f t r s tl e v e li sg e n e r a t e db yd i f f e r e n to r i g i n a lc l u s t e r i gm e t h o dw i md i v e r s ep a r a m e t e r s m e m b e r so ft h es e c o n dl e v e la r et h ec l u t e r i n ge n s e m b l er e s u l t so fm e m b e r so ft h ef i r s t l e v e r i tc a ni m p r o v et h er e s u l to ff i n a ld a t ap a r t i t i o nb ys e l e c td i f f e r e n tk i n do ft h e o r i g i n a lc l u s t e r i n ga l g o r i t h ma n ds e td i v e r s ep a r a m e t e r s c l u s t e r i n gf u s i o nf u n c t i o nd e s i g n a t i o n :t h ec l u s t e r i n gf u s i o nf u n c t i o ni st h em e t h o d t oc o m b i n i n gt h eo r i g i n a lc l u s t e r i n gr e s u l t s i no u ra l g o r i t h m , am a j o r i t yv o t i n gr u l ei s a d o p t e da st h ef u s i o nf u n c t i o n t h ei d e ab e h i n dm a j o r i t yv o t i n gi st h a tt h ej u d g e m e n to f ag r o u pm e m b e r si ss u p e r i o rt ot h o s ei n d i v i d u a l s t h i sc o n c e p th a db e e nw d e l ye x p l o r e d a n ds h o w e dt h a ti ti sa v e r ys i m p l e ,e f f e c t i v ea n de a s i l yb eu n d e r s t o o d a c c o r d i n gt ot h e d e m a n di nr e a l a p p l i c a t i o n , i tp u t f o r w a r dh i g h e r r e q u i r e m e n t sf o rt h em o d e l u n d e r s t a n d a b l e s ow el a s tc h o s et h ev o t i n gm e c h a n i s ma st h ef u s i o nf u n c t i o no fe a c h 第1 v 页河南大学研究生硕士学位论文 l e v e l m a t c h i n gt h ec l u s t e r i n gl a b e l :i ti sav e r yi m p o r t a n tp r o b l e mw h e na d o p t i n gt h e v o t i n g b a s e dc l u s t e r i n g e n s e m b l em e t h o d ,a sd i f f e r e n t a l g o r i t h m s ,e v e nd i f f e r e n t p a r a m e t e r st oas a m ea l g o r i t h mw i l lm a k et o t a l l yd i f f e r e n td e s c r i p t i o nt oc l u s t e r sw h i c h i nf a c ta r et h es a m eg r o u p i nt h i sp a p e r , t h i sp r o b l e mw a ss o l v e db ym a k i n gt h ec l u s t e r s w h i c hg e tt h em o s ts h a r e dd a t ap o i n t sh a v et h es a m ec l u a t e rl a b e l t h i sp a p e ra l s od i s c u s s e dt h eu n i v e r s a lm e t h o do fc u s t o m e rs e g m e n t a t i o n w ea l s o u s et h ee m p i r i c a la n a l y s i si nc u s t o m e rs e g m e n t a t i o n b a s e do nt h eo r i g i n a lt r a n s a c t i o n d a t ao fi n v e s t m e n tc u s t o m e r s ,w ed e s i g n e da c l u s t e r i n g c l a s s i f e rd a t am i n i n gp r o c e s s a n db u i l tae f f e c t i v ec u s t o m e rs e g m e n t a t i o nm o d e lf o rt h ec o m m e r c i a lb a n k t h er e s u l t s h o w e dt h a tt h ep r o p o s e dt w o - l a y e rc l u s t e r i n ge n s e m b l ea l g o r i t h mw o r k sv e r yw e l li n t h eb u s i n e s sa p p l i c a t i o n k e yw o r d s :d a t am i n i n g ;c u s t o m e rs e g m e n t a t i o n ;c l u s t e r i n g ;c l u s t e r i n ge n s e m b l e 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请。本人郑重声明:所呈交的学位论文是 本人在导师的指导下独立完成的,对所研究的课题有新的见解。据我所知,除 文中特别加以说明、标注牵致谢的地方外,论文中不包括其他人已经发表或撰 写过的研究成果,也不包括其他人为获得任何教育、科研机构的学位或证书而 使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学住申请人( 学住论文作者) 签名_ 芝! 坌鲤一 一 2 0 。7 年月 日 关于学位论文著作权使用授权书 本人经河南大学审核批准授子硕士学位。作为学位论文酌作者,本人完全 了解并同意河南大学有关保留、使用学位论文的要求,即河南大学有权向国家 图书馆、科研, f i - ,蛳构、数据收集机构和本校图书馆等提供学位论文( 纸质文 本和电子文本) 以供公众检索、查阅。本人授权河南大学出于宣扬、展览学校 学术发展牵进行学术交流等目的,可以采取影印、缩印、扫描和拷贝等复制手 段保存、汇编学位论文( 甄质文本和电子文本) o ( 涉及保密内容的学位论文在解密后适用本授权书) 学位获得者( 学住论文作者) 釜名:一坠蛆一 2 0q 年月 日 学位论文指导教师弛圣圣重 2 0j 7 年石月自 河南大学研究生硕士学位论文第1 页 第1 章绪论 随着现代信息技术的飞速发展,各类业务系统所产生的数据呈爆炸性增长,而 人们在面临各种各样复杂的决策问题时又常常缺乏足够的信息和知识来辅助其做 出及时准确的决策。目前,一些商业银行对个人理财业务市场的划分还很简单, 通常是以一个固定的资产额度来对客户进行划分,但随着消费层次和需求的多样 化,这样的划分显然不能满足客户的个性化需求。另一方面,商业银行利用现代 化的数据库和数据仓库系统,存储了大量的客户人口统计信息和客户业务交易数 据。如何利用有效的工具从这海量数据中发现客户的个性特征,从而为各类客户 提供针对性的服务产品,己成为商业银行的当务之急。数据挖掘技术是二十世纪 八十年代后期兴起的一门交叉学科,它是从大量数据中用非平凡的方法发现有用 知识的一般过程,也是当今进行客户细分的重要方法之一。 本章将从整体上对本论文作一个概括性的介绍,描述本论文研究的背景与选题 意义,并介绍论文的主要研究内容和研究方法。 1 1 数据挖掘技术概述 1 1 1 数据挖掘的产生背景 随着数据库技术的发展和互联网的迅速普及,人们所面对的数据量急剧的增 长,无论企业、科研机构还是政府部门都积累了大量的、以不同形式存储的数据 资料。然而,在拥有海量数据的同时我们对数据中所蕴涵的信息和知识却又缺乏 充分的理解和应用。依靠传统的数据库技术对数据进行查询和检索等手段,己经 远远不能满足数据分析和处理的要求,不能帮助我们从数据中提取带有结论性的 有用信息。虽然基于数据仓库的联机分析处理技术具有概括和聚集的功能,并支 持多维分析和决策,但它不能进行更深层次的数据分析,不能充分的发掘和利用 数据库中蕴藏的丰富知识。因此,人们迫切需要有效的数据分析方法和技术以解 决“数据丰富而信息贫乏”这一现象,以帮助人们从海量数据中挖掘出有用的信 息,发现其中存在的关系和规则,实现决策的智能化和自动化,从而带来商业上 第2 页河南大学研究生硕士学位论文 的巨大价值。在这种情况下,数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , l d ) 和数据挖掘( d a t am i n i n g ,d m ) 【1 h 4 】技术应运而生并逐渐显示出强大的生命 力。 数据挖掘就是从数据中提取人们感兴趣的知识,这些知识一般是隐含的、有效 的、新颖的、潜在有用的以及最终可以理解的模式【l l 。数据挖掘充分利用了机器学 习,数理统计,人工智能和模糊逻辑等理论和方法,它是应用需求推动下多种学 科融合的结果。 从二十世纪八十年代末至今,k d d 和数据挖掘技术有了很大的发展。在1 9 8 9 年在美国底特律召开的第十一届国际人工智能联合会议的专题讨论会上提出了 k d d 这一术语,接着又继续举行了关于k d d 专题讨论会。从1 9 9 5 年起每年举办 一次知识发现和数据挖掘国际学术会议。( ( k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) ) 创办于1 9 9 7 年,它是k d d 的核心学术刊物,国外在这方面发表了众多的研究成 果和论文,并且开发了许多数据挖掘软件,建立了一些相关科研网站。目前,对 k d d 和数据挖掘的研究己成为计算机领域的一个热门课题。在我国,许多计算机、 数据库、人工智能、机器学习领域的专家学者也逐渐投入到k d d 和数据挖掘的研 究中,并己取得了一定的成果。 1 1 2 数据挖掘的研究内容 随着数据挖掘研究的逐步深入,数据挖掘和知识发现的研究己经形成了三个强 大的支柱:数据库技术、人工智能和数理统计。模式识别、机器学习和人工智能 等领域的分类,聚类,决策树,神经网络,进化计算,以及模糊集,粗糙集等方 法经过改进大都可以应用于数据挖掘和知识发现跚6 】【7 1 。数据挖掘通常以海量的、 类型更加复杂的数据为研究对象,所以其研究内容主要包括对现有技术的改进, 综合各种方法优点的有效集成,以及在一些新领域的应用研究等。概括起来主要 有: 1 ) 基础理论,包括数据库、数据仓库以及海量数据的存储和调用; 2 1 发现算法,包括分类、聚类、回归和关联规则等针对特定挖掘任务和知识 河南大学研究生硕士学位论文第3 页 的有效方法; 3 ) 知识表示方法和可视化技术; 4 ) 发现知识的维护和再利用; 5 ) 半结构化和非结构化数据中的知识发现; 6 ) 网络数据挖掘等。 数据挖掘的任务是从数据中发现有趣的模式,模式按功能可分为预测型和描述 型两大类【8 1 1 9 1 。预测型模式是根据数据项的值精确确定某种结果的模式,挖掘预测 型模式使用的是可以明确知道结果的数据。描述型模式则主要是描述数据中存在 的规则和特征,或者根据数据的相似性把数据分为若干类别。实际应用中往往根 据模式的作用细分为分类模式,时间序列模式,回归模式,聚类模式,关联模式。 分类模式和回归模式是使用最普遍的模式,它们和时间序列模式也被认为是有监 督学习,因为在建立模式前数据的结果是己知的,并可以根据这些已知的结果直 接检测模式的准确性,即模式的产生是在受监督的情况下进行的。一般在建立受 监督模式时,通常使用一部分数据作为训练样本,而另一部分数据用来检验和校 正模式,也称为测试集。聚类模式、关联模式、序列模式则是非监督学习,这些 模式建立前的结果是未知,模式的产生不受任何监督。通过这些模式,我们可以 得到以下几种知识:广义知识、关联知识、分类知识、预测型知识和偏差型知识。 数据挖掘和数据库知识发现作为一个学术领域具有很大的重合度,多数学者认 为数据挖掘和知识发现的概念是等价的。目前,数据挖掘主要流行于统计、数据 分析和数据库领域,知识发现主要流行于人工智能和机器学习领域。从数据处理 的角度看,可以把数据挖掘作为知识发现过程中和算法相关的一步,借助于算法 在可接受的计算范围内从数据中枚举模式或模型结构。k d d 的基本过程包括问题 定义、数据准备、数据挖掘以及结果的解释和评估f 1 0 1 。 1 1 3 数据挖掘的应用和研究方向 目前,数据挖掘技术比较成熟,其应用也越来越广泛,例如金融数据分析、商 业零售数据分析、电信业务分析、生物医学、网络分析、天文数据分析和科学探 第4 页河南大学研究生硕士学位论文 测数据分析等。 广泛的应用使得越来越多的研究机构、企业和学术组织从事数据挖掘系统原型 与产品的研制开发。根据其应用领域这些系统和工具可分为通用单任务类型,通 用多任务类型和面性专用领域类型。它们的挖掘功能和方法上的差别体现在关键 技术、运行平台、处理的数据类型、与数据库或数据仓库的藕合关系、提供的数 据挖掘查询语言和可视化工具、价格等方面。但是,无论是专门用于某一方面或 领域的系统,还是紧密结合数据库和数据仓库的综合系统,除了采用了传统的统 计方法外,还采用基于人工智能的技术,包括决策树、规则归纳、神经网络、可 视化、模糊建模等,这是数据挖掘工具的发展趋势。同时,数据挖掘工具的开发 不仅要面向专业人员,而且要面向非专业人员以及高层决策人员,这也是数据挖 掘系统的另一个主要发展方向。 数据、数据挖掘任务和数据挖掘方法的多样性给数据挖掘提出了许多挑战。设 计通用的数据挖掘语言,开发高效而有用的数据挖掘算法和系统,建立交互和继 承的数据挖掘环境,以及应用数据挖掘技术解决大型应用问题等都是目前数据挖 掘研究人员、系统和应用开发人员所面临的主要问题。目前,数据挖掘的研究方 向主要有: 1 ) 数据挖掘语言的标准化; 2 ) 对于复杂数据类型进行挖掘的新方法; 3 ) 数据挖掘与数据库、数据仓库和w e b 数据库系统的集成; 4 ) 数据挖掘的应用; 5 1 可伸缩的数据挖掘算法; 6 ) 数据挖掘的可视化; 7 ) 数据挖掘中的隐私保护与信息安全。 1 2 客户细分概述 1 2 1 客户细分的理论基础 客户细分是2 0 世纪5 0 年代中期由美国学者温德尔史密斯提出的,其理论依 河南大学研究生硕士学位论文第5 页 据主要有两点:顾客需求的异质性和企业资源的有限性及有效的市场竞争。顾客 需求的异质性说明顾客的需求各不相同,只要存在两个以上的顾客,需求就会不 同。企业有限的资源和有效的市场竞争是指,任何一个企业不能单凭自己的人力、 财力和物力来满足整个市场的所有需求,这不仅缘于企业自身条件的限制,而且 从经济效应方面来看也是不足取的。因此,企业应该分辨出它能有效为之服务的 最具有吸引力的细分市场,集中企业资源,制定科学的竞争策略,以取得和增强 竞争优势。 客户细分是指根据客户属性划分的客户集合。它既是客户关系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 的重要理论组成部分,又是其重要管理工具。它 是分门别类研究客户、进行有效客户评估、合理分配服务资源、成功实施客户策 略的基本原则之一,为企业充分获取客户价值提供理论和方法指导。 每个客户群体,由于他们所处的社会文化、道德观念、收入和消费水平以及 教育背景的不同,导致了他们在对某种产品或服务的需求上表现出极大的差别。 客户细分,就是依据企事业部门系统数据库中的各类客户资料为基础,挖掘和发 现系统中不同的客户群体,分析各个客户群体的需求特点以及其与单位的利害关 系,从而为不同的客户提供特色化服务。在进行客户细分活动时,尤其关键的是 满足重点客户的需求,并发展和维持潜在的优质客户,只有这样才能使客户关系 管理真正成为业务获得成功、产品扩大销量的助推器。 1 2 2 客户细分的一般方法及过程 一 一般来说,客户细分可以根据以下三个方面的客户属性来进行: 1 ) 外在属性:如客户的地域分布,客户的产品拥有,客户的组织归属企业用 户、个人用户、政府用户等。这种分层通常最简单和直观,但同时它也是比较 粗放的分类,我们依然不知道在每一个客户层面,那些客户对企业的贡献更大, 那些客户对企业的贡献相对较小。我们能知道的只是某一类客户( 如大企业客 户) 较之另一类客户( 如政府客户) 可能消费能力更强。 2 ) 内在属性:内在属性行为客户的内在因素所决定的属性,比如性别、年龄、信 第6 页河南大学研究生硕士学位论文 仰、爱好、收入、家庭成员数、信用度、性格和价值取向等。 3 ) 消费行为特征:在不少行业对消费行为的分析主要从三个方面考虑:最近消费 时间、消费频率与消费额。根据消费行为对客户进行细分可以掌握客户的真正 消费习惯和倾向,在实践中通常能得到比较理想的结果。但按照消费行为来分 类也有其局限性,它通常只能适用于现有客户,对于潜在客户,由于消费行为 还没有开始,当然分类无从谈起。即使对于现有客户,消费行为分类也只能满 足企业客户分类的特定目的,如奖励贡献多的客户。至于找出客户中的特点为 市场营销活动找到确定对策,则要做更多的数据分析工作,例如数据挖掘。 客户细分一般可分为五个步骤进行i 删: 第一步,针对客户一般特征的细分。客户所处的社会环境、生活和教育背景 以及经济基础决定了客户的需求级别。针对客户这些特征进行客户分类,应该考 虑的主要因素有:地域特征,如城市或农村,城市规模及城市经济发展水平;生 活教育背景,如年龄,性别,教育文化程度,工作单位性质,职务或级别;心理 因素,如人格特征,道德发展水平等。 第二步,客户价值区问细分。客户根据其自身消费水平的不同对企业的贡献 大小也是不同的。一般来讲,企业中2 0 的客户其贡献占企业总利润的8 0 ,而 其他8 0 的客户的贡献仅占企业利润的2 0 ,有的客户贡献甚至为负。因此,在 根据客户的一般特征进行细分后,还要依据客户对企业的贡献大小将其分为若干 的等级,如:优质客户、潜力客户、一般客户、小客户和黑名单客户等。在这一 阶段,需要考虑的变量主要有:客户贡献额,客户贡献度( 反映某客户贡献与企 业平均客户贡献的比值) ,客户忠诚度等。 第三步,客户共同需求细分。在前两步细分的基础上,选定企业中的优质客 户和潜在优质客户为目标。分析各类客户的需求特征,并以客户需求为指导制定 企业战略,最终为每个客户群体提供个性化的产品和服务。 第四步,选择适合企业数据特征的聚类方法。聚类算法是一种无监督学习算 法,在使用聚类技术进行客户细分时,应根据企业的需要、客户特点和收集到的 数据情况选择合适的算法,以挖掘和发现数据的真实分布情况。 河南大学研究生硕士学位论文第7 页 第五步,对客户细分模型进行评估。客户细分模型目的是根据客户的各种特 征将客户划分为不同的簇,根据企业需要,同一簇中的客户应具有相似的贡献度 和消费倾向,而不同簇问的客户在这些方面应尽量相异,这些特点可以根据客户 属性的均值和方差来测度。另外,在建立客户细分模型后,还要对模型的运行效 率、可理解性、与客户细分目标的关联程度、以及是否便于在实际业务系统中的 实施等方面进行评估。 在进行客户细分是还应注意以下几点:第一,客户细分过程中,最关键的是 拟定进行客户细分的特征要素,特征要素的选择直接影响着客户细分的结果和对 不同客户的价值评定,从而也影响后续的营销战略、战术。客户细分的特征要素 和价值定位,必须建立在理解业务要求的基础上,其细分结果一定要能够准确地 应用到业务流程中,必须能够确保产品或服务能够获得高命中率和高满意度。 第二,客户细分的特征要素不是静态的,而且还是多层次、多视角的,因而客户 细分不是一成不变的,企业应该根据市场环境和客户响应等情况进行动态调整和 优化。客户细分不是五个阶段的简单搭接,而是五个阶段环环相扣、互相影响互 相促进的过程。第三,要确保细分的客户市场足够大,有可识别性、可接触性并 且有利可图。还要避免细分后的客户市场面太狭小,使目标客户群不足以支撑企 业发展所必须的利润。 1 2 3 聚类分析和c r m 数据挖掘的根本在于统计学,而聚类分析被称为统计方法中多元数据分析的几 个主要方法之一,是数据挖掘采用的核心技术,并成为该研究领域中一个非常活 跃的研究课题。聚类的任务是将相似的事物分为一类,差异较大的事物分在不同 的类中。聚类通常作为其他数据挖掘或建模过程的基础工作。 聚类技术试图找出数据集中的共性和差异,将具有共性的元组聚合在相应的类 或域中,并由程序或利用可视化技术自动分析,根据某些属性将数据库分割为一 些子集和簇。例如,零售商想知道在他们的客户群中是否存在着某种相似性,希 望以此为据划分消费群体,了解各自特点,从而更好的销售商品和拓展市场。在 第8 页河南大学研究生硕士学位论文 此过程中,需要从客户信息数据库利用聚类方法分析相关属性以分割消费者并发 现潜在客户的簇。 客户关系管理是指对企业和客户之间的交互活动进行管理的过程,它体现了一 对一市场营销的含义,同时也包含了销售自动化和规范化的思想【1 1 1 。在客户关系 管理中,数据挖掘正在起着导向的作用,只有应用该方法( 主要包括客户保持、 销售和客户服务、市场推销、风险评估和欺诈检测等) ,大企业才能将客户数据库 的大量数据转变成描述客户特征的信息。客户关系管理对企业而言乃是将客户关 系放在企业经营的核心,规划以满足客户需求的营销理念;而利用数据挖掘分析 客户数据,有效掌握客户特性、发掘客户价值,并配合企业的实际营销策略,才 能有效的给企业带来显著的利润【l2 1 。在客户关系管理中,一个至关重要的问题是 如何定量预测顾客剩余生命周期的利润潜力,即顾客终身价值i l 引。这一问题的研 究有利于企业根据顾客的长期价值潜力合理分配资源投入,提高企业运营绩效。 客户价值管理是电子商务活动的核心与基础。利用数据挖掘技术可以构建关键 性指标测量和评价模型,选择运用相关模型来对客户价值进行分析,如客户的获 取、保持、细分、交叉营销、盈利分析。对金融事务数据特征分析,还可能发现 某些客户群体或组织的商业兴趣,预测金融市场的变化趋势。 数据挖掘应用于客户细分可以采用多种方式,聚类是最常用的方法。聚类就是 根据某种相似性准则将样本空间分成多个子空间,使每个子空间内部样本点尽可 能相似,而不同子空间内样本点之间差异尽可能大,其实质是寻找隐藏在数据中 不同的数据模型,是一个无监督学习过程,能够实现样本空间的盲分类。 数据挖掘技术引入中国最早是在2 0 世纪末。从研究的内容和方法,以及从对 于技术本身的把握以及应用的理解方面来看,与西方还存在着很大的差距;有关 文献和专题报告的内容,大都停留在从基础算法提出改进引申整理的阶段,对客 户的挖掘还处于起步期,难以应用于金融领域实证分析。相对于业务处理系统的 现代化,国内的金融行业真正从事数据挖掘项目的比较少,缺乏成功的实施案例。 河南大学研究生硕士学位论文第9 页 1 3 本课题的主要研究内容 1 ) 对数据挖掘中聚类模式的k m e a n s 、d b s c a n 、b i r c h 等几种典型聚类算 法的概念和适用范围等多个方面进行了分析总结:总结了当前聚类融合方法的新 进展,包括融合函数设计、聚类成员的选择及其差异性的度量方法;设计了一种 基于投票机制的两层聚类融合新方法。 2 ) 探讨了客户细分的一般性方法;运用软件工程方法对数据挖掘的流程进行 实施和控制;强调数据挖掘中的数据准备及预处理过程,通过选择恰当的聚类算 法,综合分析客户属性,用s a s 等挖掘工具自动判别关键指标和变量权重,建立 了金融行业客户细分的框架原型。尝试聚类算法的应用整合,从交易数据和客户 基本信息等主要影响因素出发,设计了时间序列形式的统计指标来描述客户的行 为特征,从中发现客户的交易趋势和投资理财倾向,并指出相关的主要影响要素。 3 ) 本文采用实证分析方法,利用某银行的客户基本资料和各类交易原始数据 进行数据挖掘,建立了客户流失模型和客户投资理财评价模型,并验证了本文提 出方法的效果和适用性;本课题对银行业增加客户忠诚度、提高客户关系管理的 科学性有一定借鉴意义。 第1 0 页河南大学研究生硕士学位论文 第2 章聚类分析及算法比较 聚类就是按照事物的各种特征,把事物聚集成不同的簇,使簇内的对象之间具 有较高的相似性,而不同簇的对象之间表现出较高的相异度。在进行聚类时通常 不能获得相应的先验知识,因此聚类是一个无监督学习的过程。聚类同分类的根 本区别在于:分类依赖于预先定义的类和带类标号的训练实例,是一种观察式的 学习;而聚类是找到这个簇的特征或者标号的过程。因此,在实际应用中,聚类 分析通常作为一种数据预处理过程,是进一步分析和处理数据的基础。聚类分析 也可以作为一个获得数据分布情况、观察每个类的特征和对特定类进一步分析的 独立工具。通过聚类,能够识别密集和稀疏的区域,发现全局的数据分布模式, 以及数据属性之间的相互关系等。 一个有效的聚类算法必须满足下面两个条件:类内数据对象的强相似性,通常 用紧致度描述;类间数据对象的弱相似性,常采用分离度描述。聚类质量的高低 通常取决于聚类算法所使用的相似性测量方法和实现方式,同时也取决于该算法 是否能发现潜在的有趣模式。 2 1 聚类分析中的数据类型和数据结构 2 1 1 聚类分析中的数据类型 传统的分析方法大多是在数值型数据的基础上进行研究的,然而数据挖掘研究 的对象复杂多样,聚类过程中所处理的对象不仅有数值型数据,还有非数值类型 和混合类型数据。通常来说,在数据挖掘中对象的属性值有以下几种类型:区间 标度变量,二元变量,标称型、序数型、比例标度型变量和混合类型的变量。 1 ) 区间标度变量 间标度变量是一个粗略标度的连续度量。例如身高和体重,经度和纬度坐标, 以及洋流温度等。为了将数据样本划分成不同类别,必须定义差异度函数。差异 度函数或相似性函数用来度量同一类数据样本之间相似性和不同类数据样本间的 差异性。由于对样本点的描述可能有多个属性,而不同的属性又使用不同的度量 单位,所以在计算数据的相似度之前要先进行数据的标准化。对于一个给定的有n 河南大学研究生硕士学位论文第1 1 页 个对象的p 维数据集,主要有两种标准化方法: 平均绝对误差s 。: = 去孙1 l 旺, 这里表示的是第i 个数据对象在属性p 上的取值,m p 是属性p 上的平均值, 即 = 丢喜 ( 2 2 ) 标准化度量值z 一: z p = _ x l p - - - m p ( 2 3 ) 在有孤立点存在的情况下,平均绝对误差比标准差具有更好的鲁棒性。 在计算平均绝对偏差时,属性值与平均值的偏差1 一l 没有平方,因此孤立点的 影响在一定程度上被弱化了。 数据标准化处理后就可以进行属性值问的相似性测量,通常的方法是计算样本 点间的距离。对于p 维向量薯和x ,有以下几种距离函数: 欧式距离:d ( 薯,哆) = l l x , 一x , l l = 艺( 稚一靠) 2 ( 2 4 ) y 七= l 曼哈顿距离:d ( 毛,- ) = 窆1 一颤l ( 2 5 ) 一般化的明氏( m i n k o w a k i ) 距离: 巩c ,一,= 喜kc 一,” i ( 2 6 ,。 巩( ,一) = l ( 一) ”r ( 2 6 ) 。 i = l i 当m = 2 时,明氏距离即为欧式距离;当m - - 1 时,明氏距离即为曼哈顿距离。 欧式距离和曼哈顿距离满足如下条件:任意两元素间距离为非负数值;任一对象 与自身的距离是零:任意两元素阳l 的距离具有对称性:元素阳l 的距离满足三角不 第12 页河南大学研究生硕士学位论文 等式,即元素i 到j 的距离不会大于元素i 到k 和k 到j 的距离之和。 2 ) 二元变量 二元变量只有两个状态:0 和1 。二元变量又可进一步分为对称的二元变量和 不对称的二元变量。对称的二元变量是指变量的两个状态不具有优先权;不对称 的二元变量对于不同的状态其重要性是不同的。 对于非对称情况,度量两个二元变量的差异度由简单匹配系数和j a c c a r d 系数 决定。设两个对象i 和j ,q 是属性值在两个对象中都为1 的属性个数;f 是属性值 在i 中为l 而在j 中为0 的属性个数;s 是属性值在i 中为0 而在j 中为1 的属性个 数:t 是属性值在两个对象中都为0 的属性个数。则: 简单匹配系数:d ( i ,j f ) :竺- ( 2 7 ) q + r + s + l j a c c a r d 系数:d g - ,) :l ( 2 8 ) q + r + s 3 ) 标称型和序数型变量 标称变量是二元变量的推广,它可以有多个状态值,状态之间是无序的,且不 可比较大小。具有这种数据类型的属性也称分类( c a t e g o r i c a l ) 属性。 它的差异度可用简单匹配法来计算: d ( f ,歹) ;p - m ( 2 9 ) p 其中m 是对象i 和j 中匹配的属性个数,而p 是全部属性个数。 序数型变量类似于标称型变量,但它的各个状态是有意义的序列。如: 助教、 讲师、副教授、教授 。 4 ) 混合型变量 在实际数据库中,数据样本点通常不是由单一的区间标度变量或二元变量而描 述的,而是由混合类型的变量描述的,这就需要将不同的类型属性组合在同一个 差异度矩阵中进行计算。设数据集包含m 个不同类型的属性,对象i 和i 之间的差 异度定义为: 河南大学研究生硕士学位论文第1 3 页 印秽厶。“d d ( i ,) = 型丁一 归 胪l ( 2 1 0 ) 其中如果或者缺失,或2 = o ,且变量是不对称二元变量,则指示项 q ,户:o ;否则吒p - l 。 如果属性p 是二元变量或者标称变量:如果2 ,西p :0 ;否则,西= l 。 lt 如果属性p 是区间标度变量:群:上蔓二牡,这里的h 取遍具有非 m a x hx 呻- - f i l l hx l i p 空属性p 的所有数据对象。 如果属性p 是序数型或者比例标度型变量:将其转化为区问标度变量值对待。 2 1 2 聚类分析中的数据结构 聚类算法常用的数据结构有以下两种: 1 ) 数据矩阵,这种数据结构也被称为对象与变量结构:它用p 个变量来表现 n 个对象,例如年龄、身高、体重、性别、种族等属性来表现一个人的信息。这种 数据结构是关系表的形式,也可以看作一个n * p 的矩阵。它是一种二模矩阵,其 行和列代表不同的实体,在应用聚类算法之前通常将之转换为差异度矩阵。 2 ) 差异度矩阵,或者距离矩阵:它以一个n * n 存储n 个对象两两间的差异性, 其中每个元素4 ,表示对象i 和j 之间的相异性的量化表示,通常它是一个非负的实 数值。对象i 和j 的越相似,屯越小;对象i 和j 越不同,吃越大;且满足4 ,- o 。 差异度矩阵中的行和列代表相同的实体,且其中元素具有相同的量纲,因此许多 聚类算法是以它为基础进行的。 2 2 聚类准则的确定 有了相似性测量函数,下一步要确定的是采用的聚类准则。聚类准则是聚类分 析算法的关键,通常有两种确定方式: 1 ) 试探方式:凭主观和经验,针对实际问题定义一种相似性测度的阈值,然后按 第14 页河南大学研究生硕士学位论文 最近邻规则指定某些对象属于某一聚类。例如使用欧式距离,它反映的是对象之 间的近邻性,在将一个对象分到两个类别中的一个时,必须规定一个距离测度的 阈值作为聚类的判别准则。 2 ) 聚类目标函数法:由于聚类是将对象进行组合分类以使类别可分离性最大,因 此聚类准则应是反映类别问相似性和相异性的函数。但每个类是由一个个对象所 组成,所以一般说来,类别的可分离性与对象的相异性直接有关。这样,定义一 聚类目标j ,应是对象集合 x 聚类类别 s ,j = l ,2 c ) 的函数。该过程使聚类分 析转化为寻找准则函数极值的最优化问题。一种常用的指标函数是误差的平方和, 即: - ,= 妻b 一0 2 ( 2 1 1 ) j = l 其中,m ,为聚类中心,s ,是中心为m ,的聚类域,c 为聚类数目, m 。:土y 工 ( 2 1 2 ) nj 气 ,为s j 中的对象个数,这里以均值向量m j 代表s ,聚类域。 上式表明,j 代表了分别属于c 个类别的全部对象与其相应类中心之间的误差 平方和。得到使j 值极小的聚类结果就是我们的目的。这种类型的聚类通常称为最 小方差划分,它适用于各类对象密集且数目相差不多,而不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论