CH10数据挖掘与客户关系管理课件_第1页
CH10数据挖掘与客户关系管理课件_第2页
CH10数据挖掘与客户关系管理课件_第3页
CH10数据挖掘与客户关系管理课件_第4页
CH10数据挖掘与客户关系管理课件_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章数据挖掘与客户关系管理案例 卓越亚马逊的推荐系统学习目标通过本章的学习,将能够:理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用第10章 CRM与数据挖掘10.1 数据挖掘概述10.2 数据挖掘的任务、技术和实施过程10.3 数据挖掘在CRM中应用10.4 CRM数据挖掘应用实例10.5 数据挖掘软件在CRM中的应用示例10.1 数据挖掘概述10.1.1 数据挖掘的产生10.1.2 数据挖掘的定义10.1.3 数据挖掘的技术10.1.4 数据挖掘的功能10.1.5 数据挖掘的流程10.1.

2、6 数据挖掘的发展方向10.1.1 数据挖掘的产生数据爆炸但知识贫乏 支持数据挖掘技术的基础数据挖掘逐渐演变的过程 数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸但知识贫乏数据挖掘的出现数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据爆炸但知识贫乏 更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的

3、可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习支持数据挖掘技术的基础数据挖掘的演化 机器学习 数据库中的知识发现 数据挖掘10.1.2 数据挖掘的定义SAS研究所(19910):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义技术角度的含义商业角度的含义与传统方法的区别数据挖掘的技术上的定义数据挖掘(Data Mining)就是从大

4、量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 数据挖掘的商业角度的定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 客户接触 客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的

5、信息从商业数据到商业智能数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 10.1.3 数据挖掘的功能 自动预测趋势和行为 关联分析对象分类 聚类分析概念描述 偏差检测 数据挖掘功能预测数

6、据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 数据挖掘功能关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发

7、生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具

8、有某种内涵描述,从而避免了传统技术的某些片面性。 数据挖掘功能概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 数据挖掘功能偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。偏差检

9、测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。 10.1.4 数据挖掘应用应用领域:银行、电信、保险、交通、零售等商业领域能解决的典型商业问题包括:数据库营销(Database Marketing)客户群体划分(Customer Segmentation&Classification)背景分析(Pro)交叉销售(Cross-selling)客户流失性分析(Churn Analysis)客户信用记分(Credit Scoring)欺诈发现(Fraud Detectio

10、n)各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘网站结构优化网页推荐商品推荐。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。银行电信零售保险制药生物信息科学研究。相关行业数据挖掘的应用Debt$40KQQQQII123456factor 1factor 2factor n神经网络 Neural Networks聚类分析 ClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析 Sequence

11、Analysis决策树 Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析 Association 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用10.1.5 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器

12、,并且与数据库服务器配合,实现WebMining;加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。交互式发现和知识的维护更新。 10.2 数据挖掘的任务、技术、方法和实施过程10.2.1 数据挖掘任务数据总结分类发现聚类分析关联规则发现10.2.2 数据挖掘技术数据

13、挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 数据挖掘技术的

14、分类回顾分析:注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多预先定义好的类别 如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术数据挖掘技术的分类聚类:根据某些属性将数据库分割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表

15、现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式数据挖掘技术数据挖掘方法学模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。 模式是数据驱动的,一般只反映数据本身模型 对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户

16、段的规则集计算机表示方式 模式可视化数据挖掘技术数据挖掘方法学取样 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术人工神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常

17、用于两类问题:分类和回归。 决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树建立决策树中最上面的节点称为根节点,是

18、整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有10%有响应。然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。决策树图决策树应用决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。聚类分析聚类如同通常

19、所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。聚类分析簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法: 没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布; 作为

20、其它算法的一个数据预处理步骤;聚类分析应用市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区;保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的评判一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是

21、能发现某些还是所有的隐含模式;遗传算法遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 遗传算法GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness

22、 function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。 规则推导规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。可视化技术用图表等方式把数据特征用直观地表述出来,如直方图等,这

23、其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。其他技术近邻算法,将数据集合中每一个记录进行分类的方法。统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。模糊论方法,利用模糊

24、集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。经典方法统计 统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。10.2.3 数据挖掘方法经典方法最近邻 通过检测与预测对象最接近的对象的状况对预测对象进行预测 原理: 某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近; 相互之间“接近”的对象会有相似的取值 根据其中一个对象的取值,预测其最近邻对象的预测值 商业 应用:文献检索市场

25、篮子分析 应用 评价: 最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法现代方法基础理论有指导的学习(Supervised Learning)归纳 概念 分类标准与模型 分类有指导的学习的目的:建立分类模型用模型确定新数据实例的类别训练数据(Training Data)与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法 有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesN

26、oYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesN

27、oYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法 有指导的学习(Supervised Learning)淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例(检验集)数据挖掘方法无指导的学习(U

28、nsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万1245联合NoOnline3.6M20-29高尔夫23.9万2110个人YesBroke22.3M30-39钓鱼45.9万1001个人YesOnline5.0M40-49高尔夫610.9万ABC投资公司客户表数据挖掘方法无指导的学习(Unsupervised Learning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开

29、设交易保证金帐户,如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数 据 挖 掘 问 题属 性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指导的学习无指导的学习数据挖掘方法现代方法决策树(Decision Tree)决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点、分支、叶子根节点分支叶子Debt$40K节点 决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内

30、的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法决策树的算法步骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类: 如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤 2数据挖掘方法决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小患者代码嗓子痛发

31、烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoY

32、esNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 敏感症敏感症咽炎No Yes 头 痛淋巴肿感冒发 烧淋巴肿No Yes 咽炎No Yes 数据挖掘方法决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小信用卡促销数据库收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM

33、352-3万NoNo M2103-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类收入段2Yes2No4Yes1No3No 1Yes2Yes23万34万45万56万训练集分类的正确性为1115103数据挖掘方法决策树(Decision Tree):例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类信用卡保险6Yes6No3Yes 0NoNoYes训练

34、集分类的正确性为91560数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M2103-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19决策树(Decision Tree):例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序,对照输出属性进行数据分割,选择数据分割点年 龄9Y

35、es3No0Yes 3No4343以年龄43结合寿险促销Yes,训练集分类的正确性为12158011021029353839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M2103-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19决策

36、树(Decision Tree):例信用卡促销数据库年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树训练集分类的正确性为1315810数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M2103-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万

37、YesYesF19决策树(DecisionTree):例信用卡促销数据库收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M2103-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)信用卡数据库的两节点决策树训练集分类的正确性为121580数据

38、挖掘方法决策树(Decision Tree):例信用卡促销数据库检验集收入段寿险促销信用卡保险性别年龄检验结果4-5万NoNoM42正确2-3万NoNoM210正确3-4万NoNoM43正确2-3万YesNoM29错误年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树数据挖掘方法现代方法K平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇算 法 步 骤选择一个K值,用以确定簇的总数在数据集中任意选择K个数据实例,作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最

39、近的簇中心试用每个簇中的数据实例,计算每个簇的新的平均值如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.选择K=2,即将所有数据实例分为两个簇2.选择实例1作为第1个簇的中心,实例3作为第2个簇的中心3.计算各数据实例与C1、C2之间的欧氏距离Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Di

40、st(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代结果得到以下两个簇簇C1包含实例1、2,簇C2包含实例3、4、5、6YX 数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新计算每个簇的中心 对于C1:x=(1.0+1.0)/2=1.0 y=(

41、1.5+4.5)/2=3.0 对于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.3105 因此,新的簇中心为C1=(1.0,3.0) C2=(3.0,3.3105)YX 6.由于簇中心改变,进行第2次迭代K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.104 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C

42、1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.8105 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的结果导致了簇的变化:C1包含实例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.010.重新计算每个簇的中心 对于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2:x=(2.0+3.0+5.0)/3=3.33

43、 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心为C1=(1.33,2.50) C2=(3.33,4.00)8.由于簇中心改变,继续进行第3次迭代YX K平均值算法:例 数据实例与它们所对应的簇中心之间的误差平方和最小K平均值算法的几个应用K平均值算法的最优聚类标准输出结果簇中心簇点均方误差1(2.610, 4.610)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.105, 4.125)1, 32, 4, 5, 615.943(1.8, 2.10) (5, 6)1, 2, 3, 4, 569.60YX YX YX 现代方法关联规则(A

44、ssociation Rules) 关联规则的表现形式 关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。 “如果怎么样、怎么样、怎么样,那么就会怎么样” 关联规则的构成 前件“如果怎么样、怎么样、怎么样” 后件“那么就怎么样” 如果买了西装,就会买领带 如果买精显彩电,就会买家庭影院系统规则的构成如果怎么样、怎么样、怎么样,就会怎么样前件,激发条件后件,结果规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现关联规则(Association Rules)规则的置信度和支持度关联规

45、则(Association Rules) 规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率 规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比 例:如果客户买牛奶,那么他们也会买面包 置信度:在10000次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为6000060000010 规则的生成关联规则(Association Rules) 决策树方法 规则1:如果客户参加了信用卡保险,那

46、么他就会参加寿险促销(置信度33100,支持度31520) 规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533) 规则3:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度510101,支持度1015410) 规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度68105,支持度81553)信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)规则的生成现代方法关联规则(Association Rules) 最近邻方法 规则:如果一个客户处于的状况,那么他可能是一个逃款者 关联规则可以使用传统的方

47、法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。规则的生成现代方法关联规则(Association Rules) apriori方法 apriori方法步骤: 1.设置最小的属性值支持度要求 apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。 条目集是指符合一定支持度要求的“属性值”的组合 2.生成条目集 3.使用生成的条目集来创建规则规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMY

48、NNNMYYYNM apriori方法:例1.设置最小的属性值支持度要求(30) 2.生成条目集单项集合条目数杂志促销Y10手表促销Y4手表促销N6寿险促销Y5寿险促销N5信用卡保险N8性别M6性别F4单项条目集合规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例双项条目集合双项集合条目数杂志促销Y手表促销N4杂志促销Y寿险促销Y5杂志促销Y信用卡保险N5杂志促销Y性别M4手表促销N寿险促销N4手表促销N信用卡保险N5手

49、表促销N性别M4寿险促销N信用卡保险N5寿险促销N性别M4新英卡保险N 性别M4信用卡保险N性别F4规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例 确定最小置信度(如50),利用双项条目集合生成规则3.使用生成的条目集来创建规则规则1:如果杂志促销Y,那么寿险促销Y(510) 置信度510101,支持度1010100规则2:如果寿险促销Y,那么杂志促销Y(55) 置信度55100,支持度51050规则的生成关联规则(

50、Association Rules) 市场篮子分析就是一种关联规则的表现 时间序列分析是一种反映客户行为在时间上的关联性的关联规则 规则的应用关联规则(Association Rules)以前件为目标归纳所有前件一样的规则分析后件的营销效果设计促销方案(完善前件)例收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促销方案规则的应用关联规则(Association Rules)以后件为目标归纳所有后件一样的规则分析什么因素与后件有关或对后件有影响设计前件促成后件例收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因

51、素相关,从而可以考虑将这些因素集合在一起而产生促销效果。规则的应用关联规则(Association Rules)置信度低置信度高支持度高支持度低规则的置信度和支持度规则很少是正确的,但可以经常使用规则很少是正确的,而且很少被使用规则多数情况下是正确,但很少被使用规则多数情况下是正确的,而且可以经常使用以置信度或支持度为目标10.2.4 数据挖掘的流程 数据挖掘的流程确定业务对象数据准备数据挖掘结果分析和知识同化数据挖掘的流程-确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不

52、会成功的。 数据挖掘的流程-数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 数据挖掘的流程-数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。 数据挖掘的流程-分析和同化结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。知识的同化:将分析所

53、得到的知识集成到业务信息系统的组织结构中去。 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.数据挖掘过程工作量 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并

54、对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 10.3 数据挖掘在CRM中的应用从客户生命周期角度分析数据挖掘技术的应用从行业角度分析数据挖掘技术的应用从客户生命周期角度分析在客户生命周期的过程中,各个不同的阶段包含了许多重要的事件。数据挖掘技术可以应用于客户生命周期的各个阶段提高企业客户关系管理能力,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。 从客户各生命周期角度分析潜在客户期市场活动及数据挖掘应用潜在客户获得活动是针对目标市场的营销活动,寻找对企业产

55、品或服务感兴趣的人。值得注意的是,在这个阶段缺乏客户数据。数据挖掘可以把以前的客户对类似活动的响应进行挖掘,从而把市场活动重点锁定在以前的响应者身上。一个更好的方法就是寻找和高价值的客户类似的潜在客户只要一次就获得正确的客户。通常,获得活动使用广告和其它市场宣传媒体。无论何种渠道,数据挖掘在发现最重要的客户特定市场中发挥重要作用,决定着市场活动的类型、广告空间等一些宣传问题。 客户响应期市场活动及数据挖掘应用潜在客户通过以下几种途径成为响应者:登陆企业网站;拨打免费电话;填写申请表等。把潜在客户改变成为确定的客户、能够被锁定和跟踪的客户。虽然响应者还没有购买任何产品或服务,但他们有很大的可能性

56、成为购买者,并成为企业客户。数据挖掘通常被用来判定哪些潜在客户会变成响应者。预测模型也用来判定哪些响应者会成为企业即得客户。 即得客户市场活动及数据挖应用(1)响应者购买企业产品的时候就变成了企业即得客户。这意味着他们已经进行了第一次的购买活动。在即得客户阶段包括许多活动。最重要的活动可以划分为三:刺激使用(使用展现了客户行为,当使用是企业收入的主要来源,刺激使用就成为企业的重要目标。使用模式因不同的客户市场而有所不同);交叉销售(鼓励客户购买与第一次购买不同的产品或服务的市场营销活动); 升级销售(鼓励客户升级现有的产品和服务的市场营销活动)。即得客户市场活动及应用(2)即得客户是数据挖掘的

57、重要区域。客户使用活动提供了客户行为模式的最本质的东西。预测什么时候会发生客户活动,判定哪个客户可能对交叉销售和升级销售活动做出响应对企业来讲是极具价值的。但既得客户的行为经常被大量详细的交易信息所淹没。使用数据挖掘要求从其中抽出其特点。客户早期的购买和使用模式是对企业来讲是非常具有价值的,在一些行业,首次行为预示了未来的使用信息。这些客户可以是高消费者或低消费者,他们可能对一个或多个产品感兴趣。这类行为通常在早期的购买行为中明显的表现出来。 客户流失期市场活动及数据挖掘应用在一些情况下,客户停止购买企业产品。对此,有两种基本不同的流失原因,第一种是主动离开,指的是不再是客户的既得客户。了解主

58、动离开出现的原因非常重要,以下是客户主动离开的一些基本原因:客户离开了企业服务的地区;客户的生活方式发生了变化,并不再需要企业的产品和服务;客户已经获得了竞争者提供的更好的产品或服务;客户不再认为使用企业产品有任何价值。第二种是非主动离开,既被动离开。指的是即得客户不再是一个好的客户,通常因为他们停止支付他们的帐单。区别主动离开和被动离开对企业来说是非常重要的。数据挖掘可以通过分析以前的客户数据得出什么样的客户会在将来同样的离开。即使客户离开,也不是所有流失的客户就完全失去了。赢得客户活动的目标就是重新获得失去的客户。 从行业角度分析数据挖掘技术的应用 中数据挖掘应用的深度和广度针对行业的不同

59、而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。零售业中数据挖掘的应用电信业中数据挖掘的应用金融业中数据挖掘的应用零售业中数据挖掘的应用零售业是数据挖掘的主要应用领域,特别是由于日益增长的Web或电子商务方式的兴起零售数据挖掘可有助于识别客户购买行为,发现客户购买模式和趋势,改进服务质量,取得更好的客户保持力和满意度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。例如: 使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析; 使用多维分析和关联分析进行促销活动的有效性分析; 序列模式挖掘可用于客

60、户忠诚分析; 利用关联分析挖掘关联信息进行购买推荐和商品参照。 电信业中的数据挖掘 电信业已经迅速地从单纯的提供市话服务演变为提供综合电信服务。电信网、因特网和各种其他方式的通信和计算的融合是目前的大势所趋。利用数据挖掘技术可帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。例如: 电信数据的多维分析有助于识别和比较数据通信情况、系统负载、资源使用、用户组行为、利润等; 通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别; 通过多维关联和序列模式分析进行电信服务组合和个性化服务; 电信数据分析中可视化工具的使用。 金融业中的数据挖掘大部分银行和金融机构除

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论