客户关系管理(第三版)第10章客户数据挖掘_第1页
客户关系管理(第三版)第10章客户数据挖掘_第2页
客户关系管理(第三版)第10章客户数据挖掘_第3页
客户关系管理(第三版)第10章客户数据挖掘_第4页
客户关系管理(第三版)第10章客户数据挖掘_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、客户关系管理(第三版)延时符10第10章客户数据挖掘学 习 目 标 掌握数据挖掘的定义、数据挖掘的知识类型,了解数据挖掘系统的发展; 理解数据挖掘与数据仓库、OLAP的关联; 理解数据挖掘的任务和聚类、决策树和人工神经网络等数据挖掘算法的基本思想; 掌握数据挖掘在客户关系管理中的应用和具体实施过程。PART 0110.1数据挖掘概述10.1数据挖掘概述10.1.1数据挖掘的定义 从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。 10.1数据挖掘概述10.1.1数据挖掘的定义 从商业角

2、度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。简而言之,数据挖掘其实是一种数据分析方法。数据分析本身已经有多年的历史,只不过以往数据收集和分析的目的多是科学研究。10.1数据挖掘概述10.1.2数据挖掘系统的发展 1)按系统功能的发展划分 (1)第一代数据挖掘系统只支持一个或少数几个数据挖掘算法,只支持挖掘向量数据,数据一般一次性调进内存处理,作为一个独立的系统在单机上应用,没有系统集成。缺点是:如果数据足够大,并且频繁的变化,这就需要

3、利用数据库或者数据仓库技术进行管理。第一代数据挖掘系统中比较典型的是新加坡国立大学开发的CBA系统,该系统基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。10.1数据挖掘概述10.1.2数据挖掘系统的发展 1)按系统功能的发展划分 (2)第二代数据挖掘系统与数据库管理系统(DBMS)集成,支持数据库和数据仓库,与它们有高性能的接口,具有较高的可扩展性,能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。支持多个算法,能够挖掘一次无法完全放进内存的数据,可以在同质、局部区域的计算机群上使用。有些系统支持对象、文本

4、和连续的媒体数据。缺点是:第二代系统只注重模型的生成,如何与预测模型系统集成需要开发下一代系统来继续研究。第二代数据挖掘系统的典型系统有DBMine,该系统能通过 DMQL(Data Mining Query Language)挖掘语言进行挖掘操作以及SAS Enterprise Miner。10.1数据挖掘概述10.1.2数据挖掘系统的发展 1)按系统功能的发展划分 (3)第三代数据挖掘系统实现了与预测模型系统之间的无缝集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中。由数据挖掘软件产生的预测模型能够自动被业务系统利用,从而与业务系统中的预测模型相联合来提供决策支持的功能

5、。这一代系统集成了数据管理和预测模型系统,支持多个算法,能够挖掘网络环境下的分布式和高度异构的数据,如支持半结构化数据和Web数据,并且能够有效地与业务系统集成。缺点是这一代系统不能支持移动环境。第三代数据挖掘系统的典型系统是Papyrus,该系统实现了以PMML(Predictive Model Markup Language)格式提供与其他系统的接口。10.1数据挖掘概述10.1.2数据挖掘系统的发展 1)按系统功能的发展划分 (4)第四代数据挖掘系统的特征是与移动数据、各种计算设备的数据联合,第四代系统支持多个算法,能够挖掘嵌入式系统、移动系统和普遍存在的(Ubiquitous)计算设备

6、产生的各种类型的数据,集成了数据管理、预测模型、移动系统的功能。 10.1数据挖掘概述10.1.2数据挖掘系统的发展 2)按系统应用模式的发展划分 (1)第一个阶段:独立数据挖掘系统独立的数据挖掘软件对应第一代系统出现在数据挖掘技术发展早期(1995年以前),研究人员开发出一种新型的数据挖掘算法,就形成了一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,用户还要进行大量的数据预处理工作。10.1数据挖掘概述10.1.2数据挖掘系统的发展 2)按系统应用模式的发展划分 (2)第二个阶段:横向数据挖掘工具集大约在1995年软件开发商开始提供称之为“工具集”的数据挖掘软件。此类工具集

7、的特点是提供多种数据挖掘算法,包括数据的转换和可视化。由于此类工具并非面向特定的应用,而是通用的算法集合,因而可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools)。典型的横向数据挖掘工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner等。10.1数据挖掘概述10.1.2数据挖掘系统的发展 2)按系统应用模式的发展划分 (3)第三个阶段:纵向数据挖掘解决方案 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完

8、整的数据挖掘方案。对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题而嵌入在应用系统中。 10.1数据挖掘概述10.1.3数据挖掘的知识类型 数据挖掘所发现的知识包括以下6种类型:广义知识、关联知识、聚类知识、分类知识、预测型知识和偏差型知识。10.1数据挖掘概述10.1.3数据挖掘的知识类型 1)广义知识广义知识指描述类别特征的概括性知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约、基于概念的聚类等。 10.1数据挖掘概述1

9、0.1.3数据挖掘的知识类型 2)关联知识关联知识是反映一个事件和其他事件之间的依赖或关联的知识。若存在两个或多个变量,它们的取值之间存在一定规律性,就称为它们是关联的,就存在关联知识。关联知识分为简单关联知识、时序关联知识。简单关联知识就是如购买面包的客户中有90%的人同时购买牛奶这样的关联知识。 10.1数据挖掘概述10.1.3数据挖掘的知识类型 3)聚类知识聚类就是要做到“物以类聚”,不是同一类的不在一起,就是把整个数据库分成不同的类,同一个类中的数据则尽量相似,而类与类之间的差别要很明显。对每一个类形成特有的性质描述。聚类是无监督学习的典型方法,类的个数事先是不知道的,形成的类的物理意

10、义也需要专业人士进行解释。形成聚类知识时,形成一个类的标准是外界输入的,如距离标准。这里的距离是抽象的,就是事物之间的相关度。 10.1数据挖掘概述10.1.3数据挖掘的知识类型 4)分类知识分类知识主要体现该标号的类与其他标号的类之间的显著区别的特征。根据实现手段的不同,有反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 分类知识的知识表现就是类标识,并且类标识是离散的,各个类之间是严格区分的。最为典型的分类方法是基于决策树的分类方法,它从实例集中构造决策树,是一种有指导的学习方法。数据分类还有统计、粗糙集、神经网络等方法,线性回归和线性辨别分析是典型的统计模型。10.1数据

11、挖掘概述10.1.3数据挖掘的知识类型 5)预测型知识预测型知识根据时间序列型数据,由历史的和当前的数据推测未来的数据,也可以认为是以时间为关键属性的关联知识。 6)偏差型知识偏差型知识是针对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类以外的特例、数据聚类以外的离群值等。偏差型知识的出现说明该实例是极端特殊的,应该引起高度重视。 10.1数据挖掘概述10.1.4数据挖掘与数据仓库、OLAP的关联1)数据挖掘和数据仓库数据挖掘是对数据的分析处理,因此,高质量的、完整的、集成的数据对数据挖掘能否成功进行有着至关重要的作用,而构造数据仓库时涉及数据清理和数据集成,这可以作为数据挖掘的一

12、个重要的预处理步骤。因此,在多数情况下,数据挖掘直接从数据仓库中得到进行挖掘的数据(如图10-1所示)。这样的数据经过数据仓库的数据清理,在做数据挖掘时就不需要再进行清理了,而且所有的数据不一致的问题都已经被解决了。10.1数据挖掘概述图10-1从数据仓库中得到数据挖掘库10.1数据挖掘概述图10-2从事务数据库中得到数据挖掘库10.1数据挖掘概述2)数据挖掘和OLAP 数据挖掘(DM)和OLAP都是数据分析工具,但是它们处理的问题不同,数据分析的深度不同。OLAP是一种验证性质的数据分析,对于用户提出的问题或某种假设,OLAP负责从上到下、由浅到深地展现问题相关的详细信息,帮助用户判断提出的

13、假设是否合理。DM是一种挖掘性质的数据分析,与传统的数据分析(如查询、报表、OLAP)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,它能够主动地发现事物间潜在的关系和特征模式,并且可以利用这些特征模式进行有效的预测分析。OLAP可以告诉我们数据仓库中都有什么,DM则更进一步告诉我们下一步会怎么样、应当采取哪些措施,如果采取这样的措施又会怎样。PART 0210.2数据挖掘的任务和工具10.2数据挖掘的任务和工具10.2.1数据挖掘的任务1)从数据、信息到知识(1)数据数据泛指对客观事物的数量、属性、位置及相互关系的抽象表示,以适合于用人工或自然的方式进行保存、传递和处理。数

14、据具有文本、数字、声音或图像等多种形式,它是最原始的记录,未被加工解释,没有回答特定的问题;它反映了客观事物的某种运动状态,除此以外没有其他意义;它与其他数据之间没有建立相互联系,是分散、孤立的。 10.2数据挖掘的任务和工具10.2.1数据挖掘的任务1)从数据、信息到知识(2)信息人们对数据进行系统组织、整理和分析,使数据之间建立相互联系,经过解释形成具有某些意义的数字、事实、图像等形式的信息。只有当数据用来描述客观事物之间的关系,形成有逻辑的数据流,它们才能被称为信息。信息对使用者有意义,并影响其判断。 10.2数据挖掘的任务和工具10.2.1数据挖掘的任务1)从数据、信息到知识(3)知识

15、知识是一种由经验、价值、情境化信息、专家见解等构成的流动的混合物,它们可以为评价并整合新经验、新信息提供一个框架。知识通过对信息的归纳和演绎,经过广泛、深入的实践检验,而形成个人的真理和信念、视角和概念、判断和预期、方法论和技能等。 10.2数据挖掘的任务和工具图10-3数据、信息和知识在数量上的变化10.2数据挖掘的任务和工具2)数据挖掘的基本任务 (1)描述型数据挖掘描述型数据挖掘的任务是刻画数据的一般特征,从而发现原本没有被注意的重要事实。 (2)预测型数据挖掘预测型数据挖掘的任务是在当前数据的基础上进行推断,从而预测某一事件的未来发展模式。 10.2数据挖掘的任务和工具10.2.2数据

16、挖掘的算法 1)聚类聚类就是将数据对象分组成为多个类或簇,这种对象类划分的依据是“物以类聚”的原理,即考察个体或数据对象间的相似性,将满足相似性条件的个体或数据对象划分在一组内,不满足相似性条件的个体或数据对象划分在不同的组,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。 10.2数据挖掘的任务和工具聚类分析已经广泛地应用于许多领域,包括模式识别、数据分析、图像处理等,而其在数据挖掘中的应用主要有以下三个方面:(1)可以作为一个独立的工具来获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步的分析,可用于市场细分、目标客户定位、业绩评估等方面。 (2)聚类分析

17、可以完成孤立点挖掘。 (3)可以作为其他算法(如分类、关联规则)的预处理步骤,这些算法再在生成的簇上进行处理。10.2数据挖掘的任务和工具聚类分析已经广泛地应用于许多领域,包括模式识别、数据分析、图像处理等,而其在数据挖掘中的应用主要有以下三个方面:(1)可以作为一个独立的工具来获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步的分析,可用于市场细分、目标客户定位、业绩评估等方面。 (2)聚类分析可以完成孤立点挖掘。 (3)可以作为其他算法(如分类、关联规则)的预处理步骤,这些算法再在生成的簇上进行处理。10.2数据挖掘的任务和工具K均值聚类算法的具体过程如下:为每个聚类确

18、定一个初始聚类中心,这样就有K个初始聚类中心;将样本集中的样本按照最小距离原则分配到最邻近的聚类;使用每个聚类中的样本均值作为新的聚类中心;重复步骤、,直到聚类中心不再变化;结束,得到K个聚类。 10.2数据挖掘的任务和工具K均值聚类算法也有其自身的局限,其主要局限如下:(1)K均值聚类算法中的聚类数目,即K值,需要由用户预先给出。 (2)K均值聚类算法严重依赖于初始聚类中心点的选取。 (3)K均值聚类算法不适用于大数据量的聚类问题。 10.2数据挖掘的任务和工具2)决策树决策树(Decision Tree)的起源可以追溯到 Hunt等人在20世纪60年代研究人类概念建模时建立的学习系统 CL

19、S。决策树技术是一种典型的以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它的基本思想是根据训练样本集中数据的不同取值,把数据分层组织成能正确分类训练实例的树型结构。树中的每个分支代表一个子类。然后利用得到的决策树对新实例进行分类或预测,从而为决策者提供决策依据。产生决策树的过程如图10-4所示。10.2数据挖掘的任务和工具3)神经网络神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。10.2数

20、据挖掘的任务和工具神经网络在模拟推理、自动学习等方面接近人脑的自组织和并行处理,具有与人脑某些基本特征相似的特点。(1)非线性映照能力。 (2)并行分布处理方式。 (3)自学习和自适应能力。 (4)数据融合的能力。 (5)多变量系统。 10.2数据挖掘的任务和工具图10-9BP神经网络示意图10.2数据挖掘的任务和工具4)关联规则关联规则是数据挖掘中经常使用的一种算法,目的是在当前数据集中寻找没有直接呈现出来的各项数据之间的相关关系,形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超

21、市的服务质量和效益。 10.2数据挖掘的任务和工具在关联规则挖掘中,包含0个或多个项的集合被称为项集(itemset)。如 果一个项集包含k个项,则称它为k-项集,例如:啤酒,尿布,牛奶,花生是一个4-项集。空集是指不包含任何项的项集。关联规则的数据指标主要有个,即支持度、置信度、提升度。支持度是指项集A和项集B同时发生的概率,也称为相对支持度;置信度是指项集 A发生则项集B发生的概率;提升度是指利用关联规则和不利用关联规则的结果比例。 10.2数据挖掘的任务和工具关联规则挖掘是找到所有满足用户指定的最小支持和最小置信约束的关联规则。算法流程如下:每个项都是候选项集itemset1集合C1的成

22、员。 对L1的自身连接生成的集合执行剪枝策略产生候选项集itemset2的集合C2,然后对整个数据库进行扫描并对C2中每个项进行计数。 以 此 类 推,对 频 繁(K-1)-项 集 的 集 合LK-1自身连接生成的集合执行剪枝策略产生候选项集itemsetK的集合CK,对整个数据库进行扫描并对CK中每个项进行计数,然后根据最小支持度从CK中删除不满足的项,从而获得频繁K-项集LK。找出频繁项集后,根据频繁项集产生强关联规则。 10.2数据挖掘的任务和工具图10-10复购客户购买商品关联可视化结果 PART 0310.3客户关系管理中的数据挖掘10.3客户关系管理中的数据挖掘10.3.1数据挖掘

23、在客户关系管理中的应用1)客户分类 2)客户识别 3)客户保留 4)客户忠诚度分析 5)客户盈利率分析 6)交叉营销 10.3客户关系管理中的数据挖掘10.3.2CRM数据挖掘的过程 1)明确业务目标 2)数据准备 3)选择挖掘算法 4)建立并评估模型 (1)模型的准确性。 (2)模型的可理解性。 (3)模型的性能。 5)解释挖掘结果10.3客户关系管理中的数据挖掘图10-11客户关系管理中数据挖掘的基本流程10.3客户关系管理中的数据挖掘10.3.3CRM数据挖掘应用案例 1)加油站客户基础层分类树 10.3客户关系管理中的数据挖掘2)数据准备 表10-3样本站客户优品消费量占比序号油品类型销量占比192# 汽油50.96%295# 汽油35.43%398# 汽油4.31%4普通柴油7.48%5国V柴油1.82%10.3客户关系管理中的数据挖掘3)客户价值 RFAT 模型构建 保留 R 和 F 两个变量,R 表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论