第五章数据挖掘_第1页
第五章数据挖掘_第2页
第五章数据挖掘_第3页
第五章数据挖掘_第4页
第五章数据挖掘_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第5章章 数据挖掘与客户关系管理数据挖掘与客户关系管理 5.1.1数据挖掘技术的由来5.1.2数据挖掘的定义5.1.3数据挖掘的功能5.1.4数据挖掘应用5.1.5数据挖掘未来研究方向 5.1数据挖掘概述数据挖掘概述5.1.1数据挖掘技术的由来数据挖掘技术的由来 l数据爆炸但知识贫乏 l支持数据挖掘技术的基础 l数据挖掘逐渐演变的过程 5.1.1数据挖掘技术的由来数据挖掘技术的由来 数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据支持数据挖掘技术的基础支持数据挖掘技术的基础 更大,更便宜的存储器 - 磁盘密度以飞速增长 - 存储器价格飞快下降更快,更便

2、宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习数据挖掘的逐渐演化的过程数据挖掘的逐渐演化的过程l 机器学习l 数据库中的知识发现KDDl 数据挖掘5.1.2数据挖掘的定义技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。 5.1.2数据挖掘的定义商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析

3、和其他模型化处理,从中提取辅助商业决策的关键性数据。 定义为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知或验证已知的规律性,并进一步将其模型化的先进有效的方法。 5.1.2数据挖掘的定义数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征.5.1.3数据挖掘的功能数据挖掘的功能 l自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。5.1.3数据挖掘的功能数据挖掘的功能 l关联分析 关联是某种事物发生时其

4、他事物会发生的这样一种联系。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 5.1.3数据挖掘的功能数据挖掘的功能 l分类 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。5.1.3数据挖掘的功能数据挖掘的功能 l聚类 聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。5.1.3数据挖掘的功

5、能数据挖掘的功能 l概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。5.1.3数据挖掘的功能数据挖掘的功能 l偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。5.1.4数据挖掘应用数据挖掘应用 数据挖掘所能解决的典型商业问题包括:数据挖掘所能解决的典型商业问题包括:客户群体划分客户群

6、体划分背景分析背景分析交叉销售交叉销售客户流失性分析客户流失性分析客户信用记分客户信用记分欺诈发现等等。欺诈发现等等。5.2数据挖掘的技术数据挖掘的技术统计方法:统计方法:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等机器学习方法:机器学习方法:归纳学习方法(决策树、规则归纳等)、基于范例的推理、遗传算法、贝叶斯信念网络等。神经网络方法:神经网络方法:前向神经网络、自组织神经网络等。数据库方法:数据库方法:基于可视化的多维数据分析或OLAP方法,面向属性

7、的归纳方法。5.2.1常用数据挖掘方法常用数据挖掘方法l决策树决策树 决策树提供了一种展示类似在什么条件下会决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。得到什么值这类规则的方法。 数据挖掘中决策树是一种经常要用到的技术,数据挖掘中决策树是一种经常要用到的技术,可以用以分析数据,同样也可用来作预测。常可以用以分析数据,同样也可用来作预测。常用的算法有用的算法有CHAID、CART、Quest等等决策树图决策树图5.2.1常用数据挖掘方法常用数据挖掘方法l人工神经网络人工神经网络 神经网络用来解决大复杂度问题。神经网络可以很容易的解决具有上百个参数的问题。神经网络常用于两类问题

8、:分类和回归。人工神经网络人工神经网络5.2.1常用数据挖掘方法常用数据挖掘方法l规则推导规则推导 规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。5.2.1常用数据挖掘方法常用数据挖掘方法l可视化技术可视化技术 用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。5.2.2 5.2.2 其他数据其他数据挖掘技术挖掘技术 l统计分析方法,在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用回归分析、相关分析、主成

9、分分析等方法。l模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。5.2.3数据挖掘的流程数据挖掘的流程 l确定业务对象l数据准备l数据挖掘l结果分析和知识同化5.2.3数据挖掘的流程数据挖掘的流程数据挖掘过程工作量数据挖掘过程工作量 数据挖掘需要的人员数据挖掘需要的人员 l业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。l数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。l数据管理人员:精通数据管理技术,并从数据库或数据

10、仓库中收集数据。 5.1.5数据挖掘未来研究方向数据挖掘未来研究方向 l发现语言的形式化描述发现语言的形式化描述 l寻求数据挖掘过程中的可视化方法寻求数据挖掘过程中的可视化方法 l研究在网络环境下的数据挖掘技术研究在网络环境下的数据挖掘技术 l加强对各种非结构化数据的开采加强对各种非结构化数据的开采 l处理的数据将会涉及到更多的数据类型处理的数据将会涉及到更多的数据类型 5.3 数据挖掘在数据挖掘在CRM中的应用中的应用 5.3.1从客户生命周期角度分析数据挖掘的应用 5.3.2 从行业角度分析数据挖掘技术的应用 5.3.1从客户生命周期角度从客户生命周期角度l客户生命周期分析 在客户生命周期

11、的过程中,各个不同的阶段包含了许多重要的事件。数据挖掘技术可以应用于客户生命周期的各个阶段。l不同客户生命周期阶段出现的数据 数据挖掘将提高企业客户关系管理能力,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。客户生命周期分析客户生命周期分析不同客户生命周期阶段出现的数据不同客户生命周期阶段出现的数据 5.3.2 从行业角度分析从行业角度分析 CRM中数据挖掘应用的深度和广度针对行业的不同而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。5.3.2 从行业角度分析从行业角度分析l零售业CRM中的数据挖

12、掘 : (1)使用多特征数据立方体进行销售、客户、产品、时间和地区的)使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析;多维分析; (2)使用多维分析和关联分析进行促销活动的有效性分析;)使用多维分析和关联分析进行促销活动的有效性分析; (3)序列模式挖掘可用于客户忠诚分)序列模式挖掘可用于客户忠诚分 (4)利用关联分析挖掘关联信息进行购买推荐和商品参照。)利用关联分析挖掘关联信息进行购买推荐和商品参照。5.3.2 从行业角度分析从行业角度分析l电信业CRM中的数据挖掘 : 电信数据的多维分析有助于识别和比较数据通信情况、电信数据的多维分析有助于识别和比较数据通信情况、系统负载、

13、资源使用、用户组行为、利润等;系统负载、资源使用、用户组行为、利润等; 通过多维分析、聚类分析和孤立点分析进行盗用模式通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别;分析和异常模式识别; 通过多维关联和序列模式分析进行电信服务组合和个通过多维关联和序列模式分析进行电信服务组合和个性化服务;性化服务; 电信数据分析中可视化工具的使用。电信数据分析中可视化工具的使用。 5.3.2 从行业角度分析从行业角度分析l金融业CRM中的数据挖掘 为多维数据分析和数据挖掘设计和构造数据仓库;为多维数据分析和数据挖掘设计和构造数据仓库; 特征选择和属性相关性计算有助于贷款偿还预测和特征选择和属

14、性相关性计算有助于贷款偿还预测和客户信用政策分析;客户信用政策分析; 分类和聚类的方法可用于客户群体的识别和目标市分类和聚类的方法可用于客户群体的识别和目标市场的分析;场的分析; 通过数据可视化、链接分析、分类、聚类分析、孤通过数据可视化、链接分析、分类、聚类分析、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。金融犯罪的侦破。5.4 5.4 数据挖掘在数据挖掘在CRMCRM中的应用中的应用l问题定义l数据预处理l数据挖掘l模型检验5.4.15.4.1数据挖掘应用实施过程数据挖掘应用实施过程5.4.2 5.4.2 数据挖掘软件数

15、据挖掘软件PolyAnalystPolyAnalyst PolyAnalyst 数据挖掘软件是一套由 Megaputer Intelligence Inc 开发的软件。拥有大量数据挖掘(Data Mining)方法,对数据分析十分有用。 PolyAnalyst具有集成的GUI环境。PolyAnalyst是一个多策略的数据挖掘解决方案,能够处理大多数数字、类型、布尔型的变量。5.4.2 5.4.2 数据挖掘软件数据挖掘软件PolyAnalystPolyAnalystlPolyAnalyst提供下列功能:数据访问、数据操纵和清洗、机器学习、可视化和报表。lPolyAnalyst支持完整数据挖掘,功

16、能包括分类、聚类、预测、关联,支持微软数据仓库通讯接口OLE DB,能透过SQL查询数据仓库内数据。lPolyAnalyst 应用广泛。已超过300个客户选用进行自动知识发现,为公司解决因难的问题和作出商业上的决定。 5.4.3 5.4.3 问题定义问题定义l企业为进行新产品宣传推广,要给潜在的客户进行电话推销,或者发邮件给对该产品可能有兴趣的客户。l无论是通过电话、邮件、传真或是面对面接触,进行直销的企业必须为每一位它要接触的客户消耗成本。而大多数情况下,客户都是对其没有响应。如果客户响应率很低,企业就会发现她在客户接触中花掉太多的成本。l如果有什么办法可以通过在进行直销之前预测哪些客户可能

17、会对推销有兴趣从而提高客户响应率的话,这将大大提高直销企业的利润。5.4.3 5.4.3 问题定义问题定义 数据挖掘可提供这种预测能力。企业在过去营销过程中积累了大量的历史数据,而且可以获得大量的相关客户的公众信息,以及这些客户在以往销售过程中的反应情况。利用PolyAnalyst对商业数据进行分析,可以得到客户接触响应的预测模型。企业直销就不再是对每一位客户或是随机对客户进行,而是针对预测得到高可能性的客户,这必将降低直销成本。5.4.4 5.4.4 实验数据准备实验数据准备实验数据中有900条不同预期客户的特征信息,对于每个目标客户,数据提供如下特征信息:某一特定办公地点的员工数(Loca

18、l_Emp)整个企业的员工数(Ttl_Emp)某一特定办公地点的年销售额(Local_Sale)整个企业的销售额(Ttl_Sale)该企业是否有海外业务(International_Flag)标志企业每年用于广告的费用的符号(Ad_Spending)该企业是运作地点(New_Location)企业是国有还是私营(Owner)所属工业类型细分类别(Pri_Ind_Type)和大类(Pri_Ind_Cat)公司经营的年份(Age)。这些都不与该企业是否购买推销产品做出回应有明显的直接关系,但通过PolyAnalyst 可以发现它们之间的内在联系。 (1)打开新建项目。首先打开PolyAnalyst

19、,在菜单中选择Project/New或单击create project按钮,创建新的项目5.4.5 5.4.5 数据预处理数据预处理导入数据导入数据(1)在导入向导窗口选择Flat file单选按钮,单击Next进入选择源文件窗口,单击source file name 后面的Browse按钮。选择dmarket.csv文件,地址为光驱盘符实验数据/dmarket.csv,单击Finish按钮,进入项目编辑对话框。 5.4.5 5.4.5 数据预处理数据预处理编辑项目编辑项目 属性Pri_Ind_Type 初始为数值型,需要将其设置为类别类型。单击Pri_Ind_Type 属性的Type列,在下

20、拉式列表中选择Category。 按照第一步的将Age, Local_Emp, Ttl_Emp, Ttl_Sale, 和 Local_Sale属性的类型转别为integer类型,因为它们仅包含整型值。 将Buyer_Cat 的类型转变为Yes/No。 5.4.5 5.4.5 数据预处理数据预处理更改属性类型更改属性类型在PolyAnalyst中可以通过创建规则来提高数据分析效果。 当地销售(Local_Sale),总销售 (Ttl_Sale),当地员工数 (Local_Emp),和总员工数 (Ttl_Emp)会因公司规模的不同而各不相同。这些指标是用来描述企业规模的,但它们受到其他重要因素的影

21、响,如企业产量、分支机构数、边际利润等。因此,通过利用公司规模的度量值和一些比率老反映其他特征的数据集将更好的描述一个企业。比率数据将企业规模的影响剔除掉,留下一些其他的企业特征。如当地销售/当地员工数反映员工的效率。这些比率在PolyAnalyst中可以作为规则创建。 (1)在菜单中选择Create Object/| Create Rule 5.4.5 5.4.5 数据预处理数据预处理创建规则创建规则创建规则5.4.5 5.4.5 数据预处理数据预处理创建规则创建规则Emp_Sale比率是按员工总数平均的销售额,它反映了公司员工的生产效率。将创建的规则应用于数据集。 5.4.5 5.4.5

22、数据预处理数据预处理应用规则应用规则在菜单中选择Create Object | Create Dataset 5.4.5 5.4.5 数据预处理数据预处理创建挖掘数据集创建挖掘数据集对新创建的数据集Explored 进行一般的统计分析,以对数据的特征有总体的把握。5.4.6 5.4.6 初步分析初步分析5.4.6 5.4.6 初步分析初步分析分析结果分析结果 创建挖掘模型将客户进行分组(回应客户和不回应客户),看具备哪些属性的客户更有可能对我们的宣传感兴趣。我们利用决策树算法。在运行此算法之前需要首先创建训练数据集和测试数据集。然后通过对训练数据集数据训练得到分类模型,并在测试数据集上测试模型检验模型的统计显著性。 创建训练数据集和测试数据集 右键单击Explored数据集,在弹出菜单中选择Sampling | Random 5.4.7 5.4.7 利用决策树进行数据挖掘利用决策树进行数据挖掘5.4.7 5.4.7 利用决策树进行数据挖掘利用决策树进行数据挖掘在随机样本数据集对话框中填写新数据集名称,Training。填写随机取样比例,50%。单击OK按钮,创建训练数据集。 下一步创建测试数据集。测试数据集不包括分类模型创建中用到的记录。利用此数据集测试挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论