版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、客户数据挖掘案例 卓越亚马逊的推荐系统3数据挖掘数据库越来越大有价值的知识可怕的数据数据挖掘背景4数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS人口统计生命周期云数据平台数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。 数据挖掘(Data Mining)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种新
2、的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘数据挖掘的特点数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征:先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识有效信息是指符合实际情况且具有一定的代表性可实用是指可以指导企业的营销决策数据挖掘的特点数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识 数据挖掘所得到的信息应具有先未知、有效和可实用
3、三个特征数据源必须是大量的、真实的、有噪声的发现的是用户感兴趣的知识 发现的知识要可接受、可理解、可运用 并不要求发现放之四海皆准的知识,仅支持特定的发现问题 客户接触 客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息从商业数据到商业智能各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘网站结构优化网页推荐商品推荐。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。银行电信零售保险制药生物信息
4、科学研究。相关行业数据挖掘的应用Debt$40KQQQQII123456factor 1factor 2factor n神经网络 Neural Networks聚类分析 ClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析 Sequence Analysis决策树 Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析 Association 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用数据挖掘技术的分类回顾分析:
5、注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多预先定义好的类别 如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术数据挖掘技术的分类聚类:根据某些属性将数据库分割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表现为规则,常用
6、于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式数据挖掘技术数据挖掘方法学模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。 模式是数据驱动的,一般只反映数据本身模型 对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。 模式可视化数据挖掘技术数据挖掘方法学取样 根据问题
7、的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术经典方法统计 统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。数据挖掘方法经典方法最近邻 通过检测与预测对象最接近的对象的状况对预测对象进
8、行预测 原理: 某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近; 相互之间“接近”的对象会有相似的取值 根据其中一个对象的取值,预测其最近邻对象的预测值 商业 应用:文献检索市场篮子分析 应用 评价: 最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法现代方法基础理论有指导的学习(Supervised Learning)归纳 概念 分类标准与模型 分类有指导的学习的目的:建立分类模型用模型确定新数据实例的类别训练数据(Training Data)与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法 有指导的学
9、习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指导的学习(Supervised Learn
10、ing)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法 有指导的学习(Supervised Learning)淋巴肿发 烧No No Yes Yes 咽炎敏感症感
11、冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例(检验集)数据挖掘方法无指导的学习(Unsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万1245联合NoOnline3.6M20-29高尔夫23.9万2110个人YesBroke22.3M30-39钓鱼45.9万1001个人YesO
12、nline5.0M40-49高尔夫67.9万ABC投资公司客户表数据挖掘方法无指导的学习(Unsupervised Learning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数 据 挖 掘 问 题属 性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指导的学习无指导的学习数据挖掘方法现代方法决策树(Decision Tree)决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点、分支、叶子根节
13、点分支叶子Debt$40K节点 决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法决策树的算法步骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类: 如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续
14、分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤 2数据挖掘方法决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法患
15、者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 敏感症敏感症咽炎No Yes 头 痛淋巴肿感冒发 烧淋巴肿No Yes 咽炎No Yes 数据挖掘方法决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小信用卡促销数据库收入段寿险促
16、销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M273-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类收入段2Yes2No4Yes1No3No 1Yes2Yes23万34万45万56万训练集分类的正确性为111573数据挖掘方法决策树(Dec
17、ision Tree):例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类信用卡保险6Yes6No3Yes 0NoNoYes训练集分类的正确性为91560数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M273-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesY
18、esF19决策树(Decision Tree):例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序,对照输出属性进行数据分割,选择数据分割点年 龄9Yes3No0Yes 3No4343以年龄43结合寿险促销Yes,训练集分类的正确性为121580172729353839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M27
19、3-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19决策树(Decision Tree):例信用卡促销数据库年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树训练集分类的正确性为131587数据挖掘方法收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3
20、万NoNo M273-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNoM552-3万YesYesF19决策树(DecisionTree):例信用卡促销数据库收入段寿险促销信用卡保险性别年龄4-5万NoNoM453-4万YesNoF404-5万NoNoM423-4万YesYesM435-6万YesNoF382-3万 NoNoF553-4万YesYesM352-3万NoNo M273-4万NoNo F433-4万YesNoF414-5万YesNoM432-3万YesNoF295-6万YesNoF394-5万NoNo
21、M552-3万YesYesF19信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)信用卡数据库的两节点决策树训练集分类的正确性为121580数据挖掘方法决策树(Decision Tree):例信用卡促销数据库检验集收入段寿险促销信用卡保险性别年龄检验结果4-5万NoNoM42正确2-3万NoNoM27正确3-4万NoNoM43正确2-3万YesNoM29错误年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树数据挖掘方法现代方法K平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,
22、将一组数据划分为不相关的簇算 法 步 骤选择一个K值,用以确定簇的总数在数据集中任意选择K个数据实例,作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心试用每个簇中的数据实例,计算每个簇的新的平均值如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.选择K=2,即将所有数据实例分为两个簇2.选择实例1作为第1个簇的中心,实
23、例3作为第2个簇的中心3.计算各数据实例与C1、C2之间的欧氏距离Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代结果得到以下两个簇簇C1包含实例1、2,簇C2包含实例3、4、5、6Y数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01
24、.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新计算每个簇的中心 对于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 对于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.375 因此,新的簇中心为C1=(1.0,3.0) C2=(3.0,3.375)YX 6.由于簇中心改变,进行第2次迭代K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist
25、(C21)=2.74 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.875 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的结果导致了簇的变化:C1包含实例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.07.重新计算每个簇的中心 对
26、于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心为C1=(1.33,2.50) C2=(3.33,4.00)8.由于簇中心改变,继续进行第3次迭代YX K平均值算法:例 数据实例与它们所对应的簇中心之间的误差平方和最小K平均值算法的几个应用K平均值算法的最优聚类标准输出结果簇中心簇点均方误差1(2.67, 4.67)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.75, 4.125)1,
27、32, 4, 5, 615.943(1.8, 2.7) (5, 6)1, 2, 3, 4, 569.60YX YX YX 现代方法关联规则(Association Rules) 关联规则的表现形式 关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。 “如果怎么样、怎么样、怎么样,那么就会怎么样” 关联规则的构成 前件“如果怎么样、怎么样、怎么样” 后件“那么就怎么样” 如果买了西装,就会买领带 如果买精显彩电,就会买家庭影院系统规则的构成如果怎么样、怎么样、怎么样,就会怎么样前件,激发条件后件,
28、结果规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现关联规则(Association Rules)规则的置信度和支持度关联规则(Association Rules) 规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率 规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比 例:如果客户买牛奶,那么他们也会买面包 置信度:在10000次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,
29、支持度为6000060000010 规则的生成关联规则(Association Rules) 决策树方法 规则1:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信度33100,支持度31520) 规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533) 规则3:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度5771,支持度71547) 规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度6875,支持度81553)信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)规则的生成现代方法关联规则(Association Rules) 最近邻方法 规则:如果一个客户处于的状况,那么他可能是一个逃款者 关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。规则的生成现代方法关联规则(Association Rules) apriori方法 apriori方法步骤: 1.设置最小的属性值支持度要求 apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。 条目集是指符合一定支持度要求的“属性值”的组合 2.生成条目集 3.使用生成的条目集来创建规则规则的生成现代方法关联规则(As
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年工程环保承诺协议
- 2024年广告制作与采购协议
- (完整版)增资扩股协议书(模板)
- 互联网知识产权合作协议(2024年版)
- 2024年合作共荣协议
- 2024年工程造价结算协议
- 2024年会议餐饮服务协议
- 2024年工程安全与环境管理协议
- 2024年兼职聘用合同:短期用工协议
- 传记写作协议
- 机械加工检验标准及规范
- Q-SY 08365-2021 气瓶使用安全管理规范
- 销售技巧之导购六式
- 夏商周考古课件 第5章 西周文化(3节)
- 危险化学品安全告知牌硝酸、盐酸、硫酸、氢氧化钠
- GA 124-2013正压式消防空气呼吸器
- 2023年图书馆人员管理及培训方案(5篇)
- 企业招投标业务知识实践培训PPT图文课件
- 七氟丙烷灭火系统课件
- 上海英文介绍课件
- 上交所个股期权基础知识课件
评论
0/150
提交评论