版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1CH数据挖掘与客户关系管理数据挖掘与客户关系管理第一页,编辑于星期六:一点 四十分。第1页/共125页第二页,编辑于星期六:一点 四十分。第2页/共125页第三页,编辑于星期六:一点 四十分。第3页/共125页第四页,编辑于星期六:一点 四十分。第4页/共125页第五页,编辑于星期六:一点 四十分。第5页/共125页第六页,编辑于星期六:一点 四十分。数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据第6页/共125页第七页,编辑于星期六:一点 四十分。数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据n
2、模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期第7页/共125页第八页,编辑于星期六:一点 四十分。 更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习第8页/共125页第九
3、页,编辑于星期六:一点 四十分。第9页/共125页第十页,编辑于星期六:一点 四十分。第10页/共125页第十一页,编辑于星期六:一点 四十分。第11页/共125页第十二页,编辑于星期六:一点 四十分。第12页/共125页第十三页,编辑于星期六:一点 四十分。第13页/共125页第十四页,编辑于星期六:一点 四十分。客户接触客户接触 客户信息客户信息客户数据库客户数据库统计分析与数据挖掘统计分析与数据挖掘客户知识发现客户知识发现客户管理客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息从商业数据到商业智能第14页/共12
4、5页第十五页,编辑于星期六:一点 四十分。第15页/共125页第十六页,编辑于星期六:一点 四十分。第16页/共125页第十七页,编辑于星期六:一点 四十分。第17页/共125页第十八页,编辑于星期六:一点 四十分。第18页/共125页第十九页,编辑于星期六:一点 四十分。第19页/共125页第二十页,编辑于星期六:一点 四十分。第20页/共125页第二十一页,编辑于星期六:一点 四十分。第21页/共125页第二十二页,编辑于星期六:一点 四十分。第22页/共125页第二十三页,编辑于星期六:一点 四十分。n欺诈发现(Fraud Detection)第23页/共125页第二十四页,编辑于星期六
5、:一点 四十分。各行业电子商务网站各行业电子商务网站算算法法层层商商业业逻逻辑辑层层行行业业应应用用层层商业应用商业模型挖掘算法CRM产品推荐产品推荐客户细分客户细分客户流失客户流失客户利润客户利润客户响应客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘挖掘网站结构优化网站结构优化网页推荐网页推荐商品推荐商品推荐。基因挖掘基因挖掘基因表达路径分析基因表达路径分析基因表达相似性分析基因表达相似性分析基因表达共发生分析基因表达共发生分析。银行银行电信电信零售零售保险保险制药制药生物信息生物信息科学研究科学研究。相关行业数据挖
6、掘的应用第24页/共125页第二十五页,编辑于星期六:一点 四十分。Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留
7、 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用第25页/共125页第二十六页,编辑于星期六:一点 四十分。第26页/共125页第二十七页,编辑于星期六:一点 四十分。第27页/共125页第二十八页,编辑于星期六:一点 四十分。第28页/共125页第二十九页,编辑于星期六:一点 四十分。数据挖掘技术的分类数据挖掘技术的分类回顾分析:注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析
8、预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多预先定义好的类别 如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术第29页/共125页第三十页,编辑于星期六:一点 四十分。数据挖掘技术的分类数据挖掘技术的分类聚类:根据某些属性将数据库分割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表现为规则,常用于超市购物
9、篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析数据挖掘的一般目的就是数据挖掘的一般目的就是检测、解释和预测检测、解释和预测数据中定性的和或定量的模式数据中定性的和或定量的模式数据挖掘技术第30页/共125页第三十一页,编辑于星期六:一点 四十分。数据挖掘方法学数据挖掘方法学模式模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。 模式是数据驱动的,一般只反映数据本身模型模型 对构建事件的源时的历史数据库的
10、描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式 模式可视化数据挖掘技术第31页/共125页第三十二页,编辑于星期六:一点 四十分。数据挖掘方法学数据挖掘方法学取样取样 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术第32页/共125页第三十三页,编辑于星期六
11、:一点 四十分。第33页/共125页第三十四页,编辑于星期六:一点 四十分。第34页/共125页第三十五页,编辑于星期六:一点 四十分。第35页/共125页第三十六页,编辑于星期六:一点 四十分。第36页/共125页第三十七页,编辑于星期六:一点 四十分。第37页/共125页第三十八页,编辑于星期六:一点 四十分。第38页/共125页第三十九页,编辑于星期六:一点 四十分。第39页/共125页第四十页,编辑于星期六:一点 四十分。第40页/共125页第四十一页,编辑于星期六:一点 四十分。第41页/共125页第四十二页,编辑于星期六:一点 四十分。第42页/共125页第四十三页,编辑于星期六:
12、一点 四十分。第43页/共125页第四十四页,编辑于星期六:一点 四十分。第44页/共125页第四十五页,编辑于星期六:一点 四十分。第45页/共125页第四十六页,编辑于星期六:一点 四十分。第46页/共125页第四十七页,编辑于星期六:一点 四十分。第47页/共125页第四十八页,编辑于星期六:一点 四十分。经典方法经典方法统计统计 统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。第48页/共125页第四十九页
13、,编辑于星期六:一点 四十分。经典方法经典方法最近邻最近邻 通过检测与预测对象最接近的对象的状况对预测对象进行预测 原理: 某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近; 相互之间“接近”的对象会有相似的取值 根据其中一个对象的取值,预测其最近邻对象的预测值 商业 应用:文献检索市场篮子分析 应用 评价: 最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法第49页/共125页第五十页,编辑于星期六:一点 四十分。现代方法现代方法基础理论有指导的学习(Supervised Learning)归纳 概念 分类标准与模型 分类有指导的学习的目的:建立分类模型用模型确定新数据
14、实例的类别训练数据(Training Data)与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法第50页/共125页第五十一页,编辑于星期六:一点 四十分。 有指导的学习有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNo
15、YesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?第51页/共125页第五十二页,编辑于星期六:一点 四十分。有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoY
16、esYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法第52页/共125页第五十三页,编辑于星期六:一点 四十分。 有指导的学习有指导的学习(Supervised Learning)淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例(检验集)数据挖掘方法第53页/共125页第五十四
17、页,编辑于星期六:一点 四十分。无指导的学习无指导的学习(Unsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万1245联合NoOnline3.6M20-29高尔夫 23.9万2110个人YesBroke22.3M30-39钓鱼45.9万1001个人YesOnline5.0M40-49高尔夫 610.9万ABC投资公司客户表数据挖掘方法第54页/共125页第五十五页,编辑于星期六:一
18、点 四十分。无指导的学习无指导的学习(Unsupervised Learning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数数 据据 挖挖 掘掘 问问 题题属属 性性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指导有指导的学习的学习无指导无指导的学习的学习数据挖掘方法第55页/共125页第五十六页,编辑于星期六:一点 四十分。现代方法决策树(Decision Tree)决策树是一种有指导学习的
19、数据挖掘方法决策树的组成决策节点、分支、叶子根节点分支叶子Debt$40K节点 决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法第56页/共125页第五十七页,编辑于星期六:一点 四十分。决决策策树树的的算算法法步步骤骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类: 如果子
20、类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤 2数据挖掘方法第57页/共125页第五十八页,编辑于星期六:一点 四十分。决策树的属性选取决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感
21、症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法第58页/共125页第五十九页,编辑于星期六:一点 四十分。患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10
22、yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 敏感症敏感症咽炎No Yes 头 痛淋巴肿感冒发 烧淋巴肿No Yes 咽炎No Yes 数据挖掘方法决策树的属性选取决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小第59页/共125页第六十页,编辑于星期六:一点 四十分。信用卡促销数据库信用卡促销数据库收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352
23、-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23万万34万万45万万56万万训练集分类的正确性为1115103数据挖掘方法第60页/共125页第六十一页,编辑于星期六:一点 四十分。决策树(Decision Tree):例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分
24、支有两个类,选取最频繁出现的类信用卡保险信用卡保险6Yes6No3Yes 0NoNoYes训练集分类的正确性为91560数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19第61页/共
25、125页第六十二页,编辑于星期六:一点 四十分。决策树(Decision Tree):例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序,对照输出属性进行数据分割,选择数据分割点年年 龄龄9Yes3No0Yes 3No4343以年龄43结合寿险促销Yes,训练集分类的正确性为12158011021029353839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万Y
26、esNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19第62页/共125页第六十三页,编辑于星期六:一点 四十分。决策树(Decision Tree):例信用卡促销数据库年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树信用卡数据库的三节点决策树训练集分类的正确性为1315810数据挖掘方法收入收入
27、段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19第63页/共125页第六十四页,编辑于星期六:一点 四十分。决策树(DecisionTree):例信用卡促销数据库收入收入段段寿险促寿险促销销信用卡保信
28、用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)信用卡数据库的两节点决策树信用卡数据库的两节点决策树训练集分类的正确性为121580数据挖掘方法第64页/共1
29、25页第六十五页,编辑于星期六:一点 四十分。决策树(Decision Tree):例信用卡促销数据库检验集收入段寿险促销信用卡保险性别年龄检验结果4-5万NoNoM42正确2-3万NoNoM210正确3-4万NoNoM43正确2-3万YesNoM29错误年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树信用卡数据库的三节点决策树数据挖掘方法第65页/共125页第六十六页,编辑于星期六:一点 四十分。现代方法现代方法K平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇算算
30、法法 步步 骤骤选择一个K值,用以确定簇的总数在数据集中任意选择K个数据实例,作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心试用每个簇中的数据实例,计算每个簇的新的平均值如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为数据挖掘方法第66页/共125页第六十七页,编辑于星期六:一点 四十分。K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.选择K=2,即将所有数据实例分为两个簇
31、2.选择实例1作为第1个簇的中心,实例3作为第2个簇的中心3.计算各数据实例与C1、C2之间的欧氏距离Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代结果得到以下两个簇簇C1包含实例1、2,簇C2包含实例3、4、5、6YX 数据挖掘方法第67页/共125页
32、第六十八页,编辑于星期六:一点 四十分。K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新计算每个簇的中心 对于C1: 对于C2: 因此,新的簇中心为,3.0),3.3105)YX 6.由于簇中心改变,进行第2次迭代第68页/共125页第六十九页,编辑于星期六:一点 四十分。K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.104 C1Dist(C12
33、)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.8105 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的结果导致了簇的变化:C1包含实例1、2和3,C2包含4、5和6YX 第69页/共125页第七十页,编辑于星期六:一点 四十分。K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.010.重新
34、计算每个簇的中心 对于C1: 对于C2: 因此,新的簇中心为,2.50),4.00)8.由于簇中心改变,继续进行第3次迭代YX 第70页/共125页第七十一页,编辑于星期六:一点 四十分。K平均值算法:例 数据实例与它们所对应的簇中心之间的误差平方和最小K平均值算法的几个应用K平均值算法的最优聚类标准输出结果簇中心簇点均方误差1(2.610, 4.610)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.105, 4.125)1, 32, 4, 5, 615.943(1.8, 2.10) (5, 6)1, 2, 3, 4, 569.60YX YX YX
35、第71页/共125页第七十二页,编辑于星期六:一点 四十分。现代方法关联规则(Association Rules) 关联规则的表现形式 关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。 “如果怎么样、怎么样、怎么样,那么就会怎么样” 关联规则的构成 前件“如果怎么样、怎么样、怎么样” 后件“那么就怎么样” 如果买了西装,就会买领带 如果买精显彩电,就会买家庭影院系统第72页/共125页第七十三页,编辑于星期六:一点 四十分。规则的构成如果怎么样、怎么样、怎么样,就会怎么样如果怎么样、怎么样、怎
36、么样,就会怎么样前件,激发条件前件,激发条件后件,结果后件,结果规则表现为在前件所有条件成立的前提下,后件结规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现果会以某一正确概率出现关联规则(Association Rules)第73页/共125页第七十四页,编辑于星期六:一点 四十分。规则的置信度和支持度关联规则(Association Rules) 规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率 规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比 例:如果客户买牛奶,那么他们也会买面包 置信度:在10000次交易中客户购买
37、了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为6000060000010 第74页/共125页第七十五页,编辑于星期六:一点 四十分。规则的生成关联规则(Association Rules) 决策树方法 规则1:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信度33100,支持度31520) 规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533) 规则3:如果一个女性客户没有参加信用卡保险,
38、那么她可能会参加寿险促销(置信度510101,支持度1015410) 规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度68105,支持度81553)信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)第75页/共125页第七十六页,编辑于星期六:一点 四十分。规则的生成现代方法关联规则(Association Rules) 最近邻方法 规则:如果一个客户处于的状况,那么他可能是一个逃款者 关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。第76页/共125页第七十七页,编辑于星期六:一点
39、 四十分。规则的生成现代方法关联规则(Association Rules) apriori方法 apriori方法步骤: 1.设置最小的属性值支持度要求 apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。 条目集是指符合一定支持度要求的“属性值”的组合 2.生成条目集 3.使用生成的条目集来创建规则第77页/共125页第七十八页,编辑于星期六:一点 四十分。规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM aprior
40、i方法:例1.设置最小的属性值支持度要求(30) 2.生成条目集单项集合条目数杂志促销Y10手表促销Y4手表促销N6寿险促销Y5寿险促销N5信用卡保险N8性别M6性别F4单项条目集合第78页/共125页第七十九页,编辑于星期六:一点 四十分。规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例双项条目集合双项集合条目数杂志促销Y手表促销N4杂志促销Y寿险促销Y5杂志促销Y信用卡保险N5杂志促销Y性别M4手表促销N寿险促销N
41、4手表促销N信用卡保险N5手表促销N性别M4寿险促销N信用卡保险N5寿险促销N性别M4新英卡保险N 性别M4信用卡保险N性别F4第79页/共125页第八十页,编辑于星期六:一点 四十分。规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例 确定最小置信度(如50),利用双项条目集合生成规则3.使用生成的条目集来创建规则规则1:如果杂志促销Y,那么寿险促销Y(510) 置信度510101,支持度1010100规则2:如果寿险
42、促销Y,那么杂志促销Y(55) 置信度55100,支持度51050第80页/共125页第八十一页,编辑于星期六:一点 四十分。规则的生成关联规则(Association Rules) 市场篮子分析就是一种关联规则的表现 时间序列分析是一种反映客户行为在时间上的关联性的关联规则第81页/共125页第八十二页,编辑于星期六:一点 四十分。第82页/共125页第八十三页,编辑于星期六:一点 四十分。第83页/共125页第八十四页,编辑于星期六:一点 四十分。第84页/共125页第八十五页,编辑于星期六:一点 四十分。第85页/共125页第八十六页,编辑于星期六:一点 四十分。规则的应用关联规则(Association Rules)以前件为目标归纳所有前件一样的规则分析后件的营销效果设计促销方案(完善前件)例收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促销方案第86页/共125页第八十七页,编辑于星期六:一点 四十分。规则的应用关联规则(Association Rules)以后件为目标归纳所有后件一样的规则分析什么因素与后件有关或对后件有影响设计前件促成后件例收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关,从而可以考虑将这些因素集合在一起而产生促销效果。第87页/共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《电力电子技术》2023-2024学年期末试卷
- DB5111T49-2024西坝生姜 种姜繁殖技术规程
- DB3303T+080-2024《“共享社·幸福里”建设规范》
- 瞳孔-七上生物探究
- 煤炭行业在精准扶贫中的作用考核试卷
- 低温仓储的物流组织与运输分拨考核试卷
- 石棉与文化遗产的关系考核试卷
- 医疗废弃物的分类与处置方法考核试卷
- 2025年高考物理专项复习:光电效应及原子结构模型(分层练)(解析版)
- 中等教育的学生创新与科研能力培养考核试卷
- 箱式变电站交接试验报告
- 泰达时代中心楼顶发光字施工方案
- LED灯具规格书中英文
- 画直线和曲线说课稿
- 论我国农村集体土地所有制度的完善-
- 不等式基本性质
- BSP螺纹执行什么标准与英制G螺纹有何区别RpRc
- 初中体育课——立定跳远教案
- 人民大学大众汽车案例-4组
- 惠州市金山湖公园修建性详细规划
- 食品生产清洗消毒作业指导书
评论
0/150
提交评论