《商业分析概论》常用数据挖掘方法_第1页
《商业分析概论》常用数据挖掘方法_第2页
《商业分析概论》常用数据挖掘方法_第3页
《商业分析概论》常用数据挖掘方法_第4页
《商业分析概论》常用数据挖掘方法_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业分析概论常用数据挖掘方法目录数据挖掘概述分类聚类分析关联规则8.1数据挖掘概述数据挖掘概述数据挖掘是大数据时代的利器数据挖掘是大数据时代的利器

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘是一个过程,数据挖掘是各种分析方法的结合。CRISP-DM(cross-industrystandardprocessfordatamining),即为"跨行业数据挖掘过程标准".数据挖掘的方法论CRISP-DM的一般任务分类是数据挖掘的基本功能之一,它的目标是从数据集中提取出能够描述数据类基本特征的模型,并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。分类模型的形式可以是显性的,如决策树或一组分类规则,也可以是隐性的,如数学公式。8.2分类常用来解决这样的问题:⑴如何将信用卡申请人分为低、中、高风险?⑵哪些客户在未来半年内会取消该公司服务?⑶哪些2G用户会转为3G用户?⑷如何有效预测房地产开发中的风险?…8.2分类分类(Classification)-指将数据映射到预先的群组或类。训练集测试集归纳LearnModelApplyModel推理预测建模108.2分类分类的意义分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。資料庫分类模型了解类別与性别等属性的关系預測11分类的技术1.监督式(supervisedlearning)的机器学习法------決策树(DecisionTree)数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚8.2分类泸州老窖52度金泸州

泸州老窖52度金泸州

122.非监督式(unsupervisedlearning)的机器学习法-----聚类分析法(ClusterAnalysis)8.2分类8.2分类常用分类算法神经网络算法遗传算法决策树贝叶斯网络基于关联规则的分类算法粗糙集方法8.2分类分类目的1.寻找影响某一重要变量的因素2.了解某一族群的特征3.建立分类规则例如:营销策略(市场细分)

银行(核卡额度)

医疗诊断(糖尿病,SARS)148.2分类分类流程1.模型建立(ModelBuilding)2.模型評估(ModelEvaluation)3.使用模型(UseModel)15性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚分类規則IF性別=FemaleAND年齡<35THEN購買RV房車=否IF性別=FemaleAND年齡≧35THEN購買RV房車=是IF性別=MaleAND婚姻=未婚THEN購買RV房車=否IF性別=MaleAND婚姻=已婚THEN購買RV房車=是資料庫訓練樣本(trainingsamples)建立模型測試樣本(testingsamples)評估模型16資料案例訓練樣本婚姻年齡

家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型測試樣本2.模型評估X錯誤率為66.67%修改模型3.使用模型17准确度训练测试法(training-and-testing)交互验证法(cross-validation)速度建模的速度、预测的速度品质可诠释性分类算法的评估8.2分类聚类(Cluster)-是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息集聚的一种方法。常用来解决这样的问题:⑴如何通过一些特定的症状归纳某类特定的疾病?⑵谁是银行信用卡的黄金客户?⑶对住宅区进行聚类,确定ATM的安装位置;⑷如何对用户上网行为进行分析,通过客户分群进行能够精准营销?…RawDataClusteringAlgorithmClustersofData8.3聚类19聚类(clustering)是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同的是,它要划分的类是未知的。即聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例。由于这个原因,聚类是观察式学习,而不是示例式学习。“物以类聚,人以群分”8.3聚类聚类方法介绍算法的选择取决于数据的类型、聚类的目的和应用:(1)基于划分的方法

划分方法(partitioningmethod)的基本思想是:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚簇,并且k<n。也就是说,它将数据划分成为k个组,同时满足如下要求:每个组至少包括一个对象每个对象必须属于且只属于一个组注意:在某些模糊划分技术中第二个要求可以放宽。

8.3聚类218.3聚类(2)基于层次的方法

层次方法(hierarchicalmethod)的基本思想是:对给定数据对象集合进行层次的分解。根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法:又称为自底向上的方法,一开始将每个对象作为单独的一个组,然后根据一些规则相继地合并相近的对象或者组,将它们聚合成越来越大的类,直到所有的组合并为一个,或者达到一个预先设定的终止条件分裂的方法:又称为自顶向下的方法,是一个与凝聚的方式相反的过程。即开始时将所有的对象置于一个簇中。在迭代的每一步中,一个簇被分裂为更小的簇。228.3聚类(3)基于密度的方法

绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法(density-basedmethod)。

基于密度的聚类方法基本思想是:只要临近区域的密度(对象或数据点的数目)超过某个值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。8.3聚类(4)基于网格的方法

基于网格的方法(grid-basedmethod)的基本思想是:对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度较快,其处理时间独立于数据对象的数目,只与量化空间中每一维单元数目有关。 STING是基于网格方法的一个典型例子。CLIQUE和WaveCluster这两种算法既是基于网格的,又是基于密度的。8.3聚类(5)基于模型的方法

基于模型方法(model-basedmethod)的基本思想是:为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。它也是基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据或孤立点,从而产生健壮的聚类方法。聚类中孤立点分析孤立点探索的两个意义提升数据质量,反映事物本来面貌与真实规律发现欺诈行为,即异常诊断采用多维空间基于聚类的诊断方法第一步,聚类第二步,计算异常性测度指标(GDI、VDI、AI、VCM)第三步,诊断,确定离群点并分析原因

25

8.3聚类关联规则(Association)-揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。常用来解决这样的问题:⑴商业销售上,如何通过交叉销售得到更大的收入?⑵保险方面,如何分析要求发现潜在的欺诈行为?⑶银行方面,如何根据用户消费向其推荐感兴趣的服务?⑷医疗上,哪些病人和药物属性与结果有关?…

8.4关联规则27事务与项集设I={i1,i2,…,im,}为所有项目的集合,D

为事务数据库事务,T

是一个项目子集(T

I)。每一个事务具有唯一的事务标识Tid

。设A

是一个由项目构成的集合,称为项集。事务T

包含项集A,当且仅当A

T

。8.4关联规则28关联规则基本概念关联规则是数据挖据的一个重要分支,发现形如“如果〈条件〉,那么〈结论〉”的规则的方法。关联的意义在于一次交易中(数据库中的一条记录)存在X项目,则该交易中也存在Y项目。通常简写为X=〉Y,X称为关联规则的前件,Y称为关联规则的后件,=〉称为关联操作。buys(x,“computer”)=>buys(x,“finacial_management_software”)age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)age(“30..40”)=>buys(x,“IBMcomputer”)age(“30..40”)=>buys(x,“computer”)

关联规则一般用以发现事务数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式,这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类8.4关联规则29关联规则的分类:1.按处理变量

布尔型:买啤酒买婴儿尿布数值型:月收入5000元

每月交通费约800元2.按数据的抽象层次单层关联规则多层关联规则3.按涉及到的资料维数

单维关联规则:买啤酒买婴儿尿布多维关联规则:喜欢野外活动购买慢跑鞋8.4关联规则30关联规则的作用1、交叉销售,基于消费者购买模式,主动进行交叉销售。2、邮购目录的设计,将经常会一起购买的东西置于邮购目

录较近的位置,促进销售。3、商品摆放,基于商店不同的经营理念,如果将会经常一起购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加其他物品销售的可能性。4、流失客户分析,可以分析是否是某些关键商品的缺失等。5、基于购买模式进行客户区分。8.4关联规则31关联规则挖掘的基本模型与判断标准算法1算法2数据集规则用户最小支持度最小置信度图1关联规则挖掘的基本模型8.4关联规则32关联规则判断标准支持度(support,也称广泛度,普遍度)置信度(confidence,也称预测度)sup(AB)=P(AnB)=confidence(AB)=

P(A|B)=8.4关联规则33关联规则判断标准支持度(support,也称广泛度,普遍度)置信度(confidence,也称预测度)sup(AB)=P(AnB)=confidence(AB)=

P(A|B)=8.4关联规则348.4关联规则1、支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比sup(X21

Y11)=P(X21nY11)==40%sup(X2

Y11)

sup(X21

Y11)+sup(x22

Y11)2、置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。confidence(X21

Y11)=P(Y11|X21)==74.1%数据挖掘软件中用到的统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论