数据挖掘知识_第1页
数据挖掘知识_第2页
数据挖掘知识_第3页
数据挖掘知识_第4页
数据挖掘知识_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘基本知识与算法介绍数据应用部

黄金宝2014-5-162023/2/515:291数据挖掘的基本概念数据挖掘流程数据挖掘的基本算法数据挖掘应用及演示案例目录2023/2/515:292什么是数据挖掘?存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、DataInformationKnowledgeWisdomData+contextInformation+rulesKnowledge+experience2023/2/515:293要点一数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。要点二数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的理解2023/2/515:294统计学与数据挖掘的区别数据样本数量不同(在统计学中样本数量大于30,则成为大样本)数据来源和质量不同数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据方法有些数据挖掘的分析方法是统计学中没有的,如强调实时分析(协同过滤)统计分析方法在对大规模数据处理时不能像数据挖掘那样采用神经网络、遗传算法等机器学习的方法模型(模式)模型(统计学)VS模式(数据挖掘)统计建模强调模型的普适性,数据挖掘强调从数据中发现模式算法统计学强调模型,运算量居于次要地位数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型方法论统计学:以数学为基础,每种方法有严格的证明体系(主成分分析,回归分析)数据挖掘:采用合理的算法,这些算法不全都有坚实的数学基础作支撑。2023/2/515:295怎么做数据挖掘?定义问题数据理解数据预处理建立模型实际挖掘工作评价和解释应用数据挖掘一般流程各步骤之间互相影响、反复调整,形成一种螺旋式上升的过程2023/2/515:296数据导入数据预处理模型挖掘评价应用2023/2/515:297数据挖掘过程中的数据预处理数据集成多个数据库、数据方或文件的集成数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据变换规范化与汇总数据简化(降维)减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析2023/2/515:298几类基本的挖掘算法分类与预测发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示例如:股票市值的预测,病人病情的判断聚类对数据分组以形成新类,类标记是未知的例如:市场细分关联规则发现数据集中的频繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]孤立点探测(OutlierDetection)分析异常或噪声数据的行为模式例如:欺诈检测2023/2/515:299分类(有监督的学习过程,根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据)第一步,建立一个模型,描述预定数据类集和概念集第二步,使用模型,对将来的或未知的对象进行分类训练数据集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类规则测试集分类规则未知数据Tenured2023/2/515:2910常用的分类方法——决策树归纳决策树样本的属性作为结点分支代表属性的值叶节点代表分类标签或分布用信息论原理对大量样本属性进行分析和归纳(主要有信息增益和信息增益率,其中后者克服了前者偏向选择取值多的属性的缺点)决策树的生成包括两个阶段树的创建首先,从所有训练样本中选择包含信息量最大的属性作为根节点其次,中间结点是该根节点出发的的所有子集中包含信息量最大的属性树的修剪识别并删除那些反映噪声或孤立点的分支决策树的停止条件决策树的构建过程是一个递归的过程,所以需要确定停止条件,否则过程将不会结束。一种最直观的方式是当每个子节点只有一种类型的记录时停止,但是这样往往会使得树的节点过多,导致过拟合问题(Overfitting)。另一种可行的方法是当前节点中的记录数低于一个阀值,那么就停止分割,将记录中出现比例最大对应的分类作为当前叶节点的分类。应用决策树:对未知样本进行分类在决策树上对新样本从根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到叶节点,该叶节点代表的类就是新样本的类别2023/2/515:2911优点决策树简单易理解,容易生成便于解释的规则既能处理数值型属性,也能处理非数值型的属性能在相对较短时间内对大量数据源作出可行且效果良好的结果(高效)缺点对那些样本属性包含的类别数量不一致的数据,在决策树当中,信息增益的结果易偏向于那些具有更多类别的属性决策树对缺失值难处理过度拟合问题的出现2023/2/515:2912决策树示意age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40示例:是否购买计算机?2023/2/515:2913常用的分类方法——贝叶斯分类贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。(假设每个属性之间都是相互独立的,并且每个属性对分类问题产生的影响都是一样的)算法过程;1.待分类项X=(a1、a2、….an),其中a为X的一个特征的属性2.类别集合Y=(c1、c2、…cn),现在计算P(c1/X)、P(c2/X)..

P(cn/X)3根据贝叶斯定理P(ci/X)=

P(X/ci)*

P(ci)/

P(X)=

P(aj/ci)*P(ci)/P(X)4.计算P(ck/X)=max(P(ci/X))=max(P(aj/ci)*P(ci)/P(X))5.对所有的类别P(X)是常数,故P(aj/ci)*P(ci)最大项对应的类别就是X所属类别2023/2/515:2914优点算法简单,易理解有坚实的数学理论支撑,同时有稳定的分类效率缺点模型假设的各属性之间相互独立,这个在实际应用中很难实现2023/2/515:2915常用的分类方法——神经网络神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。1.MP模型每个神经元的状态只取0或1,分别代表抑制与兴奋,每个神经元的状态由MP方程决定:2023/2/515:2916(其中Wi是权值,T是阀值,f(x)是作用函数)1.[0,1]阶梯函数2.(0,1)S型函数(常用的作用函数)2023/2/515:2917特性1:多输入单输出图(a)表明,正如生物神经元有许多激励输入一祥,人工神经元也应该有许多的输入信号,图中每个输入的大小用确定数值xi表示,它们同时输入神经元j,神经元的单输出用oj表示特性2:输入类型:兴奋性和抑制性生物神经元具有不同的突触性质和突触强度,其对输入的影响是使有些输入在神经元产生脉冲输出过程中所起的作用比另外一些输入更为重要。图(b)中对神经元的每一个输入都有一个加权系数wij,称为权重值,其正负模拟了生物神经元中突触的兴奋和抑制,其大小则代表了突触的不同连接强度。特性3:空间整合特性和阈值特性作为ANN的基本处理单元,必须对全部输入信号进行整合,以确定各类输入的作用总效果,图(c)表示组合输人信号的“总和值”,相应于生物神经元的膜电位。神经元激活与否取决于某一阈值电平,即只有当其输入总和超过阈值时,神经元才被激活而发放脉冲,否则神经元不会产生输出信号。2023/2/515:29182.感知机神经元i的输入(神经元J输出)为Xj为神经元j的输入,wij是连接权值,神经元i的输出为设神经元i的期望输出为D,通过样本学习,修正权值,使得计算输出和期望输出之差尽可能小感知机原理:3.BP神经网络(1)多层网络结构(不仅有输入、输出结点还有一层或多层隐结点,每一层连接都对应一个连接权值和结点阀值)(2)作用函数为(0,1)S型函数(3)误差公式为

作用函数为[0,1]型阶梯函数优点预测精度总的来说较高健壮性好,训练样本中包含错误时也可正常工作输出可能是离散值、连续值对目标进行分类较快缺点训练(学习)时间长蕴涵在学习的权中的符号含义很难理解很难跟专业领域知识整合2023/2/515:2919其他的分类方法

Logistic回归支持向量机(SVM)k-最临近分类(K-NN)遗传算法粗糙集方法2023/2/515:2920提高分类法的准确性Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2…CT组合起来,从而创造一个改进的分类法C*Bagging技术对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct对于未知样本X,每个分类法返回其类预测,作为一票C*统计得票,并将得票最高的预测赋予XBoosting技术每个分类Ct赋予一个权值Ct的权值取决于分类准确率2023/2/515:29212023/2/515:2922Bagging技术演示boost技术演示

预测

注:预测是构造和使用模型评估给定样本可能具有的属性或值空间.

常用的预测方法回归分析神经网络2023/2/515:2923回归分析线性回归:Y=+X其中和是回归系数,可以根据给定的数据点,通过最小二乘法来求得多元回归:Y=+1X1+2X2线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的,1和2非线性回归:Y=+1X1+2X22+3X33对不呈线性依赖的数据建模使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解2023/2/515:2924分类VS

预测相同点两者都需要构建模型来估计未知值不同点分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值2023/2/515:2925聚类

(无监督学习过程,把一个给定的数据对象集合分成不同的簇)聚类的原则:类内相似度高,类间相似度低相似度一般为某种距离函数D(i,j)聚类既可以作为独立分析工具考察数据分布结构,也可以作为其他分析方法的预处理步骤很不幸,对聚类结果的评价一般都是主观的客户分群示例分群是根据客户的关键属性将客户分成不同的组别,要求做到组间差异化最大组内相似性最大2023/2/515:2926聚类分析方法划分方法(PartitioningMethods)层次方法基于密度的方法基于网格的方法基于模型(Model-Based)的聚类方法2023/2/515:29271.划分法(partitioningmethods):给定一个有N个元组或者纪录的数据集,将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组;对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法;2023/2/515:2928K-means算法是划分法的一种,用来对一组输入字段的值基于相似度分类。其基本思路是试图发现k个聚类,各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。(K值的选择具有主观性)聚类示意图2023/2/515:29291.从N个点中选择K个点作为初始质心

2.计算剩余点到K个点的距离,将每个点指派到最近的质心,形成K个类

3.重新计算每个类的质心

4.重复2、3的操作

直到各类的质心变化低于阀值或达到最大迭代次数距离计算方法:欧式距和余弦相似度算法过程

两种划分区别:K-MEANS和K-MEDOIDS区别主要是前者以各点的平均值作为中心,而后者以类别中的一个点为中心,该点满足到类中各点的距离之和最小优点算法简单,运算速度快缺点初始K值难易确定,需要多次迭代或者主观判断确定。只有在中心平均值确定情况下才能使用,所以数据对象必须是数值型的字段对极端值或奇异值敏感2023/2/515:29302.层次法(hierarchicalmethods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:TwoStep

算法、CURE算法、CHAMELEON算法等;TwoStep

算法(能够为训练数据自动估计最佳聚类数)第一步完成简单数据处理,以便将原始输入数据压缩为可管理的子聚类集合。第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。2023/2/515:29313.基于密度的方法(density-basedmethods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;4.基于网格的方法(grid-basedmethods):这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;5.基于模型的方法(model-basedmethods):基于模型的方法给每一个聚类假定一个模型,然后去寻找一个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案2023/2/515:2932关联规则基本定义给定事务数据集,试图发现其中的频繁模式或关联关系所谓频繁模式或者关联规则就是一个具有“AB”形式的逻辑式频繁模式并不必然蕴涵着因果关系或相关关系!算法实现基本上基于APRIORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的类型布尔关联规则vs定量关联规则buy(x,”diapers”)buy(x,”beers”)Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”PC”)单维关联规则vs多维关联规则单层关联规则vs多层关联规则Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”IBMPC”)序列模式(SequencePattern)数据项是一个包含时间标签的序偶[item(i),t]2023/2/515:2933支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率。期望可信度:Support(B)=#A/#N,表示B出现的概率。置信度:Confidence(A=>B)=Support(A=>B)/Support(A)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名称描述公式支持度X、Y同时出现的频率P(X∩Y)期望可信度Y出现的频率P(Y)置信度X出现的前提下,Y出现的频率P(Y|X)改善度置信度对期望可信度的比值P(Y|X)/P(Y)关联规则的度量2023/2/515:2934发现具有最小置信度和支持度的全部规则X^YZ支持度(support),s,事务中包含{X&Y&Z}的概率置信度(confidence),c,

事务中包含{X&Y}的条件下,包含Z的条件概率令最小支持度为50%,最小置信度为50%,则有AC(50%,66.6%)CA(50%,100%)顾客购买尿布顾客购买两者顾客购买啤酒2023/2/515:2935关联规则的应用市场购物篮分析(MarketBasketAnalysis)例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务数据项是所有可能陈列货物的全集目标是发现同时出现的货品组合间的关联模式应用:商品货价设计、仓储规划、网页布局、产品目录设计等等交叉销售(CrossSelling)客户依次购买不同产品的序列目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务应用:网络故障分析、网站门户设计等2023/2/515:2936关联规则的算法Apriori算法通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小置信度的规则。FP-growth算法JiaweiHan等人在2000年提出了一种基于FP-树的关联规则挖掘算法FP_growth,它采取“分而治之”的策略,将提供频繁项目集的数据库压缩成一棵频繁模式树(FP-树)。仅两次扫描数据库,理论和实验表明该算法优于Apriori算法2023/2/515:2937数据挖掘的工具有哪些?2023/2/515:2938数据挖掘应用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析Clustering决策树DecisionTrees

倾向性分析

客户细分市场细分

倾向性分析客户保留目标市场欺诈检测关联分析Association

市场组合分析套装产品分析目录设计交叉销售2023/2/515:2939数据挖掘在通信行业的应用实例1结论:ARPU<=120元,租期已满23个月以上,平均拨打电话少于270秒,六个月內账单迟缴4次以上,拨打号码平均少于10个的客户退租可能性很大ARPU租期已满23个月以上六个月內账单迟缴4次以上拨打号码平均少于10个《120〉120是非平均拨打电话少于270秒是非70.0%不退租(1000)是77.0%退租(1200)是非非Etc.Etc.Etc.Etc.2023/2/515:2940数据挖掘在通信行业的应用实例2我们定义LIFT值大于1的规则为强关联规则。发现这样的关联规则是有价值,有意义的。关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还需要市场业务人员作进一步的验证。业务一业务二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩铃业务手机邮箱0.07340.040320.03220.4386910.88021266.19541梦网短信手机邮箱0.670380.040320.040320.060141.4915740.52694国内自动漫游手机邮箱0.382530.040320.020370.053251.3206819.84956本地普通通话(比例)手机邮箱0.690050.040320.030590.044331.099458.320422023/2/515:2941移动数据挖掘应用

客户流失(分类模型、Logistic回归算法等)彩铃WAP购买倾向预测(分类模型、Logistic回归算法等)彩信增量销售预测(分类模型、Logistic回归算法等)彩铃用户流失预测(分类模型、Logistic回归算法等)客户价值增长预测(分类模型、Logistic回归算法等)竞争对手流失预测(分类模型、Logistic回归算法等)集团客户分群(聚类模型、K-Means算法)集团客户级别打分(分类模型、Logistic回归算法)产品关联分析(关联规则)个人客户分群分析(聚类模型、K-Means算法)

集团客户流失预警模型(Logistic回归算法,神经网络)2023/2/515:29422023/2/515:2943西塔数据挖掘应用实例1——客户细分模型字段1.用户基础信息品牌地市网龄年龄ARPU流量金卡、银卡、钻卡客户VIP客户手机终端品牌手机终端型号终端操作系统TD终端客户终端合约客户终端合约客户类型2.套餐订购信息动感地带客户神州行客户全球通客户短信包客户彩信包客户5元彩信包订购标识用户3元彩信包订购标识用户彩信连连发半年优惠套餐订购标识用户TD流量包客户GPRS套餐客户GPRS5元套餐客户GPRS10元套餐客户GPRS20元套餐客户GPRS30元套餐客户GPRS50元套餐客户GPRS100元套餐客户动感10元半年包订购标识用户动感10元年包订购标识用户动感10元半年包即将到期用户动感10元年包即将到期用户2023/2/515:29443.无线音乐业务偏好无线音乐特级会员客户咪咕会员订购客户振铃开通客户振铃下载客户振铃活跃客户振铃沉默客户振铃连续三月订购客户振铃连续三月使用客户振铃连续三月沉默客户彩铃开通客户彩铃下载客户彩铃活跃客户彩铃沉默客户彩铃连续三月订购客户彩铃连续三月使用客户彩铃连续三月沉默客户歌曲下载客户歌曲下载沉默客户歌曲下载活跃客户歌曲下载订购客户歌曲下载5元半年包订购标识用户歌曲下载10元半年包订购标识用户歌曲下载5元半年包即将到期用户歌曲下载10元半年包即将到期用户歌曲下载连续三月使用客户歌曲下载连续三月沉默客户歌曲下载连续三月订购客户未使用自有无线音乐用户使用竞品音乐1使用竞品音乐22023/2/515:2945将无线音乐业务偏好变量作为细分变量,在SPSS中使用kmeans模型将客户群进行细分细分结果描述通过用户基础信息及用户套餐订购信息这些描述变量定位人群,进一步分析人群特征。2023/2/515:2946细分结果应用2023/2/515:2947西塔数据挖掘应用实例2——客户上网行为分类模型字段2023/2/515:2948在SPSS中使用决策树(C5.0)模型,实现用户上网业务类型分类具体操作步骤如下:1.使用特征选取节点(featureselection)选取重要度较高的字段作为分类变量2.使用C5.0模型,完成分类3.归纳出用户使用各种业务的规则。如(女性&动感地带用户&年龄‘30-40’倾向于支付类型的业务)模型应用:1.预测其他未知客户的上网行为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论