版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树算法及应用拓展内容简介:概述预备知识决策树生成(BuildingDecisionTree)决策树剪枝(PruningDecisionTree)捕捉变化数据的挖掘方法小结概述(一)传统挖掘方法的局限性只重视从数据库中提取规则,忽视了库中数据的变化挖掘所用的数据来自稳定的环境,人为干预较少概述(二)捕捉新旧数据变化的目的:挖掘出变化的趋势例:啤酒——尿布阻止/延缓不利变化的发生例:金融危机——银行的信贷策略差异挖掘算法的主要思想:合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分预备知识一(BuildingTree)基本思想:用途:提取分类规则,进行分类预测判定树分类算法output训练集决策树input使用决策树进行分类决策树一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树算法基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain)停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割伪代码(BuildingTree)ProcedureBuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q WhileQisnotEmptydo{ 取出队列Q中的第一个节点N ifN不纯(Pure){ for每一个属性A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 } }属性选择的统计度量信息增益——Informationgain(ID3/C4.5)所有属性假设都是种类字段经过修改之后可以适用于数值字段基尼指数——Giniindex
(IBMIntelligentMiner)能够适用于种类和数值字段信息增益度度量(ID3/C4.5)任意样本分类的期望信息:I(s1,s2,……,sm)=-∑Pilog2(pi)(i=1..m)其中,数据集为S,m为S的分类数目,PiCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数由A划分为子集的熵:E(A)=∑(s1j+……+smj)/s*I(s1j+……+smj)A为属性,具有V个不同的取值信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)训练集(举例)ID3算法使用信息增益益进行属性选选择ClassP:buys_computer=““yes”ClassN:buys_computer=““no”I(p,n)=I(9,5)=0.940Computetheentropyforage:HenceSimilarlyDecisionTree(结结果输出)age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40基尼指数GiniIndex(IBMIntelligentMiner)集合T包含N个类别的记记录,那么其其Gini指指标就是pj类别j出现的的频率如果集合T分分成两部分N1andN2。那么这个分分割的Gini就是提供最小Ginisplit就被选择作为为分割的标准准(对于每个属性性都要遍历所所有可以的分分割方法).预备知识二(PruningTree)目的:消除决策树的的过适应(OverFitting)问题实质:消除训训练集中的异异常和噪声两种方法:先剪枝法(Public算法)后剪枝法(Sprint算法)两种剪枝标准准最小描述长度度原则(MDL)思想:最简单单的解释最期期望的做法:对Decision-Tree进行二二进位编码,,编码所需二二进位最少的的树即为“最最佳剪枝树””期望错误率最最小原则思想:选择期期望错误率最最小的子树进进行剪枝对树中的内部节点计算算其其剪剪枝枝/不不剪剪枝枝可可能能出出现现的的期期望望错错误误率率,,比比较较后后加加以以取取舍舍CostofEncodingDataRecords对n条条记记录录进进行行分分类类编编码码的的代代价价(2种种方方法法)n————记记录录数数,,k————类类数数目目,,ni———属属于于类类i的的记记录录数数CostofEncodingTree编码码树树结结构构本本身身的的代代价价编码码每每个个分分裂裂节节点点的的代代价价确定定分分类类属属性性的的代代价价确定定分分类类属属性性值值的的代代价价&其中中,,v是是该该节节点点上上不不同同属属性性值值的的个个数数编码码每每个个树树叶叶上上的的记记录录分分类类的的代代价价剪枝枝算算法法设N为为欲欲计计算算其其最最小小代代价价的的节节点点两种种情情形形::N是是叶叶结结点点————C(S)+1————Cost1N是是内内部部节节点点,,有有两两个个子子节节点点N1、、N2已剪剪去去N1、、N2,,N成成为为叶叶子子节节点点————Cost1计算算N节节点点及及其其子子树树的的代代价价,,使使用用递递归归过过程程Csplit(N)+1+minCost1+minCost2————Cost2比较较Cost1和和Cost2,,选选取取代价价较较小小者者作为为返返回回值值计算算最最小小子子树树代代价价的的伪伪代代码码ProcedureComputeCost&Prune(NodeN)ifN是是叶叶子子节节点点,,return(C(S)+1)minCost1=Compute&Prune(NodeN1)minCost2=Compute&Prune(NodeN2)minCostN=min{C(S)+1,Csplit(N)+1+minCost1+minCost2}ifminCostN=C(S)+1PrunechildnodesN1andN2returnminCostN引入Public算算法一般做做法::先建建树,,后剪剪枝Public算算法::建树树的同同时进进行剪剪枝思想::在一一定量量(用用户定定义参参数)的节节点分分裂后后/周周期性性的进进行部部分树树的剪剪枝存在的的问题题:可可能高高估(Over-Estimate)被剪剪节点点的值值改进::采纳纳低估估(Under-Estimate)节点点代价价的策策略具体思思路三种叶叶节点点:有待扩扩展::需计计算子子树代代价下下界不能扩扩展(纯节节点)剪枝后后的结结点C(S)+1改进算算法的的伪代代码ProcedureComputCoste&Prune(NodeN)IfN是是仍待待扩展展的结结点,,returnN节点点的代代价下下界IfN是纯纯节点点或不不可扩扩展的的叶节节点,return(C(S)+1)两个子子节点点N1、N2minCost1=Compute&Prune(NodeN1)minCost2=Compute&Prune(NodeN2)minCostN=min{C(S)+1,Csplit(N)+1+minCost1+minCost2}ifminCostN=C(S)+1PrunechildnodesN1andN2returnminCostN计算子子树代代价下下界Public(1)假设节节点N的代代价至至少是是1Public(S)S————split计算以以N为为根且且包含含S个个分裂裂点的的子树树代价价的下下界(包括括确定定分裂裂节点点属性性的代代价)Public(V)V———splitvalue同上,,还包包括确确定分分裂节节点值值的代代价Public(S)算法法(一一)相关概概念Public(S)算法法(二二)定理::任何以以N为为根结结点且且有S个分分裂点点的子子树的的代价价至少少是2*S+1+S*loga+∑∑nii=s+2..k证明:编码树结构构代价2*S+1确定节点分分裂属性的的代价S*loga编码S+1个叶子结结点的代价价∑nii=s+2..kPublic(S)算法(证证明一)证明:编码码S+1个个叶子节点点的代价至至少为∑nii=s+2..k相关概念::1.主要类类(MajorityClass):if,有,,则Ci为为主要类2.少数类类(MinorityClass):ifthenCj为少数数类Public(S)算法(证证明二)题设:子树树N有S个个分裂点(Split),K个类S+1个叶叶子节点至多有S+1个主要要类至少有K-S-1个个少数类取Ci为某某少数类,C(Sj)为编码码叶子节点点j上记录录的代价又有C(S)>∑∑nij编码具有类类i且位于叶子子节点j的记录的代代价是nij所有少数类类的代价Cost=∑∑nii∈少少数类计算minCost_S的代代码ProcedurecomputeMinCostS(NodeN)Ifk=1return(C(S)+1)S=1tmpCost=2*S+1+S*loga+∑inii=s+2..kWhiles+1<kandns+2>2+logado{tmpCost=tmpCost+2+loga-ns+2S++}Returnmin{C(S)+1,tmpCost}}Public(S)示例例ageCartypelabel16truckhigh24sportshigh32sportsMedi34trucklow65familylow[16,truck,high][24,sports,high]1+log21+11N[65,family,low][34,truck,low][32,sports,medi]N1+log21+log211[16,truck,high][24,sports,high][32,sports,medi][65,family,low][34,truck,low]1Public(V)算法法计算分类节点点值的代价::编码叶子节点点记录的代价价i=1..k(1)在所有内部节节点编码分裂裂节点值的代代价(2)总代价(1)+(2)其中,Cj是是叶子节点j上的主要类类;M是S+1个叶子节节点上的主要要类的集合算法比较Sprint:传统的的二阶段“构构造-剪枝””算法Public(1):用用保守的估计计值1取代欲欲扩展节点的的代价下界Public(S):考考虑具有分裂裂点的子树,,同时计算为为确定分裂节节点及其属性性的代价下界界Public(V):比比前者准确,,需计算确定定结点上属性性值的代价下下界实验数据(Real-life)DataSetCannerCarLetterSatimageshuttlevehicleyeastNO_CA0600000NO_NA9016369188N_Class242675410N_R(Te)21456766322000145005591001N_R(Tr)4961161133684435435005591001实验结果(一一)DatesetDS1DS2DS3DS4DS5DS6DS7Sprint2197326565753189325Public11783321556553141237PublicS1571297945753115169PublicV1565287543553107163Maxrat40%48%14%51%0%77%99%Nodes9371991185513543产生的节点数数目实验结果(二二)DatesetDS1DS2DS3DS4DS5DS6DS7Sprint0.871.59334.9177.65230.6211.986.65Public10.821.51285.56167.78229.2110.585.55PublicS0.831.44289.70166.44230.269.814.94PublicV0.811.45300.48159.83227.269.644.89Maxrat9%0%17%11%2%2%3%执行时间(S)算法结果分析析总体上,比Sprint算法有较大大改进相对于最后的的剪枝树仍有有多余的结点点,有待改进进挖掘效率与数数据分布及噪噪声有关言归正传—捕捕捉数据变化化的挖掘方法法新生成一棵决决策树与旧树完全没没有关系生成一棵相关关的树未达到旧树中中叶节点的深深度超出了旧树中中相应节点的的深度相同的属性,,最好的划分分(bestcut)相同的属性,,相同的划分分方法三的对应应算法使新树与旧树树有相同的属属性和划分,,且能及早停停止测试在旧树中中每个叶子节节点的错误变变化的情况进一步生成新新的树剪枝移除那些些无预测特性性的分枝比较新新、旧旧树,,识别别变化化部分分标识几几种不不同的的变化化类型型区域的的连接接:旧旧树中中的划划分不不必要要边界的的移动动:旧旧树中中的划划分移移到了了新的的位置置进一步步细化化(Refinement):旧旧树中中的叶叶结点点不足足以描描述新新生成成数据据类标号号变化化:旧旧树中中的节节点类类标号号发生生了变变化错误率率的变化化覆盖率率的变化化:某某个节节点具具有的的数据据量的的比率率小结BuildingDecisionTree算算法PruningDecisionTree算法法Public算算法法Public(1)算法法Public(s)算法法Public(v)算法法识别数数据变变化的的挖掘掘算法法个人观观点计算分分裂点点属性性代价价下界界的算算法代代码ProcedureComputeMinCostS(NodeN)IfK=1return(C(S)+1)S=1tmpCost=2*S+1+S*loga+∑nii=s+1..kWhileS+1<kand>2+logado{tmpCost=tmpCost+2+loga––s++}Returnmin{C(S)+1,tmpCost}}9、静夜四四无邻,,荒居旧旧业贫。。。12月-2212月-22Thursday,December22,202210、雨中黄黄叶树,,灯下白白头人。。。03:03:1703:03:1703:0312/22/20223:03:17AM11、以我独沈沈久,愧君君相见频。。。12月-2203:03:1703:03Dec-2222-Dec-2212、故人江海别别,几度隔山山川。。03:03:1703:03:1703:03Thursday,December22,202213、乍见翻疑疑梦,相悲悲各问年。。。12月-2212月-2203:03:1703:03:17December22,202214、他乡生白白发,旧国国见青山。。。22十二二月20223:03:17上上午03:03:1712月-2215、比比不不了了得得就就不不比比,,得得不不到到的的就就不不要要。。。。。十二二月月223:03上上午午12月月-2203:03December22,202216、行动出成果果,工作出财财富。。2022/12/223:03:1703:03:1722December202217、做做前前,,能能够够环环视视四四周周;;做做时时,,你你只只能能或或者者最最好好沿沿着着以以脚脚为为起起点点的的射射线线向向前前。。。。3:03:17上上午午3:03上上午午03:03:1712月月-229、没有失败败,只有暂暂时停止成成功!。12月-2212月-22Thursday,December22,202210、很多事事情努力力了未必必有结果果,但是是不努力力却什么么改变也也没有。。。03:03:1703:03:1703:0312/22/20223:03:17AM11、成功就就是日复复一日那那一点点点小小努努力的积积累。。。12月-2203:03:1703:03Dec-2222-Dec-2212、世间成成事,不不求其绝绝对圆满满,留一一份不足足,可得得无限完完美。。。03:03:1703:03:1703:03Thursday,December22,202213、不知香积寺寺,数里入云云峰。。12月-2212月-2203:03:1703:03:17December22,202214、意志坚强的的人能把世界界放在手中像像泥块一样任任意揉捏。22十二月月20223:03:17上午03:03:1712月-2215、楚楚塞塞三三湘湘接接,,荆荆门门九九派派通通。。。。。十二二月月223:03上上午午12月月-2203:03December22,202216、少少年年十十五五二二十十时时,,步步行行夺夺得得胡胡马马骑骑。。。。2022/12/223:03:1703:03:1722December202217、空山新雨雨后,天气气晚来秋。。。3:03:17上上午3:03上上午03:03:1712月-229、杨杨柳柳散散和和风风,,青青山山澹澹吾吾虑虑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度电商渠道加盟协议书3篇
- 二零二四年度商业租赁合同的标的与属性分析
- 二零二四年度办公室地板采购合同
- 二零二四年度版权许可使用合同(音乐作品)
- 二零二四年度涉外税收优惠政策合同
- 二零二四年度铝合金模板企业员工培训合同
- 二零二四年度影视制作合同的服务条款
- 滨涯幼儿园2024年度学生健康体检合同
- 二零二四年度技术开发合同之技术成果共享与保密
- 二零二四年度煤矿通风系统改善工程承包合同
- 非新生儿破伤风诊疗规范(2024年版)解读
- 预防校园欺凌主题班会课件(共36张课件)
- 微测网题库完整版行测
- 24春国家开放大学《教育心理学》终结性考核参考答案
- 科技兴国创新有我-科技创新主题班会
- 求职能力展示
- 2023年中国风能太阳能资源年景公报
- 软件工程生涯发展展示
- 中国马克思主义与当代思考题(附答案)
- 2023年辽宁省新高考历史试卷(含解析)
- 公司组织架构图模板可编辑
评论
0/150
提交评论