分类与决策树[1]课件_第1页
分类与决策树[1]课件_第2页
分类与决策树[1]课件_第3页
分类与决策树[1]课件_第4页
分类与决策树[1]课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分类与决策树2022/7/24分类与决策树1银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。 2006年年底,由SAS机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。 该项目利用客户的历史数据构建评分卡模型,然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。分析数据集应该包括哪些客户?分类与决策树1银行贷款申请 IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3

2、YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1分类与预测分类:目标变量为非数值型预测:目标变量为数值型根据历史数据集(已知目标变量),构

3、建模型描述目标变量与输入变量之间的关系,并依据模型来分类或预测新数据(目标变量值未知)。 分类模型也称为分类器。模型应用建模规则1:If refund=no and marst=married then cheat=no模型评估分类与决策树1分类的过程数据集分区训练集:建立模型验证集:调整和选择模型测试集:评估模型的预测能力建立模型评估并选择模型运用模型 新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?分类与决策树1分类方法决策树方法贝叶斯分类法LOGISTIC回归神经网络方法K近邻分类法SVM分类法.分类与决策树1RootLeafNode7决策树(decision tree)规则

4、1:If refund=no and (marst=single or marst=divorced) and taxincome80k then cheat=yes分类与决策树1决策树是一棵二叉或多叉树结构每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出叶子节点表示一个类标决策树一般是自上而下生成的分类与决策树1决策树基本思想建立决策树将决策树转换为决策规则并应用相关问题讨论内容分类与决策树1一、决策树思想将数据集根据某种测试条件分为2个或多个子集,使分裂后的子集在目标变量上具有更纯的分类纯度与混杂度分类与决策树1混杂度的常用测度指标信息熵 ( Entropy)基尼指

5、数( Gini Index)分类误差(classification error)分类与决策树1Pj 是数据集合中类别j的相对比例.entropy = 12信息熵 ( Entropy) 什么情况下,熵最小?什么情况下,熵最大?entropy = - 1 log21 - 0 log20 = 0目标变量为二元变量:entropy = -0.5 log20.5 0.5 log20.5 =1分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5

6、YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的熵: Entropy(T)=6/15*log2(6/15) 9/15*log2(9/15)=0.971分类与决策树1Gini 指数Pj 是数据集

7、合中类别j的相对比例.GINI最大=?GINI最小=?1-1/2 (目标变量为二元变量) 0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldN

8、oYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的基尼指数:gini=1-(6/15)2-(9/15)2=0.48分类与决策树1分类误差(classification error)CE最大=?CE最小=?1-1/2 (目标变量为二元变量) 0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairN

9、o6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的分类误差:CE=1- 9/15=6/15=0.4分类与决策树1二、建立决策树常用算法ID3-ID5,C4,C4.5,C5.0CART(Classification and

10、Regression Trees分类与回归树) (C&RT)CHAID(chi-squared automatic interaction detection,卡方自动交互检测)二叉 GINI 指数二叉或多叉 信息熵二叉或多叉分类与决策树1建立决策树树的生长分裂属性及其条件的选择 何时结束分裂树的选择分类与决策树11. 裂分目标与属性选择裂分目标 使分裂后数据子集的纯度比裂分前数据集的纯度最大限度的提高;即不同类别的观测尽量分散在不同的子集中。指标信息增益与信息增益率GINI指数的下降二分指数卡方检验C-SEP、分类与决策树1信息增益Information Gain = 裂分前数据集的熵 裂分

11、后各子数据集的熵加权和其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例分类与决策树1案例数据集基于own_home属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcel

12、lentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于ownhome属性划分划分后数据集的熵EntropyOwn_home(T)= 6/15* Entropy(T1)+ 9/15* Entropy(T2)= 6/15*( 6/6*log2(6/6) 0/0*log2(0/6) )+ 9/15*( 3/9*log2(3/9) 6/9*log2(6/9) =0.551 信息增益Gain(ownhome)=0.971-0.551=0.42Own_homeYesNoYes:

13、6No:0No:6Yes:3 裂分前数据集的熵:Entropy(T0)=6/15*log2(6/15) 9/15*log2(9/15)=0.971分类与决策树1案例数据集基于age属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYe

14、sExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于age属性划分裂分后数据集的熵EntropyAge(T)= 5/15* Entropy(T1)+ 5/15* Entropy(T2)+ 5/15* Entropy(T3)= 5/15*( 3/5*log2(3/5) 2/5*log2(2/5) )+ 5/15*( 3/5*log2(3/5) 2/5*log2(2/5) )+ 5/15*( 1/5*log2(1

15、/5) 4/5*log2(4/5) )=0.888 信息增益Gain(age)=0.971-0.888=0.083AgeYoungMiddleOldYes:2No:3Yes:3No:2No:1Yes:4分类与决策树1案例数据集基于其它属性划分根据hasjob 和credit划分后的熵分别为EntropyHas_job(T)= 0.647 EntropyCredit(T)=0.608信息增益分别为:Gain(hasjob)=0.324 Gain(credit)=0.363Gain(ownhome)=0.42Gain(age)=0.971-0.888=0.083has_jobYesNoYes:5N

16、o:0No:6Yes:4creditfairgoodexcellentYes:1No:4Yes:4No:2No:0Yes:4Own_homeYesNoYes:6No:0No:6Yes:3分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNoOwn_homeYesNoNo

17、:6Yes:3Yes:6No:0has_jobYesNoYes:3No:0No:6Yes:0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldN

18、oYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo信息增益方法偏向选择具有大量取值的属性分类与决策树1信息增益率假设按照属性S来划分T,设S有m个值,根据该属性的取值将数据集T划分成m个子集T1,T2,Tm,设Tj的数据个数是tj。信息增益率可以通过如下公式计算得到:其中, 如前面所定义, 的定义为 分类与决策树1信息增益率:案例数据集基于ownhome属性划分信息增益Gain(ownhome)=0.971-0.551=0.42SPLITI(ownhome)=-6/15*log2(6/15) 9/15*log2(9

19、/15) =0.971信息增益率GR(ownhome)=0.42/0.971=0.433Own_homeYesNoYes:6No:0No:6Yes:3分类与决策树1GINI指数的下降 GINI指数的下降 = 裂分前数据集的GINI指数 裂分后各子数据集的GINI指数加权和 其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例分类与决策树1二分指数划分对于在属性s的划分t,二分指数的改进量为:(j表示目标变量的取值)产生两个子节点间最大差异的属性s被选择。分类与决策树1卡方检验划分计算每个裂分的卡方值选择卡方检验最显著的变量及其裂分分支分类与决策树1选择裂分属性及其裂分条件测试每个属性及其

20、可能的裂分条件,计算裂分指标,选择最佳者。注意:对取值范围比较大的类别属性,可考虑分组泛化对有序类别属性,划分不能改变其顺序性对数值型属性,理论上需要测试各种可能的划分条件,实际上可以进行优化测试。也可以进行离散化处理。34排序类标号改变的临界点中间值作为候选划分阈值分类与决策树1PersonHair LengthWeightAgeClass Homer0”25036MMarge10”15034FBart2”9010MLisa6”788FMaggie4”201FAbe1”17070MSelma8”16041FOtto10”18038MKrusty6”20045M35分类与决策树1PersonH

21、air LengthWeightAgeClassMaggie4”201FLisa6”788FBart2”9010MMarge10”15034FSelma8”16041FAbe1”17070MOtto10”18038MKrusty6”20045M Homer0”25036M分类与决策树1Weight = 165?yesno划分前:Entropy(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = 0.9911Entropy(4F,1M) = -(4/5)log2(4/5) - (1/5)log2(1/5) = 0.7219Entropy(0F,4M) = -(

22、0/4)log2(0/4) - (4/4)log2(4/4) = 0Gain(Weight = 165) = 0.9911 (5/9 * 0.7219 + 4/9 * 0 ) = 0.590037分类与决策树12. 裂分停止条件每个叶子节点都属于同一个类别; 有可能得到一个非常大的树,某些叶子节点只包含很少的观测。节点包含的观测个数小于某个指定值;裂分的目标指标(例如:信息增益、信息增益率)非常小;树的深度达到了预先指定的最大值。预剪枝38分类与决策树13. 树的选择 分类模型的优劣一般情况下可根据分类的准确度(或分类误差)来判断。训练误差:在训练集上的误差 泛化误差:在非训练集上的期望误差在

23、验证数据集上的预测误差是泛化误差的无偏估计。分类与决策树1过拟合好的分类模型:低训练误差低泛化误差拟合不足:较高训练误差较高泛化误差过拟合:低训练误差较高泛化误差分类与决策树1过拟合分类与决策树1过拟合处理策略-剪枝 给树剪枝就是剪掉“弱枝”(指的是在验证数据上误分类率高的树枝)。 为树剪枝会增加训练数据上的错误分类率,但精简的树会提高新数据上的预测能力。 分类与决策树1决策树剪枝预剪枝(提前终止裂分)在树没有完全扩张之前就停止树的生长,即不要求每个叶子节点内的每一个属性值都相同,或者属于同一类别。后剪枝用新的叶子节点(类标号为多数类)代替子树;用子树中最常用的分枝代替子树;分类与决策树1后剪

24、枝训练集:验证集:训练后得到的决策树:colorx2classredsuccessbluefailurebluefailurecolorx2classredfailureredfailureredfailurebluesuccessfailure验证集误差:41分类与决策树1最小误差树与最佳剪枝树分类与决策树1三、产生分类规则并应用对从根到叶节点的每一条路径创建一条规则: 沿着给定路径上的每个划分 用逻辑AND形成分类规则的IF部分,对应叶节点的类别形成THEN部分。例如:R1:IF Own_home=yes THEN Class=yesR2:IF Own_home=No AND Has_job=Yes THEN Class=YesR3:IF Own_home=No AND Has_job=No THEN Class=NoOwn_homeYesNoNo:6Yes:3Yes:6No:0has_jobYesNoYes:3No:0No:6Yes:0规则的覆盖率 准确率分类与决策树1四、问题讨论缺失值问题决策树叶子节点的准确含义决策树方法的特点与改进目标变量在数据集样本与总体的分布不一致时如何处理?分类与决策树1变量值缺失问题训练集中的输入变量值缺失新数据中裂分变量值缺失使用代理划分假定X* 是节点t的最佳划分s*的裂分变量,代理划分s(划分效果最接近s*)使用另

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论