决策树_ID3算法.ppt

上传人：g*** IP属地：河南上传时间：2020-03-15 格式：PPT 页数：57 大小：732KB 积分：15 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

决策树基本概念决策树决策树是一种典型的分类方法首先对数据进行处理利用归纳算法生成可读的规则和决策树然后使用决策对新数据进行分析本质上决策树是通过一系列规则对数据进行分类的过程 ID3 决策树算法 ID3算法主要针对属性选择问题是决策树学习方法中最具影响和最为典型的算法该方法使用信息增益度选择测试属性当获取信息时将不确定的内容转为确定的内容因此信息伴着不确定性从直觉上讲小概率事件比大概率事件包含的信息量大如果某件事情是百年一见则肯定比习以为常的事件包含的信息量大如何度量信息量的大小 ID3 信息量大小的度量决策树算法 Shannon1948年提出的信息论理论事件ai的信息量I ai 可如下度量其中p ai 表示事件ai发生的概率假设有n个互不相容的事件a1 a2 a3 an 它们中有且仅有一个发生则其平均的信息量可如下度量 ID3 信息量大小的度量决策树算法上式对数底数可以为任何数不同的取值对应了熵的不同单位通常取2 并规定当p ai 0时 0 公式1 在决策树分类中假设S是训练样本集合 S 是训练样本数样本划分为n个不同的类C1 C2 Cn 这些类的大小分别标记为 C1 C2 Cn 则任意样本S属于类Ci的概率为 ID3 信息量大小的度量决策树算法 Entropy S A Sv S Entropy Sv 公式2 是属性A的所有可能的值v Sv是属性A有v值的S子集 Sv 是Sv中元素的个数 S 是S中元素的个数 ID3 信息量大小的度量决策树算法 Gain S A 是属性A在集合S上的信息增益Gain S A Entropy S Entropy S A 公式3Gain S A 越大说明选择测试属性对分类提供的信息越多决策树算法第1步计算决策属性的熵决策属性买计算机该属性分两类买不买S1 买 641S2 不买 383S S1 S2 1024P1 641 1024 0 6260P2 383 1024 0 3740I S1 S2 I 641 383 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9537 决策树算法第2步计算条件属性的熵条件属性共有4个分别是年龄收入学生信誉分别计算不同属性的信息增益决策树算法第2 1步计算年龄的熵年龄共分三个组青年中年老年青年买与不买比例为128 256S1 买 128S2 不买 256S S1 S2 384P1 128 384P2 256 384I S1 S2 I 128 256 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9183 决策树算法第2 2步计算年龄的熵年龄共分三个组青年中年老年中年买与不买比例为256 0S1 买 256S2 不买 0S S1 S2 256P1 256 256P2 0 256I S1 S2 I 256 0 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 决策树算法第2 3步计算年龄的熵年龄共分三个组青年中年老年老年买与不买比例为125 127S1 买 125S2 不买 127S S1 S2 252P1 125 252P2 127 252I S1 S2 I 125 127 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9157 决策树算法第2 4步计算年龄的熵年龄共分三个组青年中年老年所占比例青年组384 1025 0 375中年组256 1024 0 25老年组384 1024 0 375计算年龄的平均信息期望E 年龄 0 375 0 9183 0 25 0 0 375 0 9157 0 6877G 年龄信息增益 0 9537 0 6877 0 2660 1 决策树算法第3步计算收入的熵收入共分三个组高中低E 收入 0 9361收入信息增益 0 9537 0 9361 0 0176 2 决策树算法第4步计算学生的熵学生共分二个组学生非学生E 学生 0 7811年龄信息增益 0 9537 0 7811 0 1726 3 决策树算法第5步计算信誉的熵信誉分二个组良好优秀E 信誉 0 9048信誉信息增益 0 9537 0 9048 0 0453 4 决策树算法第6步计算选择节点年龄信息增益 0 9537 0 6877 0 2660 1 收入信息增益 0 9537 0 9361 0 0176 2 年龄信息增益 0 9537 0 7811 0 1726 3 信誉信息增益 0 9537 0 9048 0 0453 4 决策树算法年龄青年中年老年买不买买买不买叶子决策树算法青年买与不买比例为128 256S1 买 128S2 不买 256S S1 S2 384P1 128 384P2 256 384I S1 S2 I 128 256 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9183 决策树算法如果选择收入作为节点分高中低平均信息期望加权总和 E 收入 0 3333 0 0 5 0 9183 0 1667 0 0 4592Gain 收入 I 128 256 E 收入 0 9183 0 4592 0 4591 I 0 128 0比例 128 384 0 3333I 64 128 0 9183比例 192 384 0 5I 64 0 0比例 64 384 0 1667 注意决策树算法年龄青年中年老年学生买信誉叶子否是优良买不买买不买买叶子叶子叶子决策树算法 ID3决策树建立算法1决定分类属性 2对目前的数据表建立一个节点N3如果数据库中的数据都属于同一个类 N就是树叶在树叶上标出所属的类4如果数据表中没有其他属性可以考虑则N也是树叶按照少数服从多数的原则在树叶上标出所属类别5否则根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性6节点属性选定后对于该属性中的每个值从N生成一个分支并将数据表中与该分支有关的数据收集形成分支节点的数据表在表中删除节点属性那一栏如果分支数据表非空则运用以上算法从该节点建立子树决策树算法决策树的数据准备原始表决策树算法整理后的数据表决策树的数据准备 Datacleaning删除减少noise 补填missingvaluesDatatransformation数据标准化 datanormalization 数据归纳 generalizedatatohigher levelconceptsusingconcepthierarchies 例如年龄归纳为老中青三类控制每个属性的可能值不超过七种最好不超过五种 Relevanceanalysis对于与问题无关的属性删对于属性的可能值大于七种又不能归纳的属性删决策树算法决策树的数据准备决策树算法处理连续属性值决策树算法比较适合处理离散数值的属性实际应用中属性是连续的或者离散的情况都比较常见在应用连续属性值时在一个树结点可以将属性Ai的值划分为几个区间然后信息增益的计算就可以采用和离散值处理一样的方法原则上可以将Ai的属性划分为任意数目的空间 C4 5中采用的是二元分割 BinarySplit 需要找出一个合适的分割阈值参考C4 5算法Top10algorithmsindataminingKnowledgeInformationSystem200814 1 37 决策树算法 ID3算法小结 ID3算法是一种经典的决策树学习算法由Quinlan于1979年提出 ID3算法的基本思想是以信息熵为度量用于决策树节点的属性选择每次优先选取信息量最多的属性亦即能使熵值变为最小的属性以构造一颗熵值下降最快的决策树到叶子节点处的熵值为0 此时每个叶子节点对应的实例集中的实例属于同一类决策树算法 ID3算法实际应用在电信行业应用实例 1 通过ID3算法来实现客户流失的预警分析找出客户流失的特征以帮助电信公司有针对性地改善客户关系避免客户流失利用决策树方法进行数据挖掘一般有如下步骤数据预处理决策树挖掘操作模式评估和应用电信运营商的客户流失有三方面的含义一是指客户从一个电信运营商转网到其他电信运营商这是流失分析的重点二是指客户月平均消费量降低从高价值客户成为低价值客户三指客户自然流失和被动流失在客户流失分析中有两个核心变量财务原因非财务原因主动流失被动流失客户流失可以相应分为四种类型其中非财务原因主动流失的客户往往是高价值的客户他们会正常支付服务费用并容易对市场活动有所响应这种客户是电信企业真正需要保住的客户决策树算法 ID3算法实际应用在电信行业应用实例 2 数据预处理数据挖掘的处理对象是大量的数据这些数据一般存储在数据库系统中该用户相关数据存储在其CRM中是长期积累的结果但往往不适合直接挖掘需要做数据的预处理工作一般包括数据的选择选择相关的数据净化消除冗余数据转换归约等数据预处理工作准备是否充分对于挖掘算法的效率乃至正确性都有关键性的影响该公司经过多年的电脑化管理已有大量的客户个人基本信息文中简称为客户信息表在客户信息表中有很多属性如姓名用户号码用户标识用户身份证号码转化为年龄在网时间竣工时间地址职业用户类别客户流失用户状态等等数据准备时必须除掉表中一些不必要的属性一般可采用面向属性的归纳等方法去掉不相关或弱相关属性决策树算法 ID3算法实际应用在电信行业应用实例 3 属性删除将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除比如客户信息表中的用户标识身份证号码等它们的取值太多且无法在该取值域内找到概化操作符应将其删除得到表1 决策树算法 ID3算法实际应用在电信行业应用实例 4 属性概化用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化文化程度分为3类 W1初中以下含初中 W2高中含中专 W3大学专科本科及以上职业类别按工作性质来分共分3类 Z1一Z3 缴费方式托收 T1 营业厅缴费 T2 充值卡 T3 连续型属性概化为区间值表中年龄费用变化率和在网时间为连续型数据由于建立决策树时用离散型数据进行处理速度最快因此对连续型数据进行离散化处理根据专家经验和实际计算信息增益在在网时长属性中通过检测每个划分得到在阈值为5年时信息增益最大从而确定最好的划分是在5年处则这个属性的范围就变为 5 H1 H2 而在年龄属性中信息增益有两个锋值分别在40和50处因而该属性的范围变为 40 50 即变为青年中年老年 N1 N2 N3 费用变化率指当月话费近3个月的平均话费近3个月的平均话费 0 F1 30 F2 30 99 F3 100 变为 F1 F2 F3 决策树算法 ID3算法实际应用在电信行业应用实例 5 决策树算法 ID3算法实际应用在电信行业应用实例 6 在图中 NO表示客户不流失 YES表示客户流失从图可以看出客户费用变化率为100 的客户肯定已经流失而费用变化率低于30 的客户即每月资费相对稳定的客户一般不会流失费用变化率在30 99 的客户有可能流失其中年龄在40 50岁之间的客户流失的可能性非常大而年龄低于40岁的客户用充值卡缴费的客户和在网时间较短的客户容易流失年龄较大的客户则工人容易流失主要内容决策树基本概念决策树算法决策树研究问题主要参考文献决策树研究问题理想的决策树有三种 1 叶子结点数最少 2 叶子结点深度最小 3 叶子结点数最少且叶子结点深度最小然而洪家荣等人已经证明了要找到这种最优的决策树是NP难题因此决策树优化的目的就是要找到尽可能趋向于最优的决策树关于过渡拟合上述的决策树算法增长树的每一个分支的深度直到恰好能对训练样例比较完美地分类实际应用中当数据中有噪声或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时该策略可能会遇到困难在以上情况发生时这个简单的算法产生的树会过渡拟合训练样例过渡拟合 OverFitting 决策树研究问题关于过渡拟合对于一个假设当存在其它的假设对训练样例的拟合比它差但事实上在实例的整个分布上包含训练集合以外的实例表现得却更好时则称该假设过度拟合训练样例过度拟合给定一个假设空间H 一个假设h H 如果存在其它的假设h1 H 使得在训练样例上h的错误率比h1小但在整个实例发布上h1的错误率比h小则称假设h过度拟合训练数据过度拟合产生的原因噪声训练样例太小等决策树研究问题关于过渡拟合对学习算法是否成功的真正测试是看它对于训练中未见到的数据的执行性能训练过程应该包含训练样本和验证样本验证样本用于测试训练后的性能如果验证结果差则需要考虑采用不同的结构重新进行训练例如使用更大的样本集或者改变从连续值到离散值得数据转换等通常应该建立一个验证过程在训练最终完成后用来检测训练结果的泛化能力决策树研究问题关于过渡拟合分类模型的误差一般可以将分类模型的误差分为 1 训练误差 TrainingError 2 泛化误差 GeneralizationError 决策树研究问题关于过渡拟合分类模型的误差训练误差是在训练记录上误分类样本比例泛化误差是模型在未知记录上的期望误差一个好的模型不仅要能够很好地拟合训练数据而且对未知样本也要能够准确地分类一个好的分类模型必须具有低的训练误差和泛化误差因为一个具有低训练误差的模型其泛化误差可能比具有较高训练误差的模型高训练误差低泛化误差高称为过渡拟合决策树研究问题关于过渡拟合模型过渡拟合的潜在因素 1 噪声导致的过渡拟合错误的类别值类标签属性值等 2 缺乏代表性样本所导致的过渡拟合根据少量训练记录作出的分类决策模型容易受过渡拟合的影响由于训练样本缺乏代表性的样本在没有多少训练记录的情况下学习算法仍然继续细化模型就会导致过渡拟合决策树研究问题关于过渡拟合模型过渡拟合的潜在因素哺乳动物分类的训练样例体温恒温冷血冬眠 N Y N N 4条腿 Y N N Y 哺乳动物分类的训练样例按照训练模型人和大象都不是哺乳动物决策树作出这样的判断是因为只有一个训练样例具有这些特点鹰恒温不冬眠被划分为非哺乳动物该例清楚表明当决策树的叶节点没有足够的代表性时可能会预测错误决策树研究问题关于过渡拟合解决过度拟合的手段 1及早停止树增长 2后修剪法决策树研究问题关于过渡拟合 1及早停止树增长由于决策树学习要从候选集合众选择满足给定标准的最大化属性并且不回溯也就是我们常说的爬山策略其选择往往会是局部最优而不是全局最优树结构越复杂则过渡拟合发生的可能性越大因此要选择简单的模型 Occan法则又称Occan剃刀OccanRazor 具有相同泛化误差的两个模型较简单的模型比复杂的模型更可取决策树研究问题关于过渡拟合后修剪法后剪枝法在训练过程中允许对数据的过渡拟合然后再对树进行修剪该方法称为后剪枝法决策树研究问题关于过渡拟合后修剪法后剪枝法例 A B 负 C 正正负 Y Y Y N N N 一棵通过训练集合学好的决策树决策树研究问题关于过渡拟合后修剪法后剪枝法例 A B 负 C 正正负 Y Y Y N N N 对以上的决策树通过右侧的验证集合进行测试发现其有5个错分类决策树研究问题关于过渡拟合后修剪法后剪枝法例 A B 负 C 正正负 Y Y Y N N N 18 19 20 1 2 3 45 6 7 8 9 10 11 12 13 14 15 16 17 错分类5个 6 7 8 13 14 决策树研究问题关于过渡拟合后修剪法后剪枝法例第1步将决策树规则化规则1IFA YANDB YTHEN 规则2IFA YANDB NANDC YTHEN 规则3IFA YANDB NANDC NTHEN 规则4IFA NTHEN A B 负 C 正正负 Y Y Y N N N 决策树研究问题关于过渡拟合后修剪法后剪枝法例规则1IFA YANDB YTHEN 规则2IFA YANDB NANDC YTHEN 规则3IFA YANDB NANDC NTHEN 规则4IFA NTHEN 第2步规则精度的计算决策树研究问题规则2与规则4精度为100 保留关于过渡拟合后修剪法后剪枝法例第3步对规则进行修剪决策树研究问题关于过渡拟合后修剪法后剪枝法例第3步对规则进行修剪最终规则集合为规则1IFA YANDB YTHEN 规则2IFA YANDB NANDC YTHEN 规则3IFA YANDB NANDC NTHEN 规则4IFA NTHEN 原始规则集合规则1IFA YTHEN 规则2IFA YANDB NANDC YTHEN 规则3IFC NTHEN 规则4IFA NTHEN 最终规则集合决策树研究问题关于过渡拟合后修剪法后剪枝法例第4步根据精

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

决策树_ID3算法.ppt

文档简介

温馨提示

最新文档

评论

决策树_ID3算法.ppt

文档简介

温馨提示

最新文档

评论

相关文档