深入浅出决策树分类(精彩故事引入)_第1页
深入浅出决策树分类(精彩故事引入)_第2页
深入浅出决策树分类(精彩故事引入)_第3页
深入浅出决策树分类(精彩故事引入)_第4页
深入浅出决策树分类(精彩故事引入)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策树分类唐国明国防科技大学原信息系统与管理学院授课内容决策树的基本概念如何构建一棵决策树ID3算法2小故事:女博士相亲3序号年龄长相收入是否公务员中意?126中等中等是√237中等高否X329帅高否√428丑高是X………………决策树!!决策树的基本概念决策树(DecisionTree):是一种树形归纳分类算法,通过对训练集数据的学习,挖掘出一定的规则,用于对测试集数据进行预测.相亲的例子:分类类别:见

or不见训练集:已相亲人(的年龄、长相、收入等属性)测试集:待相亲人(的年龄、长相、收入等属性)4决策树的基本概念决策树的结构5根节点叶节点分支内部节点每个内部结点代表对某个属性的一次测试,每条分支代表一个测试结果,叶结点代表某个类.决策树提供了一种展示在什么条件下会得到什么类别这种规则的方法.决策树的构建已知:训练数据集D中有m个不同的类{C1,C2,C3,…,Cm},设Ci,D是数据集D中Ci类的样本的集合,|D|和|Ci,D|分别是D和Ci,D中的样本个数问题:如何构建一棵决策树对测试数据集进行分类?6决策树的构建ID3最具影响和最为典型的算法使用信息增益度选择测试属性C4.5CART78年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否根据以下训练集,使用ID3算法为电脑推销员构建一棵决策树决策树的构建(ID3)1.决定分类属性集合;2.对目前的数据表,建立一个节点N;3.如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出所属的类;4.如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别;5.否则,根据信息增益(GAIN值)选出一个最佳属性作为节点N的测试属性;6.节点属性选定后,对于该属性中的每个值:从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏;7.如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树.9信息熵(Entropy)如何衡量信息量的多少?比如一本50多万字的《史记》或一套莎士比亚全集1948年,香农(ClaudeShannon)在他著名的论文“通信的数学原理”中提出了信息熵的概念,证明熵与信息内容的不确定程度有等价关系若一个系统中存在多个事件E1,E2,…En,每个事件出现的概率是p1,p2,…pn,则这个系统的熵(平均信息量)是10数据集的信息熵设数据集D中有m个不同的类C1,C2,C3,...,Cm,Ci,D是数据集D中Ci类的样本的集合,|D|和|Ci,D|分别是D和Ci,D中的样本个数数据集D的信息熵:其中pi是数据集D中任意样本属于类Ci的概率,用估计11计算对下列数据集分类所需的信息熵12年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否|D|=14|C1,D|=5|C2,D|=9信息增益13选择具有最高信息增益Gain(A)的属性A作为分裂属性按照能做“最佳分类”的属性A划分,使完成样本分类需要的信息量最小确定第一次分裂的属性:按年龄划分年龄<30的有5个,其中3个为“否”年龄30-40的有4个,其中0个为“否”年龄>40的有5个,其中2个为“否”Info年龄(D)Gain(年龄)=Info(D)-Info年龄(D)=0.940-0.694=0.246年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否14确定第一次分裂的属性:按收入划分收入=高的有4个,其中2个为“否”收入=中的有6个,其中2个为“否”收入=低的有4个,其中1个为“否”Info收入(D)Gain(收入)=Info(D)-Info收入(D)=0.940-0.911=0.029年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否15确定第一次分裂的属性:按学生划分是学生的有7个,其中1个为“否”不是学生的有7个,其中4个为“否”Info学生(D)Gain(学生)=Info(D)-Info学生(D)=0.940-0.788=0.152年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否16确定第一次分裂的属性:按信用划分信用好的有6个,其中3个为“否”信用一般的有8个,其中2个为“否”Info信用(D)Gain(信用)=Info(D)-Info信用(D)=0.940-0.892=0.048年龄收入学生信用买电脑?<30高否一般否<30高否好否30-40高否一般是>40中等否一般是>40低是一般是>40低是好否30-40低是好是<30中否一般否<30低是一般是>40中是一般是<30中是好是30-40中否好是30-40高是一般是>40中否好否17确定第一次分裂的属性收入学生信用买电脑?中否一般是低是一般是低是好否中是一般是中否好否年龄<3030-40>40“年龄”属性具体最高信息增益,成为分裂属性收入学生信用买电脑?高否一般是低是好是中否好是高是一般是收入学生信用买电脑?高否一般否高否好否中否一般否低是一般是中是好是18确定第二次分裂的属性收入学生信用买电脑?高否一般否高否好否中否一般否低是一般是中是好是Info收入(D)=2/5*(-2/2*log2/2-0/2*log0/2)+2/5*(-1/2*log1/2-1/2*log1/2)+1/5*(-1/1*log1/1-0/1*log0/1)=0.400Info学生(D)=3/5*(-3/3*log3/3-0/3*log0/3)+2/5*(-2/2*log2/2-0/2*log0/2)=0Info信用(D)=3/5*(-2/3*log2/3-1/3*log1/3)+2/5*(-1/2*

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论