版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、唐国明国防科技大学原信息系统与管理学院决策树的基本概念如何构建一棵决策树ID3算法2 23 3序号序号年龄年龄长相长相收入收入是否公务员是否公务员中意?中意?126中等中等是237中等高否X X329帅高否428丑高是X X决策树!决策树(Decision Tree):是一种树形归纳分类算法,通过对训练集数据的学习,挖掘出一定的规则,用于对测试集数据进行预测.相亲的例子:分类类别:见 or 不见训练集:已相亲人(的年龄、长相、收入等属性)测试集:待相亲人(的年龄、长相、收入等属性)4 4决策树的结构5 5根节点叶节点分支内部节点 每个内部结点代表对某个属性的一次测试,每条分支代表一个测试结果,
2、叶结点代表某个类. 决策树提供了一种展示在什么条件下会得到什么类别这种规则的方法.已知:训练数据集D中有m个不同的类C1,C2,C3,Cm,设Ci,D是数据集D中Ci类的样本的集合,|D|和|Ci,D|分别是D和Ci,D中的样本个数问题:如何构建一棵决策树对测试数据集进行分类?6 6ID3最具影响和最为典型的算法使用信息增益度选择测试属性C4.5CART7 78 8年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否根据以下训练集,使用ID3算法为电脑推销员构建一棵决策树1.决定分类
3、属性集合;2.对目前的数据表,建立一个节点N;3.如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出所属的类;4.如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别;5.否则,根据信息增益(GAIN值)选出一个最佳属性作为节点N的测试属性;6.节点属性选定后,对于该属性中的每个值:从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏;7.如果分支数据表属性非空,则转1,运用以上算法从该节点建立子树.9 9如何衡量信息量的多少?比如一本50多万字的史记或一套莎士比亚全集1948年,香农(Claude S
4、hannon)在他著名的论文“通信的数学原理”中提出了信息熵信息熵的概念,证明熵与信息内容的不确定程度有等价关系若一个系统中存在多个事件E1,E2,En,每个事件出现的概率是p1,p2,pn,则这个系统的熵(平均信息量)是1010121212222entropy( ,)logloglognnnp pppppppp 设数据集D中有m个不同的类C1, C2, C3, ., Cm,Ci,D是数据集D中Ci类的样本的集合,|D|和 |Ci,D|分别是D和 Ci,D中的样本个数数据集D的信息熵: 其中pi是数据集D中任意样本属于类Ci的概率,用 估计111121()logmiiiInfo Dpp |,D
5、CDi1212年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否22()5599loglog141414140.940Info D |D|=14|C1,D|=5|C2,D|=91313( )()()AGain AInfo DInfoD选择具有最高信息增益Gain(A)的属性A作为分裂属性按照能做“最佳分类”的属性A划分,使完成样本分类需要的信息量最小max( )Gain Amin()AInfoD年龄年龄40的有5个, 其中2个为“否”694. 0)53log5352log52(14
6、5)40log4044log44(144)52log5253log53(145 Info年龄(D) Gain(年龄) = Info(D) - Info年龄(D)= 0.940 - 0.694 = 0.246年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否1414收入收入=高的有4个, 其中2个为“否”收入=中的有6个, 其中2个为“否”收入=低的有4个, 其中1个为“否”911. 0)43log4341log41(144)64log6462log62(146)42log4242l
7、og42(144 Info收入(D) Gain(收入) = Info(D) - Info收入(D)= 0.940 - 0.911 = 0.029年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否1515学生是学生的有7个, 其中1个为“否”不是学生的有7个, 其中4个为“否”788. 0)73log7374log74(147)76log7671log71(147 Info学生(D) Gain(学生) = Info(D) - Info学生(D)= 0.940 - 0.788 = 0.
8、152年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否40中是一般是40中否好否1616信用信用好的有6个, 其中3个为“否”信用一般的有8个, 其中2个为“否”892. 0)86log8682log82(148)63log6363log63(146 Info信用(D) Gain(信用) = Info(D) - Info信用(D)= 0.940 - 0.892 = 0.048年龄年龄收入收入学生学生信用信用买电脑买电脑? ?30高否一般否40中等否一般是40低是一般是40低是好否30-40低是好是30中否
9、一般否40中是一般是40中否好否1717收入收入学生学生信用信用买电脑买电脑? ?中否一般是低是一般是低是好否中是一般是中否好否年龄40“年龄”属性具体最高信息增益,成为分裂属性收入收入学生学生信用信用买电脑买电脑? ?高否一般是低是好是中否好是高是一般是收入收入学生学生信用信用买电脑买电脑? ?高否一般否高否好否中否一般否低是一般是中是好是1818收入收入学生学生信用信用买电脑买电脑? ?高否一般否高否好否中否一般否低是一般是中是好是 Info收入(D)= 2/5 * (-2/2 * log2/2 - 0/2 * log0/2) + 2/5 * (-1/2 * log1/2 - 1/2 * log1/2) + 1/5 * (-1/1 * log1/1 - 0/1 * log0/1)= 0.400 Info学生(D)= 3/5 * (-3/3 * log3/3 - 0/3 * log0/3) + 2/5 * (-2/2 * log2/2 - 0/2 * log0/2)= 0 Info信用(D)= 3/5 * (-2/3 * log2/3 - 1/3 * log1/3) + 2/5 * (-1/2 *
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级上册生命生态安全教案
- 专科门诊部改造工程封面
- 婚纱摄影全包装修合同
- 乡村振兴项目计划
- PEST解析总结三个案例
- 2024年全款房屋买卖合同范本
- 2024年上海客运考试应用能力试题及答案详解
- 2024年白酒代销合同格式
- 2024年银川客运从业资格证要考几门课
- 2024年广安道路客运从业资格证考试模拟试题
- 新团员团课培训课件
- 快速养鸡技术培训课件
- 网红夜市古风主题市集策划方案
- 2024年中国银行股份有限公司招聘笔试参考题库含答案解析
- 妇产超声知识讲座
- 【单元专项】人教PEP版五年级上册英语-Unit 2 My week 阅读(含答案)
- 高思学校竞赛数学课本五年级
- 终期预评估报告
- 胶东国际机场
- 关键时刻的决策力
- 上海交通大学电子信息与电气工学学院本科生课表
评论
0/150
提交评论