数据挖掘决策树算法概述_第1页
数据挖掘决策树算法概述_第2页
数据挖掘决策树算法概述_第3页
数据挖掘决策树算法概述_第4页
数据挖掘决策树算法概述_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 #从以上事例可得出,ID3使用信翘增益:选择测试属性,其目标是确保找到一颗简单的树,而C4.5使用信息增益率选择测试属性,主要目标是使得树的层次和结点数目最小,从而使数据概化最大化。算法继承了的全部优点,例如中也采用“窗口”的概念,先从所有的事例中选取一部分用做构造决策树,再利用剩余的事例测试决策树并对它进行调整;算法能处理连续值类型的属性,它还能对属性的取值集合进行等价类划分,划分在同一类的属性值在属性值判断时将走到同一分支上。再加上算法的思想简单,实现高效,结果可靠,使在归纳学习中的地位更加显著。但是算法也有一些不足第一:采用的是分而治之的策略,在构造树的内部结点的时候是局部最优的搜索方

2、式,所以它所得到的最终结果尽管有很高的准确性,仍然达不到全局最优的结果;第二:评价决策最主要的依据是决策树的错误率,而对树的深度,结点的个数等不进行考虑,而树平均深度直接对应着决策树的预测速度,树的结点个数则代表树的规模;第三:一边构造决策树,一边进行评价,决策树构造出来之后,很难再调整树的结构和内容,决策树性能的改善十分困难第四,在进行属性值分组时逐个试探,没有一种使用启发搜索的机制,分组时的效率较低。与C4.5算法类似,CART算法也是先建树后剪枝,但在具体实现上有所不同。由于二叉树不易产生数据碎片,精确度往往高于多叉树,因此CART算法采用二分递归划分,在分支节点上进行布尔测试,判断条件

3、为真的划归左分支,否则划归右分支,最终形成一棵二叉树。CART算法在满足下述条件之一时停止建树:(1)所有叶节点中的样本数为1或者样本属于同一类;(2)决策树高度到达用户设置的阀值。CART算法使用后剪枝方法,在树生成过程中,考虑到多展开一层会有多一些的信息被发现,CART算法运行到不能再长出分枝为止,从而得到一棵最大的决策树,然后CART算法对这棵超大的决策树进行剪枝。剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。五、结论数据库和数据仓库技术的迅猛发展,使得存储的信息量日益增加,数据挖掘技术正是在此基础上应运而生的,而且数据挖掘技术也越来越受到国内外许多学者的广泛关注。本文首先简单介绍了数据挖掘的现状以及其基本过程,然后介绍了数据挖掘中所用的基本方法,接着详细介绍了ID3、C4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论