实验-------决策树_第1页
实验-------决策树_第2页
实验-------决策树_第3页
实验-------决策树_第4页
实验-------决策树_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、clementine决策树分类模型一基于决策树模型进行分类的基本原理概念分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。数据分类是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。clementine 8.1中提供的回归方法有两种:C5.0(C5.0决策树)和Neural Net(神经网络)。下面的例子主要基于C5.0决策树生成算法进行分类。C5.0算法最早(20世纪50年代)的算法是亨特CLS(Concept Learning System)提出,后经发展由

2、J R Quinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据;C4.5是ID3后来的改进算法,它在ID3基础上增加了:对连续属性的离散化;C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提供强大的增强技术以提高分类的精度。二. 范例说明该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果,snapshottrainN.db(训练数据)描述的是不同age(年龄),不同sex(性别)

3、,不同region(地域),不同income(收入),不同married(婚姻),等等的数据,通过分类算法对训练数据进行建模得到决策树模型,通过得到的决策树模型来判断测试数据集(snapshottestN.db)里面的每个记录的pep(个人投资计划)属性是yes还是no。使用clementine建立流程图,如图1所示:图1 总流程图三. 数据集说明数据集snapshottrainN.db,以下是该数据集的所有字段名: id. 唯一的识别号 age. 年龄 sex. 性别 region.地理位置 income. 收入 merried. 是否已婚 children. 有几个孩子 car. 是否有汽

4、车 save_act. 是否有储蓄账户 current_act. 是否有活期存款 mortgage. 是否有抵押 pep. 是否有个人投资计划 四. 训练模型通过下面的操作,将完成如图2所示的流。图2 训练模型(1) 导入数据及预处理插入一个变项文件节点(SourceVar.File),双击该节点,在File框输入snapshottrainN.db的物理路径,如图3所示:图3 输入节点(2) 变量类型的定义及实例化:在建模之前,我们首先将一个类型节点Type Node加到目前的流程中。点击Read Values以读取数据。因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将id

5、的Direction设为“None”,将pep设为“Out”,其他字段设为“In”。如图4所示:图4 Type节点(3) 查看数据源通过一个Table节点(OutputTable)与源数据连接,Excute(执行)Table结点即可,如图5所示:图5 Table节点(4) 用C5.0算法建立决策树模型建立一个C5.0结点(ModelingC5.0)与Type节点相连,如图6所示:图6 建模过程双击C5.0结点可对其进行编辑,这里取其Model name为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如图7所示:图7 建模过程参数选择(5) 模型结果分析执行C5.

6、0结点即可得到判断pep取值的决策树模型,如图8所示:图8 查看模型右键单击模型,单击Browse查看模型结果,如图9所示:图9 模型结果将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息,如图10所示:图10 模型好坏分析五. 测试模型现有新的数据snapshottestN.db,将建好的分类模型(pep)加入到流程中,并利用Analysis节点分析结果,如图11所示:图11 测试模型(1)导入数据及预处理与上面的方法相同,建立变项文件节点,选取源数据snapshottestN.db,如图12所示:图12 输入节点预处理数据,与训练模型操作相同,如图13所示:图13 测试数据筛选(2)查看数据源通过一个Table节点(OutputTable)与源数据连接,Excute(执行)Table结点即可,如图14所示:图14 查看测试数据(3)连接模型将得到的回归模型加入到Type节点,如图15所示:图15 连接模型双击C5.0结点可对其进行编辑,这里取其Model name为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论