分类树与随机森林模型讲座.分类树与随机森林模型讲座_第1页
分类树与随机森林模型讲座.分类树与随机森林模型讲座_第2页
分类树与随机森林模型讲座.分类树与随机森林模型讲座_第3页
分类树与随机森林模型讲座.分类树与随机森林模型讲座_第4页
分类树与随机森林模型讲座.分类树与随机森林模型讲座_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习分类树与随机森林分类学习模型如今许多分类技术或分类模型已经被开发出来用于预测定性变量,其有logistic回归、线性判别,以及决策树、随机森林、提升法以及支持向量机等。中级方法logistic回归分析线性判别分析K-nearestneighbor高级方法分类树提升算法与随机森林支持向量机√机器学习之分类树模型分类树基本原理

基本原理:概念

决策树(Decision)可以用于分类与回归,分别称为分类树与回归树,由于回归树的效果一般不如线性回归,所以本次讲座主要讲授分类树的应用。首先通过一个例子来说明决策树的概念:ID年龄有工作有自己的房子信贷情况是否公务员类别(是否同意贷款)1青年否否一般否否2青年否否好否否3青年是否好是是4青年是是一般否是5青年否否一般否否6中年否否一般否否7中年否否好否否8中年是是好是是9中年否是非常好是是10中年否是非常好是是11老年否是非常好是是12老年否是一般否否13青年是否一般是否14老年是否非常好是是15老年否否一般否否通过学习表中的训练数据,构建一个贷款申请的决策树,用于对将来贷款申请者进行分类,即根据贷款申请人的特征,决定是否批准贷款。

基本原理:

我们需要的是一个与训练数据不相矛盾(或矛盾较少),同时具有很好的泛化能力的决策树,即对未知个例有很好的预测。比如下面的分类树模型:本质上决策树是一组if-then规则的组合:(1)如果申请者有自己的房子,则同意贷款;(2)如果申请者没有自己的房子,但有工作,则同意贷款;(3)如果申请者既没有自己的房子,也没有工作,则不同意贷款。基本原理:概念分类树模型在处理高纬度数据时有先天优势。决策树分类效果ID有自己的房子有工作年龄信贷情况是否公务员类别(是否同意贷款)结果4是是青年一般否是同意8是是中年好是是9是否中年非常好是是10是否中年非常好是是11是否青年非常好是是12是否老年一般否否3否是青年好是是同意13否是青年一般是否14否是青年非常好是是1否否青年一般否否不同意2否否青年好否否5否否青年一般否否6否否中年一般否否7否否中年好否否15否否老年一般否否基本原理:概念

决策树(Decision)是一种分类与回归方法。在分类问题中,决策树模型基于特征变量对分析实例进行分类,这些分类规则呈树状结构。其主要的优点是模型有较好的可读性,分类速度快。决策树有结点(node)和有向边(directededge)组成。结点有两种:内部结点(internal)和叶结点(leafnode)。内部结点表示特征或属性,叶结点表示分类。基本原理:运算过程Step1.选择“有自己的房子”变量对样本进行分割Leaf1:该子集分类效果很好!可以停止继续分割。预测类别定为该子类最常见的类别。Step2:这一子集分类效果不好,需要继续分割,比如选择“有工作”变量继续往下分割Leaf2&3:这两个子集分类效果不错!可以停止分类,预测类别定为该子类最常见的类别。基本原理:运算过程一个直观的准则是分类错误率,分类错误率的定义为子集中恶性样本所占的比例。每个节点的分类效果怎么衡量?基本原理:运算过程恶性样本为子类中非众数的类别决策树分类效果ID有自己的房子有工作年龄信贷情况是否公务员类别(是否同意贷款)结果4是是青年一般否是同意8是是中年好是是9是否中年非常好是是10是否中年非常好是是11是否青年非常好是是12是否老年一般否否3否是青年好是是同意13否是青年一般是否14否是青年非常好是是1否否青年一般否否不同意2否否青年好否否5否否青年一般否否6否否中年一般否否7否否中年好否否15否否老年一般否否分类错误率的定义为子集中恶性样本所占的比例。基本原理:特征选择最佳特征选择的规则:用该特征将该级样本单元进行分类,实现各类中的良性样本比例尽可能多。每次用于分割的特征是如何选择的?纯度最大化:良性样本比例尽可能多。基本原理:算法第一步选定一个最佳特征将当前样本单元进行分类,实现各类中的纯度最大化;第二步顺着树的枝条继续执行第一步;重复第一步、第二步,直到所有子集的不纯度均下降到某个较小的值,或者子类别的样本单元数。以每一个终端节点中的样本单元的类别众数来作为叶节点的预测值。分类树SPSSmodeler操作参赛案例的数据说明SPSSMODELER:数据流SPSSMODELER:决策树模型随机森林原理介绍随机森林原理介绍leaf1.具有不稳定;2.模型会随样本的变化而剧烈变化。决策树leafleaf组合预测模型:1.把一个总样本变成N个随机样本;2.基于每一个随机样本,构建决策树,生成N棵决策树;3.将N棵决策树组合起来“投票表决”。树1树2树3树4……100棵>提升法(booting)>袋装法(bagging)随机森林原理介绍随机森林.1.把一个总样本变成N个随机样本;2.基于每一个随机样本,构建决策树,生成N棵决策树;3.将N棵决策树组合起来“投票表决”。树1树2树3树4……100棵怎么把一个总样本变成N个随机样本?怎么将N棵决策树组合起来“投票表决”?随机森林原理介绍自助法抽样:1.对样本量为n的样本集S进行有放回的随机重复抽样,抽取样本量为n;2.重复很多次1的做法,比如400次,从而产生400个样本量为n的自助样本。树1树2树3树4……100棵怎么把一个总样本变成N个随机样本?随机森林原理介绍“少数服从多数”预测:1.将新样本特征放进400棵决策树,得出400个预测值;2.选取400个预测值当中的众数,作为最终的预测。树1树2树3树4……400棵怎么将N棵决策树组合起来“投票表决”?随机森林原理介绍决策树的生成:1.把一个总样本变成K个随机样本;2.基于每一个随机样本,构建决策树,生成N棵决策树;(有点特别)3.将N棵决策树组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论