




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章决策树学习目标理解树的基本概念掌握如何使用决策树进行分类以及回归分析熟悉决策树的训练方法掌握如何使用程序训练以及使用决策树模型基于树的方法的简介
什么是树树是一种抽象的结构以表现节点与节点之间的层次关系树的基本结构是节点。最上层的节点只有一个,被称之为根节点深度是对树的结构的一个重要描述性指标。其定义是从叶节点到根节点中最多需要经过多少条边决策树决策树是一种应用广泛的机器学习方法。在决策树方法中节点代表的是分割样本的规则。以信用违约数据为例:在根结点上,我们对所有数据进行分类。如果收入低于5000元,那么这笔贷款被分为高风险。如果收入高于5000元,那么我们对该申请人是否拥有房产进行分类。如果该申请人没有房产,那么该笔贷款也被分类为高风险,否则该笔贷款被分类为低风险。决策树由此可见,决策树的原理在于用预定的样本细分。我们根据细分样本对结果进行判定。我们可以清晰的观察模型如何生成预测。因此决策树有很强的可解释性(即我们可以简单的通过分析决策树的分类条件来判定哪些特征影响最终的分类结果)。另外,决策树因为不要求特征与目标变量保持线性关系,因此其也有很高的灵活性。另外,决策树既可以用于回归问题也可以用于分类问题。通常,我们将用于分类问题的决策树为分类树,而用于回归问题的决策树为回归树。回归树模型训练决策树的模型训练寻找最好的树状结构来取得对数据的细分。我们需要达到的目的是最小化模型的预测误差。沿用线性回归的代价函数:使用残差平方和(𝑅𝑆𝑆)作为代价函数训练决策树模型使用“贪心法”来构造决策树贪心法的意思是我们不考虑全局最优的决策树,而是在每一步对样本细分时,我们争取该细分步骤能最好的提高模型与数据的拟合程度。但是由于我们每次决定对样本二分之后只需考虑该次操作之后对样本如何继续细分,因此这样可以极大减少对计算的要求。二分方法
二分方法
二分方法
二分方法二分方法我们将重复这一步骤直到我们达到结束条件。结束分裂的条件包括每个子节点的上的样本量都已经小于可以继续细分的样本量(我们需要在程序中预设最小可细分的样本量)树的深度达到预设深度(我们需要预设树的最大深度)下一次分裂达带来的RSS减小少于我们设定的数值(我们需要预设最小RSS减小的数值)在以上这几个条件中选取一个作为结束条件即可。而结束条件所对应的参数可以当作超参数来进行调节二分方法图8.5可以很好的展现一个完整的决策树是怎么运作的。我们的目标是预测每股收益率。而特征是每股股价(PPS),市净率(BM),资产回报率(ROA)。决策树的剪枝决策树的分支过多可能会造成过于复杂的模型。在之前的章节中,我们讨论过可以用正则化来对模型进行简化,以减少预测中的方差。同样的思路也可以用于决策树的训练中。解决办法:限制决策树的大小,比如该决策树的分裂次数,或者每次分裂对于预测误差的降低应该要超过一个较高的数值。首先生成一颗较大的树,然后再对其进行剪枝通过剪枝找到效果较好的子树最弱连接剪枝决策树的剪枝
分类树类似于回归树,我们将根据一个数据点的特征来对该数据点进行分类。我们将用该数据点所属的节点对该数据进行分类。而分类的结果则是属于该节点的训练数据中数量最大的分类。因此,如果在一个树的节点上的越多的数据都属于同一个分类,那么我们这个节点的分类准确率越高。分类树
分类树
决策树程序
导入相关库决策树程序
数据读取及处理读取名为’ols_training.csv’的CSV文件中的数据,并将其存储在data变量中定义一个特征列表X,包含三个特征名称‘PPS’,‘BM’,‘ROA’从data中选择‘eps_basic’一列作为目标变量,存储在变量y中决策树程序
将数据随机分为训练数据/验证数据使用train_test_split函数将数据划分为训练集和测试集其中测试集占总数据的20%,训练集占总数据的80%,随机种子设为42以使结果可重复决策树程序
模型训练决策树回归分析使用训练好的模型对测试集特征变量进行预测决策树程序
使用mean_squared_error函数计算测试数据和预测结果的均方误差打印均方误差决策树程序
绘制决策树结构决策树程序
习题知识理解我们使用决策树模型对一个数据集进行拟合。通过交叉验证,我们发现模型在训练数据中的损失远小于验证数据集中的损失。对于这种情况,请回答如下问题:这个问题是过拟合还是欠拟合?以下哪种方法可能可以对于这种问题有所帮助?为什么?(a)减少决策树的深度。(b)对现有决策树的叶节点进行分裂。(c)对决策树进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理技能操作带教规范
- 2024-2025学年吉林省辽源市东辽县第一高级中学高三下学期期末教学质量检测试题数学试题试卷含解析
- 2025年北京一零一中学高三第二学期停课不停学阶段性检测试题数学试题含解析
- 创业计划书:便利店项目演讲
- 双肺楔形切除麻醉管理
- 信息技术 第二册(五年制高职)课件 9.1.7 大数据与人工智能的区别与联系
- 幼教培训课件:《幼儿园教学设计的撰写》
- 企业快速会议
- 教育小学生正确对待盲盒
- 教育原理与策略教学方法
- 川崎机器人说明书cubic s设定手册
- 2023学年完整公开课版ThelastdayofPompeii
- 压力管道试验方案、强度(含泄漏性)试验记录及报告典型示例
- (起重指挥司索工)施工现场班前(晨会)生产安全教育活动记录
- 心肺复苏讲课优秀课件
- 对外汉语教学法智慧树知到答案章节测试2023年西北师范大学
- 乐泰胶用户手册
- 通力电梯ctp-10.65s2a kce控制系统
- 《电力系统继电保护故障信息采集及处理系统设计与实现【论文11000字】》
- 架空输电线路施工质量检验及评定规程
- GB/T 701-2008低碳钢热轧圆盘条
评论
0/150
提交评论