《数据挖掘与机器学习》 课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型_第1页
《数据挖掘与机器学习》 课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型_第2页
《数据挖掘与机器学习》 课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型_第3页
《数据挖掘与机器学习》 课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型_第4页
《数据挖掘与机器学习》 课件5.3.2 随机森林、任评估与优化加工厂玻璃类别识别模型_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

评估与优化加工厂玻璃类别识别模型加工厂玻璃类别识别——决策树、随机森林任务描述大国工匠,精益求精。拥有精益求精的学习和工作精神,才能够勇攀高峰,再创辉煌。在模型建立之后,通常需要对模型进行评估。如果模型的性能较差,那么可以考虑对模型进行调优。本任务介绍几种常见的评估方法,并在评估后对模型进行调优。在最后介绍了随机森林算法。任务要求了解常见的评估方法。了解随机森林的基本概念。使用sklearn库对模型进行评估。使用sklearn库构造随机森林模型。K折交叉验证与GridSearch网络搜索随机森林随机森林单棵决策树虽然也能学习复杂的函数,但容易出现过拟合的问题。研究人员自然就想到是否能创建多棵决策树,让每棵树都参与模型的预测,最后按照“少数服从多数”的原则,选出总体的预测结果。这就是随机森林算法的雏形。随机森林(RandomForest)是一种基于决策树的集成学习算法。它将多个决策树进行集成,通过多数投票的方式对样本进行分类或回归预测。什么是随机森林?随机森林决策树1分类结果1决策树2分类结果2决策树K分类结果K…有放回的抽取样本和特征构建多个新的数据集训练样本集Bootstrap抽样训练集1训练集2训练集k…随机森林分类结果1分类结果2分类结果K…投票分类结果随机森林采用多数投票的方式,将每棵决策树的分类结果进行统计和汇总最终确定样本的分类结果随机森林具体来说,随机森林的分类模型包含以下两个步骤。对于给定的数据集,运用Bootstrap自主抽样法,有放回的抽取样本和特征,构建多个新的数据集。对新的数据集进行决策树的生成,如选择最优的特征或属性、分裂节点、生成子节点等。Bootstrap自主抽样法是一种用于估计统计量抽样分布的统计方法。它的基本思想是通过对样本数据的有放回地抽取来模拟总体分布,并使用这些样本数据的统计量来估计总体分布中的统计量。模型训练通过多次随机抽取样本集和构建决策树,随机森林可以产生多个不同的决策树。随机森林采用多数投票的方式,将每棵决策树的分类结果进行统计和汇总,最终确定样本的分类结果。决策分类随机森林使用sklearn库中的RandomForestClassifier类可以建立随机森林模型,其基本使用格式如下。classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,min_samples_split=2,min_samples_leaf=1,max_features=’auto’,n_jobs=1,random_state=None,class_weight=None)随机森林RandomForestClassifier类常用参数及其说明如下。参数名称说明n_estimators接收int,表示决策树的数量,默认为10criterion接收str,表示衡量拆分质量的度量标准,默认为"gini"max_depth接收int,表示树的最大深度。默认为"None",表示不限制树的深度min_samples_split接收int或float,表示拆分一个内部节点所需的最小样本数,默认为2min_samples_leaf接收int或float,表示叶节点上所需的最小样本数,默认为1随机森林RandomForestClassifier类常用参数及其说明如下。参数名称说明max_features接收int或str,表示每个决策树分裂时使用的最大特征数,默认为"auto",表示所有特征n_jobs接收int,并行运算时使用的CPU核心数量。默认为1,表示使用所有核心random_state接收int,表示随机数生成器的种子,控制伪随机数的生成。默认为"None"class_weight接收字典或str,表示样本权重的设置,默认为"None",表示所有样本权重相等随机森林1234确定随机森林参数拟合数据求出预测结果的准确率和混淆矩阵预测测试集结果随机森林随机森林的优缺点随机森林的优点如在决策树中所述,可以防止过拟合问题,提高模型的泛化能力。随机森林的缺点在于解释性不如单棵决策树,对于某些特定问题可能表现不佳。同时,由于随机森林需要构建多棵决策树,因此,其模型的训练时间和内存开销较大。在实际应用中,随机森林通常用于分类和回归问题,如金融信用评分、医学诊断、自然语言处理等领域。使用GridSearch网络搜索进行模型调优构建随机森林模型使用GridSearch网络搜索进行模型调优使用GridSearch网络搜索进行模型调优主要通过以下4个步骤实现。使用import和from导入GridSearchCV、DecisionTreeClassifier、RandomForestClassifier、accuracy_score、recall_score、confusion_matrix等开发类库。使用GridSearch网络搜索进行模型调优,得到最优的参数。使用得到的最佳参数,重新使用DecisionTreeClassifier类建立决策树模型。使用accuracy_score、recall_score、confusion_matrix函数计算模型的准确率、召回率、混淆矩阵。构建随机森林模型构建随机森林模型主要通过以下5个步骤实现。使用RandomForestClassifier类构建随机森林模型使用accuracy_score、recall_score、confusion_matrix函数计算模型的准确率、召回率、混淆矩阵使用GridSearch网络搜索求随机森林模型最佳参数构建随机森林模型构建随机森林模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论