


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于集成式人工智能算法的分类预测获奖科研报告
摘要:本文将集成式人工智能算法——梯度提升树算法应用到了特征信息有缺失的带标签样本的分类预测中,通过和其它分类算法比较看出集成式算法在准确度和ROC、AUC等分类性能指标上有着明显的优势。
关键词:人工智能;集成式;分类预测
一、引言
近些年,人工智能技术因所依赖的硬件环境的改善得到了更为广泛的应用。概括地说,人工智能技术是利用计算机软硬件通过程序设计来实现人类智能的技术科学。从应用领域的角度来讲,人工智能技术又可以大致分为模式识别、机器学习、智能算法和数据挖掘等方面。本文关注的就是利用数据挖掘中的集成式算法对样本数据实现分类预测。
集成式的数据挖掘算法比较多。所谓集成是指将多个同类算法进行有机结合实现联合决策的过程。比较经典随机森林算法就是通过随机组合将多课决策树联合通过投票的方式确定样本的类别。以此为基础发展得到一些诸如AdaBoost,GBDT(GradientBoostingDecisionTree)等集成式算法,尤其是GBDT算法,作为一种迭代的决策树算法,联合多课决策树通过迭代的过程对历次预测产生的残差进行拟合以达到较高的训练精度。它和支持向量机都被认为是泛化能力较强的样本分类算法。本文也将通过实例比较二者的分类性能。
二、基于集成式人工智能算法GBDT的分类预测
以一个确定的带标签的数据集为例。这里选取记录了泰坦尼克号沉没事件中的乘客身份信息以及最终幸存与否的数据表。根据历史记录,泰坦尼克号上共计1316位乘客。每位乘客均带有年龄,性别,座号等信息。另外用标签0标注乘客死亡,1标注乘客生还。这样就个构成了一个包含1316条样本的數据表。表一呈现了部分乘客的信息。可以注意到每位乘客包含座位等级,姓名,年龄,性别等十个特征信息。而“survived”则是幸存与否,用0和1区别。因年代原因不少信息都是残缺的,只能用“NaN”来记录,在实际数据分析中,我们采用该特征的其它记录值的均值来代替这些缺失值。现在目的则是利用集成式的人工智能算法GBDT、随机森林和公认分类学习能力比较出色的支持向量机(SVC)来学习这些样本的信息,从而训练出预测模型。
根据预测模型的构建原理,我们将1316条数据分为训练集和测试集。训练集顾名思义是用于让算法学习数据训练模型的,而测试集则是检验模型的性能。为比较公平,三种分类算法不指定参数,均采用默认设置以让算法自动充分地学习训练集数据。考虑到这些算法在学习数据时某些环节的随机性,我们对每个算法均运行50次,通过平均性能,包括平均准确率、平均AUC等值反映三种算法的性能。
三、模型性能的比较
首先通过比较直观的ROC曲线图反映一次学习后三种算法的性能比较。ROC曲线图的出现是为了解决仅通过模型对测试集样本预测的准确率来反映模型性能不够科学的问题,尤其是在不平衡的数据集中。例如若测试集由199个正类和1个负类样本组成,则即使不用分类算法直接把所有样本都预测为正类,准确率也非常高。所以准确率不足以反映模型的性能,这时需要正类样本被正确归类(真的正类)的比例tpr和正类样本被错误归类(假的正类)的比例fpr来综合反映模型性能。ROC曲线正是反映了tpr和fpr随着算法阈值变化的曲线图。图1是此次预测的ROC曲线图。图中按图例表示的不同形状的曲线是此次预测的三种算法的ROC曲线,它代表模型对正类样本正确分类的比率(tpr)和对正类样本错分的比率(fpr)。在以fpr为横轴tpr为纵轴的ROC曲线图里,显然曲线越靠近左上角表明性能越好。
从图1可以看出整体而言,在不同的阈值下,GBDT算法的整体的性能更好,总体上其ROC曲线是位于其它两种算法之上的。相对而言在阈值较小时,支持向量机SVC性能比拟于GBDT而优于随机森林RF,在阈值较大时,三种算法的性能几乎没有差别。但这仅仅是对测试集一次预测的性能比较,考虑到切分数据集的随机性,这还不够全面。所以我们对每种算法实施50轮预测,对50次预测的准确率和ROC曲线的线下面积AUC都取均值来比较三种算法的预测性能。平均准确率具体结果随机森林,GBDT和SVC分别为0.815,0.824和0.809。结果显示就平均准确率而言,GBDT最优,随机森林次之,SVC稍稍落后。ROC线下面积AUC的具体结果随机森林,GBDT和SVC分别为0.816,0.83
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度品牌推广计划的思考
- 生物学学业水平测试的准备计划
- 分析仓库业务运作中的数据计划
- 提升社区居民环境意识的方案计划
- 提高班级凝聚力的有效措施计划
- 会议管理的有效方法与总结计划
- 建立客户反馈机制优化服务流程计划
- 小班年度主题活动的设计与安排计划
- 财务健康与年度工作保障计划
- 幼儿园科学知识竞赛活动策划计划
- 人教鄂教版六年级下册科学全册知识点
- 2024年湖南生物机电职业技术学院单招职业技能测试题库及答案解析
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- 电焊工安全教育培训课件
- DB13T 5576-2022 公路上跨铁路桥梁水平转体施工技术规程
- 2022年公司接待流程及标准管理细则
- 工程施工联系单范文全部
- FMEA第五版表格(实例)
- 【讲座】情境性试题:基于《中国高考评价体系》的高考语文命题研究
- 环保考核试卷18285(含答案)
- SMED培训材料-快速换模
评论
0/150
提交评论