




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术与应用项目——R语言分类预测的基本流程原理1
项目来自北京诺程佳华教育科技有限公司教学目标•熟悉分类预测的基本流程;•熟悉在R语言中使用程序包caret做分类预测。
R语言分类预测的基本流程原理1.分类预测的基本流程和要素分类预测的基本流程可以归纳为:数据总体->按一定概率随机分成训练集和测试集->用训练集建立分类预测模型->用测试集评估模型效果。分类预测模型的各组成部分包括:问题的提出->输入数据->特征提取->算法选择->参数确定->分类预测效果的评估。
R语言分类预测的基本流程原理1.分类预测的基本流程和要素在选取数据过程中,需要注意输入数据与问题是否相关,且数据是否正确,否则会出现“垃圾进,垃圾出”的效果。在特征提取过程中,需要提取适合的特征,能够压缩数据,保留相关信息,且利用领域知识。不能盲目采用自动化特征选择。算法对于分类预测的效果并不如预期那样重要。选择算法时需要考虑的因素包括可解释性、准确性、可扩展性和时间性能等。可解释性的重要性在于,可以表达特征是如何得到结果的。而可扩展性的重要性在于,算法最终是需要在大数据集上运行,并且计算代价不应该太高。
R语言分类预测的基本流程原理2.分类预测错误和模型评价指标预测错误分为两种:样本内错误(insampleerror)和样本外错误(outofsampleerror)。样本内错误是预测模型在训练模型所用的数据集上得到的错误率,样本外错误是预测模型在新数据集上得到的错误率。真正需要关注的是样本外误差。一般情况下,样本内误差会小于样本外误差,而这源于过拟合(overfitting)。数据都是由两部分组成:信号和噪声。而预测模型的目的是仅仅捕捉信号。我们总是可以设计一个完美的模型使得样本内误差为0,但这会将信号和噪声都捕捉到,因此这样的模型在新样本上性能会下降。
R语言分类预测的基本流程原理对于仅有两类(阳性类和阴性类)的分类问题,则预测值和实际值总共有4种可能的组合情况。•正确的阳性类(truepositive,简称TP),例如在临床诊断中将病人正确诊断为病人;•错误的阳性类(falsepositive,简称FP),例如在临床诊断中将健康人错误诊断为病人;•正确的阴性类(truenegative,简称TN),例如在临床诊断中将健康人正确诊断为健康人;•错误的阴性类(falsenegative,简称FN),例如在临床诊断中将病人错误诊断为健康人。
R语言分类预测的基本流程原理
R语言分类预测的基本流程原理根据上图定义,可以得到预测模型的其他主要评价指标的计算公式。灵敏度(sentitivity):TP/(TP+FN)特异度(specificity):TN/(FP+TN)精确度(precision):TP/(TP+FP)召回率(recall):TP/(TP+FP)正确阳性率(TPR):TP/(TP+FN)错误阳性率(FPR):FP/(FP+TN)准确度(accuracy):(TP+TN)/(TP+FP+FN+TN)
R语言分类预测的基本流程原理而不同的指标间又存在折衷和权衡。例如,提升灵敏度的同时必然会降低特异度,提升阳性预测正确率的同时必然会降低阴性预测正确率。可以用曲线图表现不同指标的权衡:•ROC曲线:横坐标是阳性预测正确率,纵坐标是阴性预测正确率;•精确度-召回率曲线:横坐标是精确度,纵坐标是召回率;•灵敏度-特异度曲线:横坐标是灵敏度,纵坐标是特异度。
R语言分类预测的基本流程原理R语言中可调用程序包ROCR画出这些曲线图:pred<-prediction(predictions,labels)perf<-performance(pred,measure,x.measure)plot(perf)其中参数predictions表示预测值,参数labels表示真实值,参数measure和x.measure指定曲线类型,常用组合包括:•参数measure="tpr",x.measure="fpr"表示ROC曲线;•参数m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题5.3 平面向量的数量积(原卷版)-2024年高考数学一轮复习精讲精练宝典(新高考专用)
- 幼儿游戏教学案例
- 人教版(2024)七年级英语下册Unit 6 学情调研测试卷(含答案)
- 路基拼宽施工方案
- 隧道风机房施工方案
- 2025年新高考地理全真模拟试卷4(含答案解析)
- 2025年高考地理二轮复习:综合题答题技巧(含练习题及答案)
- 幕墙防火防雷施工方案
- Unit 6 reading2 教学设计 2024-2025学年译林版(2024)七年级英语上册
- 小学课本剧一年级《小白兔和小灰兔》-剧本
- 高中通用技术人教高二下册目录新型抽纸盒-
- 畜牧场经营管理
- 课程思政示范课程申报书(测绘基础)
- ALeader 阿立得 ALD515使用手册
- 神华陕西国华锦界电厂三期工程环评报告
- 飞行员航空知识手册
- GB/Z 19848-2005液压元件从制造到安装达到和控制清洁度的指南
- GB/T 34936-2017光伏发电站汇流箱技术要求
- GB/T 12618.4-2006开口型平圆头抽芯铆钉51级
- 红金大气商务风领导欢迎会PPT通用模板
- 学前教育学00383-历年真题-试卷
评论
0/150
提交评论