




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术与应用项目——R语言分类预测的基本流程原理1
项目来自北京诺程佳华教育科技有限公司教学目标•熟悉分类预测的基本流程;•熟悉在R语言中使用程序包caret做分类预测。
R语言分类预测的基本流程原理1.分类预测的基本流程和要素分类预测的基本流程可以归纳为:数据总体->按一定概率随机分成训练集和测试集->用训练集建立分类预测模型->用测试集评估模型效果。分类预测模型的各组成部分包括:问题的提出->输入数据->特征提取->算法选择->参数确定->分类预测效果的评估。
R语言分类预测的基本流程原理1.分类预测的基本流程和要素在选取数据过程中,需要注意输入数据与问题是否相关,且数据是否正确,否则会出现“垃圾进,垃圾出”的效果。在特征提取过程中,需要提取适合的特征,能够压缩数据,保留相关信息,且利用领域知识。不能盲目采用自动化特征选择。算法对于分类预测的效果并不如预期那样重要。选择算法时需要考虑的因素包括可解释性、准确性、可扩展性和时间性能等。可解释性的重要性在于,可以表达特征是如何得到结果的。而可扩展性的重要性在于,算法最终是需要在大数据集上运行,并且计算代价不应该太高。
R语言分类预测的基本流程原理2.分类预测错误和模型评价指标预测错误分为两种:样本内错误(insampleerror)和样本外错误(outofsampleerror)。样本内错误是预测模型在训练模型所用的数据集上得到的错误率,样本外错误是预测模型在新数据集上得到的错误率。真正需要关注的是样本外误差。一般情况下,样本内误差会小于样本外误差,而这源于过拟合(overfitting)。数据都是由两部分组成:信号和噪声。而预测模型的目的是仅仅捕捉信号。我们总是可以设计一个完美的模型使得样本内误差为0,但这会将信号和噪声都捕捉到,因此这样的模型在新样本上性能会下降。
R语言分类预测的基本流程原理对于仅有两类(阳性类和阴性类)的分类问题,则预测值和实际值总共有4种可能的组合情况。•正确的阳性类(truepositive,简称TP),例如在临床诊断中将病人正确诊断为病人;•错误的阳性类(falsepositive,简称FP),例如在临床诊断中将健康人错误诊断为病人;•正确的阴性类(truenegative,简称TN),例如在临床诊断中将健康人正确诊断为健康人;•错误的阴性类(falsenegative,简称FN),例如在临床诊断中将病人错误诊断为健康人。
R语言分类预测的基本流程原理
R语言分类预测的基本流程原理根据上图定义,可以得到预测模型的其他主要评价指标的计算公式。灵敏度(sentitivity):TP/(TP+FN)特异度(specificity):TN/(FP+TN)精确度(precision):TP/(TP+FP)召回率(recall):TP/(TP+FP)正确阳性率(TPR):TP/(TP+FN)错误阳性率(FPR):FP/(FP+TN)准确度(accuracy):(TP+TN)/(TP+FP+FN+TN)
R语言分类预测的基本流程原理而不同的指标间又存在折衷和权衡。例如,提升灵敏度的同时必然会降低特异度,提升阳性预测正确率的同时必然会降低阴性预测正确率。可以用曲线图表现不同指标的权衡:•ROC曲线:横坐标是阳性预测正确率,纵坐标是阴性预测正确率;•精确度-召回率曲线:横坐标是精确度,纵坐标是召回率;•灵敏度-特异度曲线:横坐标是灵敏度,纵坐标是特异度。
R语言分类预测的基本流程原理R语言中可调用程序包ROCR画出这些曲线图:pred<-prediction(predictions,labels)perf<-performance(pred,measure,x.measure)plot(perf)其中参数predictions表示预测值,参数labels表示真实值,参数measure和x.measure指定曲线类型,常用组合包括:•参数measure="tpr",x.measure="fpr"表示ROC曲线;•参数m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年园艺师考试压力管理试题及答案
- 无锡光伏电站施工方案
- 混凝土稳管如何施工方案
- 2025年注会各科目复习时长试题及答案
- 生物检测与微生物检验的融合试题及答案
- 项目管理中的时间优化方法试题及答案
- 秘书性格与职业要求试题及答案
- 2024年项目管理考试应试能力试题及答案
- 江苏彩色地面施工方案
- 微生物检验中的法律责任问题试题及答案
- (2024年)知识产权全套课件(完整)
- 上春山二部合唱钢琴伴奏正谱
- 《群英会蒋干中计》课件 2023-2024学年高教版中职语文基础模块下册
- 2024年地基基础(基桩静荷载试验)知识考试题库(供参考)
- 市级优质课一等奖《谁是最可爱的人》七年级语文下册同步备课课件(统编版)
- 2024全新第五版FMEA培训教材
- 电信电源专业应急预案
- 人工智能在智能工厂中的应用
- 上市公司固定资产减值研究 -以美的集团股份有限公司为例
- 运动会运营服务投标方案(技术标 )
- 雷达原理(第6版) 习题及答案汇总 丁鹭飞 ch01-ch09
评论
0/150
提交评论