理解准确率、精确率、召回率等评价指标含义以及在SVM模型中的应用_第1页
理解准确率、精确率、召回率等评价指标含义以及在SVM模型中的应用_第2页
理解准确率、精确率、召回率等评价指标含义以及在SVM模型中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、理解准确率、精确率、召回率等评价指标含义以及在模型中的应用目录一、混淆矩阵混淆矩阵(ConfusionMatrix)是评估模型结果的指标,属于模型评估的一部分,如下图所示。实际表现10预测1TPFP表现0FNTN如果用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0,则:TP:正确的匹配数目FP:误报,没有的匹配不正确FN:漏报,没有找到正确匹配的数目TN:正确的非匹配数目二、实例分析下面,我们用R语言对练习数据进行分析处理建立支持向量机模型,分别使用准确率、精确率、召回率、F值、AUC这几个评价其结果进行评价。以练习实例来分别解释各

2、评价指标的具体含义。#读入数据data=read.csv(D:/桌面/shujv/credit.csv,header=T)summary(data)#缺失值处理data=datacomplete.cases(data),#剔除重复项data=data!duplicated(data),#区分训练集测试集split=sample(nrow(data),nrow(data)*(7/10),replace=F)data_train=datasplit,#训练集data_test=data-split,#测试集str(data_train)#支持向量机library(e1071)data_train$

3、是否按期还款=as.factor(data_train$否按期还款)svm1=svm(是否按期还款.,data_train)#建立svm模型summary(svm1)pre_svm1=predict(svm1,data_test)#准确率confusematrixs=table(data_test$是否按期还款,pre_svm1)confusematrixsp1=sum(diag(confusematrixs)/sum(confusematrixs)p1#计算精确率,召回率和F值library(ROSE)accuracy.meas(data_test$是否按期还款,pre_svm1)#计算AU

4、Croc.curve(data_test$否按期还款,pre_svm1,plotit=F)1、准确率(Accuracy准确率(Accuracy):是正确结果占总样本的百分比。因此,准确率(正确率)=所有预测正确的样本/总的样本理*准确率ccnlase-izjitr1xse-tibl-1cUita匚是舌按躱1政umLJ上图所示是利用R语言对SVM模型准确率的计算结果,图中混淆矩阵可计算出准确率为:(29+184)/(19+78+9+184)=0.71虽然准确率能够判断总的正确率,但当正负样本不均衡的情况下,并不能作为很好的指标来衡量结果。如:样本集中有90个正样本,10个负样本这种样本严重不均衡

5、的情况下,得到的高准确率没有任何意义,此时准确率就会失效。2精确率(recisio)精确率(Precision):又叫“查精率”,是针对预测结果而言的,指在所有被预测为正的样本中,实际为正的样本概率。换句是在预测为正的结果中,有多少把握能预测正确。因此,精确率=实际预测为正的样本/所有被预测为正的样本。精确率和准确率看上去有些类似,但却是两个完全不同的概念。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,其中包括正样本和负样本。3召回率(Recal)召回率(Recall):又叫“查全率”,是针对原样本而言的,指在实际为正的样本中被预测为正的样本概率。召回率=预测为正的样

6、本/实际为正的样本。比如对于地震的预测,我们希望每次地震都能被预测出来,这个时候可以牺牲precision。假如一共发生了10次地震,我们情愿发出1000次警报,这样能把这10次地震都涵盖进去(此时recall是100%,precision是1%),也不要发出100次警报,其中有8次地震给预测到了,但漏了2次(此时recall是80%,precision是8%)。4、F值F值是权衡召回率与精确率的指标,为召回率和精确率的调和平均值。n科憎砂空、马回車、GBJL1;肚Bpoax氏匕筈七_皿日窗理否袪期还載*pi:edlsz-ed-EuokfamvIimi.口X*0-勺卩才厅鼻盅中门乍n.d3recallil.OD上图所示为本例中支持向量机模型的精确率、召回率与F值:当设定阈值0.5时,精确率等于0.643,说明有部分被误分为正类的样本。召回率等于1意味着没有被误分为负类的样本。0.391的F值说明模型整体精度很低。5、AUCAUC用于判断模型的优劣,表示ROC中曲线下的面积AUC的值一般是介于0.5和1之间的,评判标准可参考如下0.5-0.7:效果较低。0.7-0.85:效果一般。0.85-0.95:效果很好。0.95-1:效果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论