机器学习第2章 模型评估与选择.ppt_第1页
机器学习第2章 模型评估与选择.ppt_第2页
机器学习第2章 模型评估与选择.ppt_第3页
机器学习第2章 模型评估与选择.ppt_第4页
机器学习第2章 模型评估与选择.ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章模型评估与选择,主要内容,经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差,误差,误差(error):学习器实际预测输出与样本真实输出之间的差异 训练集:训练误差(training error),(经验误差,empirical error) 训练集的补集:泛化误差(generalization error) 我们希望泛化误差小的学习器,过拟合,过拟合(overfitting):训练过度使泛化能力下降 欠拟合(underfitting):未能学好训练样本的普遍规律 过拟合是机器学习的关键障碍 且不可避免! 模型误差包含了数据误差, 或者说模型信息中包含了噪声。,学习器泛化评估实验

2、测试,测试集:测试误差(testing error) 训练集和测试集组成数据集。 假设测试样本是从真实分布中采样而得,避免因数据划分引入偏差。 测试集应与训练集互斥。,调参与最终模型,参数调节(parameter tuning) 算法参数 人工设定候选值 模型参数 通过学习产生候选模型 数据集 训练集训练估计模型 验证集模型参数调整 测试集估计泛化能力 学习算法和参数配置确定后要用整个数据集重新训练模型,性能度量,性能度量(performance measure):衡量模型泛化能力的评价标准 回归(regression):均方误差(mean squared error) 离散数据: ; = 1

3、 =1 ( ) 2 连续数据: ; = 2 分类(classification):错误率(error rate)和精度(accuracy) 离散数据: ; = 1 =1 ( ) ,acc ; = 1 =1 ( = ) 连续数据: ; = ,acc ; = = ,任务需求以二分类为例,混淆矩阵(confusion matrix),非对角,纠缠相 查准率(precision):= + 查全率(recall):= + P-R曲线 面积、平衡点(Break-Even-Point,BEP) 1度量:,的调和平均 度量: ,的加权调和平均,多混淆矩阵,先分别计算查准率和查全率,再平均 宏查准率(macro

4、):macro= 1 =1 宏查全率(macro):macro= 1 =1 宏1(macro1) 先平均各混淆矩阵对应元素,再计算查准率和查全率 微查准率(micro):micro= + 微查全率(micro):micro= + 微1(micro1),ROC与AUC,受试者工作特征曲线(Receiver Operating Characteristic) 横轴假正例率:FPR= + 纵轴真正利率:TPR= + AUC(Area Under ROC curve) AUC= 1 2 =1 1 ( +1 )( + +1 ) AUC反应样本预测的排序质量 AUC=1 (排序损失),代价敏感错误率与代价

5、曲线,非均等代价(unequal cost) 代价矩阵(cost matrix) 代价敏感错误率:加权的错误率 代价曲线(cost curve): 横轴正例概率代价 + = 01 01 +(1) 10 纵轴归一化代价 = FNR 01 +FPR(1) 10 01 +(1) 10,比较检验,如何比较?从统计的角度 统计假设检验(hypothesis test):根据测试错误率估计推断泛化错误率的分布。 提出假设找到符合某种概率分布的中间变量利用该概率分布确定在某个置信度(confidence)下是否接受该假设,单个学习器,二项检验 泛化错误率为的学习器,个测试样本,测试错误率为 假设“ 0 ”,

6、置信度为1,拒绝域为 ,其中临界值 =max s.t. = 0 +1 (1) /2,一个数据集多个学习器,成对t检验 学习器A和B,折交叉验证法得测试错误率 和 (=1,) 计算得差值 及它们的均值和样本方差 2 假设“ = ”,显著度,拒绝域为 = /2 McNemar检验 学习器A和B,留出法得列联表(contingency table) 假设“ 01 = 10 ”,显著度,拒绝域为 2 = ( 01 10 1) 2 01 + 10 2,多个数据集和多个学习器,Friedman检验 由数据集 1 , 对算法 A (=1,)测试结果排序得算法平均序值 假设“各算法性能相同”, ,显著度,拒绝域为 = (1) 2 1 2 1, 1 1 (/2),其中 2 = 12 +1 ( =1 2 (+1) 2 4 ) Nemenyi后续检验 若假设被拒绝,计算平均序值差别的临界值域= (+1) 6 假设“两个算法性能相同”,显著度,拒绝域为 ,偏差与方差,泛化误差可分解为偏差、方差和噪声之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论