数据挖掘讲座 Classification:Model Overfittingand Classifier Evaluation_图文_第1页
数据挖掘讲座 Classification:Model Overfittingand Classifier Evaluation_图文_第2页
数据挖掘讲座 Classification:Model Overfittingand Classifier Evaluation_图文_第3页
数据挖掘讲座 Classification:Model Overfittingand Classifier Evaluation_图文_第4页
数据挖掘讲座 Classification:Model Overfittingand Classifier Evaluation_图文_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Comparing Performance of 2 Models: Independent Test Sets q To test if performance difference is statistically significant: d = e1 e2 - d N(dt,t where dt is the true difference - Since D1, D2 are independent, their variance adds up: = + + 2 2 2 2 t 1 2 1 2 2 e1(1 e1 e2(1 e2 = + n1 n2 - At (1- confid

2、ence level, d =d ±Z t /2 t 41 An Illustrative Example q Given: M1: n1 = 30, e1 = 0.15 M2: n2 = 5000, e2 = 0.25 d = |e2 e1| = 0.1 (2-sided test q 0.15(1 0.15 0.25(1 0.25 + = 0.0043 = 30 5000 d q At 95% confidence level, Z/2=1.96 d = 0.100 ± 1.96 × 0.0043 = 0.100 ± 0.128 t => In

3、terval contains 0 => difference may not be statistically significant 42 Comparing Performance of 2 Classifiers: Same Test Sets with CV q Each learning algorithm may produce k models: - L1 may produce M11 , M12, , M1k - L2 may produce M21 , M22, , M2k If models are generated on the same test sets D1,D2, , Dk (e.g., via cross-validation - For each set: compute dj = e1j e2j - dj has mean dt and variance t k 2 - Estimate: q = 2 t t (d j j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论