第三部分统计学习基础课件_第1页
第三部分统计学习基础课件_第2页
第三部分统计学习基础课件_第3页
第三部分统计学习基础课件_第4页
第三部分统计学习基础课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三部分:统计学习基础有监督学习概述ESL Chp2回归分析ESL Chp3Wasserman Chp13模型评估与选择ESL Chp7/8ESL Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring”,范明,柴玉梅,昝红英译统计学习基础数据挖掘、推理与预测, 电子工业出版社,20191例:一个回归例子例:然后对每个数据加上高斯噪声,目标:通过最小化残差的平方和(RSS)拟合 f2例:一个回归例子(续)1阶多项式拟合3阶多项式拟合拟合得到的曲线样本数据点3例:一个回归例

2、子(续)10阶多项式拟合训练正确率和测试误差4一些术语有监督学习:给定包含输入特征 和对应响应 的训练样本,学习Y与X之间的关系对新的输入x,预测其响应y如果输出值Y的类型是连续值:回归根据公司的业绩和经济学数据,预测今后6个月的股票价格根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量如果输出值Y为离散值:分类根据数字图像,识别手写的邮政编码数据根据邮件中单词和字符的比例,识别email是否为垃圾邮件5目标根据训练数据,正确预测未见过的测试样本理解哪些输入影响输出怎样评价预测的质量6哲学思想理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术先理解比较简单的方法,以便掌握更复

3、杂的技术正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 简单的方法通常和那些很华丽时髦的方法工作得一样好!7一个例子IR2上从未知分布产生的200点,其中类别G=绿,红各100个点 。 我们能建立一个规则,预测将来的点的颜色的规则吗?8比较两种最简单的预测方法线性回归k近邻法(k - nearest neighbors, knn)9线性回归输入p维向量,扩展成p+1维:向量均为列向量类别G=绿时,Y=0;否则Y=1。Y用X的线性函数来建模最简单、也是最常用的模型10线性回归利用最小二乘法,通过最小化残差的平方和(RSS)得到如果 是非奇异的,则唯一解为则学

4、习得到 f 的估计为11线性回归对将来的点 的预测为在训练集上错误率为14%比随机猜测强的多但还是有很多错误决策边界 是线性的采用更灵活的模型能得到更好的结果?12knn观察其邻居,采取投票的方式其中 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻)如果在观测x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票1315-近邻分类:训练集上的错误率为12%14过拟合knn比线性回归表现稍好但我们应警惕过拟合(overfitting)问题在训练集上模型工作得很好(有时甚至100%正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情

5、况(另外的测试集)工作欠佳1nn?151-近邻分类。没有样本被误分,判决边界更加不规则16knn中k的选择?在测试集上,哪个模型表现最佳?k的选择:偏差方差折中较小的k:预测更灵活,但太灵活可能会导致过拟合,从而估计方差更大较大的k:预测更稳定,但可能不够灵活,不灵活通常与偏差/不准确有关方法预测误差训练集测试集线性回归0.140.185Knn(15)0.120.175Knn(1)0.00.18517在前面200个点上训练,在10,000个数据上测试的结果当k较小时,训练误差较小,但测试误差一般较大当k较大时,训练误差较大,但测试误差一般较小18统计决策理论令 表示一个实值的随机输入向量, 表

6、示实值的随机输出变量损失函数:对回归问题,常用平方误差损失风险函数(损失函数的期望):对每个输入x,目标是使风险函数最小,得到:为条件期望,亦称回归函数。19统计决策理论对分类问题,常用损失函数为0-1损失函数风险函数为对每个输入x,使风险函数最小结果为最大后验估计(MAP),亦称贝叶斯分类器20贝叶斯最优分类器的结果21贝叶斯分类器为什么不用贝叶斯分类器 ? 因为通常我们不知道在上例中我们是已知数据产生的过程每个类的概率密度为10个高斯的均匀混合对类别绿,k=1;对类别红,k=2对类别绿,10个均值从正态分布产生:对类别红,10个均值从正态分布产生:方差22贝叶斯分类器knn是贝叶斯分类器的

7、直观实现不知道 ,在x附近的小邻域类别为g的数目用频数近似概率在点上取条件放宽为在目标点的邻域内取条件如果取 则贝叶斯分类器与回归函数之间的关系为:23knn vs. 线性回归当 且 时,knn的估计即该估计是一致的。但通常没有那么多样本线性回归假设 的结构是线性的: 并最小化训练样本上的平均损失:随着样本数目的增多, 收敛于但模型受到线性假设的限制24knn vs. 线性回归通过用样本均值来逼近数学期望,knn和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同:线性回归:假定 可以用一个全局线性函数很好近似knn:假定 可以用一个局部常量函数很好近似后者看上去更合理:可以逼近更多的

8、函数类,但必须为这种灵活性付出高昂代价25knn很多现代的学习过程是knn的变种核平滑:每个样本的权重不是0/1,而是随样本点到目标点的距离平滑减至0著名的支持向量机(support vector machine, SVM)与核平滑有许多相同之处26维数灾难似乎有了合理大的训练数据集,使用knn平均总能逼近理论上的最佳条件期望我们能找到接近任意x的相当大的观测值邻域,并对它们取平均这样就不必考虑线性会回归了但在高维空间中,knn法将失败在目标点附近很难收集到k个邻居:维数灾难 (curse of dimensionality) 27维数灾难邻域不再是“局部的” :考虑输入在p维单位超立方体上的

9、均匀分布,选取目标点的超立方体的邻居,覆盖比例为r,则边长为:当维数p=10时,边长为为了得到数据的1%或10%的覆盖,必须覆盖输入变量定义域的63%或80%。这样的邻域不再是“局部的”最近邻居的空间趋近于很大,从而估计是有偏的而降低邻域的大小也无济于事,因为取平均值的观测值越少,拟合的方差会增大但并不表示局部方法(如knn)在高维空间中没有意义因为通常数据在高维空间中是有结构的,如成团分布,即数据的本质维数不高28维数灾难re29函数逼近考虑连续数据的回归问题:给定X,Y的最佳预测为回归函数:为了预测,我们需要知道 f ,但通常我们并不知道 f 有时科学知识(如物理化学定律)告诉我们f 的形

10、式如胡克定律指出:在弹性限度内,弹簧的的形变 f 跟引起形变的外力x,即其中 为弹簧的初始长度, 为物质的弹性系数,由材料的性质所决定 对给定的弹簧,我们不知道其弹性系数,但我们可以通过测量不同外力下的形变来估计弹性系数30函数逼近但测量会有误差 ,这样考虑统计模型的观点:其中 且为随机误差,与X独立当有足够多的数据时,最小二乘能得到精确预测,并且我们能正确(偏差小)、精确(方差小)地预测任意外力下的形变如果科学知识告诉我们应该应该选择非线性模型,如sigmoid模型,我们仍然可以用最小二乘法求解,只是计算可能稍复杂经验告诉我们,当二元正态分布的相关系数为0.5时,意味着线性关系仍能工作得很好

11、事实上,有时候人们既没有从理论上,也没有从经验上分析就直接采用线性模型31函数逼近更通用的做法是选择一个函数族,参数形式为 其中为参数集合可以用最小二乘法求解,也可以用更一般的极大似然法来求解可能是一个封闭的解析解也可能要通过数值计算的方法迭代计算得到32函数逼近但可能我们选定的函数族中的任何函数都不能很好表示 f如上述红绿点分类的例子中线性模型表现不够好,偏差太大或者是选择函数族太灵活如红绿点分类的例子中knn (k=1)时,估计不够好,因为估计利用的数据太少(只利用了k=1个点)方差太大问题:如何选择合适的函数族?增加结构约束33结构化的回归模型对任意函数f,考虑RSS准则任何通过 的函数

12、的RSS=0:有无穷多个解当测试数据与训练数据不同时,该函数可能是一个非常糟糕的预测只有当n足够大时,样本均值才能趋于条件期望为了得到对有限n有效的结果,需要将解限定在一个合理的较小函数集合:如参数模型通常限制施加的是复杂性约束:通常这意味着在输入空间上小邻域上的规则,即对所有的输入点x,在某种度量下,它们都足够靠近, 显示出某种特殊的结构,如近似常数、线性或低阶多项式。34结构化的回归模型约束的强度由邻域的大小决定:邻域越大,约束越强,并且解对约束的特定选择越敏感knn:局部常数拟合在无穷小的邻域中,局部常数拟合通常不再是约束线性回归:全局线性拟合在非常大的邻域中,局部线性拟合几乎是全局的线

13、性模型,并且限制很强局部线性回归:局部线性拟合在邻域中用线性拟合35偏差方差折中如在knn回归中: 模型为 ,其中则在点 处的期望误差(亦称测试误差/泛化误差)当k变化时,在偏差-方差之间有一个折中 偏差为k的增函数,而方差为k的减函数较小的k,模型较复杂,拟合精度高,偏差较小,但方差较大模型选择:拟合精度与模型复杂度之间的平衡36当k较小时,训练误差较小,但测试误差一般较大当k较大时,训练误差较大,但测试误差一般较小37模型选择目标:测试误差最小测试误差:用训练误差估计但训练误差不是测试误差的一个很好估计,因为训练误差不能很好地解释模型的复杂性过拟合区域欠拟合区域38本章小结有监督学习:给定

14、训练数据 ,求使风险最小的 f,即当损失为平方误差损失,结果为实际求解时,只能利用训练样本的信息,用样本均值近似期望但不能以训练误差作为标准,因为样本均值只能在大样本情况下才能逼近期望目标为期望风险/测试误差最小,但测试集不可得,所以应该增加限制,即函数限制在一个合理的较小集合不同的学习过程表现为对 施加不同的限制,这种限制通常为复杂性约束(在输入空间上小邻域上的规则)模型选择:模型复杂度和训练误差之间的折中/偏差方差折中39下节课内容下节课内容:线性回归模型Wasserman Chp13ESL Chp340第三部分实验数据:前列腺癌数据ESL一书中回归分析的主要数据用例实验内容:实现回归模型

15、中的两种线性回归:必选岭回归LASSO核回归局部线性回归并选择合适复杂度的模型AIC/BIC交叉验证bootstrap41前列腺癌数据考察第9列的前列腺癌特殊抗原水平(lpsa: log prostate specific antigen) 与前8列临床指标之间的相关性lcavol:log cancel volume (肿瘤体积)lweight:log prostate weight (前列腺重量)age:(年龄)lbph:log bengin prostatic hypcrplasia (良性前列腺增生量)svi:seminal vesicle invasion (精囊浸润)lcp:log of capsular penetration (包膜穿透)gleason:gleason score (Gleason积分)pgg45:percent of Gleason scores 4 or 5 ( Gleason4/5所占百分比 )共97个样本,第10列标记某个样本为训练样本还是测试样本67训练样本30个测试样本42维数灾难问题2:大多数点都靠近样本的边界考虑均匀分布在以原点为中心的p维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论