统计学习精要第五章_第1页
统计学习精要第五章_第2页
统计学习精要第五章_第3页
统计学习精要第五章_第4页
统计学习精要第五章_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章基展开与正则化

本章的核心思想

用附加的变量(X的变换)替换输入向量X,在新的导出的输入特征空间上使用线性模型。5.2分段多项式和样条第一个图定义三个基函数:第二个图添加三个基函数第三个图分段连续线性“knots”cubicspline三次样条Numberofparameters=(3regions)X(4paramsperregion) -(2knotsX3constraintsperknot) =6

Knotdiscontinuityessentiallyinvisibletothehumaneye三次分段多项式,具有连续的一阶和二阶导数一个具有纽结(j=1,2,···k)的M次样条是一个M-1次分段多项式,并具有高达M-2阶连续导函数。三次样条有M=4。事实上,图5.1中的分段常数函数是1次样条。而连续的分段线性函数是2次样条,截尾幂基集的一般形式是:5.2.1自然三次样条增加一些约束条件1)在中间每个区间都是一个三次多项式(分段多项式)2)在节点处一、二阶导数连续,3)在2个边界分段处函数的一阶导数为0,这样三次样条就变成自然三次样条。K个节点的自然三次样条,用K个基函数来表示(习题5.4):5.2.2例南非心脏病fit.glm<-glm(chd~.,data=heart,family=binomial())summary(fit.glm)step(fit.glm)逐步logistic回归之后,再用逐步回归进行变量选择R程序logistic回归是线性分类器的一种,我们现在需要挖掘该分类规则中非线性的一些成分

matrix<-as.matrix(heart[1:8])#matrixlibrary(splines)matrix.spline<-ns(matrix,df=32)heart.splne<-data.frame(cbind(matrix.spline,heart$chd))#head(heart.splne)fit.spline<-glm(V37~.,data=heart.splne)summary(fit.spline)#step(fit.spline)pred.spline<-predict(fit.spline)pred.spline.1<-rep(0,length)for(iin1:length){if(pred.spline[i]>0.5){pred.spline.1[i]<-1}}error.spline<-sum(abs(pred.spline.1-heart$chd))error.rate.spline<-error.spline/length5.4光滑样条如下准则的前一项度量平滑器与原数据的接近程度,而后一项确保平滑曲线不至于太曲则:smoothingparameter

=0:f变成了插值=infinity:变成了最小二乘拟合的直线Schoenberg(1964)证明了penalizedRSS有唯一解,并写出了其表达式,即自然三次样条,节点为所有不同的x值。5.4.1自由度和光滑矩阵最小二乘方拟合领域,线性算子是众所周知的。设是M个三个样条基函数的N*M矩阵,在N个训练点x上求值,具有纽结序列,而MN。则拟合样条值向量由下式给出:它们都是对称的、半正定矩阵HH=H幂等,而SS<=S,起到收缩的效果H的秩为M,S的秩为N。

给出投影空间的维数,它也是基函数的个数,因而是拟合涉及的参数的个数。根据类推,定义光滑样条的有效自由度

在图5.6中,对每条曲线指定df=12,并且通过解推出对应的具有如下特征分解其中为K对应的特征值特征向量不受变化的影响,因而被索引的整个光滑样条族(对于一个特定的序列x)具有相同的本征值。

从而光滑样条通过关于(整个)基分解y,并使用微分的收缩贡献来进行操作。

序列,按的递减排列,看来增加了复杂度。确实,它们具有递增次数多项式的零交叉行为。

前两个本征值总是1,并且它们对应于x上线性函数的二维本征空间(见习题5.11),永远不被收缩。

特征值是罚矩阵K的本征值的逆函数,被调节;控制递减到0的速率。可以使用基向量对光滑样条重新参数化

,对于投影光滑,所有本征值为1,每个对应投影子空间的一个维。图5.8显示了一个光滑样条矩阵,行按x排序。这种表示的带状特点暗示光滑样条是一种局部拟合方法,像第6章的局部加权回归过程。那其中的右图详细显示了S的选定行,称作等价核。随,并且即N维恒等矩阵。随并且即X上线性回归的帽矩阵。5.5光滑参数的自动选择回归样条的光滑参数包括样条的次数、纽结个数和位置。对于光滑样条,我们只有罚参数需要选择,因为纽结在所有训练X上,并且在实践中总是使用三次样条。5.5.1固定自由度由并通过固定df来确定S-PLUS(R)中,使用

指定光滑量。实验多个不同的df值,并根据近似的F-检验,残差图或其他更主观的标准选择一个。

5.5.2偏倚-方差权衡图5.9显示,在下面的简单例子上使用光滑样条是选择df的影响:训练样本包含N=100个x和y对,独立地从该模型抽取。df=5:样条拟合不足,并且显然裁剪了高峰,填充了低谷。这导致在高曲率区域偏倚非常大。标准误差频带非常窄,因此,我们以很高的可靠性形成了一个真实函数的很大偏倚的估计!df=9:这里,拟合韩式是最接近真实函数,尽管还可以看到少量的偏倚。方差没有明显的增加。df=15:拟合函数有些摆动,但接近于真实函数。摆动也是造成标准误差带宽加宽的原因-曲线开始过于接近某些点。Leave-one-out(缺一)交叉验证

5.6无参逻辑斯蒂回归考虑具有单个量化输入变量

x:构造罚数对数似然准则:AgaincanshowthattheoptimalfisanaturalsplinewithknotsatthedatapointCanuseNewton-Raphsontodothefitting.Thin-PlateSplinesThediscussionuptothispointhasbeenone-dimensional.Thehigher-dimensionalanalogueofsmo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论