版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章基展开与正则化
本章的核心思想
用附加的变量(X的变换)替换输入向量X,在新的导出的输入特征空间上使用线性模型。5.2分段多项式和样条第一个图定义三个基函数:第二个图添加三个基函数第三个图分段连续线性“knots”cubicspline三次样条Numberofparameters=(3regions)X(4paramsperregion) -(2knotsX3constraintsperknot) =6
Knotdiscontinuityessentiallyinvisibletothehumaneye三次分段多项式,具有连续的一阶和二阶导数一个具有纽结(j=1,2,···k)的M次样条是一个M-1次分段多项式,并具有高达M-2阶连续导函数。三次样条有M=4。事实上,图5.1中的分段常数函数是1次样条。而连续的分段线性函数是2次样条,截尾幂基集的一般形式是:5.2.1自然三次样条增加一些约束条件1)在中间每个区间都是一个三次多项式(分段多项式)2)在节点处一、二阶导数连续,3)在2个边界分段处函数的一阶导数为0,这样三次样条就变成自然三次样条。K个节点的自然三次样条,用K个基函数来表示(习题5.4):5.2.2例南非心脏病fit.glm<-glm(chd~.,data=heart,family=binomial())summary(fit.glm)step(fit.glm)逐步logistic回归之后,再用逐步回归进行变量选择R程序logistic回归是线性分类器的一种,我们现在需要挖掘该分类规则中非线性的一些成分
matrix<-as.matrix(heart[1:8])#matrixlibrary(splines)matrix.spline<-ns(matrix,df=32)heart.splne<-data.frame(cbind(matrix.spline,heart$chd))#head(heart.splne)fit.spline<-glm(V37~.,data=heart.splne)summary(fit.spline)#step(fit.spline)pred.spline<-predict(fit.spline)pred.spline.1<-rep(0,length)for(iin1:length){if(pred.spline[i]>0.5){pred.spline.1[i]<-1}}error.spline<-sum(abs(pred.spline.1-heart$chd))error.rate.spline<-error.spline/length5.4光滑样条如下准则的前一项度量平滑器与原数据的接近程度,而后一项确保平滑曲线不至于太曲则:smoothingparameter
=0:f变成了插值=infinity:变成了最小二乘拟合的直线Schoenberg(1964)证明了penalizedRSS有唯一解,并写出了其表达式,即自然三次样条,节点为所有不同的x值。5.4.1自由度和光滑矩阵最小二乘方拟合领域,线性算子是众所周知的。设是M个三个样条基函数的N*M矩阵,在N个训练点x上求值,具有纽结序列,而MN。则拟合样条值向量由下式给出:它们都是对称的、半正定矩阵HH=H幂等,而SS<=S,起到收缩的效果H的秩为M,S的秩为N。
给出投影空间的维数,它也是基函数的个数,因而是拟合涉及的参数的个数。根据类推,定义光滑样条的有效自由度
在图5.6中,对每条曲线指定df=12,并且通过解推出对应的具有如下特征分解其中为K对应的特征值特征向量不受变化的影响,因而被索引的整个光滑样条族(对于一个特定的序列x)具有相同的本征值。
从而光滑样条通过关于(整个)基分解y,并使用微分的收缩贡献来进行操作。
序列,按的递减排列,看来增加了复杂度。确实,它们具有递增次数多项式的零交叉行为。
前两个本征值总是1,并且它们对应于x上线性函数的二维本征空间(见习题5.11),永远不被收缩。
特征值是罚矩阵K的本征值的逆函数,被调节;控制递减到0的速率。可以使用基向量对光滑样条重新参数化
,对于投影光滑,所有本征值为1,每个对应投影子空间的一个维。图5.8显示了一个光滑样条矩阵,行按x排序。这种表示的带状特点暗示光滑样条是一种局部拟合方法,像第6章的局部加权回归过程。那其中的右图详细显示了S的选定行,称作等价核。随,并且即N维恒等矩阵。随并且即X上线性回归的帽矩阵。5.5光滑参数的自动选择回归样条的光滑参数包括样条的次数、纽结个数和位置。对于光滑样条,我们只有罚参数需要选择,因为纽结在所有训练X上,并且在实践中总是使用三次样条。5.5.1固定自由度由并通过固定df来确定S-PLUS(R)中,使用
指定光滑量。实验多个不同的df值,并根据近似的F-检验,残差图或其他更主观的标准选择一个。
5.5.2偏倚-方差权衡图5.9显示,在下面的简单例子上使用光滑样条是选择df的影响:训练样本包含N=100个x和y对,独立地从该模型抽取。df=5:样条拟合不足,并且显然裁剪了高峰,填充了低谷。这导致在高曲率区域偏倚非常大。标准误差频带非常窄,因此,我们以很高的可靠性形成了一个真实函数的很大偏倚的估计!df=9:这里,拟合韩式是最接近真实函数,尽管还可以看到少量的偏倚。方差没有明显的增加。df=15:拟合函数有些摆动,但接近于真实函数。摆动也是造成标准误差带宽加宽的原因-曲线开始过于接近某些点。Leave-one-out(缺一)交叉验证
5.6无参逻辑斯蒂回归考虑具有单个量化输入变量
x:构造罚数对数似然准则:AgaincanshowthattheoptimalfisanaturalsplinewithknotsatthedatapointCanuseNewton-Raphsontodothefitting.Thin-PlateSplinesThediscussionuptothispointhasbeenone-dimensional.Thehigher-dimensionalanalogueofsmo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 棒球击球笼网市场发展现状调查及供需格局分析预测报告
- 蔬菜盘市场发展预测和趋势分析
- 2024年度农业种植技术转让合同:高效节能种植技术
- 2024年度环保设施建造及运营管理合同
- 2024年度物流服务合同:某物流公司为其提供物流服务的合同
- 2024年度地坪施工人员培训合同
- 2024年度深海探测设备安装施工合同
- 2024年度版权购买合同:摄影作品著作权购买及使用权
- 2024年度技术开发合同:智能手机操作系统定制
- 2024年度演艺经纪合同(艺人推广与代理)
- 光伏组件拆卸及转运方案(二)
- 建国集团财务制度汇总
- 安装工程预算照明配管配线
- 技术响应文件
- 任现职以来教学改革情况
- 工程施工管理协议书(共7页)
- 换铺长钢轨施工方案(工机段版)
- 解一元一次方程复习课PPT精品文档
- 毕业设计(论文)基于PLC自动门控制系统的设计
- 铸造用高纯生铁
- 译林版五上英语改一般疑问句、否定、特殊句
评论
0/150
提交评论