非参数回归的介绍_第1页
非参数回归的介绍_第2页
非参数回归的介绍_第3页
非参数回归的介绍_第4页
非参数回归的介绍_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数回归的介绍第一页,共六十一页,编辑于2023年,星期五参数回归与非参数回归的优缺点比较:参数回归:非参数回归:优点:(1).模型形式简单明确,仅由一些参数表达(2).在经济中,模型的参数具有一般都具有明确的经济含义(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验(4).模型能够进行外推运算(5).模型可以用于小样本的统计推断缺点:(1).回归函数的形式预先假定(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足

正态假设,解释变量间独立,解释变量与随机误差不相关,等(3)需要对模型的参数进行严格的检验推断,步骤较多(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果

不好,需要修正或者甚至更换模型优点;(1)回归函数形式自由,受约束少,对数据的分布一般不做任何要求(2)适应能力强,稳健性高,回归模型完全由数据驱动(3)模型的精度高;(4)对于非线性、非齐次问题,有非常好的效果缺点:(1)不能进行外推运算,(2)估计的收敛速度慢(3)一般只有在大样本的情况下才能得到很好的效果,

而小样本的效果较差(4)高维诅咒,光滑参数的选取一般较复杂2第二页,共六十一页,编辑于2023年,星期五非参数回归方法样条光滑正交回归核回归:N-W估计、P-C估计、G-M估计局部多项式回归:线性、多项式光滑样条:光滑样条、B样条近邻回归:k-NN、k近邻核、对称近邻正交级数光滑稳健回归:LOWESS、L光滑、R光滑、M光滑局部回归Fourier级数光滑wavelet光滑处理高维的非参数方法:多元局部回归、薄片样条、

可加模型、投影寻踪、

回归树、张量积,等3第三页,共六十一页,编辑于2023年,星期五核函数K:函数K(.)满足:常见的核函数:Boxcar核:Gaussian核:Epanechnikov核:tricube核:为示性函数4第四页,共六十一页,编辑于2023年,星期五回归模型:(1)模型为随机设计模型,样本观测(Xi,Yi)~iid(2)模型为固定设计模型Xi为R中n个试验点列,i=1,2,…,nYi为固定Xi的n次独立观测,i=1,2,…,nm(x)为为一未知函数,用一些方法来拟合定义:线性光滑器(linearsmoother)5第五页,共六十一页,编辑于2023年,星期五光滑参数的选取风险(均方误差)

(meansquarederror,MSE)理想的情况是希望选择合适的光滑参数h,使得通过样本数据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险最小),这里真实回归函数m(x)一般是未知的。

可能会想到用平均残差平方和来估计风险R(h)但是这并不是一个好的估计,会导致过拟合(欠光滑),原因在于两次利用了数据,一次估计函数,一次估计风险。我们选择的函数估计就是使得残差平方和达到最小,因此它倾向于低估了风险。是

的估计,h是光滑参数,称为带宽或窗宽6第六页,共六十一页,编辑于2023年,星期五光滑参数的选取缺一交叉验证方法(leave-one-outcrossvalidation,CV)这里是略去第i个数据点后得到的函数估计交叉验证的直观意义:因此:7第七页,共六十一页,编辑于2023年,星期五光滑参数的选取定理:若那么缺一交叉验证得分

能够写成:这里是光滑矩阵L的第i个对角线元素广义交叉验证(generalizedcross-validation,GCV)其中:为有效自由度8第八页,共六十一页,编辑于2023年,星期五光滑参数的选取其他标准(1)直接插入法(DirectPlug-In,DPI)相关文献可以参考:

WolfgangHärdle(1994),AppliedNonparametricRegression,BerlinJeffreyD.Hart(1997),NonparametricSmoothingandLack-of-FitTests,SpringerSeriesinStatistics李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非参数估计技术,科学出版社,北京

吴喜之译(2008),现代非参数统计,科学出版社,北京

(2)罚函数法(penalizingfunction)(3)单边交叉验证(OneSidedCrossValidation,OSCV)(4)拇指规则(RuleOfThumb)9第九页,共六十一页,编辑于2023年,星期五1.核回归(核光滑)N-W估计是一种简单的加权平均估计,可以写成线性光滑器:局部回归由Nadaraya(1964)和Watson(1964)分别提出,(1)N-W估计形式:其中:,为核函数,为带宽或窗宽10第十页,共六十一页,编辑于2023年,星期五局部回归(2)P-C-估计由Priestley

andChao(1972)提出,形式:写成线性光滑器的形式:在随机设计模型下,P-C估计可由x的密度估计:推导出来,相关文献可参考härdle(1994)和李竹渝等(2007)11第十一页,共六十一页,编辑于2023年,星期五局部回归(3)G-M估计由GasserandMüller(1979)提出,形式如下:其中写成线性光滑器的形式:G-M估计是卷积形式的估计,P-C估计可看成G-M估计的近似:当K连续12第十二页,共六十一页,编辑于2023年,星期五局部回归核估计存在边界效应,边界点的估计偏差较大,以N-W估计为例,如下图13第十三页,共六十一页,编辑于2023年,星期五局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取14第十四页,共六十一页,编辑于2023年,星期五局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取15第十五页,共六十一页,编辑于2023年,星期五局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取可以看到:拟合曲线的光滑度受到光滑参数h变化的影响16第十六页,共六十一页,编辑于2023年,星期五局部回归核估计的渐近方差核渐近偏差核估计渐近偏差渐近方差N-W估计

G-M估计

其中,h为光滑参数,f为X的密度函数,且17第十七页,共六十一页,编辑于2023年,星期五局部回归

2.局部多项式光滑多项式的回归模型其中可由最小二乘法估计,即局部多项式回归:对m(x)在u处进行p阶泰勒展开,略去p阶高阶无穷小量,得到m(x)在u处的一个p阶多项式近似,即此时,x应该靠近u,且18第十八页,共六十一页,编辑于2023年,星期五局部回归通过最小二乘来估计系数注意:是在x的一个邻域内进行多项式估计,因此,最小二乘应该与x的邻域有关局部加权平方和:使上述问题最小化,可以得到系数的局部多项式的最小二乘估计可以很容易得到,取p=0时为局部常数估计,即N-W核估计取p=1,为局部线性估计19第十九页,共六十一页,编辑于2023年,星期五局部回归写成矩阵形式:使上式最小化,可以得到系数的估计其中20第二十页,共六十一页,编辑于2023年,星期五局部回归得到加权最小二乘估计当p=1时(局部线性估计)的渐近偏差和渐近方差其中可以看到局部线性回归的渐近方差和N-W估计相同,而渐近偏差却比N-W回归小,说明局部线性多项式可以减少边界效应,局部线性估计由于N-W估计21第二十一页,共六十一页,编辑于2023年,星期五局部回归局部多项式光滑可以很好的减少边界效应22第二十二页,共六十一页,编辑于2023年,星期五局部回归检验函数(Doppler函数)23第二十三页,共六十一页,编辑于2023年,星期五局部回归使用GCV选取最优带宽h=0.017,权函数为tricube核函数24第二十四页,共六十一页,编辑于2023年,星期五局部回归使用GCV选取最优带宽h=0.017,权函数为tricube核函数25第二十五页,共六十一页,编辑于2023年,星期五局部回归3.近邻光滑(1)k-NN回归(k-nearestneighborregression)其中={i:xi是离x最近的k个观测值之一}K-NN估计的渐近偏差和渐近方差:对于随机设计模型,近邻估计写成线性光滑器的形式权函数:26第二十六页,共六十一页,编辑于2023年,星期五局部回归(1)k-NN回归(k-nearestneighborregression)27第二十七页,共六十一页,编辑于2023年,星期五局部回归(1)k-NN回归(k-nearestneighborregression)28第二十八页,共六十一页,编辑于2023年,星期五局部回归(2)k-近邻核回归K近邻核估计的权重其中R为xi中离x最近的第k个距离,K为核函数渐近偏差和渐近方差:29第二十九页,共六十一页,编辑于2023年,星期五局部回归(2)k-近邻核回归30第三十页,共六十一页,编辑于2023年,星期五局部回归(2)k-近邻核回归31第三十一页,共六十一页,编辑于2023年,星期五局部回归(3)对称化近邻回归(SymmetrizedNearestNeighborEstimate)Yang(1981),Stute(1984)研究了这种估计其中权重写成线性光滑器这里的k(h)相当于nh,可以看出实质上相当于nh个Yi值加权平均32第三十二页,共六十一页,编辑于2023年,星期五局部回归4.稳健光滑(1)局部加权描点光滑(LocallyWeightedScatterplotSmoothing,LOWESS)Step1:在x的邻域内,用一个多项式进行拟合,求出系数{βj}其中Wki(x)为k-NN权Step2:根据残差计算尺度估计,定义稳健权重Step3:用新的权重

重复Step1、Step2,直到第N次结束33第三十三页,共六十一页,编辑于2023年,星期五(1)局部加权描点光滑(LOWESS)局部回归34第三十四页,共六十一页,编辑于2023年,星期五(1)局部加权描点光滑(LOWESS)局部回归35第三十五页,共六十一页,编辑于2023年,星期五局部回归(2)L-

光滑条件L函数其中

为条件分位数函数特别:a)当

时b)当

时,为中位数光滑其中={i:xi是离x最近的k个观测值之一}36第三十六页,共六十一页,编辑于2023年,星期五局部回归(2)L-

光滑对于条件L函数其中用

来估计F(y|x)得到L-估计37第三十七页,共六十一页,编辑于2023年,星期五局部回归(3)M-

光滑(局部)最小二乘方法得到的光滑估计是通过考虑损失函数为二次函数得到的,现在考虑损失函数c较大时,为普通的二次损失函数,c较小(≈1倍或2倍观测误差的标准差)可以获得更多的稳健性38第三十八页,共六十一页,编辑于2023年,星期五局部回归M-样条(Cox,1983)核M-光滑(kernelM-smoother)(Hubber,1979;Silverman,1985)39第三十九页,共六十一页,编辑于2023年,星期五局部回归(3)R-光滑定义得分函数其中J是定义在(0,1)上的非减函数,满足J(1-s)=J(s)用来估计F(y|x),则

应该粗略地接近0对于

,则ChengandCheng(1986)提出的R-估计:40第四十页,共六十一页,编辑于2023年,星期五样条回归设m(x)在[a,b]连续可微,且二阶导数平方可积考查形式其中为粗糙惩罚1.光滑样条41第四十一页,共六十一页,编辑于2023年,星期五样条回归定义一组样条基函数:注意,这里样条基函数可以是其他样条基

如:B样条基(吴喜之译(2008))样条42第四十二页,共六十一页,编辑于2023年,星期五样条回归将前面的优化问题写成矩阵形式:其中

上述问题的最优解其中43第四十三页,共六十一页,编辑于2023年,星期五样条回归下面的图利用的是B样条基函数,44第四十四页,共六十一页,编辑于2023年,星期五样条回归下面的图利用的是B样条基函数,45第四十五页,共六十一页,编辑于2023年,星期五样条回归下面的图利用的是B样条基函数,46第四十六页,共六十一页,编辑于2023年,星期五正交光滑1.正交多项式回归回归函数其中是正交基函数,如Laguerre,Legendre正交多项式正交基满足系数系数估计如47第四十七页,共六十一页,编辑于2023年,星期五正交光滑回归函数估计写成线性光滑器:48第四十八页,共六十一页,编辑于2023年,星期五Legendre正交多项式正交光滑49第四十九页,共六十一页,编辑于2023年,星期五正交光滑2.Fourier级数光滑在实际中,将无穷用有限值r替换,r称为截断点,相当于光滑参数是正交cosine基空间系数系数的估计其中50第五十页,共六十一页,编辑于2023年,星期五正交光滑m(x)的估计将代入,得其中可以看到上面的估计与G-M估计有相同的表达形式,都为卷积形式,只是核函数不相同51第五十一页,共六十一页,编辑于2023年,星期五正交光滑另外一种的Fourier估计一般要求:同样可以写成卷积形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论