非参数统计模型_第1页
非参数统计模型_第2页
非参数统计模型_第3页
非参数统计模型_第4页
非参数统计模型_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——非参数统计模型非参数统计其次次作业——局部多项式回归与样条回归

习题一:

一、此题是研究加拿大工人收入状况,即年龄(age)和收入(income)的关系。

此次共调查了205个加拿大工人的年龄和收入,所有工人都是高中毕业。且此题设定因变量为log.income,协变量为age,运用统计方法来拟合log.income与age之间的函数关系。

二、模型的建立

1.估计方法的选取

拟合两个变量之间的函数关系,即因变量和协变量之间的关系,用回归估计的方法,回归估计包括参数回归估计和非参数回归估计。参数估计是先假定某种数学模型或已知总体的分布,例如总体听从正态分布,其中某些参数未知,如总体均值、方差等,然后利用样本去估计这些未知参数,常用的方法有极大似然估计,Bayes估计等,线性模型可以用最小二乘法估计。非参数估计是不假定具有某种特定的数学模型,或总体分布未知,直接利用样本去估计总体的数学模型,常用的方法有局部多项式回归方法和样条函数回归方法。

此题调查了205个加拿大工人的年龄和收入,但是加拿大工人年龄和收入的具体分布未知,即这两个变量所能建立的数学模型未知,而且由协变量和因变量所形成的散点图可以看出它不符合某种特定的已知模型,需要进一步研究,然后拟合它们之间的函数关系。因此此题选用非参数回归估计的方法,来拟合因变量和协变量之间的关系。

针对此问题分别采用非参数估计中的局部多项式回归和样条函数回归方法对log.income与age之间的函数关系进行估计。

2.局部多项式回归方法

局部多项式的思想是在某个点x附近,用一个多项式函数来迫近未知的光滑函数g(x)。选定局部邻域的大小h,对于任意给定某个点x0,在其小邻域内展开泰勒公式,用一个p阶多项式来局部迫近g(x),然后再用极大似然估计。

(1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:

注:以下所做的图中用X表示协变量年龄age,用Y表示因变量收入log.income

(2)用将X与Y排序的方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:

(3)用局部多项式回归方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:

(4)用cross-validation的方法选择最正确的smoothingparameter,图形如下:

由上图可以大约看出smoothingparameter的取值,使得函数CV.vec达到最小的h.vec取值是7,即最正确的smoothingparameter取值h=7。

(5)结果分析

对于最终用局部多项式回归方法拟合的收入(log.income)与年龄(age)之间函数关系图中,黑色线条表示的是将X与Y排序拟合的函数关系;红色线条

Locallinearestimate1表示的是用Epanechnikov核函数确定的smoothingparameter进行局部多项式回归得到的函数关系;蓝色线条表示用cross-validation方法确定的最正确smoothingparameter进行局部多项式回归得到的函数关系,显然蓝色线条对X与Y拟合的函数关系比较确凿。

3.样条函数回归方法

样条函数的思想是在区间[a,b]内等距离选取K个点作为节点,每两个相邻的节点区域内都是一个基函数,且每一个基函数都是分段函数,每一组基函数构成一个线性空间。在众多基函数选取中,B-样条基函数更稳定,应用更广泛。对于拟合的函数的光滑程度的控制,P-Spline函数方法更好。P-Spline函数方法用一些预先定义的节点来定义一组基函数,同时增加一个教训函数,来控制拟合函数的光滑程度。然后用一组B-样条基函数的线性组合来迫近f(x),最终解最优函数。

(1)加拿大工人的收入(log.income)与年龄(age)之间的散点图如下所示:

(2)用penalized-splines方法拟合的加拿大工人的收入(log.income)与年龄(age)之间函数关系如下图所示:

(3)用generalizedcross-validation的方法选择最正确的smoothingparameter,图形如下:

由上图可以大约看出smoothingparameter的取值,最正确的smoothingparameter取值h=0.035。

(4)结果分析

上图中红色线条表示的是用generalizedcross-validation方法选择的最正确smoothingparameter进行penalized-splines回归得到的X与Y的函数关

系,显然此回归结果与局部多项式回归中蓝色线条所代表的拟合函数相像,而且都充分凸显了散点图中xobs与yobs函数关系的双峰效果,拟合程度较好。

习题二

一、此题是对ethanol数据集进行研究,因变量为NOx,协变量为E,运用统计

方法来拟合E与NOx之间的函数关系。

二、模型的建立

1.估计方法的选取

拟合两个变量之间的函数关系,即因变量和协变量之间的关系,用回归估计的方法,回归估计包括参数回归估计和非参数回归估计。参数估计是先假定某种数学模型或已知总体的分布,例如总体听从正态分布,其中某些参数未知,如总体均值、方差等,然后利用样本去估计这些未知参数,常用的方法有极大似然估计,Bayes估计等,线性模型可以用最小二乘法估计。非参数估计是不假定具有某种特定的数学模型,或总体分布未知,直接利用样本去估计数学模型,常用的方法有局部多项式回归方法,和样条函数回归方法。

此题是针对ethanol数据集进行研究,但是ethanol数据集的具体分布未知,而且由协变量和因变量所形成的散点图可以看出它不符合某种特定的已知模型,需要进一步研究,然后拟合它们之间的函数关系。因此此题选用非参数回归估计的方法,来拟合因变量和协变量之间的关系。

针对此问题分别采用非参数估计中的局部多项式回归和样条函数回归方法对NOx与E之间的函数关系进行估计。

1.局部多项式回归方法

注:以下所绘的图中用X表示协变E,用Y表示因变量NOx。

(1)ethanol数据集中NOx与E之间的函数关系散点图如下所示:

(2)用将X与Y排序的方法拟合协变量E与因变量NOx之间函数关系如下图所示:

(3)用局部多项式回归方法拟合的协变量E与因变量NOx之间函数关系,如下图所示:

(4)用cross-validation的方法选择最正确的smoothingparameter,图形如下:

由上图可以大约看出smoothingparameter的取值,使得函数CV.vec达到最小的h.vec取值是0.035,即最正确的smoothingparameter取值h=0.035。

(5)结果分析

对于最终用局部多项式回归方法拟合的协变量E与因变量NOx之间函数关系图中,黑色线条表示的是将X与Y排序拟合的函数关系;红色线条Locallinearestimate1表示的是用Epanechnikov核函数确定的smoothingparameter进行局部多项式回归得到的函数关系;蓝色线条表示用cross-validation方法确定最正确的smoothingparameter进行局部多项式回归得到的函数关系,显然蓝色线条对X与Y拟合的函数关系比较确凿。

2.样条函数回归方法

注:以下所绘的图中用xobs表示协变E,用yobs表示因变量NOx。

(1)ethanol数据集中NOx与E之间的函数关系散点图如下所示:

(2)用penalized-splines方法拟合的ethanol数据集中NOx与E之间的函数关系如下图所示:

(3)用generalizedcross-validation的方法选择最正确的smoothingparameter,图形如下:

由上图可以大约看出smoothingparameter的取值,使得函数GCV达到最小的横坐标取值是-6,即最正确的smoothingparameter取值h=-6。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论