第八章 曲线拟合、回归与相关_第1页
第八章 曲线拟合、回归与相关_第2页
第八章 曲线拟合、回归与相关_第3页
第八章 曲线拟合、回归与相关_第4页
第八章 曲线拟合、回归与相关_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

曲线拟合、回归和相关曲线拟合实践中寻求两个(或多个)变量间存在的关系,拟合给定数据用以确定变量间的近似曲线方程,此过程叫曲线拟合。回归曲线拟合的主要目的之一是从一个变量(独立变量)估计另一个变量(相依变量),估计的过程常牵涉到回归。如果按某个方程的意义从x估计y,我们称该方程为y关于x的回归方程。对应的曲线称为y关于x的回归曲线。最小二乘法若在近似n个数据点的集合时,对一给定的曲线族的全部曲线,其中有一条曲线的性质:达最小值,则称该曲线为给定曲线族中的最佳拟合曲线。有这样性质的一条曲线称为在最小二乘意义上对数据的拟合,该曲线称为最小二乘回归曲线最小二乘直线数据点集(x1,y1),…,(xn,yn)最小二乘直线方程y=a+bx将所有点代入直线方程后相加,我们得到

y=an+bx(或)以及

xy=ax+bx2这两个方程称为最小二乘的正规方程。由上面的方程组我们可以达到a,b分别为:我们还可以得到:从上式我们可以看到最小二乘直线通过点,此点称为此批数据的重心。显然斜率b与坐标原点无关,所以我们可以通过适当的坐标变换来减少求最小二乘直线的工作量。用样本方差和协方差表示的最小二乘直线x和y的样本方差和协方差给定为用这些项,y关于x或x关于y的最小二乘回归直线分别写成因为相关系数所以我们可以得到事实上,以上就是x,y的标准化样本值。我们可以看到仅当r=1时,上面两式才是表示同一直线,而且全部样本点都处与这条直线上,因此存在完全线性的相关和回归。最小二乘抛物线从最小二乘直线推广到最小二乘抛物线:y=a+bx+cx2其中a,b,c由下列正规方程确定:

y=na+bx+cx2

xy=ax+bx2+cx3

x2y=ax2+bx3+cx4多元回归上面的概念也可以推广到更多变量。例如z=a+bx+cy那么确定a,b,c的方程组为

z=na+bx+cy

xz=ax+bx2+cxy

yz=ay+bxy+cy2估计的标准误差Y关于x回归曲线离散程度的一个度量这个量称为y关于x的估计的标准误差。由于,我们可以看到最小二乘曲线在全部可能的回归曲线中有最小的估计的标准误差。在最小二乘直线中对最小二乘直线也能用方差和相关系数表示正如存在一个总体方差的无偏估计一样,有一个估计的理论标准误差的平方的无偏估计,有线性相关系数为了考察相关系数的统计意义

我们也能显示式子的左边为总变差,右边的第一项为不可解释的变差(是随机的或不可预见的方式引起的),第二项为可解释变差(可以由最小二乘回归线得到解释),所以我们可以得到所以,相关系数可解释称总变差中可用最小二乘回归直线解释的部分。换句话说,r度量了最小二乘回归直线拟合样本数据是如何地好。如果r2=1,我们说有纯线性相关。如果r=0,则总变差完全不可解释。广义相关系数广义相关系数定义:我们使用此定义可获得非线性相关系数。由于相关系数仅是度量一个给定的回归曲线(曲面)是否较好地拟合了样本数据。所以,当样本是非线性的,如果我们得到线性相关系数很小,这并不表明仅有一点相关性,而是仅有一点线性相关。回归的概率解释从同一总体抽取不同的样本作拟合,我们会得到不同的回归曲线。给定两个随机变量X和Y的联合密度函数和概率函数。如果使E{[Y-g(X)]2}=最小值的y=g(x)曲线称为Y关于X的最小二乘回归曲线有如下定理:定理一:y=g(x)=E(Y|X=x)满足E{[Y-g(X)]2}=最小值,所以它是Y关于X的最小二乘曲线。定理二:如果X和Y是具有二元正态分布的随机变量,那么Y关于X的最小二乘回归曲线是一条回归直线,为前面对样本的最小二乘回归的叙述容易推广到总体上。例如,总体情况下的估计的标准误差用方差和相关系数项给定为相关的概率解释总体相关系数提供了给定的总体回归曲线是否较好地拟合了总体数据地一种度量。前面关于样本间相关的各种叙述均可以很好地用到总体上。回归的抽样理论样本回归方程y=a+bx,而总体的回归方程y=+x。下面是与正态分布有关的一些检验:1假设=c的检验为了检验假设:回归系数等于某一特定值c,使用统计量它具有n-2自由度的t分布。此结论也可用于从样本值求总体回归系数的置信区间2预报值的假设检验设y0是x=x0时y的预报值,它是从样本回归方程得到的估计,即y0=a+bx0。设yp记对总体而言对应x=x0的y的预报值,那么统计量有n-2个自由度的t分布。由此能求得预报得总体值得置信限2预报的平均值的假设检验设y0是x=x0时y的预报值,它是从样本回归方程得到的估计,即y0=a+bx0。设记对总体而言对应x=x0的y的预报平均值,那么统计量有n-2个自由度的t分布。由此能求得预报的平均总体值的置信限相关的抽样理论我们经常要从样本的相关系数r估计总体的相关系数,或者检验有关的假设。为此我们必须知道r的抽样分布。在=0的情况,这个对称是对称的,且有一个具有t分布的统计量可以利用。对0,这个分布是偏斜的,这种情况,Fisher做出的变换构造了一个统计量,它近似正态分布。下面的检验概括了这一构造。1假设=0的检验使用下列事实:统计量有n-2个自由度的t分布。2假设=00的检验使用下列事实:统计量有近似正态分布,具有一下均值和标准差这一事实也能用于求相关系数的置信限。3相关系数间的差的显著性从大小分别为n1和n2的样本得到两个相关系数r1和r2,确定它们间是否有显著差异,利用2中的统计量对应r1和r2计算出Z1和Z2,然后使用下列事实:检验统计量是近似正态分布。相关和相依当两个随机变量X和Y有非零的相关系数时,我们知道它们在概率意义上是相依的(也就是联合分布不能折成边缘分布的乘积),进而当0时,能使定理二中的那样方程预报对应X值的Y值。上述意义上的“相关”和“相依”并非必须

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论