残差分析--数据分析_第1页
残差分析--数据分析_第2页
残差分析--数据分析_第3页
残差分析--数据分析_第4页
残差分析--数据分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.3 残差分析残差分析 前面讨论的是线性回归模型的参数估计和前面讨论的是线性回归模型的参数估计和有关的统计推断,这些讨论都是在对模型作了一有关的统计推断,这些讨论都是在对模型作了一定的假设进行的,其中最重要的是回归关系的线定的假设进行的,其中最重要的是回归关系的线性假设,误差项的独立同正态分布假设。当给定性假设,误差项的独立同正态分布假设。当给定了一批数据后,如何考察这些数据满足假设是回了一批数据后,如何考察这些数据满足假设是回归分析的一个重要环节。归分析的一个重要环节。 这些假设涉及到误差项,而误差是不可测这些假设涉及到误差项,而误差是不可测的,我们能够使用的是其估计量残差。的,我们能够使

2、用的是其估计量残差。2.3.1 2.3.1 误差项的正态性检验误差项的正态性检验一、学生化残差一、学生化残差 从误差的估计值(残差)出发分析关于误差项从误差的估计值(残差)出发分析关于误差项假定的合理性以及线性回归关系的假定的可行性称假定的合理性以及线性回归关系的假定的可行性称为残差分析。为残差分析。假设误差向量假设误差向量), 0(2IN则残差向量则残差向量)(, 0(2HINTTXXXXH1)(其中其中H H是是n n阶对称幂等矩阵阶对称幂等矩阵故故nihNiii, 2 , 1),1 (, 0(其中其中iTTiiixXXxh1)( 是是H H主对角线的第主对角线的第i i个元素,称为个元素

3、,称为杠杆量。杠杆量。 由于残差的方差和杠杆量有关,故一般情况由于残差的方差和杠杆量有关,故一般情况下,残差的方差不相等,这不利于残差的应用,下,残差的方差不相等,这不利于残差的应用,因此我们将残差标准化。因此我们将残差标准化。nihMSEriiii, 2 , 1,)1 ( 称为学生化残差,当称为学生化残差,当n n较大时,可认为其服从较大时,可认为其服从标准正态分布。这是检验误差项独立同正态分布标准正态分布。这是检验误差项独立同正态分布的基础。的基础。二、残差正态性的频率检验二、残差正态性的频率检验 残差正态性的频率检验是一种很直观的检验残差正态性的频率检验是一种很直观的检验方法,其基本思想

4、是学生化残差落入一些范围的方法,其基本思想是学生化残差落入一些范围的频率与标准正态分布在相应范围内的概率做比较,频率与标准正态分布在相应范围内的概率做比较,若二者相差较大,则认为残差(从而模型误差)若二者相差较大,则认为残差(从而模型误差)不服从正态分布。不服从正态分布。 在实际应用中,一般取几个具有代表性的区间在实际应用中,一般取几个具有代表性的区间进行比较。例如(进行比较。例如(-1-1,1 1)()(1.51.5,1.51.5)()(2 2,2 2) 服从标准正态分布的随机变量取值在(服从标准正态分布的随机变量取值在(-1-1,1 1)内的概率为内的概率为0.680.68;在;在(-1.

5、5,1.5)(-1.5,1.5)内的概率为内的概率为0.870.87;在(在(-2-2,2 2)内为)内为0.950.95,因此若模型误差项独立同,因此若模型误差项独立同正态分布,则当正态分布,则当n n较大时,学生化残差中应大约有较大时,学生化残差中应大约有68%68%的点落在在(的点落在在(-1-1,1 1)内;大约有)内;大约有87%87%在在(-(-1.5,1.5)1.5,1.5)内,大约内,大约95%95%在(在(-2-2,2 2)内。)内。 若在某个区间内差异较大,则有理由怀疑误差若在某个区间内差异较大,则有理由怀疑误差独立同正态分布的假设的合理性。独立同正态分布的假设的合理性。三

6、、残差的正态三、残差的正态qqqq图检验图检验 (1 1)学生化残差正态)学生化残差正态qqqq图做法图做法 则所得的散点图即为学生化残差的正态则所得的散点图即为学生化残差的正态qqqq图,图,利用正态利用正态qqqq图可以直观检验误差正态性假设的合图可以直观检验误差正态性假设的合理性理性)()2()1(,1nrrr序统计量:)写出学生化残差的次)25. 0375. 0(, 2 , 121)(niqnii计算)对每个)3)()(iirq ,)在坐标系中描出点(2 2)相关系数检验。)相关系数检验。 除了上述直观检验外,我们还可以构造两者除了上述直观检验外,我们还可以构造两者的相关系数来度量二者

7、之间线性关系的强弱。其的相关系数来度量二者之间线性关系的强弱。其相关系数估计为相关系数估计为niniiiniiiqqrrqqrr11)()(1)()()()()(一条直线上。,则散点图上点大致在接近于若1 通过考察不同类型残差图可以对误差项分布的通过考察不同类型残差图可以对误差项分布的正态性,等方差性以及回归关系的线性性等假定的正态性,等方差性以及回归关系的线性性等假定的合理性作出直观检测,还可以对回归方程是否有必合理性作出直观检测,还可以对回归方程是否有必要引进自变量的高次项、交叉项等提供参考。要引进自变量的高次项、交叉项等提供参考。2.3.2 2.3.2 残差图的分析残差图的分析 残差图是

8、以残差为纵坐标,以其他有关量为横残差图是以残差为纵坐标,以其他有关量为横坐标的散点图。坐标的散点图。 (1 1)以因变量)以因变量Y Y的拟合值为横坐标的散点图。的拟合值为横坐标的散点图。 若线性回归关系正确且误差服从正态分布,则若线性回归关系正确且误差服从正态分布,则因变量的拟合值与残差向量相互独立。这时残差图因变量的拟合值与残差向量相互独立。这时残差图中的点应大致在一个水平的带状区域内,没有任何中的点应大致在一个水平的带状区域内,没有任何明显地趋势,如下图:明显地趋势,如下图: (2 2)以自变量观测值为横坐标的散点图。)以自变量观测值为横坐标的散点图。 (3 3)以观测时间或观测值序号横

9、坐标的散点)以观测时间或观测值序号横坐标的散点图。图。 还可以用以下坐标做残差图,两种残差图原理还可以用以下坐标做残差图,两种残差图原理与上一个相同与上一个相同 通过残差分析可以发现所给数据的某些特点和模型通过残差分析可以发现所给数据的某些特点和模型假定的一些不足之处,接下来的问题就是要采取相应的假定的一些不足之处,接下来的问题就是要采取相应的措施改进其不足,以建立更好的回归模型。措施改进其不足,以建立更好的回归模型。 一个常用的改进措施就是一个常用的改进措施就是Box-CoxBox-Cox变换,它通过变换,它通过对因变量对因变量Y Y做适当变换,使原数据尽可能满足线性回归做适当变换,使原数据

10、尽可能满足线性回归模型的条件。模型的条件。2.3.2 Box-Cox2.3.2 Box-Cox变换变换Box-CoxBox-Cox变换对因变量变换对因变量Y Y做如下变换:做如下变换:0,ln0,1)(YYY满足:,使得我们要确定)(Y), 0(,2)(ENXY 也就是说,我们通过因变量的变换,使得变换后也就是说,我们通过因变量的变换,使得变换后因变量与自变量有线性相关关系,且满足误差项的因变量与自变量有线性相关关系,且满足误差项的假设。假设。法确定:的取值我们通过以下方达到最小。,使选择)(1)()()()(),(SSEZXXXXEZZTTT0,)(ln0,/ ) 1(),(1111)()(

11、)(2)(1)(nniiinniiiiTnyyyyzzzzZ其中 回归方程的选取包括回归方程类型的选取和回归回归方程的选取包括回归方程类型的选取和回归方程类型确定后自变量的选取。我们主要讨论自变量方程类型确定后自变量的选取。我们主要讨论自变量的选取的选取 人们在建立线性回归模型时,会考虑用全部可能人们在建立线性回归模型时,会考虑用全部可能的自变量建立回归方程,这样做的问题有的自变量建立回归方程,这样做的问题有 :2.4 回归方程的选取回归方程的选取 (1 1)会将一些对因变量影响很小甚至根本无影响)会将一些对因变量影响很小甚至根本无影响的自变量也包含在回归方程中,从而使计算量增加,的自变量也包

12、含在回归方程中,从而使计算量增加,并会导致回归参数估计和因变量预测值的精度下降。并会导致回归参数估计和因变量预测值的精度下降。(2 2)自变量太多不利于应用回归方程对实际问题)自变量太多不利于应用回归方程对实际问题做出合理的解释,也会造成数据收集和模型应用做出合理的解释,也会造成数据收集和模型应用代价的不必要的增大代价的不必要的增大。 因此在实际应用中,从与因变量有线形关系的因此在实际应用中,从与因变量有线形关系的自变量集合中,选取一个最优的子集,以建立一个自变量集合中,选取一个最优的子集,以建立一个合理而又简单的回归方程十分重要。合理而又简单的回归方程十分重要。 一,穷举法一,穷举法 穷举法

13、就是从与因变量有线性关系的所有可能穷举法就是从与因变量有线性关系的所有可能自变量的所有子集所拟合的回归方程中,按照一定自变量的所有子集所拟合的回归方程中,按照一定的准则选取最优的一个或几个。的准则选取最优的一个或几个。下面是下面是sassas提供选择的几个穷举法的选取准则提供选择的几个穷举法的选取准则2( )1ppSSERpSST (1) (1) 复相关系数准则复相关系数准则P P是回归系数的个数是回归系数的个数2(1)1( )1 ()1ppaSSEnMSEnRpnpSSTSST (2) (2) 修正的复相关系数准则修正的复相关系数准则(2 )ppSSECnpMSE(3) Cp(3) Cp准则

14、准则二,逐步回归法二,逐步回归法 穷举法从理论上讲是选择回归方程最好的方法,穷举法从理论上讲是选择回归方程最好的方法,但是,穷举法所拟合的方程个数随自变量数目的增加但是,穷举法所拟合的方程个数随自变量数目的增加而成倍增加。其计算量非常大。而成倍增加。其计算量非常大。 逐步回归法的基本思想是依次拟合一系列回归方程,逐步回归法的基本思想是依次拟合一系列回归方程,后一个回归方程是在前一个的基础上增加或删除一个后一个回归方程是在前一个的基础上增加或删除一个自变量,其增加和删除的原则是用残差平方和的相对自变量,其增加和删除的原则是用残差平方和的相对减少或增加量来衡量。减少或增加量来衡量。 ( )( ,)

15、(|)( ,)( ,)(1)kkkkkSSE ASSE A XSSR XAFSSE A XMSE A Xnl 偏偏F F统计量:统计量: 若某个自变量对因变量影响显著若某个自变量对因变量影响显著, ,则其偏则其偏F F统计量统计量不应太小不应太小. .SasSas常用的检验准则常用的检验准则: :(1)(1)前向选择法前向选择法 从仅含常数项的回归模型开始从仅含常数项的回归模型开始, ,逐个加入自变量逐个加入自变量其准则是将反应各自变量加入时其准则是将反应各自变量加入时, ,描述残差平方和描述残差平方和减少量的偏减少量的偏F F统计量的统计量的p p值与给定的控制水平相比较值与给定的控制水平相比较. . 若所有不在模型中的自变量所对应的统计量若所有不在模型中的自变量所对应的统计量p p值值均大于给定控制水平均大于给定控制水平( (影响均不显著影响均不显著).).则选择结束则选择结束. .否则将具有最大偏否则将具有最大偏F F值的自变量引入模型值的自变量引入模型. .然后重复然后重复上述过程上述过程(2)(2)后向选择法后向选择法 首先拟合一个包含所有自变量的线性回归模型首先拟合一个包含所有自变量的线性回归模型, ,然后根据偏然后根据偏F F统计量的统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论