自变量选择与逐步回归

上传人：h*** IP属地：贵州上传时间：2020-10-20 格式：DOC 页数：6 大小：227KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有m个，由因变量y和m个自变量构成的回归模型称为全模型。如果从可供选择的m个变量中选出p个，由选出的p个自变量组成的回归模型称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑，第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况性质1，在与的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即（）性质2，选模型的预测是有偏的。性质3，选模型的参数估计有较小的方差。性质4，

2、选模型的预测残差有较小的方差。性质5，选模型的均方误差比全模型预测的方差更小。性质1和性质2表明，当全模型正确时，而舍去了m-p个自变量，用剩下的p个自变量去建立选模型，参数估计值是全模型相应参数的有偏估计，用其做预测，预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测残差的方差下降了，这说明尽管全模型正确，误用选模型是有弊也有利的。性质5说明，即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，丢掉这些变量之后，用选模型去预测，可以提高预测的精度。由此可见，

3、如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。2、选模型正确而误用全模型的情况全模型的预测值是有偏估计；选模型的预测方差小于全模型的预测方差；全模型的预测误差将更大。一个好的回归模型，并不是考虑的自变量越多越好。在建立回归模型时，选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后，所付出的代价是估计量产生了有偏性。然而，尽管估计是有偏的，但预测偏差的方差会下降。另外，如果保留下来的自变量有些对因变量无关紧要，那么，方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此，在建立实际问题的回归模型时，应尽可能剔除那些可有可无的自变量。三、所有子集回归1、所

4、有子集的数目设在一个实际问题的回归建模中，有m个可供选择的变量，由于每个自变量都有入选和不入选两种情况，这样y关于这些自变量的所有可能的回归方程就有-1个，这里-1是要求回归模型中至少包含一个自变量，即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内，那么所有可能的回归方程就有个。从另一个角度看，选模型包含的自变量数目p有从0到m共有m+1种不同的情况，而对选模型中恰包含p个自变量的情况，从全部m个自变量中选p个的方法共有线性组合个，因而所有选模型的数目为：。2、关于自变量选择的几个准则把选模型的残差平方和记为，当再增加一个新的自变量时，相应的残差平方和记为

5、。根据最小二乘估计的原理，增加自变量时残差平方和将减少，减少自变量时残差平方和将增加。因此有,它们的负决定系数分别为：,，由于SST是因变量的离差平方和，与自变量无关，因而有，即当自变量子集在扩大时，残差平方和随之减少，而复决定系数随之增大。因此，如果按残差平方和越小越好的原则来选择自变量子集，或者为提高复决定系数，不论什么变量只要多取就行，则毫无疑问选的变量越多越好。这样由于变量的多重共线性，给变量的回归系数估计值带来不稳定性，加上变量的测量误差积累，参数数目的增加，将使估计值的误差增大。因此，从数据与模型拟合优劣的直观考虑出发，认为残差平方和SSE最小的回归方程就是最好的，还曾用负相关系数

6、R来衡量回归拟合好坏都不能作为选择变量的准则。准则一：自由度调整复决定系数达到最大。当给模型增加自变量时，复决定系数也随之逐步增大，然而复决定系数的增大代价是残差自由度的减少，因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设为自由度调整后的复决定系数，其中，n为样本容量，p为自变量的个数。在实际问题的回归建模中，自由度调整复决定系数越大，所对应的回归方程越好。则所有回归子集中最大者对应的回归方程就是最优方程。从另外一个角度考虑回归的拟合效果，回归误差项的无偏估计为：,此无偏估计式中也加入了惩罚因子n-p-1，实际上就是用自由度n-p-1作平均的平均残差平方和。当

7、自变量个数从0开始增加时，SSE逐渐减小，作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时，先是开始下降然后稳定下来，当自变量个数增加到一定数量后，又开始增加。这是因为刚开始时，随着自变量个数增加，SSE能够快速减小，虽然作为除数的惩罚因子n-p-1也随之减小，但由于SSE减小的速度更快，因而是趋于减小的。当自变量数目增加到一定程度，应该说重要的自变量基本上都已经选上了，这时在增加自变量，SSE减少不多，以至于抵消不了除数n-p-1的减小，最终又导致了的增加。用平均残差平方和和调整的复决定系数作为自变量选元准则实际上是等价的。因为有，由于SST是与回归无关的固定值，因而与是等

8、价的。小说明模型好，而小就会大也说明模型好。准则二：赤池信息量AIC达到最小。设模型的似然函数为，的维数为p,x为随即样本，则AIC定义为：AIC=-2+2p,其中为的极大似然估计；p为未知参数的个数，式中右边的第一项是似然函数的对数乘以-2，第二项惩罚因子是未知参数个数的2倍。似然函数越大估计量越好，现在AIC是死然数的对数乘以-2再加上惩罚因子2p，因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中，对每一个回归子集计算AIC，其中AIC最小者所对应的模型是最优回归模型。准则三：统计量达到最小即使全模型正确，仍有可能选模型有更小的预测误差，正是根据这一原理提出来的。=，其中为

9、全模型中的无偏估计。选择使最小的自变量子集，这个自变量子集对应的回归方程就是最优回归方程。四、前进法前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。具体做法是首先将去全部m个自变量，分别对因变量y建立m个一元线性回归方程，并分别计算这m个一元回归方程的m个回归系数的F检验值，记为，选其最大者记为，给定显著性水平，若，则首先将引入回归方程，为了方便，设就是。接下来因变量y分别与（），（），（）建立m-1个二元线性回归方程，对m-1个回归方程中的回归系数进行F检验，计算F值，记为，选其最大者记为，若，则接着将引入回归方程。依照上述方法接着做下去，直至所有未被引入方程的自变量的F

10、值均小于（1，n-p-1）时为止，这时，得到的回归方程就是最终确定的方程。每步检验中的临界值（1，n-p-1）与自变量数目p有关，实际使用当中，通常使用显著性p值作检验。五、后退法后退法与前进法相反，首先用全部m个变量建立一个回归方程，然后在这m个变量中选择一个最不重要的变量，将它从方程中剔除，即把回归系数检验的F值最小者对应的自变量剔除。设对m个回归系数进行F检验（偏F统计量），记求得的F值为，选其最小者记为，给定显著性水平，若，则首先将从回归方程中剔除，为了方便，设就是。接着对剩下的m-1个自变量重新建立回归方程，进行回归系数的显著性检验，项上面那样计算出，如果又有，则剔除，重新建立y关于

11、m-2个自变量的回归方程，依次下去，直至回归方程中所剩余的p个自变量的F检验值均大于临界值（1，n-p-1），没有可剔除的自变量为止。这时，得到的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法和后退法显然都有明显的不足。前进法可能存在这样的问题，即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的，但当引入其他自变量后它变得并不显著了，但是也没有机会将其剔除，即一旦引入，就是“终身制”的，这种只考虑引入，而没有考虑剔除的做法显然是不全面的。后退法的明显不足是，一开始把全部自变量引入回归方程，这样计算量很大。如果有些自变量不太重要，一开始就不引入，就可减少一些计算量；

12、再就是一旦某个自变量被剔除，“一棍子就把它打死了”，再也没有机会重新进入回归方程。如果问题涉及的自变量是完全独立的（或不相关），那么在取=时，前进法与后退法所建立的回归方程是相同的。然而在实际中很难碰到自变量间真正无关的情况，尤其是经济问题中，所研究的绝大部分问题，自变量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少，某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合，由于它们相关的原因，对因变量y的影响可能大不一样。如果几个自变量的联合效应对y有重要作用，但是单个自变量对y的作用都不显著，那么前进法就不能引入这几个变量，而后退法却可以保留这几个自变量，这是后退法

13、的一个优点。七、逐步回归法逐步回归法的基本思想是有进有出。具体做法是将变量一个一个引入，当每引入一个自变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其删除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F检验，以确保每次引入新的变量之前回归方程中包含显著的变量，这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著自变量从回归方程中剔除为止。在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平值是不相同的，要求引入自变量的显著性水平小于剔除自变量的显著性水平，否则可能产生“死循环”。也就是当时，如果

14、某个自变量的显著性p值在和之间，那么这个自变量将被引入、剔除，再引入、再剔除，循环往复，以至无穷。实际当中是以p值为参照的，假设=0.1，=0.05，即,引入变量时，其显著性p值为0.07，即在和之间，因为0.07小于，所以可以将变量引入方程，进入程序完毕，在进行检验删除，0.07大于，所以应该将刚引入的剔除。在进行显著性水平检验。再次引入，又剔除，如此循环。如果是=0.05，=0.1就不会出现这种情况了。八、选择回归子集选择哪一个回归子集，用哪一个衡量准则要根据研究问题的目的来决定，回归模型常用的三个方面是：结构分析，预测，控制。如果想通过回归模型去研究经济变量之间的相关联系，即做结构分析，则在选元时可以考虑适当放

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

自变量选择与逐步回归

文档简介

温馨提示

最新文档

评论

自变量选择与逐步回归

文档简介

温馨提示

最新文档

评论

相关文档