版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、引言回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。二、认识多重共线性(一)多重共线性的定义设回归模型如果矩阵的列向量存在一组不全为零的数使得, =1,2,则称其存在完全共线性,如果, =1,2,则称其存在近似的多重共线性。(二)多重共线性的后果1.理论后果 对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是
2、多重共线性不可能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量很小的时候,多重共线性才是非常严重的。多重共线性的理论后果有以下几点: (1)保持OLS估计量的BLUE性质;(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着
3、样本个数的增加,估计量的样本值的均值将收敛于真实值。(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体取样时仍存在样本间的共线性。 2.现实后果(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,估计精度不高;(2)置信区间比原本宽,使得接受假设的概率更大;(3)统计量不显著;(4)拟合优度的平方会很大;(5)OLS估计量及其标准误对数据微小的变化也会很敏感。(三)多重共线性产生的原因1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。2. 由于研究的经济变
4、量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四) 多重共线性的识别 1.直观的判断方法(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回归系数的符号与专业知识或一般经验相反(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大
5、的变化(5)重要变量的回归系数置信区间明显过大2.方差扩大因子法()定义=其中是以为因变量时对其他自变量的复测定系数。一般认为如果最大的超过10,常常表示存在多重共线性。事实上=>10这说明<0.1即>0.9。3.特征根判定法根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。根据条件数, 其中为最大的特征根,为其他的特征根,通常认为0<<10,没有多重共线性,>10存在着
6、多重共线性。(五)多重共线性的处理方法1增加样本容量当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。2剔除法对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。3主成分法当自变量间有较强的线性相关性时,利用个变量的主成分,所具有的性质,如果他们是互不
7、相关的,可由前个主成来建立回归模型。由原始变量的观测数据计算前个主成分的得分值,将其作为主成分的观测值,建立与主成分的回归模型即得回归方程。这时元降为元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响4(偏最小二乘法)H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而
8、主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。5岭回归法.岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式,参数的普通最小二乘估计为=, 岭回归当自变量存在多重共线性|0时,给矩阵加上一个正常系数矩阵,那么=,当时就是普通最小二乘估计。三、实际的应用 我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量
9、为自变量。设模型为 (3.1)(一) 普通的最小二乘法对模型进行最小二乘估计得到如下的结果: 表3.1:模型总结ModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.998a.996.995161.9431718.9961198.108419.000 表3.2: 方差分析表ModelSum of Squares df Mean SquareFSig.Regression1.257E843.142E71.198E3.
10、000aResidual498286.2271926225.591Total1.262E823表3.3:系数矩阵表ModelBStd. ErrorBetatSigToleranceVIF1-193.968311.594-.623.541.622.393.4871.582.130.002455.510.025.016.1881.570.133.01568.6941.202.743.3491.617.122.004224.271-.030.117-.023-.261.797.02737.372调整的可决系数为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们
11、可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。 根据方差扩大因子=455.510, =68.694, =224.271, =37.372.均大于10说明存在多重共线性。此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:表3.4: 多重共线性诊断表ModelDimensionEigenvalueCondition IndexVariance Proportions(Constant)114.4121.000.00.00.00
12、.00.002.5682.788.01.00.00.00.003.01716.264.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)运用岭回归解决多重共线性 用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:表3.5: 岭参数K值表 K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.0229
13、74.05000 .99450 .298761 .231025 .351029 .109212.10000 .99286 .279395 .234139 .315824 .148780.15000 .99135 .268288 .234093 .295846 .168122.20000 .98984 .260456 .232912 .282446 .178951.25000 .98824 .254302 .231210 .272489 .185418.30000 .98652 .249140 .229240 .264570 .189368.35000 .98466 .244625 .22712
14、7 .257967 .191744.40000 .98265 .240562 .224938 .252270 .193079.45000 .98050 .236833 .222713 .247230 .193695.50000 .97822 .233363 .220477 .242684 .193798.55000 .97581 .230101 .218244 .238524 .193528.60000 .97327 .227009 .216026 .234672 .192980.65000 .97062 .224062 .213829 .231075 .192222.70000 .96786
15、 .221240 .211658 .227690 .191305.75000 .96501 .218527 .209517 .224485 .190265.80000 .96206 .215912 .207406 .221437 .189132.85000 .95903 .213385 .205328 .218526 .187927.90000 .95591 .210938 .203284 .215736 .186667.95000 .95273 .208564 .201273 .213056 .1853661.0000 .94948 .206258 .199296 .210473 .1840
16、34 图3.1 岭迹图从岭迹图上看,最小二乘的稳定性很差,当稍微增大时,系数有较大的变化。对各个变量分别来看,当=0, 、和对于变量有显著性正的影响,对于变量有负的影响,从岭回归的角度来看,变量和随着的增大其系数值迅速减小最终趋于稳定,随着的增加变化不大,对于讲,当逐渐增大时,由负的影响变为正的影响。 由于和的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,和只要保留一个就可以了。和的岭回归系数相对稳定。通过分析,决定剔除,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果: 表3.6 :步长为0.02时的岭参数值表 K RSQ X
17、1 X2 X3 .00000 .99604 .436166 .179183 .385799.02000 .99584 .351867 .262568 .380494.04000 .99560 .342222 .282832 .363342.06000 .99531 .336854 .291961 .353101.08000 .99497 .332900 .296644 .345962.10000 .99457 .329612 .299105 .340458.12000 .99410 .326701 .300300 .335921.14000 .99357 .324028 .300709 .33
18、2010.16000 .99297 .321521 .300600 .328527.18000 .99231 .319135 .300137 .325355.20000 .99159 .316844 .299420 .322417由上表可以看到,剔除了后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当=0.16时,0.99297仍然很大,因而可以选取=0.16岭参数。然后给定,重新作岭回归,计算结果如下:表3.7: k = 0.16时的岭回归Mult R .9964780RSquare .9929685Adj RSqu .9919137SE 210.62
19、52025:表3.8: 方差分析表 df SS MS F value Sin FRegress 3.000 125295417 41765139 941.44 .000000Residual 20.000 887259.52 44362.976 表3.9:方程中的变量 B SE(B) Beta B/SE(B)X1 .4110191 .0098800 .3215208 41.6010169X2 .0399873 .0017557 .3006004 22.7755604X3 1.1311326 .0405681 .3285272 27.8823490Constant -451.7066055 69
20、.6480613 .0000000 -6.4855589得到对对的标准化岭回归方程为: (3.2) (41.601) (22.776) (27.882 )0.993 =941.44普通最小二乘法得到的回归方程为 (3.3) (1.582 ) (1.570) (1.617) ( -0.261)标准化岭回归得到的统计量都比OLS估计显著,因此岭回归得到预期的效果。(三) 主成分分析法同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果:表3.10:总的解释方差表ComponentInitial EigenvaluesExtraction Sums of Squared L
21、oadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法
22、:第一主成分 (3.4)第二主成分 (3.5)用对、做普通最小二乘法,得如下回归方程为 (3.6) 因此,可以得出主成分回归方程为 (3.7)回归方程的的修正的可决系数为 0.996。由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。五、结论 主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。 参考文献1 何晓群.应用回归分析M.中国人民统计大学出版社:2007,(13).2 钱晓莉. 基于特征值的多重共线性处理方法J.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年空运中介货物合同
- 2024建设项目监管与服务协议一
- 专业仿真绿植订购协议2024版版B版
- 2025年度全国重点工程安全员专项聘用合同3篇
- 2025采矿权转让合同示范文本:矿业权整合项目3篇
- 2024建设工程合同讲义
- 专业婚介机构服务合同2024版版B版
- 2024年食品原材料长期供应合同3篇
- 2025年玻璃幕墙工程劳务分包及售后服务协议3篇
- 2024摄影工作室产品摄影及电商平台推广合作合同3篇
- 退化林修复投标方案
- 贵阳市南明区2023-2024学年四年级数学第一学期期末质量跟踪监视试题含答案
- 第六单元大单元教学设计统编版语文八年级上册
- 盘古神话中英文版
- 车辆移交安全协议书
- 办公室换岗后的心得体会办公室轮岗心得体会总结(二篇)
- 提高混凝土外观质量-QC小组活动成果交流材料(建设)
- 影像叙事语言智慧树知到答案章节测试2023年中国传媒大学
- 流体力学(清华大学张兆顺54讲) PPT课件 1
- 销售人员末位淘汰制度
- 南阳石油分公司非油品业务经营管理制度概要
评论
0/150
提交评论