《应用回归分析》课后题答案_第1页
《应用回归分析》课后题答案_第2页
《应用回归分析》课后题答案_第3页
《应用回归分析》课后题答案_第4页
《应用回归分析》课后题答案_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《应用回归分析》课后题答案[整理版]《应用回归分析》部分课后习题答案第一章回归分析概述1.1变量间统计关系和函数关系的区别是什么,答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。1.2回归分析与相关分析的联系与区别是什么,答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事°b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。1.3回归模型中随机误差项8的意义是什么,答:8为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究)与x1,x2„..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。1.4线性回归模型的基本假设是什么,答:线性回归模型的基本假设有:1.解释变量x1.x2„.xp是非随机的,观测值xi1.xi2„..xip是常数。2.等方差及不相关的假定条件为{E(8i)=0i=1,2„.Cov(ei,ej)=,o"23.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.1.5回归变量的设置理论根据是什么,在回归变量设置时应注意哪些问题,答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。1.6收集,整理数据包括哪些内容,答;常用的样本数据分为时间序列数据和横截面数据,因而数据收集的方法主要有按时间顺序统计数据和在同一时间截面上统计数据,在数据的收集中,样本容量的多少一般要与设置的解释变量数目相配套。而数据的整理不仅要把一些变量数据进行折算差分甚至把数据对数化,标准化等有时还需注意剔除个别特别大或特别小的“野值”。1.7构造回归理论模型的基本依据是什么,答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。1.8为什么要对回归模型进行检验,答:我们建立回归模型的目的是为了应用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。1.9回归模型有那几个方面的应用,

答:回归模型的应用方面主要有:经济变量的因素分析和进行经济预测。1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合,答:在回归模型的运用中,我们还强调定性分析和定量分析相结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质,这本质究竟如何,必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用。第二章一元线性回归2.14解答:(1)散点图为:35axcc—钮呻硕一203JXC-is.o-xteiETMeC-l0D3B2EIUD2.14解答:(1)散点图为:35axcc—钮呻硕一203JXC-is.o-xteiETMeC-l0D3B2EIUDiJDCCDDJJXCOD(2)x与y之间大致呈线性关系。yx,,,,(3)设回归方程为01n,,xynxy,,ii,1i,7,,1n,22()xnx,,i1i,

xynxy,,ii,1i,7,,1n,22()xnx,,i1i,,,,yx2073101?,,,可得回归方程为yx1722n,,1(4),,,yy(),iin-2i=12n,,1,,,yx,,(()),i01n-2i=1222,,(10-(-1+71,,,,,))(10-(-1+72))(20-(-1+73))1二,,223,,,,(20-(-1+74))(40-(-1+75)),,1,,,,,16904936,,3,110/3,1,,,3306.132,,(5)由于N(,),,11Lxx,,(),,,L,,,1xx11t,,,2/L,xx,服从自由度为n-2的t分布。因而,,,(),,L,1xx,,Ptn||(2)1,,,,,,/2,,,,,,,,,,,,1,,也即:二ptt(),,,,,,,1/211/2,,LLxxxx,11,的置信度为的置信区间为(7-2.353,,,7+2.353)可得95%3333133即为:(2.49,11.5),2,1()x2,,,,N(,())00nLxx,,,,,,,,0000t,,,,222,,1()1()xx(),,,,nLnLxxxx服从自由度为n-2的t分布。因而,,,,,,,,,,00Ptn||(2)1,,,,,,,,/2,2,,,1()x,,,,nL,,xx,,,,22,,,,1()1()xx艮口,,22,,,,1()1()xx艮口,,,,,,,ptt()1,,0/200/2nLnLxxxx可得,的置信度为的置信区间为()95%7.77,5.77,1n,,2()yy,,i2i,1(6)x与y的决定系数r,,,490/6000.817n,2()yy,,ii,1(7)ANOVAx平方和均方显著性dfF组间(组合)9.00024.5009.000.100线性项加权的8.16718.16716.333.056偏差.8331.8331.667.326组内1.0002.500总数10.0004由于,拒绝,说明回归方程显著,x与y有显著的线性关系。FF,(1,3)H,0,,22nn,,,L,111xx21(8)其中,,t,,,,eyy(),,iii,2,nn,,22ii,,11,/L,xx71021,,,,3.661333303t,2.353,/2tt,,3.66,/2H:0,,,,接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。?011n,,()()xxyy,,,iiLxy1i,(9)相关系数r,,nn,,LLxxyy2()()xxyy,,,,ii11ii,,707=,,0.9041060060,,,1%,,5%小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.r?(10)yxe序号,y111064221013-33320200442027-75540346残差图为:从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。置信度为的95%置信区间xy,28.4万元,(11)当广告费二4.2万元时,销售收入00,,近似为y2,,,即(17.1,39.7)2.15解答:散点图为:x与y之间大致呈线性关系。,,,设回归方程为yx,,,,01n,,xynxy,,ii,(2637021717),i,1,,0.0036=,1n,(71043005806440),22()xnx,,ii,1,,,,,,,,,,,yx2.850.00367620.106801,?,,可得回归方程为yx0.10680.003622n,,1(4),,,yy(),iin-2i=12n,,1,,,yx,,(()),i01n-2i=1二0.2305,,0.48012,,N(,)(5)由于,,11Lxx,,(),,,L,,,1xx11t,,,2/L,xx,服从自由度为n-2的t分布。因而,,,(),,L,1xx,,Ptn||(2)1,,,,,,/2,,,,,,,,,,,,1,,也即:二ptt(),,,,,,,1/211/2,,LLxxxx,可得,的置信度为的置信区间为95%1(0.0036-1.860,,0.4801/12978600.4801/1297860,0.0036+1.860)即为:(0.0028,0.0044),2,1()x2,,,,N(,())00nLxx,,,,,,,,0000t,,,,222,,1()1()xx(),,,,nLnLxxxx服从自由度为n-2的t分布。因而,,,,,,,,,,00Ptn||(2)1,,,,,,,,/2,2,,,1()x,,,,nL,,xx,,,,22,,,,1()1()xx,,,,,,,,,,,,,,即ptt()1,,0/200/2nLnLxxxx,,的置信度为的置信区间为()95%0.3567,0.5703,可得1n,,2()yy,,i16.820272i,1r,,(6)x与y的决定系数二0.908n,18.5252()yy,,ii,1(7)ANOVAx平方和均方显著性dfF组间(组合)1231497.5007175928.2145.302.168线性项加权的1168713.03611168713.03635.222.027偏差62784.464610464.077.315.885组内66362.500233181.250总数1297860.0009由于,拒绝,说明回归方程显著,x与y有显著的线性关系。FF,(1,9)H,0,,22nn,,,L,111xx21(8)其中,,t,,,,eyy(),,iii,2,nn,,22,,ii11,/L,xx0.00361297860,,,8.5420.04801t,1.895,/2tt,,8.542,/2接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。H:0,,,,?011n,,()()xxyy,,,iiLxy1i,(9)相关系数r,,nn,,LL2xxyy()()xxyy,,,,ii11ii,,4653=,0.9489129786018.525,,,1%,,5%小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.r?(10)yxe序号,y3(50.423218253.07680.1192221510.88080.04123107043.9588-0.0868455022.0868-0.8348548011.8348-0.4188692033.4188-0.4668713504.54.96880.223283251.51.27680.4812967032.51880.519210121554.4808♦系刑♦系刑■!Tia从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。,(11)新保单时,需要加班的时间为x,,10003.7y小时。00ytnh的置信概率为1-,,的置信区间精确为y(2)1,,,(12),00/200,即为(2.7,4.7)近似置信区间为:y,2,,即(2.74,4.66)0,,1-,的置信区间ytnh,,(2),(13)可得置信水平为为,即为(3.33,4.07).0/200,2.16(1)散点图为:可以用直线回归描述y与x之间的关系.(2)回归方程为:yx,,12112.6293.314(3)从图上可看出,检验误差项服从正态分布。第三章多元线性回归3.11解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵:相关性yx1x2x3Pearson相关性y1.000.556.731.724x1.5561.000.113.398x2.731.1131.000.547x3.724.398.5471.000y..048.008.009x1.048..378.127x2.008.378..051x3.009.127.051.Ny10101010x110101010x210101010x310101010^1.0000.5560.7310.724;0.5561.G000.1130.3980.7310.1131.0000-547\o.7240.3980.5471.000〜r所以二a系数模型标准系非标准化系数数B的95.0%置信区间相关性共线性统计量B标准误差试用版tSig.下限上限零阶偏部分容差VIF1(常量)-348.2176.459-1.974.096-780.083.5008060x13.7541.933.3851.942.100-.9778.485.556.621.350.8251.211x27.1012.880.5352.465.049.05314.149.731.709.444.6871.455x312.44710.569.2771.178.284-13.4138.310.724.433.212.5861.7085a.因变量:y(2)"所以三元线性回归方程为y,,348.28,3.754x1,7.101x2,12.447x3模型汇总模型更改统计量标准估计的RR方调整R方误差R方更改F更改df1df2Sig.F更改a1.898.806.70823.44188.8068.28336.015a.预测变量:(常量),x3,x1,x2。(3)由于决定系数R方=0.708R=0.898较大所以认为拟合度较高(4)bAnova模型平方和df均方FSig.a1回归13655.37034551.7908.283.015残差3297.1306549.522总计16952.5009预测变量:(常量),x3,x1,x2。因变量:y因为F=8.283P=0.015<0.05所以认为回归方程在整体上拟合的好(5)a系数模型B的95.0%置信区非标准化系数标准系数间相关性共线性统计量B标准误差试用版tSig.下限上限零阶偏部分容差VIF1(-348.280176.459-1.974.096-780.06083.500常量)x13.7541.933.3851.942.100-.9778.485.556.621.350.8251.211x27.1012.880.5352.465.049.05314.149.731.709.444.6871.455x312.44710.569.2771.178.284-13.41538.310.724.433.212.5861.708a.因变量:y可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。去除x3后作F检验,得:bAnova模型平方和df均方FSig.a1回归12893.19926446.60011.117.007残差4059.3017579.900总计16952.5009a.预测变量:(常量),x2,x1。b.因变量:y由表知通过F检验继续做回归系数检验a系数模型共线性统计非标准化系数标准系数B的95.0%置信区间相关性量B标准误差试用版tSig.下限上限零阶偏部分容差VIF1(常量)-459.624153.058-3.003.020-821.547-97.700x14.6761.816.4792.575.037.3818.970.556.697.476.9871.013x28.9712.468.6763.634.0083.13414.808.731.808.672.9871.013a.因变量:y此时,我们发现x1,x2的显著性大大提高。(7)x1:(-0.997,8.485)x2:(0.053,14.149)x3:(-13.415,38.310)***¥(8)y,0.385x1,0.535x2,0.277x3(9)a残差统计量极小值极大值均值标准偏差N预测值175.4748292.5545231.500038.9520610标准预测值-1.4381.567.0001.00010预测值的标准误差10.46620.19114.5263.12710调整的预测值188.3515318.1067240.183549.8391410残差-25.1975933.22549.0000019.1402210标准残差-1.0751.417.000.81610Student化残差-2.1161.754-.1231.18810已删除的残差-97.6152350.88274-8.6834843.4322010Student化已删除的残差-3.8322.294-.2551.65810Mahal。距离.8945.7772.7001.55510Cook的距离.0003.216.486.97610居中杠杆值.099.642.300.17310a.因变量:y所以置信区间为(175.4748,292.5545)(10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好3.12解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。第四章违背基本假设的情况4.8加权变化残差图上点的散步较之前的残差图,没有明显的趋势,点的散步较随机,因此加权最小二乘估计的效果较最小二乘估计好。4.9解:a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)-.831.442-1.882.065x.004.000.83911.030.000a.因变量:y"由SPSS计算得:=-0.831+0.004xy残差散点图为:由残差散点图可知存在异方差性再用等级相关系数分析:相关系数xt*Spearman的rhoX相关系数1.000.318Sig.:双侧:..021N5353*T相关系数.3181.000Sig.:双侧:.021.N5353*.在置信度:双测:为0.05时,相关性是显著的。P=0.021所以方差与自变量的相关性是显著的。(3)模型描述因变量y自变量1x权重源x幕值1.500模型:MOD_1.M=1.5时可以建立最优权函数,此时得到:ANOVA平方和df均方FSig.回归.0061.00698.604.000残差.00351.000总计.00952系数未标准化系数标准化系数B标准误试用版标准误tSig.:常数:-.683.298-2.296.026x.004.000.812.0829.930.000"所以:-0.683+0.004xy,(4)a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量).582.1304.481.000x.001.000.8059.699.000a.因变量:yy4.10经济变量的滞后性会给序列带来自相关性。如前期消费额对后期消费额一般会有明显的影响,有时,经济变量的这种滞后性表现出一种不规则的循环运动,当经济情况处于衰退的低谷时,经济扩张期随之开始,这时,大多数经济时间序列上升的快一些。在经济扩张时期,经济时间数列内部有一种内在的动力,受此影响,时间序列一直上升到循环的顶点,在顶点时刻,经济收缩随之开始。因此,在这样的时间序列数据中,顺序观察值之间的相关现象是恨自然的。4.11当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘估计未知参数,将会产生严重后果,一般情况下序列相关性会带来下列问题:参数的估计值不再具有最小方差线性无偏性。均方误差MSE可能严重低估误差项的方差。容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。当存在序列相关时,最小二乘估计量对抽样波动变得非常敏感。如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。4.12优点:DW检验有着广泛的应用,对很多模型能简单方便的判断该模型有无序列相关性,当DW的值在2左右时,则无需查表,即可放心的认为模型不存在序列的自相关性。缺点:DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本容量或选取其他方法;DW统计量的上、下界表要求n>15,这是因为如果样本再小,利用残差就很难对自相关的存在性作出比较正确的判断;DW检验不适合随机项具有高阶序列相关的检验。4.13解:(1)a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)-1.435.242-5.930.000x.176.002.999107.928.000a.因变量:yJ-1.435+0.176xy(2)b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsonal.999.998.998.09744.663a.预测变量:(常量),x。b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsona1.999.998.998.09744.663a.预测变量:(常量),x。b.因变量:yDW=0.663查DW分布表知:=0.95dL所以DW<,故误差项存在正相关。dL残差图为:e随t的变化逐次变化并不频繁的改变符号,说明误差项存在正相关。t*3)=1-0.5*DW=0.6685计算得:,Y’x’Y’X’7.3944.908.4951.177.6545.807.8847.266.8440.698.7752.338.0048.508.9352.697.7946.859.3254.958.2649.459.2955.547.9648.479.4856.778.2850.049.3855.837.9048.039.6758.009.9059.22b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsona1.996.993.993.073951.344a.预测变量:(常量),xx。b.因变量:yya系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)-.303.180-1.684.110xx.173.004.99649.011.000a.因变量:yy"得回归方程=-0.303+0.173x’y'"即:=-0.303+0.6685+0.173(—0.6685)yyxxtt,1tt,1(4)b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsona1.978.957.955.074491.480a.预测变量:(常量),x3。b.因变量:y3a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量).033.0261.273.220x3.161.008.97819.528.000a.因变量:y3yx?=0.033+0.161?tt"yyxx即:=0.033++0.161(-)t,1tt,1tL(5)差分法的DW值最大为1.48消除相关性最彻底,但是迭代法的值最小为0.07395,拟合的较好。4.14解:(1)b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsonal.541.293.264329.69302.745a.预测变量:(常量),x2,x1。因变量:ya系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)-574.062349.271-1.644.107x1191.09873.309.3452.607.012x22.045.911.2972.246.029a.因变量:y"回归方程为:=-574.062+191.098x1+2.045x2yDW=0.745<Dl所以误差项存在正相关残差图为:L(2)=1-0.5*DW=0.6275b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsona1.688.474.452257.670641.716预测变量:(常量),x22,x12。因变量:y2a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)-179.66890.337-1.989.052x12211.77047.778.5224.432.000x221.434.628.2692.283.027a.因变量:y2"此时得方程:'=T79.668+211.77x1'+1.434x2'yt所以回归方程为:',,179.668,0.6275y,211.77(x1,0.6275x1),1.434(x2,0.6275x2)tt,1tt,1?tt,1(3)b模型汇总模型标准估计的误RR方调整R方差Durbin-Watsona1.715.511.490283.791022.042a.预测变量:(常量),x23,x13。因变量:y3a系数模型非标准化系数标准系数B标准误差试用版tSig.1(常量)7.69839.754.194.847x13209.89144.143.5444.755.000x231.399.583.2742.400.020a.因变量:y3',7.698,209.891,x1,1.399,x2此时得方程:?t',7.698,209.891(x,x),1.399(x2,x2)所以回归方程为:ttt,1tt,14.15异常值原因异常值消除方法数据登记误差,存在抄写或录入的错误重新核实数据数据测量误差重新测量误差数据随机误差删除或重新观测异常值数据缺少重要自变量增加必要的自变量缺少观测数据增加观测数据,适当扩大自变量取值范围6) 存在异方差采用加权线性回归7) 模型选用错误,线性模型不适用改用非线性回归模型4.16编号学生化残差删除学生化残差杠杆值库克距离1-0.89353-0.876040.35418 0.16609 2 0.627670.592770.140250.031153 0.265170.243490.16079 0.00620 4 -0.00433 -0.00396 0.09935 0.00000 5 1.754002.293830.24702 0.40874 6 -2.11566 -3.83214 0.64187 3.21601 7 -1.17348-1.220390.49277 0.50110 8 -1.16281 -1.20606 0.36129 0.28946 9 0.409350.379020.163660.01500101.064621.079110.338830.22158从上表中看到,绝对值最大的学生化残差为2.11566,小于3,因而根据学生化残差诊断认为数据不存在异常值。绝对值最大的删除学生化残差为3.83214,大于3,因而根据学生化残差诊断为第6个数据为异常值,是因变量的异常值。其中心化杠杆值等于0.64187最大,库克距离等于3.21601也是最大,中心化杠杆平均值为0.3001,第6个数据杠杆值等于0.64187大于2倍的中心化杠杆值,因而从杠杆值看第6个数据是自变量的异常值,同时第6个数据的库克距离等于3.21601,大于1,这样第6个数据为异常值的原因是由自变量异常与因变量异常两个原因共同引起的。第五章自变量选择与逐步回归5.9后退法:输出结果a系数模型非标准化系数标准系数标准误差试用版BtSig.(常量)11438.1202252.472.638.533农业x1-.626.168-1.098-3.720.002工业x2-.328.207-1.352-1.587.135建筑业x3-.383.555-.251-.691.501人口x4-.004.025-.014-.161.875最终消费x5.672.1303.7105.178.000受灾面积x6-.006.008-.015-.695.499(常量)21079.754299.7593.602.003农业x1-.642.130-1.126-4.925.000工业x2-.303.131-1.249-2.314.035建筑业x3-.402.525-.263-.765.456最终消费x5.658.0953.6366.905.000受灾面积x6-.006.007-.017-.849.409(常量)31083.150295.8163.662.002农业x1-.624.127-1.095-4.931.000工业乂2-.373.093-1.535-3.998.001最终消费x5.657.0943.6276.981.000受灾面积x6-.005.007-.015-.758.460(常量)4874.604106.8698.184.000农业x1-.611.124-1.073-4.936.000工业乂2-.353.088-1.454-3.994.001最终消费x5.637.0893.5167.142.000a系数模型非标准化系数标准系数标准误差试用版BtSig.(常量)11438.1202252.472.638.533农业x1-.626.168-1.098-3.720.002工业乂2-.328.207-1.352-1.587.135建筑业x3-.383.555-.251-.691.501人口x4-.004.025-.014-.161.875最终消费x5.672.1303.7105.178.000受灾面积x6-.006.008-.015-.695.499(常量)21079.754299.7593.602.003农业x1-.642.130-1.126-4.925.000工业乂2-.303.131-1.249-2.314.035建筑业x3-.402.525-.263-.765.456最终消费x5.658.0953.6366.905.000受灾面积x6-.006.007-.017-.849.409(常量)31083.150295.8163.662.002农业x1-.624.127-1.095-4.931.000工业x2-.373.093-1.535-3.998.001最终消费x5.657.0943.6276.981.000受灾面积x6-.005.007-.015-.758.460(常量)4874.604106.8698.184.000农业x1-.611.124-1.073-4.936.000工业乂2-.353.088-1.454-3.994.001最终消费x5.637.0893.5167.142.000因变量:财政收入)eAnova模型平方和均方dfFSig.a回归11.365E862.274E7602.127.000残差528793.3191437770.951总计1.370E820b回归21.365E852.729E7772.734.000残差529767.8521535317.857总计1.370E820c回归31.364E843.411E7991.468.000残差550440.1031634402.506总计1.370E820d回归41.364E834.547E71355.753.000残差570180.9311733540.055总计1.370E820预测变量:(常量),受灾面积x6,建筑业x3,人口x4,农业x1,最终消费x5,工业x2。预测变量:(常量),受灾面积x6,建筑业x3,农业x1,最终消费x5,工业x2。预测变量:(常量),受灾面积x6,农业x1,最终消费x5,工业乂2。预测变量:(常量),农业X1,最终消费x5,工业x2。因变量:财政收入)模型汇总模型更改统计量标准估计的误Sig.F更R方调整R方差R方更改F更改改Rdf1df2a1 .998 .996 .994 194.34750 .996 602.127 6 14.000b2 .998 .996 .995 187.93046 .000 .026 1 14 .875c3 .998 .996 .995 185.47913 .000 .585 1 15 .456d4 .998 .996 .995 183.13944 .000 .574 1 16 .460 a.预测变量:(常量),受灾面积x6,建筑业x3,人口x4,农业x1,最终消费x5,工业x2。预测变量:(常量),受灾面积x6,建筑业x3,农业x1,最终消费x5,工业x2。预测变量:(常量),受灾面积x6,农业x1,最终消费x5,工业x2。预测变量:(常量),农业x1,最终消费x5,工业x2。,回归方程为:yxxx,,,,874.6040.6110.3530.637125逐步回归法:输出结果模型汇总模型更改统计量标准估计的误Sig.FR方调整R方差R方更改F更改更改Rdf1df2a1.994.989.988285.68373.9891659.441119.000b2.996.992.991247.77768.0037.258118.015c3.998.996.995183.13944.00415.948117.001a.预测变量:(常量),最终消费x5。预测变量:(常量),最终消费x5,农业x1。预测变量:(常量),最终消费x5,农业x1,工业x2。dAnova模型平方和均方dfFSig.a回归11.354E811.354E81659.441.000残差1550688.6541981615.192总计1.370E820b回归21.359E826.794E71106.637.000残差1105088.0031861393.778总计1.370E820c回归31.364E834.547E71355.753.000残差570180.9311733540.055总计1.370E820预测变量:(常量),最终消费x5。预测变量:(常量),最终消费x5,农业x1。预测变量:(常量),最终消费x5,农业x1,工业乂2。因变量:财政收入)a系数模型非标准化系数标准系数相关性标准误差试用版零阶偏部分BtSig.(常量)1710.37290.8917.816.000最终消.180.004.99440.736.000.994.994.994费x5(常量)21011.912136.9017.392.000最终消.311.0491.7186.374.000.994.832.135费x5农业-.414.154-.726-2.694.015.987-.536-.057x1(常量)3874.604106.8698.184.000最终消.637.0893.5167.142.000.994.866.112费x5农业-.611.124-1.073-4.936.000.987-.767-.077x1工业-.353.088-1.454-3.994.001.992-.696-.062x2a.因变量:财政收入),yxxx,,,,874.6040.6360.3530.637回归方程为:1255.10(1)模型汇总模型标准估计的误R方调整R方差Ra1.908.824.736625.88326b2.000.000.0001217.15945a.预测变量:(常量),x6,x3,x2,x4,x5。b.预测变量:(常量)cAnova模型平方和均方dfFSig.a回归11.830E753660971.6839.346.002残差3917298.52210391729.852总计2.222E715b回归2.0000.000..残差2.222E7151481477.129总计2.222E715预测变量:(常量),x6,x3,x2,x4,x5。预测变量:(常量)因变量:ya系数模型非标准化系数标准系数标准误差试用版BtSig.(常量)15922.8272504.3152.365.040x24.8642.507.6771.940.081x32.374.842.7822.818.018x4-817.901187.279-1.156-4.367.001x514.539147.078.050.099.923x6-846.867291.634-.899-2.904.016(常量)27542.938304.29024.789.000a.因变量:y回归方程为:yxxxxx,,,,,,5922.8274.8642.374817.90114.539846.86723456(2)后退法:输出结果模型汇总模型标准估计的误R方调整R方差Ra1.908.824.736625.88326b2.907.824.759597.04776预测变量:(常量),x6,x3,x2,x4,x5。预测变量:(常量),x6,x3,x2,x4。cAnova模型平方和均方dfFSig.a回归11.830E753660971.6839.346.002残差3917298.52210391729.852总计2.222E715b回归21.830E744575257.66912.835.000残差3921126.26211356466.024总计2.222E715预测变量:(常量),x6,x3,x2,x4,x5。预测变量:(常量),x6,x3,x2,x4。因变量:ya系数模型非标准化系数标准系数标准误差试用版BtSig.(常量)15922.8272504.3152.365.040x24.8642.507.6771.940.081x32.374.842.7822.818.018x4-817.901187.279-1.156-4.367.001x514.539147.078.050.099.923x6-846.867291.634-.899-2.904.016(常量)26007.3202245.4812.675.022x25.0681.360.7063.727.003x32.308.486.7604.750.001x4-824.261167.776-1.165-4.913.000x6-862.699232.489-.916-3.711.003a.因变量:y,yxxxx,,,,,6007.3205.0682.308824.261862.6992346(3)逐步回归模型汇总模型标准估计的误R方调整R方差Ra1 .498 .248 .194 1092.83206b2 .697 .485 .406 937.95038c3 .811 .657 .572 796.60909a.预测变量:(常量),x3。b.预测变量:(常量),x3,x5。c.预测变量:(常量),x3,x5,x4。dAnova模型平方和均方dfFSig.050a回归15502210.09015502210.0904.607.050残差1.672E7141194281.918总计2.222E715b回归21.079E725392697.5546.130.013残差1.144E713879750.910总计2.222E715c回归31.461E734869041.5067.673.004残差7615032.41812634586.035总计2.222E715a.预测变量:(常量),x3。b.预测变量:(常量),x3,x5。c.预测变量:(常量),x3,x5,x4。d.因变量:ya系数模型非标准化系数标准系数标准误差试用版BtSig.(常量)15161.2591142.7444.517.000x31.511.704.4982.146.050(常量)2472.2982150.138.220.830x33.188.9131.0503.492.004x5212.32586.643.7372.451.029(常量)31412.8071865.912.757.464x33.440.7821.1334.398.001x5348.72992.2201.2103.782.003x4-415.136169.163-.587-2.454.030a.因变量:y,yxxx,,,,1412.8073.440348.729415.136354两种方法得到的模型是不同的,回退法剔除了x5,保留了x6,x3,x2,x4作为最终模型。而逐步回归法只引入了乂3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力第六章多重共线性的情形及其处理6.6解:由下表我们可以看出a系数模型非标准化系数标准系数共线性统计量B标准误差试用版tSig.容差VIF1(常量)-6381.5752736.958-2.332.035x1-.593.279-1.040-2.127.052.003318.536x2.549.1992.2602.753.016.001897.470x3-.756.911-.495-.830.420.002472.951x4.080.031.2812.590.021.06415.706x5.006.006.038.918.374.4342.305x6-.010.014-.027-.750.466.5741.742a.因变量:y方差扩大因子最大的为VIF2=897.470,故首先应剔除变量x2.将剩下变量继续进行回归得下表:a系数模型非标准化系数标准系数共线性统计量B标准误差试用版tSig.容差VIF1(常量)-2677.4222858.846-.937.364x1-.053.237-.092-.221.828.006160.620x31.433.533.9372.690.017.009112.478x4.036.032.1271.137.274.08711.509x5.006.008.041.822.424.4342.303x6.002.015.006.157.878.6471.545a.因变量:y此时,有最大的方差扩大因子VIF1=160.620,且此时x1系数为负,故x1也应被剔除,继续将剩下变量进行回归得:a系数模型非标准化系数标准系数共线性统计量B标准误差试用版tSig.容差VIF1(常量)-2214.1291888.503-1.172.258x31.318.109.86212.068.000.1995.023x4.031.019.1071.586.132.2214.523x5.006.007.041.841.412.4342.302x6.003.015.008.209.837.6711.489a.因变量:y此时,所有方差扩大因子都小于10,故回归方程如下:=-2214.129+1.318x3+0.031x4+0.006x5+0.003x6y第七章岭回归岭回归估计是在什么情况下提出的,答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。岭回归估计的定义及其统计思想是什么,答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,?X'X??0时,我们设想给X,X加上一个正常数矩阵kI(k>0),那么X'X+kI接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X表,『,,,,,XXIXy'',,,,,示,定义为,称为的岭回归估计,其中k称为岭参数。选择岭参数k有哪几种主要方法,答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。用岭回归方法选择自变量应遵从哪些基本原则,答:用岭回归方法来选择变量应遵从的原则有:在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析,答:对习题3.12的问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值x2,和第三产业增加值x3的二元线性回归,解释所得到的回归系数,答:R-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFKKRSQx2x3.00000.99923.774524.225943.05000.99803.512296.463711.10000.99629.489067.463649.15000.99367.473860.456649.20000.99025.461162.448152.25000.98615.449761.439303.30000.98147.439219.430476.35000.97628.429332.421821.40000.97067.419984.413400.45000.96470.411101.405242.50000.95842.402632.397352.55000.95189.394536.389732.60000.94514.386782.382376.65000.93822.379344.375274.70000.93116.372200.368419.75000.92398.365330.361799.80000.91672.358717.355405.85000.90939.352345.349227.90000.90202.346201.343255.95000.89462.340271.3374801.0000.88720.334545.331892a系数非标准化系数标准系数模型标准误差试用版BtSig.(常量)14352.859679.0656.410.000第二产业增加值1.438.151.7759.544.000第三产业增加值.679.244.2262.784.017a系数非标准化系数标准系数模型标准误差试用版BtSig.(常量)14352.859679.0656.410.000第二产业增加值1.438.151.7759.544.000第三产业增加值.679.244.2262.784.017a.因变量:GDPR-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFKKRSQx2x3 .00000.99923.774524.225943.01000.99888.587428.408049.02000.99866.548878.441659.03000.99847.531054.454593.04000.99827.520110.460694.05000.99803.512296.463711.06000.99776.506176.465082.07000.99745.501080.465475.08000.99710.496653.465244.09000.99672.492691.464593.10000.99629.489067.463649RunMATRIXprocedure:******RidgeRegressionwithk=0.01******MultR.999439RSquare.998878AdjRSqu.998691SE1301.292455ANOVAtabledfSSMSRegress2.0001.81E+0109.04E+009Residual12.000203203451693362.1FvalueSigF5341.336020.000000 VariablesintheEquation BSE(B)BetaB/SE(B)x21.090606.060219.58742818.110661x31.226660.097506.40804912.580325Constant3980.247846738.314258.0000005.390994 ENDMATRIX 结合表及图形可知,用普通最小二乘法得到的回归方程为,Ly4352.8591.4380.679x,,,x323.显然回归系数二0.679明显不合理。从岭参数图来看,岭参数k在0.0到0.1之间,岭参数已基本稳定,再参照复决定系数,当k=0.012R时,复决定系数二0.998691,仍然很大,固用k=0.01做回归得到的未标准化的岭回归方程\二3980.2479+1.09061x1.2267,x23为。一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法,表7.5是该银行所属25家分行2002年的有关业务数据。计算y与其余四个变量的简单相关系数。建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理,分析回归模型的共线性。采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性,建立不良贷款y对4个自变量的岭回归。对第4步剔除变量后的回归方程再做岭回归。(7)某研究人员希望做y对各项贷款余额,本年累计应收贷款.贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做,相关性本年累计本年固定不良贷各项贷款应收到款贷款项目资产投资款y余额x1个数x3额x4x2Pearson相不良贷款y1.000.844.732.700.519关性各项贷款余额x1.8441.000.679.848.780本年累计应收到.732.6791.000.586.472款x2贷款项目个数x3.700.848.5861.000.747本年固定资产投.519.780.472.7471.000资额x4Sig.(单侧)不良贷款y..000.000.000.004各项贷款余额x1.000..000.000.000本年累计应收到.000.000..001.009款x2贷款项目个数x3.000.000.001..000本年固定资产投.004.000.009.000.资额x4不良贷款yN2525252525各项贷款余额x12525252525本年累计应收到2525252525款x2贷款项目个数x32525252525本年固定资产投2525252525资额x4a系数非标准化系数标准系数共线性统计量模型标准误差试用版容差BtSig.VIF(常量)1-1.022.782-1.306.206各项贷款余额x1.040.010.8913.837.001.1885.331本年累计应收到款x2.148.079.2601.879.075.5291.890贷款项目个数x3.015.083.034.175.863.2613.835本年固定资产投资额x4-.029.015-.325-1.937.067.3602.781a.因变量:不良贷款ya共线性诊断方差比例本年固定条件索各项贷款余本年累计应贷款项目个资产投资模型维数特征值引(常量)额x1收到款x2数x3额x4114.5381.000.01.00.01.00.00TOC\o"1-5"\h\z.203 4.733 .68 .03 .02 .01 .09.157 5.378 .16 .00 .66 .01 .13.066 8.287 .00 .09 .20 .36 .72.03611.215.15.87.12.63.05a.因变量:不良贷款y后退法得a系数非标准化系数标准系数模型标准误差试用版BtSig.(常量)1-1.022.782-1.306.206各项贷款余额x1.040.010.8913.837.001本年累计应收到款x2.148.079.2601.879.075贷款项目个数x3.015.083.034.175.863本年固定资产投资额x4-.029.015-.325-1.937.067(常量)2-.972.711-1.366.186各项贷款余额x1.041.009.9144.814.000本年累计应收到款x2.149.077.2611.938.066本年固定资产投资额x4-.029.014-.317-2.006.058(常量)3-.443.697-.636.531各项贷款余额x1.050.0071.1206.732.000本年固定资产投资额x4-.032.015-.355-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论