版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元线性回归与最小二乘估计1假定条件、最小二乘估计量和高斯马尔可夫定理多元线性回归模型:yt=兀+Bixti+B2xt2+”k-1+u(l.l)其中yt是被解释变量(因变量),xtj是解释变量(自变量),竹是随机误差项,6i=0,1,.,k-1是回归参数(通常未知)。对经济问题的实际意义:yt与xt.存在线性关系,xtj=0,1,.,k-1,是丁(的重要解释变量。ut代表众多影响yt变化的微小因素。使儿的变化偏离了E(yt)=多元线性回归与最小二乘估计1假定条件、最小二乘估计量和高斯马尔可夫定理多元线性回归模型:yt=60+61xt1+62xt201t12t2+.+6k-1xtk-1+ut(1
2、.1)1/1其中yt是被解释变量(因变量),xtj是解释变量(自变量),竹是随机误差项,兀,i=0,1,.,k-1是回归参数(通常未知)。对经济问题的实际意义:yt与xtj存在线性关系,xtj,j=0,1,.,k-1,是丁(的重要解释变量。ut代表众多影响yt变化的微小因素。使儿的变化偏离了E(yt)=+6厲+62xt2+.+Bk-1xtk-1决定的k维空间平面。当给定一个样本(yt,xt1,xt2,xtk-1),t=1,2,T时,上述模型表示为丁1=60+61Xn+62X12+.+6肛1尤1k_+U,经济意乂:xtj是yt的重要解释变量。y2=60+61x21+62x22+.+6k-1x2k
3、-1+u2,代数意义:yt与xtj存在线性关系。几何意义:yt表示一个多维平面。yT=60+61XT1+62XT2+6k-1XTk-1+UT,(1.2)此时yt与xti已知,y1(y2)6.与ut未知。1x11(1X21x1jX2jX(T1丿=XTj(1.3)XX6+X)2k11111)X-0u:Tk1(Tk)k1(k1丿+TX0X/1l丿1I>10(T1丿x11k(1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定随机误差项Ut是非自相关的,每一误差项都满足均值为零,方差2相同且为有限值,即02010-E(u)=0=,Var(u)=E(uU')=02!=0
4、假定解释变量与误差项相互独立,即E(X'u)=0.假定解释变量之间线性无关。rk(X'X)=rk(X)=k.其中rk(J表示矩阵的秩。假定解释变量是非随机的,且当Tfa时TiXXfQ.其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS=(Y-XB)'(Y-XB)=YY-BXY-Y'XB+BXXB=YY-2BXY+BXXB.(1.5)因为YXB是一个标量,所以有YXB=BXY。(1.5)的一阶条件为:S=-2XY+2XXB=0(1.6)d化简得Q/3XY=XXB因为(X'X)是一个非
5、退化矩阵(见假定),所以有B=(X'X)-1XY(1.7)因为(1.5)的二阶条件2S-=2XX>0(1.8)d得到满足,所以(1.7)是(1.5)的解。因为X的元素是非随机的,(XX)-1X是一个常数矩阵,则B是Y的线性组合,为线性估计量。求出B,估计的回归模型写为Y=XB+u(1.9)其中B=(B0Bki)'是b的估计值列向量,u=(Y-xB)称为残差列向量。因为(1.10)u=Y-XB=Y-X(XX)-1XY=I-X(XX)-1X'Y所以if也是Y的线性组合。B的期望和方差是E(B)=E(X'X)-1XY=E(X'X)-1X'(XB+
6、u)(1.11)=B+(XX)-iX'E(u)=B八八八Var(卩)=E(卩-B)(卩-B)'=E(XX)-iX'uuX(XX)-i=E(X'X)-iXP2IX(X'X)-i=o2(X'X)-i.(1.12)高斯一马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。B具有无偏性。B具有最小方差特性。B具有一致性,渐近无偏性和渐近有效性。2.残差的方差S2=u'u/(T-k)(1.13)s2是02的无偏估计量,E(s2)=02。B的估计的方差协方差矩阵是Var(B)=s2(XfX)-1(1.14)A3.多重确定系数(多重可决
7、系数)Y=XB+U=/+U(1.15)总平方和SST=T(y刃2=YY-Ty2,(1.16)t1t其中y是兀的样本平均数,定义为y=Ty)/T。回归平方和为t1tssr=T(yy)2=t1t其中y的定义同上。残差平方和为ssE=匚(y_y)t1TT则有如下关系存在,SST=sSR+SSE刀SSRP'FTy2R2=SSTYY-Ty2(1.17)(1.18)(1.19)(1.20)显然有0<R2<1。R21,拟合优度越好。4.调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数R2如下:SSE/(Tk)SST
8、/(T1丿T1SSTSSRVk)(SSTR2)(1.21)5.OLS估计量的分布,若uN(0,o連),则每个u都服从正态分布。于是有一YN(XB,02I)(1.22)因B也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有BN(B,o2(XX)-i)(1.23)6.方差分析与F检验与SST相对应,自由度T-i也被分解为两部分(T-i)=(k-i)+(T-k)SSRSSE回归均方定义为MSR=,误差均方定义为MSE=k1Tk(i.24)表1.1方差分析表回归/SSR=YY-Ty2k-1MSR=SSR/(k-1)误差SSE=u'uT-kMSE=SSE/(T-k)总和SST=Y
9、Y-Ty2T-1方差来源平方和自由度均方H0:B1=B2=.=Bk-1=0;斗:Bj不全为零msrSSR/(k1丿f=FmseSSE/(Tk)(k-1,T-k)(1.25)设检验水平为g则检验规则是,若F<FA(k-1,T-k),接受H0;若F>化(k-1,T-k),拒绝H0oF检验示意图t检验示意图7t检验H0:B;.=0,(j=1,2,k-1),H1:片丰0t=(1.26)判别规则:若丨t|<ta(T-k)接受H0,若1tj10+/|>taT-k)7<s2(xx丿1ji0-+)拒绝H0。t(T-k)8Bi的置信区间(1) 全部Pi的联合置信区间接受(1.27)
10、F=1(B-卩)'X'X(B-卩)/S2F(k,T-k)(B-B)'(XX)(B-B)<S2kFa匕血),它是一个k维椭球。(1.28)(2) 单个的置信区间Bi=Bi土屮jis:/2(口)(L29)9.预测+(1)点预测C=(1xT+11xT+12xT+1k-1)(1.30)则T+1期被解释变量yT+1的点预测式是,yT+i=CB=B0+B1XT+11+Bk-1XT+1k-1(1.31)(2)E(yT+1)的置信区间预测首先求点预测式cB的抽样分布E(yT+)=E(CB)=CB(1.32)Var(ytJ=Var(CB)=E(CB-CB)(CB-CB)'=
11、EC(B-B)C(B-B)'=CE(B-B)(B-B)'C'=CVar(B)C丄C02(X'X)-1C'=02C(XX)-1C',(1.33)因为B服从多元正态分布,所以cB也是一个多元正态分布变量,即y和1=cBn(CB,02C(X'X)-1C')(1.34)构成t分布统计量如下=L1E(yT丿=CCtsQC(X'X丿卡CspC(X1X如Ct(T-k)(1.35)-置信区间CB土:/2(1,T-k)S*C(X'X)弋(1.36)(3)单个yT+1的置信区间预测yT+1值与点预测值y有以下关系+yT+1=1+Ut+
12、1(1.37)其中uT+1是随机误差项。因为E(yT+1)=E(yT+1+Ut+1)=CB(1.38)Var(yT+1)=Var(片x)+Var(uT+1)=o2C(X'X)-1C'+。2=s(C(XX)-1C'+1)(1.39)因为B服从多元正态分布,所以yT+1也是一个多元正态分布变量,即yT+iN(CB,。2C(XX)-iC'+1)与上相仿,单个yT+i的置信区间是CB土ta/2(T-k)MC(X'X)-c+1(1.40)计算举例:(见计量经济分析第19-27页,熟悉矩阵运算)10.预测的评价指标注意,以下6个公式中的et表示的是预测误差,不是残差
13、。可以在样本内、外预测。(1)预测误差。预测误差定义为et=yt-yt,t=T+1,T+2,.(2)相对误差PE(PercentageError)。yyPE=t,t=T+1,T+2,yt(3)误差均方根rmserror(RootMeanSquaredError)(4)(5)Tr(yyt)2t1绝对误差平均MAE(芷口AbsoluteError)MAE=TT|yyTt1tt相对误差绝对值平均MAPE(MeanAbsolutePercentageError)1TMAPE=j:t1rmserror=(6)Theil系数(Theigefficent);1T(ytyt),t=1,2,.TT(y)11Th
14、eil=t1以上6个式子中,yt表示预测值yt表示实际值。Theil的取值范围是0,1。显然在预测区间内,当y与儿完全相等时,Theil=0;当预测结果最差时,Theil=1。公式中的累加tt范围是用1至T表示的,当然也可以用于样本外预测评价。11建模过程中应注意的问题(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现
15、一次下降。可见研究经济变量应该剔除物价变动因素。(2)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例:2002年起我国将执行新的规定划分三次产
16、业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非5)谨慎对待异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6) 过原点回归模型与非过原
17、点回归模型相比有如下不同点。以一元线性过原点模型,yt=Bxt+ut,为例,工ut=0不一定成立。原因是正规方程只有一个(不是两个),(U2)丄=2'(y厂帚)(-xt)=0,1即工U屈0,而没有工U=0。所以残差和等于零不一定成立。可决系数R2有时会得tft负值!原因是有时会有SSE>SST。为维持SSE+SSR=SST,迫使SSRvO。(7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。(8) 回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,H0:B=B2=Bk-=0;斗:打不全为零。)若F检
18、验结果能拒绝原假设,应进一步作t检验(检验k次,:片=0,j=l,2,,k-1),H1:6.丰0)t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,贝则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换(1.41)s(x)卩j*=卩硏,尸1,2,口XX4+B*4+u*2s(x)+叫t2其中s(xt)
19、和s(yt)分别表示xt和丁(的样本标准差。Bj*可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项)yyxXt=B*-tis(yt)1吧1)两侧同乘s(yt),得5-y)=B1*(Xt1-X1)+為*(xt2-x2)+ut*心)所以有B.*竺2=B.,即B.*=B.些m,i=1,2,Zjs(x)jjjs(yt)t.t既是(1.41)式。(11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差越大;有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3
20、.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。图3.10青铜硬度与锡含量的关系1210865560657075808590954(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(13) 残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多
21、重共线性。(16) 解释变量应具有外生性,与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。(18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的推移及时修改模型。建模案例1:全国味精需求量的计量经济模型(见预测1987年第2期)1依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格,消费者收入水平,消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别
22、。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平)2选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量
23、,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f(销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。味精销售量=f(平均销售价格,不变价格的消费水平)3收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据(1972-1982,T=11)。定义销售量
24、为yt(吨),平均销售价格为x1t(元/公斤),不变价格的消费水平为x2t(元)。相关系数表如下:平均销售价格(x1t)不变价格的消费水平(x2t)味精销售量(yt)-0.36710.9771注:临界值r0.05=0.60。4确定模型形式并估计参数1)(-3.92)(2.17)yt=-144680.9+6313.4x1t+690.4x2t(15.32)R2=0.97,DW=1.8,t0.05(8)=2.3回归系数6313.4无显著性(x1t与x2t应该是负相关,回归系数估计值却为正,可见该估计多元线性回归与最小二乘估计值不可信)。剔除不显著变量x1t,再次回归,(-10.32)(13.8)=-
25、65373.6+642.4x2tR2=0.95,DW=1.5,t0.05(9)=2.26问题:B1=6313.4,为什么检验结果是B=0?量纲的变化对回归结果会造成影响吗?建模案例2:用回归方法估计纯耕地面积(见数理统计与管理1986年第6期)目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10000的地形图上,然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低,无法直接勾绘,测算。设一个毛耕地图斑面积用S表示,其中不能耕种的面积(
26、扣除面积)用AS表示,贝財扣除系数,yi=AS/S=(扣除面积)/(毛耕地图斑面积)。i对于每一个图斑,知道精确的扣除系数yz,就很容易根据毛耕地图斑面积S计算出纯耕地面积。现在用回归分析方法,寻找影响扣除系数变化的主要因素,从而建立关于“扣除系数”的回归模型。该论文研究的是湖南地区的耕地面积调查。湖南省属丘陵山区,地形复杂,各种地类犬牙交错,影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析,初步确定三个主要因素,即“坡度”、“地块面积”和“田埂宽度”论文作者在五个县共调查了867个样本点,其中水田样本522个,旱田样本345个。具体做法是首先把8
27、67个样本数据按“坡度”分成25个等级,然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值,“平均地块面积”和“平均田埂宽度”。整理样本数据如下:i(序号)y(扣除系数)x1i(坡度)x2i(平均地块面积)x3i(平均田埂宽度)14.235601.93000.631824.883811.49180.731237.830021.12530.97312539.4151241.06004.0721拟建摸型为,Vi=卩0+卩1X1i+卩2x2i+卩3x3i+叫利用样本得估计的回归方程yi=1.672+1.145x1i+0.608x2i+2.081x3ii1i2i3i(7.3)(0.
28、4)(1.85)F=221.62(F.05(3,21)=3.°7,F.01(3,21)=4.87,t.05(21)=2.08,'.01(21)=2.84)统计检验结果表明x2i,x3i为非重要解释变量。剔除之,用yi对再次回归得,yi=3.34+1.35x1ii1i实际的验证结果表明,用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积”完全能满足精度要求,从而为减少野外作业强度(不必再测量“地块面积”和“田埂宽度”),迅速完成测算,提供了科学依据。+卩丹+p2xt2+広內k-1决定的k维空间平面。xtj是儿的重要解释变量。儿与xtj存在线性关系。yt表示一个多维平面。(1
29、.2)当给定一个样本(yt,xt1,xt2,xtk-1),t=1,2,.,T时,上述模型表示为yi=卩0+卩ixii+卩2xi2+卩k-ixik-i+ui,经济意义:丁2=卩0+卩1X21+卩2X22+卩k-1X2k-1+U2,代数意义:.几何意义yT=卩0+卩1Xt1+卩2XT2+卩k-1XTk-1+UT此时yt与xti已知,片与ut未知。f1ff1x11y2=x21(Tx1)1xT1(Tx1)(1.3)(1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定(1)随机误差项ut是非自相关的,每一误差项都满足均值为零,方差6相同且为有限值,即'0、'100、
30、E(u)=0=:,Var(u)=E(UU')=Q2Z=Q200<0丿d01丿假定解释变量与误差项相互独立,即E(X'u)=0.假定解释变量之间线性无关。rk(X'X)=rk(X)=k.其中rk(J表示矩阵的秩。假定解释变量是非随机的,且当T-时T-1XX-Q.其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS=(Y-XP)'(Y-Xp)=YY-pXY-Y'XP+p'XXP=YY-2pX'Y+p'XXp.(1.5)因为YXp是一个标量,所以有YXp=p&
31、#39;X'Yo(1.5)的一阶条件为:(1.6)=-2XY+2XXB=0化简得XY=XXP因为(XX)是一个非退化矩阵(见假定),所以有p=(XX)-iXY(1.7)因为(1.5)的二阶条件82S=2XX>0(1.8)得到满足,所以(1.7)是(1.5)的解。因为X的元素是非随机的,(XX)-1X是一个常数矩阵,则p是Y的线性组合,为线性估计量。求出p,估计的回归模型写为(1.9)其中p=(popJ.p1)'是p的估计值列向量,U=(Y-Xp)称为残差列向量。因为01k-1u=Y-Xp=Y-X(X'X)-1XY=I-X(X'X)-1X'Y(1.1
32、0)所以u也是Y的线性组合。p的期望和方差是E(p)=E(X'X)-1X'Y=E(X'X)-1X'(Xp+u)=p+(X'X)-1X'E(u)=p.(1.11)Var(p)=E(p-p)(p-卩)'=E(X'X)-1X'uUX(X'X)-1=E(X'X)-1X'Q2IX(X'X)-1=Q2(X'X)-1.(1.12)高斯一马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。p具有无偏性。p具有最小方差特性。p具有一致性,渐近无偏性和渐近有效性。2.残差的方差S2=u&
33、#39;u/(T-k)(1.13)s2是Q2的无偏估计量,E(s2)=Q2。p的估计的方差协方差矩阵是AVar(p)=s2(X'X)-1(1.14)3. 多重确定系数(多重可决系数)Y=Xp+u=Y+u(1.15)总平方和(1.16)(1.17)(1.18)(1.19)(1.20)SST=ST(yy)2=YY-巧2,t=1t其中y是yt的样本平均数,定义为y=(工Ty)/T。回归平方和为tt=1tssr=T(yy)2=Y'Y-Ty2t=1t其中y的定义同上。残差平方和为sse=T(yy)2=Tu2=u'ut=1ttt=1t则有如下关系存在,SST=SSR+SSEDssr
34、YY-Ty2R2=SSTYY-Ty2显然有0<R2<1OR2Tl,拟合优度越好。4. 调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数R2如下:R2=1-SSE/(Tk)=1(T1)(SST-SSR)=1-T1(1R2)(1.21)SST/(T1)TkSSTTk5.OLS估计量的分布若uN(0,Q2I),则每个ut都服从正态分布。于是有YN(X®,Q2I)(1.22)因B也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有®N(®,Q2(X'X)-1)(1.
35、23)6.方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)=(k-1)+(T-k)(1.24)回归均方定义为MSR=空,误差均方定义为MSE=涯k1Tk表1.1方差分析表方差来源平方和自由度均方回归八八SSR=Y'Y-Ty2k-1MSR=SSR/(k-1)误差SSE=u'uT-kMSE=SSE/(T-k)总和SST=YY-Ty2T-1H0:P1=卩2=阳=0;H1:py.不全为零1/1(1.25)F=MSRMSESSR/(k1)口SSE/(Tk)'F检验示意图t检验示意图7t检验H0:片=0,(j=1,2,.,k-1),H1:片工0八卩.t=js
36、(卩.j厂0厶皿).+1邛j/js2(X'X)-1.+i-g(1.26)判别规则:若It|<:(Tk)接受H。;若It|>S拒绝H0。8.pi的置信区间(1)全部卩,的联合置信区间接受F=1(P-B)'(X'X(卩-B)/S2化(k,T-k)d27)(B-B)'(XX)(B-B)<S2kFa伙,申,它是一个k维椭球。(2)单个卩,的置信区间八I卩i=Bi±vj+1sta/2(Tk)9.预测(1)点预测C=(1xT+11xT+12.xT+1k-1)则T+1期被解释变量yT+1的点预测式是,(1.28)(1.29)(1.30)yT+1=C
37、B=B0+B1XT+11+Bk-1XT+1k-1(131)2)E(yT+1)的置信区间预测首先求点预测式CB的抽样分布E(yT+1)=E(CB)=CB(1.32)Var(yt+1)=Var(CB)=E(CB-CB)(CB-CB)'=ec(B-B)C(B-B)'=ce(B-B)(B-B)'C'=CVar(B)C'=C2(X'X)-1C'=02C(XX)-1C',(1.33)因为0服从多元正态分布,所以C0也是一个多元正态分布变量,即yT+1(C0,o2C(X'X(1.34)构成t分布统计量如下y二JE(ytJ=C0-C0t=
38、,s*C(X'X)TCsC(X'X)-1C't(T-k)置信区间C0土:/2(1,T-k)S2(X'X)-1C'(3)单个yT+1的置信区间预测yT+1值与点预测值yT+1有以下关系yT+1=yT+1+UT+1其中uT+1是随机误差项。因为E(yT+1)=E(yT+1+Ut+1)=C0Var(yT+1)=Var(yt書)+Var(uT+1)=o2C(X'X)-1C'+o2=o2(C(X'X)-1C'+1)因为0服从多元正态分布,所以yT+1也是一个多元正态分布变量,即yT+1N(C0,o2C(X'X)-1C'
39、;+1)与上相仿,单个yT+1的置信区间是C0土:/2(T-k)SWXX)-1C'+1计算举例:(见计量经济分析第19-27页,熟悉矩阵运算)10.预测的评价指标注意,以下6个公式中的et表示的是预测误差,不是残差。可以在样本内、-1C')(1.35)(1.36)(1.37)(1.38)(1.39)(1.40)外预测。(3)预测误差。预测误差定义为(4)(3)et=yt-yt,t=T+1,T+2,.相对误差PE(PercentageError)。PE='t-yt,t=T+1,T+2,.yt误差均方根rmserror(RootMeanSquaredError)(4)rms
40、error=歹(yy)2Tt"V1t=1绝对误差平均MAE(MeanAbsoluteError)(5)MAE=丄丈|yyTtt=1相对误差绝对值平均MAPE(MeanAbsolutePercentageError)ttMAPE=(6)Theil系数(TheilCoefficent)j'I工(yt-yt)2Theil=旦,t=1,2,.,T石工(yt)2諾工(yt)2t=1t=1以上6个式子中,yt表示预测值,yt表示实际值。Theil的取值范围是0,1。显然在预测区间内,当yt与yt完全相等时,Theil=0;当预测结果最差时,Theil=1。公式中的累加范围是用1至T表示的
41、,当然也可以用于样本外预测评价。11建模过程中应注意的问题(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。(2)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积
42、”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)5)谨慎对待异常值。不能把建立模型简单化为一个纯数学过程,目的
43、是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型yt=P1xt+ut,为例,工ut=0不一定成立。原因是正规方程只有一个(不是两个),=2工(yt-Bxt)(-xt)=0,即工uxt=0,而没有工U
44、=0。所以残差和等于零不一定成立。可决系数R2有时会得ttt负值!原因是有时会有SSE>SST。为维持SSE+SSR=SST,迫使SSRvO。(7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。(8) 回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,H°:p1=p2=阳=0;H1:片不全为零。)若F检验结果能拒绝原假设,应进一步作t检验(检验k次,H。:片=0,(j=1,2,.,k-1),H1:片丰0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,贝则相应解释变量应从
45、模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验,但t检验表的定义有P(|11>ta)=a,P(t<ta)=a(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换(1.41)s(x)卩j*=*j=1,2,k-1其中s(xt)和s(yt)分别表示xt和丁勺样本标准差。B了*可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项)运
46、=卩1*讨+卩2*站+U两侧同乘s(y),得卩j*岁=即即Pj*=叱i=1,2,k-1第-y)一卩1*S(y)(xt1-xi)+卩2*(Xt2-x2)+ut*s(y)所以有既是(1.41)式。(11)利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差越大;有时,样本以外变量的关系不清楚。当样本外变量勺关系与样本内变量勺关系完全不同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,
47、青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。图3.10青铜硬度与锡含量的关系(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(13) 残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性,与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。(18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的
48、推移及时修改模型。建模案例1:全国味精需求量的计量经济模型(见预测1987年第2期)1依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格,消费者收入水平,消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然
49、消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平)2选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f(销售价格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年专业理疗服务协议样本版B版
- 2024年商务协议延续申请书样本版B版
- 上海市青浦区2024-2025学年七年级上学期期中英语试题
- 江南大学《概率论与数理统计》2019-2020学年第一学期期末试卷
- 2024年城市公共自行车系统建设项目合同
- 佳木斯大学《儿童少年卫生学》2021-2022学年第一学期期末试卷
- 暨南大学《经济学》2021-2022学年第一学期期末试卷
- 济宁学院《平面构成》2021-2022学年第一学期期末试卷
- 防火门工程质量保证保险合同(2024版)3篇
- 二零二四年度厦门植物园植物科研试验合同
- 人教部编版六年级道德与法治上册第6课《人大代表为人民》精美课件
- 期末 (试题) -2024-2025学年外研版(三起)(2024)英语三年级上册
- 2023年12月英语四级真题及答案-第1套
- 自来水厂机电安装施工方案范本
- 2020年花城版八年级下册音乐2.《赶牲灵》(18张)ppt课件
- (完整版)体育理论部分练习题
- 电力行业企业安全生产岗位责任清单
- HXD3C型机车停放制动装置原理与操作
- 《化学毒物伤害院内洗消流程处置专家共识》(2021)要点汇编
- 土建劳务合同范本
- 优质护理与责任护士PPT
评论
0/150
提交评论