多元线性回归与最小二乘估计_第1页
多元线性回归与最小二乘估计_第2页
多元线性回归与最小二乘估计_第3页
多元线性回归与最小二乘估计_第4页
多元线性回归与最小二乘估计_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归与最小二乘估计1假定条件、最小二乘估计量和高斯马尔可夫定理 多元线性回归模型:yt = 0 +1xt1 +2xt2 +k- 1xt k -1 + ut (1.1)其中yt是被解释变量(因变量),xt j是解释变量(自变量),ut是随机误差项,i, i = 0, 1, , k - 1是回归参数(通常未知)。 对经济问题的实际意义:yt与xt j存在线性关系,xt j, j = 0, 1, , k - 1, 是yt的重要解释变量。ut代表众多影响yt变化的微小因素。使yt的变化偏离了E( yt) =多元线性回归与最小二乘估计1假定条件、最小二乘估计量和高斯马尔可夫定理 多元线性回归模型

2、:yt = 0 +1xt1 +2xt2 +k- 1xt k -1 + ut (1.1)其中yt是被解释变量(因变量),xt j是解释变量(自变量),ut是随机误差项,i, i = 0, 1, , k - 1是回归参数(通常未知)。 对经济问题的实际意义:yt与xt j存在线性关系,xt j, j = 0, 1, , k - 1, 是yt的重要解释变量。ut代表众多影响yt变化的微小因素。使yt的变化偏离了E( yt) =0 +1xt1 +2xt2 +k- 1xt k -1决定的k维空间平面。 当给定一个样本(yt , xt1, xt2 , xt k -1), t = 1, 2, , T时, 上

3、述模型表示为 y1 =0 +1x11 +2x12 +k- 1x1 k -1 + u1, 经济意义:xt j是yt的重要解释变量。 y2 =0 +1x21 +2x22 +k- 1x2 k -1 + u2, 代数意义:yt与xt j存在线性关系。 . 几何意义:yt表示一个多维平面。 yT =0 +1x T 1 +2x T 2 +k- 1x T k -1 + uT, (1.2)此时yt与x t i已知,j与 ut未知。 (1.3) Y = X+ u , (1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定 随机误差项ut是非自相关的,每一误差项都满足均值为零,方差 s2相同且

4、为有限值,即E(u) = 0 = , Var (u) = E(' ) =2I = 2.假定 解释变量与误差项相互独立,即 E(X 'u) = 0.假定 解释变量之间线性无关。rk(X 'X) = rk(X) = k .其中rk(×)表示矩阵的秩。假定 解释变量是非随机的,且当T 时T 1X 'X Q .其中Q是一个有限值的非退化矩阵。最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS = (Y - X)' (Y - X) = Y 'Y -'X 'Y - Y ' X +

5、'X 'X = Y 'Y - 2'X 'Y + 'X 'X. (1.5)因为Y 'X是一个标量,所以有Y 'X = 'X 'Y。(1.5) 的一阶条件为:= - 2X 'Y + 2X 'X= 0 (1.6)化简得 X 'Y = X 'X因为 (X 'X) 是一个非退化矩阵(见假定),所以有= (X 'X)-1 X 'Y (1.7)因为(1.5)的二阶条件= 2 X 'X ³ 0 (1.8)得到满足,所以 (1.7) 是 (1.5) 的

6、解 。因为X的元素是非随机的,(X 'X) -1X是一个常数矩阵,则是Y的线性组合,为线性估计量。求出,估计的回归模型写为Y = X+ (1.9)其中= ( )' 是的估计值列向量,= (Y - X) 称为残差列向量。因为 = Y - X= Y - X (X 'X)-1X 'Y = I - X (X 'X)-1 X ' Y (1.10)所以也是Y的线性组合。的期望和方差是 E() = E(X 'X)-1 X 'Y = E(X 'X)-1X '(X+ u) =+ (X 'X)-1X ' E(u) =

7、(1.11)Var() = E() ()'= E(X 'X)-1X ' u u' X (X 'X)-1 = E(X 'X)-1X ' s 2I X (X 'X)-1 = 2 (X 'X)-1 . (1.12) 高斯马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。具有无偏性。具有最小方差特性。具有一致性,渐近无偏性和渐近有效性。2. 残差的方差s2 = '/ (T - k) (1.13)s 2是2 的无偏估计量,E(s 2 ) =2。的估计的方差协方差矩阵是() = s2 (X 'X)-1

8、 (1.14)3. 多重确定系数(多重可决系数)Y = X+ = + (1.15)总平方和SST = = Y 'Y - T, (1.16)其中是yt 的样本平均数,定义为= 。回归平方和为SSR = = '- T (1.17)其中的定义同上。残差平方和为SSE = = = ' (1.18)则有如下关系存在, SST = SSR + SSE (1.19)R2 = (1.20)显然有0 < R 2 < 1。R 2 ¿1,拟合优度越好。 4. 调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多

9、重确定系数如下: = 1 - = 1 - (1.21) 5. OLS估计量的分布 若u N (0, 2I ) ,则每个ut都服从正态分布。于是有Y N (X, 2I ) (1.22)因也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有N (, 2 (X 'X)-1 ) (1.23) 6. 方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)= (k -1) + (T- k) (1.24) 回归均方定义为MSR = ,误差均方定义为MSE = 表1.1 方差分析表方差来源平方和自由度均方回归SSR ='-T2k-1MSR = SSR / (k-

10、1)误差SSE = 'T-kMSE = SSE / (T-k)总和SST= Y 'Y - T2T-1H0: 1=2 = =k-1 = 0; H1: j不全为零F = = F(k-1,T-k) (1.25)设检验水平为a,则检验规则是,若 F<F(k-1,T-k),接受H0;若 F > Fa (k-1,T-k) , 拒绝H0。 0 Fa (k-1, T-k) -ta(T-k) 0 ta(T-k)F检验示意图 t检验示意图7t检验H 0:j = 0, (j = 1, 2, , k-1), H 1:bj ¹ 0t = t(T-k) (1.26)判别规则:若

11、89; t ½£ ta(T-k) 接受H 0;若½ t ½> ta(T-k) 拒绝H 0。 8i的置信区间 (1) 全部bi的联合置信区间接受F = (-)' (X 'X) (-) / s2 Fa (k, T-k) (1.27)(-)' (X 'X ) (-) <s2 k Fa (k, T-k),它是一个k维椭球。 (1.28) (2) 单个i的置信区间i = ±s ta/2(T-k) . (1.29) 9预测 (1)点预测C = (1 xT+1 1 xT+1 2 xT+1 k-1 ) (1.30)则

12、T + 1期被解释变量yT+1的点预测式是,= C=0 +1 xT+1 1 + + k-1 xT+1 k-1 (1.31) (2)E(yT+1) 的置信区间预测 首先求点预测式C的抽样分布E() = E(C) = Cb (1.32)Var() = Var(C) = E(C- Cb ) (C- Cb ) ' = EC (- b ) C (- b ) ' = C E(- b ) (- b ) ' C ' = C Var()C '= C s2 (X 'X )-1C ' = s2 C (X 'X )-1C ' , (1.33)因为

13、服从多元正态分布,所以C也是一个多元正态分布变量,即= C N (Cb, s2C (X 'X ) -1C ') (1.34)构成 t 分布统计量如下t = t (T-k) (1.35)置信区间 C± ta/2 (1, T-k) s (1.36) (3) 单个yT+1的置信区间预测yT+1值与点预测值有以下关系 yT+1 = + uT+1 (1.37)其中uT+1是随机误差项。因为E( yT+1) = E(+ uT+1) = C (1.38) Var( yT+1) = Var() + Var(uT+1) = s 2 C (X 'X)-1C ' + 2 =

14、2 (C (X 'X)-1C ' + 1) (1.39)因为服从多元正态分布,所以yT+1也是一个多元正态分布变量,即yT+1 N (C, 2C (X 'X ) -1C '+ 1)与上相仿,单个yT+1的置信区间是C ± ta/2 (T-k) s (1.40) 计算举例:(见计量经济分析第19-27页,熟悉矩阵运算)10. 预测的评价指标注意,以下6个公式中的et表示的是预测误差,不是残差。可以在样本内、外预测。(1) 预测误差。预测误差定义为et = - yt, t = T+1, T+2, (2) 相对误差PE (Percentage Error)。

15、 PE = , t = T+1, T+2, (3) 误差均方根rms error (Root Mean Squared Error) rms error = (4) 绝对误差平均MAE (Mean Absolute Error) MAE = (5) 相对误差绝对值平均MAPE (Mean Absolute Percentage Error) MAPE = (6) Theil系数(Theil Coefficent) Theil = , t = 1, 2, , T以上6个式子中,表示预测值,yt表示实际值。Theil的取值范围是 0,1。显然在预测区间内,当与yt完全相等时,Theil = 0;当

16、预测结果最差时,Theil = 1。公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。11建模过程中应注意的问题(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。 (2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量 = f(耕

17、地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。 例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。 例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4) 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(

18、线性、非线性、无关系)(nonli8)(5)谨慎对待异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000 (6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt =1 xt + ut ,为例,

19、9; = 0不一定成立。原因是正规方程只有一个(不是两个),= 2(yt -xt) (- xt) = 0,即xt = 0,而没有 = 0。所以残差和等于零不一定成立。可决系数R 2有时会得负值!原因是有时会有SSE>SST。为维持SSE+SSR=SST,迫使SSR<0。 (7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。 (8) 回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。 (检验一次, H0: 1=2 = =k-1 = 0; H1: j不全为零。)若F检验结果能拒绝原假设,应进一步作t检验(检验k次,H

20、 0:j = 0, (j = 1, 2, , k-1), H 1:j ¹ 0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验,但t检验表的定义有P(| t | > ta) = a, P( t < ta) = a-ta(T-k) 0 ta(T-k) Fa(k-1,T-k)(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若

21、要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换* =, j = 1, 2, k-1 (1.41)其中s(xt) 和s(yt) 分别表示xt 和yt的样本标准差。*可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),=1*+2*+ + ut*两侧同乘s(yt),得(yt -) =1*(xt1 -) +2*(xt2 -) + + ut* s(yt)所以有j*=j, 即j* =j, i = 1, 2, k-1既是 (1.41) 式。 (11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差

22、越大;有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。青铜硬度 16%锡含量(%) 图3.9 yt的区间预测的变化 图3.10 青铜硬度与锡含量的关系(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。 (13) 残差项应非自相关(用DW检验,亦可

23、判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。 (14) 通过对变量取对数消除异方差。 (15) 避免多重共线性。 (16) 解释变量应具有外生性,与误差项不相关。 (17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。 (18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的推移及时修改模型。建模案例1:全国味精需求量的计量经济模型(见预测1987年第2期) 1依据经济理论选择影响味精需求量变化的因素 依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格,消费者收入水平,消费者偏

24、好。模型为: 商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释

25、变量,商品价格和消费者收入水平。 味精需求量 = f (商品价格,收入水平) 2选择恰当的变量(既要考虑代表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。 味精销售量 = f (销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行

26、修正。 味精销售量 = f (平均销售价格,不变价格的消费水平) 3 收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据 (1972-1982, T = 11)。定义销售量为yt(吨),平均销售价格为x1t(元 / 公斤),不变价格的消费水平为 x2t(元)。相关系数表如下:平均销售价格 (x1t)不变价格的消费水平 (x2t)味精销售量(yt)-0.36710.9771注:临界值r0.05 (9) = 0.60。 4 确定模型形式并估计参数 = -144680.9 + 6313.4 x1t + 690.4 x2t (1) (-3.92) (2.17) (15.32) R2

27、 = 0.97, DW = 1.8, t0.05 (8) = 2.3回归系数6313.4无显著性(x1t与x2t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量x1t,再次回归, = -65373.6 + 642.4 x2t (2) (-10.32) (13.8) R2 = 0.95, DW = 1.5, t0.05 (9) = 2.26 问题:= 6313.4,为什么检验结果是 b1 = 0? 量纲的变化对回归结果会造成影响吗?建模案例2:用回归方法估计纯耕地面积(见数理统计与管理1986年第6期)目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10

28、000的地形图上,然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低,无法直接勾绘,测算。设一个毛耕地图斑面积用S表示,其中不能耕种的面积(扣除面积)用 DS表示,则扣除系数, yi = DS / S =(扣除面积)/(毛耕地图斑面积)。对于每一个图斑,知道精确的扣除系数yi,就很容易根据毛耕地图斑面积S计算出纯耕地面积。现在用回归分析方法,寻找影响扣除系数变化的主要因素,从而建立关于“扣除系数”的回归模型。该论文研究的是湖南地区的耕地面积调查。湖南

29、省属丘陵山区,地形复杂,各种地类犬牙交错,影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析,初步确定三个主要因素,即“坡度”、“地块面积”和“田埂宽度”论文作者在五个县共调查了867个样本点,其中水田样本522个,旱田样本345个。具体做法是首先把867个样本数据按“坡度”分成25个等级,然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值,“平均地块面积”和“平均田埂宽度”。整理样本数据如下:i(序号)yi(扣除系数)x1i(坡度)x2i(平均地块面积)x3i(平均田埂宽度)14.235601.93000.631824.8838

30、11.49180.731237.830021.12530.97312539.4151241.06004.0721 拟建摸型为, yi = b0 + b1 x1i + b2 x2i +b3 x3i + ui利用样本得估计的回归方程 yi = 1.672 + 1.145 x1i + 0.608 x2i + 2.081 x3i (7.3) (0.4) (1.85) F = 221.62 (F.05(3,21) = 3.07, F.01(3,21) = 4.87, t.05(21) = 2.08, t.01(21) = 2.84)统计检验结果表明x2i , x3i为非重要解释变量。剔除之,用yi对x1

31、i再次回归得, yi = 3.34 + 1.35 x1i 实际的验证结果表明,用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积”完全能满足精度要求,从而为减少野外作业强度(不必再测量“地块面积”和“田埂宽度”),迅速完成测算,提供了科学依据。 +b1xt1 + b2xt2 + bk- 1xt k -1 决定的k维空间平面。 当给定一个样本(yt , xt1, xt2 , xt k -1), t = 1, 2, , T时, 上述模型表示为 y1 = b0 +b1x11 + b2x12 + bk- 1x1 k -1 + u1, 经济意义:xt j是yt的重要解释变量。 y2 = b0 +b1

32、x21 + b2x22 + bk- 1x2 k -1 + u2, 代数意义:yt与xt j存在线性关系。 . 几何意义:yt表示一个多维平面。 yT = b0 +b1x T 1 + b2x T 2 + bk- 1x T k -1 + uT, (1.2)此时yt与x t i已知,bj与 ut未知。 (1.3) Y = X b + u , (1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定 随机误差项ut是非自相关的,每一误差项都满足均值为零,方差 s2相同且为有限值,即E(u) = 0 = , Var (u) = E(' ) = s 2I = s 2.假定 解释变

33、量与误差项相互独立,即 E(X 'u) = 0.假定 解释变量之间线性无关。rk(X 'X) = rk(X) = k .其中rk(×)表示矩阵的秩。假定 解释变量是非随机的,且当T 时T 1X 'X Q .其中Q是一个有限值的非退化矩阵。最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS = (Y - X)' (Y - X) = Y 'Y -'X 'Y - Y ' X +'X 'X = Y 'Y - 2'X 'Y + 'X &#

34、39;X. (1.5)因为Y 'X是一个标量,所以有Y 'X = 'X 'Y。(1.5) 的一阶条件为:= - 2X 'Y + 2X 'X= 0 (1.6)化简得 X 'Y = X 'X因为 (X 'X) 是一个非退化矩阵(见假定),所以有= (X 'X)-1 X 'Y (1.7)因为(1.5)的二阶条件= 2 X 'X ³ 0 (1.8)得到满足,所以 (1.7) 是 (1.5) 的解 。因为X的元素是非随机的,(X 'X) -1X是一个常数矩阵,则是Y的线性组合,为线性估计量。

35、求出,估计的回归模型写为Y = X+ (1.9)其中= ( )' 是 b 的估计值列向量,= (Y - X) 称为残差列向量。因为 = Y - X= Y - X (X 'X)-1X 'Y = I - X (X 'X)-1 X ' Y (1.10)所以也是Y的线性组合。的期望和方差是 E() = E(X 'X)-1 X 'Y = E(X 'X)-1X '(Xb + u) = b + (X 'X)-1X ' E(u) = b. (1.11)Var() = E(b) (b)'= E(X 'X)-1

36、X ' u u' X (X 'X)-1 = E(X 'X)-1X ' s 2I X (X 'X)-1 = s 2 (X 'X)-1 . (1.12) 高斯马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。具有无偏性。具有最小方差特性。具有一致性,渐近无偏性和渐近有效性。2. 残差的方差s2 = '/ (T - k) (1.13)s 2是s 2 的无偏估计量,E(s 2 ) =s 2。的估计的方差协方差矩阵是() = s2 (X 'X)-1 (1.14)3. 多重确定系数(多重可决系数)Y = X+ = +

37、 (1.15)总平方和SST = = Y 'Y - T, (1.16)其中是yt 的样本平均数,定义为= 。回归平方和为SSR = = '- T (1.17)其中的定义同上。残差平方和为SSE = = = ' (1.18)则有如下关系存在, SST = SSR + SSE (1.19)R2 = (1.20)显然有0 £ R 2 £ 1。R 2 ®1,拟合优度越好。 4. 调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数如下: = 1 - = 1 - (1.21) 5.

38、 OLS估计量的分布 若u N (0, s 2I ) ,则每个ut都服从正态分布。于是有Y N (Xb, s 2I ) (1.22)因也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有 N ( b, s2(X 'X)-1 ) (1.23) 6. 方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)= (k -1) + (T- k) (1.24) 回归均方定义为MSR = ,误差均方定义为MSE = 表1.1 方差分析表方差来源平方和自由度均方回归SSR ='-T2k-1MSR = SSR / (k-1)误差SSE = 'T-kMSE

39、= SSE / (T-k)总和SST= Y 'Y - T2T-1H0: b1= b2 = = bk-1 = 0; H1: bj不全为零F = = F(k-1,T-k) (1.25)设检验水平为a,则检验规则是,若 F £ Fa (k-1,T-k),接受H0;若 F > Fa (k-1,T-k) , 拒绝H0。 0 Fa (k-1, T-k) -ta(T-k) 0 ta(T-k)F检验示意图 t检验示意图7t检验H 0:bj = 0, (j = 1, 2, , k-1), H 1:bj ¹ 0t = t(T-k) (1.26)判别规则:若½ t 

40、89;£ ta(T-k) 接受H 0;若½ t ½> ta(T-k) 拒绝H 0。 8bi的置信区间 (1) 全部bi的联合置信区间接受F = (b -)' (X 'X) (b -) / s2 Fa (k, T-k) (1.27)( b -)' (X 'X ) ( b -) £ s2 k Fa (k, T-k),它是一个k维椭球。 (1.28) (2) 单个bi的置信区间bi = ±s ta/2(T-k) . (1.29) 9预测 (1)点预测C = (1 xT+1 1 xT+1 2 xT+1 k-1 )

41、(1.30)则T + 1期被解释变量yT+1的点预测式是,= C=0 +1 xT+1 1 + + k-1 xT+1 k-1 (1.31) (2)E(yT+1) 的置信区间预测 首先求点预测式C的抽样分布E() = E(C) = Cb (1.32)Var() = Var(C) = E(C- Cb ) (C- Cb ) ' = EC (- b ) C (- b ) ' = C E(- b ) (- b ) ' C ' = C Var()C '= C s2 (X 'X )-1C ' = s2 C (X 'X )-1C ' , (

42、1.33)因为服从多元正态分布,所以C也是一个多元正态分布变量,即= C N (Cb, s2C (X 'X ) -1C ') (1.34)构成 t 分布统计量如下t = t (T-k) (1.35)置信区间 C± ta/2 (1, T-k) s (1.36) (3) 单个yT+1的置信区间预测yT+1值与点预测值有以下关系 yT+1 = + uT+1 (1.37)其中uT+1是随机误差项。因为E( yT+1) = E(+ uT+1) = Cb (1.38) Var( yT+1) = Var() + Var(uT+1) = s 2 C (X 'X)-1C 

43、9; + s 2 = s 2 (C (X 'X)-1C ' + 1) (1.39)因为服从多元正态分布,所以yT+1也是一个多元正态分布变量,即yT+1 N (Cb, s2C (X 'X ) -1C '+ 1)与上相仿,单个yT+1的置信区间是C ± ta/2 (T-k) s (1.40) 计算举例:(见计量经济分析第19-27页,熟悉矩阵运算)10. 预测的评价指标注意,以下6个公式中的et表示的是预测误差,不是残差。可以在样本内、外预测。(3) 预测误差。预测误差定义为et = - yt, t = T+1, T+2, (4) 相对误差PE (Per

44、centage Error)。 PE = , t = T+1, T+2, (3) 误差均方根rms error (Root Mean Squared Error) rms error = (4) 绝对误差平均MAE (Mean Absolute Error) MAE = (5) 相对误差绝对值平均MAPE (Mean Absolute Percentage Error) MAPE = (6) Theil系数(Theil Coefficent) Theil = , t = 1, 2, , T以上6个式子中,表示预测值,yt表示实际值。Theil的取值范围是 0,1。显然在预测区间内,当与yt完全

45、相等时,Theil = 0;当预测结果最差时,Theil = 1。公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。11建模过程中应注意的问题(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。 (2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量 = f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。 例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。 例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论