3多元线性回归与最小二乘估计_第1页
3多元线性回归与最小二乘估计_第2页
3多元线性回归与最小二乘估计_第3页
3多元线性回归与最小二乘估计_第4页
3多元线性回归与最小二乘估计_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.3 多元线性回归与最小二乘估计1 假定条件、最小二乘估计量和高斯马尔可夫定理多元线性回归模型:(1.1)yt =0 + 1xt1 +2xt2 + k- 1xt k -1 + ut,其中yt是被解释变量(因变量), xt j是解释变量(自变量), ut是随机误差项,i, i = 0, 1,k - 1 是回归参数(通常未知)。对经济问题的实际意义:yt与xt j存在线性关系,xt j, j = 0, 1, k - , 1, 是yt的重要解释变量。 ut代表众多影响yt变化的微小因素。使 yt的变化偏离了E( yt) = 0 + 1xt1 +2xt2 + k-1xt k -1 决定的 k 维空间

2、平面。当给定一个样本(yt , xt1,xt2 , , xt k -1), t = 1, 2,T 时 , , 上述模型表示为xt j是yt的重要解释变量。yt与xt j存在线性关系。yt表示一个多维平面。(1.2)y1 =0 +1x11+2x12+k- 1x1k -1 + u1,经济意义:y2 =0 +1x21+2x22+k- 1x2k -1 + u2,代数意义:.几何意义:yT = 0 + 1x T 1 + 2x T 2 + + k- 1x T k -1 + uT,此时yt与x t i 已知,j与 ut未知。y1x11x1 jx1 k 10u1y21x21x2jx2 k 11u2yT(T 1

3、)1xT1xTjxT k 1(T k)k1(k 1)uT(T 1)Y= X + u ,(1.3)(1.4)4为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。2 相同且假定 随机误差项ut 是非自相关的,每一误差项都满足均值为零,方差 为有限值,即100E(u) = 0 =2200Var (u) = E( u? u?' ) = I =001假定解释变量与误差项相互独立,即E(X 'u) = 0假定解释变量之间线性无关。rk(X 'X) = rk(X) = k其中 rk( )表示矩阵的秩。假定解释变量是非随机的,且当T 时 1T X 'X Q其中 Q 是

4、一个有限值的非退化矩阵。最小二乘(OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值minS = (Y - X ?)' (Y- X ?) = Y'Y- ?'X 'Y - Y' X ? + ?'X 'X ?= Y'Y- 2 ?'X 'Y +?'X 'X ?Y 'X ?是一个标量,所以有Y 'X ? = ?'X 'Y。 (1.5) 的一阶条件为:(1.5)(1.6)化简得X 'Y = X 'X ?(X 'X) 是一个非退化矩阵(

5、见假定)?= (X 'X)-1 X 'Y1.7)因为 X 的元素是非随机的,(X 'X) -1X是一个常数矩阵,则估计量。求出 ?,估计的回归模型写为?是 Y的线性组合,为线性Y = X ?+ u?(1.9)其中 ?= ( ?0?1?k 1 )' 是 的估计值列向量,u?= (Y - X ?) 称为残差列向量。因为u? = Y - X ?= Y - X (X 'X)-1X 'Y = I - X (X 'X)-1 X ' Y(1.10)所以u?也是Y的线性组合。?的期望和方差是E( ?) = E(X 'X)-1 X '

6、;Y = E(X 'X)-1X '(X + u)=+ (X 'X)-1X 'E(u) =(1.11)Var( ?) = E( ?) ( ?)'= E(X 'X)-1X 'u u' X (X 'X)-1= E(X 'X)-1X ' 2I X (X 'X)-1 =2 (X 'X)-1(1.12)高斯马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。?具有无偏性。?具有最小方差特性。?具有一致性,渐近无偏性和渐近有效性。2. 残差的方差s2 = u?' u?/ (T -

7、 k)(1.13)s 2是 的无偏估计量,E(s 2) =。?的估计的方差协方差矩阵是Var ( ?) = s (X 'X)-1(1.14)3. 多重确定系数(多重可决系数)y = x ?+u?=Y?+u?(1.15)总平方和- 2X 'Y + 2X 'X(1.16)T22SST = t 1(yt y)2 = Y 'Y - Ty2,其中 y是 yt 的样本平均数,定义为y = ( tT1 yt)/T 。回归平方和为SSR =tT1(y?t y)2 = Y?'Y?- Ty2其中 y 的定义同上。残差平方和为TTSSE = t 1 (yt y?t ) =t

8、1 u?t = u?' u?则有如下关系存在,SST = SSR + SSE2 SSR Y?' Y? Ty2R=SST Y Y -Ty2显然有 0 R 21。 R 2 1 ,拟合优度越好。(1.17)(1.18)(1.19)(1.20)4. 调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损R2 = 1 - SSE/(T k) 1 (SST/(T 1)T 1 )( SST SSR SSTTkTTk1(1 R2)(1.21)5. OLS 估计量的分布若 u N (0,I ) ,则每个ut都服从正态分布。于是有Y N (X , I )(1

9、.22)? 也是 u 的线性组合(见公式1.7) ,依据(1.11)和(1.12)有? N ( ,(X 'X)-1 )(1.23)6. 方差分析与F 检验与SST相对应,自由度T-1 也被分解为两部分,( T-1) = (k -1) + (T- k)(1.24)MSRSSR,误差均方定义为MSE = SSE表 1.1方差分析表方差来源平方和自由度均方回归k-1MSR = SSR/ (k-1)SSR =Y?'Y?-Ty2误差SSE = u?'u?T-kMSE = SSE / (T-k)总和SST= Y 'Y - T y2T-1H0:1= 2 = = k-1 = 0

10、; H1: j不全为零失,又定义调整的多重确定系数R 2如下:6MSRSSR/( k 1)F =F (k-1 T-k)MSESSE/(T k)(k-1,T-k)F 检验示意图t 检验示意图7 t 检验H0:j = 0,(j= 1, 2,k-1, ), H 1: j 0判别规则:若t =?js( ?j )= ?jVar(?)j 1?js2(X'X) 1j 1t(T-k)(1.26)t t k 接受 H 0;若t> t k 拒绝 H 0。218 i 的置信区间1 ) 全部 i 的联合置信区间接受F = 1 ( - ?)' (X 'X) ( - ?) / s2F (k,

11、 T-k)(1.27)k( - ?)' (X 'X ) ( - ?)s2k F (k, T-k),它是一个k维椭球。(1.28)( 2) 单个 i 的置信区间1 = ?i ± vj 1 s t k .(1.29)9 预测( 1 )点预测C = (1xT+1 1xT+1 2 xT+1 k-1 )(1.30)则 T + 1 期被解释变量yT+1 的点预测式是,y?T 1 = C ?= ?0 + ? 1 xT+1 1 + + ? k-1 xT+1 k-1(1.31)( 2) E(yT+1) 的置信区间预测首先求点预测式C ?的抽样分布E( y?T 1) = E(C ?) =

12、 C(1.32)Var( y?T 1) = Var(C ?) = E(C ?- C ) (C ?- C ) ' = EC ( ?- ) C ( ?- ) ' = C E( ?- ) ( ?-) 'C '(1.33)= C Var( ?)C '= C 2 (X 'X )-1C '= 2 C (X 'X )-1C? 服从多元正态分布,所以C ? 也是一个多元正态分布变量,即(1.34)y?T 1= C ? N (C ,2C (X 'X ) -1C ')构成 t 分布统计量如下置信区间y?T 1 E(y?T 1) C ?

13、 C t =s C(X'X) 1C' s C(X'X) 1C't (T-k)C ? t /2 (1, T-k) s C(X'X) 1C'(1.35)(1.36)(3) 单个yT+1 的置信区间预测yT+1 值与点预测值y?T 1 有以下关系yT+1 = y?T 1+ uT+1其中 uT+1 是随机误差项。因为E( yT+1) = E( y?T 1+ uT+1) = CVar( yT+1) = Var( y?T 1) + Var(uT+1) = 2 C (X 'X)-1C ' + 2=2 (C (X 'X)-1C '

14、 + 1)因为?服从多元正态分布,所以yT+1 也是一个多元正态分布变量,即yT+1N (C , 2C (X 'X ) -1C '+ 1)与上相仿,单个yT+1 的置信区间是C ? t /2 (T-k) s C(X'X) 1C' 1计算举例:(见计量经济分析第19-27 页,熟悉矩阵运算)(1.37)(1.38)(1.39)(1.40)10 预测的评价指标注意,以下6 个公式中的et表示的是预测误差,不是残差。可以在样本内、外预测。(1) 预测误差。预测误差定义为et = y?t- yt, t = T+1, T+2, 是对单点预测误差大小的测量。(2) 相对误差

15、PE (Percentage Error)。y?t ytPE = t t , t = T+1, T+2, yt是对单点预测相对误差大小的测量。(3) 误差均方根rms error (Root Mean Squared Error)1T2rms error =(y?tyt )Tt1通过若干个预测值对预测效果进行综合评价。(4) 绝对误差平均MAE (Mean Absolute Error)1TMAE =y?t ytTt1通过若干个预测值对预测的绝对误差进行综合评价。(5) 相对误差绝对值平均MAPE (Mean Absolute Percentage Error)MAPE =T1 tT1y?t

16、ytyt综合运用以上4 种方法,通过若干个预测值对预测的相对误差进行综合评价。以上 6 个式子中,y?t表示预测值,yt表示实际值。Theil 的取值范围是0,1。显然在预测区间内,当y?t与yt完全相等时,Theil = 0;当预测结果最差时,Theil = 1 。公式中的累加范围是用1 至 T 表示的,当然也可以用于样本外预测评价。11 建模过程中应注意的问题( 1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国 1992 年的 GDP 是 1980 年的 5.9 倍,而按固定价格计算,我国1992 年的 GDP 是 1980 年的 2.8倍。 另外从图中还可看

17、出,1980-1992 期间按名义价格计算的GDP 曲线一直是上升的,而按不变价格(1980 年价格)计算的GDP 曲线在 1989 年出现一次下降。可见研究经济变量应该剔除物价变动因素。(2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例 :我国粮食产量= f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况, “耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例 :关于某市的食用油消费量,文革前 常驻人口肯定是重要解释变量。现在则不同,消费水平 是重要解释变量,因为食用油供应方式已改变。(3) 当引用现成数据时,要注意数据的

18、定义是否与所选定的变量定义相符。例: “农业人口”要区别是 “从事农业劳动的人口”还是相对于城市人口的 “农业人口”。例: 2002 年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4) 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)nonli8 )(5)谨慎对待离群值(outlier) 。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71

19、240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,(u?t 2 )yt = 1 xt + ut,为例,u?t = 0 不一定成立。原因是正规方程只有一个(不是两个)= 2(yt -1 xt) (- xt) = 0 ,即u?t xt = 0,而没有u?t = 0。所以残差和等于零不一定成立。可决系数R 2有时会得负值!原因是有时会有SSE>

20、SST。为维持SSE+SSR=SST,迫使SSR<0。(7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t 值。 即不会影响统计检验结果。以一元回归模型的估计公式为例说明之。? (xtx)(yty)1=1 (xtx)2?1(xtx)( yty)(xt x)t =s( ?1)(xt x)?(xt x)( yt y) (T 2)(xtx)2(yty?t )2(8) 回归模型给出估计结果后,首先应进行F 检验。 F 检验是对模型整体回归显著性的检验。 (检验一次,H0: 1= 2 = = k-1 = 0; H1: j不全为零。)若 F 检验结果能拒绝原假设,应进一步作t检验( 检

21、验 k 次, H 0:j = 0, (j = 1, 2, k-1, ), H 1: j 0) 。 t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t 检验, 则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作 F 与 t 检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的 t 检验是双端检验,但t 检验表的定义有P( t > t ) = , P( t < t ) =(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比 较大小。若要在多元回归模型中比较解释变量的相对重要性,

22、应该对回归系数作如下变换s(xtj ) s(yt)j = 1, 2,k -1(1.41)其中s(xt) 和s(yt) 分别表示xt 和yt的样本标准差。?j *可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项)yt y xt1x1xt2 x2= 1*+ 2*+ + uts(yt)s(xt1 )s(xt2)两侧同乘s(yt),得s(yt)s(yt)(yt-y ) = 1*t (xt1 -x1) + 2*t (xt2 -x2) + + ut s(yt)s(xt1)s(xt2)所以有j* s(yt) = j, 即j* =js(xtj )s(xtj )s(yt)i =

23、 1, 2,k -1既是 (1.41) 式。(11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;y?F N ( 0 + 1 xF,(1+ 1 + (xF x) 2 ) )T(xt x)从公式看,当xF = x 时, y?F 的分布方差最小,即预测区间最小,预测精度最高。而预测点xF越远离x, y?F 的分布方差越大,即预测区间越大,预测精度越差。有时, 样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3.10 给出青铜硬度与锡含量的关系曲线。若以锡含量为

24、0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为 0-16%时的关系。图 3.9yt的区间预测的变化(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(13) 残差项应非自相关(用DW 检验,亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性,与误差项不相关。(17) 应具有高度概括性。若模型的各种

25、检验及预测能力大致相同,应选择解释变量较 少的一个。(18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的推移及时修改模型。建模案例1: 全国味精需求量的计量经济模型(见预测1987 年第 2 期)1 依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格,消费者收入水平,消费者偏好。模型为:商品需求量= f ( 商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格: 味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会

26、对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格: 味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好 : 由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量= f (商品价格,收入水平)2 选择恰当的变量(既要考虑代表性,也要考虑可能性)用 销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求

27、量。味精商品价格即销售价格。用 人均消费水平代替收入水平。 因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量= f (销售价格,人均消费水平 )用 平均价格作为销售价格的代表变量。 不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。味精销售量= f (平均销售价格,不变价格的消费水平)3 收集样本数据(抽样调查,引用数据)从中国统计年鉴和有关部门收集样本数据(1972-1982, T = 11 。数据见下页。)。定义销售量为yt(吨),平均销售

28、价格为x1(元 / 公斤) ,不变价格的消费水平为x2(元) 。相关系数表如下:平均销售价格(x1t)不变价格的消费水平(x2t)味精销售量(yt)-0.36710.9771注: 临界值r0.05 (9) = 0.60。60000500004000030000200001000060000500004000030000200001000011.011.211.411.611.812.012.21001201401601804 确定模型形式并估计参数y?t= -144680.9 + 6313.4 x1t + 690.4 x2t1)(-3.92)(2.17)(15.32)R2 = 0.97, DW

29、 = 1.8, t0.05 (8) = 2.3回归系数6313.4 无显著性(x1t与x2t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量x1t,再次回归,y?t = -65373.6 + 642.4 x2t2)(-10.32)(13.8)R2 = 0.95,DW = 1.5, t0.05 (9) = 2.26: ?1 = 6313.4, 为什么检验结果是1 = 0? 量纲的变化对回归结果会造成影响吗?建模案例2: 用回归方法估计纯耕地面积(见数理统计与管理1986 年第 6 期)目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10000 的地形图上,然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论