多元线性回归模型_第1页
多元线性回归模型_第2页
多元线性回归模型_第3页
多元线性回归模型_第4页
多元线性回归模型_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 多元线性回归模型多元线性回归模型 简单线性回归模型的推广 2 第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因 变量的变动可能不仅与一个解释变量有 关。因此,有必要考虑线性模型的更一 般形式,即多元线性回归模型: t=1,2,n 在这个模型中,y由x1,x2,x3, xk所 解释,有k+1个未知参数0、1、2、 k 。 这里,“斜率j的含义是其它变量不 变的情况下,xj改变一个单位对因变量 所产生的影响。 tktkttt xxxyu. 22110 3 例例1 1: 其中,其中,y=y=在食品上的总支出在食品上的总支出 x=x=个人可支配收入个人可支配收入 p=p=食品价格指

2、数食品价格指数 用美国用美国1959-19831959-1983年的数据,得到如下回归结果括号中年的数据,得到如下回归结果括号中 数字为标准误差:数字为标准误差: y y和和x x的计量单位为的计量单位为1010亿美元亿美元 ( (按按19721972不变价格计不变价格计 算算).). u 210 pxy )114. 0()003. 0()6 . 9( 99. 0739. 0112. 07 .116 2 rpxy ),( 数总消费支出价格平减指 食品价格平减指数 1001972100p 4 多元线性回归模型中斜率系数的含义 上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上

3、升10亿美元1个billion,食品消费支出增 加1.12亿元0.112个 billion。 收入不变的情况下,价格指数每上升一 个点, billion 5 例例2: 其中,其中,ct=消费,消费,dt=居民可支配收入居民可支配收入 lt=居民拥有的流动资产水平居民拥有的流动资产水平 2的含义是,在流动资产不变的情况下,可支配收入变动的含义是,在流动资产不变的情况下,可支配收入变动 一个单位对消费额的影响。这是收入对消费额的直接影响。一个单位对消费额的影响。这是收入对消费额的直接影响。 收入变动对消费额的总影响收入变动对消费额的总影响=直接影响直接影响+间接影响。间接影响。 间接影响:收入影响

4、流动资产拥有量间接影响:收入影响流动资产拥有量影响消费额影响消费额 但在模型中这种间接影响应归因于流动资产,而不是收入,但在模型中这种间接影响应归因于流动资产,而不是收入, 因而,因而,2只包括收入的直接影响。只包括收入的直接影响。 在下面的模型中:在下面的模型中: 这里,这里,是可支配收入对消费额的总影响,显然是可支配收入对消费额的总影响,显然和和2的的 含义是不同的。含义是不同的。 tttt uldc 321 ntudc ttt ,.,2 , 1, 6 回到一般模型 t=1,2, ,n 即对于n组观测值,有 tktkttt xxxyu. 22110 nknknnnn kk kk uxxxx

5、y uxxxxy uxxxxy . . . . 3322110 2232322212102 1131321211101 7 其矩阵形式为: 其中 n y y y y . 2 1 knn k k xx xx xx x .1 . .1 .1 1 212 111 uxy n k u u u u . , . 2 1 2 1 0 8 第二节 多元线性回归模型的估计 多元线性回归模型的估计与双变量线性模 型类似,仍采用最小二乘法。当然,计算要复 杂得多,通常要借助计算机。理论推导需借助 矩阵代数。下面给出最小二乘法应用于多元线 性回归模型的假设条件、估计结果及所得到的 估计量的性质。 一假设条件 1e(u

6、t)=0, t=1,2,n 2e(ui uj)=0, ij 3e(ut2)=2, t=1,2,n 4xjt是非随机量, j=1,2, k t=1,2, n 9 除上面4条外,在多个解释变量的情况下,还有两个条 件需要满足: 5k+1 n; 即观测值的数目要大于待估计的参数的个数 要有足够数量的数据来拟合回归线。 6各解释变量之间不存在严格的线性关系。 10 上述假设条件可用矩阵表示为以下四个条件: (1) e(u)=0 (2) 由于 显然, 仅当 e(ui uj)=0 , ij e(ut2) = 2, t=1,2,n 这两个条件成立时才成立,因此, 此条件相当前面条件 (2), (3)两条,即

7、各期扰动项互不相关,并具有常数方差。 n iuue 2 , )( 2 21 2 2 212 121 2 1 21 2 1 . . . . . . nnn n n n nuuuuu uuuuu uuuuu uuu u u u uu n iuue 2 )( 11 3 x 是是一个非随机元素矩阵。 4rank(x) = (k+1) n. -相当于前面 (5)、 (6) 两条 即矩阵x的秩 =k+1)0,b0) m = a(r - 2)b 这里,变量非线性和参 数非线性并存。 对此方程采用对数变换 logm=loga+blog(r-2) 令y=logm, x=log(r-2), 1= loga, 2=

8、b 那么变换后的模型为: yt=1+2xt + ut 51 将ols法应用于此模型,可求得1和2的估计值 从而可通过以下两式求出a和b估计值: 应当指出,在这种情况下,线性模型估计量的性质 如 blue,正态性等只适用于变换后的参数估计量 , 而 不一定适用于原模型参数的估计量 和 。 21 , 2 1 ) log( b a 21 和 a b 52 例4上例在确定货币需求量的关系式时,我们实际上 给模型加进了一个结束条件。根据理论假设,在某一利率 水平上,货币需求量在理论上是无穷大。我们假定这个利 率水平为2%。假设不给这一约束条件,而是从给定的数 据中估计该利率水平的值,那么模型变为: m

9、= a(r - c)b 式中a,b,c均为参数。仍采用对数变换,得到 log(mt) = loga + blog(rt - c) + ut t=1,2,n 我们无法将log(rt-c)定义为一个可观测的变量x, 因为这 里有一个未知量c。也就是说,此模型无法线性化。在这 种情况下,只能用估计非线性模型参数值的方法。 53 四非线性回归 模型 y = a(x - c)b 是一个非线性模型,a、b和c是要估计的参数 。此模型无法用取对数的方法线性化,只能 用非线性回归技术进行估计,如非线性最小 二乘法nls。该方法的原那么仍然是残 差平方和最小。计量经济软件包通常提供这 类方法,这里给出有关非线性

10、回归方法的大 致步骤如下: 54 非线性回归方法的步骤 1 首先给出各参数的初始估计值合理猜测值 ; 2 用这些参数值和x观测值数据计算y的各期预 测值 拟合 值 ; 3计算各期残差,然后计算残差平方和e2; 4对一个或多个参数的估计值作微小变动; 5计算新的y预测值 、残差平方和e2; 6假设新的e2小于老的e2,说明新参数估 计值优于老估 计值,那么以它们作为新起点; 7重复步骤4,5,6,直至无法减小e2为止。 8最后的参数估计值即为最小二乘估计值。 y y y 55 第五节 假设检验 一系数的显著性检验 1 单个系数显著性检验 目的是检验某个解释变量的系数j是否为0,即该解释 变量是否

11、对因变量有影响。 原假设: h0: j=0 备择假设: h1: j0 检验统计量是自由度为 n-k-1 的 t 统计量: t(n-k-1) ) ( ) ( j j j j var se t 56 单个系数显著性检验的检验统计量是自由度为 n-k-1 的 t 统计量: t(n-k-1) 其中, 为矩阵 主对角线上第 j+1个元素。而 ) ( ) ( j j j j var se t ) ( j var 21 )( x x 1 1 2 2 kn xyyy kn e t 57 例:柯布-道格拉斯生产函数 用柯布和道格拉斯最初使用的数据美国1899- 1922年制造业数据估计经过线性变换的模型 得到如

12、下结果括号内数字为标准误差 : )15. 0()06. 0()43. 0( 96. 0log81. 0log23. 018. 0 log 2 rlky 请检验“斜率系数和的显著性。 解:(1)检验的显著性 原假设: h0: = 0 备择假设: h1: 0 loglogloglogloglkay 58 由回归结果,我们有: 用=24321查t表,5%显著性水平下,tc 2.08. t3.83 tc 2.08, 故拒绝原假设h0 。 结论:显著异于0。 (2)检验 的显著性 原假设: h0: = 0 备择假设: h1: 0 由回归结果,我们有: t5.4 tc 2.08, 故拒绝原假设h0 。 结

13、论:显著异于0。 59 2假设干个系数的显著性检验联合假设检验 有时需要同时检验假设干个系数是否为0,这 可以通过建立单一的原假设来进行。 设要检验g个系数是否为0,即与之相对应的g 个解释变量对因变量是否有影响。不失一般性, 可设原假设和备择假设为: h0: 1 =2 = =g =0 h1: h0不成立 (即x1, xg中某些变量对y有 影响) 60 分析: 这实际上相当于检验g个约束条件 1= 0,2 = 0, ,g = 0 是否同时成立。 假设h0为真,那么正确的模型是: 据此进行回归有约束回归,得到残差平方 和 sr是h0为真时的残差平方和。 假设h1为真,正确的模型即原模型: tkt

14、ktt xxyu. 110 tktktggt xxyu. 110 2 110 . kt r ktg r g r tr xxys 61 据此进行无约束回归全回归,得到残差平方和 s是h1为真时的残差平方和。 如果h0为真,那么不管x1, xg这g个变量是否包括在模 型中,所得到的结果不会有显著差异,因此应该有: s sr 如果h1为真,那么由上一节中所讨论的残差平方和e2的 特点,无约束回归增加了变量的个数,应有 s sr 通过检验二者差异是否显著地大,就能检验原假设是否 成立。 2 k110 . kttt xxys 62 所使用的检验统计量是: f(g, n-k-1) 其中, g为分子自由度,

15、 n-k-1为分母自由度。 使用 的作用是消除具体问题中度量单位 的影响, 使计算出的 f 值是一个与度量单位无关 的量。 )1( kns gss f r s ss r 63 例:给定20组y, x1, x2, x3的观测值,试检验模 型 中x1和x3对y是否有影响? 解:1全回归 估计 得到:s =e2 = 25 2有约束回归 估计 得到:sr =e2 = 30 ttttt xxxyu 3322110 ttt xyu 220 64 原假设 h0: 1 = 3 = 0 备择假设 h1: h0不成立 我们有:n=20, g=2, k=3 用自由度2,16查f分布表,5%显著性水平 下,fc f=

16、1.6 fc =3.63, 故接受h0。 结论:x1和x3对y无显著影响 6.1 1625 22530 )1( kns gss f r 65 3全部斜率系数为0的检验 上一段结果的一个特例是所有斜率系数均为0的 检验,即回归方程的显著性检验: h0: 1 =2 = = k = 0 也就是说,所有解释变量对y均无影响。 注意到 g=k, 那么该检验的检验统计量为: 2 )(yysr 22 t )(e y yy ut时,模型为 )1( )( )1( )( 2 22 kne keyy kns kss f r 66 分子分母均除以 ,有 从上式不难看出,全部斜率为0的检验实际是检验r2的值 是否显著异

17、于0,如果接受原假设,那么说明因变量的行为 完全归因于随机变化。假设拒绝原假设,那么说明所选择模 型对因变量的行为能够提供某种程度的解释。 2 )(yy 1 )( )( 1 2 2 2 2 kn yy e k yy e f ) 1()1 ( 2 2 knr kr 67 二检验其他形式的系数约束条件二检验其他形式的系数约束条件 上面所介绍的检验假设干个系数显著性的方法上面所介绍的检验假设干个系数显著性的方法 ,也可以应用于检验施加于系数的其他形式的约,也可以应用于检验施加于系数的其他形式的约 束条件,如束条件,如 检验的方法仍是分别进行有约束回归和无约束检验的方法仍是分别进行有约束回归和无约束

18、回归,求出各自的残差平方和回归,求出各自的残差平方和 sr 和和 s,然后用,然后用 f 统计量进行检验。统计量进行检验。 当然,单个系数的假设检验,如当然,单个系数的假设检验,如 h0: 3=1.0, 亦可用亦可用t检验统计量进行检验。检验统计量进行检验。 1, 1 1 , 5 . 2, 0 . 1 3 2 43 42 68 例:cobb-douglas生产函数 y=akl 试根据美国制造业1899-1922年数据检验规模效益不变的 约束:+=1 解:1全回归 2有约束回归: 将约束条件代入,要回归的模型变为: y=akl1- 为防止回归系数的不一致问题, 两边除以l,模型变 换为: y/l

19、=a(k/l) 252)15. 0()06. 0()43. 0(: 96. 0log81. 0log23. 018. 0 log 2 fse rlky 69 回归,得: 由软件包可得到约束回归和全回归的残差平方和分别为 sr 3检验 原假设 h0:+1 备择假设 h1:+1 本例中,g=1, k=2, n=24 0 .38,63. 0 )04. 0()02. 0(: )/log(25. 002. 0)/log( 2 fr se lkly 18. 0 210710. 0 10710. 00716. 0 ) 1( kns gss f r 70 用自由度1,21查f表,5%显著性水平下, fc f=

20、0.18 fc 故接受原假设h0:+1 4结论 我们的数据支持规模收益不变的假设。 71 第六节 预测 我们用ols法对多元回归模型的参数进行 了估计之后,如果结果理想,那么可用估计 好的模型进行预测。与双变量模型的作法类 似,预测指的是对各自变量的某一组具体值 来预测与之相对应的因变量值 。当然,要 进行预测,有一个假设前提应当满足,即拟 合的模型在预测期也成立。 点预测值由与给定的诸x值对应的回归值 给出,即 而预测期的实际y值由下式给出: 其中u0是从预测期的扰动项分布中所取的 值。 ).1( 02010k xxxc . 020210100 cxxxy kk 0 y 0002021010

21、0 .ucuxxxy kk 72 预测误差可定义为: 两边取期望值,得 因此,ols预测量 是一个无偏预测量。 000 yye ) ( 0 cu 0 ) ()()( 00 ecueee 0 cy 73 预测误差的方差为: 从 的定义可看出, 为正态变量的线性函数,因此,它本身 也服从正态分布。故 )(1( )( ) ()()( 12 212 00 cxxc cxxc cvarcuvarevar 0 e 0 e )( )( 0 00 ese eee ) 1 , 0( )(1 1 0 n cxxc e 74 由于 为未知,我们用其估计值 代替它,有 那么 的95%置信区间为: 其中, ) 1( 2

22、 knet )1( )(1 1 00 knt cxxc yy cxxctc 1 025.0 )(1 0 yc 0 y 75 例例 用书上p79例4.3的数据,预测x2=10,x3=10的y值。 解: 由例4.3我们已得到: 因此 的95%置信区间为: 或 3.66至23.65之间. 14)10(5 . 1)10(5 . 24 0 y 7 . 6 10 10 1 4/102/38 2/3110/45 810/4510/267 )10101 ()( 1 cxxc 5 .106 xy108 y y 75. 0 125 5 .106108 1 1 2 2 kn xyyy kn et 7 . 6175.

23、 0303. 414 0 y 76 第七节 虚拟变量dummy variables 一虚拟变量的概念 在回归分析中,常常碰到这样一种情况,即因变量的波动 不仅依赖于那种能够很容易按某种尺度定量化的变量如收 入、产出、价格、身高、体重等,而且依赖于某些定性的 变量如性别、地区、季节。 在经济系统中,许多变动是不能定量的。如政府的更迭 工党-保守党、经济体制的改革、固定汇率变为浮动汇率、 从战时经济转为和平时期经济等。这样一些变动都可以用大 家所熟悉的0-1变量来表示,用1表示具有某一“品质或属 性,用0表示不具有该“品质或属性。这种变量在计量经济 学中称为“虚拟变量。虚拟变量使得我们可以将那些无

24、法 定量化的变量引入回归模型中。下面给出几个可以引入虚拟 变量的例子。 77 例1:你在研究学历和收入之间的关系,在你的样本中,既 有女性又有男性,你打算研究在此关系中,性别是否 会导致差异。 例2:你在研究某省家庭收入和支出的关系,采集的样本中 既包括农村家庭,又包括城镇家庭,你打算研究二者 的差异。 例3:你在研究通货膨胀的决定因素,在你的观测期中,有 些年份政府实行了一项收入政策。你想检验该政策是 否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方法是 分别进行两类情况的回归,然后看参数是否不同。另一种 方法是用全部观测值作单一回归,将定性因素的影响用虚 拟变量引入模型。

25、 78 二虚拟变量的使用方法 1 截距变动 设y表示消费,x表示收入,我们有: 假定不变。 对于5年战争和5年和平时期的数据,我们可分别估计上 述两个模型,一般将给出 的不同值。 现引入虚拟变量d, 将两式并为一式: 其中, xy uxy 2 1 和平时期: 战时: udxy 210 0 战战 时时 d = 1 平平 时时 79 此式等价于以下两式: 截距变动,斜率不变 在包含虚拟变量的模型中,d的数据为0,0,0,0,0, 1,1,1,1,1。 估计结果如以下图所示: 应用t检验,2是否显著 可以说明截距项在两个时 期是否有变化。 uxy uxy 120 10 平时: 战时: y 平 时 战

26、 时 2-1=2 1=0 x 80 2 斜率变动 如果我们认为战时和平时的消费函数中,截距 项不变,而斜率不同,即变动,那么可用下面的 模型来研究两个时期边际消费倾向的差异: 其中,d= 不难看出,上式相当于以下两式: 同样,包括虚拟变量的模型中,2是否显著可以 说明斜率在两个时期是否变化。 udxxy uxdy )( )( 21 21 即: 平时 战时 1 0 uxy uxy )( 21 1 y 战 时 平 时 x 81 3斜率和截距都变动 在这种情况下,模型可设为: 其中,d= 此式等价于以下两个单独的回归式: udxxdy uxddy )( )()( 4321 4321 即: 平时 战时

27、 1 0 uxy uxy )(平时: 战时: 4321 31 )( 引进了虚拟变量的回归模型对于检验两个时期中是否 发生结构性变化很方便。 如上例中,相当于检验 h0: 2=4=0 82 4季节虚拟变量的使用 许多变量展示出季节性的变异(如商品零售额、 电和天然气的消费等),我们在建立模型时应考虑 这一点,这有两种方法: 1 在估计前对数据进行季节调整; 2 采用虚拟变量将季节性差异反映在模型中 。 例:设y=购置汽车的实际支出额 x=实际总消费支出 用美国19731-1980(2)的季度数据按1975年 价格计算,得回归结果如下:)5 . 0()6 . 1 (:)( 0281. 00133.

28、 00 .765 2 t rxy 83 这一结果很不理想,低r2值,低t值,x的符号也不对。 考虑到可能是季节性变异的问题,我们建立下面的模型: 其中,q1= q2= q3= 请注意我们仅用了3个虚拟变量就可表示4个季度的情况。 uxqqqy 43322110 其它季度 季度 0 11 其它季度 季度 0 21 其它季度 季度 0 31 各季度的截距分别 为: 1季度:0 + 1 2季度: 0 + 2 3季度: 0 + 3 4季度: 0 84 估计结果如下: 结果仍不理想,但好多了。四个季度的截距项分别为: -1039.2,-1122.7,-1161.4,-1455.8。 所得到的实际总支出的

29、参数估计值0.1044是一个不受 季节变动影响的估计值。 65. 0 1044. 034 .29421 .3336 .41681.1455 2 )5 . 4()9 . 5()4 . 6( 1 )2 . 7()5 . 3(:)( r xqqqy t 85 第四章 小结 本章将双变量模型的结果推广到了多元线性回归模 型的一般情形。 一、多元线性回归模型的估计 多元线性回归模型的矩阵形式为 y=x+ 假设满足以下四条假设条件: 1、e=0 2、e= 2 in 3、x是一个非随机元素矩阵 4、rankx=k+1n 那么ols估计量 =xx-1xy 为最正确线性无偏估计量blue。其方差-协方 差矩阵为

30、 var-cov =xx-12 该矩阵主对角线元素为诸 的方差。 j 86 二、拟合优度 多元线性回归模型的决定系数为: r2 = 由于当模型增加解释变量后,残差平方和的值会减小,为 了使拟合优度的测度反映这一特点,可采用经过自由度调 整的决定系数,即修正决定系数 : 2 2 2 2 )( 1 ynyy ynxy yy e 2 r 1 1 )1 (1 ) 1/()( ) 1/( 1 2 2 2 2 kn n r nyy kne r 87 三、非线性关系的处理 线性模型的含义包括变量的线性和参数的线性 。对于仅存在变量非线性的模型,可采用重新定义 的方法将模型线性化。 存在参数非线性的模型,那么仅有一局部可通 过代数变换主要是取对数的方法将模型线性化 。对于那些无法线性化的模型,只能采用非线性估 计技术如nls法估计模 型。 88 四、假设检验 检验解释变量的系数是否为0的假设检验称为系 数的显著性检验。这种检验实际上是检验所涉及的 解释变量是否对因变量有影响。 检验单个系数j是否为0的检验统计量 t(n-k-1 其中var 为矩阵 主对角线 上第j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论