第四章_多元回归估计与假设检验_第1页
第四章_多元回归估计与假设检验_第2页
第四章_多元回归估计与假设检验_第3页
第四章_多元回归估计与假设检验_第4页
第四章_多元回归估计与假设检验_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2011年好的模型选择可遵循一个称为奥克姆剃刀(Occams Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。William Navidi名言身高受那些因素影响? 决定身高的因素是什么?父母遗传、生活环境、体育锻炼,还是以上各因素的共同作用对在校生进行了问卷调查。问卷采取随机发放、当面提问当场收回调查的样本量为98人,男性55人,女性43人。调查内容包括被调查者的身高(单位:cm)、性别、其父母身高、是否经常参加体育锻炼、家庭所在地是在南方还是在北方等等。部分数据(1代表男性,0代表女性) 父亲身高、母亲身高、性别是不是影响子女身高的主要因素呢?如果是,子女身高与这些

2、因素之间能否建立一个线性关系方程,并根据这一方程对身高做出预测?这就是本章将要讨论的多元线性回归问题 第四章 多元回归:估计与假设检验多元线性回归模型 多元线性回归模型的参数估计多元线性回归模型的统计检验多元线性回归模型的预测对模型设定的讨论(增减解释变量)对回归结果的讨论3事物是普遍联系的很少有现象仅用一个变量就能解释清楚本章讨论多元回归模型旨在探求下列问题的答案(1) 如何估计多元回归模型?多元回归模型的估计过程与双变量模型有何不同?(2) 对多元回归模型的假设过程与双变量模型有何不同?(3) 多元回归有没有一些在双变量模型中未曾遇到过的独特的特性?(4) 既然一个多元回归模型能够包括任意

3、多个解释变量,那么,对于具体的情况,我们如何决定解释变量的个数?4.1 多元线性回归模型 一、多元线性回归模型:一般表现形式二、偏回归系数5 一、多元线性回归模型-一般表现形式多元线性回归模型:线性回归模型中的解释变量有多个。6i=1,2,n习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;偏回归系数(partial regression coefficients)或偏斜率系数(partial slope coefficients)偏回归系数反映了当模型中的其中一个解释变量

4、为常量时,另一个解释变量对应变量均值的影响。多元回归的这个独特性质不但能使我们引入多个解释变量,而且能够“分离”出每个解释变量X对应变量Y的影响。bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值三变量线性回归模型为例:以 X2t,X3t固定值为条件的y的均值或者期望多元回归也可以称为多个解释变量的固定值为条件的回归分析。任何一个Y值可以表示成为两部分之和:(1) 系统成分或决定成分,( B1+B2X2t+B3X3t),也就是Y的均值E(Yt),(即回归线上的点)。(2) 非系统成分ut,是由除X2、X3以外其他因素决定的。2011年三元回归方程的直观解释三元线性回归模型

5、(观察到的y)回归面0ix1yx2(x1,x2)三维曲面Three-dimensional surface总体回归模型(总体回归函数的随机表达形式)总体回归函数(非随机表达式) 一、多元线性回归模型-一般表现形式样本回归模型(样本回归函数的随机表达形式)样本回归函数(非随机表达式)11 一、多元线性回归模型-矩阵表达式12 样本回归模型(函数)的矩阵表达: 132011年估计的多元线性回归的方程(estimated multiple linear regression equation) 是 估计值 是 y 的估计值用样本统计量 估计回归方程中的 参数 时得到的方程由最小二乘法求得一般形式为

6、:谁是估计值?4.2 多元线性回归模型的基本假定 假设1:回归模型是参数线性的,并且正确设定。 15假设2:解释变量与随机项不相关。 假设7:随机项满足正态分布。 假设3、4、5:随机误差项具有零均值、同方差及不序列相关性。假设6:解释变量之间不存在完全共线性。即解释变量之间没有严格的线性关系。 假设6:解释变量之间不存在完全共线性。即解释变量之间没有严格的线性关系。 重点:多元线性回归模型的基本假定 例:收入储蓄消费17财富18需要注意的事项19204.3 多元线性回归模型的参数估计 普通最小二乘估计量OLS估计量的方差与标准误多元回归OLS估计量的性质参数估计中的样本容量问题根据最小二乘原

7、理,求参数估计值其中4.3.1普通最小二乘估计结构参数;分布参数21于是得到关于待估参数估计值的正规方程组: i=1,2n22以三元模型为例24例:在的家庭收入-学生数学分数例中, 可求得 于是 252011年 (例题)参数的最小二乘法【例2】一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并解释各回归系数的含义 进行回归方法1:ls y c x1 x2 x3方法2:excel 多元回归272011年(例题)参数的最小二乘估

8、计F检验t 检验偏回归系数 4.3.2 OLS估计量的方差与标准差OLS估计量的方差和标准误随机误差项的方差的估计 可以证明,随机误差项的方差的无偏估计量为 30314.3.3 多元回归OLS估计量的性质双变量模型中,在古典线性回归模型的基本假定下,OLS估计量是最优线性无偏估计量。这个性质对於多元回归同样成立。因此,根据OLS估计的每一个回归系数都是线性的和无偏的平均而言,它与真实值相一致。在所有线性无偏估计量中,OLS估计量具有最小方差性,所以OLS估计量比其他线性无偏估计量更准确地估计了真实的参数值。三变量模型在许多方面是双变量模型的推广,只不过估计公式略显复杂。解释变量的个数如果多于三

9、个,那么得到的计算公式将会更复杂。在那种情况下,必须用矩阵代数来计算,计算机处理。 在满足基本假设的情况下,其结构参数 的普通最小二乘估计仍具有: 线性性、无偏性、有效性33参数估计量的性质 根据 OLS估计的每一个回归系数都是线性的和无偏的-平均而言,它与真实值一致。在所有的线性无偏估计量中,OLS估计量具有最小方差性-即比其他线性无偏估计量更准确地估计了真实的参数值。最小二乘估计量的性质部分数学证明过程用最小二乘法得到的多元线性回归的参数估计量具有线性、无偏性、最小方差性。参考:孙敬水主编计量经济学,清华大学出版社随机误差项方差的估计若记36 所谓“最小样本容量”,即从最小二乘原理出发,欲

10、得到参数估计量,不管其质量如何,所要求的样本容量的下限。 最小样本容量 样本最小容量必须不少于模型中解释变量的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+14.3.4参数估计中的样本容量问题 2、满足基本要求的样本容量 从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定 一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。 模型的良好性质只有在大样本下才能得到理论上的证明3738多元线性回归模型的统计检验 一、拟合优度检验 二、变量的显著性检验(t检验) 三、方程的显著性检验(F检验) 四、参数的置信区间 F检

11、验与T检验的区别F与R2的关系F检验怎么做394.4 拟合优度检验 度量K个解释变量对应变量Y变动的联合解释比例。 的正平方根 称为多元相关系数(coefficient of multiple correlation)2011年多元相关系数:Multiple R(multiple correlation coefficient) 多重判定系数的平方根R反映因变量y与k个自变量之间的相关程度实际上R度量的是因变量的观测值 与由多元回归方程得到的预测值 之间的关系强度,即多重相关系数R等于因变量的观测值 与估计值 之间的简单相关系数即 (一元相关系数r也是如此,即 。)2011年修正多重判定系数(

12、adjusted multiple coefficient of determination) 用样本量n和自变量的个数k去修正R2得到 计算公式为避免增加自变量而高估 R2意义与 R2类似数值小于R2输出结果Excel4.5 课堂练习 解释古董钟拍卖价格43444.5 古董钟拍卖价格一例拍卖价格与钟表年代和竞标人数正相关。年代斜率系数12.59表示,在其他变量保持不变的条件下,如果钟表年代每增加一年,则钟表价格平均上升12.59马克。人数斜率系数84.64表示,在其他变量保持不变的条件下,如果每增加人参与竞争,则钟表价格平均上升84.64马克。负的截距项没有实际意义。 值相当高,约为0.89

13、,表示两个变量解释了拍卖价格89%的变异。 4.6 多元回归的假设检验如何判断回归系数是显著的还是不显著的?4.7多元回归的假设检验 hypothesis testing in a multiple regression虽然R2度量了估计的回归直线的拟合优度,但R2本身却不能告诉我们估计的回归系数是否在统计上是显著的,即是否显著不为零。b1、b2、b3均服从均值分别为B1、B2、B3正态分布用真实的但不可观察的2的无偏估计量代替2,则OLS估计量服从自由度为(n-3)的t分布,而不是正态分布显著性检验法 课堂问题:如何查T表假设检验的置信区间法2011年回归系数的检验通常需要线性关系检验(F)

14、通过后,对各个回归系数有选择地进行一次或多次检验究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定对回归系数检验的个数进行限制,以避免犯过多的第类错误(弃真错误) 对每一个自变量都要单独进行检验应用 t 检验统计量4.7.1 显著性检验法The test of significance appriach在显著性检验方法中,需要建立一个统计量,求其抽样分布,选择一个显著水平,并决定在该显著水平下检验统计量的临界值。然后将从样本得到的统计量值与临界值比较,如果统计量的值超过临界值,则拒绝零假设。可以将这种检验方法推广到多元回归模型中。1. p值2. 单边或双边检验2011年回归系数的检

15、验(步骤)提出假设H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 确定显著性水平,并进行决策 tt,拒绝H0; tt,不拒绝H0输出结果51变量的显著性检验(t检验)1、设计原假设与备择假设: H0:i=0H1:i0 (i=1,2k) 3、给定显著性水平,可得到临界值t/2(n-k-1)2、由样本求出统计量t的数值4、通过比较 拒绝或接受H0 判定对应的解释变量是否应包括在模型中|t| t/2(n-k-1) 或 |t|t/2(n-k-1) |P| /2 2011年4.7.2 置信区间法Th

16、e confidence interval approach to hpothesis testing回归系数在(1-)%置信水平下的置信区间为 回归系数的抽样标准差输出结果Excel53参数的置信区间 参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在(1-)的置信水平下i的置信区间是 其中,t/2为显著性水平为 、自由度为n-k-1的临界值。 如何才能缩小置信区间? 增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优

17、度越高,残差平方和应越小。提高样本观测值的分散度,一般情况下,样本观测值越分散,(XX)-1的分母的|XX|的值越大,致使区间缩小。54课堂问题3:2 分布t分布 F分布什么是方差分析,方差分析有哪些类型?552 分布的图形2 分布是n个服从正态分布的随机变量之合体(平方和)的分布规律2 分布的使用如果一个变量的诸数值可视为几个独立变量值的平方和,则该变量服从2 分布方差就可视为若干随机变量值的平方和样本中各随机数值与均值之离差的平方和(即样本方差的n-1倍)与总体方差之比,服从自由度为n-1的2 分布F分布两个都服从2 分布的变量之比的分布规律。可以设想为两个方差之比方差之比会接近1(因为前

18、面已经假设各变量都服从标准正态分布),似乎存在一个“两端少,中间多”的特征,但不对称(除非其中存在一个无限总体,使样本数量为无穷大,则样本方差有无穷多个)F分布的图形F分布的使用应用很广泛,可用来检验两状态总体方差是否相等,检验回归方差是否有代表性,在方差分析和多元统计中都是重要的检验手段。三种抽样分布的对比2分布可视为关于方差的分布规律。t分布中的两个变量,一个服从正态分布,另一个服从2分布。可视为均值与方差之比的分布规律。F分布的变量都服从2 分佈,可以设想为两个方差之比的分布规律。这些“分布”都说明变量的规律,某些具有相同特征的变量具有什么样的共同规律。现实中,按图索骥,依样画葫芦。三种

19、抽样分布综述:为什么要使用统计方法?因为要了解事物的数量特征几乎唯一的方法是抽样,随机抽样抽样可以有很多结果,众结果的随机性规律是正态分布为什么要导出三大抽样分布?因为要了解的数量特征的性质不同,比如,可能要了解样本方差的规律若干个变量都服从正态分布,每变量有不同取值,计算每组取值中各值的平方,再加起来,该总和服从2分布每次抽样的误差与平均误差之比服从t分布两个样本的方差之比服从F分布什么是分布?骰子点数服从均匀分布,身高服从正态分布。分布就是各种情况发生概率的全体组合。62634.8 方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著

20、成立作出推断。1、方程的显著性检验(F检验)与变量的显著性检验(T检验)的区别。 F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。64对联合假设的检验Testing the joint 共同、协同 hypothesis偏斜率系数b2和b3各自显著不为零。但考虑下面的零假设:H0:B2=B3= 0这个零假设称为联合假设(joint hypothesis),即B2、B3联合或同时为零。这个假设表明两个解释变量一起对因变量Y无影响,等

21、同于:H0:R2= 0对这两个中任何一个假设进行检验称为对估计的总体回归线的显著性检验,即检验Y是否与X2和X3线性相关。Joint 共同、协同 hypothesis如果模型在整体上的解释能力很低,则R2=0,此时,各解释变量X也都会很接近0如果任何一个X的系数显著不等于0,则R2不可能为0,因为各个X对模型解释能力的贡献都是非负的换言之,如果三个非负数的和为0,这三个数也一定同时为0联合假设的检验方差分析技术(analysis of variance ANOVA)完成。TSS=ESS+RSS将TSS分解为两部分,一部分(ESS)由回归模型解释,另一部分(RSS)不能由模型解释。对TSS的各个

22、组成部分进行的研究称为方差分析。在20世纪20年代由英国统计学家Ronald A.Fisher在进行实验设计时为解释实验数据而首先引入的 分析各分类自变量对数值因变量影响的一种统计方法 多元回归的总体显著性检验 2、方差分析技术 68对TSS各组成部分进行分析变异来源平方和自由度MSS=SS/d.f.ESS解释变量个数ESS/KRSSN-待估参数个数RSS/(N-K-1)TSSN-13、方程显著性的F检验 step1、可提出如下原假设与备择假设: H0: 1=2= =k=0;H1: j不全为0step3、给定显著性水平,可得到临界值F(k,n-k-1)step2、由样本求出统计量F的数值 st

23、ep4、通过比较 拒绝或接受原假设H0 判定原方程总体上的线性关系是否显著成立F F(k,n-k-1)拒绝原假设 ;FF(k,n-k-1)接受原假设根据数理统计学中的知识,在原假设H0成立的条件下,该统计量服从自由度为(k , n-k-1)的F分布 69 检验联合假设: 或 服从分子自由度为2,分母自由度为n3的F分布。如果回归模型有k个解释变量(包括截距),则F值的分子自由度为(k1),分母自由度为nk。可从式(4-49)中得到答案。如果分子比分母大,也即如果Y被回归解释的部分(即由X2和X3解释的Y的变动)比未被回归解释的部分大,则F值将大于1。因此,随着解释变量对应变量Y的变动的解释比例

24、逐渐增大,F值也将逐渐增大。因此, F值越大,就越有理由拒绝零假设:两个(或多个)解释变量对应变量Y无影响。4、关于F与R2的关系说明这两个统计量同方向变动。R2=0时,F=0;R2值越大,F值越大;R2=1时,F趋于R274F与R2之间的关系F可视为整体之两个部分的比较,R2可视为部分与整体之间的比较在计算时,F的分子分母都是平均量, R2的分子分母都是总量,比较的结果不变F与R2之间的重要关系这两个统计量同方向变动。当R20(即Y与解释变量X不相关)时,F为0。R2值越大,F值也越大。当R2取其极限值1时,F值为无穷大。前面讨论过的F检验(用於度量总体回归直线的显著性)也可用于检验R2的统

25、计显著性即R2是否显著不为零。换句话说,检验零假设(3-45)与检验零假设(总体的)R2为零是等价的。用R2的形式进行F检验的一个优点是便于计算课堂练习:7778多元回归模型的相关讨论 一、回归模型设定的讨论2、什么时候增加新的解释变量?-1、设定误差3、受限最小二乘二、对回归结果的讨论设定误差解决方案:单独以X2或X3作自变量,获得回归方程,再同时以X2和X3作自变量,作回归方程, X2和X3的系数不同两个回归结果为什么会不同呢?设定偏差(model) specification bias)或设定误差(specification error),更具体说是从模型中略去重要变量的设定误差在建立模

26、型时,要以经济理论为依据并充分利用以往的工作经验。一旦建立起模型,就不要任意地从模型中删除某个解释变量。804.9 设定误差P83 4-524-534-37模型设定中遗漏变量的问题设定偏差(model specification bias)或设定误差(specification error) 82如何知道需否增加解释变量83判定系数与校正(调整)的判定系数n-k-1为残差平方和的自由度,n-1为总体平方和的自由度如果在模型中增加一个解释变量, R2往往增大现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整剔除了变量个数对拟合优度的影响4.10 什么时候增加新的解释变量

27、?- 的应用两个R2比较:校正的判定系数检查双变量模型 (4-52)与三变量模型 (4-37)的R2值,前者的R2值(0.5325或0.1549)比后者的 (0.8906)小。结果总是这样的!R2的一个重要性质就是解释变量个数越多, R2值就越大。但在R2的定义(ESS/TSS)中并没有考虑到自由度。在一个有k个变量的模型中(包括截距),ESS的自由度为(k1)。因此,如果模型中有5个解释变量(包括截距),则ESS的自由度为4,如果模型有10个解释变量(包括截距),则ESS的自由度为9,但是R2的计算公式并未考虑不同模型自由度的不同什么时候增加新的解释变量?- 的应用只要校正判定系数 值增加,

28、就可以增加新的解释变量。应变量相同的回归模型才可以对 进行比较。85*赤池信息准则和施瓦茨准则 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。 如果拟新增解释变量的参数估计值的t绝对值大于1,则 会增加。4.11 例:什么时候增加新的解释变量课堂问题3学过的理论中,哪些是约束条件?87 运用于对回归模型增加或减少解释变量的判断中考虑如下两个回归模型:88(有约束模型)(无约束模型)施加约束条件H0:4.12 受限最小二乘检验思想:用(RSSR - RSSU)的大小检验约束的真实性若约束条件为真 受约束回归模型与无约束回归模型具有相同的解释能力 (RSSR - RSSU)较小若约束条件无效 受约束回归模型与无约束回归模型解释能力有差异 (RSSR - RSSU)较大受限最小二乘RLS亦称受约束回归restricted reg

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论