W计量经济学公式概念_第1页
W计量经济学公式概念_第2页
W计量经济学公式概念_第3页
W计量经济学公式概念_第4页
W计量经济学公式概念_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计量经济学第1一、数据类型:截面、时间序列、面板1 .横截面数据(cross-sectionaldatase) t定义:对给定的某个时间点的个人、家庭、企业、城市、洲、国家或者一系列其他单位采集的样本所构成的数据集。常被用于劳动经济学、健康经济学和农村经济学中。重要特征:数据假定是从总体中通过随机抽样而得到。2 .时间序列数据(timeseriesdata)定义:在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。如我国国内生产总值从1949 到 2015的变化就是时间序列数据。3 .面板或纵列数据(paneldata)定义:由数据集中每个横截面单位的一个时间序列

2、组成与混合横截面数据区别:面板数据的同一横截面数据单位都被跟踪了一段特定的时期。面板数据前后年份的样本是相同的,具有可比性。但是混合横截面数据前后年份的样本很可能大部分不相同,不具有可比性。面板数据的优点:对同一单位的多次观测,使我们能控制观测单位的某些观测不到的特征使我们能研究决策行为或结果中滞后的重要性。四、用数据度量因果效应,其他条件不变的概念1 .因果效应经济学家的目标就是要推定一个变量对另一个变量具有因果关系我们希望去解释:什么导致一些事情发生?是这个因素还是那个因素?假设在现实世界中,X (自变量,一个可能的原因)确实是 Y (因变量,被解释的变量),那我们就能预见数据分析支 持以

3、下假设:如果X 的数值增加,Y 的数值也增加。但由于存在误差或数据不足,统计检验可能出错或被错误地解释。2 .其他条件不变(ceterisparibus)意味着“其他(相关)因素保持不变”。在因果关系中,其他条件不变是具有重要作用的。多元回归中,所得到的“其他因素不变的效应”,并非是通过在实际抽样中,固定其他因素不变。多元回归分析的优势,在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素不变。第 2章一、回归分析的基本概念现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由固定的解释变量去估计被解释变量的平均值。二、回归分析的常用术语y 因

4、变量、被解释变量、相应变量、被预测变量、回归子x 自变量、解释变量、控制变量、预测变量、回归元、协变量误差项、干扰项,表示除 x 之外其他影响y 的因素,包括没有观测到的和不可观测到的1 斜率参数,代表了回归元的边际效果,是研究的主要兴趣所在2 截距参数 三、回归中的四个重要概念1. 总体回归模型(PopulationRegressionModel , PRM)yt01xt ut - 代表了总体变量间的真实关系。2. 总体回归函数(PopulationRegressionFunction , PRF)E(yt )01xt- 代表了总体变量间的依存规律。3. 样本回归函数(SampleRegre

5、ssionFunction , SRF)yt?0 ?1xt et - 代表了样本显示的变量关系。4. 样本回归模型(SampleRegressionModel , SRM)y?t?0?1xt - 代表了样本显示的变量依存规律。总体回归模型与样本回归模型的主要区别是:描述的对象不同。总体回归模型描述总体中变量y与x的相互关系,而样本回归模型描述所关的样本中变量y 与 x 的相互关系。建立模型的依据不同。总体回归模型是依据总体全部观测资料建立的,样本回归模型是依据样本观测资料建立的。模型性质不同。总体回归模型不是随机模型,而样本回归模型是一个随机模型,它随样本的改变而改变。总体回归模型与样本回归模

6、型的联系是:样本回归模型是总体回归模型的一个估计式,之所以建立样本回归模型,目的是用来估计总体回归模型。四、线性回归的含义线性:被解释变量是关于参数的线性函数(可以不是解释变量的线性函数),至于y和x与我们所关注的被解释变量和解释变量有何联系,并没有限制。五、线性回归模型的基本假设1.简单线性回归的基本假定对模型和变量的假定:假定: 线性于参数在总体模型中,因变量y 与自变量x 和误差(干扰)u 的关系如下:其中, 0 和 1分别表示总体的截距和斜率参数。假定: 随机抽样我们具有一个服从总体模型方程的随机样本xi, yi : i 1,2, L n ,其样本容量为 n。假定: 解释变量样本有波动

7、性x 的样本结果即xi : i 1,L , n ,不是完全相同的数值。对随机扰动项u 的假定(零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定)假定:零均值假定给定解释变量的任何值,误差的期望值都为零。换言之,E u | x 0。假定:同方差假定给定解释变量的任何值,误差都具有相同的方差,换言之,Var u | x 22.多元线性回归模型的基本假定:假定: 线性于参数总体模型可写成其中,0,1, L , k 是我们所关心的未知数,而u 是无法观测到的随机误差或随机干扰。假定: 随机抽样我们有一个含有n 次观测的随机样本xi1, xi2, L , xik, yi :

8、 i 1, 2, L , n , 它来自假定中的总体模型。假定:不存在完全共线性在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。两个变量完全相关,最简单的情形就是一个变量是另一个变量的常数倍。自变量可能完全线性相关的另一种方式是,一个自变量恰好是其他自变量的线性函数。重要的是我们要注意到,允许变量之间有相关关系,只是不能是完全相关。同一变量的不同非线性函数也都可以出现在回归元中。假定:条件均值为零给定自变量的任何值,误差 u 的期望值为零。换句话说,E u | x1, x2, L , xk0。假定:同方差性给定任意解释变量值,误差u 都具有相同的方差。换言之,2

9、Var u | x1, x2, L , xk。假定: 正态性假定总体误差u独立于解释变量Xi, X2,L , Xk,而且服从均值为零和方差为2的正态分布就横截面回归中的应用而言,假定被称为经典线性模型假定(CML ),因此我们将这6 个假定的模型称为经典线性模型(CLM )。假定 : 零均值和零相关/随机扰动与解释变量不相关假定对所有的j 1, 2, L , k ,都有 E u 0 和 Cov Xj, u 0 。补充假定:无自相关假定(不序列相关)随机误差项的条件不序列相关性表明在给定解释变量任意两个不同的值时,对应的随即误差项不相关。可以等价表示为:六、普通最小二乘法(原理、推导)1 .普通

10、最小二乘法原理:给定一组样本观测值xi, yi : i 1,2, L n ,假如模型参数估计量已经求得,并且是最合理的参数估计量,那么样本回归函数应该能够最好地拟合样本数据,即样本回归线上的点与真实观测点的“总体误差”应该尽可能地小。因此普通最小二乘法估计参数的原则是以“残差平方和最小”。即: n min(Yi Y?i)2 (?0,?1)i1推导:残差平方和对上述残差平方和Q分别对 与、电求偏导数,可以得到此方程最小化问题的一阶条件:这两个方程与前面的矩条件完全一致,可以用相同的方法求解参数。2.矩估计方法零条件均值假定E(u|x尸E(u)=0有两个意义:(1)E(u)=0; (2)E(u|x

11、尸E(u)。根据本书 附录中条件期望性质5(,),由(2)可得Cov(u, x)=0o又因为Cov(u, x)=E(u-E(u)x-E(x)=E(ux)-E(u)E(x)=E(ux) 。故有 E(ux)=0。假定对于一个总体(population),存在简单回归方程:假定零条件均值假定成立:E(u|x)=E(u)=0 o于是有:(1)E(u)=0(2)E(ux)=0将 y 01 x 代入上述等式(1)、 (2),得:(3) E y 01x 0(4) E x y 01x0(3)、 (4)称为总体的矩条件。从总体中随机抽取一个样本容量为n 的随机样本,用xi, yi : i 1,2, L n ,

12、i 表示单个样本(observation)的编号,n是样本总量。xi , yi表示第i个样本的相应的变 量。每一观测样本i均应满足:y 0 由 一将前面所假定的总体矩条件(3)、(4)应用于样本中,这种方法称为矩估计法(methodofmoments)。与总体中的矩条件(3)、(4)相对应,在样本中相应的矩条件(samplecounterparts沟:n(3) n 11 % ?为0i 1n(4) n 1 x y?0 ?X 0i 1求解关于0、1的方程组(3')、(4')。根据样本均值的定义以及加总的性质,可将条件(3')变换为y 也Hx或者也 y *x代入条件(4

13、9;)得到 因此OLS估计的斜率为OLS估计的截距为n_ 2其中,假定Xi x 0。i 1七、OLS的代数性质 n 残差和及其样本均值均为零。代数表示Ui 0。i 1 n由OLS的一阶条件得出n 1yi ?0 ?x 0。1 1 n2 .回归元和OLS残差的样本协方差为零。代数表示xiU? 0oi 1n由OLS的一阶条件得出n 1 xi yi?0 ?1xi0。i 13.点XY总在ols回归线上。代数表示y 4 ?x。 n可以由n 1yi ?0 ?xi0推导出。i 14 .拟合值的样本平均值与yi的样本平均值相等。代数表示| yo5 .拟合值与残差之间的样本协方差为零。代数表示yiUi 00八、拟

14、合优度R21.定义(1)总平方和SSTyi y总平方和(SST),是y在样本中所有变动的测度指标,即它度量了 y在样本中的总 分散程度。将总平方和除以n-1,可得到y的样本方差。2(2)解释平万和SSE ? y回归模型所解释的平方和(SSE),是yi的拟合值的在样本中的变动程度的测度指标。(3)残差平方和SSRU2残差平方和(SSR)是残差的样本变异程度的测度指标,表示模型所未解释的y的变 动。(4)离差平方和的分解 TSS ESS RSS又因为 U? ? y 0,所以得证2.定义“拟合优度”是模型对样本数据的拟合程度。检验方法是构造一个可以表征拟合 程度的指标判定系数又称决定系数。2 SSE

15、 SST SSR i SSR表示回归平方和与总离差平方和之比;反映了 SST SST SST样本回归线对样本观测值拟合优劣程度的一种描述;在解释R2时,我们通常把它扩大100倍,得到一个百分数,所以100* R2是y的样本波动中被x解释部分的百分比。2(2) R 0,1;(3)回归模型中所包含白解释变量越多,R2越大!九、改变度量单位对 OLSB计量的影响一般而言,当因变量乘上常数 c,而自变量不改变时,OLS的截距和斜率估计量也 要乘上co若自变量被除以或乘以一个非零常数 c,则OLS斜率系数也会分别被乘以或 者除以co可见,改变自变量的度量单位一般不改变截距值。十、函数形式(对数、半对数模

16、型系数的解释)(1) Y? ?0 ?1Xi : X变化一个单位Y变化为单位。(2) lnY? ?o ZlnXjX变化1%, Y变化?1,表示弹性。100(3) InY? ?o ?1Xi : X变化一个单位,Y变化百分之(4) Y?o?1lnXi : X 变化 1% , Y 变化?1%1一、OLS无偏性OLS的无偏估计为定理:OLS的无偏性利用假定至,对0、1的任何值,我们都有E为 o和E 41换言之,有对o而言是无偏,4对1而百是无偏的0引理:(1)(2)VVnxxix V(3)SSTxxixixinxii 1nxnxii 1推导:于是有E(1)1sstx1的E(dM)i 1n)di*0i 1

17、焉SSIxn)diE(Ui)i 1十二、OLS估计量的抽样方差定理:OLS估计量的抽样方差在假定下,以样本值x1, x2, L , xn为条件,证明: 十三、误差方差的估计由OLS的两个一阶条件给出了 OLS残差所必须满足的两个约束条件。考虑这些限制的一个方法是:如果 我们知道残差中的n-2个,就能通过这两个约束条件得到另外两个残差。因此 OLS残 差只有n-2个自由度(degreesoffreedom 。因而2的无偏估计量为定理:2的无偏估计在假定至下,我们有E 2 = 2证明:对上式进行平均得到上式减下式得到因此对所有i求和,又得到取期望得2 n._ _2E2 * i uuxix E24

18、i SSTX2因此SSR2n 4一 2 n 2E2 ,其中SSRSi u 出n 2i 1i 1十四、OLS估计量的性质(1)线性:是指参数估计值 为和为分别为观测值乂的线性组合。(2)无偏性:是指为和耳的期望值分别是总体参数 0和1。(3)最优性(最小方差性):是指最小二乘估计量为和片在在各种线性无偏估计中,具有最小方差。十五、高斯-马尔可夫定理1 .多元回归的高斯-马尔科夫定理定理高斯-马尔科夫定理在假定到下, 啜EL分别是。,L , k的最优无偏线性估计量。最优性, 这里最优被定义为最小方差。2 .简单回归的高斯马尔科夫假定定理:OLS的无偏性(内容&证明参见第一章) 十六、 OL

19、S 参数估计量的概率分布若假定Ui遵从以0为均值,2为方差的正态分布,则Yi也遵循正态分布。即在Ui正 态性的假定下,我们可以得到1. %,也是正态分布的十七、 OLS 随机误差项U 的方差2的估计在估计的参数与和仙1的方差表达式中,都含有随机扰动项 U的方差2。 2又称 为总体方差。由于2实际上是未知的,因此4和用的方差实际上无法计算,这就需 要对其进行估计。由于随机扰动项Ui不可观测,只能从Ui估计值一一残差0出发,对总体进行估计。可以证明,2的最小二乘估计为它是关于2的无偏估计。十八、对零条件均值的理解假定:条件均值为零给定自变量的任何值,误差 U 的期望值为零。换句话说,E U | x

20、1, x2, L , xk 0。假定:零均值假定给定解释变量的任何值,误差的期望值都为零。换言之,E U | x 0。( 1)限定总体中x 和 U 的关系对一个随机样本,这个假定意味着对所有的i=1,2,n,都有E Ui |Xi 00( 2)技术简化我们可以以样本中的Xi 值为条件推导OLS, X 非随机变量,cov( X, U) =0习题: 4、 5、 6; C2、 C3、 C4第 3 章多元回归分析:估计一、变量系数的解释(剔除、控制其他因素的影响)对斜率系数?1 的解释:在控制其他解释变量(X 2)不变的条件下,X1 变化一个单位对Y 的影响;或者,在剔除了其他解释变量的影响之后,X1

21、的变化对Y 的单独影响!二、多元线性回归模型中对随机扰动项 u的假定,除了零均值假定、同方差假定、无 自相关假定、随机扰动与解释变量不相关假定、正态性假定以外,还要求满足无多重 共线性假定。定理:在假定到之下,以自变量的样本值为条件,对所有的j 1,2,L , k,都有n2个其中SST i1Xij Xj是Xj的总体样本波动,而Rj2则是将Xj对所有其他自变量(并 包含一个截距项)进行回归所得到的 R2。在我们详尽的研究估计值方差之前,我们要注意,在得到这个公式的过程中,用到 了所有高斯-马尔科夫假定。虽然OLS的无偏性不需要同方差假定,但是要让上述式子 成立,则必然要求同方差。Var '

22、;的大小在实践中也很重要。方差越大,则意味着估 计量越不精确,也就是置信区间越大和假设检验越不准确。1 .多重共线性的概念:若R2 1 ,则Var片,两个或多个自变量之间高度相关(不完全相关),被称为多重共线性。多重共线性不违背假定,但是我们也不能确定一个临界值来说明是否存在多重共线 性。例如R2=意味着在Xj的样本变异中,90%都可以由回归模型中的其他自变量来解释。 即Xj与其他的自变量有很强的相关关系。2 .多重共线性的后果(1) OLS估计量方差变大(2)核心是OLS估计量和它的标准差相比有多大(3)对样本数据敏感(4)难估计某个特定解释变量的影响3 .多重共线性的检验(1)相关系数(2

23、)拟合优度(3) VIF膨胀因子(4)特征值4 .多重共线性的处理(1)收集跟多数据(2)去掉部分解释变量,但会导致模型偏误(3)合并解释变量三、多元线性回归模型最小二乘法1.多元线性回归模型参数的最小二乘估计式(1)首先考虑两个自变量的模型:建模的原理依旧是使得残差平方和达到最小的估计值为其中自i是利用现有样本将xi对X2进行简单回归而得到的OLS残差。?1 Xii ?i因此,匕度量的是,在排除X2变量的影响之后,xi对y的影响。(2)在含有k个自变量的情形中。在选择估计值时,我们最小化了残差平方和这个最小化问题可以使用多元微积分求解,OLS的一阶条件为在一个含有k个解释变量的一般模型中,仍

24、然可以写成式(证明见本章附录3A.2):残差$ii是来自*1对*2,,Xk的回归。因此,以1度量的是,在排除X2,Xk等变量的影响之后,X1对y的影响。证明:(3)最小二乘法(OLS)公式证明:最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择 匕 使得下式最小。求解方程组:2 .参数估计式的分布性质及期望、方差和标准误差(1)参数估计式的分布性质直接从单变量模型推广,可得 OLS拟合值和残差的某些重要性质。(a)残差的样本平均值为零,即y $;(b)每个自变量和OLS残差之间的样本协方差为零,于是OLS拟合值和OLS残 差之间的样本协方差也为零。于是 OLS拟合值和OLS残差

25、之间的样本协方差也为零。(c)点(x1,x2L Xk,y)总位于样本OLS回归线上y 也 弓X1 L Xk。(2)参数估计式的期望定理: OLS 的无偏性在假定至下,下式对总体参数j 的任意值都成立: 即 OLS 估计量是总体参数的无偏估计量。证明:如我们所知,估计值不可能是无偏的,因为一个估计值就是从一个特定的样本得到的固定值,它通常都不等于总体参数。我们说OLS 在四个假定下是无偏的是指当我们将用来得到OLS 估计值的程序用到各种可能的随机样本时,这个程序是无偏的。( 3)参数估计式的方差协方差矩阵因为b (X'X) 1X'(X)(X'X) 1Xb 的协方差矩阵为定

26、理: OLS 斜率估计量的抽样方差在假定到之下,以自变量的样本值为条件,对所有的j=1,2,k都有其中SST是Xj的总样本变异,而Rj是将Xj对其他所有其他自变量进行回归得到的R2。( 4)参数估计式的标准误标准差(a)为了估计下一章构造置信区间,我们还要根据估计量匕的标准差(b)由于 未知,我们用 “弋替,得到小的标准误如果误差表现出异方差性,那么上述公式给出的标准误就不是sd %的一个可靠估计量。异方差的出现,尽管不会导致 片的偏误,但是会导致Var片的常用公式导致偏误,从而使得标准误无效。3 .在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计式提出问题:在假定下,

27、OLS 估计是无偏的,但在这个假定下还有其他许多的无偏估计量,那么还有其他的无偏估计量的方差比OLS 估计量的方差还小么?如果我们适当限制这些估计量的范围,我们将证明,在所有的无偏线性估计量当中, OLS 是最好的一个。即在的前提下,OLS 估计量是最优线性无偏估计量( BLUE) 。( 1)无偏性在当前背景下,如果j的一个估计量,比方说匕,对任意的1, 2,L , k都有E匕 j,那么就说也是j的无偏估计量。( 2)线性性%具有线性性的充要条件是,匕能表示成因变量的一个线性函数片n 1wj y ,其中wij 是自变量样本值的一个函数。( 3)最优性这里最优被定义为最小方差。定理 高斯 -马尔

28、科夫定理在假定到下,+L ,除分别是0, i,L , k的最优无偏线性估计量。高斯-马尔科夫定理辨明了估计多元回归模型时使用OLS 的合理性,但是注意,如有高斯马尔科夫假设中有一个不成立,那么该定理就是不成立的。四、估计的回归模型多元线性回归模型的一般形式其中 0 为截距项,1, 2 ,L , k 为斜率参数,u 为误差项(干扰项)。关键性假设:即所有不可观测误差项中所有因素都与解释变量无关,无法观测因素均值为零。五、残差的方差和协方差矩阵1. 残差的方差我们现在来研究2 的无偏估计量。在一般的多元回归情形中,2的无偏估计量是方程中 n-k-1 是含有 n 个观测量和k 个自变量的一般OLS

29、问题的自由度。由于在一个含有k 个自变量和一个截距项的模型有k+1 个参数。因此我们有df二观测次数-估计参数个数=n-(k+1)从技术上讲,除以n-k-1 是因为残差平方和的期望值为nn由于u$i 0和xij u$i 0,因此在实行OLS 估计时施加了k+1 个限制。意味着,给i1i1定残差n-k-1 个方程,就能得到剩余的k+1个残差。定理2的无偏估计在高斯-马尔科夫假定下2小的正平方根称作回归标准误或SER, SER是误差项标准差的估计量2.估计的方差的协方差矩阵是:六、拟合优度1.与简单回归模型中一样,我们定义2总平万和SST=yi y2解释平万和SSE=y? y残差平方和SSR= u

30、i2 = yi yi 22.判定系数(1) R2总是介于0到1之间。一个接近于1的判定系数表明OLS给出了一个良 好的拟合,一个于0的判定系数表明OLS给出了一个糟糕的拟合。(2)还可以证明R2等于yi的实际值与拟合值相关系数的平方,即:(3)在多元回3中,有关 R2的一个重要事实是,在回归中多增加一个自变量后,它 绝对不会减少,而且通常会增大。所以用R2判断是否在模型中增加一个或几个变量不 是很恰当。在后面章节我们会给出一个新指标:调整的R2。一般情况下,计量经济学家关心的是好的估计量而不是高的拟合优度。七、遗漏变量偏误1 .简单情形现在假设我们是遗漏了一个实际应该包括在模型中的变量,通常称

31、为排出一个有关变量(excludingarelevantvariable)或者对模型设定不足。推导遗漏一个重要变量所导 致的偏误,是误设分析(misspecificationanalysiS)的一个例子,我们从含有两个变量的 模型入手:并假设模型满足。(1)由于疏忽或者数据不足,我们在排除 X2的情况下估计这个模型得到:由之前的关系(简单回归和多元回归估计值的比较P66)其中为和七是y对、X2的多元回归斜率估计量。%是*2对为的简单回归的斜率 估计量,只与自变量有关。证明:解方程组得到证毕( 2)由多元回归的无偏性我们有 ° ° 1 的偏误为 ° 1和之间的关系还

32、表明,它们在两种明显的情况下回相等:(a)样本中X2对y的偏效应为0,即 巴0(b)样本中x1和x2不相关,即 0证明:由于是为与X2的协方差与Xi的样本方差的比值,所以当且仅当 Xi和X2不. 一 0 .相关时,° i 是无偏的。2 .遗漏变量的误差进行经济学中的经验研究时,掌握与偏误有关的术语很重要。在以上模型前提下,一0.八一。 0.八一。.右E i -我们称i有向上的偏块,右E i -我们称i有向下的偏块。 ° . . , ° 、 向零的偏误指E i比i更接近零的情况,如果i为正,则i向下的偏误就是向 一一 一、 一 ° .零的偏误;反之,如果1

33、为负,则1向上的偏误就是向零的偏误。3.一般情形一个解释变量与误差之间存在相关性,那么一般会导致所有的OLS 估计量都产生偏差。例如:总体模型满足假定,但我们遗漏了变量X3,并且估计的模型为一、一 . . . ° ° . . 现假设X2与X3无关,但Xi与X3相关,此时1和2通常都是有偏的,唯一的例外是Xi和X2不相关。因为事实上,当X1和X2不相关,证明即使是上述简单的模型,也很难判断偏误的方向。若匕0且Corr X1,X3 0,就有 ° 1 的偏误为正。习题:1、2、6、7、8、10;C2、C5、C6第 4 章多元回归分析一、经典线性模型假定假定: 正态性假定

34、总体误差u独立于解释变量Xi, X2,L , Xk,而且服从均值为零和方差为 2的正态分布就横截面回归中的应用而言,假定被称为经典线性模型假定(CML ),因此我们将这6 个假定的模型称为经典线性模型(CLM )。在 CLM 假定下, OLS 的估计量比在高斯-马尔科夫假定下的估计量更加的有效。可以证明,在CML假定下,OLS是最小方差无偏估计。甚至不需要将比较限制在yi的 线性估计量内。总结 CLM 的一个简便表达式为:在任何一个应用中是否可以假定u 的正态性,实际上是一个经验问题。例如,由于工资不可能是负数,因此严格的讲,它不可能服从于正态分布。而且,因为存在最低工资法,总体中有一定比例的

35、人恰好得到最低工资,这也与正态分布性质相矛盾。以往的经验表明,对工资而言,正态分布不是一个好的假设。通常通过一种变换,特别是取对数,可以得到一个更为接近正态性质的分布。同样这也是一个经验问题。在有些例子当中,假定明显是错误的,然而对于大样本容量来说,误差的非正态性质算不上是一个非常严重的问题(渐近正态)。因此目前我们姑且认可误差的正态性假设。二、正态抽样分布定理:正态抽样分布在 CLM 假定下,以自变量的样本值为条件,有由定理有因此,证明:其中$j是Xj对其他自变量进行回归的第i个残差,而SSR是这个回归的残差平方和。三、变量显着性检验,t 检验1.基本原理( 1)假设检验原理:概率性质的反证

36、法( 2)小概率事件原理:小概率事件在1 次试验中几乎是不可能发生。( 3)一般做法:(a)给出一个假定H0;(b)先假定Ho成立,在此假定下,构造一个小概率事件 A;(c)进行一次试验(如抽得一个容量为n的样本),观察试验结果,看事件 A是否 发生。(d)如果A发生,则违反了小概率事件原理,就拒绝 H。;反之,则接受H。2 .标准化估计量的t 分布本节将对总体回归模型中的单个参数的假设进行检验。总体模型可写作:而且它满足CLM 假设。为了构造假设检验,我们有如下结论,定理: 标准化估计量的t 分布在 CLM 假设下,其中, k+1 是总体回归模型中未知参数的个数。3 .有关t检验的术语(1)

37、原假设Ho: j 0。含义:在零假设下,第j个解释变量Xj对y的局部效应为 0,即在其他不变的情况,Xj对y没有影响。(2)我们用来检验原假设的统计量被称为' 的t统计量,定义为t统计量t心.度量了估计值%相对0偏离了多少个估计量的标准差。切确的拒绝法则取 jj决于对立假设和所选择的检验显着性水平(即当H 0 为真时拒绝它的概率)。( 3)对立假设(a)单侧对立假设H1 : j 0(b)双侧对立假设Hi: j 0( 4)临界值我们需要知道显着性水平和自由度。例如对5%显着性水平上的检验和n-k-1=28个自由度(a)单侧临界值为c二,拒绝域为 院1.701 , 一旦满足条件就拒绝原假设

38、 H。, 认为 j 0 ,即第j 个自变量对y 有偏效应。(b)双侧临界值四、检验B值的其他假设如果我们想对形如H 0 : j j 的假设进行检验,需要更一般的t 统计量考虑校园犯罪和注册人数的模型,j 1 才是有意义的。五、 P 值1 .定义定义:给定t 统计量的的观测值,能拒绝虚拟假设的最小显着水平被称为检验的p值。假设自由度为40,算得t 值为,对应5%和 1%的临界值分别为和。我们是否应当拒绝零假设?提前确定显着水平可能会隐藏关于假设检验的一些有用信息。另一种想法:如果将算得的t 统计量作为临界值,那么使得零假设被拒绝的最小显着水平是多少?这个水平称为p 值。对于双边检验2 .性质(

39、1) P 值是一个概率,介于0 与 1 之间。( 2) P 值很好总结了经验证据拒绝虚拟假设的强弱。小p 值是拒绝虚拟假设的证据,大 p 值则不能提供拒绝虚拟假设的证据。例如p 值 =,有50%的概率观察一个t 统计量值,它至少和我们据计算得到的t 统计量一样大。这是拒绝H 0 的弱证据。( 3) 一旦 p 值被确定下来,在任何理想的显着水平下都能进行经典检验。如果用表示显着性水平,那么(a)若p值,则拒绝原假设(b)若p值,则不能拒绝原假设( 4)单侧检验的p 值 p value P T t 。因此,只需将双侧检验的p 值除以 2 即可。六、实际显着性与统计显着性一个变量的Xj的统计了显着性

40、完全由加得大小决定,而一个变量的经济显着性则j与力的符号与大小均有关。因此如果t"是统计显着的,那要么 很大,要么se也很小。在实践中,区分导致t j统计量统计显着的原因很重要。七、检验参数的一个线性组合假设如何对涉及不止一个参数j 的单个假设进行检验。考虑原假设H 0 : 12,在多数情况下,我们关心的对立假设是在大专的一年比不上在大学的一年。这可以表示为H1 : 12 。变形一下得到:H0: 120和 H1: 120为了及时我们估计量中的抽样误差,我们将这个差值除以标准误,将其标砖化。一旦我们得到该检验统计量,检验的过程就一如从前。检验不同参数之间的关系之所以比检验一个单独参数更

41、困难,只是因为要得到se匕 。为了求出se,我们首先得到这个差值的方差。由于22而且se 用 和se % 分别是Var匕和Var %的无偏估计量,所以又其中,S2表示Cov埠的一个估计量。这里我们将1和 2之差定义为一个新参数112。于是我们想检验H0: 10对 H1: 10t 统计量用1 表示就是关键是如何找到se $1 。我们的做法是通过改写模型,以使得$1直接作为方程中的自变量出现。由于 112 ,我们将112 带入重新整理方程。八、理解排除性约束1 .虚拟假设除了检验参数的单个约束外,我们常常还需要检验关于基本参数的多重假设,我们首先从检验一组自变量时候对因变量都没有影响这个首要问题开

42、始。我们考虑如下虚拟假设该假设由3 个排除性约束构成,这是多重约束的一个例子,对多重约束进行的检验被称为多重假设检验。对于该例子,合适的对立假设为我们该如何检验式呢?人们不禁想到使用t 统计量以分别决定每个变量是否显着,但是这种方式是不合适的!这是因为,一个特定的t 统计量只能检验一个对其他参数没有任何限制的假设,此外, 我们还需要对付三个结果每一个 t 统计量对应一个结果。我们需要一个联合检验这些排除性约束的方法。2 .对排除性约束的检验对比下面两个估计模型:( 1)不受约束模型2SSR=R2 =( 2)受约束模型2SSR=R2 =对比两个估计模型,正如我们所想,受约束模型的 SSR较大而拟

43、合优度较小。我 们需要决定的是SSR从不受约束模型到受约束模型的增加,是否足以拒绝 H。因此, 我们需要一种方法,能合并这两个 SSR的信息,得到一个在Ho下分布已知的统计量。我们不妨针对一般情形推导这个检验统计量,将具有k 的自变量的不受约束模型写成假设我们排除了 q个排除性约束要检验:Xkqi,L ,Xk,虚拟假设表示为:当从不受约束模型到受约束模型时,SSR的相对增加对假设检验而言是有意义的,因此定义F 统计量如下:其中,SSRr 是受约束模型的残差平方和,SSRur 是不受约束模型的残差平方和。由于SSR不可能比SSRr小,所以F统计量总是非负的。九、多个线性约束的检验:F 检验1 .

44、自由度q 是所施加的约束数,是受约束模型与不受约束模型的自由度之差。即, q二分子自由度二dfr dfur分母中 SSR 要除以不受约束模型的自由度n-k-1二分母自由度=d3在 H 0 下,F Fq,n k 12 .拒绝法令 c 是 Fq,n k 1 分布的第95 个百分位,拒绝法为3 1)如果F c,我们就说Xk q 1,L ,Xk是联合统计显着的;4 2)如果F c,我们就说Xk q i,L ,Xk是联合不显着的。统计量和t 统计量之间的关系检验单个变量排除性的f统计量,等于t统计量的平方。因为tn2 k i具有Fi,n k i分布,所以在双侧对立假设下,这两种方法得到的结果相同。统计量

45、的R2 型5 .计算F 检验的 p 值表示一个自由度为(q, n-k-1)的F随机变量,F是检验统计量的实际值。F统计量的 p 值与 t 统计量的p 值具有相同的解释给定虚拟假设是正确的,观察到的F 值至少和我们所得到的F 值一样大的概率。很小的p 值就是拒绝H 0 的证据。同时,如同t 检验一样,一旦计算了p 值,F 检验就可以在任何显着水平下进行。6 .回归整体显着性的F 检验虚拟假设上述假设相当于有k 个约束,而当我们施加这些假设时,我们得到受约束模型该估计卞K型的R2 0,因为没有解释变量,所以y中的变异一点都没有得到解释。因此该假设下的F 统计量可以写成其中R2就是y对Xi,L ,人

46、回归的通常R2。7 .回归整体显着性的F 统计量只有在所有自变量的联合排除性时才有效。有时称之为检验回归的整体显着性。有些模型看上去R2 很小,却有着高度显着的F 统计量。这就解释了我们为什么要计算F统计量来检验联合显着性,而不是只看R2 的大小。十、报告回归结果在实证研究中如何报告回归结果:系数估计值&解释第一,所估计的OLS 系数估计值总应该报告。对于分析中的关键变量,你应该对所估计的系数作出解释。比如这个估计是不是一个弹性?是否有什么经济含义?2 .标准误第二,标准误总是应该与所估计的系数一起包括进来。因为标准误迫使我们认真考虑被检验的虚拟假设,虚拟假设并非总是总体参数为零。同时

47、,有了标准误更易得到置信区间。3 .拟合优度 &观测次数第三,回归的拟合优度R2 应该被报告我们看到它除了提供一种度量之外,还使得计算排除性约束F 统计量相对简单。同时观测次数也应该报告。4 .最后,如果几个方程由许多不同的自变量来估计,我们可能要对不同的人群估计同一个方程,或者我们解释的是不同的因变量,这些情形下,最好将结果归纳在一个表格中,表中应该标明因变量而自变量则应该在第一列。习题: 1、 2、 3、 4、 6、 7、 10、 11; C3、 C5、 C8第六章多元回归分析:专题一、测度单位对OLS 统计量的影响1 .变与不变(1)因变量乘以常数c,截距和斜率的估计值都扩大为原

48、来的 c倍(2)自变量Xj被乘以非零常数c,那么其系数就除以co截距的估计值不受影响。( 3)当因变量以对数形式出现,改变度量单位不会影响斜率系数,只影响截距( 4) R2 不会因y 或 X 的单位变化而变化,SSR、 SST、 SSE 和 SER 不变。( 5)数据的测度单位改变时,t 统计量和F 统计量不发生改变( 6)怎样度量数据只起非实质性的作用,比如减少所估计系数中小数点后零的个数。( 7)合理的选择度量单位,可以改进所估计方程的形象,使结果更好看,而没有本质的改变。2 . 系数在计量应用中,有时会用一个难以解释的尺度来度量一个关键变量。此时我们往往关心的是自变量变化其标准差一定倍数

49、时,对因变量的影响。有时候对所有变量都标准化再回归有其用处。这意味对每个变量都计算z 得分。新的系数是传统上把它们成为标准化系数或B系数。B系数的含义是如果x提高一倍的标准差,那么y 就变化 b 倍的标准差。于是我们不是以y 或 X 的原有单位来度量其影响,而是以标准差为单位。二、进一步理解对数模型1.使用对数模型性质1)取对数后变量的斜率系数,不随变量测度单位改变。( 2)如果y 和 x 都取对数形式,斜率系数给出对弹性的一个直接估计。(3)对于y>0的模型,使用ln(y)作因变量的模型,通常比使用y作因变量的模型更接近 CLM 假定,取对数可以缓解条件分布的异方差性和偏态性。2.对数

50、变化的近似值&精确值计算( 1)对数变化近似等于百分比变化,对数变化越大,这种近似就越不准确。考虑以下模型:( 2)可给出y 精确百分比变化:( .什么类型的变量经常用对数形式?( 1)肯定为正的钱数:工资,薪水,企业销售额和企业市值。( 2)非常大的正整数变量:如人口,雇员总数和学校注册人数等。( 3)以年度量的变量通常以原有形式出现:教育年数、工作经历、年龄等。( .对数形式的限制( 1)一个变量取零或负值,则不能使用对数。( 2)如果y 非负但可以取零,则有时使用log(1+y)( 3) 当 y 取对数形式时,更难以预测原变量的值,因为原模型允许我们预测log(y)而不是y。(

51、4) 将 y 作因变量的模型与lny 作因变量的模型不能比较R2, 它们解释的是不同变量的变化。三、二次式的模型1 .二次式的导数经济学中,为了描述递增或递减的边际效应,常常用二次函数。y= 0+ 1x+ 2x2+u2 .二次式的转折点很容易被计算出来,可以看看是否有意义转折点 x* :表面上很小的变量平方的系数可能实际上有重要的意义,它代表了变化的斜率。四、交互项的模型y= 0+ 1x1+ 2x2+ 3x1x2+u我们不能单独将1 解释为关于x1, y 变化的度量,我们需要将3 也考虑进来。交互项使得解释变量的偏效应如x1 取决于另一个变量的水平,如x2。在建立交互项之前,集中x1和x2的值

52、到我们关心的值周围会更有意义。具有交互项的模型解释可能很棘手。 X1上的系数B 1衡量了当x2=0时x1对y的 偏效应,这可能是不可能的或是我们不关心的。因此需要对模型进行变形,如x2 ' x2 x2 0 这样的话,当 x2' 0 时,x2 x2 o五、拟合优度基于R2的大小来选择一组解释变量,可能会导致一些不合理的模型。经典线性模型假定中没有要求 R2必须大于某个特定值。小的R2意味着没有对影响y的其他因素进行解释。小的R2不意味u与自变量相关。无偏估计与R2的大小无关。在方程中增加变量时,R2的相对变化十分有用。不同的因变量模型,不能比较R2。六、修正可决系数的作用和方法。

53、1 .修正可决系数的作用调整过的R2的优点在于它对向模型增加自变量施加了惩罚。在回归中增加一个新的变量,R2不会下降,调整的R2可能会下降。调整R2可能为负,负表示它相对自由度个数而言是个很差的拟合模型。2 .修正可决系数的方法或者习题:1、3、4、7; C2、C3、C5、C9、C12第7章虚拟变量一、虚拟变量的定义在经验研究中,经常会遇到定性因素,如:性别、行业、季节、地理等。定性信息:一个人是男是女;一个人受否受过高等教育等。定性信息一般通过定 义一个二值变量(binaryvariable)或0-1变量刻画(取值1或0)。在计量经济学中, 它们被称为虚拟变量(dummyvariable)。

54、二、如何引入虚拟变量如果一个变量分成N 组, 引入该变量的虚拟变量形式是只能放入N-1 个虚拟变量。定义一个虚拟变量时,我们必须决定哪个取值为1,哪个取值为0。好的定义方式会使方程设定和解释都更清楚。三、虚拟变量系数的解释:不同组均值的差(基准组或对照组与处理组)1 .只有一个自变量的情况( 1)考虑如下小时工资的简单模型:系数0的含义是:给定同等教育程度,0是女性与男性之间在小时工资上的差别。因此,系数0决定了劳动市场是否对女性存在歧视。这可以解释为截距变化(interceptshift):Ifd=0,theny= 0+ 1x+uIfd=1,theny=( 0+ 0)+ 1x+ud=0 的情形是基组或基准组(basegroup)。( 2)虚拟变量系数的解释注意事项例小时工资方程(WAGE1加,我们估计方程估计结果:可以看出,平均来说,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论