计量经济学10说课讲解_第1页
计量经济学10说课讲解_第2页
计量经济学10说课讲解_第3页
计量经济学10说课讲解_第4页
计量经济学10说课讲解_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、10-1计量经济学1010-2一、虚拟变量的性质一、虚拟变量的性质l许多经济变量是许多经济变量是可以定量度量可以定量度量的,如:商品需求的,如:商品需求量、价格、收入、产量等量、价格、收入、产量等称之为定量变量,称之为定量变量, quantitative (numerical) explanatory variables 。l但也有一些影响经济变量的因素但也有一些影响经济变量的因素无法定量度量无法定量度量,如:职业、性别对收入的影响等如:职业、性别对收入的影响等称之为定性称之为定性变量,变量, qualitative explanatory variables 。l为了在模型中能够反映这些因素

2、的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”。10-3l定性变量通常表示为具备或不具备某种性定性变量通常表示为具备或不具备某种性质,如男性或女性;白人或非白人;党员质,如男性或女性;白人或非白人;党员或非党员等。或非党员等。l把定性因素把定性因素“定量化定量化”的一个方法是建立的一个方法是建立人工变量(也称为虚拟变量,人工变量(也称为虚拟变量,Dummy variable),并赋值和:),并赋值和:不具备某种性质;:不具备某种性质;:具备某种性质。:具备某种性质。虚拟变量常用变量虚拟变量常用变量D表示。表示。10-4l例如例如

3、,反映文化程度的虚拟变量可取为:,反映文化程度的虚拟变量可取为: 1, 本科学历本科学历 D= 0, 非本科学历非本科学历10-5l一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:研究类型、肯定类型取值为研究类型、肯定类型取值为1;基准类型,否定类型取值为基准类型,否定类型取值为0。l称虚拟变量也为二元变量称虚拟变量也为二元变量binary variable10-6l方差分析模型方差分析模型(Analysis of variance models,ANOVA):仅包含定性变量或):仅包含定性变量或虚拟变量的回归模型,其形式如下:虚拟变量的回归模型,其形式如下:Yi=B0+B1Di+ui

4、l假定假定Y:每年食品支出(美元);:每年食品支出(美元);Di=1表示表示女性;女性;Di=0表示男性,则:表示男性,则:l男性食品支出的期望:男性食品支出的期望:E(Yi|Di=0)=B0l女性食品支出的期望:女性食品支出的期望: E(Yi|Di=0)=B0+B110-7l上述模型的含义:上述模型的含义:l截距截距B0表示男性平均食品支出,斜率系数表示男性平均食品支出,斜率系数B1表示女性平均食品支出与男性的差异,表示女性平均食品支出与男性的差异, B0+ B1表示女性平均食品支出。表示女性平均食品支出。l对这类模型,零假设为:对这类模型,零假设为:H0:B1=0表示男女平均食品支出没有差

5、异。我们可根据表示男女平均食品支出没有差异。我们可根据t检验判定是否统计显著。检验判定是否统计显著。10-8l例例10-1(P213):性别差异对食品消费支出:性别差异对食品消费支出的影响的影响公式:公式:104 or 10510-9l几个问题:几个问题:1. 基准类基准类(benchmark group)(基础类(基础类base group,参照类或比较类):取值为,参照类或比较类):取值为0的那类变的那类变量量基准类的选择根据研究目的而定基准类的选择根据研究目的而定来自于社会学、心理学等研究的需要来自于社会学、心理学等研究的需要2. 虚拟变量虚拟变量D的系数称为差别截距系数的系数称为差别截

6、距系数(differential intercept coefficient),表明了取值为表明了取值为1的类的截距值与基准类截距值的类的截距值与基准类截距值的差距。的差距。10-10l几个问题:几个问题:3. 虚拟变量陷阱(完全共线性)或多重共线性虚拟变量陷阱(完全共线性)或多重共线性l在解释变量存在完全共线性的情形下,不可能得到在解释变量存在完全共线性的情形下,不可能得到参数的惟一估计值。参数的惟一估计值。l例如前例:例如前例:Yi=B1+B2D2i+B3D3i+ui其中,其中,D2=0,D3=1;D2=1,D3=0l避免避免“陷阱陷阱”的一般原则:如果模型有共同的截距的一般原则:如果模型

7、有共同的截距项,且定性变量有项,且定性变量有m种分类,则需引入种分类,则需引入m-1个虚拟个虚拟变量。变量。10-11l例例102(P215):工会化程度与工作权利法:工会化程度与工作权利法本例研究工作权利法(是否通过)对私营部分本例研究工作权利法(是否通过)对私营部分的工会化程度的影响的工会化程度的影响10-12二、二、协方差分析模型协方差分析模型(ANCOVA):包:包含一个定量变量和一个两分定性变量的回归含一个定量变量和一个两分定性变量的回归l例:考虑可支配收入(定量变量)与性别食例:考虑可支配收入(定量变量)与性别食品消费支出对的回归模型品消费支出对的回归模型回归模型如公式回归模型如公

8、式108,109对模型的解释:对模型的解释:l虚拟变量的统计显著;虚拟变量的统计显著;l常数统计显著;常数统计显著;l对定量变量回归统计的解释。对定量变量回归统计的解释。对比没有虚拟变量的模型对比没有虚拟变量的模型10-13例:一个以性别虚拟变量考察企业职工薪例:一个以性别虚拟变量考察企业职工薪水的模型:水的模型:Yi=B1+B2Xi+B3Di+ui其中:其中:Yi为企业职工的薪金,为企业职工的薪金,Xi为工龄,为工龄, Di=1,若是男性,若是男性,Di=0,若是女性。,若是女性。10-14三、包含一个定量变量、一个多分定性变三、包含一个定量变量、一个多分定性变量的回归量的回归l例:考查学生

9、支出和地区差异(三个地区,例:考查学生支出和地区差异(三个地区,分别是东北和中北部(分别是东北和中北部(21)、南部()、南部(17)和西部(和西部(13)对教师薪水的影响)对教师薪水的影响先考虑地区差异模型如下:先考虑地区差异模型如下:AASi=B1+B2D2i+B3D3i+uil其中,其中,AAS为公立学校老师平均年薪水;为公立学校老师平均年薪水;Di为虚拟为虚拟变量,且变量,且 D2=1表东北和中北部地区,表东北和中北部地区,D2=0为其它地区为其它地区; D3=1表南部地区,表南部地区,D3=0为其它地区为其它地区 这是将西部地区看成是基准类。这是将西部地区看成是基准类。10-15再考

10、虑政府机构用于每个学生的花费和地区对再考虑政府机构用于每个学生的花费和地区对教师平均年薪水的影响:教师平均年薪水的影响:AASi=B1+B2D2i+B3D3i+B4PPSi对模型的解释:对模型的解释:lD2显著,而显著,而D3不显著,表明原模型存在设定误差;不显著,表明原模型存在设定误差;lPPS的系数的含义的系数的含义10-16四、包含一个定量变量和多个定性变量的四、包含一个定量变量和多个定性变量的回归回归l例:考虑如下回归模型:例:考虑如下回归模型:lYi =B1 +B2D2i+B3D3i +B4Xi+ui l其中:其中:Y=小时工资(美元)小时工资(美元)X=教育(受教育年限)教育(受教

11、育年限)D2 =1(女性),(女性),0(男性)(男性)D3 =1(非白种人和非西班牙人),(非白种人和非西班牙人),0(其他)(其他)10-17l结果:结果:P221l对模型的解释:对模型的解释:本例的基准类是白种或西班牙男性;本例的基准类是白种或西班牙男性;两个虚拟变量回归系数的含义;两个虚拟变量回归系数的含义;不考虑性别和种族的影响,则受教育年限每增不考虑性别和种族的影响,则受教育年限每增加一年,平均小时工资提高约加一年,平均小时工资提高约80美元。美元。10-18l交互影响:即不同虚拟变量之间存在的交交互影响:即不同虚拟变量之间存在的交互影响互影响l对于上例而言,我们可以考虑如下模型:

12、对于上例而言,我们可以考虑如下模型:lYi=B1+B2D2i+B3D3i+B4(D2iD3i)+B5Xi+uil其中,其中,B2:女性的差别效应;女性的差别效应;B3:非白种非白种/非西班牙人的差别效应;非西班牙人的差别效应;B4:非白种非白种/非西班牙女性的差别效应非西班牙女性的差别效应B2+B3+B4:非白种非白种/非西班牙女性的平均小时非西班牙女性的平均小时工资函数。工资函数。10-19l模型的一般化:模型的一般化:可以将模型扩展到包括多个定量变量和多个定性变量可以将模型扩展到包括多个定量变量和多个定性变量的情形。但对于每个定性变量,虚拟变量的个数要比的情形。但对于每个定性变量,虚拟变量

13、的个数要比该变量的分类数少一。该变量的分类数少一。例例103:政党对竞选活动的资助:政党对竞选活动的资助应变量:应变量:lPARTY(政党对当地候选人的资助);(政党对当地候选人的资助);自变量:自变量:l定量变量:定量变量:GAP(资助)(资助),VGAP(以往获胜次数)(以往获胜次数),PU(政党(政党忠诚度)忠诚度)l定性变量:定性变量:OPEN(公开竞争否)(公开竞争否),DEMOCRAT(民主(民主党)党),COMM(共和党)(共和党)10-20回归的比较回归的比较l对于模型:对于模型:Yi=B1+B2Di+B3Xi+B4(DiXi)+uil给定给定Di=0,并对上式两端取均值,得男

14、性,并对上式两端取均值,得男性平均食品支出函数:平均食品支出函数:E(Yi|D=0,Xi)=B1+B3Xil给定给定Di=1,并对上式两端取均值,得女性,并对上式两端取均值,得女性平均食品支出函数:平均食品支出函数:E(Yi|D=1,Xi)=(B1+B2)+(B3+B4)Xil我们称我们称B2为差别截距系数,为差别截距系数,B4为差别斜率为差别斜率系数系数10-21l根据差别截距系数和差别斜率系数的统计根据差别截距系数和差别斜率系数的统计显著性,可以辨别出女性和男性食品支出显著性,可以辨别出女性和男性食品支出函数是截距为同还是斜率不同,或是都不函数是截距为同还是斜率不同,或是都不同:同:10-

15、22b) 平行回归平行回归XYc) 并发回归并发回归XYd) 相异回归相异回归XYa) 一致回归一致回归XY10-23l模型的选择:对于模型模型的选择:对于模型10-1; 10-8; 10-23模型类型模型类型自变量自变量系数系数T统计量统计量10-1CD(性别性别)-503.16-1.526710-8CD(性别性别)X(税后收入)税后收入)-288.980.0589-2.149.6410-23CDXDX-67.890.062-0.0063-0.1947.376-0.484实践中,应考虑最全面的模型,再经过适当实践中,应考虑最全面的模型,再经过适当的诊断检验后,简化成较小的模型。的诊断检验后,

16、简化成较小的模型。10-24l例例10-4:美国:美国19701995储蓄收入关系。储蓄收入关系。由于由于1982年以来的经济衰退,有两种方法年以来的经济衰退,有两种方法可考查衰退对储蓄的影响。可考查衰退对储蓄的影响。法一:分两个时期来作回归;法一:分两个时期来作回归;法二:引入虚拟变量,将两个回归模型统一成法二:引入虚拟变量,将两个回归模型统一成一个。一个。10-25模型的比较模型的比较1970-1995CDXDX1.016152.480.0803-0.0650.054.615.54-4.0961970-1995CX62.4230.03764.898.891970-1981CX1.0160.

17、08031982-1995CX153.49(1.016+152.479)0.0148(0.0803-0.0655)10-26六、虚拟变量在季节分析中的应用六、虚拟变量在季节分析中的应用l例:冰箱的销售量与季节性例:冰箱的销售量与季节性lYt=B1+B2D2t+B3D3t+B4D4t+utl其中,其中,Yt: 冰箱销售量(千台)冰箱销售量(千台)D2,D3,D4分别表示每年的第二、第三和第四季分别表示每年的第二、第三和第四季度取值为度取值为1,第一季度值为,第一季度值为0,即第一季度作为,即第一季度作为基准季度。基准季度。10-27l关于公式关于公式1030的回归模型的说明:的回归模型的说明:第

18、二季度和第三季度存在季节效应第二季度和第三季度存在季节效应(D2,D3的系的系数显著不为数显著不为0),第四季度则没有,第四季度则没有利用该模型获得经季节调整后冰箱销售量的时利用该模型获得经季节调整后冰箱销售量的时间序列:间序列:l用实际的用实际的Y减去从方程估计得到的减去从方程估计得到的Y,即回归式的残,即回归式的残差,再把这个残差加上差,再把这个残差加上Y的均值,得到的序列就是的均值,得到的序列就是经季节调整后的序列,该序列表现出时间序列的其经季节调整后的序列,该序列表现出时间序列的其他成分(周期、趋势和随机等)他成分(周期、趋势和随机等)10-28七、应变量也是虚拟变量的情形:线性概七、

19、应变量也是虚拟变量的情形:线性概率模型(率模型(LPM)略略lLPM: 应变量应变量Y的取值只有两种情形,的取值只有两种情形,0或或1.这样的这样的Y称为两分变量称为两分变量l这种以情形下,不宜用这种以情形下,不宜用OLS估计方法:估计方法:虽然虽然Y的值为的值为1或或0,但无法保证,但无法保证Y的估计值介的估计值介于于01之间,实际上,之间,实际上,可能为负或大于可能为负或大于1;由于由于Y是一个二分变量,是一个二分变量,u也是一个二分变量,也是一个二分变量,它不再服从正态分布,而是二项概率分布;它不再服从正态分布,而是二项概率分布;误差项将是异方差的;误差项将是异方差的;由于由于Y仅取值仅

20、取值0和和1,惯用的,惯用的R2没有实际意义了没有实际意义了10-29l对上述问题的解决:对上述问题的解决:随着样本容量的扩大,二项分布收敛于正态分随着样本容量的扩大,二项分布收敛于正态分布;布;异方差有其处理方法;异方差有其处理方法;估计的估计的Y可能在可能在01区间之外:区间之外:l实践中有一个简单的处理方法(在实践中有一个简单的处理方法(在01区间之外的区间之外的Y值不太多时)值不太多时) 为负则取为负则取0; 大于大于1,则取,则取1.lLogit model & Probit model10-30l例:考虑食品支出与税后收入、性别和年例:考虑食品支出与税后收入、性别和年龄的关系(数据

21、见表龄的关系(数据见表10-10)Yi=B1+B2Xi+u其中:其中:Y=1表示申请到了房贷,否则为表示申请到了房贷,否则为0; X表表示年家庭收入示年家庭收入估计结果:估计结果:i=-0.9456+0.0255Xi (相应的相应的t值和值和R2见见P232)对模型的解释:对模型的解释:l收入每增加收入每增加1美元,获得房贷的概率大约增加美元,获得房贷的概率大约增加0.03l实际中:房贷的概率随收入水平以固定增速线性增实际中:房贷的概率随收入水平以固定增速线性增加,与实际不符加,与实际不符10-31l例:借贷市场上的歧视例:借贷市场上的歧视应变量应变量Y为二分变量,通过贷款申请赋值为为二分变量

22、,通过贷款申请赋值为1,否则为否则为0;研究目的是为了判断是否由于性别、种族和其研究目的是为了判断是否由于性别、种族和其他一些定性因素导致了贷款市场上的歧视行为。他一些定性因素导致了贷款市场上的歧视行为。回归的结果:回归的结果:10-32*:p值等于或低于值等于或低于5%;* : p值大于值大于5%解释变量解释变量系数系数t值值截距截距0.501未给出未给出AI(收入)(收入)1.4894.69*XMD(债务减抵押贷款支出)(债务减抵押贷款支出)-1.509-5.74*DF(性别)(性别)0.1400.78*DR(种族)(种族)-0.266-1.84*DS(婚否)(婚否)-0.238-1.75

23、*DA(房屋年限)(房屋年限)-1.426-3.52*NNWP(领居中非的种人的比例)(领居中非的种人的比例)-1.7620.74*NMFI0.1500.23*NA (邻居房屋的平均年限)(邻居房屋的平均年限)-0.393-0.13410-33总结总结l虚拟变量的作用:虚拟变量的作用:“数据分类器数据分类器”l应用虚拟变量应注意的地方:应用虚拟变量应注意的地方:如果回归模型包含了一个常数项,则虚拟变量如果回归模型包含了一个常数项,则虚拟变量的个数必须比每个定性变量的分类数少一;的个数必须比每个定性变量的分类数少一;虚拟变量系数的解释与基准类有关;虚拟变量系数的解释与基准类有关;若模型包含多个定

24、性变量,且每个定性变量有若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。数以免超过样本观察值的个数。10-34l例:考察考察1990年前后的中国居民的总储蓄年前后的中国居民的总储蓄-收入关系是否已发生变化。收入关系是否已发生变化。下表给出了中国下表给出了中国19792001年以城乡储蓄存款年以城乡储蓄存款余额代表的居民储蓄以及以余额代表的居民储蓄以及以GNP代表的居民收代表的居民收入的数据。入的数据。10-35表:表

25、:19792001中国储蓄与中国储蓄与GDP,单位:亿元,单位:亿元90年前年前储蓄储蓄GDP90年后年后储蓄储蓄GDP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.8466701983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.61020

26、1.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.410-36 以以Y为储蓄,为储蓄,X为收入,可令:为收入,可令:l1990年前:年前: Yi= 1+ 2Xi+ 1i i=1,2,n1 l1990年后:年后: Yi= 1+ 2Xi+ 2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1) 1= 1 ,且,且 2= 2

27、,即两个回归相同,称为,即两个回归相同,称为一致回归(Coincident Regressions););10-37(2) 11 ,但但 2= 2 ,即两个回归的差异仅在其截距,即两个回归的差异仅在其截距,称为称为平行回归(Parallel Regressions);(3) 1= 1 ,但,但 22 ,即两个回归的差异仅在其斜,即两个回归的差异仅在其斜率,称为率,称为并发回归(Concurrent Regressions);(4) 11,且,且 22 ,即两个回归完全不同,称为,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。)。10-38这一问题也可通过引入

28、乘法形式的虚拟变量来解这一问题也可通过引入乘法形式的虚拟变量来解决。决。将将n1与与n2次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:iiiiiiXDDXY)(4310Di为引入的虚拟变量:为引入的虚拟变量:01iD年后年前909010-39 于是有:于是有:iiiiXXDYE10), 0|(iiiiXXDYE)()(), 1|(4130可分别表示可分别表示1990年年后期后期与与前期前期的储蓄函数。的储蓄函数。在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。明两个时期中储蓄函数的斜率不同。10-40l具体的

29、回归结果为:具体的回归结果为: (-6.11) (22.89) (4.33) (-2.55) 由由 3与与 4的的t检验可知:参数显著地不等于检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,强烈示出两个时期的回归是相异的,储蓄函储蓄函数分别为:数分别为:1990年前:年前:1990年后:年后:iiiiiXDDXY4765. 03 .138028881. 0154522RR-Square=0.9836iiXY4116. 07 .1649iiXY8881. 01545210-41例例:澳大利亚支出澳大利亚支出-消费关系,消费关系,1977.I1980.IVl表给出了澳大利亚从表给出了澳大利亚从1977.I到到1980.IV1980.IV的的Y衣服、硬件、电器、家具的零售价,称衣服、硬件、电器、家具的零售价,称为个人消费支出为个人消费支出(PCE) 和和X个人可支配收个人可支配收入入(PDI) 的季度数据。的季度数据。Yt=B1+B2D2t+B3D3t+B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论