虚拟变量 课件_第1页
虚拟变量 课件_第2页
虚拟变量 课件_第3页
虚拟变量 课件_第4页
虚拟变量 课件_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章虚拟变量1第八章虚拟变量1第一节虚拟变量回顾:前面各章讨论的变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量物价水平等等)。这些变量称作数量变量。然而,影响被解释变量的不仅有量的因素,还有质的因素(如性别、民族、职业、季节、政策等等)2第一节虚拟变量回顾:前面各章讨论的变量都是可以直接用数字计虚拟变量是用以反映质的属性的一个人工变量,取值为0或1,通常记为

D(DummyVariable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1一、虚拟变量的概念3虚拟变量是用以反映质的属性的一个人工变量,取值为0或1例如

1

男性D=

0

女性

1“文革”时期D=0非“文革”时期4例如1男性4说明虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民第二组:35~60岁的居民用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。5说明虚拟变量主要是用来代表质的因素,但有些情况下也可以二、虚拟变量的设置规则1.两个属性的表示法如性别有两个属性:用Di

表示即:两个属性引入一个变量即可!6二、虚拟变量的设置规则1.两个属性的表示法即:两个属性引入一2.多个属性的表示法假设学历有四个属性:博士、硕士、本科、本科以下等,则:为什么四个属性只引入3个变量呢?72.多个属性的表示法为什么四个属性只引入3个变量呢?7变量属性D1D2D3博士100硕士010本科001本科以下000即:m个属性引入(m-1)个变量即可。8变量D1D2D3博士100硕士010本科003.多个因素各两个属性的表示法如需要同时表示城乡差别和性别差别D1D2城市男性11城市女性10农村男性01农村女性0093.多个因素各两个属性的表示法D1D2城市男性11城市女性1一般地,若有m个因素,而每个因素都只有两个不同的属性类型,则引入m个虚拟变量。思考:现有三个定性因素,有两个因素各有4个不同的属性,一个因素有2个不同的属性,应设多少个虚拟变量?(应设3+3+1=7个虚拟变量)10一般地,若有m个因素,而每个因素都只有两个不同的属性类型,则三、虚拟变量的作用1.可以描述和测量定性因素的影响2.分离异常因素的影响例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度11三、虚拟变量的作用1.可以描述和测量定性因素的影响11四、虚拟变量模型在计量经济模型中,把包含有虚拟变量的模型称为虚拟变量模型。常用的有三种类型:(1)解释变量中只包含虚拟变量;(2)解释变量中既含有定量变量,又含有虚拟变量;(3)被解释变量本身为虚拟变量。12四、虚拟变量模型在计量经济模型中,把包含有虚拟变量的模型称为一、加法类型(截距变动模型)第二节虚拟解释变量的回归1、解释变量中只有虚拟变量如:调查某地区性别与收入之间的关系,可以用模型表示如下:Yi=α+βDi

+ui

Yi代表收入,Di为虚拟变量:13一、加法类型(截距变动模型)第二节虚拟解释变量的回归1、解代表女性收入代表男性与女性收入之间的差额14代表女性收入代表男性与女性收入之间的差额14如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为:Yi=α0+α1Di+βXi+uiYi

为消费水平,Xi

为居民收入,Di为虚拟变量。2、解释变量中既有定量变量又有虚拟变量15如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的表示农村居民的消费水平表示城市居民的消费水平假设α1>0,可得到下图:16表示农村居民的消费水平表示城市居民的消费水平假设α1>0,可XiYiα0α0+α1单变量变截距模型17XiYiα0α0+α1单变量变截距模型17对模型Yi=α0+α1Di+βXi+ui

使用OLS法,可得:

对α1进行t检验,若α1≠0,则说明城市居民与农村居民的消费水平有明显差异。

18对模型Yi=α0+α1Di+βXi+ui使用OLS法,假如还要考虑男女消费水平的差异,消费函数为:Yi=α0+α1D1i+α2D2i+βXi+uiYi为消费水平,Xi为家庭收入,D1i和D2i为虚拟变量。19假如还要考虑男女消费水平的差异,消费函数为:19表示城市男性的消费水平表示城市女性的消费水平表示农村男性的消费水平表示农村女性的消费水平20表示城市男性的消费水平表示城市女性的消费水平表示农村男性的消XiYiα0双变量变截距模型α1α2α221XiYiα0双变量变截距模型α1α2α221虚拟变量陷阱如某些商品的销售量有季节性,假设销售函数为:=1(第一季)=0(其他季)=1(第二季)=0(其他季)=1(第三季)=0(其他季)=1(第四季)=0(其他季)如果引入4个虚拟变量会出现什么问题呢?22虚拟变量陷阱=1(第一季)=1(第二季)=1(第三季)=1(可视为截距项的解释变量,即α0=α0×1所以引入4个虚拟变量出现了完全多重共线性的问题!OLS法不能使用!这就是虚拟变量陷阱问题!23可视为截距项的解释变量,即α0=α0×1所以引入4个虚拟变克服虚拟变量陷阱的方法改为引入虚拟变量:24克服虚拟变量陷阱的方法24引入虚拟变量的规则补充说明对于具有m个属性的虚拟变量:若模型中含有截距项,引入m-1个虚拟变量;若模型中不含有截距项,引入m个虚拟变量。25引入虚拟变量的规则补充说明25二、乘法类型(斜率变动模型)以乘法形式引入虚拟变量,是在所设定的模型中,将虚拟解释变量与其他解释变量相乘作为新的解释变量,以达到调整斜率系数的目的。主要作用在于:(1)比较两个回归模型;(2)分析因素间的交互影响;(3)提高模型的描述精度。26二、乘法类型(斜率变动模型)以乘法形式引入虚拟变量,是在所设1、回归模型的比较例如,研究改革开放前后储蓄、收入的总量关系,分别设定模型如下:(1)改革开放前(2)改革开放后其中Yt为储蓄总额,Xt为收入总额。271、回归模型的比较例如,研究改革开放前后储蓄、收入的总量关系分别在各自的时间区间内作回归,可能有如下四种结果:表明两个回归模型是相同的,称为重合回归;表明仅在截距上存在差异,称为平行回归;表明截距相同而变化速率不同,称为共点回归;表明两个回归模型完全不同。28分别在各自的时间区间内作回归,可能有如下四种结果:表明两个回XiYi重合回归129XiYi重合回归129XiYi平行回归1130XiYi平行回归1130XiYi共点回归1131XiYi共点回归1131XiYi不同的回归1132XiYi不同的回归1132问题:当我们分别运用样本数据对两个模型进行回归后,如何界定所得结果在统计意义上属于那种类型呢?可采用乘法形式引入虚拟变量,可设定为:其中上式等价于模型:(1)改革开放前(2)改革开放后33问题:当我们分别运用样本数据对两个模型进行回归后,如何界定所(1)改革开放前(2)改革开放后分别是等价模型的截距和斜率差异,分别称为截距差异系数和斜率差异系数。显然,用1950-2004年数据估计(*)式,比分别用1950-1977年和1978-2004年的数据估计(1)和(2)式更好。估计结果为:(0.3319)(0.4704)(0.0163)(0.0332)t=(-5.2733)(3.1545)(9.2270)(-3.1144)结果表明,截距和斜率差异系数在统计意义下均是显著的,说明改革开放前后不同。34(1)改革开放前(2)改革开放后分别是等价模型的截距和斜率差从上面可以看出,以乘法形式引入虚拟变量做回归模型的比较的优点:(1)用一个回归代替多个回归,简化过程;(2)可以对模型结构差异做假设检验;(3)合并的模型增加了自由度,提高了参数估计的精确性。当然,也应注意合并后模型的随机扰动项应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。35从上面可以看出,以乘法形式引入虚拟变量做回归模型的比较的优点

在多元线性回归模型中,通过F检验,可以判断各解释变量联合对被解释变量是否有显著影响。那么在包含两个定性变量的虚拟变量模型中,两个定性变量对被解释变量的影响也可能存在一定的交互作用,如何描述呢?例如,研究农副产品生产总收益与农副产品生产投入的关系时,设定模型为2、交互效应分析36在多元线性回归模型中,通过F检验,可以判断虚拟变量以加法形式引入暗含着假设:油菜籽生产和养蜂生产是分别独立地影响着农副产品总收益。但实际是在发展油菜籽生产的同时发展养蜂生产,所取得的农副产品总收益会高于不发展养蜂生产的情况。即它们之间存在交互作用。其中Yi农副产品生产总收益,Xi为农副产品生产总投入,而37虚拟变量以加法形式引入暗含着假设:油菜籽生产和养蜂生产是分别为了描述交互作用对被解释变量的影响,在模型中引入虚拟变量的乘积,即称为交互效应系数。其中交互效应是否存在,可借助于交互效应系数的显著性检验加以判断。38为了描述交互作用对被解释变量的影响,在模型中引入虚拟变量的乘在经济关系中常有这样的情况:当解释变量X的值达到某一水平X*之前,与被解释变量Y之间存在某种线性关系;当解释变量X的值达到或超过X*之后,与被解释变量Y的关系就会发生变化。此时,如果已知X的转折点X*,就可以用虚拟变量来估计每一段的斜率。这就是分段线性回归。3、分段线性回归39在经济关系中常有这样的情况:3、分段线性回归39例如:1979年以前,我国居民的消费支出呈缓慢上升的趋势。从1979年开始,居民消费支出为快速上升趋势。显然,1979年是一个转折点,即:X*=1979所以,可用模型描述我国居民在1955年至2009年消费支出的变动趋势:40例如:1979年以前,我国居民的消费支出呈缓慢上升的趋势。从Yt=β0+β1t+β2(t-X*)Dt

+ut其中Yt为消费支出;t

为年份(t=1955,1956,…,2009);上面模型等价于:(1)1979年以前:Yt=β0+β1t+ut(2)1979年以后:

Yt=β0-

β2X*+(β1+β2)t

+ut41Yt=β0+β1t+β2(t-X*)Dt+ut上面t

(年份)E(Yi)分段回归模型1955x*(1979)E(Yt)=β0+β1tE(Yt)=β0-

β2X*+(β1+β2)t42t(年份)E(Yi)分段回归模型1955x*(1979)E只要检验β2的统计显著性,就可以判断在所设定的临界水平X*处是否存在“突变”。可以推广到k段回归的情况,只需用k-1个虚拟变量即可。

43只要检验β2的统计显著性,就可以判断在所设定的临界水平X*处第三节虚拟被解释变量在计量经济模型中,虚拟变量还可以作为被解释变量,其作用是对某一经济现象或经济活动作“是”与“否”的判断与决策。在计量经济学中称为“二元响应”现象。处理二元型响应的模型常用有线性概率模型和非线性概率模型。44第三节虚拟被解释变量在计量经济模型中,虚拟变量还可以作为被一、线性概率模型1、什么是线性概率模型例如,假设住户是否购买商品房主要取决于其收入水平。考虑下列模型:其中Xi为住户收入,Yi为虚拟变量,表示住户购买商品房的情况:(1)45一、线性概率模型1、什么是线性概率模型其中Xi为住户收入,Y则Yi是取值0或1的随机变量,由(1)式得:从而假设则P(Yi=1︱Xi)=pi,则P(Yi=0︱Xi)=1-pi于是这表明购买商品房的概率是收入的线性函数,故模型(1)称为线性概率模型(LPM)。由于0≤pi≤1,所以(1)式必须满足约束条件46则Yi是取值0或1的随机变量,由(1)式得:从而假设则P2、线性概率模型的估计线性概率模型虽然在形式上与普通线性回归模型很相似,但由于Yi是虚拟变量,会出现与普通回归模型不同的新问题,不能直接运用OLS对其进行估计:(1)随机扰动项不服从正态分布;(2)随机扰动项具有异方差性;(3)条件0≤E(Yi︱Xi)≤1不一定成立。472、线性概率模型的估计47因为OLS估计的无偏性、有效性与扰动项的分布无关,所以第一个问题对参数的估计不会产生影响。但进行参数检验和区间估计时,要求服从正态分布,根据中心极限定理,二项分布趋近于正态分布,所以在大样本情况下,仍然可以进行统计推断,即直接运用OLS对LPM模型进行估计,随机扰动项的非正态性对参数的估计不会产生太大的影响。对于异方差性的问题,可利用第五章的方法解决:1、加权最小二乘法;2、模型的对数变换。48因为OLS估计的无偏性、有效性与扰动项的分布无关,所以第一个对于第三个问题,有两种处理办法:一是当时,认为当时,认为二是选择其他能够满足约束0≤E(Yi︱Xi)≤1的非线性模型。49对于第三个问题,有两种处理办法:一是当时,认为当时,认为二是二、非线性概率模型虽然可以通过增大样本容量忽略非正态性问题,运用WLS解决异方差问题,采取约束使事件Y发生的概率落入0-1之间,但LPM模型往往与实际经济意义不相符。例如,在住户购买商品房的例子中:设当Xi有增量△Xi时,pi有增量△pi,于是从而50二、非线性概率模型虽然可以通过增大样本容量忽略非正态性问题,上式表明Xi每增加一个单位,购买住房的概率恒等地增加β2,这就是说,无论住户的收入水平是1万元,还是10万元,购买住房的概率都以相同的增量增加。这与现实情况不符,显然低收入购买住房的概率增大。因此有必要选择表现概率平均变化比较理想的模型。主要有两种:Logit模型和Probit模型。这里只介绍Logit模型51上式表明Xi每增加一个单位,购买住房的概率恒等地增加β2,这1、Logit模型Logit模型也成Logistic模型或单位对数模型,由Verhulst于1945年提出,最早被用来描述生物的生长规律(逻辑成长率),现已广泛用来描述耐用消费品的销售规律。选择如下的Logistic分布函数去设定二元响应计量经济模型:521、Logit模型52它的图像是一条S型曲线,有下列特征:(1)概率0≤pi=E(Yi︱Xi)≤1,解决了条件概率有可能大于1或小于0的问题;(2)当Xi→+∞时,pi→1,当Xi→-∞时,pi→0,pi随Xi变化而变化,且变化速率不是常数,更加符合实际情况;Xipi0153它的图像是一条S型曲线,有下列特征:Xipi01531、Logit模型的估计由于pi不仅对Xi是非线性关系,而且对β1和β2也是非线性关系,不能直接用OLS估计参数,必须设法转化为线性形式。由于所以比率称为机会比率或机会差异化,而称为对数单位。541、Logit模型的估计所以比率称为机会比率或机会差异化,而从计量经济的角度引入随机扰动项,记为:如何得到β1和β2的估计量呢?对上式直接估计会遇到如下困难:(1)当pi=0或1时,都无意义;(2)Li的数据无法观测;(3)随机扰动项ui的为异方差,可以证明:~这里的Ni是对应于Xi的样本数。55从计量经济的角度引入随机扰动项,记为:如何得到β1和β2的估解决第一个困难可采用极大似然法(ML)估计参数,当样本容量较大时,可采用加权最小二乘法估计;解决第二个困难是对应于每个Xi,样本观测值个数Ni

较大时,利用汇总数据,用相对频率作为对pi

的估计,并用此估计对数单位Li;解决第三个困难是通过相对频率代替pi去估计ui的方差,即再用加权最小二乘法估计参数,权数wi为:56解决第一个困难可采用极大似然法(ML)估计参数,当样本容量较例根据美国1961年第一季度至1977年第二季度的季度数据,得到如下的咖啡需求函数的回归方程:t=(-2.14)(1.23)(-3.36)(0.55)(-3.74)(-6.03)(-0.37)R2=0.80其中:Q—人均咖啡消费量(磅)P—咖啡的价格(以1967年价格为不变价格)P′—茶的价格(1/4磅,以1967年价格为不变价格)T—时间趋势变量(1961年第一季度为1,…,1977年第二季度为66)D1—1:第一季度;D2—1:第二季度;D3—1:第三季度。57例根据美国1961年第一季度至1977年第二季度的季度数据回答下列问题:(1)模型中P、I和P′的系数的经济含义是什么?(2)咖啡的价格需求是否很有弹性?(3)咖啡和茶是互补品还是替代品?(4)如何解释时间变量T的系数?(5)如何解释模型中虚拟变量的作用?(6)哪一个虚拟变量在统计上是显著的?(7)咖啡的需求是否存在季节效应?58回答下列问题:58本章重点内容1.虚拟变量的含义、作用和设置规则2.虚拟变量陷阱的含义(虚拟变量引入规则)3.虚拟解释变量加入的两种基本类型:(1)加法类型(2)乘法类型(回归模型比较、交互效应分析、分段线性回归)4.虚拟被解释变量的回归作业:P239思考题8.3,8.7,8.8,练习题8.159本章重点内容1.虚拟变量的含义、作用和设置规则作业:P239第八章虚拟变量60第八章虚拟变量1第一节虚拟变量回顾:前面各章讨论的变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量物价水平等等)。这些变量称作数量变量。然而,影响被解释变量的不仅有量的因素,还有质的因素(如性别、民族、职业、季节、政策等等)61第一节虚拟变量回顾:前面各章讨论的变量都是可以直接用数字计虚拟变量是用以反映质的属性的一个人工变量,取值为0或1,通常记为

D(DummyVariable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1一、虚拟变量的概念62虚拟变量是用以反映质的属性的一个人工变量,取值为0或1例如

1

男性D=

0

女性

1“文革”时期D=0非“文革”时期63例如1男性4说明虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民第二组:35~60岁的居民用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。64说明虚拟变量主要是用来代表质的因素,但有些情况下也可以二、虚拟变量的设置规则1.两个属性的表示法如性别有两个属性:用Di

表示即:两个属性引入一个变量即可!65二、虚拟变量的设置规则1.两个属性的表示法即:两个属性引入一2.多个属性的表示法假设学历有四个属性:博士、硕士、本科、本科以下等,则:为什么四个属性只引入3个变量呢?662.多个属性的表示法为什么四个属性只引入3个变量呢?7变量属性D1D2D3博士100硕士010本科001本科以下000即:m个属性引入(m-1)个变量即可。67变量D1D2D3博士100硕士010本科003.多个因素各两个属性的表示法如需要同时表示城乡差别和性别差别D1D2城市男性11城市女性10农村男性01农村女性00683.多个因素各两个属性的表示法D1D2城市男性11城市女性1一般地,若有m个因素,而每个因素都只有两个不同的属性类型,则引入m个虚拟变量。思考:现有三个定性因素,有两个因素各有4个不同的属性,一个因素有2个不同的属性,应设多少个虚拟变量?(应设3+3+1=7个虚拟变量)69一般地,若有m个因素,而每个因素都只有两个不同的属性类型,则三、虚拟变量的作用1.可以描述和测量定性因素的影响2.分离异常因素的影响例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度70三、虚拟变量的作用1.可以描述和测量定性因素的影响11四、虚拟变量模型在计量经济模型中,把包含有虚拟变量的模型称为虚拟变量模型。常用的有三种类型:(1)解释变量中只包含虚拟变量;(2)解释变量中既含有定量变量,又含有虚拟变量;(3)被解释变量本身为虚拟变量。71四、虚拟变量模型在计量经济模型中,把包含有虚拟变量的模型称为一、加法类型(截距变动模型)第二节虚拟解释变量的回归1、解释变量中只有虚拟变量如:调查某地区性别与收入之间的关系,可以用模型表示如下:Yi=α+βDi

+ui

Yi代表收入,Di为虚拟变量:72一、加法类型(截距变动模型)第二节虚拟解释变量的回归1、解代表女性收入代表男性与女性收入之间的差额73代表女性收入代表男性与女性收入之间的差额14如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为:Yi=α0+α1Di+βXi+uiYi

为消费水平,Xi

为居民收入,Di为虚拟变量。2、解释变量中既有定量变量又有虚拟变量74如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的表示农村居民的消费水平表示城市居民的消费水平假设α1>0,可得到下图:75表示农村居民的消费水平表示城市居民的消费水平假设α1>0,可XiYiα0α0+α1单变量变截距模型76XiYiα0α0+α1单变量变截距模型17对模型Yi=α0+α1Di+βXi+ui

使用OLS法,可得:

对α1进行t检验,若α1≠0,则说明城市居民与农村居民的消费水平有明显差异。

77对模型Yi=α0+α1Di+βXi+ui使用OLS法,假如还要考虑男女消费水平的差异,消费函数为:Yi=α0+α1D1i+α2D2i+βXi+uiYi为消费水平,Xi为家庭收入,D1i和D2i为虚拟变量。78假如还要考虑男女消费水平的差异,消费函数为:19表示城市男性的消费水平表示城市女性的消费水平表示农村男性的消费水平表示农村女性的消费水平79表示城市男性的消费水平表示城市女性的消费水平表示农村男性的消XiYiα0双变量变截距模型α1α2α280XiYiα0双变量变截距模型α1α2α221虚拟变量陷阱如某些商品的销售量有季节性,假设销售函数为:=1(第一季)=0(其他季)=1(第二季)=0(其他季)=1(第三季)=0(其他季)=1(第四季)=0(其他季)如果引入4个虚拟变量会出现什么问题呢?81虚拟变量陷阱=1(第一季)=1(第二季)=1(第三季)=1(可视为截距项的解释变量,即α0=α0×1所以引入4个虚拟变量出现了完全多重共线性的问题!OLS法不能使用!这就是虚拟变量陷阱问题!82可视为截距项的解释变量,即α0=α0×1所以引入4个虚拟变克服虚拟变量陷阱的方法改为引入虚拟变量:83克服虚拟变量陷阱的方法24引入虚拟变量的规则补充说明对于具有m个属性的虚拟变量:若模型中含有截距项,引入m-1个虚拟变量;若模型中不含有截距项,引入m个虚拟变量。84引入虚拟变量的规则补充说明25二、乘法类型(斜率变动模型)以乘法形式引入虚拟变量,是在所设定的模型中,将虚拟解释变量与其他解释变量相乘作为新的解释变量,以达到调整斜率系数的目的。主要作用在于:(1)比较两个回归模型;(2)分析因素间的交互影响;(3)提高模型的描述精度。85二、乘法类型(斜率变动模型)以乘法形式引入虚拟变量,是在所设1、回归模型的比较例如,研究改革开放前后储蓄、收入的总量关系,分别设定模型如下:(1)改革开放前(2)改革开放后其中Yt为储蓄总额,Xt为收入总额。861、回归模型的比较例如,研究改革开放前后储蓄、收入的总量关系分别在各自的时间区间内作回归,可能有如下四种结果:表明两个回归模型是相同的,称为重合回归;表明仅在截距上存在差异,称为平行回归;表明截距相同而变化速率不同,称为共点回归;表明两个回归模型完全不同。87分别在各自的时间区间内作回归,可能有如下四种结果:表明两个回XiYi重合回归188XiYi重合回归129XiYi平行回归1189XiYi平行回归1130XiYi共点回归1190XiYi共点回归1131XiYi不同的回归1191XiYi不同的回归1132问题:当我们分别运用样本数据对两个模型进行回归后,如何界定所得结果在统计意义上属于那种类型呢?可采用乘法形式引入虚拟变量,可设定为:其中上式等价于模型:(1)改革开放前(2)改革开放后92问题:当我们分别运用样本数据对两个模型进行回归后,如何界定所(1)改革开放前(2)改革开放后分别是等价模型的截距和斜率差异,分别称为截距差异系数和斜率差异系数。显然,用1950-2004年数据估计(*)式,比分别用1950-1977年和1978-2004年的数据估计(1)和(2)式更好。估计结果为:(0.3319)(0.4704)(0.0163)(0.0332)t=(-5.2733)(3.1545)(9.2270)(-3.1144)结果表明,截距和斜率差异系数在统计意义下均是显著的,说明改革开放前后不同。93(1)改革开放前(2)改革开放后分别是等价模型的截距和斜率差从上面可以看出,以乘法形式引入虚拟变量做回归模型的比较的优点:(1)用一个回归代替多个回归,简化过程;(2)可以对模型结构差异做假设检验;(3)合并的模型增加了自由度,提高了参数估计的精确性。当然,也应注意合并后模型的随机扰动项应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。94从上面可以看出,以乘法形式引入虚拟变量做回归模型的比较的优点

在多元线性回归模型中,通过F检验,可以判断各解释变量联合对被解释变量是否有显著影响。那么在包含两个定性变量的虚拟变量模型中,两个定性变量对被解释变量的影响也可能存在一定的交互作用,如何描述呢?例如,研究农副产品生产总收益与农副产品生产投入的关系时,设定模型为2、交互效应分析95在多元线性回归模型中,通过F检验,可以判断虚拟变量以加法形式引入暗含着假设:油菜籽生产和养蜂生产是分别独立地影响着农副产品总收益。但实际是在发展油菜籽生产的同时发展养蜂生产,所取得的农副产品总收益会高于不发展养蜂生产的情况。即它们之间存在交互作用。其中Yi农副产品生产总收益,Xi为农副产品生产总投入,而96虚拟变量以加法形式引入暗含着假设:油菜籽生产和养蜂生产是分别为了描述交互作用对被解释变量的影响,在模型中引入虚拟变量的乘积,即称为交互效应系数。其中交互效应是否存在,可借助于交互效应系数的显著性检验加以判断。97为了描述交互作用对被解释变量的影响,在模型中引入虚拟变量的乘在经济关系中常有这样的情况:当解释变量X的值达到某一水平X*之前,与被解释变量Y之间存在某种线性关系;当解释变量X的值达到或超过X*之后,与被解释变量Y的关系就会发生变化。此时,如果已知X的转折点X*,就可以用虚拟变量来估计每一段的斜率。这就是分段线性回归。3、分段线性回归98在经济关系中常有这样的情况:3、分段线性回归39例如:1979年以前,我国居民的消费支出呈缓慢上升的趋势。从1979年开始,居民消费支出为快速上升趋势。显然,1979年是一个转折点,即:X*=1979所以,可用模型描述我国居民在1955年至2009年消费支出的变动趋势:99例如:1979年以前,我国居民的消费支出呈缓慢上升的趋势。从Yt=β0+β1t+β2(t-X*)Dt

+ut其中Yt为消费支出;t

为年份(t=1955,1956,…,2009);上面模型等价于:(1)1979年以前:Yt=β0+β1t+ut(2)1979年以后:

Yt=β0-

β2X*+(β1+β2)t

+ut100Yt=β0+β1t+β2(t-X*)Dt+ut上面t

(年份)E(Yi)分段回归模型1955x*(1979)E(Yt)=β0+β1tE(Yt)=β0-

β2X*+(β1+β2)t101t(年份)E(Yi)分段回归模型1955x*(1979)E只要检验β2的统计显著性,就可以判断在所设定的临界水平X*处是否存在“突变”。可以推广到k段回归的情况,只需用k-1个虚拟变量即可。

102只要检验β2的统计显著性,就可以判断在所设定的临界水平X*处第三节虚拟被解释变量在计量经济模型中,虚拟变量还可以作为被解释变量,其作用是对某一经济现象或经济活动作“是”与“否”的判断与决策。在计量经济学中称为“二元响应”现象。处理二元型响应的模型常用有线性概率模型和非线性概率模型。103第三节虚拟被解释变量在计量经济模型中,虚拟变量还可以作为被一、线性概率模型1、什么是线性概率模型例如,假设住户是否购买商品房主要取决于其收入水平。考虑下列模型:其中Xi为住户收入,Yi为虚拟变量,表示住户购买商品房的情况:(1)104一、线性概率模型1、什么是线性概率模型其中Xi为住户收入,Y则Yi是取值0或1的随机变量,由(1)式得:从而假设则P(Yi=1︱Xi)=pi,则P(Yi=0︱Xi)=1-pi于是这表明购买商品房的概率是收入的线性函数,故模型(1)称为线性概率模型(LPM)。由于0≤pi≤1,所以(1)式必须满足约束条件105则Yi是取值0或1的随机变量,由(1)式得:从而假设则P2、线性概率模型的估计线性概率模型虽然在形式上与普通线性回归模型很相似,但由于Yi是虚拟变量,会出现与普通回归模型不同的新问题,不能直接运用OLS对其进行估计:(1)随机扰动项不服从正态分布;(2)随机扰动项具有异方差性;(3)条件0≤E(Yi︱Xi)≤1不一定成立。1062、线性概率模型的估计47因为OLS估计的无偏性、有效性与扰动项的分布无关,所以第一个问题对参数的估计不会产生影响。但进行参数检验和区间估计时,要求服从正态分布,根据中心极限定理,二项分布趋近于正态分布,所以在大样本情况下,仍然可以进行统计推断,即直接运用OLS对LPM模型进行估计,随机扰动项的非正态性对参数的估计不会产生太大的影响。对于异方差性的问题,可利用第五章的方法解决:1、加权最小二乘法;2、模型的对数变换。107因为OLS估计的无偏性、有效性与扰动项的分布无关,所以第一个对于第三个问题,有两种处理办法:一是当时,认为当时,认为二是选择其他能够满足约束0≤E(Yi︱Xi)≤1的非线性模型。108对于第三个问题,有两种处理办法:一是当时,认为当时,认为二是二、非线性概率模型虽然可以通过增大样本容量忽略非正态性问题,运用WLS解决异方差问题,采取约束使事件Y发生的概率落入0-1之间,但LPM模型往往与实际经济意义不相符。例如,在住户购买商品房的例子中:设当Xi有增量△Xi时,pi有增量△pi,于是从而109二、非线性概率模型虽然可以通过增大样本容量忽略非正态性问题,上式表明Xi每增加一个单位,购买住房的概率恒等地增加β2,这就是说,无论住户的收入水平是1万元,还是10万元,购买住房的概率都以相同的增量增加。这与现实情况不符,显然低收入购买住房的概率增大。因此有必要选择表现概率平均变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论