




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四节虚拟变量模型
一、虚拟变量的基本含义
四、虚拟被解释变量二、虚拟变量的引入三、虚拟变量的设置原则第四节虚拟变量模型一、虚拟变量的基本含义四、虚拟1一、虚拟变量的基本含义许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,一、虚拟变量的基本含义许多经济变量是可以定量度量的,如:商品2这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummyvariables),记为D。例如,反映文程度的虚拟变量可取为:1,本科学历
D=0,非本科学历一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。这种“量化”通常是通过引入“虚拟变量”来完成的。3一、虚拟变量(dummy)及其作用1、定义:反映品质指标变化、数值只取0和1的人工变量。用符号D来表示。
如:城镇居民农村居民销售旺季销售淡季政策紧缩政策宽松本科以上学历本科以下学历变量的划分应遵循穷举与互斥原则。一、虚拟变量(dummy)及其作用1、定义:如:城镇居民销42、作用:⑴可以描述和测量定性因素的影响。
这是计量经济学研究的重点。
⑵能够正确反映经济变量之间的相互关系,提高模型的精度。从经济意义上来说,能够更好地解释现实经济现象。
⑶便于处理异常数据。
当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量较大的情况下直接剔除异常数据;二是用平均数等方式修匀异常数据;三是设置虚拟变量(即将异常数据作为一个特殊的定性因素):异常时期正常时期2、作用:⑴可以描述和测量定性因素的影响。异常时期5二、虚拟变量的设定
1.虚拟变量的引入方式。
在计量经济模型中设置虚拟变量可以采用两种方式:加法方式和乘法方式。(1)加法方式虚拟变量D与其他解释变量在模型中是相加关系。
Yi=a+bxi+αDi+εi
上式等价为:当Di=0时:Yi=a+bxi+εi
当Di=1时:Yi=(a+α)+bxi+εiD=0D=1aa+αα上图表明,以加法方式引入虚拟变量,反映定性因素对截距的影响,也就是通过调整截距区分异常情况。二、虚拟变量的设定1.虚拟变量的引入方式。D=0D=6(2)乘法方式
虚拟变量D与其他解释变量在模型中是相乘关系。
Yi=a+bxi+βXDi+εi其中:XDi=Xi*Di,上式等价于:当Di=0时:Yi=a+bxi+εi
当Di=1时:Yi=a+(b+β)xi+εiD=0D=1aβ上图表明,以乘法方式引入虚拟变量,可反映定性因素对斜率的影响,系数β描述了定性因素的影响程度。(3)一般方式
同时用加法与乘法方式引入虚拟变量,然后再利用t检验判断α、β是否显著的不等于零,进而确定虚拟变量的具体引入方式。(2)乘法方式虚拟变量D与其他解释变量在模型中是相乘关系。7例7.教材P136表3-8列出了1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料。
在EViews软件的命令窗口中依次键入以下命令:
CREATEU8建立工作文件
DATAYX输入需求量、收入数据
SCATX Y绘制相关图
操作演示从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(即中、高收入家庭)的支出情况存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量:例7.教材P136表3-8列出了1998年我国城镇居民人均收8将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi同时引入加法和乘法方法,再进行t检验。DATAD1输入虚拟变量的值(前三个为0,后五个为1)(由于D是EViews软件的保留字,所以将虚拟变量取名为D1;另外,此时也可以用SMPL和GENR命令直接生成D1变量)
GENR XD=X*D1 生成变量XD LSYCXD1XD 估计需求函数结果如下图所示:中高收入家庭低收入家庭将我国城镇居民的彩电需求函数设成:中高收入家庭9我国城镇居民彩电需求函数的估计结果为:
对应的t统计量值R2的值调整的R2值SE的值α、β的t检验都是显著的,表明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,各自的需求函数为:我国城镇居民彩电需求函数的估计结果为:对应的t统计量值R210低收入家庭:事实上,现阶段我国城镇居民中高收入家庭的彩电普及率已达到百分之百,所以对彩电的消费需求处于更新换代阶段。此例说明了三个问题:①如何设置和在模型中引入虚拟变量;②如何测量定性因素(即收入层次)的影响;③如何区分不同类型的模型(即需求函数)。
中高收入家庭:低收入家庭:事实上,现阶段我国城镇居民中高收入家庭112.虚拟变量的设置原则
⑴一个因素多个类型
对于有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。例:设公司职员的年薪与工龄和学历有关。学历分成三种类型:大专以下、本科、研究生。为了反映“学历”这个定性因素的影响,应该设置两个虚拟变量:
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α1D1i+α2D2i+εi本科其他研究生其他2.虚拟变量的设置原则
⑴一个因素多个类型而将12其等价于:
Yi=a+bxi+εi大专以下(D1=D2=0)Yi=(a+α1)+bxi+εi本科(D1=1,D2=0)Yi=(a+α2)+bxi+εi研究生(D1=0,D2=1)上图直观地描述了三类年薪函数的差异情况,通过检验、α1、α2的显著性,可以判断学历层次对职员的年薪是否有显著影响。大专以下本科研究生工龄年薪α2-α1
α1
其等价于:Yi=a+bxi+εi13(2)多个因素各两种类型
如果有m个定性因素,且每个因素各有两个不同的属性类型,则引入m个虚拟变量。例如,研究居民住房消费函数时,考虑到城乡的差异以及不同收入层次的影响,将消费函数取成:
Yi=a+bxi+α1D1i+α2D2i+εi
其中y,x分别是居民住房消费支出和可支配收入,虚拟变量这样可以反映各类居民家庭的住房消费情况:
农村居民城镇居民高收入家庭低收入家庭(2)多个因素各两种类型如果有m个定性因素,且每个14城市低收入家庭(D1=0,D2=0)
Yi=a+bxi+εi城市高收入家庭
(D1=0,D2=1)
Yi=(a+α2)+bxi+εi农村低收入家庭
(D1=1,D2=0)Yi=(a+α1)+bxi+εi农村高收入家庭
(D1=1,D2=1)Yi=(a+α1+α2)+bxi+εi
推广到更一般的情况,如果有些因素有多个属性水平,则参照“一个因素多种类型”的设置原则来设置虚拟变量。另外,定性因素的变化通常表现为某种属性或特征是否存在,所以可以用只取1、0值的虚拟变量来“量化”定性因素的变化。一般地,“1”表示这种属性或特征存在,“0”表示这种属性或特征不存在。城市低收入家庭(D1=0,D2=0)151、调整季节波动利用季节或月份资料建立模型时,经常存在着季节波动。使用虚拟变量可以反映季节因素的影响。例如,利用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型):
取利润函数为
:Yi=a+bxi+α1D1i+α2D2i+α3D3i+εi
则系数a、α1、α2、α3分别反映了一、二、三、四季度对利润的平均影响程度,根据这些系数的t检验可以判断季节因素对利润是否显著影响。
第i+1季度i=1,2,3其他季度1、调整季节波动取利润函数为:第i+1季度162、检验模型结构的稳定性
模型结构的稳定性检验主要有两个用途:一是分析模型结构对样本变化的敏感性,如多重共线性检验;二是比较两个(或多个)回归模型之间的差异情况,即分析模型结构是否发生了显著变化。设根据两个样本估计的回归模型分别为:样本1:Yi=a1+b1xi+εi
样本2:Yi=a2+b2xi+εi
设置虚拟变量:
估计以下模型:
Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+εi
其中,XDi=xi*Di。
样本2样本12、检验模型结构的稳定性模型结构的稳定性检验主要有17利用t检验判断D、XD系数的显著性,可以得到四种检验结果:
(1)两个系数均等于零,即a2=a1,b2=b1,表明两个回归模型之间没有显著差异,称之为“重合回归”。(2)D的系数不等于零,XD的系数等于零,即a2≠a1,b2=b1。表明两个回归模型之间的差异仅仅表现在截距上,称之为“平行回归”。(3)D的系数等于零,XD的系数不等于零,即a2=a1,b2≠b1。表明两个回归模型的截距相同,但斜率存在显著差异,称之为“汇合回归”。(4)D、XD的系数均不等于零,即a2≠a1,b2≠b1。表明两个回归模型完全不同,称之为“相异回归”第(1)种情况下模型结构是稳定的,其余情况都表明模型结构不稳定。利用t检验判断D、XD系数的显著性,可以得到四种检验183、分段回归有些经济关系需要用分段回归加以描述:当解释变量x低于某个已知的临界水平x*时,y与x之间是某种线性相关关系,而x>x*时又是另一种相关关系。利用虚拟变量可以很好地解决分段回归问题。取虚拟变量为:分段回归模型设置成:
Yi=a+bxi+β(xi-x*)Di+εi
其中,x*是已知的临界水平。这样各段的函数为:
Yi=a+bxi+εix<x*Yi=(a-β)+(b+β)xi+εix>x*
x>x*x<x*使用虚拟变量既能如实描述不同阶段的经济关系,又未减少估计模型时样本容量,保证了模型的估计精度。3、分段回归有些经济关系需要用分段回归加以描述:当194、混合回归建立计量经济模型时,有时能同时获得变量的时序数据和横截面数据。
只要模型参数不随时间而改变,并且在各个横截面之间没有差异,就可以使用混合样本估计模型。因此,在合并样本之前,需在比较使用不同样本估计的模型之间是否有显著差异。例8.教材P143表3-9为我国城镇居民1998年、1999年全年人均消费支出和可支配收入的统计资料。试使用混合样本数据估计我国城镇居民消费函数。设1998年、1999年我国城镇居民消费函数分别为:
1998年:Yi=a1+b1xi+εi1999年:Yi=a2+b2xi+εi
4、混合回归建立计量经济模型时,有时能同时获得变量20为比较两年的消费函数是否有显著差异,设置虚拟变量:
并且合并两年的数据,估计以下模型:
Yi=a1+b1xi+αDi+βXDi+εi其中α=a2-a1,β=b2-b1。使用EViews软件的估计过程如下:CREATEU16建立工作文件DATAYX(输入1998、1999年消费支出和收入的数据,1~8期为1998年资料,9~16期为1999年资料)1999年1998年为比较两年的消费函数是否有显著差异,设置虚拟变量:并且合并21
SMPL18样本期调为1998年GENRD1=0输入虚拟变量的值SMPL916样本期调为1999年GENRD1=1输入虚拟变量的值SMPL116样本期调至1998~1999年GENRXD=X*D1生成XD的值LSYCXD1XD利用混合样本估计模型估计结果为:操作演示根据t检验,D、XD的回归系数均不显著,即认为α=a2-a1=0,β=b2-b1=0;这表明1998年、1999年我国城镇居民消费函数并没有显著差异。因此,可以将两年的样本数据合并成一个样本,估计城镇居民的消费函数。对应t统计量的值R2的值调整的R2值SMPL1822练习题:1、简述虚拟变量的引入方式及其影响。
2、设置虚拟变量时应遵守哪些原则?3、虚拟变量有哪些特殊应用。练习题:23概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金,Xi为工龄,
Di=1,若是男性,Di=0,若是女性。概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模24
二、虚拟变量的引入虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。
企业男职工的平均薪金为:上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则
企业女职工的平均薪金为:
1、加法方式二、虚拟变量的引入虚拟变量做为解释变量引入模25几何意义:假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02几何意义:假定2>0,则两个函数有相同的斜率,但有不同的截26
又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上模型可设定如下:这时需要引入两个虚拟变量:又例:在横截面数据基础上,考虑个人保健支出对个人收入27在E(i)=0
的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:高中:大学及其以上:假定3>2,其几何意义:在E(i)=0的初始假定下,高中以下、高中、大学及其28还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:(x工龄,D1性别)本科及以上学历本科以下学历职工薪金的回归模型可设计为:还可将多个虚拟变量引入模型中以考察多种“定性”因素的29女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:30
2、乘法方式加法方式引入虚拟变量,考察:截距的不同,许多情况下:往往是斜率也有变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。2、乘法方式加法方式引入虚拟变量,考察:截距的不同,31这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)=0,上述模型所表示的函数可化为:
正常年份:
反常年份:如,设消费模型可建立如下:这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察32
当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。例,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。
下表中给出了中国1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。当截距与斜率发生变化时,则需要同时引入加法与乘法形式33第四节虚拟变量课件34以Y为储蓄,X为收入,可令:1990年前:Yi=1+2Xi+1ii=1,2…,n1
1990年后:Yi=1+2Xi+2ii=1,2…,n2
则有可能出现下述四种情况中的一种:(1)1=1,且2=2,即两个回归相同,称为重合回归(CoincidentRegressions);(2)11,但2=2,即两个回归的差异仅在其截距,称为平行回归(ParallelRegressions);(3)1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归(ConcurrentRegressions);(4)11,且22,即两个回归完全不同,称为相异回归(DissimilarRegressions)。以Y为储蓄,X为收入,可令:1990年前:Yi=1+35可以运用邹氏结构的稳定性检验。这一问题也可通过引入乘法形式的虚拟变量来解决。将n1与n2次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:于是有:可分别表示1990年后期与前期的储蓄函数。可以运用邹氏结构的稳定性检验。这一问题也可通过引入乘36在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。具体的回归结果为:由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,
储蓄函数分别为:(-6.11)(22.89)(4.33)(-2.55)=0.98361990年前:1990年后:在统计检验中,如果4=0的假设被拒绝,则说明两个时373、临界指标的虚拟变量的引入(分段回归)在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:则进口消费品的回归模型可建立如下:3、临界指标的虚拟变量的引入(分段回归)在经济发38
OLS法得到该模型的回归方程为则两时期进口消费品函数分别为:当t<t*=1979年,当tt*=1979年,OLS法得到该模型的回归方程为则两时期进口消费品函数39混合回归(例题8我国城镇居民消费函数(P132))混合回归(例题8我国城镇居民消费函数(P132))40三、虚拟变量的设置原则1.一个因素多个类型如果只有一个定性因素,如果有m个不同类型,应该在模型中引入m-1个虚拟变量。例如.年薪与工龄,学位的关系(P127)例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:2.多个因素各两种类型(见P129)如果有m个定性因素,且每个因素有2个不同属性类型,应该在模型中引入m(=m(2-1))个虚拟变量。三、虚拟变量的设置原则1.一个因素多个类型如果只有一个定性41则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为:其矩阵形式为:则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量则42另外,如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合从而(X,D)不满秩,参数也无法唯一求出。
这就是所谓的“虚拟变量陷井”,应避免。另外,如果只取六个观测值,其中春季与夏季取了两次43
四、虚拟被解释变量(P134)线性概率模型Logit模型与Probit模型四、虚拟被解释变量(P134)线性概率模型44第四节虚拟变量模型
一、虚拟变量的基本含义
四、虚拟被解释变量二、虚拟变量的引入三、虚拟变量的设置原则第四节虚拟变量模型一、虚拟变量的基本含义四、虚拟45一、虚拟变量的基本含义许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,一、虚拟变量的基本含义许多经济变量是可以定量度量的,如:商品46这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummyvariables),记为D。例如,反映文程度的虚拟变量可取为:1,本科学历
D=0,非本科学历一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。这种“量化”通常是通过引入“虚拟变量”来完成的。47一、虚拟变量(dummy)及其作用1、定义:反映品质指标变化、数值只取0和1的人工变量。用符号D来表示。
如:城镇居民农村居民销售旺季销售淡季政策紧缩政策宽松本科以上学历本科以下学历变量的划分应遵循穷举与互斥原则。一、虚拟变量(dummy)及其作用1、定义:如:城镇居民销482、作用:⑴可以描述和测量定性因素的影响。
这是计量经济学研究的重点。
⑵能够正确反映经济变量之间的相互关系,提高模型的精度。从经济意义上来说,能够更好地解释现实经济现象。
⑶便于处理异常数据。
当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量较大的情况下直接剔除异常数据;二是用平均数等方式修匀异常数据;三是设置虚拟变量(即将异常数据作为一个特殊的定性因素):异常时期正常时期2、作用:⑴可以描述和测量定性因素的影响。异常时期49二、虚拟变量的设定
1.虚拟变量的引入方式。
在计量经济模型中设置虚拟变量可以采用两种方式:加法方式和乘法方式。(1)加法方式虚拟变量D与其他解释变量在模型中是相加关系。
Yi=a+bxi+αDi+εi
上式等价为:当Di=0时:Yi=a+bxi+εi
当Di=1时:Yi=(a+α)+bxi+εiD=0D=1aa+αα上图表明,以加法方式引入虚拟变量,反映定性因素对截距的影响,也就是通过调整截距区分异常情况。二、虚拟变量的设定1.虚拟变量的引入方式。D=0D=50(2)乘法方式
虚拟变量D与其他解释变量在模型中是相乘关系。
Yi=a+bxi+βXDi+εi其中:XDi=Xi*Di,上式等价于:当Di=0时:Yi=a+bxi+εi
当Di=1时:Yi=a+(b+β)xi+εiD=0D=1aβ上图表明,以乘法方式引入虚拟变量,可反映定性因素对斜率的影响,系数β描述了定性因素的影响程度。(3)一般方式
同时用加法与乘法方式引入虚拟变量,然后再利用t检验判断α、β是否显著的不等于零,进而确定虚拟变量的具体引入方式。(2)乘法方式虚拟变量D与其他解释变量在模型中是相乘关系。51例7.教材P136表3-8列出了1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料。
在EViews软件的命令窗口中依次键入以下命令:
CREATEU8建立工作文件
DATAYX输入需求量、收入数据
SCATX Y绘制相关图
操作演示从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(即中、高收入家庭)的支出情况存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量:例7.教材P136表3-8列出了1998年我国城镇居民人均收52将我国城镇居民的彩电需求函数设成:
Yi=a+bxi+αDi+βXDi+εi同时引入加法和乘法方法,再进行t检验。DATAD1输入虚拟变量的值(前三个为0,后五个为1)(由于D是EViews软件的保留字,所以将虚拟变量取名为D1;另外,此时也可以用SMPL和GENR命令直接生成D1变量)
GENR XD=X*D1 生成变量XD LSYCXD1XD 估计需求函数结果如下图所示:中高收入家庭低收入家庭将我国城镇居民的彩电需求函数设成:中高收入家庭53我国城镇居民彩电需求函数的估计结果为:
对应的t统计量值R2的值调整的R2值SE的值α、β的t检验都是显著的,表明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,各自的需求函数为:我国城镇居民彩电需求函数的估计结果为:对应的t统计量值R254低收入家庭:事实上,现阶段我国城镇居民中高收入家庭的彩电普及率已达到百分之百,所以对彩电的消费需求处于更新换代阶段。此例说明了三个问题:①如何设置和在模型中引入虚拟变量;②如何测量定性因素(即收入层次)的影响;③如何区分不同类型的模型(即需求函数)。
中高收入家庭:低收入家庭:事实上,现阶段我国城镇居民中高收入家庭552.虚拟变量的设置原则
⑴一个因素多个类型
对于有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。例:设公司职员的年薪与工龄和学历有关。学历分成三种类型:大专以下、本科、研究生。为了反映“学历”这个定性因素的影响,应该设置两个虚拟变量:
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α1D1i+α2D2i+εi本科其他研究生其他2.虚拟变量的设置原则
⑴一个因素多个类型而将56其等价于:
Yi=a+bxi+εi大专以下(D1=D2=0)Yi=(a+α1)+bxi+εi本科(D1=1,D2=0)Yi=(a+α2)+bxi+εi研究生(D1=0,D2=1)上图直观地描述了三类年薪函数的差异情况,通过检验、α1、α2的显著性,可以判断学历层次对职员的年薪是否有显著影响。大专以下本科研究生工龄年薪α2-α1
α1
其等价于:Yi=a+bxi+εi57(2)多个因素各两种类型
如果有m个定性因素,且每个因素各有两个不同的属性类型,则引入m个虚拟变量。例如,研究居民住房消费函数时,考虑到城乡的差异以及不同收入层次的影响,将消费函数取成:
Yi=a+bxi+α1D1i+α2D2i+εi
其中y,x分别是居民住房消费支出和可支配收入,虚拟变量这样可以反映各类居民家庭的住房消费情况:
农村居民城镇居民高收入家庭低收入家庭(2)多个因素各两种类型如果有m个定性因素,且每个58城市低收入家庭(D1=0,D2=0)
Yi=a+bxi+εi城市高收入家庭
(D1=0,D2=1)
Yi=(a+α2)+bxi+εi农村低收入家庭
(D1=1,D2=0)Yi=(a+α1)+bxi+εi农村高收入家庭
(D1=1,D2=1)Yi=(a+α1+α2)+bxi+εi
推广到更一般的情况,如果有些因素有多个属性水平,则参照“一个因素多种类型”的设置原则来设置虚拟变量。另外,定性因素的变化通常表现为某种属性或特征是否存在,所以可以用只取1、0值的虚拟变量来“量化”定性因素的变化。一般地,“1”表示这种属性或特征存在,“0”表示这种属性或特征不存在。城市低收入家庭(D1=0,D2=0)591、调整季节波动利用季节或月份资料建立模型时,经常存在着季节波动。使用虚拟变量可以反映季节因素的影响。例如,利用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型):
取利润函数为
:Yi=a+bxi+α1D1i+α2D2i+α3D3i+εi
则系数a、α1、α2、α3分别反映了一、二、三、四季度对利润的平均影响程度,根据这些系数的t检验可以判断季节因素对利润是否显著影响。
第i+1季度i=1,2,3其他季度1、调整季节波动取利润函数为:第i+1季度602、检验模型结构的稳定性
模型结构的稳定性检验主要有两个用途:一是分析模型结构对样本变化的敏感性,如多重共线性检验;二是比较两个(或多个)回归模型之间的差异情况,即分析模型结构是否发生了显著变化。设根据两个样本估计的回归模型分别为:样本1:Yi=a1+b1xi+εi
样本2:Yi=a2+b2xi+εi
设置虚拟变量:
估计以下模型:
Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+εi
其中,XDi=xi*Di。
样本2样本12、检验模型结构的稳定性模型结构的稳定性检验主要有61利用t检验判断D、XD系数的显著性,可以得到四种检验结果:
(1)两个系数均等于零,即a2=a1,b2=b1,表明两个回归模型之间没有显著差异,称之为“重合回归”。(2)D的系数不等于零,XD的系数等于零,即a2≠a1,b2=b1。表明两个回归模型之间的差异仅仅表现在截距上,称之为“平行回归”。(3)D的系数等于零,XD的系数不等于零,即a2=a1,b2≠b1。表明两个回归模型的截距相同,但斜率存在显著差异,称之为“汇合回归”。(4)D、XD的系数均不等于零,即a2≠a1,b2≠b1。表明两个回归模型完全不同,称之为“相异回归”第(1)种情况下模型结构是稳定的,其余情况都表明模型结构不稳定。利用t检验判断D、XD系数的显著性,可以得到四种检验623、分段回归有些经济关系需要用分段回归加以描述:当解释变量x低于某个已知的临界水平x*时,y与x之间是某种线性相关关系,而x>x*时又是另一种相关关系。利用虚拟变量可以很好地解决分段回归问题。取虚拟变量为:分段回归模型设置成:
Yi=a+bxi+β(xi-x*)Di+εi
其中,x*是已知的临界水平。这样各段的函数为:
Yi=a+bxi+εix<x*Yi=(a-β)+(b+β)xi+εix>x*
x>x*x<x*使用虚拟变量既能如实描述不同阶段的经济关系,又未减少估计模型时样本容量,保证了模型的估计精度。3、分段回归有些经济关系需要用分段回归加以描述:当634、混合回归建立计量经济模型时,有时能同时获得变量的时序数据和横截面数据。
只要模型参数不随时间而改变,并且在各个横截面之间没有差异,就可以使用混合样本估计模型。因此,在合并样本之前,需在比较使用不同样本估计的模型之间是否有显著差异。例8.教材P143表3-9为我国城镇居民1998年、1999年全年人均消费支出和可支配收入的统计资料。试使用混合样本数据估计我国城镇居民消费函数。设1998年、1999年我国城镇居民消费函数分别为:
1998年:Yi=a1+b1xi+εi1999年:Yi=a2+b2xi+εi
4、混合回归建立计量经济模型时,有时能同时获得变量64为比较两年的消费函数是否有显著差异,设置虚拟变量:
并且合并两年的数据,估计以下模型:
Yi=a1+b1xi+αDi+βXDi+εi其中α=a2-a1,β=b2-b1。使用EViews软件的估计过程如下:CREATEU16建立工作文件DATAYX(输入1998、1999年消费支出和收入的数据,1~8期为1998年资料,9~16期为1999年资料)1999年1998年为比较两年的消费函数是否有显著差异,设置虚拟变量:并且合并65
SMPL18样本期调为1998年GENRD1=0输入虚拟变量的值SMPL916样本期调为1999年GENRD1=1输入虚拟变量的值SMPL116样本期调至1998~1999年GENRXD=X*D1生成XD的值LSYCXD1XD利用混合样本估计模型估计结果为:操作演示根据t检验,D、XD的回归系数均不显著,即认为α=a2-a1=0,β=b2-b1=0;这表明1998年、1999年我国城镇居民消费函数并没有显著差异。因此,可以将两年的样本数据合并成一个样本,估计城镇居民的消费函数。对应t统计量的值R2的值调整的R2值SMPL1866练习题:1、简述虚拟变量的引入方式及其影响。
2、设置虚拟变量时应遵守哪些原则?3、虚拟变量有哪些特殊应用。练习题:67概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金,Xi为工龄,
Di=1,若是男性,Di=0,若是女性。概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模68
二、虚拟变量的引入虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。
企业男职工的平均薪金为:上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则
企业女职工的平均薪金为:
1、加法方式二、虚拟变量的引入虚拟变量做为解释变量引入模69几何意义:假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02几何意义:假定2>0,则两个函数有相同的斜率,但有不同的截70
又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上模型可设定如下:这时需要引入两个虚拟变量:又例:在横截面数据基础上,考虑个人保健支出对个人收入71在E(i)=0
的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:高中:大学及其以上:假定3>2,其几何意义:在E(i)=0的初始假定下,高中以下、高中、大学及其72还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:(x工龄,D1性别)本科及以上学历本科以下学历职工薪金的回归模型可设计为:还可将多个虚拟变量引入模型中以考察多种“定性”因素的73女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:74
2、乘法方式加法方式引入虚拟变量,考察:截距的不同,许多情况下:往往是斜率也有变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。2、乘法方式加法方式引入虚拟变量,考察:截距的不同,75这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)=0,上述模型所表示的函数可化为:
正常年份:
反常年份:如,设消费模型可建立如下:这里,虚拟变量D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 档案管理员心理素质考查试题及答案
- 三年级体育上册 快乐呼拉圈教学设计
- 五年级品德与社会上册 一方水土养一方人教学设计 泰山版
- 《7 走进植物王国》(教学设计)-2023-2024学年三年级上册综合实践活动粤教版
- 人教版道德与法治八年级(上册)10.1《关心国家发展》教学设计
- 小自考行政管理考试重点试题及答案
- 传播设计中的用户调研试题及答案
- 全面解析2024年税务师试题及答案
- 汉语言文学小自考教育资源利用试题及答案
- 文案编写面试试题及答案
- 【初中+语文】中考语文一轮专题复习+《名著阅读+女性的力量》课件
- 门窗安装施工安全教育
- 城市道路桥梁工程施工质量验收规范 DG-TJ08-2152-2014
- 消防宣传报导培训课件
- 3月25日全国中小学生安全教育日中小学校园安全教育课件
- 颅内压增高与脑疝护理课件
- 2024年3月浙江省考公务员面试题及参考答案
- 响应面分析软件DesignExpert使用教程
- 2024城镇燃气管道非开挖修复更新工程技术规范
- 2024年社会工作者职业水平《社会工作实务(初级)》考试题及答案
- 《笛卡尔及其哲学》课件
评论
0/150
提交评论