统计学之虚拟变量_第1页
统计学之虚拟变量_第2页
统计学之虚拟变量_第3页
统计学之虚拟变量_第4页
统计学之虚拟变量_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源第七章含有定性信息的多元回归模型---虚拟变量

一、虚拟变量的基本含义二、虚拟变量的引入三、虚拟变量的设置原则四、虚拟因变量的模型

---二值选择的线性概率模型一、虚拟变量的基本含义许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。

这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummyvariables),记为D。例如,反映文化程度的虚拟变量可取为:

1,本科学历

D=0,非本科学历

一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。概念:

同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金,Xi为工龄,

Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入

虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。

上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则

企业女职工的平均薪金为:1.加法方式

企业男职工的平均薪金为:几何意义:

假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02

又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。

教育水平考虑三个层次:高中以下,高中,大学及其以上。

这时需要引入两个虚拟变量:模型可可设定定如下下:在E(i)=0的初始始假定定下,,高中中以下下、高高中、、大学学及其其以上上教育育水平平下个个人保保健支支出的的函数数:高中以以下::高中::大学及及其以以上::假定定3>2,其其几几何何意意义义::还可可将将多多个个虚虚拟拟变变量量引引入入模模型型中中以以考考察察多多种种““定定性性””因因素素的的影影响响。。如在上上述述职职工工薪薪金金的的例例中中,,再再引引入入代代表表学学历历的的虚虚拟拟变变量量D2:本科科及及以以上上学学历历本科科以以下下学学历历职工工薪薪金金的的回回归归模模型型可可设设计计为为::女职职工工本本科科以以下下学学历历的的平平均均薪薪金金::女职职工工本本科科以以上上学学历历的的平平均均薪薪金金::于是是,,不不同同性性别别、、不不同同学学历历职职工工的的平平均均薪薪金金分分别别为为::男职职工工本本科科以以下下学学历历的的平平均均薪薪金金::男职职工工本本科科以以上上学学历历的的平平均均薪薪金金::2.乘法法方方式式加法法方方式式引引入入虚虚拟拟变变量量,,考考察察::截距距的的不不同同。。许多多情情况况下下::往往往往是是斜斜率率就就有有变变化化,,或斜斜率率、、截截距距同同时时发发生生变变化化。斜率率的的变变化化可可通通过过以以乘乘法法的的方方式式引引入入虚虚拟拟变变量量来来测测度度。例:根据据消消费费理理论论,,消消费费水水平平C主要要取取决决于于收收入入水水平平Y,但但在在一一个个较较长长的的时时期期,,人人们们的的消消费费倾倾向向会会发发生生变变化化,,尤尤其其是是在在自自然然灾灾害害、、战战争争等等反反常常年年份份,,消消费费倾倾向向往往往往出出现现变变化化。。这这种种消消费费倾倾向向的的变变化化可可通通过过在在收收入入的的系系数数中中引引入入虚虚拟拟变变量量来来考考察察。。如,设消费模型型可建立立如下::这里,虚虚拟变量量D以与X相乘的方方式引入入了模型型中,从从而可用用来考察察消费倾倾向的变变化。假定E(i)=0,上述模型型所表示示的函数数可化为为:正常年份份:反常年份份:当截距与与斜率发发生变化化时,则则需要同同时引入入加法与与乘法形形式的虚虚拟变量量。例,考察1990年前后的的中国居居民的总总储蓄-收入关系系是否已已发生变变化。表中给出出了中国国1979~2001年以城乡乡储蓄存存款余额额代表的的居民储储蓄以及及以GNP代表的居居民收入入的数据据。以Y为储蓄,,X为收入,,可令::1990年前:Yi=1+2Xi+1ii=1,2…,n11990年后:Yi=1+2Xi+2ii=1,2…,n2则有可能能出现下下述四种种情况中中的一种种:(1)1=1,且2=2,即两两个回回归相相同,,称为为重合回回归(CoincidentRegressions);(2)11,但2=2,即两两个回回归的的差异异仅在在其截截距,,称为为平行回回归(ParallelRegressions);(3)1=1,但22,即两两个回回归的的差异异仅在在其斜斜率,,称为为汇合回回归(ConcurrentRegressions);(4)11,且22,即两两个回回归完完全不不同,,称为为相异回回归(DissimilarRegressions)。平行回回归汇合回回归相异回回归可以运运用邹氏结结构变变化的的检验验。这一一问题题也可可通过过引入入乘法法形式式的虚虚拟变变量来来解决决。将n1与n2次观察察值合合并,,并用用以估估计以以下回回归::Di为引入入的虚虚拟变变量::于是有有:可分别别表示示1990年后期与前期的储蓄蓄函数数。在统计计检验验中,,如果果3=0的假设设被拒拒绝,,则说说明两两个时时期中中储蓄蓄函数数的截截距不不同,,如果4=0的假设设被拒拒绝,,则说说明两两个时时期中中储蓄蓄函数数的斜斜率不不同。。具体的的回归归结果果为::(-6.11)(22.89)(4.33)(-2.55)由3与4的t检验可可知::参数数显著著地不不等于于0,强烈烈示出出两个个时期期的回回归是是相异异的,,储蓄函函数分分别为为:1990年前::1990年后:=0.9836邹氏结构变变化的检验验和虚拟变变量法的比比较邹检验只是是告诉我们们结构是否否已经变化化,而不能能告诉我们们当有变化化时候是因因为只是斜斜率相异或或只是截距距相异,或或两者均相相异。但是是虚拟变量量法不仅告告诉我们两两个回归是是否有差异异,而且落落实到差异异的起因——由于截距或或由于斜率率或由于两两者。我们只要做做一个回归归,因为其其他的回归归可以方便便地由它导导出。这个单一的的回归可以以用来做各各种假设检检验。由于合并而而增加了自自由度,参参数估计的的相对精度度也有所改改进。3.临界指标的的虚拟变量量的引入((分段回归归)在经济发生生转折时期期,可通过过建立临界界指标的虚虚拟变量模模型来反映映。例如,进口消费品品数量Y主要取决于于国民收入入X的多少,中中国在改革革开放前后后,Y对X的回归关系系明显不同同。则进口消费费品的回归归模型可建建立如下::这时,可以以t*=1979年为转折期期,以1979年的国民收收入Xt*为临界值,,设如下虚虚拟变量::OLS法得到该模模型的回归归方程为::则两时期进进口消费品品函数分别别为:当t<t*=1979年,当tt*=1979年,三、虚拟变变量的设置置原则虚拟拟变变量量的的个个数数须须按按以以下下原原则则确确定定::每一一定定性性变变量量所所需需的的虚虚拟拟变变量量个个数数要要比比该该定定性性变变量量的的类类别别数数少少1,即即如如果果有有m个定定性性变变量量,,只只在在模模型型中中引引入入m-1个虚虚拟拟变变量量。。例已知冷饮的销销售量Y除受k种定量变量Xk的影响外,还还受春、夏、、秋、冬四季季变化的影响响,要考察该该四季的影响响,只需引入入三个虚拟变变量即可:则冷饮销售

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论