统计学之虚拟变量_第1页
统计学之虚拟变量_第2页
统计学之虚拟变量_第3页
统计学之虚拟变量_第4页
统计学之虚拟变量_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本资料来源本资料来源第七章第七章 含有定性信息的多元含有定性信息的多元回归模型回归模型-虚拟变量虚拟变量 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则 四、虚拟因变量的模型四、虚拟因变量的模型 -二值选择的线性概率模型二值选择的线性概率模型一、虚拟变量的基本含义l许多经济变量是可以定量度量可以定量度量的,如:如:商品需求量、价格、收入、产量等。l但也有一些影响经济变量的因素无法定量度量无法定量度量,如:如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。l为了在模型

2、中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成的。来完成的。根据这些因素的属性类型,构造只取根据这些因素的属性类型,构造只取“0”或或“1”的人工变量,的人工变量,通常称为通常称为虚拟变量(dummy variables),记为),记为D。l例如例如,反映文化程度的虚拟变量可取为,反映文化程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历l 一般地,在虚拟变量的设置中:l 基础类型、肯定类型取值为基础类型、肯定类型取值为1;l 比较类型,否定类型取值为比较类型,否定类型取值为0。概念: 同

3、时含有一般解释变量与虚拟变量的模型同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型模型。 一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基本方式:加法方式加法方式和乘法方式乘法方式。 上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:企业女职工的平均薪金为:1. 1.

4、 加法方式加法方式iiiiXDXYE10)0,|( 企业男职工的平均薪金为:企业男职工的平均薪金为:iiiiXDXYE120)() 1,|(几何意义: 假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。l可以通过传统的回归检验,对 2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。 年薪Y 男职工 女职工 工龄X02 又例:在横截面数据基础上,考虑个人保:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。健支出对个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学

5、及其以上。 011D 其他高中 012D 其他大学及其以上 这时需要引入两个虚拟变量:模型可设定如下:iiiDDXY231210 在在E( i)=0 的初始假定下,高中以下、高中、大学及的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:其以上教育水平下个人保健支出的函数:l高中以下:iiiXDDXYE1021)0, 0,|( 高中:iiiXDDXYE12021)()0, 1,|( 大学及其以上:iiiXDDXYE13021)() 1, 0,|( 假定32,其几何意义: 大学教育 保健 高中教育 支出 低于中学教育 收入 还可将多个虚拟变量引入模型中以考察多种“定性”因素的

6、影响。 如如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:iiiDDXY231210012D本科及以上学历本科以下学历职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金:iiiXDDXYE13021)() 1, 0,|(女职工本科以上学历的平均薪金:iiiXDDXYE132021)() 1, 1,|(iiiXDDXYE1021)0, 0,|(iiiXDDXYE12021)()0, 1,|(于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:2. 乘法方式l加法方式引入虚拟变量,考察:截距的不同。截距的不同。l许多情况下:往往是斜

7、率就有变化,或斜率、截距或斜率、截距同时发生变化同时发生变化。l斜率的变化可通过以乘法的方式引入虚拟变量来测斜率的变化可通过以乘法的方式引入虚拟变量来测度度。 例例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。tttttXDXC210如,设01tD反常年份正常年份消费模型可建立如下:l这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。l假定E(i)= 0,上述模型所表示的函数可化为: 正常年份:ttttXDX

8、CE)() 1,|(210 反常年份:ttttXDXCE10)0,|( 当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。l例例,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。 表中给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。表表5.1.1 19792001年年中中国国居居民民储储蓄蓄与与收收入入数数据据(亿亿元元)90年前储蓄GNP90年后储蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.31993147

9、62.434560.51982675.45301.8199421518.846670.01983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598

10、.4 以以Y为储蓄,为储蓄,X为收入,可令:为收入,可令:l1990年前: Yi=1+2Xi+1i i=1,2,n1 l1990年后: Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:(1) 1=1 ,且2=2 ,即两个回归相同,称为重合重合回归回归(Coincident Regressions);(2) 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归平行回归(Parallel Regressions);(3) 1=1 ,但22 ,即两个回归的差异仅在其斜率,称为汇合回归汇合回归(Concurrent Regressions);(4) 11,且22 ,

11、即两个回归完全不同,称为相相异回归异回归(Dissimilar Regressions)。平行回归平行回归汇合回归汇合回归相异回归相异回归 可以运用可以运用邹氏结构变化的检验。这一问题也可通过引入。这一问题也可通过引入乘法形式的虚拟变量来解决。乘法形式的虚拟变量来解决。 将n1与n2次观察值合并,并用以估计以下回归:iiiiiiXDDXY)(4310Di为引入的虚拟变量:01iD年后年前9090 于是有:iiiiXXDYE10), 0|(iiiiXXDYE)()(), 1|(4130可分别表示1990年后期与前期的储蓄函数。 在统计检验中,如果在统计检验中,如果 3=0的假设被拒绝,则说明两个

12、时的假设被拒绝,则说明两个时期中储蓄函数的截距不同,期中储蓄函数的截距不同,如果如果 4=0的假设被拒绝,则说明两的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。个时期中储蓄函数的斜率不同。l具体的回归结果为:具体的回归结果为: (-6.11) (22.89) (4.33) (-2.55) 由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数储蓄函数分别为:分别为:1990年前:1990年后:iiiiiXDDXY4765. 03 .138028881. 0154522R=0.9836iiXY4116. 07 .1649iiXY8881. 015452邹氏结构变化

13、的检验和虚拟变量法的比较l邹检验只是告诉我们结构是否已经变化,而不能告诉我们当有变化时候是因为只是斜率相异或只是截距相异,或两者均相异。但是虚拟变量法不仅告诉我们两个回归是否有差异,而且落实到差异的起因由于截距或由于斜率或由于两者。l我们只要做一个回归,因为其他的回归可以方便地由它导出。l这个单一的回归可以用来做各种假设检验。l由于合并而增加了自由度,参数估计的相对精度也有所改进。3. 临界指标的虚拟变量的引入(分段回归) 在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。 例如,例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 01t

14、D*tttt则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下: ttttttDXXXY)(*210 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量: OLS法得到该模型的回归方程为:法得到该模型的回归方程为:则两时期进口消费品函数分别为:tttttDXXXY)(*210当tt*=1979年,ttXY10当tt*=1979年,titXXY)()(21*20三、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性每一定性变量所需的虚拟变量个数要比该定性变量的类别数少

15、变量的类别数少1,即如果有,即如果有m个定性变量,只在模个定性变量,只在模型中引入型中引入m-1个虚拟变量。个虚拟变量。 例例 已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:011tD其他春季012tD其他夏季013tD其他秋季则冷饮销售量的模型为:则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量:ttttktkttDDDXXY332211110014tD其他冬季则冷饮销售模型变量为:tttttktkttDDDDXXY44332211110其矩阵形式为:D)(X,Y 如果只取六个观测值,其中春季与夏季取了两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论