版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
授课教授:叶春辉浙江大学远程教育学院2008年1月计量经济学基础第6章虚拟变量
前面各章讨论的变量都是可以直接用数字计量的(是可度量的),也即可以获得其实际观测值(如收入、消费支出、物价水平、利润等等).这类变量称作数量变量或数量因素。然而,在有些情况下,“质”的因素(如职业、民族、性别、文化程度、地区、季节等等)也是重要解释变量。例如,当我们用建国以来的统计数据估计消费函数时,“改革开放”这一质的因素就是一个不应忽略的解释变量。如果质的因素的影响是显著的,回归模型的参数就会因此而变化。例如,我国居民的消费行为在改革开放前后大不相同,因此消费函数的参数也会随之改变。再如.在饮料需求函数中:收入、价格与饮料需求量的关系是随着季节变化而改变的。也就是说,在不同的季节回归模型的参数也会有所不同。因此,如果忽略这种质的因素,仍把模型中的参数看作是固定不变的,估计结果就不能正确描述经济变量之间的关系。质的因素通常表明某种“品质”或“属性”是否存在。将这类品质或属性量化的方法之一就是构造取值为“1”或“0”的人工变量。
“1”表示这种属性存在,“0”表示这种属性不存在。例如,“1”可以表示改革开放时期,“0”表示非改革开放时期;“1”表示存在季节性影响,“0”表示不存在季节性影响;“1”表示南方,“0”表示北方,等等。这种取值为“1”和“0”的变量称为虚拟变量。又可称为哑变量,二进制变量。【注】虚拟变量主要是用来代表质的因素,但在有些情况下也可以用来代表数量因素。例如,在储蓄函数中“年龄”是一个重要解释变量。虽然“年龄”是一个数量因素,但由于不同年龄组的居民有不同的储蓄行为,可以用虚拟变量表示各年龄组居民在储蓄行为上的差异。例如,可以把居民分为两个年龄组;第一组:20一40岁的居民第二组:40一60岁的居民用“1”表示第一年龄组,“0”表示第二年龄组,就可以估计年龄对储蓄的影响。主要内容第一节截距变动的虚拟变量模型第二节多种分类的虚拟变量模型第三节虚拟变量对斜率的影响
第四节例子第一节两种分类的虚拟变量
引例:假设某公司第i名员工的月工资为yi,另外定义一个虚拟变量D,取值为1时表示男性员工,取值为0时表示女性员工,现在忽视其他的变量对工资的影响,设模型为假设随机误差项满足经典回归假设,则:此模型就是一个最简单的虚拟变量模型。其中为女性员工的平均工资,为男性员工和女性员工平均工资之差。
现在我们加入一个定量变量x(比如工作年限),此时模型为:
如果参数是显著的不为零,则说明员工工资的性别歧视这一假设是成立的。例假定我们有一个包括城乡居民家庭收支状况的样本,打算用这些数据估计消费函数。由于城镇居民家庭和农村居民家庭在消费水平上存在明显差异,所以“地区”这个质的因素是一个重要解释变量。用一个虚拟变量来表示,消费函数为:第i个家庭的消费水平为第i个家庭的收入水平虚拟变量用D=1表示城镇居民家庭这一特征,D=0表示农村居民家庭这一特征,并假定随机误差项满足经典的假定。上面两式分别为城镇居民家庭和农村居民家庭的消费函数,两者有相同的斜率,但截距不同。其几何图形类似上例。用最小二乘法估计模型:。得到估计值后对进行t检验,若显著地不为零,就认为城乡居民家庭在消费行为上的差异是显著的。结合上例,我们给出虚拟变量模型的几个特性:1、以“0”,“1”取值的虚拟变量所反映的内容可以随意设定。在上例中,也可以指定D=1时为农村居民家庭,而D=0为城镇居民家庭。2、虚拟变量D=0代表的特征或状态,通常用于说明基础类型。基础类型是对比的基础。在上例中,农村居民家庭是对比的基础,从而也是基础类型。3、基础类型的截距系数被称为公共截距系数,而系数称为差别截距系数。这是因为说明D取值为1时的那种特征(或状态)的截距系数与基础类型的截距系数的差异。4.如果一个回归模型有截距项,对于具有两种特征的质的因素,则只需引入一个虚拟变量。在此例中,若以D=1表示城镇居民家庭,则D=0就表示农村居民家庭。如果不是这样,而是对两种特征引入两个虚拟变量,模型就成为:为便于说明问题,假定样本包含3个城镇居民家庭和2个农村居民家庭。于是,解释变量的观测值矩阵为:多重共线性是显而易见的。城镇居民家庭农村居民家庭农村居民家庭城镇居民家庭例利用美国1940一1950年可支配收入和消费支出的数据资料,可建立下面回归模型:可支配收入消费支出虚拟变量D=1时代表战争时期(1942—1945年),D=0时代表和平时期。用OLS法可以得到以下估计结果:Ct=-10.065+0.959xt
-55.4624D(-0.354)(10.724)(-9.397)参数估计值下面括号中的数字为t统计值。显然,战争因素对消费支出的影响是显著的。上式还可以写成:D=1时表示战争时期的消费函数:D=0时表示和平时期的消费函数:前面谈过,如果一个质的因素仅有两种特征,只需引入一个虚拟变量。然而,许多质的因素往往有两个以上的特征。例如,我国有56个民族,因此“民族”这个质的因素具有56种特征;一年有4个季节,“季节”这个质的因案就有4个特征。这时,就要引入多个虚拟变量才能够识别,因此模型中就会包含多个虚拟变量。在虚拟变量的设定中,一般情况下虚拟变量的个数总是小于质的特征数(分类数),比如考虑季节差别时,将设定3个虚拟变量,考虑月差别就需要11个虚拟变量。
一般的规则是:如果一个质因素有m种持征或状态,当回归模型含截距项时,只需引入m一1个虚拟变量;当回归模型不含截距项时,则m种特征需要引入m个虚拟变量。第二节、多种分类的虚拟变量例如:在前面工资模型中如果考虑的是员工的受教育程度,可以将员工的分为:高中,本科和研究生三种。如果虚拟变量设为:高中毕业其他本科毕业其他研究生毕业其他则
将会出现多重共线性,因此我们需要去掉一个虚拟变量。假设模型为:
本科其他研究生其他高中:本科:研究生:模型变为:估计出的回归方程为:又如:假定用季度资料估计消费函数,可以把模型写成:其中yt为某季度的消费支出,xt为某季度的收入。对于4个季度,引入3个虚拟变量:这里第四季度为基础类型,其截距项为第三节虚拟变量对斜率的影响
在工资的例子中,需要检验工作年限在男性和女性之间的不同,我们假设截距不变,模型设为:
男性女性女性:男性:估计的回归方程:工作年限在很多情形下,质的因素不仅会改变模型的截距,还会同时影响模型的斜率。如果截距和斜率都发生了改变,模型为:
女性:男性:估计的回归方程:上述两个模型中,斜率的变化实际上是变量x的参数发生了变化,这种变化称作结构性变化。男性女性设有两个方程式分别为:【注】截距和斜率同时变动的矩阵表达的例:或其中,D1和D2为虚拟变量。所有第一组观察值所有第二组观察值所有第一组观察值在第二组观察到X的值D1系数衡量截距的差别,而D2系数则衡量斜率的差别。又设有三个方程式,分别是:这三组方程式可归并为:(注意D2既不是1。也不是0)或所有二、三期观察值所有第一期观察值在第三期观察到x的值所有第一、二期观察值例1、中国城镇居民家庭的储蓄函数根据我国城镇居民家庭1955-1990年人均收入和人均储蓄的数据资料,可以建立如下储蓄模型:人均收入人均储蓄以1955年的物价水平为100,从St和xt中扣除了物价上涨因素,t代表年份(t=1955,1956,…,1990),用OLS法可得估计结果为:第四节例子上面的模型隐含着一个重要假定:我国城镇居民家庭的储蓄行为在l955年至1990年期间始终是不变的。但这一假定未必能够成立,因为与居民储蓄有关的许多重要因素在1979年以后发生了明显变化,主要表现为:
(1)在经济体制改革之前,我国居民的收入一直在低水平上徘徊,因而平均储蓄倾向很低,积蓄很少;1979年之后,我国居民的收入水平迅速提高,与此同时,居民储蓄也在大幅增长。由此看来,在1979年前后两个时期,我国居民的储蓄行为有显著差异。
(2)在改革开放前,我国的消费品市场存在严重短缺的现象。许多商品凭票限量供应,消费者既使有钱也难以买到所需的商品,而不得不把钱暂时存起来。因此,这一时期储蓄带有“非自愿”的性质;而在1979年之后,消费品市场日趋丰富,大部分商品取消了票证限制,消费者储蓄的主要目的之一是购买高档耐用消费品,储蓄不再具有“被迫“性质。为了验证城镇居民储蓄行为的变化,建立如下截距和斜率同时变动的模型:其中D为虚拟变量:用最小二乘法可得下面的估计结果:参数估计值下面括号中的数字为t统计值。显见,储蓄模型的截距和斜率在1979年前后有显著差异。上式可以进一步写成:1979年以前:1979年以后估计结果表明:1979年之前,我国城镇居民的边际储蓄倾向仅为0.004,即收入增加一元储蓄平均增加0.4分;而在1979一1990年期间,城镇居民的边际储蓄倾向高达0.256。但在没有引入虚拟变量的模型中,边际储蓄倾向却是0.17。很明显,它既不代表经济体制改革前城镇居民的储蓄行为,也不能正确描述1979年后城镇居民收入与储蓄的关系。注意:由于忽略了“体制改革”这一重要因素,没有虚拟变量的模型存在明显的自相关问题(D.W=0.298),引入虚拟变量后的模型考虑了“体制改革”这一因素,从而消除了自相关(D.W=1.67);同时,模型的拟合优度也大大提高,判定系数R2的值从0.833上升为0.967。这些都表明,正确使用虚拟变量可以改善估计的效果。按月份或季节的许多时间序列数据呈现为季节模式,常常需要去掉由于季节的变化对时间序列的影响,称为季节调整。例2、季节性调整如:一家百货公司的销售额严重受季节性的影响,引进前面所述的三个虚拟变量D2,D3,D4,现有该公司季节销售额的数据:年度季节销售额D2D3D4销售额估计值19961100009.821510014.831601015.643000130.4199751100010.661510015.671701016.483100131.2年度季节销售额D2D3D4销售额估计值199891100011.4101710016.4111701017.2123100132.01999131200012.2141710017.2151801018.0163300132.82000171300013.0181810018.0191801018.8203500133.6设模型为:用OLS法估计得:将虚拟变数代入的:第1季度:第2季度:第3季度:第4季度:一般地对某些受季节性影响的商品.假设销售模型为:其中C表示销售量,x1,x2,…xk表示决定销量的解释变量.为了把季节变化对销售的影响反映到模型中,引进三个虚拟变量:第2季度其它第3季度其它第4季度其它而第1季度用D2=D3=D4=0表示,这时销售的季节回归模型可写为:例3、我国货币流通的季度数据如表,可以看出,货币流通量和季节有关,如果在直角坐标上表示出来,这种随季节发生的周期性更加明显。为了消除季节因素的影响,以便集中考虑主要因素对贷币流通量的作用,我们引进虚拟变量。假定季节因素的作用是使货币流通量的平均值发生变化,取第四季度为基本期,设定如下模型:其中:Yt=货币流通量,Xt=企业存款额第1季度其它第2季度其它第3季度其它模型表示货币流通与工业生产水平(用企业存款额代表)以及季节因素有关。利用表中数据,回归结果如下:由于D1.D3的t值很小,可以认为对Y:无显著作用,第二季季度经检验仍属不太显著,但t值较高,可以认为第二季度的季节因素对货币流通量存在显著影响。第二季度的回归方程估计式为:所以,第一、三、四季度仅存在生产水平对货币流通量的影响,回归方程为:例4、设定临界指标的虚拟变量模型。为了分离异常因素的影响,还可以设定临界指标X*,当Xt大子(或小于)这个值时,则认为是异常时期,引入的虚拟变量Dt,取1(或0),这样得到的样本回归方程的图形是一条折线,表示出异常因素影响下,被解释变量变化过程的阶段性。以我国社会总产值Y随时间X而增长的过程为例,建国以来,经历了不同的时期,设定如下模型:其中临界值为:=9(1960年),=12(1963年)=24(1975年)历史数据YXD1D2D3YXD1D2D3195210001969180101953200019701901019543000197120010195540001972210101956500019732201019576000197423010195870001975240101959800019762500119609000197726001196110100197827001196211100197928001196312100198029001196413010198130001196514010198231001196615010198332001196716010198433001196817010198534001回归分析结果如下:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论