第八章__虚拟解释变量回归_第1页
第八章__虚拟解释变量回归_第2页
第八章__虚拟解释变量回归_第3页
免费预览已结束,剩余28页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章虚拟变量回归引子男女大学生的消费真的有差异吗 ?在校大学生的消费行为越来越受到社会的关注,学生家长也很关心自己的子女上大学究竟要准备多少花费。由共青团中央、 全国学联共同发布的 2 0 0 4中国大学生消费与生活形态研究 报告显示,当代大学生在消费结构方面呈现出多元化趋势。大 学生除了日常生活费开支以外, 还有人际交往消费、网络通讯消 费、书报消费、衣着类消费、化妆品类消费、电脑类消费、旅游 类消费、食品类消费、学习用品类消费、各种考证类等消费。大 学生时尚化、个性化消费增多已成为趋势与潮流。不同性别大学生的消费结构有所不同,专科生、本科生、研究生的消费结构更 有差异。有的记者调查发现,

2、不同年级之间,男女同学之间,消 费水平、消费结构、消费方式上都存在着差异。年级越高,消费 水平也随之增长,随着阅历的增加,对自己形象的重视,精神享 受的追求、学习的投入、配备手机电脑的需求也随之增长。同年 级的男生的消费高于女生,虽然女生在化妆品、衣服饰品方面的 投入明显高于男生。然而时代在变,对美的追求已不再限于女生,男生对于个人形象、 装扮也已慢慢重视起来。 此外男生在人际交 往方面比女生投入了更多的 本钱 。请客吃饭、朋友聚会、节日 送礼已不再罕见。所谓的 人情消费 已从社会向校园中扩张蔓 延,而在乎 面子的男同胞已成为追随这一潮流的 先驱。高年 级女生对于吃饭的投入相对较少,而在化妆品

3、、服饰、零食方面 的投入却增长不少。 (注:来源于 Solie 教育网、 网易教育频道、 新华网等)为了研究男女大学生、 不同层次大学生、 不同年级大学生的 消费结构是否有差异, 需要将这些定性的因素引入计量模型, 怎 样才能在模型中有效地表示这些定性因素的作用呢?第一节 虚拟变量一、虚拟变量的基本概念在前面的分析中, 被解释变量主要受到一些可以直接度量的 变量影响,如收入、产出、商品需求量、价格、成本、资金、人 数等。但现实经济生活中,影响被解释变量变动的因素,除了这 些可以直接获得实际观测数据的定量变量外, 还包括一些本质上 为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季

4、节、文化程度、战争、自然灾害、政府经济政策的变动 等因素。 在实际经济分析中, 这些定性变量有时具有不可忽视的 重要影响。 例如,研究某个企业的销售水平, 产业部门 (制造业、 零售业)、所有制(私营、非私营) 、地理位置(东、中、西部) 、 管理者素质的高低等是值得经常考虑的影响因素, 这些因素有共 同的特征, 即都是表示某种属性的, 不能直接用数据精确描述的 因素。因此,被解释变量的变动经常是定量因素和属性因素共同 作用的结果。 在计量经济模型中, 应当同时包含定量和属性两种 因素对被解释变量的影响作用。定量因素是指那些可直接测度的数值型因素,如GDR M2等。定性因素,或称为属性因素,是

5、不能直接测度的、说明某种属性 或状态存在与否的非数值型因素, 如男性或女性、 城市居民或非 城市居民、气候条件正常或异常、政府经济政策不变与改革等。 在计量经济学的建模中应当将定量因素和定性因素同时纳入模 型之内。为了在模型中反映定性因素, 可以将定性因素转化为虚拟变 量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、 定性变量、二元型变量等) ,是人工构造的取值为 0 和 1 的作为 属性变量代表的变量,一般用字母 D (或DUM英文dummy的缩写)表示。属性因素通常具有若干类型或水平,通常虚拟变量的取值为 0 和 1,当虚拟变量取值为 0,即 D=0 时,表示某种属性 或状态不出现

6、或不存在, 即不是某种类型; 当虚拟变量取值为 1, 即 D=1 时,表示某种属性或状态出现或存在,即是某种类型。例 如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量 取值为 0,当经济政策改变时,虚拟变量取值为1。这种做法实际上是一种变换或映射, 将不能精确计量的定性因素的水平或状 态变换为用 0 和 1 来定量描述。二、虚拟变量的设置规则 在计量经济学模型中引入虚拟变量, 可以使我们同时兼顾定 量因素和定性因素的影响和作用。 但是,在设置虚拟变量时应遵 循一定的规则。1、虚拟变量数量的设置规则虚拟变量个数的设置规则是: 若定性因素有m个相互排斥的 类型(或属性、水平),在有截距项的

7、模型中只能引入 m-1个虚 拟变量,否则会陷入所谓“虚拟变量陷阱” ,产生完全的多重共 线性。在无截距项的模型中,定性因素有m个相互排斥的类型时, 引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量 参数的估计结果,实际上是 D=1 时的样本均值。例如,城镇居民和农村居民住房消费支出的模型可设定为:Ci1Yi2Diui8.1)其中,Ci为居民的住房消费支出,Y为居民的可支配收入,Di为虚拟变量,Di10城其镇他居民 ,即当 Di 1时为城镇居民;当Di 0 时D3i1 农村居民0 其他1 城镇居民0 其他为其他(农村居民) 。这里区分城镇居民和农村居民的定性变量的类型有m=2个,按虚拟变

8、量的设置规则应引入 m-仁2-1=1个 虚拟变量但是 , 如果 引 入了 m=2 个虚 假变量 : D2则有:Ci 1 Yi 2D2i 3D3i ui( 8.2 )这时,当D2i =1时同时有D3i=0;反之,当D2i =0时有D3i=1。 即对于任何被调查的居民家庭都有 D2i +D3i =1, D2和D3存在完全的 共线性,无法利用OLSf古计其参数,从而陷入“虚拟变量陷阱” 由此,所谓的“虚拟变量陷阱”的实质是出现完全多重共线性。 可见,虚拟变量有其积极作用的一面,也有不良影响的一面,引 入的虚拟变量适当, 则发挥了积极的作用, 引入的虚拟变量过度,则会带来负面的影响2 、虚拟变量的“

9、0 ”和“ 1”的选取原则虚拟变量取“ 1”或“ 0”的原则,应从分析问题的目的出发 予以界定。从理论上讲,虚拟变量取“ 0”值通常代表为比较的 基础类型;而虚拟变量取“ 1”值通常代表为被比较的类型。例 如,引入政府经济政策的变动对被解释变量的影响时, 由于此时 的比较是在政府经济政策不变的基础上进行的, 故虚拟变量确定 为:1 基础类型 : 政府经济政策变动Dt 0 比较类型 : 政府经济政策不变三、虚拟变量的作用在计量经济模型中,虚拟变量可以发挥多方面的作用:(1)可以作为属性因素的代表,如性别、所有制等;(2)作为某些非精确计量的数量因素的代表,如受教育程 度、管理者素质等;(3)作为

10、某些偶然因素或政策因素的代表,如战争、灾害、 改革前后等;(4)还可以作为时间序列分析中季节(月份)的代表;(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。在计量经济学中, 把包含有虚拟变量的模型称为虚拟变量模 型。常用的虚拟变量模型有三种类型: ( 1)解释变量中只包含虚 拟变量, 作用是在假定其他因素都不变时, 只研究定性变量是否 使被解释变量表现出显著差异; ( 2)解释变量中既含定量变量, 又含虚拟变量, 研究定量变量和虚拟变量同时对被解释变量的影 响;(3)被解释变量本身为虚拟变量的模型,是被解释变量本身 取值为 0 或 1 的模型,适于对某社会经济现象进

11、行“是”与 “否”的判断研究。特别要注意的是, 定型或属性变量, 通常由 1 个以上的虚拟 变量描述。例如,分析考证区域这样一个定性因素的影响时,若 将区域因素划分为东、中、西三种属性时,在有截距项的回归模 型中,只能引人 2 个虚拟变量,而这两个虚拟变量只是描述了 1 个定性因素(区域因素) ,而不是 2 个定性因素。当然,当定性 因素为性别因素时, 1个虚拟变量就描述了 1 个定性因素。第二节 虚拟解释变量的回归在计量经济模型中, 加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有 不同的作用, 加法方式引入虚拟变量改变的是截距; 乘法方式引 入虚拟

12、变量改变的是斜率。一、用虚拟变量表示不同截矩的回归加法类型以加法类型引入虚拟解释变量的模型,如( 8.3 )式那样,Yt12Xt3D ut(8.3)在 (8.3) 所设定的计量经济模型中,虚拟解释变量与其他解 释变量是相加关系。 以加法形式引入虚拟解释变量, 从计量经济 模型的意义看,其作用是改变了设定模型的截距水平。以加法方式引入虚拟变量时,分为四种情形: (1)解释变量 只有一个分为两种相互排斥类型的定性变量而无定量变量; ( 2) 解释变量包含一个定量变量和一个分为两种类型的定性变量; (3)解释变量包含一个定量变量和一个两种以上类型的定性变 量;(4)解释变量包含一个定量变量和两个定性

13、变量。1、解释变量只有一个分为两种相互排斥类型的定性变量而 无定量变量的回归这种情况的模型又被称为方差分析模型,例如(8.4 )式YiDi ui8.4)其中,Y为居民的年可支配收入,Di为虚拟解释变量,Di =1 代表城镇居民;Di =0代表非城镇居民。(8.4 )式的意义是,假设其他因素(包括文化程度、职业、 性别等) 保持不变的条件下, 研究城镇居民和非城镇居民的收入 是否存在差别。当 ui 满足古典假设时,由式(8.4 )有:非 城 镇 居 民 的 年 平 均 收 入 : E(Yi |Di 0)(8.5)城镇居民的年平均收入:E(Yi | Di 1)(8.6)即在( 8.4 )式中,截距

14、项给出了非城镇居民的年平均可支配收入水平,而另一系数 则表明城镇居民年平均可支配水平 不同于非城镇居民年平均可支配收入的部分。由式(8.5 )和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别,可构造假设 H0:0,即城镇与非城镇居民年均可支配收入无差别。对式( 8.4 )回归,依据 估计值的 t 检验是否 显著,可作出接受或不能接受H)假设的判断。2、解释变量包含一个定量变量和一个分为两种类型定性变 量的回归8.7)其中: Y: 消费支出; X :收入; Di1 城镇居民0 农村居民模型( 8.7 )的意义在于描述收入和城

15、乡差别对居民消费支出的影响。(8.7 )式由一个定量解释变量 X和一个分为两种类型 的虚拟解释变量组成。 注意这里一个定性变量具有两种类型, 只使用了一个虚拟变量。当(8.7 )式中的Ui服从古典假定时,有:基 础 类 型 : 农村居民消费支出: E Yi |Xi,Di 01 Xi(8.8 )比较类型: 城镇居民消费支出: E Yi |Xi ,Di 1 ( 12) Xi(8.9 )其中 1为差异截距系数。(8.7 )式可图示为 8.1 ,表明非城镇居民与城镇居民两种 类型收入函数的斜率相同(均为 ),而截距水平不同。这说明, 城镇居民和非城镇居民在消费支出水平上, 存在着规模为 1的差 异,而

16、由收入因素而产生的平均消费支出水平变化却是相同的。图8.1城镇农村居民消费支出水平的差异在Ho: 1 0的假设下,对参数1估计值的t检验,可以进行消费支出是否存在城乡差异的检验。3、解释变量包含一个定量变量和一个两种以上类型的定性 变量的回归考虑以下模型:Yi1 2D2i3D3iXi ui(8.10 )其中:Y为年医疗保健费用支出,Xi为居民的年可支配收入,D21 高中及高中教育以上0 其他, D31 大专及大专以上0 其他显然,模型( 8.9 )是描述居民的年医疗保健费用支出与居民可支配收入(定量变量)和受教育程度(定性变量)间的因果 关系。这里,定性因素(受教育的程度)划分为三种类型;高中

17、 以下、高中、大专及大专以上。 注意这里的定性变量有 3 种类型, 依据虚拟变量设置规则引入了 m1=31=2 个虚拟变量, 而且一 个定性变量多种类型时,虚拟变量可同时取值为0,但不能同时取值为 1,因为同一定性变量的各种类型间“非此即彼”。当式( 8.10 )服从古典假定时,有:基 础 类型: 高 中以下 教 育:E(Yi | Xi,D2 0,D30)1 X1(8.11 )比较类型:高中教育:E(Yi | Xi,D21,D30) ( 12)Xi( 8.12 )( 8.13 ) 这表明,三种不同教育程度居民的医疗保健费用年均支出的 起点水平(截距)不同,差异截距系数为2和 3。对式( 8.1

18、0 )进行回归,检验 H0: 2 0和 H0: 1 0的 t 检验可以发现与比较基 准组(高中以下教育水平)相比,另两种类型截距的差异在统计 上是否存在显著差异。关于 2 3 0 的联合假设检验,也可由方 差分析或 F 检验完成。4、解释变量包含一个定量变量和两个定性变量的回归 以加法形式引入虚拟解释变量的作法, 很容易扩展到处理一 个以上定性变量的情形。 例如依据某地区家庭调查资料所建立的 卷烟需求模型:Qi 1 2D2i 3D3i Yi ui( 8.14 )其中,Qi为卷烟需求量,Y为居民可支配收入,D2i和D3i是虚拟解释变量,1 城镇居民 ,1 男性D2i 0 其他 , D3i 0 女

19、性一般认为, 城镇居民的卷烟消费量高于非城镇居民, 同时男 性居民的吸烟量大于女性居民。 为了分析城乡差别和性别差别对 卷烟需求的影响,模型( 8.14 )以加法形式引入了两个虚拟解释变量。注意,这里有两个定性变量选用了两个虚拟变量去表示,这并不会出现“虚拟变量陷阱”, 对比前面一个定性变量有三种 类型时也用了两个虚拟变量, 二者性质是不同的。 而且注意这里 的 D2i 和 D3i 是代表不同定性变量的虚拟变量,可以同时为0,也可同时为 1,因为不同定性变量间并没有“非此即彼”的关系。当式( 8.14 )满足古典假设时,有:基 础 类 型 : 农 村 女 性 居 民 : E(Qi |Yi,D2

20、 0,D3 0) 1 Yi(8.15)比较类型:农村男性居民:E(Qi |Yi,D2 0,D3 1)( 1 3)(8.16)城镇女性居民:E(Qi |Yi,D21,D3 0) ( 12) Yi(8.17)城镇男性居民:E(Qi |Yi ,D21,D3 1) ( 1 2 3)Yi (8.18)显然,模型( 8.14 )是以农村女性居民为基础类型,并假设 各种类型居民的卷烟需求函数只是有不同的截距, 相对于收入的 斜率系数 相同。用 t 检验分别检验 ?2 和 ?3的统计显著性,可验 证两个定性变量对截距是否有显著影响。上述讨论的结果, 可以推广到解释变量有多个定量变量和多 个定性变量的情形。 在

21、推广过程中需要注意引入虚拟变量的个数 应遵从前述的设置规则。 例如, 在考虑季节因素对冷饮销售量影响时,有春、夏、秋、冬四个类型的季节,依据设置规则,可引入 m 1=4 1=3 个虚拟解释变量。二、用虚拟变量表示不同斜率的回归乘法类型 以乘法形式引入虚拟解释变量, 是在所设定的计量经济模型 中,将虚拟解释变量与其他解释变量相乘作为解释变量, 以表示 模型中斜率系数的差异。 以乘法形式引入虚拟解释变量的主要作 用在于:关于两个回归模型的比较;因素间的交互影响分析; 提高模型对现实经济现象的描述精度。1、回归模型的比较结构变化检验 以加法方式引入虚拟解释变量, 属性因素仅影响不同类型模 型的平均水

22、平, 而不会影响不同类型模型的相对变化。 但是在现 实经济生活中,属性因素也可能影响模型的斜率系数发生变化。 例如,随着可支配收入水平的提高, 城乡居民的消费结构将出现 较大的差异, 这种差异会表现在定性因素对斜率的影响上。 又如, 研究我国改革开放前后储蓄收入总量间关系是否发生了变 化时,也存在着经济结构变化而导致模型斜率发生变化的问题。 这类问题可归结于两个回归模型的比较。 例如,在研究改革开放 前后储蓄收入总量关系时,所设定的模型为:改革开放前:Y i 2Xt uit t=1950,1951,,1977(8.19)改革开放后:Y i 2Xt u2t t=1978,1979,,2004(8

23、.20)其中:Y为储蓄总额(亿元),X为收入总额(亿元),uit、u2t 为随机扰动项。如果我们分别对式(8.19 )和式(8.20 )在不同 的时间区间内回归,则可能得到以下四种结果:(1)11, 22,表明这两个回归模型是相同的,或称为重合回归;(2) 1 1, 2 2,表明这两个回归模型仅在位置水平上(即 截距水平上)存在差异,或称为平行回归;(3)11, 22,表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;(4)11, 22,表明这两个回归模型完全不相同,或称为不同的回归。以上四种情形可用图示法描述(见图 8.2):*收入1*收入(a)重合回归(b)

24、平行回归22收入收入(c)共点回归(d)不同的回归图 8.2 储蓄收入回归模型现在的问题是,当我们运用样本数据对式 (8.14 )和式( 8.15 ) 进行回归后,如何界定所得结果在统计意义上属于哪一种类型 呢?这时可采用以乘法形式引入虚拟变量的方法。 例如, 对于改 革开放前后储蓄收入模型,可设定为:Yt 1 2Dt 1Xt 2(DtXt) ut(8.21 )其 中 , Y 为 储 蓄 ; X 为 收 入 ; D 为 虚 拟 变 量 ,Dt 0 改革开放以前t 1 改革开放以后 (为什么 ?)显然在式( 8.21 )中,以乘法形式引入了虚拟变量所形成的 解释变量为DtXt,以加法形式引入虚拟

25、变量所形成的解释变量是 Dt 。事实上,当式( 8.21 )满足古典假设时,有改革开放前:EYt | Dt0,Xt11Xt(8.22 )改革开放后:EYt|Dt1,Xt ( 12) ( 12)Xt(8.23 )(8.22 )式和( 8.23 )式分别是改革开放后和改革开放前的平均储蓄函数。与(8.19)式及 (8.20) 式相比,有: 12 1; 1 1 2、 2 1 2。在 (8.21) 式中, 2 称为截距差异 系数, 2 称为斜率差异系数,分别代表改革开放前后储蓄函数截 距与斜率所存在的差异。当我们利用1950 2000 年间的数据估计式 (8.21) 时,等价于分别对 (8.19) 式

26、和 (8.20) 式两个储蓄 函数进行估计。假如对(8.21) 式用OLS法估计得Y?t 1.7502 1.4839Dt 0.1504Xt 0.1034Dt Xt(0.3319) (0.4704) (0.0163) (0.0332)t=(-5.2733) (3.1545) (9.2270) (-3.1144)结果表明, 截距和斜率差异系数 2 、 2在统计意义下均为显 著的,说明改革开放前后的储蓄收入行为确是不相同。即改革开放前Y?t1.7502 0.1504Xt改革开放后Y?t ( 1.7502 1.4839) (0.1504 0.1034)Xt0.2663 0.0470 X t以乘法形式引

27、入虚拟变量作回归模型的比较和结构变 化检验有一些优点: ( 1 )用一个回归替代了多个回归,简化了分 析过程;(2)可以方便地对模型结构的差异作各种假设检验; (3) 合并了的回归增加了自由度,提高了参数估计的精确性。但是, 也应注意合并后模型的 ui 应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。2、交互效应分析当分析解释变量对变量的影响时, 大多数情形只是分析了解 释变量自身变动对被解释变量的影响作用, 而没有深入分析解释 变量间的相互作用对被解释变量的影响。 前面讨论的分析两个定 性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定: 两个定性变量是分别独立地影响被

28、解释变量的。 但是在实际经济 活动中,两个定性变量对被解释变量的影响可能存在一定的交互 作用,即一个解释变量的边际效应有时可能要依赖于另一个解释 变量。 为描述这种交互作用, 可以把两个虚拟变量的乘积以加法 形式引入模型。考虑下列模型:Yi12D2i3D3iXiui8.24 )其中:Y为农副品生产总收益,X为农副产品生产投入,D2i为代表油菜籽生产虚拟变量 , D3i 为代表养蜂生产虚拟变量:2i1 发展油菜籽生产0 其他D31 发展养蜂生产0 其他显然(8.22 )式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量D2i和D3i是以加法形式引入的, 那么暗

29、含着假设: 油菜籽生产和养蜂生产是 分别独立地影响农副品生产总收益。 但是,在发展油菜籽生产时, 同时也发展养蜂生产, 所取得的农副产品生产总收益, 可能会高 于不发展养蜂生产的情况。 即在是否发展油菜籽生产与养蜂生产 的虚拟变量D2i和D3i间,很可能存在着一定的交互作用,且这种 交互影响对被解释变量农副产品生产收益会有影响。为了描述交互作用对被解释变量的效应,在( 8.24 )式中以 加法形式引入两个虚拟解释变量的乘积,即Yi12D2i3D3i4(D2iD3i)Xi ui(8.25 )(8.25 )式中各变量的含义与( 8.24 )式相同。基础类型: 为不发展油菜籽生产, 也不发展养蜂生产

30、时农副 产品生产总收益的平均支出:E(Yi |D2 0,D3 0,Xi)1 Xi(8.26)对比类型: 为同时发展油菜籽生产和养蜂生产时, 农副产品 生产总收益的平均支出E(Yi |D2 1,D3 1,Xi) ( 123 4) Xi(8.27 )这里的截距水平由四项组成,其中:2 为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;3为是否发展养蜂生产对农副产品生产总收益的截距差异 系数;4同时发展油菜籽生产和养蜂生产时对农副产品生产总收 益的交互效应系数。关于交互效应是否存在,可借助于交互效应虚拟解释变量系 数的显著性检验来加以判断。 如果t检验表明交互效应虚拟变量 D2iD3i在统计意

31、义上是显著时,说明交互效应对 Y存在显著影响。3、分段线性回归有的社会经济现象的变动,会在解释变量达到某个临界值时 发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行 分段回归。例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平 X*以下和以上时计提奖 励的方法不同。当销售额高于X*时,计提奖励额与销售额的比例 要高于销售额低于X*时的比例,也就是高于 X*时,奖励额与销 售额的线性关系更为陡峭(如图 8.3所示)。为了确切地描述奖 励额度(Y)与销售额(X)间的关系,需要分两段进行回归。这 种分段回归可以用虚拟变量来实现。I图8.3奖励额与销售额的

32、关系设虚拟变量D为:则奖励额度(Yt)和销售额(Xt )间的关系式可以统一地表示为:Y oiXt2(Xt X )Dt Ut(8.28)其中,Yt为奖励额,Xt为销售额,X*为已知的销售目标临界水平。利用统计资料估计(8.28 )式的参数,就可以得到不同斜 率和截距的回归方程:销售额低于X*时:E(Yt|Xt,D 0,X*)?X1Xt(8.29)销售额不低于X* : E(Yt|Xt,D 1,X*)(?o ?X*) (?即(Xt*X )(8.30)整理得E(Y|Xt,Di,x )池?2x)(?)Xt(8.31)显然,i是图8.3中第I段回归直线的斜率,而 ? ?2则是 第H段回归直线的斜率。 只要

33、检验?2的统计显著性,就可以判断 在所设定的临界水平X*处是否存在着“突变”。应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容 易推广,分为K段回归时,可用K 1个虚拟变量。*第三节 虚拟被解释变量在计量经济学模型中,虚拟变量除了可以作为解释变量外,还可以作为被解释变量。当虚拟变量作为被解释变量时,其作用是对某一经济现象或活动进行“是”与“否”的判断或决策。例本节内容本科教学中供选择使用。 如,研究是否购买商品住房、是否参加人寿或财产保险、是否能 按期偿还贷款、 新产品在市场上是否畅销、 对某一改革措施所持 的态度等。这些问题的特征是

34、被研究的对象(即被解释变量)在 受到多种因素影响时,其取值只有两种状态: “是”与“否”。这 在计量经济学中被称为“二元型响应”现象,这种现象常在市场 研究或社会问题研究中遇到。 如何处理二元型响应被解释变量模 型的估计、推断问题,是本节要解决的问题。一、线性概率模型( LPM)1、什么是线性概率模型 假设住户是否购买商品房的决定主要依赖于其收入水平。 那 么考虑下列模型:Yi 1 2Xi ut(8.32 )其中,Xi为住户的收入;Y为一虚拟变量表示的住户购买商品住房的情况:1 已购买商品住房Y0 未购买商品住房现在的 问题是 :我 们前 面讨论 的 回 归分 析主要 是研 究EYIXi i

35、2Xi的问题,即研究条件均值的轨迹的问题, 而在上 述模型中, 被解释变量是某种属性发生与否的状况, 怎样把某种属性发生与否的问题同条件均值的轨迹研究联系起来?当然, 计量经济学中, 研究被解释变量某种属性发生与否, 通常是研究 这种属性发生与否的概率。也就是说,上述问题可表述为:怎样 把被解释变量某种属性发生与否的概率问题同条件均值的轨迹 研究联系起来?另外, 若概率问题与条件均值轨迹能够联系起来 的话,那么,我们所讨论的线性回归分析会出现什么问题?分析 (8.32) 式,其中, ut 服从 E(ut )=0 ,有:E(Yi |Xi) 1 2Xi(8.33 )另一方面, Yi 是取值为 0

36、和 1 的随机变量,那么 Yi 有下列分布(Pi为Y=1的概率):Y 01概率 1- Pi Pi根据数学期望的定义E(Yi) 0 (1 Pi) 1 Pi Pi(8.34)也就是说,E(Y)等于Y取值为1时的概率,即:E Yi Prob(Yi 1| Xi) Pi(8.35 )注意事件 Y=1 发生是在给定收入 X 的条件下发生的,因此E Yi E Yi |Xi 于是,比较 (8.33) 式和 (8.34) 式,则有:E(Yi |Xi)2XiPi8.36)表明购买商品用房的概率是收入的线性函数。 像(8.32) 式那 样,以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量Yi取值为1的条件

37、概率。即当住户的收入水平为X时,其购买商品住房的概率可表示成 X的线性函数,故(8.32) 式也被 称为线性概率模型(LPM。显然,只要得到(8.32) 式中i和2 和估计量后, 就可以估计出不同收入水平住户购买商品住房的概 率。由于购买商品住房的概率 Pi必须在0和1之间,故在估计式(8.32) 式时必须满足约束条件0 E(Yi 1| Xi) 1(8.37)2、线性概率模型的估计从形式上看, (8.32) 式与普通的线性计量经济模型相似, 是否能够运用OLS法直接对其进行估计呢?答案是否定的。因为直接采用OLS法对(8.32 )式那样的模型进行估计,将会遇到一 些特殊的问题, 使得估计结果失去了合理的经济解释, 因而需要 寻求相应的处理方法。(1)随机扰动项Ut的非正态性在线性概率模型中,关于 ui 的正态性假设不再成立,因为8.30 )式的随机误差项为:此时,当 Yi=1 时ui 1 1 2Xi当 Yi=0 时Uii 2Xi显然,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论