版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
伍德里奇《计量经济学导论》复习笔记和课后习题详解■含有定
性信息的多元回归分析:二值变量
第7章含有定性信息的多元回归分析:二值(或虚拟)变量
7.1复习笔记
考点一:带有虚拟自变量的回归*****
1.对定性信息的描述
定性信息是指通常以二值信息(0-1)的形式出现的信息,如性别、
是否结婚等。在计量经济学中,二值变量又称为虚拟变量。
2.只有一个虚拟自变量
(1)只有一个虚拟自变量的简单模型
考虑决定小时工资的简单模型:wage=[30+60female+pleduc
根据多元回归的解释方式,表示控制不变时,
+uo60educfemale
变化1单位给wage带来的变化。假定零条件均值假定E(u|female,
educ)=0成立,那么:50=E(wage|female=1,educ)-E
(wage|female=0,educ),其中female=1表示女性,female
=0表示男性。可以发现,在任意教育水平下,男性与女性的工资差异
是固定的,女性工资比男性工资多
60o
除了P0之外,模型中只需要引入一个虚拟变量。因为female+
所以引入两个虚拟变量会导致完全多重共线性,即虚拟变
male=lz
量陷阱。
(2)当因变量为log(y)时,对虚拟解释变量系数的解释
当变量中有一个或多个虚拟变量,且因变量以对数的形式存在时,
虚拟变量的系数可以
理解为百分比的变化。将虚拟变量的系数乘以100,表示的是在
保持所有其他因素不变时y的百分数差异,精确的百分数差异为:
其中八
100-[exp(Api)-l]e
Pl是一个虚拟变量的系数。3.使用多类别虚拟变量
(1)在方程中包括虚拟变量的一般原则
如果回归模型具有g组或g类不同截距,一种方法是在模型中包
含g-1个虚拟变量和一个截距。基组的截距是模型的总截距,某一组
的虚拟变量系数表示该组与基组在截距上的估计差异。如果在模型中
引入g个虚拟变量和一个截距,将会导致虚拟变量陷阱。
另一种方法是只包括g个虚拟变量,而没有总截距。这种方法存
在两个实际的缺陷:①对于相对基组差别的检验变得更繁琐;②在模
型不包含总截距时,回归软件通常都会改变R2的计算方法。具体而
言,就是公式R2=1-SSR/SST中的总平方和SST,被一个没有将y
i减去其均值的总平方和SST0取代,由此得到的R02=l-SSR/SST
0称为未中心化的R2,从而有可能使得拟合优度指标失效。SST0的
计算公式为:
2
01SSTn
iiy==1(2)通过虚拟变量来包含序数信息
假设要估计城市信用等级对市政债券利率(MBR)的影响。城市
信用等级是一个序数变量,范围是0~4,称这个变量为CR。可以对
CR的每个值都定义一个虚拟变量。由于有5个类别,所以可包括4个
虚拟变量,将零信用等级定为基组并省略。若CR=1,则CR1=1,
否贝I」CR1=O;若CR=2,贝UCR2=1,否贝!JCR2=0,以止匕类推。
因止匕,可以转化为估计模型:MBR=PO+61CR1+62CR2+
63CR3+64CR4+其他因素。
以61为例,系数的解释为:61为信用等级为1级的城市和信用
等级为0级的城市之间在MBR上的差异(保持其他因素不变)。
考点二:涉及虚拟变量的交互作用★★★★
1.虚拟变量之间的交互作用
具有定量意义的变量在回归模型中可以具有交互作用,类似的,
虚拟变量也能产生交互作用。虚拟变量的交互作用就是在模型中引入
虚拟变量的乘积形式。
2.容许出现不同的斜率
(1)不含交互项的模型
在多元回归模型中存在任意几个组之间的截距不同的情况。在有
些情况下,虚拟变量也可与非虚拟的解释变量有交互作用,从而出现
不同的斜率。
考虑模型:log(wage)=(pO+SOfemale)+(01+
Slfemale)educ+u。当female=0时,模型可以写成:log
(wage)=pO+pleduc+u;当female=1时,模型变为:log
度量的是男性和女性
(wage)=(30+60+(pl+51)educ+uo60
在截距上的差异,而61度量男性和女性在斜率(即受教育回报)上的
差异。
(2)含有交互项的模型
考虑模型:log(wage)=p0+80female+pleduc+
一个重要的假设是,男性和女性受教育的回报是
81female-educ+uo
相同的,这可以表述成H0:81=0。这意味着log(wage)对educ
的斜率对男性和女性而言无差异。在这个虚拟假设之下,允许在不同
教育水平下,男性和女性的工资存在差异,但性别工资差异在各种相
同教育水平上必须相同。
若对受教育程度相同的男性和女性的平均工资相同这个假设感兴
趣,则50和61都必须同时为零。必须使用F检验来检验虚拟假设H0:
80=0,81=0o
3.检验不同组之间回归函数上的差别
在含有k个解释变量和1个截距项的一般模型中,假设有两组g二
和。对和将模型写成:
1g=2g=lg=2y=Pg,O+pg,lxl+pg,
2x2+...+0g,kxk+uo
检验这两组的截距和所有斜率都相同,就意味着产生了k+1个约
束。可以认为无约束模型除了截距和变量本身外,还有一组虚拟变量
和交互项,那么其自由度为n-2(k+1).无约束模型的残差平方和
可通过两个分离的回归得到,这两个不同回归分别对应着两个不同的
组,令SSR1(SSR2)表示针对第一组(第二组)估计式所得到的残
差平方和,它涉及nl(n2)个观测。而约束模型的残差平方和就是将
两组混合在一起并估计同一个方程时所得到的SSRp。
在此基础上,就可以计算F统计量:F={[SSRp-(SSR1+
SSR2)]/(SSRl+SSR2)}-{[n-2(k-1)]/(k+1)}o其中,n为
总观测次数。在计量经济学中,这也被称为邹至庄统计量。邹至庄检
验的一个重要局限是原假设要求各组之间不存在任何差异。但在更多
情况下,允许组间的截距不同,然后再来检验斜率的差别会更有意义。
邹至庄检验的步骤包括:
(1)分别对两组数据进行回归估计得到残差平方和SSR1和SSR2,
两者之和即为无约束模型的残差平方和。
(2)将两组数据混合进行估计得到残差平方和SSRp,这就是为
受约束回归残差平方和。
(3)构造F统计量,并与给定显著水平下F的临界值进行比较。
若F值大于临界值,
则拒绝原假设,即说明两个回归函数存在差异。
考点三:二值因变量:线性概率模型★★★★
1.线性概率模型
考虑模型:y=BO+Blxl+02x2+...+Bkxk+uo在零条件均
值假定MLR.4成立时,E(y|x)=po+plx1+p2x2+...+pkxke
当y是一个取值为0和1的二值变量时,P(y=l|x)=E(y|x)
总是成立的。因此有:P(y=1|x)=p0+plx1+p2x2+...+pkx
ko这意味着成功的概率p(x)=P(y=l|x)是所有x变量的一个
线性函数。
方程P(y=1|x)=p0+plx1+p2x2+...+0kxk是二值响应
模型的一个例子,P(y=l|x)被称为响应概率。因为响应概率是所
有参数P的线性函数,所以这类模型又被称为线性概率模型(LPM)。
在LPM中,在保持其他因素不变时,印度量因xj的变化导致成功概
率的变化(j=1,2k):?P(y=l|x)=Pj?xje
2.线性概率预测
以二值变量为因变量进行预测时,预测的概率可能不会落在0~1
区间内。令八yi表示拟合值,定义预测值iy在八yi1.5时取值为1,
并在八
yi
<0.5时取值为0。现在,便得到一组预测值iy,这些预测值和y
i一样,取值不是。便是1。利用yi和iy
的数据,就可以得到正确预测yi=1和yi=0的频率以及全部正
确预测的比例。若用百分比表示全部正确预测的比例,便是二值因变
量拟合优度的一个广泛使用的指标。
3.线性概率模型可能存在异方差性
当y是二值变量时,以x为条件的方差为:Var(y|x)=p(x)
[1-p(x)]0其中,p(x)=pO+plxl+...+pkxko这意味着,除
非概率与任何一个自变量都不相关,否则,线性概率模型中就一定存
在着异方差性。因此,由于y的二值特性,线性概率模型违背了一个
高斯・马尔可夫假定。
4.离散因变量的回归结果解释
一般地,在假设MLR.1和MLR.4下:E(y|xl,x2,xk)
=P0+plxl+p2x2+...+pkxkopj是指在其他条件不变时,xj的增
加对y的期望值的影响。给定一组xj值,拟合值
A
p0+Aplxl+Ap2x2+...+Apkxk就是E(y|xl,x2,,xk)
的一个估计。因此Mj是当?xj=1时,对y的平均变动的估计(保持
其他因素不变)。
7.2课后习题详解
一、习题
1.利用SLEEP75中的数据(也可参见第3章习题3),我们得到
如下估计方程:
sleep=3840X3-0.1bytotwrk-11.7\educ-8.70砍c+().1+87.75mHc
(235.11)(0.018)(5.86)(11.21)(0.134)(34.33)
/i«706・R)・0/23.F-0.117
变量sleep是每周晚上睡眠的总分钟数,totwrk是每周花在工作
上的总分钟数,educ和age则以年为单位,而male是一个性别虚拟
变量。
(i)所有其他因素不变,有没有男性比女性睡眠更多的证据?这
个证据有多强?
(ii)工作与睡眠之间有统计显著的取舍关系吗?所估计的取舍关
系是什么样的?
(iii)为了检验年龄在其他因素不变的情况下对睡眠没有影响这
个原假设,你还需要另外做什么回归?
答:(i)变量male的回归系数是87.75,根据估计结果可知,男
性每周的睡眠时间要比女性每周的睡眠时间多近一个半小时。又因为
tmale=87.75/34.33-2.56
其值接近于99%的置信水平下的双侧检验的临界值(大约为
2.58),因此男性比女性睡眠更多的证据是相当强的。
(ii)变量totwrk的t统计量的值为:
ttotwrk=-0.163/0.018*-9.06
这是非常显著的。这个系数表明每周平均多工作一个小时(60分
钟),对应的平均每周晚上睡眠将减少0.163x60,9.8(分钟)。
(iii)需要对不含变量age和age2的模型进行回归,以便得到R
r2,即受约束模型的R2。当模型中含有变量age和age2时,当且仅
当两个变量age和age2前的系数均为0时,才表明年龄在其他因素
不变的情况下对睡眠没有影响这个原假设成立。
2BWGHT中的数据,可估计出如下方程:
log(hwfiht)=4.66一0.0044c/g,v+0.0093log(^famine)+0.016parity
(0.22)(0.0009)(0.0059)(0.006)
+O.O27male+0.055white
(0.010)(0.013)
/1=I388.R2=0.0472
和
log(hwfiht)=4.65-O.OO52c7g.v+0.011Olog(famine)
(0.38)(0.0010)(0.0085)
+0.017parity+0.034/wa/e
(0.006)(0.011)
+0,045while-0.0030molheduc+0.0032fatheduc
(0.015)(0.0030)(0.0026)
^=1191./?2=0.0493
变量定义和例4.9中一样,但我们增加了两个虚拟变量:一个虚拟
变量表明孩子是不是男孩,另一个虚拟变量则表明这个孩子是不是白
人。
(i)在第一个方程中,解释变量cigs的系数。具体而言,每天多
抽10根烟对出生体重有何影响?
(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子的
出生体重比一个非白人孩子重多少?这个差异是统计显著的吗?
(iii)评价motheduc的估计影响和统计显著性。
(iv)从这些给定信息中,为什么不能计算出检验motheduc和
fatheduc联合显著性的F统计量?为了计算这个统计量,还需要做些
什么?
答[(i:如果变量cigs每增加10根,即每天多抽10根烟,则:
Alog(6wg/?/)=-0.0044x10=-0.044
即婴儿出生体重将减少大约4.4%。
(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子比
一个非白人孩子的出生体重多5.5%。另外,twhite*4.23,在一般常
用的显著性水平下都是显著的。因此,一个白人孩子与一个非白人孩
子的出生体重在统计上是有显著差异的。
(iii)如果母亲的教育年限每增加1年,孩子的出生体重将增加
这个影响是很小的,其因此母亲的受教育年
0.3%,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《行政职业能力测验》2024年公务员考试集贤县全真模拟试卷含解析
- 2024年农技人员年度工作总结
- 七夕情人节课件45
- 体育营销与可持续发展和社会责任-洞察分析
- 音乐疗法与睡眠障碍-洞察分析
- 星载资源多址接入优化-洞察分析
- 游戏产业链价值链重构-洞察分析
- 图书馆电子商务模式创新-洞察分析
- 稀土金属深加工经济效益-洞察分析
- 异步消息队列-洞察分析
- 监理规划、监理细则审批表
- 交房安保方案
- 2023年下半年网络规划师考试真题及答案-上午卷
- 《财务共享实务》课程期末考试题库及答案
- 氮气缓冲罐安全操作规程
- 金工钒钛科技有限公司-年处理600万吨低品位钒钛磁铁矿选矿项目可行性研究报告
- 国能神皖安庆发电有限责任公司厂内108MW-108MWh储能项目环境影响报告表
- 铁路试验检测技术
- 2023-2024人教版小学2二年级数学下册(全册)教案【新教材】
- 小学奥数基础教程(附练习题和答案)
- 九年级语文上学期教学工作总结
评论
0/150
提交评论