版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
含定性变量的回归模型第1页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型一、简单情况首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个0-1型变量D,令:Di=1 表示正常年份Di=0 表示干旱年份第2页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型粮食产量的回归模型为:
yi=β0+β1xi+β2Di+εi 其中干旱年份的粮食平均产量为:E(yi|Di=0)=β0+β1xi正常年份的粮食平均产量为:
E(yi|Di=1)=(β0+β2)+β1xi第3页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型例9.1
某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:第4页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型序号y(元)x1(万元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表9.1第5页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型在线性回归对话框,建立y对x1、x2的线性回归,输出结果:第6页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型两个自变量x1与x2的系数都是显著的,判定系数R2=0.879,回归方程为:=-7976+3826x1-3700x2第7页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型
这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。如果不引入家庭学历定性变量x2,仅用y对家庭年收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。第8页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型自变量x1的系数是显著的,回归方程为:
=-7728+3264x1第9页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型
家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。回归方程为:第10页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3700元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。第11页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:第12页,共60页,2023年,2月20日,星期四§9.1自变量中含有定性变量的回归模型可是这样做却产生了一个新的问题,即x1+x2+x3+x4=1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型自变量即可。例如去掉x4,只保留x1、x2、x3。 对一般情况,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量。当k=2时,只需要引入一个0-1型自变量即可。第13页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用一、分段回归例9.2
表9.3给出某工厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。序号yX(=x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800第14页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用图9.1单位成本对批量散点图第15页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用由图9.1可看出数据在生产批量xp=500时发生较大变化,即批量大于500时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。假定回归直线的斜率在xp=500处改变,建立回归模型
yi=β0+β1xi+β2(xi-500)Di+εi 来拟合,其中第16页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用引入两个新的自变量xi1=xi
xi2=(xi-500)Di这样回归模型转化为标准形式的二元线性回归模型:yi=β0+β1xi1+β2xi2+εi(9.3)(9.3)式可以分解为两个线性回归方程:当x1≤500时,E(y)=β0+β1x1 当x1>500时,E(y)=(β0-500β2)+(β1+β2)x1
第17页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用第18页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用在线性回归对话框用普通最小二乘法拟合模型(9.3)式得回归方程为:
=5.895-0.00395x1-0.00389x2
利用此模型可说明生产批量小于500时,每增加1个单位批量,单位成本降低0.00395美元;当生产批量大于500时,每增加1个单位批量,估计单位成本降低0.00395+0.00389=0.00784(美元)。第19页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(9.2)式的回归系数β2做显著性检验。第20页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用对β2的显著性检验的显著性概率Sig=0.153,β2没有通过显著性检验,不能认为β2非零。用y对x做一元线性回归,计算结果为:第21页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用二、回归系数相等的检验
例9.3
回到例9.1的问题,例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率β1与家庭年收入无关,家庭年收入只影响回归常数项β0,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8)其中y为上一年家庭储蓄增加额,x1为上一年家庭总收入,x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。第22页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用回归模型(9.8)式可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1,yi=β0+β1xi1+β2+β3xi1+εi=(β0+β2)+(β1+β3)xi1+εi 低学历家庭x2=0,
yi=β0+β1xi1+εi
第23页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用要检验两个回归方程的回归系数(斜率)相等,等价于检验H0:β3=0,当拒绝H0时,认为β3≠0,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为β3=0,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:yi=β0+β1xi1+β2xi2+εi
第24页,共60页,2023年,2月20日,星期四§9.2自变量定性变量回归模型的应用第25页,共60页,2023年,2月20日,星期四§9.3因变量是定性变量的回归模型在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。一、定性因变量的回归方程的意义
设因变量y是只取0,1两个值的定性变量,考虑简单线性回归模型yi=β0+β1xi+εi (9.12)
在这种y只取0,1两个值的情况下,因变量均值E(yi)=β0+β1xi有着特殊的意义。第26页,共60页,2023年,2月20日,星期四§9.3因变量是定性变量的回归模型由于yi是0-1型贝努利随机变量,则得如下概率分布:
P(yi=1)=πiP(yi=0)=1-πi根据离散型随机变量期望值的定义,可得E(yi)=1(πi)+0(1-πi)=πi (9.13)得到E(yi)=πi=β0+β1xi第27页,共60页,2023年,2月20日,星期四§9.3因变量是定性变量的回归模型二、定性因变量回归的特殊问题
1.离散非正态误差项。
对一个取值为0和1的因变量,误差项εi=yi-(β0+β1xi)只能取两个值:当yi=1时,εi=1-β0-β1xi=πi
当yi=0时,εi=-β0-β1xi=1-πi
显然,误差项εi是两点型离散分布,当然正态误差回归模型的假定就不适用了。第28页,共60页,2023年,2月20日,星期四§9.3因变量是定性变量的回归模型2.零均值异方差性。
当因变量是定性变量时,误差项εi仍然保持零均值,这时出现的另一个问题是误差项εi的方差不相等。0-1型随机变量εi的方差为
D(εi)=D(yi)=πi(1-πi)=(β0+β1xi)(1-β0-β1xi)(9.14)
εi的方差依赖于xi,是异方差,不满足线性回归方程的基本假定。第29页,共60页,2023年,2月20日,星期四§9.3因变量是定性变量的回归模型3.回归方程的限制
当因变量为0、1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:θ≤E(yi)=πi≤1
对一般的回归方程本身并不具有这种限制,线性回归方程yi=β0+β1xi将会超出这个限制范围。第30页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
一、分组数据的Logistic回归模型针对0-1型因变量产生的问题,我们对回归模型应该做两个方面的改进。
第一,回归函数应该改用限制在[0,1]区间内的连续曲线,而不能再沿用直线回归方程。第31页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
限制在[0,1]区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为
Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。第32页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
第二,因变量yi本身只取0、1两个离散值,不适于直接作为回归模型中的因变量。由于回归函数E(yi)=πi=β0+β1xi表示在自变量为xi的条件下yi的平均值,而yi是0-1型随机变量,因而E(yi)=πi就是在自变量为xi的条件下yi等于1的比例。这提示我们可以用yi等于1的比例代替yi本身作为因变量。下面通过一个例子来说明Logistic回归模型的应用。第33页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
例9.4
在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客中,在随后的3个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,对如下的数据,建立Logistic回归模型第34页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
第35页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
Logistic回归方程为
其中c为分组数据的组数,本例c=9。做线性化变换,直接在Transform-ComputeVariable中进行,令上式的变换称为逻辑(Logit)变换,得pi′=β0+β1xi+εi
(9.16)(9.18)
(9.17)
第36页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
在线性回归对话框中,注意变量名和意义。计算出经验回归方程为-0.886+0.156x (9.19)判定系数r2=0.9243,显著性检验P值≈0,高度显著。还原为(9.16)式的Logistic回归方程为利用(9.20)式可以对购房比例做预测,例如对x0=8,第37页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,(9.18)式的回归模型不是等方差的,应该对(9.18)式用加权最小二乘估计。当ni较大时,pi′的近似方差为:其中πi=E(yi),因而选取权数为:wi=nipi(1-pi)第38页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
用加权最小二乘法输出结果第39页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
用加权最小二乘法得到的Logistic回归方程为
对x0=8时的购房比例做预测第40页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
二、未分组数据的Logistic回归模型设y是0-1型变量,x1,x2,…,xp是与y相关的确定性变量,
n组观测数据为(xi1,xi2,…,xip;yi),i=1,2,…,n,
yi与xi1,xi2,…,xip的关系为:E(yi)=πi=f(β0+β1xi1+β2xi2+…+βpxip)
其中函数f(x)是值域在[0,1]区间内的单调增函数。对于Logistic回归第41页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
于是yi是均值为πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1型分布,概率函数为:P(yi=1)=πiP(yi=0)=1-πi
可以把yi的概率函数合写为:i=1,2,…,n于是y1,y2,…,yn的似然函数为:第42页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
代入得对数似然函数Logistic回归极大似然估计就是选取β0,β1,β2,…,βp的估计值使上式达极大。第43页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
例9.5
在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班。”因变量y=1表示主要乘坐公共汽车上下班,y=0表示主要骑自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。调查对象为工薪族群体,数据见表9.9,试建立y与自变量间的Logistic回归。第44页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
序号性别年龄月收入y序号性别年龄月收入y101885001512010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001第45页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
依次点选SPSS软件的Analyze—Regression—BinaryLogistic命令,进入Logistic回归对话框,选入变量,点选OK运行。第46页,共60页,2023年,2月20日,星期四Select:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。Options:可以对模型作精确定义,选择模型预测情况的描述方式,如StatisticsandPlots中的Classificationplots就是非常重要的模型预测工具,Correlationsofestimates则是重要的模型诊断工具,Iterationhistory可以看到迭代的具体情况,从而得知模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。第47页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
以下是SPSS软件部分运行结果:第48页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
X2(月收入)不显著,将其剔除。最终的回归方程为:第49页,共60页,2023年,2月20日,星期四§9.4Logistic回归模型
三、Probit回归模型
Probit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是【例9.6】仍然使用例9.4购房数据第50页,共60页,2023年,2月20日,星期四正态分布累积分布函数图第51页,共60页,2023年,2月20日,星期四§9.5多类别Logistic回归当定性因变量y取k个类别时,记为1,2,…,k。因变量y取值于每个类别的概率与一组自变量x1,x2,…,xp有关,对于样本数据
(xi1,xi2,…,xip
;yi),i=1,2,…,n
,多类别Logistic回归模型第i组样本的因变量yi取第j个类别的概率为:(9.34)第52页,共60页,2023年,2月20日,星期四§9.5多类别Logistic回归上式中各回归系数不是惟一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为0,得到回归函数的表达式(9.35)第53页,共60页,2023年,2月20日,星期四§9.6因变量是顺序变量的回归
当定性因变量y取k个顺序类别时,记为1,2,…,k,这里的数字1,2,…,k仅表示顺序的大小。因变量y取值于每个类别的概率仍与一组自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度融资租赁合同:医疗设备租赁
- 2024年建筑工程安全文明合作合同
- 2024年塑料制品出口代理合同
- 面向工业废气的除尘剂产业化
- 2024年国际时尚品牌代理销售合同
- 交通运输安全监管奖惩制度探讨
- 2024医药公司与医疗机构之间的药品销售合同
- 能源消耗评估方法
- 电力行业安全保密应急预案
- 石劝业数字化转型分析
- (完整版)四年级语文培优辅差记录表
- 国家开放大学《监督学》形考任务(1-4)试题解析和答案
- 不断把人民对美好生活的向往变为现实PPT实现人民对美好生活向往的路径PPT课件(带内容)
- DB43T 2428-2022 水利工程管理与保护范围划定技术规范
- GB/T 39968-2021建筑用通风百叶窗技术要求
- GB/T 1771-2007色漆和清漆耐中性盐雾性能的测定
- 内科医保入院指征
- 美济礁 仁爱礁
- 茶文化与茶健康教学课件
- 问诊及体格检查课件
- 屯兰瓦斯爆炸原因分析
评论
0/150
提交评论