第十讲定类或定序因变量回归分析-408009601_第1页
第十讲定类或定序因变量回归分析-408009601_第2页
第十讲定类或定序因变量回归分析-408009601_第3页
第十讲定类或定序因变量回归分析-408009601_第4页
第十讲定类或定序因变量回归分析-408009601_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

讲定类或定序因变量回归分析2021/5/91当因变量是一个定类变量而不是定距变量时,线性回归模型受到挑战。如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,社会学和人口学研究中所涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照二分类变量或多分类来测量。

一、问题的提出2021/5/92在研究态度与偏好等心理现象时也经常按类型进行测量的,如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。连续变量转换成类型变量的情形,如在分析升学考试的影响因素时,将考生分为录取线以上和录取线以下。2021/5/93

从统计理论上看,最小二乘法关注正态分布,然而社会经济现象往往有不同于正态分布的其他分布,例如:(1)二项分布(binomialdistribution)(2)泊松分布(Poisson)2021/5/94

二、线性概率模型1、模型建立以最小二乘法为基础的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。用公式表示为:P=a+∑βiXi+ε

对二项分布线性概率模型的结果解释:在其他变量不变的情形下,x每增加一个单位,事件发生概率的期望将变动β个单位。

2021/5/95例如,林楠和谢文(1988)曾用线性概率模型估测入党(政治资本)的概率,模型为:P=-0.39+0.01A+0.04E+0.03U

其中:P—党员概率,A—年龄,E—受教育年限,U—单位身份2021/5/961)无意义的解释从解释力上看,由于概率的值是有边界的,在0与1之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于1,因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为100岁,受教育程度超过10年,则入党的概率约等于1。2)非线性关系2、线性概率模型存在的问题2021/5/97

三、简单对数比率回归

1、模型建立既然用线性概率回归存在局限性,能否用比率做因变量呢?比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量存在的问题是,比率是非对称的.2021/5/98表1概率、比率和对数比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099对数比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.602021/5/99

一个简单的解决办法就是取对数,结果就是所谓对数比率(logit)。若用P代表某事件的概率,则对数比率函数的定义为g(P)=log(P/1-P)以对数比率为因变量对自变量X1,X2,X3……做回归称为对数比率回归(logisticregression),其方程式为:

2021/5/910

该模型即为logit回归模型。logit回归模型是普通多元线性回归模型的推广,但它的误差项服从二项分布,因此需要采用极大似然估计方法进行参数估计,参数称为logit回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。2021/5/9112、发生比

发生比是事件的发生频数与不发生频数之间的比,即:Odds=(事件发生频数)/(事件不发生频数)

当比值大于1时,表明事件更有可能发生。比如一个事件发生的概率为0.6,事件不发生的概率为0.4,发生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5倍。2021/5/912四、logistic回归模型的检验与评价1、Logistic回归模型估计的假设前提第一、数据来自于随机样本。第二、因变量Yi被假设为K个自变量Xk(k=1,2,…,K)的函数。第三、正如OLS回归,logistic回归也对多重共线性有所限制,自变量之间存在多重共线性会导致标准误的膨胀。

Logistic回归模型还有一些与OLS回归不同的假设前提:第一,因变量是二分变量;第二,因变量和各自变量之间的关系是非线性的。2021/5/9132、拟合优度检验

如果模型的预测值能够与对应的观测值有较高的一致性,就认为这一模型能够拟合数据。否则需要对模型重新设置。因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。2021/5/9141)皮尔逊卡方检验皮尔逊卡方检验主要用于检验残差项的大小。计算公式:其中yi是观察值(0或1),pi是估算值的概率,i=1,2…n,分母是估算值的标准差,自由度为n-J-1,其中J为自变量数目。2021/5/9152)Hosmer-Lemeshow拟合优度检验该方法通常适用于自变量很多,或自变量为连续变量的情形。HL方法根据预测概率的大小将所有观察单位十等分,然后根据每一组中因变量的实际值与理论值计算Peason卡方,其统计量为:其中G代表分组数,且G10;ng为第g组中的观测值数;yg第g组事件的观测数量;pg为第g组的预测事件概率;ngpg为事件的预测值,实际上它等于第g组的观测概率和。2021/5/9163)对数似然比卡方检验对数似然比是用较复杂模型与基本模型进行比较。通常将似然取对数并乘以-2,即-2logL,简称对数似然。基本模型以独立模型表示:

用L0表示独立模型的似然,L1表示非独立模型的似然,那么对数似然比定义为:遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验复杂模型中自变量对似然率的增加是否显著,越大越好。2021/5/9173、logit模型回归系数的假设检验设原假设H0为:βk=0,表示自变量对事件发生的可能性无影响;如果原假设被拒绝,说明自变量对事件发生的可能性有影响。Wald检验在logit模型中,对回归系数进行显著性检验,通常使用Wald检验,其计算公式为:

Wald统计量实际上就是正态分布Z统计量的平方。在零假设条件下,每一个回归系数都等于0。Wald统计量服从卡方分布,其自由度为n-k-1。2021/5/918五、模型解释

由于logit模型是非线性的,因此不能以传统回归模型中自变量与因变量之间的关系解释之。通常以发生比率来解释logit回归系数。

2021/5/919六、多项对数比率回归

我们研究的现象常是多分类的,如职业的选择等,这时需要用多项对数比率回归处理。多项对数比率回归是简单对数比率回归的扩展,由一组对数比率方程组成。常用的做法是基准类比法,即先选出基准类,然后将它的概率与其它各类的概率进行对比。假如要研究一个或一组自变量X如何影响人们对J类职业选择,用P1,P2……Pj表示各类职业的概率,那么多项对数比率回归就可表示为:2021/5/920

需要注意的是:1)就系数解释和检验而言,多项对数比率回归和简单对数比率回归相同。2)方程组在统计上不独立,必须同时估算,不可一一求解。2021/5/921SPSS上的应用:1)Analyze—Regression—MultinomialLogistic2)Dependent——用于选入无序多分类的因变量3)Factor——用于选入分类自变量,可以是有序或无序多分类,系统会自动生成虚拟变量。4)Covariates——用于选入连续型的自变量。选择系统默认值,点击OK钮,运行所选命令5)结果解释数据汇总与模型的似然比检验。拟合优度检验(Pearson,Deviance检验)。参数估计结果。2021/5/922七、定序变量对数比率

当因变量是定序变量,变量值之间具有高低之分时,在设计logit模型时,就应考虑到其中所包含的信息。通常有三种处理方法:邻类比、升级比和累进比。1、邻类比邻类比是将所有相邻两类的概率两两相比,如果变量含有J个有序类别,就可得到J-1个不重复对数比率方程。假如用P1,P2……Pj表示一个定序变量由低到高各级类别的概率,设X是一个或一组自变量,那么对数邻类比回归就是:

2021/5/923

对于定序变量,常常假设升级的作用是一样的,即在方程组中,各个方程的斜率项是相同的,β1=β2=……=βj-1,上式可表示为:2021/5/9242、升级比

用P1,P2,……Pj表示一定序变量由低到高各级类别的概率,那么对数升级比回归就是:2021/5/925

例如升学率的研究。将学校依等级高低分为小学、初中、高中和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。升级比在统计上是各自独立的,因而可以对照简单对数比率回归一一估算。加总各独立升级比率回归的对数似然比和自由度,即总模型的对数似然比和自由度。2021/5/926对数升级比回归的编码示例教育程度升小学升初中升高中升大学小学以下0---小学以下0---小学以下0---小学10--小学10--小学10--初中110-初中110-初中110-高中1110高中1110高中1110大学1111大学11112021/5/9273、累进比2021/5/928对数累进比率回归示例——收入等级分析(Nee1991)

自变量模型(1)模型(2)进顶层P1/(p2+p3)避免底层(p1+p2)/p3进顶层P1/(p2+p3)避免底层(p1+p2)/p3截距-.525**.865***-8.244***-3.500**教育--.238***.155***户首年龄--.207*.127*户首年龄平方---.002*-.001*成年劳动力--.613***.242**子女数目--.214.204*现任干部1.515*1.470*1.2631.192前任大队干部1.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论