社会统计分析方法(第二版) 课件 第7、8章 泊松回归、对数线性模型_第1页
社会统计分析方法(第二版) 课件 第7、8章 泊松回归、对数线性模型_第2页
社会统计分析方法(第二版) 课件 第7、8章 泊松回归、对数线性模型_第3页
社会统计分析方法(第二版) 课件 第7、8章 泊松回归、对数线性模型_第4页
社会统计分析方法(第二版) 课件 第7、8章 泊松回归、对数线性模型_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章泊松回归数」风流人物,还靠泊松回归|协和八/s?src=11×tamp=1530963933&ver=984&signature=kaUuB*Mp-XihJlnmaDk6YgL2ehBbsp0oKKeqBM0OXY59Ye1SouU2DYXHYIKxhItcFeRTFyRCIVfquZ67FlUgvntL8upsHXPsrEJpY6blo*zc6BCbgUxgpErdFzQWPlmZ&new=1知识之窗社会和行为科学研究中,经常会遇到一类特殊的变量。比如,成年人一生中结婚的次数、大学本科生就读期间谈恋爱的次数、育龄妇女生育的孩子数、过去半年上医院看病的次数、一个社区过去一年发生的盗窃案件数、城市道路十字路口在过去一周内出现的交通事故数、一个国家出现大规模工人罢工的次数。此类变量还有很多,统计学上将其称作计数变量。它们有一个共同的特征:所测量的是一定时间或空间内某个事件出现的次数。①因此,计数变量只能取离散的非负数值,即0,1,2,…,而且实际情形中,取值的个数往往是有限的。一、常规回归不适用于计数因变量对于计数因变量,通常的做法是将其作为取值连续的间距变量对待,采用常规最小二乘法进行模型估计。但是,任何统计方法都有其内在假定和所要求的数据条件。这些假定和数据要求主要是针对因变量而言的,而针对自变量的假定和要求往往很少。常规最小二乘回归亦是如此。所以,将计数自变量视为间距变量直接纳入线性回归几乎不会有任何太大的问题。但有一点值得提醒。计数变量的取值往往限于若干非负的整数值,取值范围很窄,计数自变量本身的变异很小,这意味着其方差可能会很小,那么将其纳入线性回归用常规最小二乘法估计的系数将会很不稳定和具有较大的标准误。①但是,当计数变量作为因变量时,采用常规最小二乘回归进行分析就可能会出现更为严重的问题。(一)导致有偏且无效的统计检验(二)线性函数的不合理性首先,因为并没有对自变量犡的取值范围加以限定,对回归系数犅犽和误差项ε同样也没有加以限定,那么,基于回归得到的因变量预测值理论上就可以是任意值,包括负数。但是,计数变量的取值只能为非负的整数。可见,若采用常规最小二乘回归来分析计数因变量,由于设定的是一种线性函数关系,那么,随着自变量取值的变化,可能会得到没有意义的回归预测值。其次,因为所设定的关系是线性函数,故意味着在一定时间或空间范围内事件发生次数为0和1之间的差别与10和11次之间的差别是一样的,也就意味着自变量犡的边际影响是固定不变的。但是,对于计数因变量而言,这个内在隐含的假定往往并不符合实际。真实的关系往往是非线性的,而线性关系在大多数情况下甚至都不能作为一个合理的工作假定。二、泊松分布单变量泊松分布是理解计数回归模型的基础。因此,有必要先认识一下泊松分布。泊松分布的发现者是法国数学家泊松。泊松最初从贝努里提出的二项分布基础上近似推导出这种分布,因此该分布以他的名字命名为泊松分布。设μ为一定时间或空间狋内某事件的期望发生次数。同时,设犢是一个随机变量,其取值狔表明观测到的事件发生次数。有时候,事件发生的观测次数狔会小于期望发生次数,或者甚至根本没有发生,而其他时候其观测发生次数往往会大于期望次数。三、泊松回归当观测案例很多时,通过允许每一观测案例具有不同期望事件发生次数μ,便可将泊松分布扩展成泊松回归。四、模型的参数估计五、模型拟合评价与模型比较所谓模型拟合评价指的是评估回归模型对观测数据的拟合优度(goodnessoffit)如何,也就是观测值与拟合值之间的差别如何。完整的拟合评价实际上应包括两个方面的内容:一方面是针对单个观测案例犻的拟合程度的分析,属于案例别拟合度考察;另一方面则是将回归模型作为一个整体来进行数据拟合程度的分析,属于模型整体拟合度考察。(一)以残差为基础的指标(二)以似然函数值为基础的指标(三)以信息标准为基础的指标还有一类评估泊松回归模型拟合度的指标是以信息标准为基础建构的。这类指标可用来比较不同模型对观测数据拟合的优劣。而且,与上面提到的偏差度统计量只能用于对存在嵌套关系的模型进行比较不同,以信息标准为基础的指标可对任意一对模型之间的拟合优度进行比较,只要是针对同一因变量进行分析,而并不要求模型之间存在嵌套关系。六、模型回归系数的解释解释和理解泊松回归系数有多种不同的方式。采用何种方式取决于研究者究竟是对计数变量的期望值还是对计数取值的分布感兴趣。如果对期望值感兴趣的话,有多种方法可以用于计算某个自变量一定程度的变化量所带来的计数变量期望值的变化。这种变化既可以用期望值的倍数变化来表达,也可以用百分比变化来表达,甚至还可以用期望值的边际变化来表达。其中,最常用的解释方法是计算倍数变化。因为这一解释方法非常直观,也容易理解。如果对计数的分布或者某个具体计数值的概率感兴趣,则可以计算出给定某个自变量取值水平处某个计数的概率。下面分别对此进行介绍。(一)关注条件均值的解释第一种,倍数变化第二种,百分比变化第三种,边际变化(二)关注预测概率的解释七、统计检验与推断前面已经介绍过有关参数解释的内容,我们已经知道如何解释和说明回归参数估计值所代表的具体含义,即自变量与计数因变量之间的关系。不过,到现在为止,仍然是就样本说样本,对于随机样本所对应的总体而言,仍然无法判断参数估计值所反映的自变量与因变量之间的关系在相应总体中是否存在。而社会和行为科学研究的目的往往是通过考察抽样样本来推知研究总体,或者,基于小规模样本得到针对更大规模总体的一般性结论。为了实现此目的,常用的方式是对参数估计值进行正规的统计检验,用以考察样本数据中发现的自变量与因变量之间的关系应该是源于抽样误差还是总体中也确实存在,从而完成以样本结果推断总体的任务。(一)对模型整体的检验泊松回归模型整体检验关注的是基于样本数据所确立的自变量与因变量之间的关系在总体中是否真实存在,或者说所设定的模型在总体中是否也对计数因变量的变异具有解释力。由于并不存在一个诸如多元线性回归中的犚2那样的模型整体拟合指标,故与logistic回归中一样,泊松回归中也是通过对数似然函数值的比较来进行模型整体检验的。(二)对回归系数的检验对回归系数的检验可区分为两种情形,一种是针对单个回归系数的检验,另一种是对回归系数子集的联合假设检验。前面logistic回归中也曾介绍过这两种情形的回归系数检验。八、示范例题本章例题所用数据取自2001年“全国计划生育/生殖健康调查”。该调查由原国家计划生育委员会于2001年7月实施,旨在回顾2001年之前若干年全国育龄妇女(即调查时15~49岁的妇女)的生育水平,掌握当时育龄人口的避孕情况和生殖健康现状及需求,了解基层计划生育技术服务机构的情况。调查内容涉及社区及人口的基本情况(出生年月、民族、受教育程度、婚姻状况、初婚年月等)、育龄妇女的生育、避孕、生殖保健情况等。但这里只涉及育龄妇女个体数据,以示范以SPSS进行泊松回归中的有关操作。(一)例1:居住地区与年龄对育龄妇女曾生子女数的影响1查看模型选择、案例选取、缺失值处理等方面处理是否得当2模型拟合与检验的相关信息3回归参数估计值、标准误及对应的显著性检验结果等(二)例2:检查纳入地区与年龄交互项的必要性上面的例子中,只考虑了地区和年龄变量的主效应。但是,考虑到不同地区的育龄妇女在年龄结构上可能不一样,那么探究是否需要纳入地区与年龄变量的交互项就变得有意义。(三)例3:偏移量offset的设定以上两例分析中均忽略了不同年龄育龄妇女的暴露期不同的事实,即同样是曾生过2个子女的妇女,如果从15岁算起,有的经历10年的育龄期,有的则经历了15年的育龄期。为了考虑这种差别,我们将每个妇女育龄期的自然对数作为偏移量对曾生子女数进行泊松回归。(四)例4:以泊松回归估计生育率前面讲到,通过对模型进行适当设定,主要是考虑不同观测案例犻的风险期或暴露量狋犻的影响,泊松回归还可用来对人口学、流行病学中关注的生育率、死亡率、迁移率、患病率等便利地进行统计分析。郭志刚和巫锡炜(2006)曾介绍过如何基于人年数据应用泊松回归来拟合估计年龄别生育率。(五)例5:以泊松回归估计城乡生育率上面的举例只是针对2000年全国的情况。但是,因为政策和社会经济发展水平上的差异,导致城乡育龄妇女之间在生育水平上存在明显的差别。那么,我们如何以泊松回归估计出城镇和乡村的年龄别生育率呢?为此,我们只需在例4估计2000年全国年龄别生育率的模型设定基础上,再将城乡变量rural纳入模型即可,即拟合一个包含d5age和rural两个自变量的泊松回归模型。(六)例6:以含交互项的泊松回归估计城乡生育率(七)例7:以泊松回归估计队列生育率由于生育史信息被改造成了人年数据,其中又包含妇女出生年份变量(即图7—1中的birthyr),所以,这份数据就包含了出生队列、时期和年龄三方面的信息。因此,除了方便地估计上述时期生育率之外,基于泊松回归还可以非常方便地估计队列的累积生育率。对于15岁至49岁生育率均完整的队列,就得到了终身生育率。与前面估计城乡生育率的情形类似,估计队列生育率也就是将生育率表达成年龄(fertage)与队列(birthyr)两个变量的函数。下面将以估计1955年、1965年和1975年三个出生队列育龄妇女的队列生育率做示例。基本概念计数变量等离散计数回归模型泊松分布风险期暴露量成比例假定偏移量对数率模型拟合优度残差分析皮尔逊卡方统计量截距模型当前模型饱和模型偏差度赤池信息标准贝叶斯信息标准倍数变化发生率之比百分比变化边际变化似然比完全模型简化模型标化偏差度标化皮尔逊卡方本章要点1.计数变量是社会和行为科学研究中经常会遇到的一类变量,它的取值往往为有限个非负整数值,表示所关注事件在特定时间或空间范围内的发生次数。2.分析计数因变量时不适宜应用常规线性回归方法,通常采用的统计模型是泊松回归,它假定因变量服从泊松分布,并将期望计数的对数表达为一组自变量的函数。3.对于泊松回归,回归系数的解释有不同的形式:倍数变化、百分比变化和边际变化。4.通过恰当的设定,泊松回归可方便地用来对生育率、死亡率、迁移率、患病率等人口学、公共卫生、流行病学关心的率指标进行估计和统计分析。参考文献郭志刚,巫锡炜.泊松回归在生育率研究中的应用.中国人口科学,2006(4).巫锡炜.中国步入低生育率:1980—2000.北京:社会科学文献出版社,2012.第八章对数线性模型SPSS教程:对数线性模型(进来看看交互项是咋回事)/s?src=11×tamp=1530965028&ver=984&signature=lms5OeK2oA8bURoCqAqrJ58HHb7qYpd7k1CT81isXVymUNXH8i37VBlggboWBsnAn2xnCduJ4GrsilH3EBNk4CfHUBwhxeassZQPK2rGG0Qa9PWRWuk0hqgJDskTHFr7&new=1知识链接对数线性模型之一(逻辑回归),广义线性模型学习总结/lilyth_lilyth/article/details/10032993知识之窗本书所介绍的其他多元分析方法大多都要求全部变量或一部分变量为间距测度等级,然而本章所介绍的对数线性模型技术则是应用于纯粹分类变量的多元统计方法。第一节通过对常规交互表分析方法缺点的讨论,来概括对数线性模型对于分类变量分析的重要发展。第二节借助一个简单的交互表数据介绍对数线性模型的基本原理,以及如何在广义线性模型框架下以SPSS进行对数线性模型分析。第三节以实际调查数据为例简要示范了如何应用SPSS软件进行对数线性模型分析。第四节讨论对数线性模型与logistic回归之间的关系。一、从常规交互表分析到对数线性模型分析(一)传统交互表分析的缺点传统的分类变量统计方法是采用简单的频数或频率的交互表分析,也有一些测量相关的指标以及相应的统计检验方法。这种分析方式存在着很多内在局限性。1.失去了对多变量之间的交互联系的分析2.在进行两个变量之间的关联分析时缺乏必要的统计控制3.不能准确定量描述一个变量对另一个变量的作用幅度(二)对数线性模型的发展本章介绍的对数线性模型正是在上述三个方面取得了显著进展的技术方法。它通过数学方法来描述多元频数,同时囊括多个分类变量于一个模型之中,因而具有了多元统计分析的综合性。这一重大进展使得对数线性模型既可以在控制其他分类变量的条件下研究两个分类变量之间的关联,又可以将多元联合分布分解成具体的各项主效应和各项交互效应,即使是多因素交互效应也不会被遗漏。这种方法还能够以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异,因此具有了定量测量自变量作用幅度的能力。最后,它还具有强大的统计检验能力,不仅能够对所有参数估计进行检验,使得抽样数据的分析结果得以推断总体,而且能够通过不同模型的统计检验结果,对备选模型进行筛选和评价,以确定不但具有最大解释能力而且又相对简单的模型。二、对数线性模型基础本节主要以二维交互表为例来介绍对数线性模型的基本原理,包括交互表的类型和结构、交互表的独立性检验和关联关系测量、交互表的对数线性模型化以及对数线性模型的建模策略等内容。这里的介绍可以直接扩展到三维及更多维交互表的情况。(一)交互表的类型简单地讲,交互表就是两个或多个分类变量交叉得到的频数联合分布。因此,任何一个交互表都可以看成是两个或多个分类变量可能取值(即类别)得到的交互分类,并且在每一交互分类对应的单元格中给出了相应的观测频数。(二)交互表的结构我们以表8—1所示的一个简单的2×2交互频数表作为例1来说明交互表的结构及其一般性的标示符号。例1的数据是虚构的,只服务于示例说明。对于说明交互表的基本结构而言,一个简单的交互表就够了。(三)独立性的卡方检验前面提到,交互表中的联合分布是对分类变量间关联的一种呈现。因此,交互表分析中,研究者往往首先关注行变量与列变量之间是否存在关联。如果不存在关联,就称行变量和列变量之间独立。虽然交互表是对样本数据进行汇总得到的结果,但是,和其他形式的样本观测数据一样,交互表中频数的联合分布也会受到抽样误差的影响。那么,观测频数可能会表现得比潜在模式下的期望频数更为不规律。因此,需要在排除抽样误差的情况下,对交互表行变量与列变量之间的独立性进行评价。这就是交互表的独立性检验。行变量与列变量之间不存在关联的独立性假设往往是对数线性建模的起点。(四)交互表的对数线性模型化将交互表对数线性模型化有几个好处。首先,这可以将交互表分析纳入广义线性模型方法中来进行。其次,它具有与多元回归模型类似的形式,即包含截距、主效应、交互效应,甚至包括协变量。再次,不同效应之间是加和形式,这易于分析结果的理解和说明。最后,还可以很容易地看到对数线性模型与优势比或比数比之间的关系。1.一般性设定除了通过前述的皮尔逊χ2检验来对交互表的关联结构进行分析之外,一种更具一般性的方法就是对数线性模型。相比于χ2检验,对数线性模型的优势在于能够对关联结构的具体模式或高维交互表进行分析2.若干特殊模型我们已经知道,对于二维的犐×犑交互表,式(8)包含了所有的效应,因此,它是一个最一般的二维交互表对数线性模型。从中,我们可以将其分解为以下更为简单但实际意义不同的模型。3.参数的规范化约束对于式(7)或式(8)中的所有参数,并不都能得到唯一解,因为它们是过度参数化的。4.优势比与对数线性模型(1)发生比与优势比(2)对数优势比与对数线性模型参数之间的联系5.采用SPSS拟合对数线性模型(1)模块选择说明(2)以广义线性模型模块拟合对数线性模型的操作简介6.模型拟合评价与比较与其他统计方法相比,模型拟合评价与比较在应用对数线性模型时往往更为重要。因为以对数线性模型分析交互表往往可以拟合出一系列的模型,这些模型分别对应着不同的关联结构。三、例2:夫妇的教育程度匹配分析四、对数线性模型与logistic类回归模型之间的联系对数线性模型以及前面章节所介绍的logistic回归、序次logistic回归及多项logistic回归模型都是专门针对关注的结果变量属于分类变量的情形,而且它们都同属于广义线性模型一族。事实上,它们之间存在着密切的联系,甚至可以说它们之间是相互等价的。下面,我们来简要说明对数线性模型与logisitic回归、多项logistic回归和序次logistic回归模型之间的联系。(一)对数线性模型与logistic回归之间的联系因此,对数线性模型和logistic回归其实是以不同的方式做相同的事情。差别在于对数线性模型并未明确将是否领取独生子女证这一行变量设为因变量,但通过重新组织其参数估计结果也可以明确反映此关系。(二)对数线性模型与多项logistic回归模型之间的联系若以行变量作为结果变量,那么,对数线性模型表达行变量边缘效应的系数就是多项logit模型各结果类别的截距项系数,而表达交互效应的系数则分别对应着列变量在多项logit模型中相应结果类别下的回归系数。(三)对数线性模型与logistic回归模型之间的联系由于序次logistic回归模型的因变量属于定序变量,因此它实际上可以比多项logistic回归模型和对数线性模型更精细。比如,当自变量为分类变量时,序次logistic回归模型可在使用行效应、列效应、统一关联等的对数线性建模框架内加以设定。小结本章只是非常简单、扼要地介绍了对数线性模型分析,所涉及的内容并不全面,所提及的应用实例也很有限。对数线性模型分析往往需要采用专门的统计软件,比如LEM、LatentGold等,SPSS虽在这方面显得有点捉襟见肘,但简单的应用还是能够应付的。不过,对数线性模型分析已经被广泛应用于社会流动、婚姻匹配、人口迁移等诸多研究领域。而且,它不仅可以用定类变量形成的交互表,也常常应用于定序变量所形成的交互表的分析。基本概念交互表主效应交互效应联合分布关联观测频数边缘合计总计期望频数联合比例边缘比例条件比例卡方检验独立模型皮尔逊卡方广义线性模型规范化零模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论