《多元统计分析-基于R(第3版)》课件 第6章-广义线性模型_第1页
《多元统计分析-基于R(第3版)》课件 第6章-广义线性模型_第2页
《多元统计分析-基于R(第3版)》课件 第6章-广义线性模型_第3页
《多元统计分析-基于R(第3版)》课件 第6章-广义线性模型_第4页
《多元统计分析-基于R(第3版)》课件 第6章-广义线性模型_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/7/31主编:费宇1主编:费宇中国人民大学出版社2024/7/31主编:费宇2第6章广义线性模型6.1广义线性模型的定义6.2Logistic模型6.3Probit模型6.4多项Logit模型6.5泊松对数线性模型6.6零膨胀计数模型6.7多项分布对数线性模型2024/7/31主编:费宇36.1

广义线性模型的定义第5章我们研究了多元线性模型,该模型的一个重要假定是因变量是连续型的变量(通常假定服从正态分布),但在许多情况下,这种假定并不合理,例如下面这两种情况.(1)结果变量可能是类型变量.二值分类变量和多分类变量.(比如:是/否,差/一般/良好/优秀等)显然都不是连续型变量.2024/7/31主编:费宇46.1广义线性模型概述(2)结果变量可能是计数型变量(比如:一周交通事故的数目)这类变量都是非负的有限值,而且它们的均值和方差通常是相关的(一般线性模型假定因变量是正态变量,而且相互独立).普通线性回归模型(5.3)假定因变量y服从正态分布,其均值满足关系式:μ=Xβ,这表明因变量的条件均值是自变量的线性组合.本章介绍六种常见的广义线性模型:Logistic模型、Probit模型、多项Logit模型、泊松对数线性模型、零膨胀计数模型和多项分布对数线性模型.2024/7/31主编:费宇56.1广义线性模型的定义1.广义线性模型的定义:(1)随机成分:设y1,y2,…,yn是来自于指数分布族的随机样本,即yi的密度函数为其中ai(.),b(.),ci(.)是已知函数,参数αi是典则参数,ϕ是散度参数.2024/7/31主编:费宇61.广义线性模型的定义:(2)连接函数:设yi的均值为μi而函数g(.)是单调可微的连接函数,使得其中是协变量,是未知参数向量.指数分布族正态分布二项分布泊松分布2024/7/31主编:费宇72024/7/31主编:费宇82.正态线性回归模型正态分布属于指数分布族,其密度函数为与(6.1)对照可知2024/7/31主编:费宇92.正态线性回归模型只要取连接函数为,则正态线性回归模型满足广义线性模型的定义.类似的,容易验证,二项分布和泊松分布都属于指数分布族.下面介绍实际中应用广泛的Logistic模型、Probit模型、多项Logit模型、泊松对数线性模型、零膨胀计数模型和多项分布对数线性模型.2024/7/31主编:费宇106.2Logistic模型1.模型定义 设yi服从参数为pi的二项分布,则μi=E(yi)=pi采用逻辑连接函数,即这个广义线性模型称为Logistic模型.2024/7/31主编:费宇11例6.1(数据文件为eg6.1)表6-1

某城市48个家庭的调查数据2024/7/31主编:费宇122.模型的参数估计和检验采用R软件中的广义线性模型过程glm()可以完成回归系数的估计,以及模型回归系数的显著性检验.程序如下:#例6.1广义线性模型:Logistic模型setwd("C:/data")#设定工作路径d6.1<-read.csv("exam6.1.csv",header=T)#将exam6.1.csv数据读入到d6.1中glm.logit<-glm(y~x1+x2,family=binomial(link=logit),data=d6.1)#建立y关于x1,x2的logistic回归模型,数据为d6.1summary(glm.logit)#模型汇总注意逻辑连接函数是二项分布的典则连接函数,是默认的连接函数,因此代码中的(link=logit)可以省略.2024/7/31主编:费宇13运行以上程序可得如下结果:Call:glm(formula=y~x1+x2,family=binomial(link=logit),data=d6.1)DevianceResiduals:Min1QMedian3QMax-2.30297-0.198320.022830.202511.59258Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-7.531152.56352-2.9380.00331**x10.439560.138643.1700.00152**x2-0.081031.24747-0.0650.94821---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.643on45degreesoffreedomAIC:23.643NumberofFisherScoringiterations:82024/7/31主编:费宇14注意到x2对应的p值(0.948)比较大,即x2不显著,所以考虑采用逐步回归.glm.step<-step(glm.logit)#逐步回归summary(glm.step)#给出模型回归系数的估计和显著性检验等运行以上程序可得如下结果Start:AIC=23.64y~x1+x2

DfDevianceAIC-x2117.64721.647<none>17.64323.643-x1159.00863.008

Step:AIC=21.65y~x1

DfDevianceAIC<none>17.64721.647-x1161.10563.105>summary(glm.step)#给出模型回归系数的估计和显著性检验等2024/7/31主编:费宇15Call:glm(formula=y~x1,family=binomial(link=logit),data=d6.1)DevianceResiduals:Min1QMedian3QMax-2.28859-0.197030.022760.204001.60887

Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-7.56822.5101-3.0150.00257**x10.43960.13873.1690.00153**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

(Dispersionparameterforbinomialfamilytakentobe1)

Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.647on46degreesoffreedomAIC:21.647

NumberofFisherScoringiterations:8模型预测如果要预测年收入为20万元(x1=20)、家里有孩子(x2=1)的家庭有购买住房的可能性,可以采用以下命令:>yp<-predict(glm.step,data.frame(x1=20))>p.fit<-exp(yp)/(1+exp(yp));p.fit#估计x1=20时y=1的概率10.7728122容易看出,当x1=20,x2=1时,估计y=1的概率约为0.77,即年收入为20万元、家里有孩子的家庭有购买住房的可能性约为77%.2024/7/31主编:费宇166.3Probit模型2024/7/31主编:费宇176.3Probit模型:例6.1(续)2024/7/31主编:费宇18运行以上程序可得如下结果:Call:glm(formula=y~x1,family=binomial(link=probit),data=d6.1)

DevianceResiduals:Min1QMedian3QMax-2.2493-0.15220.00180.17681.6024

Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-4.340281.27539-3.4030.000666***x10.249890.069443.5990.000320***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

(Dispersionparameterforbinomialfamilytakentobe1)

Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.349on46degreesoffreedomAIC:21.349

NumberofFisherScoringiterations:92024/7/31主编:费宇192024/7/31主编:费宇206.4多项Logit模型2024/7/31主编:费宇21例6.2某城市48个家庭的调查数据2024/7/31主编:费宇22问题:根据这个数据建立多项分布回归模型并估计年收入为20万元、家里有孩子的家庭有购买住房但还在还贷款的可能性.解:采用nnet程序包中的multinom()可以完成多项logit模型的拟合.#例6.2广义线性模型:多项分布回归模型library(nnet)setwd("C:/data")d6.2<-read.csv("exam6.2.csv",header=T)d6.2$x2<-as.factor(d6.2$x2)#将x2这一列因子化mlog<-multinom(y~x1+x2,data=d6.2)#建立模型summary(mlog)#查看所拟合的模型2024/7/31主编:费宇23运行以上程序可得如下结果:Call:multinom(formula=y~x1+x2,data=d6.2)Coefficients:(Intercept)x1x22-7.4438920.4329375-0.067896533-17.3785220.7438569-0.57429520Std.Errors:(Intercept)x1x222.5703380.13962821.24601334.4477300.18612381.704516ResidualDeviance:37.79579AIC:49.79579注意到x2对应标准误相对于x2的系数比较大,所以估计x2可能不显著,采用step()函数对模型进行逐步回归.2024/7/31主编:费宇24mlog.s<-step(mlog)#对mlog进行逐步回归summary(mlog.s)#查看所拟合的模型运行以上程序可得如下结果:Call:multinom(formula=y~x1,data=d6.2)

Coefficients:(Intercept)x12-7.4794080.43324433-17.2933710.7313709

Std.Errors:(Intercept)x122.5180900.139753034.4241140.1834096

ResidualDeviance:37.98674AIC:45.986742024/7/31主编:费宇252024/7/31主编:费宇262024/7/31主编:费宇272024/7/31主编:费宇28估计48个家庭最可能属于3类家庭中的哪一类?2024/7/31主编:费宇296.5泊松对数线性模型1.模型的定义设y服从参数λ为的泊松分布,则μ=E(y)=λ,采用对数连接函数,即这个广义线性模型称为泊松对数线性模型.2024/7/31主编:费宇30例6.3(数据文件为eg6.3)表6-3

Breslow癫痫数据2024/7/31主编:费宇31例6.3(数据文件为eg6.3)这个数据是robust包中的Breslow癫痫数据(Breslow,1993).我们讨论在治疗初期的八周内,癫痫药物对癫痫发病数的影响,响应变量为八周内癫痫发病数(y),预测变量为前八周内的基础发病次数(x1),年龄(x2)和治疗条件(x3),其中治疗条件是二值变量,x3=0表示服用安慰剂,x3=1表示服用药物.根据这个数据建立泊松对数线性模型并对模型的系数进行显著性检验.2024/7/31主编:费宇322.模型的参数估计和检验采用R软件中的广义线性模型过程glm()来建立泊松对数线性模型并对模型的系数进行显著性检验.程序如下:#例6.3广义线性模型:泊松对数线性模型setwd("C:/data")d6.3<-read.csv("exam6.3.csv",header=T)#将exam6.3.scv数据读入到d6.3中glm.ln<-glm(y~x1+x2+x3,family=poisson(link=log),data=d6.3)#建立y关于x1,x2,x3的泊松对数线性模型summary(glm.ln)#模型汇总,给出模型回归系数的估计和显著性检验等泊松分布的默认连接函数是对数连接函数,因此代码中的(link=log)可以省略.2024/7/31主编:费宇33运行以上程序可得如下结果:Call:glm(formula=y~x1+x2+x3,family=poisson(link=log),data=data6.3)DevianceResiduals:Min1QMedian3QMax-6.0569-2.0433-0.93970.792911.0061Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)1.94882590.135619114.370<2e-16***x10.02265170.000509344.476<2e-16***x20.02274010.00402405.6511.59e-08***x3-0.15270090.0478051-3.1940.0014**Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:2122.73on58degreesoffreedomResidualdeviance:559.44on55degreesoffreedomAIC:850.71NumberofFisherScoringiterations:52024/7/31主编:费宇342.模型的参数估计和检验于是得回归模型:从检验结果可以看出:x1和x2的系数都显著,说明基础发病次数(x1),年龄(x2)和治疗条件(x3)对八周内癫痫发病数(y)重要影响.年龄(x2)的回归系数为0.0227,表明保持其他预测变量不变,年龄增加1岁,癫痫发病数的对数均值将相应的增加0.0227.2024/7/31主编:费宇352.模型的参数估计和检验在因变量的初始尺度(癫痫发病数,而不是癫痫发病数的对数)上解释回归系数比较容易,因此,指数化系数:可以看出:保持其他预测变量不变,年龄增加1岁,癫痫发病数将乘以1.023;治疗条件变化一个单位(即从安慰剂到药物),癫痫发病数将乘以0.86,换言之,保持基础癫痫发病数和年龄不变,服药相对于安慰剂组癫痫发病数降低了14%.>exp(coef(glm.ln))(Intercept)x1x2x3

7.02044031.02291021.02300070.85838646.6零膨胀计数模型2024/7/31主编:费宇366.6零膨胀计数模型2024/7/31主编:费宇37例6.4(数据文件为eg6.4)2024/7/31主编:费宇38例6.4:血友病数据解:先读入数据并查看变量deaths死亡人数的分布:>#例6.4血友病数据:先读入数据并查看变量deaths>setwd("C:/data")>d6.4<-read.csv("exam6.4.csv",header=T)#将exam6.4.xls数据读入到d6.4中>table(d6.4$deaths)#查看变量deaths

012345618332126228621>barplot(table(d6.4$deaths))#画条形图2024/7/31主编:费宇392024/7/31主编:费宇40如果不考虑零膨胀问题,直接采用泊松对数线性模型来拟合数据,程序如下:#例6.4血友病数据:直接采用泊松对数模型setwd("C:/data")d6.4<-read.csv("exam6.4.csv",header=T)#将exam6.4.csv数据读入到d6.4中hiv<-factor(d6.4$hiv)#将变量hiv因子化fac<-factor(d6.4$factor)#将变量factor因子化a1<-glm(deaths~hiv+fac+age+py,family=poisson(link=log),data=d6.4)#建立deaths关于hiv,fac,age,py的泊松对数线性模型summary(a1)#模型汇总,给出模型回归系数的估计和显著性检验等2024/7/31主编:费宇412024/7/31主编:费宇422024/7/31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论