




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Logistic回归(因变量为二分变量/二项分布)probit回归Poisson
(因变量为poisson分布)第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况现在是1页\一共有49页\编辑于星期一Logistic回归(因变量为二分变量/二项分布)probit回归Poisson
(因变量为poisson分布)第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况现在是2页\一共有49页\编辑于星期一概念logistic回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。最常用的是二值型logistic,即因变量的取值只包含两个类别例如:好、坏
;发生、不发生;常用Y=1或Y=0表示。自变量X称为危险因素或暴露因素,可为连续变量、等级变量、分类变量,可有m个自变量X1,X2,…Xm。P表示Y=1的概率,是其他变量的一个函数。【p(Y=1|X)表示在X的条件下Y=1的概率】
logistic回归的数学表达式为:
现在是3页\一共有49页\编辑于星期一logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。也可以分为logistic回归和条件logistic回归现在是4页\一共有49页\编辑于星期一令因变量两个水平对应的值为0、1,概率为1-p、p,则显然我们也可以用多重回归进行分析?为什么要用logistic回归分析?logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同?因变量为二分变量时既可以用logistics回归也可以用probit回归,那么probit回归及其与logistic回归的异同之处问题现在是5页\一共有49页\编辑于星期一问题1:p(y=1)表示某暴露因素状态下,结果y=1的概率(P)模型。或模型描述了应变量p与x的关系现在是6页\一共有49页\编辑于星期一P概率10.5Z值0123-1-2-3图1Logistic回归函数的几何图形现在是7页\一共有49页\编辑于星期一线性回归在处理有上限和下限的因变量时面临着一个问题:X上同样的变化对Y产生的影响不同,由图1也可以直观的看出这里并不适合进行线性回归。虽然有很多非线性的函数可以呈现S形,但由于Logit转化比较简易,所以更受欢迎。现在是8页\一共有49页\编辑于星期一现在是9页\一共有49页\编辑于星期一Logit与概率不同,它没有上下限。比数去除了概率的上限,比数的对数去除了概率的下限;且是以0,5为中点对称的,概率大于0.5产生正的logit,logit距离0的距离反映了概率距离0.5的距离;概率上相同的改变与在logits上产生的改变是不同的,logit转化拉直了X与最初的概率之间的非线性关系。现在是10页\一共有49页\编辑于星期一回归系数的意义:Logistic回归中的回归系数表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归中的常数项表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同。问题2:现在是11页\一共有49页\编辑于星期一
模型评估(1)Hosmer-Lemeshowz指标
HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。(2)AIC和SC指标即池雷准则和施瓦茨准则
与线性回归类似AIC和SC越小说明模型拟合的越好(3)似然比卡方出
从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihoodratiotest)进行检验
(4)RSQUARE(R^2)和C统计量
解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过R^2和C统计量进行度量现在是12页\一共有49页\编辑于星期一统计量
趋势
拟合
作用
备注
AIC
、SC
越小
越好
类似于多元回归中的残差平方和
似然比卡方
越大
越好
类似于多元回归中的回归平方和
P值越小越好
RSQUARE
越大
越好
类似于多元回归中的R^2
C统计量越大越好度量观测值和条件预测的相对一致性
HL统计量越小越好度量观测值和预测值总体的一致性
P值越大越好
说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和SQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。现在是13页\一共有49页\编辑于星期一参数估计
现在是14页\一共有49页\编辑于星期一现在是15页\一共有49页\编辑于星期一除此以外,logistic回归还可以用优势比估计:现在是16页\一共有49页\编辑于星期一案例:现在是17页\一共有49页\编辑于星期一在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。观察例数现在是18页\一共有49页\编辑于星期一OR值OR的95%CI对偏回归系数的假设检验现在是19页\一共有49页\编辑于星期一现在是20页\一共有49页\编辑于星期一logistic回归模型的假设检验
现在是21页\一共有49页\编辑于星期一现在是22页\一共有49页\编辑于星期一3.比分检验(scoretest)
以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(logistic回归模型特有)一般与它相一致,但两者均要求较大的计算量;而Wald检验(相当于广义的t检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。现在是23页\一共有49页\编辑于星期一概率p值均小于0.05,说明方程有意义。对所拟合模型的假设检验:现在是24页\一共有49页\编辑于星期一变量筛选
现在是25页\一共有49页\编辑于星期一例某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。
现在是26页\一共有49页\编辑于星期一用逐步回归法拟合模型,变量选入和剔除水平均为0.10指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。现在是27页\一共有49页\编辑于星期一现在是28页\一共有49页\编辑于星期一logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。现在是29页\一共有49页\编辑于星期一条件Logistic回归对配对/比调查资料,应该用条件Logistic回归分析。对于配比资料,第i个配比组可以建立一个Logistic回归:假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。现在是30页\一共有49页\编辑于星期一可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。现在是31页\一共有49页\编辑于星期一
1.疾病(某结果)的危险因素分析和筛选
用回归模型中的回归系数(βi)和OR说明危险因素与疾病的关系。适用的资料:
前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。三类研究计算的logistic回归模型的β意义是一致。仅常数项不同。(证明略)logistic回归的应用现在是32页\一共有49页\编辑于星期一2.校正混杂因素,对疗效做评价在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。3.预测与判别预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。现在是33页\一共有49页\编辑于星期一问题3
如同logistic回归,probit分析依赖于将二分因变量上的回归转化成连续因变量上的回归。给定经历某事件或者具有某特点的概率,预测的probit变成了一个由一个或者多个自变量所决定的线性方程的因变量:Z代表了利用累积标准正态分布将概率转为z分数的非线性转化。通过用一个线性方程来预测z分数,probit分析暗含了一个与概率的非线性关系,与曲线的极限比,因变量在接近曲线中点时对概率有更大的影响。现在是34页\一共有49页\编辑于星期一
在logistic回归中我们可以利用简单的公式来总结将概率变成比数对数的转化以及比数对数变成概率的转化。对于probit分析,标准正态分布曲线的复杂公式让这一切难度更大(尽管用计算机可以很容易得到)。除了logit与probit转化当中的一些相似性,它们两个所得出的系数会有一个随意的常数(约1.8)的区别。(由于软件程序中probit分析将误差项的标准差定为1,而logistic分析将误差项的标准差大约定为1.814)logitic系数大约是probit系数的1.8倍,将logistic系数除以这个值可以让二者的单位具有可比性,但是由于logistic和正态曲线不同,所以logitic系数和probit系数依然会有小小的不同。但是基本上,logistic分析和probit分析得出的结果在本质上都是相似的。与logistic回归一样,probit分析也利用最大似然估计进行参数估计,且估计过程与logistic回归一模一样。但与logistic回归不同的是,这里使用的是累积标准正态分布所以不能从自变量和估计参数得到因变量的p值。且为了计算更简单一些,程序是让似然数的自然对数取最大值而非让似然函数取最大值。系数含义及对整个模型的评估和检验与logistic回归的内容大同小异probit分析与logistic回归只是因变量的转化方式不同以及因此产生的细小差异现在是35页\一共有49页\编辑于星期一Logistic回归(因变量为二分变量/二项分布)probit回归Poisson(因变量为poisson分布)第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况现在是36页\一共有49页\编辑于星期一概念
Poisson回归:用来为技术资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是Poisson分布,并假设它期望值的对数可被未知参数的线性组合建模。Poisson回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。
分类数据表现为离散的计数,服从Poisson分布现在是37页\一共有49页\编辑于星期一因变量Y服从Poisson分布,期望值为(Poisson分布变量的方差也是)如果有一个解释变量x,可以写出如下回归模型:这里g是一个连接函数(linkfunction),通常取log函数,因此得到对数线性模型可写成:现在是38页\一共有49页\编辑于星期一Poisson回归模型是描述服从Poisson分布的目标变量y的均数与协变量关系的回归模型。对数线性模型解释变量xi增加一个单位,增加现在是39页\一共有49页\编辑于星期一单位率的模型可写作
N称作偏移(offset),log(N)被用做偏移量;当所有协变量都无作用时,等于N现在是40页\一共有49页\编辑于星期一Poisson分布下模型的似然函数对于低发生(病)率的开放性队列研究资料,由于di服从Poisson分布,其概率函数为:其中di是随机变量,可取值为di=1,2,…,其期望发生数i=nihi()。回归模型的似然函数为Poisson分布条件下各个格子概率函数的总概率(积)。L()=现在是41页\一共有49页\编辑于星期一参数估计
两侧取对数,回归模型的对数似然函数为:lnL()=
对数似然函数中的未知参数可以用迭代重复加权最小二乘法(简称IRLS法)估计,它与通常的极大似然估计结果一致。也可用极大似然估计法现在是42页\一共有49页\编辑于星期一模型拟合度与参数检验偏差统计量
Poisson回归模型拟合好坏用偏差统计量(deviance)表示,偏差统计量实际上是对数似然比统计量,它是饱和模型(saturatedmodel)和拟合模型对数似然值差的两倍,其在Poisson分布条件下的计算公式为:现在是43页\一共有49页\编辑于星期一参数检验参数检验可通过两个包含不同参数个数模型的偏差统计量G2的差(G2)和自由度的差(df)来实现,当G2>时,P<0.05,该参数(因素)有统计学意义。G2
现在是44页\一共有49页\编辑于星期一Poisson回归实现(Genmod过程)Genmod过程:通过对参数向量进行最大似然估计来拟和广义线性模型,采用迭代拟和过程估计参数的值。
GENMOD过程用于广义线性模型分析。广义线性模型是传统线性模型的的延伸,它的总体均数通过一个非线性连接函数依赖于线性预测值,反应变量(误差项)的概率分布为指数分布族中的任何一员。有许多广泛应用的统计模型都属于广义线性模型,包括带正态误差的经典线性模型、Logistic回归模型、概率单位模型和对数线性模型等。现在是45页\一共有49页\编辑于星期一例:英国男性医生冠心病死亡与抽烟关系研究的资料,请
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中式餐厅转让合同范本
- 产品配方转让合同范例
- 公司代经营合同范例
- 2024年重庆市大足区妇女联合会招聘笔试真题
- 化肥品牌转让合同范本
- 书宣传推广合同范本
- 企业燃气合同范本
- 公寓铺子转让合同范本
- 个人首套房屋购买合同范本
- 化工购销合同范本
- 地理-浙江省强基联盟2025年2月高三年级联考试题和答案
- 公路工程节后复工安全教育
- 小王子-英文原版
- T-CHTS 10021-2020 在役公路隧道长期监测技术指南
- AQ/T 2061-2018 金属非金属地下矿山防治水安全技术规范(正式版)
- 北师大版六年级下册书法练习指导教案教学设计
- 2024年济南护理职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 《饲料质量安全管理规范》培训2022年
- 新概念二册课文电子版
- 文献检索与毕业论文写作PPT完整全套教学课件
- 管理学原理(南大马工程)
评论
0/150
提交评论