第三部分Logistic回归SPSS与SAS_第1页
第三部分Logistic回归SPSS与SAS_第2页
第三部分Logistic回归SPSS与SAS_第3页
第三部分Logistic回归SPSS与SAS_第4页
第三部分Logistic回归SPSS与SAS_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复习:1.多元统计分析中指标的量化法2.多元线性回归分析的数据结构与模型3.多元线性回归分析的具体任务4.筛选变量的常用方法5.多元线性回归分析的实现方法

1.多元统计分析指标的量化法:(1)二分类(2)无序多分类(3)有序多分类2.多元线性回归分析的数据结构与模型:3.多元线性回归分析的具体任务1)采用最小二乘法原理确定方程中系数bii=0,1,2,3…p;2)采用F检验对回归方程整体进行假设检验;3)采用t检验对方程中的每个系数bi进行假设检验。4)结合专业给出合理的解释。4.筛选变量的常用方法向前法(forwardselection)后退法(backwardselection)逐步回归法(stepwiseselection)5.多元线性回归的实现过程操作过程:Analyze---Regression---Linear---y选入Dependent---x1、x2、X3选入Independent---Stepwise---options--oklogisticregressionanalysisLogistic回归内容:(一)基本概念和原理

1.应用背景

Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。

设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。2、Logistic回归模型的数据结构表1Logistic回归模型的数据结构实验对象yX1X2X3….XP

1y1a11a12a13…a1p

2y2a21a22a23…a2p

3y3a31a32a33…a3p

nynan1an2an3…anp

━━━━━━━━━━━━━━━━━━

表2肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区101030020014613100351………………30100261

注:是否患病中,‘1’代表否,‘0’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。

表3配对资料(1:1)对子号病例对照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2

Logistic回归

--Logistic回归与多重线性回归联系与区别联系:

用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等.区别:

线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布.3、Logistic回归模型

令:y=1

发病(阳性、死亡、治愈等)

y=0

未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:可知,不发病的概率为:

经数学变换得:定义:为Logistic变换,即:

4、回归系数βi的意义

流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:故对于样本资料OR=exp()95%置信区间为:可见是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数5.假设检验(1)回归方程的假设检验H0:所有H1:某个计算统计量为:G=-2lnL,服从自由度等于n-p的分布(2)回归系数的假设检验H0:H1:计算统计量为:Wald,自由度等于1。(二)Logistic回归类型及其实例分析

1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例对照研究时,要用非条件Logistic回归。实例1

某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,‘1’代表否,‘0’代表是.性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟.地区中,‘1’代表农村,‘0’代表城市。试分析各因素与肺癌间的关系。表4肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区101030020014613100351………………30100261注:是否患病中,‘1’代表否,‘0’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。Datalog1;Infile’log1.dat’;-----------读取数据Inputnyx1-x4@@;-----------指出变量Proclogistic;----------调logistic回归模块modely=x1;run;-----------作单变量(x1)分析Proclogistic;modely=x2;run;Proclogistic;modely=x3;run;Proclogistic;modely=x4;run;Proclogistic;modely=x1-x4;run;------------作多变量分析dataa;infile'd:/a.xls';inputabyx1-x22;要导入()Procprint;Run;proc

logistic;modely=x1-x4;run;

表6

单因素Logistic回归分析结果

模型号变量系数标准误Wald卡方P值

1X11.70470.80064.53440.03322X22.56490.93647.50290.00623X30.14280.04679.34090.00224X4-0.27190.73870.13550.7128

结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.表7多元Logistic回归分析结果变量系数标准误Wald卡方P值INTERCPT-9.754.095.660.02X12.521.821.920.17X23.981.984.060.04X30.190.085.670.02X4-1.301.580.680.41

由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.SPSS操作步骤:Analyze-----Regression-----BinaryLogistic-----Dependent框(y)-----Covariates框(x1,x2,…)------ok非条件Logistic回归

SPSS操作步骤:

结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.单因素分析的结果多因素分析的结果

由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.2.条件logistic回归分析配对设计的类型:1:1、1:m、n:m(可采用分层COX模型来拟合)。例如:某市调查三种生活因素与胃癌的关系,资料见表5。表5配对资料(1:1)对子号病例对照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2datalog2;inputnoyx1x2x3;---输入变量cards;10130(对子号、病人、x1、x2、x3)11101(对子号、对照、x1、x2、x3)2003121130..101000;procphreg;------调用实现条件

Logistic回归和COX回归模块modely=x1;------作单变量分析stratano;run;procphreg;modely=x1-x3;------作多变量分析stratano;run;配对Logistic回归SPSS操作步骤:Analyze-----Survival----COXRegression-----Time框(outcome)-----Status框(Status)-----DefineEvent:Singlevalue1:continue-----Covariates框(x1、x2、x3)-----Strata框(id)---Options---atlaststep------ok3、逐步Logistic回归分析(1)向前法(forwardselection)

开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值P(0.05)。(2)后退法(backwardselection)

开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值p(0.10)。

(3)逐步回归法

逐步引入-剔除法(stepwiseselection)

前进逐步引入-剔除法是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法Backward:后退法变量移出方程所采取的检验方法:Conditional;LR;Ward(尽量不用)二分类Logistic回归method中文名称剔除依据Enter全部进入Forward:conditional向前逐步条件参数估计似然比PForward:LR向前逐步最大偏似然估计似然比PForward:Wald向前逐步Wald统计量PBackward:conditional向后逐步条件参数估计似然比PBackward:LR向后逐步最大偏似然估计似然比PBackward:Wald向后逐步Wald统计量PLogistic回归—检验方法

似然比检验(likelihoodratiotest)记分检验(scoretest)Wald检验三种方法比较通常应用似然比检验结果相对较可靠.在小样本情况下记分的分布根接近于卡方分布,所以记分检验导致的第Ⅰ类错误的可能性要小一些.Wald检验在计算和使用上较容易.但是结果略偏于保守.通常在样本较大时三种检验的结果是一致的.SPSS软件实现方法

File→Open→相应数据(已存在)→Statistics→Regression→BinaryLogistic→Dependent(y)→Covariates(自变量)→Mothod(逐步回归方法)→Specifymodel(单因素或多因素)→save(欲保存的内容)→Options(输出选项)→OK

调试法:P从大到小取值0.5,0.1,0.05…,一般实际用时,Enter、Remove应多次选取调整解释

设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。当bi>0时,对应的优势比(oddsratio,记为ORi):ORi=exp(bi)>1,说明该因素是危险因素;当bi<0时,对应的优势比ORi=exp(bi)<1,说明该因素是保护因素。

Logistic回归—回归系数解释1.如果考察的自变量是定性的

此时计算的exp(βi)是该定性变量取相邻两个等级时的比数比。

βi>0,即exp(βi)>1:表明该变量每上一个等级比数比就在原来的基础上扩大exp(βi)倍;

βi<0,即exp(βi)<1,表明该变量每下一个等级比数比就在原来的基础上减低1/exp(βi)倍;

Logistic回归—回归系数解释

2.考察的自变量是定量的

此时计算的exp(βi)是在其他变量保持不变的情况下,该变量每增加一个单位比数比(OR值)就增加exp(βi)倍。

βi>0,即exp(βi)>1:表明该变量每增加一个单位比数比就在原来的基础上扩大exp(βi)倍;

βi<0,即exp(βi)<1,表明表明该变量每减少一个单位比数比就在原来的基础上降低1/exp(βi)倍;Logistic回归—标准回归系数解释

如果比较各自变量对反应变量Y的贡献爱女大小时,需要消除量纲的影响.可以先将各自变量标准化后再进行Logistic回归,然后比较各自变量的回归系数的大小,即可判断各自变量对Y的贡献大小.各自变标化后得到的回归方程的回归系数就称为标准回归系数,其可以直接用于比较各自变量对反应变量的贡献大小.一般程序直接给出标准回归系数.

Logistic逐步回归结果

ParameterStandardWaldPr>RiskVariableDFEstimateErrorChi-SquareChi-SquareRatio

X211.22180.84102.11070.14633.393

X312.29471.80721.61240.20429.922

采用Logistic逐步回归:Proclogistic;modely=x1-x3/nointselection=stepwiseale=0.5sls=0.3;Run;Block1:Method=ForwardStepwise(LikelihoodRatio)

在本例中不良饮食习惯X2,取值:0、1,2、3,b=3.021,OR=20.505,表示不良饮食习惯是危险因素;精神状况X3,取值:0、1、2,b=0.054,OR=1.161,表示精神状况不良影响发病,是危险因素。4.Logistic回归--Logistic回归种类成组资料的非条件Logistic回归配对资料的条件Logistic回归两分类反应变量的Logistic回归多分类有序反应变量Logistic回归多分类无序反应变量Logistic回归1:1配对资料的条件Logistic回归1:m配对资料的条件Logistic回归n:m配对资料的条件Logistic回归Logistic回归分析注意

自变量是多分类(n)无序变量时,需要先转换成n-1个哑变量,以哑变量进行分析。自变量为连续变量时回归系数的解释。连续自变量是否转换成分组变量视具体情况而定;

现对乳腺癌患者的数据进行分析,其中的变量包括年龄(age)、患病时间(time)、肿瘤扩散等级(pathscat)、肿瘤大小(patsize)、肿瘤史(histgrad)和癌变部位的淋巴结是否含有癌细胞In_yesno,建立一个模型,对癌变部位的淋巴结是否含有癌细胞的情况进行预测.SPSS程序操作analyze—regression—binarylogisticdependent:In_yesnocovariates:agepathscatpathsizetimehistgrad(自(协)变量)method:entercatergorical:pathscathistgrad(多分类协变量)changecontrast:referencecatergoryfirst--chang(多分类协变量类间多重比较及比较方法选择)---continue--ok二分类Logistic回归—多重比较的方法Indicator—第一类或最后一类为参照类,每一类与参照类比较Simple------除参照类外,每一类与参照类比较Difference-除第一类外,每一类与其前各类的平均

效应比较,有称反HelmertHelmert----除最后一类外,每一类与其后各类的平均Repeated—相邻两类比较,除第一类外,每类与其前一比较Polynominal—正交多名义分类比较,该法假设每一分类都有相等的空间,仅适于数值变量Deviation—除参照类外,每一类与总效应比较二分类Logistic回归—多重比较的方法Referencecatergory—

参照类的选择,有第一类和最后一类两种选择。Indicator、Simple、Deviation方法可选第一类,也可选最后一类。二分类Logistic回归—频数资料分析例成组病例-对照研究。在饮酒与食道癌的病例-对照研究中,考虑到年龄可能是混杂因素,按年龄分层后资料整理如下变量标示ID病例:1对照:0Drink饮酒:1不饮酒:0Age年龄1(25-34),2(34-44),3(45-54),4(55-64),5(65-74),6(75-85)二分类Logistic回归—频数资料分析表饮酒与食道癌关系的研究资料年龄组病例对照饮酒不饮酒饮酒不饮酒1(25-34)2(35-44)3(45-54)4(55-64)5(65-74)6(75-85)合计1091064526164252129138423427138193618885803196104109665二分类Logistic回归—频数资料分析频数加权:DATA--WEIGHTCASES--WEIGHTCASESBYFREQ--OKANALYZE—REGRESSION—BINARYLOGISTICDEPENDENT:IDCOVARIATES:DRINK,AGE

MTHOD:ENTERCATERGORICAL:AGECHANGENTRASTREFERENCECATERGORYFIRST--CHANGE------CONTINUE-----OKLogistic回归—

多分类有序Logistic回归(BinaryLogisticRegression)特征

因变量是多(k水平)分类有序变量;每个水平建立一个回归方程;自变量是连续变量或分类变量.多分类有序Logistic回归--实例分析例研究性别和两种治疗方法对某疾病疗效的影响。疗效的评价分为3个有序等级:显效、有效和无效,资料见下表,试用有序分类logistic模型进行分析疗效与性别和治疗方案的关系。多分类有序Logistic回归--实例分析表性别和两种治疗方法对某病疗效的影响性别女X1=0新药疗法(X2=0)165627治疗方法疗效(Y)显效(Y=1)有效(Y=2)无效(Y=3)合计传统疗法(X2=1)671932新药疗法(X2=0)52714传统疗法(X2=1)101011男X1=1DATA--WEIGHTCASES--WEIGHTCASESBY–FREQ----OK

ANALYZE--REGRESSION--ORDINAL…--DEPENDENTID----COVARIATESEX,TREAT--------OKLogistic回归—多分类无序Logistic回归特征

因变量是多(水平)分类且各水平之间没有递增或递减关系,即反应变量是多分类名义变量;每个水平建立一个回归方程;自变量是连续变量或分类变量.方法

拟合一个通用Logistic模型(generallogisticmodel).多分类无序Logistic回归—实例分析例1992年美国总统选举的数据,候选人为Bush(布什)、Perot(帕罗特)、Clinton(克林顿),评价分析不同选民的投票情况。因变量:pred92自变量:edu:受教育程度degree:学历sex:性别多分类无序Logistic回归—实例分析变量标示因变量:

Pres921=Bush2=Perot3=Clinton自变量:sex1=famlae,2=maleedu0=高中以下1=高中2=大专3=学士4=研究生多分类无序Logistic回归—实例分析SPSS程序操作Analyze—Regression—MultinomialLogistic-----Depenfent:Pres92-----Factor:sexedu--------OK例3实战练习据报道目前全世界每年的自杀率为10/10万,我国自杀率为23/10万,我国高校自杀率则为2/10万。为了了解当代大学生综合素质现状、为了进行提高大学生综合素质的对策研究,利用中国现场统计研究会教育统计与管理专业学会设计的《中国大学生综合素质调查问卷》,采用分层整群抽样,选择了不同年级、不同性别、不同专业以及不同生源的医学大学生554名的调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论