13-多重线性回归、Logistic回归_第1页
13-多重线性回归、Logistic回归_第2页
13-多重线性回归、Logistic回归_第3页
13-多重线性回归、Logistic回归_第4页
13-多重线性回归、Logistic回归_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验11多重线性回归、Logistic回归spss过程第一节多重线性回归分析3一、方法简介

1.1分析目的与方法选择研究一个因变量与一个自变量间的线性关系时,简单线性回归分析研究一个因变量与多个自变量间的线性关系时,多重线性回归分析研究多个因变量与多个自变量间的线性关系时,多元多重线性回归分析4一、方法简介1.2概念用回归方程定量地刻画一个因变量与多个自变量之间的线性依存关系,称为多重线性回归分析(multiplelinearregressionanalysis)。自变量是相互独立的连续型变量或分类变量。

一、方法简介1.3数据结构表1进行多重线性回归分析资料的数据结构5编号X1X2…XkY1X11X12…X1kY12X21X22…X2kY2:::::nXn1Xn2…XnkYn6二、基本原理

2.1原理简介多重线性回归模型:

Y=b0+b1X1+b2X2+…+bkXk+e=bX+e

其中,bj(j=0,1,2…

,k)为未知参数,e为随机误差项。7二、基本原理2.1原理简介多重线性回归模型中包含多个自变量,它们同时对因变量Y发生作用。

若要考察一个自变量对Y

的影响,就必须假设其他自变量保持不变。8二、基本原理

2.1原理简介因此,多重线性回归模型中的回归系数为偏回归系数。

它反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y的均值的影响。9二、基本原理

2.2前提条件

多重线性回归分析要求资料满足线性(Linear)、独立性(Independence)、正态性(Normality)和方差齐性(Equalvariance),即LINE条件。

除此之外,还要求多个自变量之间相关性不要太强。

10二、基本原理

2.2前提条件线性——指自变量与因变量之间的关系是线性的独立性——指各观测值之间是相互独立的正态性——指自变量取不同值时,因变量服从正

态分布方差齐性——指自变量取不同值时,因变量的方

差相等11三、分析步骤1.基本任务

求出模型中参数的估计值,对模型和参数进行假设检验;对自变量进行共线性诊断,对观测值进行异常值诊断;结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。

四、多重线性回归分析的

注意事项

1.

多重回归分析的条件线性(linear)、独立(independent)、正态(normal)和等方差(equalvariance)。“LINE”。2.

作多重回归分析时,应注意样本含量一般应使记录数(case)达到自变量数的10~20倍。3.

作多重回归分析时,决定系数R2很重要一般R2很小的方程实际意义不大。

4.

多重回归分析时,应避免选择Enter法,最好选择stepwise法。5.

不能直接使用回归系数bi相互比较回归作用大小,而应该使用标准化系数bi'(standardizedcoefficient)。6.

作多重逐步回归分析时,应事先确定自变量入选和剔除的α值的界限一般采取“严进宽出”的原则。即入选时,α=0.05,剔除时,α=0.10。

7.

多重回归分析时,必须结合资料的专业实际意义来选择不同的自变量入选和剔除的α值的大小。8.

多重回归分析时,应注意统计上的“最优”与专业上的“最优”的区别

不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的准确性、共线性等影响。这么多条条框框!

9.

多重回归分析时,应注意自变量的数量化问题。

Ⅰ.

自变量为连续型变量(常直接用即可,必要时作变换)Ⅱ.

自变量为有序变量(依次赋值,如疗效好中差,可分别赋值

3、2、1)Ⅲ.

自变量为二分类(可令男=1,女=0)Ⅳ.

自变量为名义分类[需要采用哑变量(dummyvariables)

进行编码]

名义分类变量的哑变量化

假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:举例姓名性别sex年龄职业(J)J1J2J3J4张三男119学生0001李四女025商人0010王五男130军人0000赵六女040农民0100钱七女036工人1000孙八男130商人0010刘九男126军人0000

10.作多重回归分析时,应注意多重共线性(Multi-collinearity)问题自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。识别回归系数的符号与专业知识不符;变量的重要性与专业不符;R2高,但各自变量对应的回归系数均不显著;方差膨胀因子(VarianceInflationFactors,VIF)>10。对策筛选自变量用主成分回归岭回归

11.

多重回归分析时,残差分析(Residualanalysis)也是模型诊断不可缺少的过程。12.

多重回归分析时,应特别注意异常点对模型的影响

对于少于3个自变量的多重回归分析,可以通过直观的二维或三维散点图(ScatterPlot)

在分析前检查。什么时候完啊!例

为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定30名患者的体重指数BMI(kg/m2)、病程、瘦素LEP(ng/ml)、空腹血糖FPG(mmol/l)及脂联素水平。五、实例1、定义变量,输入数据考察线性1、散点图矩阵graphs→scatter/Dot…→matrixscatter2、自变量与残差的散点图graphs→scatter/Dot…→simplescatter选择enter,(选入全部变量)描述两两相关(简单相关)模型的基本情况四个自变量全部选入的复相关系数、决定系数、调整决定系数、标准误方差分析结果,模型有意义系数(回归系数b、b的标准误、标准回归系数、t值、p值)2、分析Analyze----regression---linear

因变量:脂联素

自变量:其他四个变量全部选入

method:选择逐步stepwise模型基本情况(每一步引入模型的变量,纳入、剔除自变量的水准0.05、0.10)模型概况

第一行,引入一个变量

第二行,引入两个变量方差分析

1,引入一个变量

2,引入两个变量选择菜单Analyze-Regression-Linear,出现窗口:(2)选择被解释变量进入Dependent框。(3)选择一个或多个解释变量进入Independent(s)框。(4)在Method框中选择回归分析中解释变量的筛选策略。①Enter表示所选变量强行进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;②Remove表示从回归方程中剔除所选变量;③Stepwise表示逐步筛选策略;④Backward表示向后筛选策略;⑤Forward表示向前筛选策略。(5)第三和第四步中确定的解释变量及变量筛选策略可放置在不同的块(Block)中。通常在回归分析中不止一组待进入方程的解释变量和相应的筛选策略,可以单击Next和Previous按钮设置多组解释变量和变量筛选策略并放置在不同的块中。(6)选择一个变量作为条件变量放到Selection

Variable框中,并单击Rule按钮给定一个判断条件。只有变量值满足判定条件的样本才参与线性回归分析。(7)在CaseLabels框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回归分析的输出图形中。9.5.2线性回归分析的其他操作1.Statistics按钮可供用户选择更多的输出统计量。(1)Estimates:SPSS默认输出项,输出与回归系数相关的统计量:回归系数(偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的容忍度。(2)ConfidenceIntervals:输出每个非标准化回归系数95%的置信区间。(3)Descriptive:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。(4)Modelfit:SPSS默认输出项。输出以下结果:判定系数、调整的判定系数、回归方程的标准误差、回归方程显著F检验的方程分析表。(5)Rsquaredchange:输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。(6)Partandpartialcorrelation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。(7)Covariancematrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。(8)CollinearityDiagnostics:多重共线性分析。输出各个解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等。(9)Residual框

①Durbin-waston表示输出DW检验值;

②CasewiseDiagnostic表示输出标准化残差绝对值大于等于3(SPSS默认值)的样本数据的相关信息,包括预测值、残差、杠杆值等。可供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式。2.Options选项(1)[UseprobabilityofF]:以偏F统计量的概率值为标准判断解释变量能否进入或剔除回归方程。(2)[useFvalue]:以偏F统计量的临界值为标准判断解释变量能否进入或剔除回归方程。(3)[includeconstantinequation]:是否进行中心化处理,即方程中是否包含常数项。3.Plot选项该选项用于对残差序列的分析(1)窗口左边框中各变量名的含义:

①DEPENDNT表示被解释变量,②*ZPRED表示标准化预测值,③*ZRESID表示标准化残差,④*DRESID表示剔除残差,⑤*ADJPRED表示调整的预测值,⑥*SRESID表示学生化残差,⑦*SDRESID表示剔除学生化残差。(2)绘制多对变量的散点图,可根据需要在scatter框中定义散点图的纵坐标和横坐标变量。(3)StandardizedResidualPlots框①Histogram:绘制标准化残差序列的直方图;②Normalprobabilityplot:绘制标准化残差序列的正态分布累计概率图。③Produceallpartial

plots:依次绘制被解释变量和各个解释变量的散点图。(1)该窗口的功能是将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。(2)PredictedValues框:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。(3)predictionintervals框:保存均值或个体预测值95%(默认)置信区间的下限值和上限值。(4)Residual框:保存非标准化残差、标准化残差等。(5)InfluenceStatistics框:保存剔除第i个样本后统计量的变化量。5.WSL选项采用加权最小二乘法替代普通最小二乘法估计回归参数,并指定一个变量作为权重变量。4.Save选项以高校科研研究数据为例,建立回归方程研究

1.课题总数受论文数的影响2.被解释变量—课题总数,解释变量—投入人年数(X2)投入高级职称的人年数(X3)投入科研事业费(X4)专著数(X6)论文数(X7)获奖数(X8)(1)解释变量采用强制进入策略(Enter),并做多重共线性检测。(2)解释变量采用向后筛选策略让SPSS自动完成解释变量的选择。

9.6应用举例第二节Logistic回归第10章非参数检验内容基本概念基本步骤基本操作基本结果解释数据分析的背景计量资料单因素统计分析对于两组计量资料的比较,一般采用t检验或秩和检验。对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。数据分析的背景单因素的分类资料统计分析,一般采用Pearson

2进行统计检验,用OddsRatio及其95%可信区间评价关联程度。考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。Logistic回归模型按研究设计分类非配对设计:非条件Logistic回归模型配对病例对照:条件Logistic回归模型按反应变量分类二分类Logistic回归模型(常用)多分类无序Logistic回归模型多分类有序Logistic回归模型基础知识通过下例引入和复习相关概念例如:研究患某疾病与饮酒的关联性患病率P1=a/m1P2=b/m2基础知识Odds(优势)P越大,则Odds越大;P越小,则Odds越小并且0<Odds<+

基础知识P与Odds一一对应对于两个Odds的比较,一般用它们的Ratio,并称为OddsRatio(OR),其定义如下:其样本估计统计量为基础知识

故比较两个率<==>比较OR=1?OR>1?OR<1?(二分类)Logistic回归模型因为0<Odds<+

所以-

<ln(Odds)<+

对ln(Odds)引入类似多重线性回归的表达式Logistic回归模型记:故可以写为也可以写为回归系数的意义以x1的回归系数

1为例固定其它自变量,比较x1与x1+1的ln(Odds)变化。对于x1,对于x1+1,反对数变换得到多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。回归系数的意义适用条件反应变量为二分类变量或某事件的发生率;自变量与logit(P)之间为线性关系;残差合计为0,且服从二项分布;各观测间相互独立。logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查。例1SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作哑变量设置哑变量设置为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么结果容易造成错误的解释。分类变量必须转化。如地区对血压的影响。等级资料,当等级之间量度不一时必须转化,如正常,超重和肥胖连续资料不宜直接进入方程时,转化为等级资料或分类资料SPSS哑变量设置IndicatorSimpleDifferenceRepeated参照分类为0,其余为1,即各分类与参照分类比较除第一类分类外,各分类与其之前平均分类效应比较SPSS哑变量设置Helmert与Difference相反,各水平与其之后水平的平均效应比较Deviation:除参照分类外,各水平与分类的总效应比较Polynomial正交多项式设置自动设置哑变量是有缺点的等级变量不合适哑变量设置应注意的问题参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。SPSS基本操作SPSS基本操作模型拟合优度指标,P值越大越好迭代过程参数估计的相关矩阵,均<0.80,提示各协变量间相互独立校正混杂作用实例2:上例没有考虑吸烟情况,故将吸烟作为分层加入,资料如下:SPSS基本操作同例1逐步回归分析在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。逐步回归为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。逐步Logistic回归无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:所有变量一次全部进入方程。向前法后退法逐步回归前进法:

最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值<

,每引入一个变量,重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。逐步回归后退法:最开始时,把所有的变量引入模型,然后逐次把P值最大并且P<

的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P<

为止。逐步Logistic回归Forward:Conditional(较可靠)Forward:LRForward:Wald(应当慎用)Backward:Conditional(较可靠)Backward:LRBackward:Wald(应当慎用)例3例3探讨冠心病发生的有关危险因素。x1:年龄,x2:高血压史,x3:家庭史,x4:吸烟,x5:高血脂史,x6:脂肪摄入,x7:BMI,x8:A型性格,y:发生与否x1x2x3x4x5x6x7x8x9y131010011022011001003210100100…………………………逐步选择法三种向前逐步法,协变量引入检验均基于score统计量删除变量基于条件估计的似然比删除变量基于最大偏似然估计似然比删除变量基于Wald统计量条件logistic回归匹配设计(matcheddesign)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论