预防统计软件概论课件_第1页
预防统计软件概论课件_第2页
预防统计软件概论课件_第3页
预防统计软件概论课件_第4页
预防统计软件概论课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计软件概论主讲人陶育纯7学时:402006.10.10103预防统计软件概论7第七讲课程名称:统计软件主要教材:

«SPSSforWindowsVer.11.5在医学统计中的应用»

马斌荣编著科学出版社年级、专业:2003级预防医学专业授课时间:2006年12月21日授课时数:2h2006.10.10203预防统计软件概论7目录第十章相关与回归一、一元线性相关与回归二、多元相关分析第十一章Logistic回归(介绍)三、多元线性回归(包括多元逐步回归)2006.10.10303预防统计软件概论7第十章相关与回归

一、一元线性相关与回归㈠使用命令

SPSS通过Analyze→Correlate

→Bivariate…分析完成对某资料的直线相关分析。SPSS通过Analyze→Regression

→Linear…分析完成对某资料的直线回归分析。注意:一元线性相关又称直线相关,一元线性回归又称直线回归。㈡例题及分析过程2006.10.10403预防统计软件概论7

下面通过对教材第149页例10.1的资料做直线相关与回归分析来讲述操作步骤及结果的判读。1.建立数据文件(见exp10.1.sav)

2.正态性检验及绘制散点图利用One-SampleKolmogorov-SmirnovTest分别对发硒变量(hairsi)和血硒变量(bloodsi)做正态性检验,其结果见表10.2。结果表明两变量均服从正态分布。使用Graphs→Scatter/Dot…→选择SimpleScatter→Define→打开SimpleScatterplot对话框,将bloodsi变量调入YAxis:栏中,将hairsi变量调入XAxis:栏中,→

OK完成散点图的绘制。从图10.1a上可以看出发硒与血硒存在2006.10.10503预防统计软件概论7直线变化趋势。

3.直线相关Analyze→Correlate

→Bivariate…打开BivariateCorrelations对话框,将双变量hairsi和bloodsi调入

Variables:栏中,→

OK完成。4.结果判读

输出结果见表10.3。表中显示了发硒与血硒的相关系数r=0.880,P<0.001。说明发硒与血硒存在直线相关关系。5.直线回归

Analyze→Regression

→Linear…打开Linear

2006.10.10603预防统计软件概论7Regression对话框,将bloodsi变量调入Dependent:栏中,将hairsi变量调入Independent(s):栏中,→

OK完成。6.结果判读

输出结果见表10.4~10.7。

表10.4中显示了回归采取的方法。本例采取的是Enter法,即所有自变量都进行分析。

表10.5显示了用方差分析对回归方程做的假设检验。本例F=34.156,P<0.001。说明回归方程有意义。

表10.6显示了回归方程中的系数及针对该系数所做的假设检验。本例截距(又称常数项)a=-6.943,hairsi变量的系数(即直线回归系数)b=0.239,则直线回归方程为:2006.10.10703预防统计软件概论7

表10.7显示了回归分析的一些其它统计信息(相关系数R、决定系数R2等)。本例R2=0.774(双侧)。关于教材第154页的“三、频数表资料的相关与回归”的内容自学。

二、多元相关分析

教材第161页第二节中所求得的多个变量之间的相关分析实质就是直线相关分析(双变量)的简单扩展。2006.10.10803预防统计软件概论7多个变量之间的相关分析得出的某两个变量之间相关系数只能反映单独某个变量a与单独某个变量b的密切联系程度,而不能考虑其它变量(c、d、…)对某个变量(a或b)的影响效应。若要扣除其它变量的影响后再求某两个变量之间相关系数,则称此相关系数为偏相关系数(partialcorrelationcoefficient),SPSS可以使用Analyze→Correlate

→Partial…完成偏相关分析。教材第161页例10.3的资料,若只做简单相关分析,操作步骤与直线相关分析几乎完全相同,唯一的区别就是把两个变量换成了六个变量(X1~X6)。分析结果见表10.19。2006.10.10903预防统计软件概论7其中体重(X1)与上臂围(X4)的Pearson相关系数r=0.866,P<0.001。说明二者相关。但如果求二者的偏相关系数=0.540,P=0.167>0.05(见表10.19a)。说明在控制身高、胸围、三头肌和肩胛下角四个变量下,体重与上臂围二者实际是不相关的。造成二者简单相关有意义的原因在于三头肌与上臂围是相关的,因为二者的Pearson’sr=0.681,

P=0.015<0.05,见表10.19。

建议在进行多个变量之间的相关分析时,要把简单相关分析和偏相关分析结合起来。2006.10.101003预防统计软件概论7多元线性回归是研究一个因变量(Dependent)和多个自变量(Independent)之间线性依存关系的统计方法。其模型表达式(常称多元线性回归方程)见下:其中bj为自变量Xj的偏回归系数(partialregressioncoefficient)。根据最小二乘法(leastsquaremethod)可以求出系数bj的大小。

SPSS通过Analyze→Regression

→Linear…分析完成对某资料的多元线性回归分析。

三、多元线性回归(包括多元逐步回归)2006.10.101103预防统计软件概论7下面通过对教材第166页例10.4的资料做多元线性回归分析来讲述操作步骤及结果的判读。1.建立数据文件(见exp10.4.sav)

2.适用条件判断略。3.多元线性回归分析(Enter)

Analyze→Regression

→Linear…打开LinearRegression对话框,将y变量(血红蛋白)调入Dependent:栏中,将x1、x2、x3变量(钙、铁、锰)调入Independent(s):栏中,→

OK完成。4.结果判读2006.10.101203预防统计软件概论7

输出结果见表10.22~10.25。

表10.22显示了多元回归采取Enter的方法。

表10.23显示了复相关系数R=0.802。

表10.24显示了用方差分析对多元回归方程做的假设检验。本例F=9.627,P=0.001<0.01。说明多元回归方程有意义。

表10.25显示了多元回归方程中的系数及针对每个系数所做的假设检验。本例x2变量(P<0.001)有统计学意义,

x1变量(P=0.053>0.05)和

x3变量(P=0.647>0.05)均无统计学意义。5.多元线性回归分析(调整)2006.10.101303预防统计软件概论7

由于出现两个没有统计学意义的自变量(x1与x3),因此在调整自变量的组成时,最佳策略是首先把最没意义的变量(x3)去掉,由其余变量(x1与x2)再重做多元线性回归分析。

具体操作步骤参见3.。6.结果判读

输出结果见表10.26~10.29。

表10.26显示了多元回归仍采取Enter的方法。

表10.27显示了复相关系数R=0.799。

表10.28显示了调整后的多元回归方程的假设检验。本例F=15.023,P<0.001。说明调整后的多元回归方程仍有2006.10.101403预防统计软件概论7意义。

表10.29显示了调整后的多元回归方程中的系数及针对每个系数所做的假设检验。本例

x1变量(P=0.047<0.05)和

x2变量(P<0.001)均有统计学意义。本例最后得到的优化的多元回归方程为:注意:在比较x1与x2的系数(0.053与0.032)对因变量的作用时,不能直接比,而应该选用标准化系数(StandardizedCoefficient

)进行比较。x1与x2的标准化系数分别为0.323和0.821,说明x2对因变量的作用要大于x1。2006.10.101503预防统计软件概论7

由于多元线性回归分析是研究一个因变量和多个自变量之间线性依存关系,而在多个自变量中,不一定每一个变量对因变量的影响都有统计学意义,因此需要通过某种方法寻找出一个最优化的多元回归方程,即能够使方程中的每一个自变量对因变量的影响都有统计学意义。多元逐步回归就是一个利用逐步(stepwise)选择有统计学意义的自变量的过程来获得最优化的多元回归方程的统计学方法。SPSS实现多元逐步回归的方法是在Analyze→多元逐步回归2006.10.101603预防统计软件概论7Regression

→Linear…打开LinearRegression对话框,

通过在Method:下拉框中点击选择stepwise来完成。下面通过对教材第166页例10.4的资料做多元逐步回归分析来讲述操作步骤及结果的判读。1.打开数据文件(见exp10.4.sav)2.多元逐步回归分析(Stepwise)

Analyze→Regression

→Linear…打开LinearRegression对话框,将y变量(血红蛋白)调入Dependent:栏中,将x1、x2、x3变量(钙、铁、锰)调入Independent(s):栏中,在Method:下拉框中点击选择stepwise,→OK完成。2006.10.101703预防统计软件概论73.结果判读

输出结果见表10.30~10.34。

表10.30中显示了多元逐步回归的步骤。第一步引进自变量x2,第二步引进自变量x1。二者使用的准则(Criteria)都是:引进的概率P≤0.050,剔除的概率P≥0.100。

表10.31显示了第一步引进自变量x2,R2=0.542;第二步引进自变量x2和

x1,R2=0.639。

表10.32显示了第一步引进自变量x2后的回归方程有意义(F=21.265,P<0.001);第二步引进自变量x2和

x1后的回归方程也有意义(F=15.023,P<0.001)。

表10.33显示了第一步引进自变量x2后的回归方程中相2006.10.101803预防统计软件概论7应系数的大小及其假设检验的结果(x2的系数b2=0.029,P<0.001;常数项(Constant)的系数

b0=-0.242,P=0.927);第二步引进自变量x2和

x1后的回归方程中相应系数的大小及其假设检验的结果(x2的系数b2=0.032,P<0.001;x1的系数b1=-0.053,P=0.047;常数项的系数

b0=1.567,P=0.542)。故本例题的回归方程为:

表10.34显示了多元逐步回归分析中每步未进入方程的自变量的情况。2006.10.101903预防统计软件概论7第十一章Logistic回归(介绍)

前述的多元线性回归分析是研究一个因变量和多个自变量之间线性依存关系,但它要求因变量和自变量都为定量数据,当因变量和自变量出现分类数据时,多元线性回归分析就不适用了。

Logistic回归是一个分析某个二分类(或多分类)因变量与多个自变量(包括分类变量、等级变量和数值变量)关系的有力工具。它常用于流行病学中研究疾病发生与危险因素间的关系,还可用于病因学的队列研究、病例-对照研究、临床诊断的判别模型、治疗效果评价等。2006.10.102003预防统计软件概论7

SPSS通过Analyze→Regression

→BinaryLogistic…命令完成二分类的因变量的Logistic回归。SPSS通过Analyze→Regression

→MultinomialLogistic…命令完成多分类的因变量的Logistic回归。

SPSS提供了六种筛选自变量的方法:forwardconditional,forwardLR,forwardWald,backwardconditional,backwardLR,orbackwardWald。其作用都差不多,但建议少用Wald检验。教材第189页例11.1的资料,作者采用先单因素分析对自变量进行筛选,再把筛选出有统计学意义的自变量引入Logistic回归中,选择Enter的方法是不合理的。因为单因2006.10.102103预防统计软件概论7素分析不能考虑变量之间的交互效应以及变量之间的相关性对因变量的影响。合理的步骤应该是:直接把所有研究者关心的变量列入Logistic回归分析的自变量列表里,选择一个合理的筛选变量的方法(如Forward:LR)进行分析。单因素分析的结果只能作为一个辅助分析的参考。对于例11.1的资料,作者先采取对定性变量(性别sex、手术方式pt、疾病部位da、手术中输血次数bn)分别和感染与否infect变量进行χ2检验来找出有统计学意义的变量,对定量变量(年龄age、红细胞压积hct、手术持续时间time、手术中失血量lb、手术中输血量bc)分别以感染与否infect变量分组进行t

检验来找出有统计学意义的变量,2006.10.102203预防统计软件概论7结果得到影响感染与否的自变量有:手术中输血量bc、疾病部位da和手术中输血次数bn。

注意的是:这里的分析没有考虑到的变量手术中输血次数bn与手术中输血量bc的专业相关性,这就会为以后的分析留下隐患。作者接着对上述三个变量进行Logistic回归分析,并选择Enter的方法。分析结果显示三个变量的Wald检验概率大小,手术中输血量bc的Wald检验概率P=0.977最大,因此接下来剔除bc再作了一次Logistic回归,结果显示最后剩下的两个变量:手术中输血次数bn和疾病部位da的Wald检验概率P均小于0.05,至此找到了影响感染与否的有统计2006.10.102303预防统计软件概论7学意义的自变量。若直接把上述作者涉及到的所有自变量列入Logistic回归的自变量列表里,选择一个合理的筛选变量的方法进行分析。操作步骤如下:

1.打开数据文件(见exp2.1.sav)2.Logistic回归分析(Forward:LR)

Analyze→Regression

→BinaryLogistic…打开LogisticRegression对话框,将因变量(infect)调入Dependent:栏中,将自变量sex、age、hct、pt、da、time、lb、bn、bc调入Covariates:栏中,在Method:下拉框中点击选择Forward:LR,→OK完成。2006.10.102403预防统计软件概论73.结果判读

输出主要结果见表11.25~11.28。

表11.25显示了Block0区引入常数项的统计结果。本例常数项有统计学意义(Wald值=18.669,P<0.001)。

表10.26显示了Block0区未引入的所有自变量的得分检验(ScoreTest)结果。实质就是单因素分析结果。本例从结果中可以看出bc、da和bn均有统计学意义,结论与作者相同。

表10.27显示了Block1区也就是采取逐步向前似然比检验法[ForwardStepwise(LikelihoodRatio)]对所有自变量的筛选结果。最后一步(Step2)的输出结果是Logistic回归2006.10.102503预防统计软件概论7分析最重要的,因为它提供了优化后的最终回归方程的相关信息。有最终筛选出的自变量、变量系数(B)、标准误(S.E.)、Wald卡方值(Wald)、自由度(df)、P值(Sig.)以及Exp(B)(即OR值)。本例最终筛选出的自变量是da和bc。

表10.28显示了Block1区每步未引入的所有自变量的得分检验(ScoreTest)结果。上述结果与作者的做法截然不同。原因在于手术中输血次数bn与手术中输血量bc在专业上是相关的,而选择bc要比bn要科学合理。关于多分类的Logistic回归分析的实现方法请参见2006.10.102603预防统计软件概论7思考题

1.

为什么在做直线相关与回归分析时,必须先绘制散点图(Scatterplot)?

2.一元线性相关与回归、多元线性相关与回归和Logistic回归分析的区别。SPSS的相关参考书。C2006.10.102703预防统计软件概论72006.10.102803预防统计软件概论7输出结果表10.22006.10.102903预防统计软件概论72006.10.103003预防统计软件概论7图10.1a2006.10.103103预防统计软件概论7此项作用为在相关系数上用符号标记显著性水平。注意:PearsonCorrelationCoefficient就是直线相关系数r。2006.10.103203预防统计软件概论7输出结果表10.3发硒与血硒的r

=0.880,P<0.01。注意:只有选择了FlagSignificantCorrelations选项才有。2006.10.103303预防统计软件概论72006.10.103403预防统计软件概论7输出结果表10.4表10.5F=34.156,P<0.001。说明回归方程有意义。2006.10.103503预防统计软件概论7输出结果表10.6表10.7R=0.880,R2=0.774。2006.10.103603预防统计软件概论7表10.19输出结果体重(X1)与上臂围(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论