医学统计学spss软件培训二改_第1页
医学统计学spss软件培训二改_第2页
医学统计学spss软件培训二改_第3页
医学统计学spss软件培训二改_第4页
医学统计学spss软件培训二改_第5页
免费预览已结束,剩余94页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学SPSS软件培训(二)刘芬流行病与卫生统计学系2017.7.

行×列表资料的分类及其检验方法的选择

行×列表资料可分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。1、双向无序RC表RC表中两分类变量皆为无序分类变量。一般研究目的为多个样本率(或构成比)比较,用卡方检验。2、关于单向有序行列表的统计处理,有两种形式:一种是RC表中的分组变量(如年龄)是有序的,而结果变量(如传染病的类型)是无序,其研究的目的是分析不同年龄组的构成情况,此资料可用卡方检验。另一种是RC表中的分组变量(如不同疗法)是无序的,而结果变量(如疗效按按等级分)是有序。在比较各效应有无差别时宜采用秩和检验法,如作卡方检验只能说明各处理组的效应在构成比有无差别。3、双向有序属性相同的RC表

RC表中两分类变量皆为有序且为属性相同。实际是2×2配对设计的扩展,即水平数大于等于2的诊断配伍设计,如两种方法同时对同一批样品的测定结果。其目的是分析两种检测方法的一致性,此时宜用一致性检验(也称Kappa检验)。

4、双向有序属性不同的RC表

RC表中两分类变量皆为有序,但属性不同,如表下9。①若目的为分析不同年龄组患者疗效之间有无差别,可把它可看为单向有序RC表资料,选用秩和检验;②若研究目的为分析有序分类变量间是否存在相关关系,用等级相关。9第四讲有序变量的列联表资料(一)SPSS操作步骤:Data---WeightCases---选入weight变量Analyze---NonparametricTests---2IndependentSamples---Testvariablelist选入检验变量---Groupingvariable选入分组变量---Mann-WhitneyU---OK一、两组独立样本等级资料(二)例题:血清乙肝病毒(HBV)DNA的肝细胞HLA-A、B、C的表达结果见下表,问DNA阳性组(DNA+)与DNA阴性组(DNA-)的肝细胞HLA-A、B、C的表达强度有无差别。HLA-A、B、C的表达强度DNA+组DNA-组合计-17724±101525+91625合计363874(三)SPSS录入数据形式图示HLA-A、B、C的表达强度DNA+组DNA-组合计-17724±101525+91625合计363874(四)SPSS输出结果结论:P<0.05,差别有统计学意义。认为两组肝细胞HLA-A、B、C的表达强度有差异。(一)SPSS操作步骤:Data---WeightCases---选入weight变量Analyze---NonparametricTests---kIndependentSamples---Testvariablelist选入检验变量---Groupingvariable选入分组变量-defineRange(1、3)--Kruskal-WallisH---OK二、K组独立的等级资料(二)例题使用不同内固定钉治疗股骨颈骨折的疗效比较结果见下表,试分析之。疗效内固定合计三翼钉粗螺钉细螺钉优良13202053不愈合54211坏死76316合计25302580(三)SPSS录入数据形式图示疗效内固定合计三翼钉粗螺钉细螺钉优良13202053不愈合54211坏死76316合计25302580(四)SPSS输出结果结论:P>0.05,差别无统计学意义。三种内固定螺钉的疗效无显著差异。(一)SPSS操作步骤:Data---WeightCases---选入freq变量Analyze---correlate---Bivariate---Variables:grade/agegrp---Spearman---OK三、列联表资料的等级相关-Spearman(二)SPSS录入数据形式图示年龄(岁)冠状动脉硬化等级合计-++++++20~7022429830~2724936340~162313759≥50920151458合计122894126278(三)SPSS输出结果结论:Spearman相关系数为0.488。P<0.001,提示冠脉硬化程度与年龄呈显著正相关关系,但相关关系并不密切(相关系数小于0.5)。第五讲线性相关回归相关系数r(correlationcoefficient)r的假设检验简单线性相关简单线性回归回归方程其中a为截距(intercept);b为回归系数(coefficientofregression)前提条件相关分析要求两变量均为随机变量,并服从双变量正态分布。回归分析只要求至少每个x值相应的y服从正态分布,而自变量x可以是正态分布的随机变量,也可以是人为控制大小的变量,如人为确定的处理剂量、测定时间等资料。一般应先绘制散点图观察两变量间的关系,有线性趋势时再进行。(一)SPSS操作步骤:Graphs—Scatter—Simple—Define,从源变量选择年龄变量为XAxis,胆固醇为YAxis—OK。Analyze---Correlation---Bivariate----OK一、简单线性相关SPSS操作(二)SPSS录入数据形式图示例:20名高血脂病人年龄与胆固醇的数据,分析有无直线相关关系。(三)SPSS输出结果结论:相关系数为0.849。P<0.001,提示冠脉硬化程度与年龄呈显著正相关关系。(二)简单直线回归(一)SPSS操作步骤:Analyze----Regression----Linear----调y进入Dependent-----调x进入Independent----Statistics----选Estimates和Modelfit和Descriptive----Continue----OK(二)SPSS录入数据形式图示例:分析高血脂病人年龄与胆固醇之间的线性数量关系。变量进入的模式是所有的自变量同时进入分析相关系数决定系数调整后的R2估计的标准误有关模型的参数(三)SPSS输出结果(1)显示回归方程中的系数回归方程:Ŷ=2.659+0.141X对回归系数进行检验(三)SPSS输出结果(2)用方差分析对包含常数项的回归方程做显著性检验(三)SPSS输出结果(3)三、多元线性回归

(multiplelinearregression)(1)概念:多元线性回归是研究多个自变量与一个应变量之间数量关系并用方程表示出来的一种统计方法。应变量:对任意一组自变量值X1,X2,…,Xm,应变量Y近似服从正态分布的连续型变量自变量:一系列互相独立的连续型或分类变量多元线性回归案例模拟1.例题:

有29名儿童的血液中血红蛋白(Y)与钙(x1)、镁(x2)、铁(x3)、锰(x4)和铜(x5)的含量的数据,用多元回归方法筛选对血红蛋白(Y)有影响的微量因素。2.SPSS操作步骤Analyze--Regression--Linear--调y进入Dependent--调x1,x2,x3,x4,x5进入进入Independent---Method(Backward)---OK3.SPSS输出结果(1)回归方程:Ŷ=0.291-0.0362X1+0.03285X3结果解释:在钙元素含量不变的情况下,铁元素含量每增加1个单位,血红蛋白的平均含量增加0.03285倍;钙元素同理解释。复相关系数R=0.919,决定系数R2=0.845,调整决定系数R2adj=0.833,相关系数越接近于1,表示拟合的模型越好。3.SPSS输出结果(2)各自变量X与因变量Y的相关系数

3.SPSS输出结果(3)对回归方程的假设检验3.SPSS输出结果(4)拟合的回归模型通过F检验判断有统计学意义,提示模型成立。1.适用资料类型:因变量为二(多)分类无序(有序)反应变量的2.按照研究设计类型非条件logistic回归(研究对象未经匹配)条件logistic回归(研究对象经过匹配)第六讲Logistic回归3.SPSS操作步骤:Analyze----Regression----BinaryLogistic----调nodes进入Dependent-----调“x_ray、grade、stage、age、acid”进入Covariates----Categorical定义分类变量,设定哑变量---选indicator,first,change----选Method—Backward:wald—Option---

CIforexp---OK例题

为了了解淋巴组织转移情况,术前检查了53例前列腺癌患者,分别记录了年龄(age)、酸性磷酸酶(acid)两个连续变量,X射线(x-ray),术前探针活检病理分级(grade),直肠指检肿瘤大小与位置(stage)三个分类变量。试分析影响前列腺癌细胞淋巴组织转移的因素(完整数据见非条件logistc.sav)。(一)成组非条件logistic回归表(1)影响因素赋值说明因素变量名赋值说明X射线X_ray阳性=1,阴性=0病理分级grade阳性=1,阴性=0位置stage严重=1,较轻=0淋巴结转移Y阴性=0,阳性=1建立数据库(2)SPSS录入数据形式图示(3)SPSS主要输出结果(1)此进入方程的变量,包括回归系数B,标准误S.E.,回归系数检验统计量wald值,自由度d,概率值sig,回归系数B的反对数(OR值)。重点是对最后选入变量的OR值的专业解释。(3)SPSS主要输出结果(1)X射线检查阳性者发生淋巴结转移的风险是检查阴性者的8倍(95%CI:1.93-35.99,P=0.005)。术前探针活检病理分级阳性者发生淋巴结转移的风险是检查阴性者的4倍(95%CI:1.21-19.30,P=0.02)。42二、条件logistic回归

例题:某市调查在冬季的两个月期间65岁居民患严重感冒的情况。根据性别、年龄每个病例配两个对照。以了解接种一种疫苗及患有肺部疾病与患严重感冒之间的关系。影响因素赋值说明因素变量名赋值说明肺部疾病lung有=1,无=0接受疫苗注射vaccine有=1,无=0虚拟生存时间e正常人=2,患者=1居民status患者=1,正常人=0(一)SPSS数据结构图示(二)SPSS操作步骤:Analyze-----Survival----COXRegression-----Time框(e)-----Status框(Status)-----DefineEvent:Singlevalue1:continue-----Covariates框(lung,vaccine)-----Strata框(id)---Options---95%CI---atlaststep------ok在SPSS中可采用分层COX模型来拟合。虚拟的生存时间变量:病例组取值为1,对照组取值为2虚拟的生存状态变量:病例组取值为1,对照组取值为0各影响因素分层因素,放配的对子数(三)SPSS输出主要结果结论:患有肺部疾病的人患感冒的风险是无病者的3.689倍,注射了疫苗的人是没注射的人0.67倍,降低发病风险,但差异没有统计学意义。三、多项反应Logit模型应变量的水平数大于2,且水平之间不存在等级递减或等级递增的关系时,是通过一种广义Logit模型(Generalizedlogitsmodel)的方法来进行的。若应变量有K个水平,则除一个对照水平外,以每一分类与对照水平作比较,拟合K个广义Logit模型。48例题研究不同学校(school)和不同课程计划(program)对学生学习方式偏好(style)的影响,得到数据如下,试进行Logistic回归(数据文件mlogit.sav)49Schoolprogramstyle自修小组上课1常规101726附加512502常规211726附加1612363常规151516附加121220表影响因素赋值说明因素变量名赋值说明课程计划program常规=1,附加=2学习方式style自修=1,小组=2,上课=3SPSS数据库结构SPSS操作步骤:Data-----Weightcases----countAnalyze-----Regression----MultinomialLogisticDependent框-----StyleFactors框---school、program-----okSPSS主要结果1.自修与上课比,学校1比学校3更多选择上课(P=0.001),学校2与学校3选择没有差别(P=0.82);常规学习的学生比附加学习的学生更容易选择自修的方式(P=0.03)。2.小组与上课比较,学校1与3、学校2与3的学生的选择没有差别(P=0.82);常规学习的学生比附加的学生更容易选择小组的方式(P=0.02)。四、多分类有序变量Logit模型应变量的水平数大于2,且水平之间有等级递减或等级递增的关系。需要拟合水平数-1个logit模型,称为累加logit模型(Cumulativelogitsmodel)。例如临床的药效,疾病的严重程度等。54例题研究性别和两种治疗方法对某疾病疗效的影响,疗效的评价分为三个等级,显效、有效和无效。数据如下,试进行Logistic回归(数据文件ologit.sav)55性别(sex)治疗方法疗效合计显效有效无效男性新疗法52714传统疗法101011女性新疗法165627传统疗法671932表影响因素赋值说明因素变量名赋值说明性别sex女=1,男=0治疗方法treat新疗法=1,传统疗法=0疗效effect显效=1,有效=2,无效=3SPSS操作步骤:Data-----Weightcases----countAnalyze-----Regression----OrdinalLogisticDependent框-----effectFactor框s---sex、treat-----okSPSS主要输出结果Wald检验结果表明,两个自变量对疗效的作用都有统计学意义(P<0.05)。女性比男性疗效好,OR值为e1.319=3.798;新疗法比传统疗法疗效好,OR值e1.797=6.032。第七讲生存资料的分析一、资料特点同时考虑生存结局和生存时间;生存时间可能含有删失数据;生存时间的分布和常见的分布有明显的不同,通常并不服从正态分布。60

例某研究者欲研究肺癌的生存时间影响因素,收集一些肺癌病例(68例)的数据见文件“生存资料.sav”。Sur_time:生存时间(单位:天)Status:指示生存状态的变量:0,失访;1,死亡.Type:癌细胞病理类型:1,腺癌;2,大细胞癌;3,小细胞癌;4,鳞癌.Health:病人入院时的身体健康指数,取值0~100之间.Diagtime:从诊断为肺癌到开始治疗的时间间隔(月).Age:病人的年龄.Sex:性别.1,男;2,女.61问题试比较各种病理类型肺癌病人的生存曲线是否相同。分析影响肺癌生存时间的因素。621.数据库的结构与建立63数据库的结构与建立应变量影响因素自变量64二、Lifetables与KaplanMeier的区别样本量生存时间的表示方法-分组频数表和个体未分组大样本资料,为估计某一时间段的生存率时,如术后5年生存率等——可使用寿命表法;小样本资料,为估计中位生存时间,寻找相关影响因素,如给予某治疗后生存时间的变化——可使用Kaplan-Meier法;为比较某因素不同水平的生存时间有无差异时,——寿命表法和Kaplan-Meier法均可;65例:某临床试验对20名第III或第IV期黑色素瘤的患者进行随访研究,截至研究期结束,记录的生存时间(周)资料见下表,试计算100周的生存率。(一)LifeTabels(寿命表法)66(一)LifeTabels(寿命表法)12.8077.2015.6082.4024.00+87.20+26.4094.40+29.2097.20+30.80+106.00+39.20114.80+42.00117.20+58.40+140.00+72.00+168.00+67Analyze—Survival—LifeTables….1.SPSS操作步骤2023/1/66869以20周为1个间隔,本例100周生存率为53%。2.SPSS输出主要结果累积生存率中位生存时间160天70通过生存曲线也可以估计累积生存率,100周生存率为53%。LifeTabels(寿命表法)例2例2.某医院对114例男性肺癌患者术后生存情况进行了11年随访,(见数据文件寿命表法例2)。请据此计算男性肺癌患者术后各年的生存率。术后年数0~1~2~3~4~5~6~7~8~9~10~11期间失访人数54102221011期间死亡人数391022281210531172(二)

KaplanMeierSPSS操作步骤7374757677四种肺癌亚型的汇总,分别输出了各组患者数、删式值数及其所占比例。SPSS输出主要结果78各组癌症患者的生存分析表各患者被观察的时间生存状态累积生存率及标准误累计死亡数组中剩余人数79生存时间的集中趋势估计平均生存时间中位生存时间80四组肺癌亚型间整体上的生存曲线比较,结果显示四种病理类型患者的生存率曲线分布差别有统计学意义,经Log-rank检验,卡方=18.41,P<0.0001。81根据生存曲线图可以更直观的看出,鳞癌组病人的生存状况明显好得多,其次是大细胞癌,而腺癌和小细胞癌的预后是最差的。82三、两组或多组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论