SPSS在医学统计中应用课件(PPT 180页)_第1页
SPSS在医学统计中应用课件(PPT 180页)_第2页
SPSS在医学统计中应用课件(PPT 180页)_第3页
SPSS在医学统计中应用课件(PPT 180页)_第4页
SPSS在医学统计中应用课件(PPT 180页)_第5页
已阅读5页,还剩175页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计分析与SPSS应用第1页,共180页。内容安排第一讲 医学统计分析概述第二讲 定量资料组间比较的统计分析第三讲 分类资料组间比较的统计分析第四讲 相关性分析与线性回归分析第五讲 logistic回归分析第六讲 诊断试验的评价与ROC分析第七讲 生存分析第2页,共180页。第一讲 医学统计分析概述一、医学统计学的主要内容 包括研究设计、资料收集、数据整理、 数据 分析等一系列过程。二、医学统计学的主要功能 帮助我们透过现象认识本质,从一堆看似杂乱 无章的数据中发现规律,阐明事物的本质。第3页,共180页。三、数据统计分析的一般思路 1. 确定研究目的,根据研究目的选择方法。 不同研究目的

2、采用的统计方法不同,在医学统计中,常见的研究目的主要有三类: 一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、卡方检验、秩和检验等; 二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析; 三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、cox回归等。 第4页,共180页。2. 明确数据类型,根据数据类型进一步确定方法 定量数据可用的方法:t检验、方差分析、非参数检验、相关分析、线性回归等; 分类资料(定性数据)可用的方法:卡方检验、秩和检验、对数线性模型、logistic回归等。 3. 选定统计方法后,利用统

3、计软件具体实现统计分析过程。 4. 针对分析结果,结合实际做出合理的专业结论。第5页,共180页。四、统计学应用的几个误区 1. 研究目的大而全 2. 方法一味追求新颖 3. 统计学方法盲目套用第6页,共180页。数据的类型统计分析的基础是数据,而数据的类型可以分为:1.定量数据 又分为连续型数据和离散型数据。连续性数据可以取任意值,比如,身高,体重,化验值等等;离散型数据只能取整数,如发病人数等。2. 定性数据(分类资料) 又可分为无序分类资料和有序分类资料两类。 无序分类资料是指所分类别或属性之间无程度和顺序的差别,例如二项分类,性别(男、女),药物反应(阴性、阳性)等。例如多项分类,血型

4、( O、A、B、AB等。 有序分类资料是指各类别之间有程度的差别。如尿糖化验结果按、+、+、+分类;疗效按治愈、显效、好转、无效分类。第7页,共180页。数据的类型数据资料定量数据定性数据(分类资料)连续型变量(如:身高、体重等)离散型变量(如:发病人数等)无序分类资料(如:性别、血型等)有序分类资料(如:疗效等)第8页,共180页。差异性研究方法第9页,共180页。组间差异性比较研究方法1. t 检验 主要用于两组定量资料的比较。要求数据满足三个前提条件:独立性、正态性、方差齐性。独立性即各研究对象的观测值是相互独立的,互不影响;正态性即要求两组数据均服从正态分布;方差齐性即两组样本数据所代

5、表的总体方差相等。 2. 方差分析 主要用于多组连续变量的比较。要求数据满足独立性、正态性、方差齐性的条件。第10页,共180页。3. 秩和检验 (1)可用于不服从正态分布的定量资料的组间比较; (2)可用于有序分类资料的组间比较; (3)对于不符合正态分布的数据,两组定量数据比较一般用Wilcoxon秩和检验,多组定量数据一般用kruskal-wallis秩和检验,随机区组定量数据一般用friedman秩和检验。4、 2 检验 用于无序分类资料的组间比较。可用于两组或多组率的比较、两组或多组构成比的比较、两个分类变量之间的关联性分析,还可用于特定分布的拟合优度检验等。第11页,共180页。相

6、关性分析研究方法 第12页,共180页。影响性分析研究方法 第13页,共180页。SPSS简介SPSS(Statistics Product and Service Solutions) ,是目前世界上最优秀的统计分析软件之一。SPSS是众多统计软件当中比较简单易懂的软件之一;绝大多数操作过程仅靠点击鼠标即可完成。SPSS功能齐全,一般的数据分析和图形处理都可以应付自如。第14页,共180页。第二讲 定量资料组间比较的统计分析第15页,共180页。定量数据组间差异比较常用统计方法1. t 检验 主要用于两组定量数据的比较。要求数据满足三个前提条件:独立性、正态性、方差齐性。独立性即各研究对象的

7、观测值是相互独立的,互不影响;正态性即要求两组数据均服从正态分布;方差齐性即两组样本数据所代表的总体方差相等。 2. 方差分析 主要用于多组连续变量的比较。要求数据满足独立性、正态性、方差齐性的条件。第16页,共180页。3. 秩和检验 (1)主要用于不服从正态分布的定量资料的组间比较; (2)对于不符合正态分布的数据,两组定量数据比较一般用Wilcoxon秩和检验,多组定量数据一般用kruskal-wallis秩和检验,随机区组定量数据一般用friedman秩和检验。第17页,共180页。第18页,共180页。分析思路1. 确定分析方法 该研究目的是比较两组人群的血磷值,属于差异性检验。分析

8、变量是血磷值,为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的t检验或wilcoxon秩和检验,具体还应进一步看数据是否服从正态分布。2.建立数据文件EG0201。共 2个变量: (1)group(分组):1=急性克山病患者,2=健康者; (2)p(血磷数值)。3. 数据的正态性检验 “分析”“描述统计” “探索” 打开“探索”对话框 因变量列表:血磷数值(glu) 因子列表:分组group 绘制 : 带检验的正态图 第19页,共180页。从Shapiro-Wilk检验结果可以看到,group1的正态性检验P=0.835,group2的正态性检验P=0.316,都可以认为近似服从正态

9、分布。4. 独立样本t检验 “分析”“比较均值” “独立样本T检验” ,打开“独立样本T检验”对话框 检验变量:p 分组变量:group 定义组:1 25.结果及解释 本例数据满足方差齐性(P=0.791),t检验统计量=2.576,P=0.017,故两组人群的差异是有统计学意义的。第20页,共180页。二、两组非正态分布资料的比较 例2.2 某医生为研究幽门螺杆菌与血清胃泌素-17之间的关系,在某地随机抽取幽门螺杆菌阳性和阴性对象各30例,测量两组人群的血清胃泌素-17水平。数据如表EX0202.欲比较两组人群的血清胃泌素-17水平是否有统计学差异。第21页,共180页。分析思路1. 确定分

10、析方法 该研究目的是比较两组人群的血清胃泌素-17是否有差异,属于差异性检验。分析变量为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的t检验或wilcoxon秩和检验,具体还应进一步看数据是否服从正态分布。2.建立数据文件EX0202。共 2个变量: (1)group(分组):1=阴性,2=阳性; (2)g(血清胃泌素-17水平)。3. 数据的正态性检验 “分析”“描述统计” “探索” 打开“探索”对话框 因变量列表:血清胃泌素-17水平(g) 因子列表:分组group 绘制 : 带检验的正态图 第22页,共180页。从Shapiro-Wilk检验结果可以看到,阴性组不符合正态分布(

11、 P0.05, 治疗前后的血红蛋白含量的差异无统计学意义。第43页,共180页。例2.7 某医生为观察某颈椎疼痛治疗仪治疗颈椎疼痛的效果,随机抽取了30名颈椎疼痛患者,记录他们的VAS评分,然后采用该治疗仪治疗10个疗程,再记录下他们的VAS评分,数据存于EX0207(部分数据见表2.6)。欲比较治疗后的VAS评分是否比治疗前有所降低。 患者序号 1 2 3 4 5 6 30 治疗前 5 8 7 5 5 4 4 治疗后 4 6 7 2 2 3 3 第44页,共180页。分析思路 1、明确研究目的 该研究目的是通过比较30名颈椎疼痛患者治疗前后的VAS评分,以推断治疗前后的VAS评分是否有差异,

12、属于差异性检验。该研究是比较同一人群的两次测量结果,属于配对设计。配对设计的分析一般以两组差值作为分析指标。分析方法可根据数据的分布考虑使用配对t检验或配对秩和检验。2.建立数据文件EX0207。 两个变量: (1)VAS0: 治疗期的评分; (2)VAS1: 治疗后的评分。3.数据的正态分布检验 “分析”“描述统计” “探索” 打开“探索”对话框 因变量列表:VAS0 VAS1 绘制 : 带检验的正态图 结果显示两个变量都不服从正态分布,所以选用配对秩和检验。第45页,共180页。4、配对符号秩检验 “分析” “非参数检验” “2个相关样本” , 打开“两个关联样本检验”对话框 检验对:VA

13、S0VAS1 检验类型: Wilcoxon 5. 结果及解释 使用的方法是Wilcoxon符号秩检验,检验的 P0.0001,即治疗前后的VAS评分的差异有显著性意 义。本例中,治疗后VAS评分低于治疗前评分。第46页,共180页。七、 随机区组设计的方差分析第47页,共180页。七、随机区组资料的分析 例2.8 某研究生研究异常应力下椎间盘内蛋白多糖的变化,实验设计采用了随机区组设计,按体重、窝别等因素,每3只健康纯种成年新西兰大白兔配成一个区组,共8个区组。每个区组内的3只大白兔随机分入对照组、颈椎制动组和颈椎加压组,然后测定各组椎间盘内蛋白多糖的光密度值并进行比较。数据存于EX0208.

14、 表2.8 三组的光密度值 对照组 0.37 0.41 0.39 . 0.32 颈椎制动组 0.39 0.27 0.26 . 0.28 颈椎加压组 0.31 0.25 0.21 . 0.20 第48页,共180页。分析思路1、确定分析方法 该研究目的是比较光密度值在三组间是否有差异,属于差异性检验。该研究采用了随机区组设计,研究前已经将研究对象的各种可能影响因素进行了平衡。分析指标是光密度值,为连续性变量。分析方法可以根据资料的正态性,考虑随机区组的方法分析或随机区组的秩和检验即Friedman检验。2、建立数据文件EX0208. 共3个变量: (1)group(表示分组因素): 1=对照组,

15、2=颈椎制动组,3=颈椎加压组; (2)block(8个不同区组); (3)den(光密度值)。3、正态性检验 三组数据均服从正态分布,故采用随机区组的方差分析方法。第49页,共180页。4、方差分析 “分析” “一般线性模型” “单变量” ,打开“单变量”对话框 因变量列表:weight 固定因子:group、block 模型 设定 (custom) 模型: group / block 在模型中包含截距 两两比较(Post Hoc) 两两比较检验: group LSD S-N-K 选项 描述性 方差同质性检验(方差齐性检验) 第50页,共180页。5、结果分析结果显示,组间差异有统计学意义(

16、F=10.064,P=0.002),区组间差异无统计学意义(F=0.876,P=0.548)。 第51页,共180页。根据两两比较结果,对照组和制动组之间差别有统计学意义(P=0.021),对照组和加压组之间差别有统计学意义(P=0.001),制动组和加压组之间差别在0.1水平上有统计学意义(P=0.085)。第52页,共180页。定量数据组间比较的分析方法小结1、两组独立样本比较 两组独立数据的比较首先应看资料是否符合正态分布,是否符合方差齐性。(1)两组资料符合正态分布,且方差齐,采用t检验;(2)两组资料符合正态分布,但方差不齐,可采用 Satterthwate t检验;(3)资料不符合

17、正态分布,可采用非参数检验,如 Wilcoxon秩和检验。2、两组配对资料比较 两组配对资料比较主要看两组差值是否符合正态分布。(1)两组差值服从正态分布,采用配对t检验;(2)两组差值不服从正态分布,采用Wilcoxon配对秩检验。第53页,共180页。3、多组独立样本比较(1)资料符合正态分布,且各组方差齐,直接采用完全随机的方差分析。如果检验结果为组间差异有统计学意义,可进一步作两两比较。两两比较的方法有S-N-K法、Bonferroni法等;(2)资料不符合正态分布,可采用非参数检验的Kruskal-Wallis法。如果检验结果为组间差异有统计学意义,可进一步作两两比较。两两比较可以采

18、用公式法计算,也可采用基于秩的方差分析法。4、多组随机区组样本比较(1)资料符合正态分布,且各组方差齐,直接采用随机区 组的方差分析。(2)资料不符合正态分布,可采用非参数检验的Friedman 法。第54页,共180页。第三讲 分类资料组间比较的统计分析第55页,共180页。分类资料组间差异比较常用统计方法1、 2 检验 用于无序分类资料的组间比较。可用于两组或多组率的比较、两组或多组构成比的比较、两个分类变量之间的关联性分析,还可用于特定分布的拟合优度检验等。2、秩和检验 用于有序分类资料的组间比较。第56页,共180页。一、四格表资料的分析例3.1 某研究所为探索幽门螺杆菌感染与胃黏膜病

19、变进展之间的关系,在某地随机抽取了2200名非胃癌居民,对幽门螺杆菌感染状况进行血清学检测,根据检测结果分为幽门螺杆菌阳性组和阴性组。随访5年后,共有1889例研究对象完成了全部的胃镜检查和胃黏膜病理学诊断。其中幽门螺杆菌阳性组中病变进展者35人,未进展者443人;阴性组中病变进展者164人,未进展者1247人。整理成表3.1的四格表形式,欲分析幽门螺杆菌阳性组与阴性组的病变进展率是否有差异。 表3.1 病变无进展 病变进展 合计 阴性 1247 164 1411 阳性 443 35 478 合计 1690 199 1889第57页,共180页。分析思路1、确定分析方法 该研究目的是比较两组的

20、病变进展率是否有统计学差异,属于差异性检验。数据为分类资料,分组变量是幽门螺杆菌的感染状况,分析变量是病变进展情况,均为二分类变量。结合研究目的,首选的方法是四格表资料的卡方检验。当然还可以考虑用Logistic回归,但卡方检验更为简便通用,因此采用卡方检验进行分析。2. 建立数据文件 EX0301。 有3个变量: (1) hp(感染状况):1=阴性,2=阳性; (2) progression (病变进展):1=无进展,2=进展; (3)f(频数)。第58页,共180页。2. 统计分析: (1) “数据”“加权个案”, 打开“加权个案”对话框 加权个案: f (2)“分析” “描述统计” “交

21、叉表” , 打开“交叉表”对话框 行:hp 列: progression 统计量 卡方(Chi-square) 风险 单元格 观察值 期望值 行第59页,共180页。3. 结果及解释 本次研究结果表明,幽门螺杆菌阴性组和阳性组的病变进展率差异有统计学意义( 2 =7.007,P=0.008),幽门螺杆菌阳性人群发生病变进展的危险是阴性人群的1.587倍(95%CI:1.1192.552),提示幽门螺杆菌感染是胃黏膜病变进展的危险因素。第60页,共180页。二、R2表资料的分析例3.2 某医院在某胃癌高发地区随机抽取了2646名当地居民,根据胃黏膜病理检查结果,将人群分为浅表性胃炎(SG)或轻度

22、慢性萎缩性胃炎(CAG)、重度CAG、肠上皮化生(IM)和异型增生(DYS)四组,每组人群检测其幽门螺杆菌感染状况,结果列于表3.2.欲比较四组人群的幽门螺杆菌阳性率是否有差异。 表3.2 不同胃黏膜病变的幽门螺杆菌阳性率 阴性 阳性 合计 SG或轻度CAG 413 609 1022 重度CAG 29 190 219 IM 182 677 859 DYS 120 426 546 合计 744 1902 2646 第61页,共180页。分析思路1、确定分析方法该研究目的是比较四组的阳性率是否存在统计学差异,属于差异性检验。分组变量是胃病理状况,为多分类变量,分析指标是幽门螺杆菌感染状况,为二分类

23、变量,属于R2列联表。本例分组指标为病变严重程度,尽管属于有序分类变量,但无序和无序变量不同方法的选择是根据分析指标而定。只要分析指标为无序变量,则不论分组指标是有序还是无序,均可采用卡方检验进行分析。如果组间总的差异有统计学意义,还可进一步做两两比较。2. 建立数据文件 EX0302。 有3个变量: (1) path(病变程度): 1=SG或轻度CAG,2=重度CAG, 3=IM,4=DYS; (2) hp(感染状况):1=阴性,2=阳性; (3)f(频数)。第62页,共180页。3. 统计分析: (1) “数据”“加权个案”, 打开“加权个案”对话框 加权个案: f (2)“分析” “描述

24、统计” “交叉表” , 打开“交叉表”对话框 行:path 列: hp 统计量 卡方(Chi-square) 第63页,共180页。4. 结果及解释 本次研究结果表明,不同胃黏膜病变组的幽门螺杆菌感染率差异有统计学意义( 2 =13.988,P0.0001。结合具体数值可以发现,阳性率有随着病变严重程度增加而增加的趋势,并且这种趋势有统计学意义(根据Linear-By-Linear Association检验结果,P0.0001)。第64页,共180页。5、两两比较 上述结果只是表明了一种总的差异和趋势,结论只能认为四组之间的感染率总的有统计学差异。我们还需要进一步了解具体是哪两组之间存在差异

25、,即进行组间两两比较。 本例共有4组,假设研究目的是想以SG或轻度CAG组为对照,比较其他病变组的感染率是否高于SG或轻度CAG组。则校正后的检验水平为 也就是说,两两比较时,P值小于0.0167,才算差别有统计学意义。通过选择个案,可以比较其他三组与SG或轻度CAG组之间的差异,结果如下: 对比组 卡方值 P值 SG或轻度CAG组 VS. 重度VAG 58.056 0.0001 SG或轻度CAG组 VS. IM 79.752 0.0001 SG或轻度CAG组 VS. DYS 53.89 0.0001 结果表明,其他三组与SG或轻度CAG组比较有统计学差异。第65页,共180页。6、最终结论

26、本次研究结果表明,不同胃黏膜病变组的幽门螺杆菌感染率差异有统计学意义( 2 =13.988,P0.0001)。幽门螺杆菌感染率有随着病变严重程度增加而增加的趋势(P5,选用卡方检验;(2)例数大于40,所有理论数1,且有理论数5,选用校正的卡方检验或Fisher精确概率检验法;(3)例数小于40,或有理论数1,选用Fisher精确概率检验法;第78页,共180页。2、 2C表资料的统计分析思路 2C表资料指行变量为二分类的分组指标,列变量为多分类的分析指标。(1)如果分析指标为无序分类变量,可用卡方检验分析组间构成比是否有差异,如果例数小于40或有理论频数小于1,可以采用Fisher精确概率检

27、验法;(2)如果分析指标为有序分类变量,可用Wilcoxon秩和检验。3、R2表资料的统计分析思路 R2表指行变量为多分类的分组指标,列变量为二分类的分析指标。组间差异比较可采用卡方检验。如果组间差异有统计学意义,可进一步作两两比较,以分析具体哪几组之间的差别有统计学意义。第79页,共180页。4、RC表资料的统计分析思路 RC表指行变量为多分类的分组指标,列变量为多分类的分析指标。(1)行变量为无序或有序的分组指标,列变量为无序的分析指标,可用卡方检验分析组间构成比是否有差异。如果组间差异有统计学意义,可进一步作两两比较。(2)行变量为无序或有序的分组指标,列变量为有序的分析指标,可用Kru

28、skal-Wallis秩和检验方法。如果组间差异有统计学意义,可进一步作两两比较。5、配对分类资料的统计分析思路 两种方法之间的差异性比较,可用McNemar检验作配对的卡方检验。第80页,共180页。第六章 相关分析及SPSS实现6.1 定量资料的相关分析6.2 分类资料的相关分析第81页,共180页。6.1 定量资料的相关分析定量资料的相关分析主要采用线性相关,线性相关主要研究两个或多个变量之间相互依存的关系,可分为简单相关和偏相关。常用的线性相关的度量指标有Pearson相关系数Spearman相关系数。 Pearson相关系数主要用于正态分布资料,Spearman相关系数主要用于非正态

29、分布资料或等级资料。第82页,共180页。例6.1 某疾病预防控制中心调查了辖区内公务员的体重指数、血压、总胆固醇、空腹血糖等指标,以了解他们的健康状况。现从中随机抽取20人的体重指数、总胆固醇、空腹血糖三个指标,分析这三个指标的相关性。分析思路 1、确定分析方法 该研究的目的是分析三个指标之间的关系,三个指标均为定量资料,可选择线性相关,具体可根据资料是否符合正态分布选择Pearson相关或Spearman相关。 2、资料的正态性检验 第83页,共180页。由于样本量小于2000,故正态性检验采用Shapiro-Wilk法。Bmi和tc的P值均远远大于0.05,fbg的P值仅略大于0.05(

30、P=0.085)。为了稳妥起见,下面分别按正态分布和非正态分布进行线性相关分析,即分别采用Pearson和Spearman相关分析。3、Pearson相关分析和Spearman相关分析 “分析” “相关” “双变量” 变量:bmi tc fbg 相关系数: Pearson Spearman 第84页,共180页。根据Pearson相关分析的结果,bmi与tc之间的相关系数为0.718,有统计学意义(P0.001);bmi与fbg之间的相关系数为0.403,无统计学意义(P=0.078);tc与fbg之间的相关系数为0.609,有统计学意义(P=0.004)。第85页,共180页。根据Spear

31、man相关分析的结果,bmi与tc之间的相关系数为0.752,有统计学意义(P0.001);bmi与fbg之间的相关系数为0.354,无统计学意义(P=0.126);tc与fbg之间的相关系数为0.576,有统计学意义(P=0.008)。第86页,共180页。4、偏相关分析 上述结果给出的是三个变量之间粗鲁的关系,也就是说,两个变量之间的相关可能掺杂了另外变量的作用。例如bmi与fbg的关系可能混有tc的影响,如果我们想研究变量之间的纯关系,需要采用偏相关来校正其他变量的影响。假定我们要了解体重指数(bmi)与胆固醇(fbg)的纯相关,则可进行偏相关分析。 “分析” “相关” “偏相关” 变量

32、:bmi fbg 控制:tc结果表明,剔除tc的影响后,bmi和fbg的相关性变成了负相关(-0.062),而且这种相关微乎其微(P=0.8)。 第87页,共180页。5、结论 偏相关分析表明,校正了tc后,bmi和fbg的相关性变得非常小,与简单相关系数差别很大。这提示tc对bmi和fbg的关系影响非常大,或者说bmi与fbg的相关性主要是由tc造成的,一旦消除了tc的作用,bmi与fbg的关系也随之消失。因此对于多个指标的相关性分析,如果有可能,最好采用偏相关,以找出变量间的真正关系,否则容易被结果误导。第88页,共180页。6.2 分类资料的相关分析第89页,共180页。线性回归分析例7

33、.2 某研究生研究“冠状动脉缓慢血流现象”的影响因素。“冠状动脉缓慢血流现象”以前降支、回旋支、右冠状动脉三支血管的平均TIMI帧计数(MTFC)表示,调查的影响因素有年龄(AGE,岁)、收缩压(SBP,mmHg)、舒张压(DBP,mmHg)、白细胞(WBC, /L),目的是寻找影响MTFC变化的因素。数据存于LI0702。第90页,共180页。分析思路1、确定研究方法 该研究目的是寻找影响因变量的各种可能因素,且变量很明确地分为因变量和自变量,因此可用回归分析。该研究的因变量为连续变量,因而可考虑用多元线性回归,但是否合适还需进一步验证。2、对线性回归的应用条件进行检验第91页,共180页。

34、第二讲 T 检验 T检验是进行两组定量数据差异性比较的检验方法,在医学统计学中,t 检验是非常活跃的一类假设检验方法。适用条件:当样本含量n较小时(如n0.05,接受原假设,认为该山区成年男子的脉搏数与健康男子的差异无统计学意义。第95页,共180页。1.2 配对样本t检验(Paired Samples T Test) 配对样本t检验,也称成对t检验,适用于配对设计的计量资料,主要适用于下列三种情况: 1、将同一样本(如血样)分成两半,用两种不同的方法来测定; 2、自身比较,即同一样本处理前后的比较; 3、将某些因素相同的样本组成配伍组,随机分成两组。 配对样本t检验是检验配对差值的样本均数

35、与已知总体均数 0=0是否有差别的参数方法检验。第96页,共180页。第97页,共180页。配对样本t检验分析步骤 1.建立数据文件EG0202。两个变量: (1)before:治疗期的含量; (2)after: 治疗后的含量。2.统计分析: (1)正态分布检验:“分析” “非参数检验” “1-样本K-S”,打开“单样本K-S检验”对话框 检验变量列表(T): before, after 常规(正态分布) (2)配对样本t 检验:“分析” “比较均值” “配对样本T 检验” ,打开“配对样本T检验”对话框 成对变量:before after 3. 结果及解释 P=0.7220.05, 治疗前后

36、的血红蛋白含量的差异无统计学意义。第98页,共180页。1.3 两组独立样本t 检验(Independent Samples T Test) 两组独立样本t 检验,用于两个总体的样本均值的比较。 要求数据满足以下条件: 1正态性:两个样本都来自于正态分 布的总体; 2方差齐性:两个总体方差相等。第99页,共180页。分析思路: 该研究目的是比较两组人群的血磷值,属于差异性检验。分析变量是血磷值,为连续性变量。结合研究目的,可以考虑的分析方法有独立样本的t检验或wilcoxon秩和检验,具体还应进一步看数据是否服从正态分布。第100页,共180页。分析步骤1. 建立数据文件EG0303。共 2个

37、变量: (1)group(分组):1=急性克山病患者,2=健康者; (2)p(血磷数值)。2. 数据的正态性检验 (1)“数据” “拆分文件” 打开“分割文件”对话框 比较组 分组方式: 组别group (2)“分析”“非参数检验” “旧对话框” “旧对话框” “1-样本K-S”,打开“单样本K-S检验”对话框 检验变量列表(T): 血磷数值(p) 常规(正态分布)从输出结果可以看到,group1的正态性检验P=0.991,group2的正态性检验P=0.781,都可以认为近似服从正态分布。故利用独立样本t检验方法。3. 合并数据 : “数据” “拆分文件” 打开“分割文件”对话框 分析所有个

38、案,不创建组 第101页,共180页。 4. 独立样本t检验 “分析”“比较均值” “独立样本T检验” ,打开“独立样本T检验”对话框 检验变量:p 分组变量:group 定义组:1 2 5.结果及解释 本例数据满足方差齐性(P=0.791),t检验统计量=2.576,P=0.017,故两组人群的差异是有统计学意义的。第102页,共180页。第三讲 方差分析 方差分析( ANOVA )用于多组(两组以上)连续变量均值的差异性比较,其应用条件为: 各组观察值均服从正态分布; 各样本的总体方差相等。 方差分析的基本思想是:把总变异分为组间变异和组内变异,通过分析研究不同来源的变异对总变异的贡献大小

39、,从而确定可控因素对研究结果影响力的大小。第103页,共180页。方差分析的SPSS操作单因素方差分析(单个因素各个水平之间的比较): “分析” “比较均值” “单因素ANOVA”多因素方差分析(包括随机区组设计、析因设计): “分析” “一般线性模型” “单变量” 第104页,共180页。3.1 单因素方差分析 单因素方差分析是单个因素的各个水平之间有无显著性差异的统计检验。采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,以推断处理因素的效应。第105页,共180页。 例3-1 某药厂研发一种新的降糖

40、药,将试验药分为大剂量组和小剂量组,并采用某公认的阳性药物为对照。试验方法采用完全随机设计,按照一定的纳入和排除标准共选择90例研究对象,将研究对象随机分为3组,分别服用相应的药物。治疗12周后,观察其餐后2小时的血糖降低值,数据存于EG0301中。欲比较三组的血糖降低值是否有统计学差异。 分析思路: 该研究目的是比较对照药组、试验药大剂量组、小剂量组的血糖降低值是否有差异,属于差异性检验。该研究为完全随机设计,分析变量为连续性变量。因此可以考虑方差分析或kruskal-wallis秩和检验,具体还应进一步看数据是否服从正态分布。第106页,共180页。分析步骤1.建立数据文件EG0301。共

41、 2个变量: (1)group(分组):1=对照组,2=小剂量组,3=大剂量组; (2)glu(血糖变化值)。2. 数据的正态性检验 (1)“数据” “拆分文件” 打开“分割文件”对话框 比较组 分组方式: 组别group (2)“分析”“非参数检验” “旧对话框” “旧对话框” “1-样本K-S”,打开“单样本K-S检验”对话框 检验变量列表(T): 血糖变化值(glu) 常规(正态分布)结果显示,三组数据均符合正态分布( P分别为0.638、0.971、0.987 ),因此可以采用方差分析进行组间比较。然后合并数据 : “数据” “拆分文件” 打开“分割文件”对话框 分析所有个案,不创建组

42、 第107页,共180页。3. 单因素方差分析 “分析” “比较均值” “单因素ANOVA” ,打开“单因素方差分析”对话框 因变量列表:no 因子:group 选项 描述性 方差同质性检验(方差齐性检验) 两两比较 LSD S-N-K 第108页,共180页。4.结果及解释 (1)在方差齐性检验中,P=0.4530.05,可认为方差具有齐性; (2)在ANOVA表中,F=3.917,P值=0.0240.05,故三组人群的差异有统计学意义; (3)在随后的两两比较中,结果显示,1组和3组、1组和2组的差异有统计意义,2组和3组的差异无统计意义。第109页,共180页。3.2 随机区组设计的方差

43、分析第110页,共180页。例3.2 某厂12名氟作业工人24h内不同时间尿氟量(mL/L)排除数据存于文件EG0302,试分析氟作业工人在工前、工中(上班第4小时)和工后(下班后第4小时)尿氟排出量的差别有无统计学意义。 分析:如果不仅考虑氟作业工人在工前、工中和工后尿氟排出量的差别,还考虑工人之间(区组因素)的不同,此时就构成随机区组资料(不同时刻,不同区组)的分析。分析方法可以根据资料的正态性,考虑随机区组的方差分析或随机区组的秩和检验(即Friedman检验)。第111页,共180页。1、建立数据文件EG0302. 共3个变量: (1)group(表示三个不同时刻): 1=工前,2=工

44、中,3=工后; (2)block(12个不同区组); (3)weight(尿氟排出量)。2、统计分析。 (1)分组对三组数据作正态性检验(三组数据均服从正态分布); (2)方差分析 :“分析” “一般线性模型” “单变量” ,打开“单变量”对话框 因变量列表:weight 固定因子:group、block 模型 设定 (custom) 模型: group / block 在模型中包含截距 两两比较(Post Hoc) 两两比较检验: group LSD S-N-K 选项 描述性 方差同质性检验(方差齐性检验) 第112页,共180页。3、结论 结果显示,组间差异有统计学意义(F=12.152,

45、P0.001),根据两两比较的结果,工中与工前、工中与工后的差异有统计学意义,工前与工后的差异无统计学意义。 区组间差异无统计学意义(F=2.013,P=0.078)。第113页,共180页。3.3 多因素方差分析多因素方差分析不仅可以考虑多个因素对试验结果的影响,还能够分析因素之间的交互作用是否对试验结果产生影响,从而最终找到一个最优组合。例3.3 在数据3.3中,以手术时间“time”为观察值,探讨不同手术方式“pt”、不同疾病部位“da”及不同性别“sex”三个因素对手术时间的影响是否显著。第114页,共180页。1、打开数据文件3.3;2、统计分析:“分析” “一般线性模型” “单变量

46、” , 打开“单变量”对话框 因变量列表:time 固定因子:pt, da, sex 模型 设定 (custom) 模型: pt, da, sex 在模型中包含截距 选项 描述性 方差同质性检验(方差齐性检验)3、结果及解释 pt对手术时间有显著性的影响,da和sex的差异无统计学意义。第115页,共180页。3.4 析因设计资料的方差分析 析因试验设计(factorial experimental design)是将两个或多个处理因素的各个水平进行排列组合,交叉分组进行试验,用于分析各因素间的交互作用,比较各因素不同水平的平均效应和因素间的不同水平组合下的平均效应,寻找最佳组合。在析因试验设

47、计的资料分析中,应先重点考察各因素间是否存在交互作用,因为当因素间存在明显的交互作用时,往往会掩盖主效应的显著性。第116页,共180页。例3.4 用A、B两种药治疗血色素低下的病人。现将48名病人完全随机地分成4组,按A、B两种药的使用与否对4组病人观察他们的血色素增加值,数据如下所示(部分): 第117页,共180页。分析思路 该研究共两个分组因素,分别为A药和B药,各有两个水平,交叉形成四组。研究目的不仅要看A药、B药各自对血色素增加值的影响,还要分析A药+B药对血色素增加值的影响,即分析两个因素之间的交互作用。该研究采用了析因设计,分析也应采用析因设计的方法,考虑因素间的交互作用。该研

48、究分析指标是血色素增加值,为连续型变量。分析方法可用方差分析或Kruskal-Wallis秩和检验,具体还应进一步看资料是否符合正态分布第118页,共180页。 1、建立数据文件EG0304。有3个变量: (1)a:1=用A药,0=不用A药; (2)b:1=用B药,0=不用B药; (3)value:血色素增加量。 2、四组数据的正态性检验(均服从正态分布) 3、统计分析: “分析” “一般线性模型” “单变量” ,打开“单变量”对话 框 因变量列表:value 固定因子:a,b 模型 设定 (custom) 模型: a、b、a*b 在模型中包含截距 选项 描述性 第119页,共180页。4、结

49、果及解释 单用A药或者单用B药,都有显著性疗效,并且A、B两药联合使用有很好的交互作用,能加强疗效(均数为2.358),比单用A药或单用B药的效果都好。第120页,共180页。第三讲 2检验2检验(卡方检验),主要用于(1)检验某无序分类变量(如:性别)各水平出现的概率是否等于指定概率;(2)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:有,无)有关;(3)检验某个分类变量出现各类的概率是否等于指定概率。如抛硬币时,正反两面出现的概率是否均为0.5.第121页,共180页。2检验1、四格表资料的2检验2、配对四格表资料的2检验3、行列表资料的2检验第

50、122页,共180页。3.1 四格表资料2检验 第123页,共180页。1. 建立数据文件 EG0301。有3个变量: (1) treat(处理方法):1=单用药物,2=药物加化疗; (2) effect (疗效):1=有效,2=无效; (3)f(频数)。2. 统计分析: (1) “数据”“加权个案”, 打开“加权个案”对话框 加权个案: f (2)“分析” “描述统计” “交叉表” , 打开“交叉表”对话框 行:treat 列: effect 统计量 卡方(Chi-square) 单元格 观察值 期望值 行3. 结果及解释 Pearson卡方统计量为6.508,P=0.0110.05,两种方

51、法有显著性差异,即药物加化疗比单用药物疗效要好。第124页,共180页。3.2 配对四格表资料2检验把每一份标本分为两份,分别用两种方法进行化验,比较此两种化验方法的结果(两类计数资料)是否有本质不同;或分别采用甲、乙两种方法对同一批病人进行检查,比较此两种检查方法的结果(两类计数资料)是否有本质不同,此时要用配对2检验第125页,共180页。第126页,共180页。1. 建立数据文件EG0302 。有三个变量。 (1)a(使用A培养基):1=生长,2=未生长; (2)b(使用B培养基): 1=生长,2=未生长; (3)f(频数)。2. 统计分析: (1) “数据”“加权个案”, 打开“加权个

52、案”对话框 加权个案: f (2)“分析” “非参数检验” “2个相关样本” ,打开“两个关联样本检验”对话框 成对变量:a, b 检验类型 McNemar3. 结果及解释 使用配对检验的McNemar检验,P=0.021,二者有显著性差异。第127页,共180页。2.3 行列表资料的2检验第128页,共180页。1、建立数据文件EG0303 。有3个变量: (1)area(地区):1=亚洲,2=欧洲,3=北美洲; (2)type(血型):1=A型,2=B型,3=AB型,4=O型; (3)f(频数)。 2. 统计分析: (1)“数据”“加权个案”, 打开“加权个案”对话框 加权个案: f (2

53、)“分析” “描述统计” “交叉表” , 打开“交叉表”对 话框 行:area 列: type 统计量 卡方(Chi-square) 单元格 观察值 行3. 结果及解释 Pearson卡方统计量为366.456,P0.05,即差异无显著性意义。第132页,共180页。4.2 两独立样本比较的秩和检验 例4.2 测得铅作业和非铅作业工人的血铅值,结果见下表4-2。问铅作业工人的血铅值是否比非铅作业工人的高? 表4-2 铅作业与铅作业工人血铅值的比较第133页,共180页。两独立样本比较的Wilcoxon秩和检验分析步骤1. 建立数据文件EG0402。有两个变量: (1)group(分组):1=非

54、铅作业组,2=铅作业组; (2)bp:血铅测定值。2. 统计分析: “分析” “非参数检验” “2个独立样本” , 打开“两个独立样本检验”对话框 检验变量列表:bp 分组变量: group 定义组 组1:1 组2: 2 检验类型: Mann-Whitney U 3. 结果及解释 双侧检验的P值=0.0400.05,两组血铅值有显著性差异,由于铅作业组的秩均值10.19大于非铅作业组的5.50,故铅作业组的血铅值高于非铅作业组。 第134页,共180页。4.3 有序变量的两独立样本比较的秩和检验例4.3 使用中药与西药治疗百日咳,并观察其疗效,数据列于表4-3。问二者的疗效有无显著性差异? 表

55、4-3 中西药疗效治疗百日咳比较第135页,共180页。1. 建立数据文件EG0403。有3个变量: (1)group(分组):1=中药组,2=西药组; (2)effect(疗效):1=治愈,2=好转,3=无效; (3)f(频数)。2. 统计分析: (1) “数据”“加权个案”, 打开“加权个案”对话框 加权个案: f (2)“分析” “非参数检验” “2个独立样本” , 打开“两个独立样本检验”对话框 检验变量列表:effect 分组变量: group 定义组 组1:1 组2: 2 检验类型: Mann-Whitney U 3. 结果及解释 双侧检验的P值=0.0010.05,两组的疗效有显

56、著性差异,由于中药组的秩均值95.48小于西药组的121.76,故中药组的疗效明显好于西药组。 第136页,共180页。第五讲 相关与回归在医学科学研究中,常常要分析两个变量之间的关系,如身高与体重、年龄与血压等问题,这时就涉及两个变量之间的相关与回归;在实际生活及医学临床研究中,还经常遇到一个因变量与多个自变量之间的相互关系,如肺活量可能与身高、体重、胸围等因素有关,这时就可用多元回归来解决。第137页,共180页。回归分析 一元线性回归 多元线性回归 曲线回归第138页,共180页。5.1 一元线性相关与回归例5.1 某克山病区测量12名健康儿童头发中的硒含量与血液中的硒含量,数据见EG0

57、501。试研究二者之间的关系。1、建立数据文件EG0501; 2个变量:发硒值;血硒值。 第139页,共180页。2、统计分析: (1)分别进行正态分布检验:“分析” “非参数检验” “1-样本K-S”,打开“单样本K-S检验”对话框 检验变量列表(T):发硒值(血硒值) 常规(正态分布) (2)相关性分析 :“分析” “相关” “双变量” ,打开“双变量相关”对话框 变量:发硒值、血硒值 Pearson 双侧检验 (3)回归分析:“分析” “回归” “线性” ,打开“线性回归”对话框 因变量:血硒值 自变量:发硒值 统计量 估计 描述性第140页,共180页。3、结果及解释 (1)相关系数为

58、0.880 (2)得到回归模型: 血硒值=-6.943+0.239发硒值 检验回归模型的F统计量=34.156,P0.001,回归方程有意义。R平方=0.774,表示因变量的变化中有77.4%可由自变量的变化来解释( R平方越大,回归方程越好)。第141页,共180页。5.2 多元线性回归例5.2 测量了20名儿童的血红蛋白y与微量元素钙x1、铁x2、锰x3含量,数据见文件EG0502,试作多元线性回归。1、建立数据文件EG0502。4个变量: x1:钙; x2:铁; x3:锰; y:血红蛋白。第142页,共180页。2、统计分析: 回归分析:“分析” “回归” “线性” ,打开“线性回归”对

59、话框 因变量:y 自变量:x1, x2, x3 方法:逐步 统计量 估计 描述性3、结果及解释 本题使用逐步回归方法,得到回归方程为: y=1.567-0.053x1+0.032x2 检验模型的F统计量=14.961,P0.001,回归方程有意义。第143页,共180页。5.3 曲线回归有时,两变量间不存在直线回归关系,却存在曲线回归关系。此时,可建立曲线回归方程,如对数曲线回归、指数曲线回归、多项式曲线回归等。SPSS菜单选择: “分析” “回归” “曲线估计” 然后选择合适的模型(一般在做回归之前先作散点图,观察因变量与自变量之间的关系)。第144页,共180页。散点图决定你所关心的Y决定

60、和Y有可能的X收集Y和X的数据输入SPSS绘出图形判定Y和X之间的关系第145页,共180页。例5.3 实验记下不同温度与消化酶的活性的测量值,数据见EG0503。试对二者建立合适的回归方程。1、建立数据文件EG0503。2个变量: (1)t:温度; (2)promote:消化酶的活性的测量值。第146页,共180页。2、统计分析: (1)作散点图:“图形”“散点/点状”“简单分布” Y轴:promote X轴: t (2)曲线回归:“分析” “回归”“曲线估计” 因变量:promote 自变量: t 模型 二次项3、结果及解释 (1)通过散点图,可以看出promote与t之间存在二 次项关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论