




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS统计分析基础3 简单线性相关与回归 医学研究中经常要研究两个变量的关系问题,如年龄与体重,血压与病死率等。在弄清两个变量关系之后,可以从一个变量的数值去估计另一个变量的数值,例如可根据前人研究“体重(Kg)=年龄(周岁)2+8” 对体重做出估计,从而省去测量体重的麻烦。三、计量资料常用统计分析简单线性相关应用条件 1 X、Y双变量均为正态分布的资料。2 相关的变量应有内在联系。如年龄与体重,年龄与 身高有内在联系;而儿童身高与树高是伴随关系, 变量“时间”与身高及树高的潜在联系造成了身高与 树高似有正相关关系的假象。3 奇异值应剔除。4 P0.05时,r 无意义。P0.05,如果r过小
2、,相关 程度较低,例如r=0.20, r2=0.04,说明因变量中只有 4%的量与自变量相关。例统计分析方法 Correlate Bivariate 进入双变量 选择相关分析指标 默认“Pearson” 默认“双尾检验” OK结果:胸围与肺活量无相关关系。例某地一年级12名女大学生的体重与肺活量侧值如表,二者是否直线相关?体重(Kg)424246464650505052525858肺活量(L)2.552.202.752.402.802.813.413.103.462.853.503.00上图为原始散点图及编辑后相关关系图下表为相关关系分析结果: P=0.005,r= 0.749, 强正相关例
3、某研究生论文中 AET-PET与QRS相关例 某研究生论文中 TsO最大与最小差与TsO标准差相关关系图示:某篇论文中年龄与左、右心室功能的相关关系 分别为r=-0.73, r=-0.71 正相关:0r1 负相关:-1r0 不相关:r=0相关类型线性回归的概念简单线性回归知道双变量相关后,可建立线性回归方程 Y=a+bX例8-1三、计量资料常用统计分析SPSS统计方法1 首先按LINE做判断(线性、独立、正态、方差齐) AnalyzeRegressionLinear选择“自变量”及“应 变量” Method默认为“Enter” 单击”Statistics选 取“Estimates”、“Mode
4、l fit”、“Durbin-Watson” 单 击“Continue” 再单击“Plots” 选择“SRESID”作 为Y轴,“DEPENDNT”作为X轴ContinueOK三、计量资料常用统计分析结果:上图:模型的拟合优度良好, 相关系数 r=0.882 中图:模型的检验结果有统计学意义, p=0.004 下图:常数项及自变量均有统计学意义, 常数a=1.662, 回归系数0.139 Y=0.139X+1.662,即尿肌肝含量=0.139年龄+1.662三、计量资料常用统计分析注意:本图为以尿肌酐含量为横轴,学生化残差为纵轴的散点 图,用以观察残差是否有随应变量增大而改变的趋势, 也就是诊
5、断应变量的独立性,本例残差较集中。否则, 应采用下述“加权的简单线性回归”方法。加权的简单线性回归例1 首先绘制散点图,可见IgG水平与年龄呈直线相关。2 拟合一般的线性回归模型,绘制残差散点图。发现 应变量的方差不齐,有随自变量增加而加大的趋势。 由于不符合建立一般线性回归模型。应进行加权线 性回归。2 计算权重变量 w=1/x23 加权线性回归操作步骤: 散点图示有直线趋势图示 应变量的残差有随自变量增大而加大的趋势。故应行加权线性回归。上图:模型拟合优度, R=0.949中图:拟合模型有统计学意义 P0.0001下图:常数项a=-0.172; 回归系数=40.951 y= 40.951x
6、 - 0.172相关系数r 在P0.05, 样本N较大的前提下, r0.7 强相关决定系数r2 由自变量x解释的部分占y的百分数,例如 r2 =0.74030.7403=0.5408, 表明由自变量x解释的部分只占y的54.8%,还远未认清影响y 变异的其他因素, 三、计量资料常用统计分析简单线性相关作图方法:GraphsScatter/DotSimple Scatter 单击“Define” Y 轴输入“因变量”,X轴输入“自变量” OK 然后在图形编辑窗口编辑图形简单线性回归方程计算方法:AnalyzeRegressionLinear选择 “自变量”及 “应变量” Method默认为“En
7、ter” 单 击“Statistics”选取 “Estimates”、“Model fit”、“Durbin- Watson” 单击“Continue” 再单击“Plots” 选择“ SRESID”作为Y轴,“DEPENDNT”作为X轴 ContinueOption 选择“Useprobality of F”, “Entre 0.05” 选择:Includeconstantinequation” Continue OK三、计量资料常用统计分析上图为简单直线相关图,下表包含有回归方程中的a与b4 曲线回归三、计量资料常用统计分析(1) 变量转换法例 变量转换后呈直线相关(2)曲线拟合法例本例散点
8、图示非直线相关SPSS操作步骤三、计量资料常用统计分析回归方程 Y=19.745+7.777InX图示按对数曲线拟合的相关关系参数统计与非参数统计 参数统计 非参数统计(parametric statistics) (nonparametric statistics) 对总体的分布类型不作任何要求 可用于任何类型资料, 对于符合参数统计分析条件者,采用非参 数统计分析,其检验效能较低。计量资料,呈正态分布依赖于特定分布类型,比较的是参数四、计数资料常用统计分析 1 描述性分析率 率=随机事件实际发生数/可能发生该事件的总数100%,例如:治愈率=56/128=43.8%. 容易混淆的两对率:病
9、死率与死亡率;患病率与发病率相对比 相对比=甲指标/乙指标(或100%),例如949年肺结核死亡率为174.5/10 万,1965年为38.4/10万,1949年是1965年的174.5/38.4=4.5倍,或1965年较1949 年下降38.4/174.5 100% =22%。构成比 构成比=事物内部某组成部分的个数/各组成部分总数100%例如,某医院护 士总数217人,其中主任护师3人,主任护师构成比为3/217=1.4%。2 样本率与已知总体率的比较二项分布检验(Binomial Test) 医学中的生与死、患病与否、阳性与阴性只能是相互对立的两类,称为二项分布。例:某地某时期出生40名
10、婴儿,其中女性12名(sex=0),男性28 名(sex=1),问出生比例是否失调(总体概率约为50%)?SPSS统计方法: 输入数据 变量加权 AnalyzeNonparametric Tests Binomial Test 选择分析变量进入“Test Variable List” “Test Proportion”中键入0.50 OK四、计数资料常用统计分析变量加权方法DataWeight Cases选择“Weight Cases”为 “cases by”进入频数变量OK结论:男婴明显比女婴多。四、计数资料常用统计分析3 一个样本内各计量值之间的比较非参数检验中的卡方检验(x2检验)例.
11、某地1周各日内死亡数如表,问每日死亡危险是否相同?星期死亡数一11二19三17四15五15六16日19四、计数资料常用统计分析SPSS统计方法: 输入数据 变量加权 AnalyzeNonparametric Tests Chi-square Test 选择分析变量(Day) 进入“Test Variable List” OK 结果:各日死亡率不相同。四、计数资料常用统计分析4 两个样本率的比较四联表卡方检验四联表资料阳性数阴性数合计甲组乙组合计四、计数资料常用统计分析皮尔逊卡方检验(Pearson Chi-squuare)例四、计数资料常用统计分析SPSS统计方法频数加权Crosstabs过程
12、 四、计数资料常用统计分析结论:由b可知,本例没有任何格子中的理论频数5,无需校正,采用皮尔逊卡方检验,P=0.012。中药与西药的治愈率差异有统计学意义。中药治愈率高。例 正常组45例,其中男25例,女20例;治疗组60 例,男40例,女20例,问两组性别是否有差异? 应用22列联表法,P=0.246, 差异无显著性。 男性 女性正常组 25 20治疗组 40 201125122021402220耶茨连续性校正的卡方检验(Continuity Correction)四、计数资料常用统计分析本例在“Statistics”中加选“risk”后得到上表。 Odds Ratio for tiyudu
13、anlian(参加/未参加) OR=0.169 For cohort fufa=是 RR=0.195优势比( OR ,Odds Ratio,亦称比值比) 优势比为两个互相排斥概率之比,表现为两个比值之比。本例中,冠心病复发者参加体育锻炼的比例为2/10=20% 冠心病复发者未参加体育锻炼的比例为8/10=80% 二者比值为0.2/0.8=0.25 无冠心病复发者参加体育锻炼的比例为62/104=59.6% 无冠心病复发者未参加体育锻炼的比例为42/104=40.4% 二者比值为0.596/0.404=1.48 参加体育锻炼者冠心病复发的 OR=0.25/1.48=0.169结论:冠心病是否复发
14、与体育锻炼有关,冠心病初发后进行体 育锻炼者复发冠心病危险是不参加锻炼者的0.169倍,即体 育锻炼将减少1-0.169=0.831(83.1%)的复发危险。相对危险度(Relative Risk,RR) 本例中,冠心病复发的相对危险度是指参加体育锻炼者复发 的概率与未参加体育锻炼者复发概率的比值,其估计值为 (2/64)/(8/50)=0.195。即参加体育锻炼者复发危险是未参加体育锻 炼者复发的0.195倍,亦即减少1-0.195=0.805(80.5%), 与OR =0.169 (减少83.1%) 相近。 当事件发生率较小(例如0.1) 时,OR可作为RR的估计值。 RR多用于前瞻性资料
15、,OR多用于回顾性资料。风险比(Hazard Radio, HR) HR是Cox回归模型得到的比值,以Exp(B)表示,意义与RR相同。 Exp (B) 为指数函数, 其中B为Cox回归系数, Exp (B) =e的B次方 , e=2.718281举例供参考,统计方法从略 左上图:整理后数据 右上图:基于各协变量均值的生存曲线 下图:第2步中,年龄及手术时间都是死亡危险因素,性别不是。 年龄 HR= Exp(B)= 1.263, 每增1岁,术后死亡风险增加26%。 手术时间 HR= Exp(B)= 1.560, 确诊后到手术时间每增1个月,术后死亡风险增加56%OR出现于 “列联表”卡方检验中
16、HR(或称RR)出现于Cox回归模型中RR = HR OR (发生事件的概率小时)5 费歇尔精确概率检验(Fisher检验)四、计数资料常用统计分析SPSS统计方法: 由于N 40,且理论频数5 的格子数 40,且理论频数1-5的格子数20%时Yates连续校正。N 40, 或理论频数0.0167, 差异无显著性。 甲丙比较:P=0.0120.0167,差异无显著性。四、计数资料常用统计分析7 多个构成比的比较RC无序列联表的卡方检验四、计数资料常用统计分析SPSS统计方法:与四格表卡方检验相同,但Cell中选择“Column”的百分数。结果:各年龄中异常、可疑、正常率分别为7.9%, 18%
17、,73.1%. P=0.000, 差异有统计学意义。RC无序列联表的卡方检验的注意事项1 表中一般不宜有20%以上格子的理论频数5,或一 个格子的理论频数1。否则应进行下述处理: 增加样本含量。 将理论频数太小的行或列合并。 Fisher检验2 要想知道哪两个样本率或构成比之间有差异,需进行 RC表的卡方分割。8 RC表的费歇尔精确概率检验(Fisher检验)四、计数资料常用统计分析 结论:3格理论频数5,采用蒙特卡罗方法,P=0.007。两种方法的疗效有显著差异 。五、等级资料常用统计分析两个独立样本单向有序 RC表资料-wilcoxon秩和检验(威尔科克森秩和检验,威-曼-怀氏秩和检验)
18、列联表中一个是分类变量,另一个是等级变量。五、等级资料常用统计分析SPSS统计方法五、等级资料常用统计分析 结论:轻度与重度皮损的疗效不同。五、等级资料常用统计分析趋势卡方检验应用列联表中线性关系(Linear-linear Association)统计量进行分析,过程如下: 皮尔逊检验p=0.142,即单从疗效构成上看不出统计学差异。趋势检验p=0.01,精确概率为0.011,因此可以认为皮损程度与疗效间存在线性趋势。2 多个独立样本单向有序RC表资料-Kruskal-Wallis检验(克鲁卡尔-瓦利斯检验)五、等级资料常用统计分析SPSS统计方法五、等级资料常用统计分析结论:上图:Krus
19、kal-Wallis H 检验结果,蒙特卡罗法 精确概率P=0.196下图:为中位数检验结果,蒙 特卡罗法精确概率 P=0.273。注意:中位数检验效能低于 Kruskal-Wallis H检验。当格子中理论频数小时,采 用蒙特卡罗法精确更合适。结论:三种手术方法的疗效无 统计学差异。3 双向有序RC表资料(1)两个双向有序变量是否有相关关系:典型相关分析 Spearman等级相关。(2)若两个双向有序变量有相关关系,是否为直线相关?可进 行Jonckheere-Terpstra线性趋势检验。(3)多中心实验结果,需进行Cochran-Mantel-Haenszel检验。五、等级资料常用统计分
20、析(1)Spearman(斯佩尔曼)等级相关检验五、等级资料常用统计分析SPSS统计方法Correlation Coefficients中可加选“Pearson”以对比。五、等级资料常用统计分析上表:Spearman结果, p=0.057,二 者不相关。下表:一般Peaeson结果, p=0.01, 二者相关。因本例为定性资料,故应采用Spearman结果(2) Jonckheere- Terpstra 线性趋势检验五、等级资料常用统计分析SPSS统计方法 Nonparametric TestK Independent Samples 选择试验变量与分组变量选择Jonckheere- Terp
21、stra 选择精确检验 P=0.006, 结论:医疗形式与满意度存在线性趋势,即随公费医疗比例的增加,满意度也相应增加。(3)多中心Cochran-Mantel-Haenszel检验例五、等级资料常用统计分析SPSS统计方法 将“试验中心”进入“分层变量”五、等级资料常用统计分析上表:卡方检验结果,二中心 的精确 检验P均接近0.05(0.049, 0.055)。下表:分层Cochran-Mantel-Haenszel检验 结果, P=0.003, P=0.005,表明去 除混杂因素后,病程与疗效有关, 疗程越短,疗效越好。本例应选用 此方法。六、诊断试验评价指标及ROC曲线一、存在“金标准”
22、 时的评价指标1 敏感性及特异性等1.1 应用前提 某诊断试验结果与“金标准”检查结果比较, 金标准 必须是可靠、公认的临床诊断方法。1.2 方法 采用Yeyushalmy四格表评价模式。 Yeyushalmy四格表评价模式诊断试验结果 金标准 病例(有病) 对照(无病) 阳性 真阳性 假阳性(误诊) 阴性 假阴性(漏诊) 真阴性例 以冠脉造影为金标准,行CK-MB检查: 15例患者,12例CK-MB(+)者中,10例是MI 真阳性 2例不是MI 假阳性3例CK-MB(-)者中, 2例不是MI 真阴性 1例是MI 假阴性1.3 名词敏感性=真阳性/(真阳性+假阴性)特异性=真阴性/(真阴性+假
23、阳性)阳性预测值=真阳性/(真阳性+假阳性) 注:由诊断试验检测为阳性的样本中,真正患者所占的比例为阳性预测值。阳性预 测值主要受患病率的影响,患病率越高,则阳性预测值也高;临床医师根据某病的 患病率和诊断试验的阳性结果就能预测就诊者患某病的可能性大小;当患病率一定 时,特异性越高,阳性预测值越准确。阴性预测值=真阴性/(真阴性+假阴性) 注:由诊断试验检测为阴性的样本中,真正无病者所占的比例为阴性预测 值。当患病率一定时,诊断试验的敏感性越高,则阴性预测值越高。准确性=(真阳性+真阴性)/ 受试总人数 注:准确性亦称“功效率”、“粗一致性”、“约登指数”、“真实性”等,指 不产生假阳性和假阴
24、性结果的效率,是一种将敏感性及特异性相结合考 虑的综合质量指标。阳性似然比= 敏感性/(1- 特异性)阴性似然比 = (1- 敏感性)/ 特异性患病率=(真阳性+假阴性)/ 受试总人数1.4 举例检测血清铁蛋白水平诊断缺铁性贫血(IDA)经与金标准诊断(骨穿)结果比较,有关数据填入四格表如下缺铁性贫血 (骨穿证实,金标准)有病(是)无病(否)血清铁蛋白水平阳性(65mmol/L) 78 1500 敏感性=真阳性/(真阳性+假阴性)=90%特异性=真阴性/(真阴性+假阳性)=85%阳性预测值(即验后概率) =真阳性/(真阳性+假阳性)=73%阴性预测值=真阴性/(真阴性+假阴性)=95%阳性似然
25、比 = 敏感性/(1- 特异性)=6 注:表示以血清铁蛋白水平65mmol/L为界值时, 缺血性贫血出现阳性的概率是非 缺血性贫血出现阳性结果的概率的6倍。阴性似然比 = (1- 敏感性)/ 特异性=0.12 注:表示以血清铁蛋白水平65mmol/L为界值时, 缺血性贫血出现阴性结果的概率 仅是非缺血性贫血出现阴性结果的概率的1/8左右。患病率= (真阳性+假阴性)/ 受试总人数= 32%SPSS统计方法 频数加权AnalyzeDescriptive Crosstabs分别进入行、列变量单击“Ststistics” 选“Risk” 单击“Cell” 选“Row、Column” OK六、诊断试验
26、评价指标及ROC曲线OR=67.19,表明出现MI者的ECG结果阳性的优势是不出现MI患者的67倍。二、不存在金标准时Kappa检验 两种试验方法均不是”金标准”时,只能比较其试验结果的一致性, 不能计算敏感性及特异性等。 SPSS统计方法: 与灵敏度等相同,只在“Ststistics” 增选 “Kappa” 判断: Kappa 00.4 一致性不理想 Kappa 0.40.7 一致性一般 Kappa0.75 具有较好的一致性 六、诊断试验评价指标及ROC曲线例 静脉血糖诊断试验与末梢血糖诊断试验 的比较 乙法甲法合计+-+-3671216548172合计43177220六、诊断试验评价指标及
27、ROC曲线 本研究是传统诊断试验方法(静脉血糖诊断试验)与新诊断试验方法(末梢血糖诊断试验)的比较,不是某一诊断试验与金标准结果的比较,其敏感性、特异性指标的计算是错误的。象这类研究对象中既有“有病者”亦有“无病者”的两种试验结果的比较,可选Kappa一致度系数k进行评价本例k=0.737,表明静脉血糖诊断试验与末梢血糖诊断试验结果具有较好的一致性。ROC 曲线 (receiver operating characteristic curve ,受试者工作特性曲线 ) 同一项检测方法,采用不同的诊断临界值,就有不同的敏感度及特异度,为了更好地评价检测方法的诊断价值,必须考虑各种可能的诊断临界值
28、。 ROC曲线就是通过改变诊断临界值,获得多对敏感度及特异度值,然后按敏感度为横坐标,1-特异度为纵坐标,绘制ROC曲线,计算与比较ROC曲线下面积,反映诊断试验的诊断价值。 ROC分析资料分为连续性资料(常见于某些定量资料)、有序分类资料(医学影像资料及心理学评价资料)两类。3.1 简单连续性资料首先整理数据:一列为MCV结果,另一列为骨髓诊断结果: 0=正常,1=异常SPSS统计方法由ROC曲线可得出某试验方法理想的敏感性及特异性界值:即最靠左上角的某点所对应的敏感性及特异性。理想界值计算方法MCV Sep 1-Spe Spe Sep+Spe 51 0 0 1 1 55 0.029 0 1 1.029。 79.5 0.559 0.288 0.712 1.271 80.5 0.618 0.318 0.682 1.300 81.5 0.706 0.364 0.636 1.342 82.5 0.735
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 组织生命周期与战略选择考核试卷
- 电机制造中的电机运行监测技术考核试卷
- 棉麻企业人力资源激励制度与绩效管理体系优化实践考核试卷
- 十年后的家乡初一语文作文
- 前方初二语文作文
- 描写风景的初二语文作文大全
- 皮革制品的环保标准与国际认证考核试卷
- 电路分析与仪器设计考核试卷
- 电视机制造业的企业文化塑造与传承考核试卷
- 管道工程质量管理规范与标准考核试卷
- 图文转换-图表(小题训练)(解析版)-2025年部编版中考语文一轮复习
- 与数列相结合的概率综合问题-2022年高考数学二轮复习之大题专练(解析版)
- 中考数学函数一次函数复习课件
- 全套教学课件《工程伦理学》
- 倍他司汀推广方案
- 山东省济南市2023-2024学年高二下学期7月期末考试 数学 含解析
- 2024年认证行业法律法规及认证基础知识
- 智鼎在线测评题图形题
- 高考新题型现代文阅读Ⅱ小说之双文本比较阅读答题攻略-2025年高考语文一轮复习
- 2024年山东省菏泽市曹县小升初英语试卷
- 智慧园区规划和建设咨询服务合同
评论
0/150
提交评论