版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床研究的资料分析(一)定量变量(quantitativevariable)(数值变量)是对每个观察对象用定量方法测定某项指标大小所得的资料,一般有度量衡单位如:年龄、身高、体重、血压等类型离散型变量:数据之间存在“缝隙”,只能取有限的几个数值,如家庭人口数
连续性变量:某一区间可以取任何值,如身高、体重一、定量变量和定性变量第一节
临床科研中变量的类型(二)定性变量(categoricalvariable)(分类变量)先将观察对象按某种属性或类别分组,然后清点各组观察对象的个数所得的资料如:按血型分布,计数各血型组人数类型按照变量之间的顺序、等级、大小关系划分有序变量:变量之间呈顺序关系,如疗效(治愈、进步、好转、无效)、疾病严重程度(轻、中、重)名义变量:变量之间无顺序大小关系,类别只代表名称或标签含义,没有数量意义,如性别、职业、血型,多因素分析时需进行哑变量编码按照类别数划分二分类变量:采用0、1编码,称指示变量多分类变量:有序分类变量按由小到大编码,如1、2、3(三)变量的转换定量变量定性变量注意:搜集数据阶段尽可能搜集定量数据
例如血压二、按研究因素间的因果联系分类根据研究变量在疾病过程中的发生作用分类:自变量:它的变化可以引起某一现象或情况发生相应变化因变量:因自变量变化而引发的效应或结果中介变量:由自变量至因变量的过程中,往往需先引发一个或多个中间变化,最终才能发病,这些中间变化称为中介变量混杂变量:与研究的自变量和因变量均有关,能缩小或夸大病因与疾病间的真正联系图13-1病因关系中的变量类型第二节
统计方法的选择正确选择统计方法的条件研究目的设计类型变量的类型统计方法的应用条件专业知识选择统计方法的时间科研设计阶段一、统计方法选择基本原则研究目的设计类型变量的类型统计方法的应用条件统计方法分类:统计描述:利用统计指标、统计图或统计表,对数据资料进行最基本的统计分析,使其反应数据资料的基本特征,利于研究者能准确、全面地了解数据资料所包含的信息,以便作出科学推断统计推断:利用样本提供的信息对总体进行推断包括参数估计和假设检验(一)研究目的比较不同干预措施效果差异:t检验、卡方检验、方差分析、秩和检验分析不同因素间关系:相关分析、回归分析、主成分分析、因子分析、对应分析将变量或记录分成若干类别:聚类分析、判别分析预后因素分析:生存分析根据时间序列数据预测:时间序列模型对同类结果进行定量综合:Meta分析(二)设计类型完全随机设计:成组t检验、两独立样本秩和检验、卡方检验、单因素方差分析、Kruskal-Wallis检验配对设计:配对t检验、符号秩和检验、McNemar卡方检验随机区组设计:随机区组设计方差分析、Friedman检验等交叉设计:交叉设计方差分析等析因设计:析因设计方差分析等重复测量设计:重复测量方差分析等(三)资料类型变量类型、特征、在研究中作用:定量变量:分布?定性变量:无序分类/有序分类?二分类/多分类?自变量/因变量/混杂变量/连接变量?图13-2临床研究中统计方法选择流程图(四)统计方法的应用条件检验方法所需的前提条件必要时可做变量转换
例如:两独立样本t检验或单因素方差分析:资料独立性、正态、方差齐四格表χ2检验:样本量大于40且最小理论频数大于5正态分布法估计参考值范围:资料正态分布建立多重回归方程:检验变量间的多重共线性和残差分布的正态性二、统计方法的具体应用单变量分析双变量分析多变量分析(一)单变量分析对不含自变量,仅有因变量的资料所进行的分析内容:
样本推断总体参数估计:总体均数、总体率
单组样本资料的假设检验:单样本均数Z检验、单样本均数t检验、单样本频率检验
配对样本的假设检验:配对t检验、配对符号秩和检验
检验样本的总体分布:正态分布、二项分布、poisson分布分类:1.因变量为定量资料2.因变量为定性资料分析流程:(1)总体均数估计(2)单组样本资料的假设检验(3)配对样本的假设检验1.因变量为定量资料(1)总体均数估计:参数估计:用样本统计量推断总体参数的过程点估计区间估计当总体标准差σ已知,或σ未知但样本量足够大时,总体均数可信区间为当总体标准差不知时,总体均数可信区间为式13-1式13-2(2)单组样本资料的假设检验总体标准差σ已知或σ未知但样本量≥30→Z检验总体标准差σ未知→t检验注意:无论t检验还是Z检验都要求样本来自于正态分布不满足正态分布时,进行变量转换式13-3式13-4(3)配对样本的假设检验配对设计:将受试对象按一定条件配成对子,再随机分配每对受试对象到不同处理组将每对观察值相减,得到差值资料,看作一个样本差值服从正态分布——配对t检验差值不服从正态分布——符号秩和检验式13-5图13-3定量资料单变量分析统计方法选择流程图分析流程:(1)总体率的参数估计(2)单组样本频率的假设检验2.因变量为定性资料(1)总体率的参数估计点估计区间估计样本量n>50,np和n(1-p)均大于5,p分布接近正态分布,总体概率(1-)的可信区间(CI)式13-6式13-7样本量较小n≤50,且p接近0或1时,总体率可信区间:二项分布原理(2)单组样本频率的假设检验样本量n较大,n
及n(1-
)均大于5时,样本率服从正态分布:单组样本频率的Z检验资料服从二项分布,n<5时:二项分布概率函数求累积概率,与规定的作比较式13-8图13-4定性资料单变量分析统计方法选择流程图(二)双变量分析对只含有一个因变量和一个自变量的资料进行分析内容:因变量的分布类型自变量的分布类型自变量与因变量的相关性自变量与因变量间的数量关系自变量与因变量间的假设检验分类:1.因变量为定量资料(1)自变量为定量资料(2)自变量为定性资料2.因变量为定性资料(1)自变量为定量资料(2)自变量为定性资料1.因变量为定量资料分析流程:(1)自变量为定量资料线性相关等级相关简单线性回归(2)自变量为定性资料两独立样本t检验单因素方差分析(1)自变量为定量资料1)线性相关X、Y均是正态分布的随机变量2)
等级相关X、Y只要有1个不服从正态分布总体分布类型未知数据本身有不确定值或为等级资料3)简单线性回归X、Y已存在线性相关关系独立正态等方差(2)自变量为定性资料1)两独立样本t检验两样本均来自正态分布且方差齐不满足时可用非参Mann-Whitney法2)单因素方差分析各处理组均来自正态分布的总体不满足时可采用Kruskal-Wallis非参检验法两两比较方法:LSD-t检验、SNK-q检验和Bonferroni
法图13-5因变量为定量资料的双变量统计方法选择流程图2、因变量为定性资料分析流程:(1)自变量为定量资料Y是二分类→二分类Logistic回归Y是无序多分类→无序多分类Logistic回归Y是有序多分类→有序Logistic回归(2)自变量为定性资料Y是无序分类,X是无序/有序分类→四格表卡方或行×列卡方或Fisher确切概率法Y是有序分类,X是无序分类→秩和检验或Ridit分析Y是有序分类,X是有序分类→一致性检验和卡方趋势检验图13-6因变量为定性资料双变量分析统计方法选择流程图(三)多变量分析对一个因变量与两个或两个以上的自变量之间关系进行的分析应用:(1)筛选影响因素(2)校正混杂因素(3)建立预测模型分类:1.因变量为定量资料(1)自变量以定量资料为主(2)自变量以定性资料为主2.因变量为定性资料(1)自变量以定量资料为主(2)自变量以定性资料为主内容:因变量的分布类型自变量的分布类型自变量与因变量的相关性自变量与因变量间的数量关系自变量与因变量间的假设检验1.因变量为定量资料分析流程:(1)配伍组设计的方差分析(又称两因素方差分析)X为分类变量,各组Y正态分布各组Y非正态分布→Friedman检验(M检验)(2)协方差分析X为分类变量,各组Y正态分布协变量为定量变量(3)多重线性回归分析(多元线性回归)X为定量变量X、Y线性相关独立正态等方差(4)复相关,偏相关X为定量变量,Y正态分布图13-7因变量为定量资料多变量分析统计方法选择流程图2.因变量为定性资料分析流程:(1)分层分析X为定性资料,X数量≥2,按自变量分亚组→分析同因变量的关系方法:
Mantel-Haenszel分层卡方检验(2)Logistic回归分析
Y分类变量,X以定量变量为主,Y与X非线性i:Logistic回归的偏回归系数,表示在其他自变量不变的情况下,Xi每变化一个单位,比值比的自然对数的平均改变量种类:按研究设计类型:非条件和条件Logistic回归按因变量类型:二分类、无序多分类、有序(3)Cox回归分析估计相对危险度,生存结局与生存时间,处理删失值i:COX回归的偏回归系数,表示在其他自变量不变的情况下,Xi每变化一个单位,相对危险度的自然对数的平均改变量图13-8因变量为定性资料多变量分析统计方法选择流程图描述性统计分析结果的表达与解释统计图表定量资料定性资料统计推断结果的表达与解释多重比较结果的报告与解释方差分析结果的报告与解释关联和相关分析结果的报告与解释回归分析结果的报告与解释生存分析结果的报告与解释第三节
统计结果的表达与解释(一)统计图表统计表的原则:重点突出简单明了主谓分明层次清楚统计图的基本要求:按照资料的性质与分析目的选择图形标题位于图的正下方对图中的不同事物应通过不同的图案或颜色区别,并附图例涉及坐标系的统计图,数轴应标注合适的原点、尺度和单位一、描述性统计分析结果的表达与解释(二)定量资料定量资料集中趋势(平均水平)算术均数、中位数、众数几何平均数、调和平均数离散趋势(变异程度)标准差(方差)、四分位间距、极差和变异系数对称分布资料算术均数和标准差非对称资料及分布类型未知的资料中位数和四分位间距其他类型资料几何均数取对数后呈对称分布调和均数正偏峰分布资料变异系数
不同量纲的比较或相差悬殊的数据众数、全距概略分析(三)定性资料采用相对数指标计算阳性事件的频率频率分布强度和相对比参数
合计(401例)
非重症(249例)
重症(152例)统计量P值年龄(岁)34.7±13.331.5±11.440.0±14.6Z=-6.4#<0.001性别(男/女)129/27261/18868/84
=17.7$<0.001死亡人数25(6.23)0(0)25(16.5)=43.7<0.001接受激素治疗人数268(66.8)147(59.0)121(79.6)=18.0<0.001激素累积剂量(中位数,IQR),mg1868.0(2132)1372.18(1430)2470.48(3080)Z=-3.6<0.001激素日平均剂量(中位数,IQR),mg131.4(103.0)105.3(88.3)163.2(162.8)Z=-3.9<0.001OI分级Ⅰ级(OI<100)14(3.5)0(0)14(9.2)
Fisher<0.001Ⅱ级(100≤I<200)37(9.2)0(0)37(24.3)Ⅲ级(200≤I<300)101(25.2)0(0)101(66.4)Ⅳ级(OI≥300)249(62.1)249(100)0(0)表13-6非重症和重症SARS患者的一般情况*(节选)*
数据用均数±标准差,例数(%)或中位数(四分位数间距)表示#Mann-WhitneyU非参数检验$
(df)【例13-1】评价重症SARS激素治疗的有效性和安全性二、统计推断结果的表达与解释包括:参数估计假设检验常用统计方法的表达与解释多重比较结果方差分析结果关联和相关分析回归分析生存分析结果(一)多重比较结果的报告与解释多重比较:多样本间差异总的比较后做两两比较,以了解哪几个总体间存在差异,称为多重比较常用多重比较方法:均数比较:LSD-t检验、Bonferroni法、SNK法、Dunnett-t检验;秩均值多重比较:Bonferroni法、q检验和Nemenyi
检验率多重比较:检验水准调整法、Scheffe可信区间法用t检验、秩和检验、χ2检验做多重比较→一类错误增大在报告结果时,不仅要报告多组资料差异比较采用的统计方法、统计量及其P值,还要报告多重比较采用的方法及其结果(二)方差分析结果的报告与解释方差分析(AnalysisofVariance,ANOVA)(F检验)分类:按因素数量:单因素、双因素、多因素方差分析按设计方法:完全随机设计、配伍组设计、交叉设计、析因设计、重复测量、协方差分析等前提条件:相互独立正态分布方差齐性在报告结果时应包括各组统计描述结果、设计类型以及假设检验的目的、方差分析的检验统计量及P值,多重比较方法及结果(三)关联和相关分析结果的报告和解释关联(association):根据两个定性变量交叉分类计数列联表,作独立性χ2检验,用关联系数(0~1)衡量关联程度相关(correlation):两个定量变量间的相互关系,用线性相关(Pearson相关系数,-1~1)及Spearman秩相关系数衡量相关的密切程度相关性分析的步骤:散点图计算得出相关系数对相关回归系数做假设检验解释r和p值仅反映两变量间数量上的相互关系,不能推断生物学及因果关系在报告结果时应包括各指标的描述性统计内容、相关或关联分析过程(如散点图是否显示线性相关趋势)、相关系数的大小及其95%可信区间、假设检验方法、检验统计量和P值等、统计学结论(是否相关及相关性的强弱)(四)回归分析结果的报告与解释1.线性回归(
linearregression)研究一个因变量和另外一个或一些自变量线性依存关系的统计分析方法用途刻画线性关系,筛选危险因素,估计变量,预测和控制分类简单线性和多重线性要求线性、独立、正态、等方差不满足线性:曲线拟合不满足正态、等方差:数据变换多重线性回归中:多重共线性(自变量间相关)的识别:计算自变量相关系数矩阵、方差膨胀因子、容忍度、特征根、条件指数多重共线性的解决:筛选变量、主成分回归、岭回归某两个变量存在交互作用时:引入交互作用项(两自变量乘积)
线性回归分析结果应该包括如下内容:回归分析目的、确定分析用的自变量和因变量、检验资料是否满足进行线性回归的前提条件、拟合线性回归模型的方法、筛选自变量的方法、自变量之间是否存在共线性、是否考虑自变量之间的交互作用、最终确定的模型及其相关统计量(如确定系数、偏回归系数估计值及其标准误、偏回归系数的95%可信区间、标准偏回归系数、t值、P值等)2.Logistic回归适用因变量为分类变量的回归分析多用于研究各种危险因素与疾病发生之间的定量关系Logistic回归分析结果的报告应包括:分析目的、自变量基本统计描述、自变量筛选方法、自变量之间交互作用的考察、Logistic回归系数、标准误、P值、OR的估计值以及OR的95%可信区间例13-5:
研究子宫内膜癌与过去服用雌激素的关系188例子宫内膜癌患者188例未患子宫内膜癌妇女了解过去使用雌激素史结果:服用雌激素与子宫内膜癌发生有关(P<0.001),服用雌激素组OR=7.402,(95%CI4.534,12.083)变量系数标准误Wald
POROR的95%CI雌激素2.0020.25064.078<0.0017.402(4.534,12.083)常数项-0.6870.13725.110<0.0010.503-表13-8子宫内膜癌与雌激素关系的Logistic回归分析结果(五)生存分析结果的报告与解释将终点事件的出现与否和出现终点事件所经历的时间结合起来分析的一类统计分析方法用途:生存率估计、生存曲线比较、影响因素分析和生存预测计算生存率方法:寿命表法:大样本、粗略生存时间,生存曲线呈折线形Kaplan-Meier法:小样本、精确生存时间,曲线呈阶梯型多个生存曲线比较:单因素:Log-rank检验或Breslow检验多因素:Cox回归生存率估计结果报告应包括:生存率估计方法、生存曲线及中位生存期生存曲线比较结果报告应包括:生存曲线、生存曲线比较方法、检验统计量及其P值影响因素分析和生存预测结果报告包括:变量筛选方法、检验水准、各变量相对危险度(RR)、RR95%可信区间及其P值中介效应定义中介效应识别和检验中介效应的估算方法中介效应与间接效应交互作用概述交互作用的识别交互作用分析交互作用解释第四节
中介效应与交互作用分析(一)中介效应(mediatingeffect;mediation)的定义在疾病病因研究中,常会出现一种情况,由病因(X)至疾病(Y)的过程中,不是直接的因果关系(X→Y),先是通过先引发一个或多个中间变化,间接产生影响,最终导致疾病的发生其中的中间变化在病因分析中,被称为中间变量或中介变量(mediatorvariable,M)自变量X通过中介变量M对因变量Y产生的间接影响,被称为中介效应一、中介效应e1Y=cX+e1(1)abC’Ce2e3M=aX+e2(2)Y=c’X+bM+e3(3)XYXYM图13-11中介变量示意图c:X对Y的总效应a、b:经过中介变量M的中介效应c’:直接效应c=c’+ab中介效应研究意义:探索病因(X)导致疾病(Y)的作用机制整合已有的研究或理论例子吸烟炎性反应因子(CRP)高血压中介效应(二)中介效应识别与检验自变量与因变量存在关联(系数c)自变量与中介变量也有关联(系数a)在控制了自变量后,中介变量与因变量存在关联(系数b)在控制了中介变量后,如果自变量仍与因变量存在统计学意义的关联(系数c´)→部分中介效应在控制了中介变量后,如果自变量与因变量不存在统计学意义的关联→完全中介效应1.中介效应的识别:对方程1中自变量(X)与因变量(Y)的回归系数c做显著检验有统计学意义,继续下面第2步,检验方程2如果c没有统计学意义(说明X对Y无影响),则停止中介效应检验对方程2中自变量(X)与中介变量(M)的回归系数a做显著检验如果a有统计学意义,继续第(3)步,检验方程(3)如果a没有统计学意义(说明X对M无影响),则停止中介效应检验对方程3
(Y=c’X+bM+e3)中的回归系数b和c’做显著性检验如果b有统计学意义,则说明存在中介效应。进一步检验c’,如果c’
有统计学意义,则说明是不完全中介效应;若c’
没有统计学意义,则说明是完全中介效应,X对Y的作用完全通过M来实现,检验结束。如果b没有统计学意义,则不能排除中介效应,需要进一步做4步,Sobel检验。Sobel检验该方法直接检验中介效应ab乘积项的系数是否有统计学意义,得到一个z值,将这个z值和标准正态分布的临界z值进行比较,如果z值大于临界z值,说明中介效应存在,如果z值小于临界z值,说明中介效应不存在2.中介效应的检验(三)中介效应的估算方法
中介效应(ab)的大小中介效应与总效应之比:表示中介效应占总效应中的比重中介效应与直接效应之比(四)中介效应与间接效应中介效应属于间接效应,间接效应不一定是中介效应在中介变量不止一个时,中介效应要明确是哪个中介变量的中介效应,而间接效应既可以是某特定中介变量的中介效应,也可是部分或所有中介效应之和(一)概述1.定义当两个或两个以上因子共同作用于某一事件时,其效应明显不同于该两个或两个以上因子单独作用时的和或积,称这些因子间存在交互作用(interaction)2.类型:协同作用拮抗作用3.交互作用数学模型:相加模型相乘模型4.交互与混杂因素的区别:交互作用取决于因素的内在机制,通过统计学方法进行描述和评价混杂因素是对真实性的一种扭曲,在设计阶段和资料分析方面可以避免二、交互作用(二)交互作用的识别明确所研究的因素与事件之间是否存在统计学联系是否由偏倚或混杂所致判断交互作用是否存在是否判断交互作用存在的方法1.分层分析:各层效应量不同—存在交互Mental-Haenszel法、Woolf法、直接分层分析和最大似然比检验局限:难以分析多因素间的交互作用,且无法调整和控制研究中的其他因素2.多因素回归模型
线性回归模型→乘积项反应是否有相加交互作用Logistic或Cox回归模型→乘积项反应是否有相乘交互作用(三)交互作用分析1.交互作用的定量分析(1)交互作用超额相对危险度(RERI)(2)交互作用归因比(API)(3)交互作用指数S(S)2.相加交互作用的回归分析当模型中交互作用项的回归系数无统计学意义时,即
时,两因素同时存在时的作用等于两因素单独作用之和,此为交互作用的相加模型3.相乘交互作用的回归分析检验
是否为0即可判断相乘交互作用是否存在(四)交互作用解释统计学交互作用生物学交互作用公共卫生学交互作用描述性分析中常见的常见的错误统计推断中常见的统计学错误第五节
临床研究中的常见统计学错误(自学)一、描述性分析中常见的错误1.统计图表统计图常见错误:该用表格之处未用;表格设计不合理;标题过长;线条过多;数字小数位数不统一;表中数据的含义未表达清楚等统计表常见错误:选用的统计图类型与资料的性质不吻合;坐标轴上所标的刻度值违背数学原则,横轴等距离刻度表示不相等的数量,导致改变图形应有的变化趋势;纵横坐标轴交汇点不是坐标原点,破坏了直角坐标系的严谨性等某文对50例皮肤癌p53蛋白和增殖细胞核抗原(PCNA)的检测结果有如下一段叙述:“癌中p53蛋白和PCNA表达的比较:50例鳞癌中22例p53阴性但PCNA阳性(44.0%),p53和PCNA均阳性28例(56.0%),PCNA(+)12例,p53阴性9例(75.0%),阳性3例(25.0%),PCNA(++)23例,p53阴性9例(39.1%),阳性14例(60.9%),PCNA(+++)15例,p53阴性4例(26.7%),阳性11例(73.3%),两者呈平行关系(P<0.05)。”例13-7对差错的辨析与释疑:以上一段话的描述,不能给人以清晰的印象,若用自身对照表(表13-11)列出,则不仅有利于对比,而且两者关系一目了然表13-1150例皮肤鳞癌p53蛋白和增殖细胞核抗原表达的关系PCNAp53(例数)p53阳性率(%)+-合计+391225.0++1492360.9+++1141573.3合计28225056.0某研究目的是探讨细胞代谢中产生的活性氧如氧自由基、H2O2等,对细胞具有毒害作用。利用诱导培养N-2a细胞,研究其死亡特征(图13-13)例13-8图13-13Bcl-XL基因可以抑制H2O2诱导培养的N-2a细胞死亡(条图)
对差错的辨析与释疑:培养时间是一个连续性变量,反映事物或者现象随时间推移的变化趋势时宜选用线图(图13-14),不应该选用条图。条图割断了时间点之间的联系,它适合表达彼此之间相互独立的项目的数量大小图13-14Bcl-XL基因可以抑制H2O2诱导培养的N-2a细胞死亡(线图)(二)定量变量
定量资料统计描述中常见的描述性错误有:
误用呈正态分布定量资料的方法“均数±标准差”来取代描述呈非正态分布定量资料的方法“中位数(四分位数间距)”;利用“均数±标准误”代替“均数±标准差”来描述定量资料等。例13-9为了解胆石患者血清中相关元素和膳食状况,原作者采用病例对照方法进行了营养膳食调查及血清中元素的测定,其中胆结石患者与健康人群的膳食结构关系见表13-12表13-12平均每人每日各种食物的摄入量(
)(g/d)组别大米豆类水果类动物油病例组189.06±51.9523.38±23.57128.12±145.82.38±19.83对照组198.17±82.9644.03±43.36189.67±134.21.67±18.29辨析与释疑:动物油所对应的摄入量标准差是平均值9~10倍,很明显此资料服从偏态分布,不适合用正态分布法进行统计描述正确描述方法中位数(四分位数间距)
例13-9比较下颌升支矢状截骨术(SSRO)和下颌升支垂直截骨术(IVRO)后下颌对口颌系统功能的影响。对27例下颌前突患者(16例接受SSRO,11例接受IVRO)分别在术前、术后3个月、6个月测定其颌力、咀嚼效能例13-10表13-13两组患者术前和术后颌力的测定结果(kg,
)时间SSRO(n=16)IVRO(n=11)术前14.58±7.8516.89±9.14术后3个月10.54±5.879.63±7.24术后6个月15.02±6.6113.48±8.29辨析与释疑:错用“平均数±标准误”来描述数据分布的集中趋势和离散程度正确描述方法中位数(四分位数间距)例13-10(三)定性资料
常见描述性错误:
将构成比与率混为一谈;错误地计算平均率;分母很小时也计算相对数;相对数的比较没有注意可比性某文有一段文字叙述:“在鼻咽癌高发区的广州地区,HD(霍奇金病)并不少见。在统计的1398例淋巴瘤中HD占28.5%,较中国的平均发病率10.9%高,但比英美国家(分别为42%和53%)低例13-11辨析与释疑:错误地将构成比当作率使用,HD占淋巴瘤总数的28.5%,只是构成比,此处却解释为发病率,从而得出广州地区的发病率比中国的平均发病率高的错误结论参数估计中常见错误
常见错误:把总体均数的可信区间估计与参考值范围估计相混淆;在进行区间估计时,没有注意到是否符合正态近似条件而盲目套用公式二、统计推断中常见的统计学错误
表13-14是某研究者测得某地120名正常成人尿铅含量(mg/L),由于尿铅值高于某上限值才被看作异常,故采用
计算得到正常成人平均尿铅含量95%可信区间的上限,从而得到95%可信区间为(,26.031)例13-12表13-14120名正常成人尿铅含量频数表尿铅含量0~4~8~12~16~20~24~28~32~36~合计例数1422291815106321120辨析与释疑:把总体均数的可信区间估计与参考值范围估计相混淆正确做法利用公式
计算得到正常成人尿铅含量95%参考值范围为(,14.068)例13-12(二)假设检验中常见错误
1.不注意应用条件而误用统计分析方法
忽视t检验和方差分析的前提条件不符合
检验适用条件仍盲目套用公式研究CEA、CA19-9、CA72-4和CA242四项肿瘤标志在结直肠癌诊断的作用,分别检测手术前患者58名和手术后患者30名这4项指标(表13-15),原作者对资料进行了t检验例13-13表13-15手术前后两组4项肿瘤标志检测结果(
)组别CEA(µg/L)CA19-9(U/L)CA72-4(U/L)CA242(U/L)术前组(n=58)34.0±79.0209.0±739.07.2±4.8111.0±179.0术后组(n=30)2.0±1.211.0±10.94.3±2.810.8±17.5辨析与释疑:忽视了t检验的前提条件:正态性和方差齐例13-13正确做法通过对原始数据进行变量变换,使之满足正态性和方差齐性的要求,或者是直接用非参数检验方法。某文对31例肾细胞癌c2erbB22癌基因表达与预后的关系分析如下(表13-16):本组随访病例中5年存活者为17例,死亡14例,5年存活率为54.84%。死亡病例中13例为c2erbB22表达阳性病例,5年存活率为43.48%;阴性病例的5年存活率为87.50%(7/8例),二者经
检验,差异有统计学意义(=4.644,P<0.05)例13-14表13-1631例肾细胞癌c2erbB22表达不同者5年存活率c2erbB22存活死亡合计5年存活率(%)阳性10132343.48阴性71887.50合计17143154.84辨析与释疑:普通四格表资料做
检验时,要求样本量n≥40,并且格子的期望频数≥5。如果样本量n≥40,但是有格子的期望频数小于5但大于等于1,则需要校正
值;如果样本量n<40,或有格子的期望频数<1,应采用Fisher确切概率法例13-14正确做法Fisher精确概率检验法2.不考虑设计类型而误用统计分析方法误用成组设计t检验处理配对设计的定量资料误用成组设计t检验代替单因素方差分析进行多组间比较误用t检验处理析因设计的定量资料误用t检验处理重复测量设计的定量资料误用一般
检验代替配对设计McNemar检验将高维列联表简单拆分或合并成简单的列联表后再处理误用成组设计t检验处理配对设计的定量资料例13-15
某文用改良的Seldinger插管技术对8例经临床及病理证实的恶性滋养细胞肿瘤进行选择性盆腔动脉插管灌注化疗。治疗前后测血hCG放免测定值(表13-17),原作者采用一般t检验进行分析,得出治疗前后血hCG值有统计学差异(P<0.05)病例灌注治疗前(X1)灌注治疗后(X2)lgX1lgX2112800002100006.10725.322227550033004.87793.518531245022104.09523.3444415000009.36.17610.968551000025004.00000.39796970012033.98683.080371558848254.19283.6835842239143.62562.9609注:由于本组数据相差较大,故取其对数使之成为正态分布,经t检验(P<0.05)辨析与释疑本资料为自身配对设计,直接用t检验比较,容易增大犯假阴性错误的机会例13-15正确做法配对设计或配对秩和检验误用成组设计t检验代替单因素方差分析进行多组间比较例13-16表13-18为缺氧缺血性脑病动物模型实验研究关于大脑重量的观察结果,共分对照、治疗和预防三个组,原作者采用t检验进行多组比较。分组动物数(只)脑重量(g)左脑右脑对照130.392±0.096a0.587±0.023d治疗180.452±0.116b0.587±0.044e预防210.529±0.585±表13-18各组大鼠病变大脑重量的比较(
)t检验结果:a与b,P>0.05;a与c,P<0.01;b与c,P<0.05;a与d,P<0.01;b与e,P<0.01;c与f,P<0.01辨析与释疑用t检验分别对各组均数逐一进行比较,且每次比较检验水准仍为=0.05,这样就会增大犯错误的概率例13-16正确做法一是三组间同侧脑重量比较,需作单因素方差分析而不是t检验,当差异有统计学意义后,再进行两两比较。二是对同一组左右脑重量进行比较,应采用成组设计的t检验误用t检验处理析因设计的定量资料例13-17为探讨发育期营养不良伴发癫痫持续状态对海马神经发生的影响,将28只新生Wistar大鼠建模分为4组,分别为营养良好组、营养不良组、营养良好+惊厥组、营养不良+惊厥组,每组7只,测量各组齿状回Brdu阳性细胞数,并采用t检验比较各组的差异是否具有统计学意义(表13-19)。表13-19营养状态及有无惊厥幼鼠齿状回Brdu阳性细胞数比较(
)营养状态Brdu阳性细胞(个)有无惊厥比较(t值)单纯组伴惊厥组不良303±20374±187.05良好269±18312±243.77营养状态比较(t值)3.325.51—辨析与释疑本试验设计为析因设计,使用t检验割裂了整体设计;资料利用率低;误差自由度变小;增大犯假阳性错误概率;无法分析因素间可能存在的交互作用大小例13-17正确做法析因设计的方差分析方法,如不满足参数检验的前提条件,应进行变量转化误用t检验处理重复测量设计的定量资料例13-18某文研究消炎痛栓对肝硬化门静脉高压症患者门静脉压力的影响。在手术后10~14天停止全部用药后进行,首先经术中留置的门静脉插管测基础门静脉压、血压和脉搏,然后从肛门塞入消炎痛栓半枚(50g),再分别记录给药后0.5、1、3、5和10小时的门静脉压、血压和脉搏(表13-20)。原作者采用自身对照t检验进行统计分析。表13-20肝硬化门静脉高压症患者应用消炎痛栓后不同时间门静脉压、血压和脉搏变化用药时间(h)门静脉压(mmHg)收缩压(mmHg)舒张压(mmHg)脉搏(次/分)用药前24.44±2.71121.13±11.2877.89±9.4082±10用药后0.521.29±1.88114.21±10.3071.28±13.0179±9120.68±2.26124.50±13.0183.46±13.4683±12319.25±2.11123.68±7.4478.72±8.4277±9522.03±2.41125.56±11.8082.56±10.0882±81024.29±2.56119.40±9.9276.62±11.2076±10例13-18辨析与释疑把重复测量的单因素设计用多个配对t检验进行均值之间两两比较,割裂了整体设计,使资料利用率降低,增大了犯假阳性错误的概率例13-18正确做法重复测量的方差分析误用一般
检验代替配对设计McNemar
检验例13-19某文分析肺大细胞癌中p53蛋白表达和p53基因突变检测结果的关系,p53蛋白表达阳性者24例(40%),p53突变基因检测阳性者32例(53.3%),二者结果完全一致者44例(73.3%),二者结果不一致者16例(26.7%),见表13-21。原作者经一般
检验,=14.464,P<0.01,认为肺大细胞癌中p53突变基因阳性多于p53蛋白阳性表达,差异有统计学意义。例13-19表13-2160例肺大细胞癌p53蛋白表达与突变基因结果对照p53蛋白p53突变基因阳性阴性合计阳性20424阴性122436合计322860辨析与释疑本资料属于配对四格表,采用一般的
检验,分析其关联性(独立性);或者采用McNemar
检验,分析其差异性例13-19正确做法采用McNemar
检验将高维列联表简单拆分或合并成简单的列联表后再处理例13-20某文欲比较盆炎栓和野菊花治疗慢性盆腔炎的疗效,分别用盆炎栓和野菊花栓治疗慢性盆腔炎300例和100例(表13-22)。经
检验,认为盆炎栓组的痊愈率高于野菊花栓的痊愈率,差异存在统计学意义(P<0.01)例13-20表13-22两组疗效比较病情程度盆炎栓组例数野菊花栓组例数痊愈未痊愈痊愈未痊愈轻度51361020中度64742428重度2352414辨析与释疑这是一个结果变量为二分类变量(即痊愈与否)的三维列联表资料例13-20正确做法加权
检验或Mantel-Haenzel
检验例13-21
某作者对实验组与对照组疗效进行比较,采用一般
检验,得出实验组疗效显著地优于对照组的疗效(表13-23)表13-23两组患者在2个月、6个月、12个月时的疗效(例数)组别例数完全适应基本适应部分适应未适应总适应率(%)值P值2个月
实验组11703179717.112.54<0.01
对照组1080031052.86个月
实验组1172612582182.169.30<0.01
对照组10839177926.912个月
实验组117732371488.053.64<0.01
对照组1081113216341.7例13-21表13-22两组疗效比较病情程度盆炎栓组例数野菊花栓组例数痊愈未痊愈痊愈未痊愈轻度51361020中度64742428重度2352414辨析与释疑在收集和整理资料时违背了实验设计的要求,将原本属于“重复观测”的多因素定性资料错误地按“独立重复试验”方式进行收集和整理将一个三维列联表资料简单地拆分成三个独立的二维列联表资料对结果变量疗效的有序性不予理睬例13-21正确做法严格按重复测量设计收集资料,并采用重复测量设计定性资料的统计分析方法进行处理3.不考虑资料类型而误用统计方法将定量资料误判为定性资料从而误用统计分析方法将定性资料误判为定量资料从而误用统计分析方法将分组变量有序而结果无序的单向有序列联表误判为分组变量无序而结果有序的单向有序列联表,误用秩和检验取代
检验或Fisher精确概率法;因变量为二分类变量时选用线性回归;生存资料未用Cox回归,而是选用线性回归和检验等例13-22为了探讨雌激素受体(ER)、孕激素受体(PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER、PR受体进行检测。全部标本经10%甲醛固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER、PR阳性细胞百分率(表13-24),原作者采用
检验进行分析将定量资料误判为定性资料从而误用统计分析方法例13-22表13-24血管瘤中ER、PR检测结果(
)类别例数ER(%)PR(%)毛细血管瘤4574.18±11.7777.92±10.54混合型血管瘤4464.55±12.3468.12±15.38海绵状血管瘤1823.00±7.8925.12±9.66淋巴管瘤2326.93±15.6230.00±18.87正常皮肤69.83±6.6911.00±4.56辨析与释疑本例测量指标为“阳性细胞百分率”,研究的是四种疾病病例标本和一组正常人标本的ER、PR阳性细胞率之均值是否相同,因而应属于定量资料,涉及一个实验因素,有5个水平例13-22正确做法做平方根反正弦变换,满足正态和方差齐性,采用单因素五水平设计的方差分析,如不满足,采用非参数检验例13-23某作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体重相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,即0.0、12.5mg/kg、25.0mg/kg、75.0mg/kg,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15分钟后,给各组动物按28.0mg/kg剂量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1分钟以上作为入睡判断标准,观察给戊巴比妥钠25分钟内各组发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较差异具有统计学意义(P<0.01)。具体结果见表13-25将定量资料误判为定性资料从而误用统计分析方法例13-23表13-25美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响剂量动物数入睡动物数睡眠发生率t值P值0.010220.012.510550.01.406>0.0525.010880.03.182<0.0175.010880.03.182<0.01辨析与释疑
本资料从性质上说应属于定性资料,但原作者却错误地将其判断为定量资料。例13-23正确做法检验或Fisher精确概率法进行统计分析例13-24某文运用秩和检验处理表13-26的资料,得出不同TNM分期阳性率不同(=6.119,P=0.0134)误用秩和检验取代
检验或Fisher精确概率法食管癌TNM分期阳性阴性合计Ⅱa347Ⅱb8210Ⅲ21223合计32840表13-26CAM-1和CD44s的表达与食管癌TNM分期的关系辨析与释疑
原作者把表13-26资料视为结果变量为有序变量的单向有序的二维列联表资料,因而错误地选用了秩和检验。事实上,食管癌TNM分期这个有序变量是“原因变量”,不是“结果变量”例13-24正确做法检验或Fisher精确概率法进行统计分析双向无序R×C表检验或Fisher精确概率法R×C表中分组变量有序,结果变量无序检验R×C表中分组变量无序,结果变量有序秩和检验或Ridit分析双向有序属性相同的R×C表一致性检验双向有序属性相同的R×C表等级相关分析或典则相关秩和检验线性趋势检验结果变量的有序性是否存在相关否存在线性变化趋势4.不考虑研究目的而误用统计方法误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中物理公式解析+常规知识点+隐含知识点
- 《餐饮服务与管理》高教版(第二版)2.3摆台单元练习卷(解析版)
- 中介公司团队年终总结
- 冠脉搭桥手术病例分析
- 光伏行业报告:国内外光伏需求两旺
- 2024至2030年中国高压尿素用不锈钢角式截止阀数据监测研究报告
- 2024至2030年中国铁艺公园椅数据监测研究报告
- 2024至2030年中国轿车接油盘数据监测研究报告
- 2024年自动温度检定系统项目成效分析报告
- 2024至2030年中国石榴浓缩汁行业投资前景及策略咨询研究报告
- Q∕GDW 12176-2021 反窃电监测终端技术规范
- 系统解剖学——动脉
- 8 煤矿安全监测监控系统PPT课件
- 压力容器壁厚计算
- 新产品试制流程管理办法
- 通用横版企业报价单模板
- Excel 会计记账模板-录入凭证自动生成财务报表(超实用)
- 从高考“函数与导数”压轴题看数学学科核心素养
- 装修公司员工劳动合同
- 数控技术毕业论文幻灯片 数控立式铣床工作PPT学习教案
- 机械专业个人职业生涯规划书范文3篇
评论
0/150
提交评论