![临床研究的资料分析_第1页](http://file4.renrendoc.com/view/1d8353f435cdde8ee3f968ac04a18493/1d8353f435cdde8ee3f968ac04a184931.gif)
![临床研究的资料分析_第2页](http://file4.renrendoc.com/view/1d8353f435cdde8ee3f968ac04a18493/1d8353f435cdde8ee3f968ac04a184932.gif)
![临床研究的资料分析_第3页](http://file4.renrendoc.com/view/1d8353f435cdde8ee3f968ac04a18493/1d8353f435cdde8ee3f968ac04a184933.gif)
![临床研究的资料分析_第4页](http://file4.renrendoc.com/view/1d8353f435cdde8ee3f968ac04a18493/1d8353f435cdde8ee3f968ac04a184934.gif)
![临床研究的资料分析_第5页](http://file4.renrendoc.com/view/1d8353f435cdde8ee3f968ac04a18493/1d8353f435cdde8ee3f968ac04a184935.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床研究的资料分析第一节临床科研中变量的类型1.定量变量(quantitativevariable)称数值变量,是对每个观察对象用定量方法测定某项指标大小所得的资料,一般有度量衡单位常见计量单位包括:年龄、身高、体重、血压等类型
离散型变量:取值之间有“缝隙”,如家庭人口数
连续性变量:某一区间可以取任何值,如年龄一、定性变量和定量变量2、定性变量(categoricalvariable)
也称分类变量,先将观察对象按某种属性或类别分组,然后清点各组观察对象的个数所得的资料按照变量之间的顺序、等级划分
有序变量:变量之间呈顺序关系,如疗效、疾病严重程度
名义变量:变量之间无顺序关系,如性别按照类别数划分
二分类变量:采用0、1编码,称指示变量多分类变量:有序分类变量按由小到大编码,如1、2、3、4
名义变量的编码:可以用任何数值,但仅指其名称作用,多因素分析时的哑变量3、变量的转换定量变量定性变量注意:搜集数据阶段尽可能搜集定量数据
例如血压二、按研究因素间的因果联系分类根据研究变量在在疾病过程中的发生作用,可以分为四类:自变量、因变量、中介变量、混杂变量病因病因中介变量自变量因变量混杂因素图13-1病因关系中的变量类型
第二节统计方法的选择一、统计方法选择基本原则1、研究目的研究目的一定要明确选择合理的统计分析方法
统计描述:通过统计指标、统计图或统计表,对数据资料进行最基本的统计分析,使其反应数据资料的基本特征
统计推断:利用样本提供的信息对总体进行推断,包括参数估计和假设检验分析不同干预措施间效果有无差异t检验回归分析相关分析秩和检验卡方检验方差分析主成分分析、因子分析分析不同因素间关系将变量或记录分成若干类别分析影响生存时间和生存结局时间序列数据用以预测对同类结果进行定量分析生存分析时间序列模型判别分析聚类分析Meta分析根据研究目的选择统计分析方法的常见规则(二)设计类型不同设计类型,对应着不同统计方法常见的设计类型包括完全随机设计、配对设计、随机区组设计、交叉设计、析因设计、和重复设计等(三)资料类型
分析资料前,首先区分变量的类型和特征图13-2临床研究中统计方法选择流程图(四)统计方法的应用条件
应用统计方法前,先看是否满足检验方法所需的前提条件,必要时可做变量转换
例如:成组t检验资料满足独立性、正态、方差齐
χ2检验样本量大于40且最小理论频数大于5二、统计方法的具体应用单变量分析双变量分析多变量分析(一)单变量分析对不含自变量,仅有因变量的资料所进行的分析称为单变量统计分析应用包括:样本推断总体参数和可信区间单组样本资料的假设检验配对样本的假设检验检验样本的总体分布图13-3定量资料单变量分析统计方法选择流程图1.因变量为定量资料总体均数估计:通过样本统计量推断总体参数点估计区间估计当总体标准差σ已知,或σ未知但样本量足够大时可信区间为为总体标准差,如计算95%可信区间,Z0.05/2=1.96,如计算99%可信区间,Z0.01/2=2.58。当不知时,可用下式计算为样本均数,n为样本含量,
为标准误,S为样本标准差(代替总体标准差),t,是按自由度=n-1的t分布曲线下,两侧尾部面积各占
所对应的临界值。单组样本资料的假设检验
通过样本均数
与已知总体均数之间的差异与标准误比值,来推断样本均数所代表的未知总体均数与已知总体均数差异是否是抽样误差造成的,即是否相同σ已知或样本量≥30Z检验σ未知t检验注意:无论t检验还是Z检验都要求样本来自于正态分布配对样本的假设检验
将受试对象按一定条件配成对子(同种属、同年龄组、同性别等),再随机分配每对中的受试对象到不同处理组若差值服从正态分布,可采用配对t检验;否则,采用配对资料的符号秩和检验。检验公式为样本中各对差值d的均数,n为对子数,为样本差值的标准差2.因变量为定性资料,应用包括总体率的参数估计单组样本频率的假设检验等检验样本来自的总体分布(如二项分布、Poisson分布等)图13-4定性资料单变量分析统计方法选择流程图总体率的参数估计
样本量n足够大时(n>50),np和n(1-p)均大于5,p的分布接近正态分布,用下式计算总体概率(1-)的可信区间(CI)p为样本率,Sp为率的标准误当样本含量较小(n50),且p很接近0或1时,总体率的可信区间可按二项分布原理计算单组样本频率的假设检验
当样本量n较大时,n
及n(1-
)均大于5时,可利用样本频率p的分布近似正态分布,进行单组样本频率的Z检验p为样本率,为总体率,
为率的标准误,n为样本数如果资料服从二项分布,但n<5时,用二项分布概率函数直接求出累积概率,然后与规定的作比较
双变量分析是指对只含有一个因变量和一个自变量的资料进行分析,因此统计分析方法的选择不仅要考虑因变量的类型,还要考虑自变量的类型(二)双变量分析图13-5因变量为定量资料的双变量统计方法选择流程图因变量为定量资料1)自变量为定量资料线性相关相关程度用Pearson积矩相关系数(Pearsonproduct-momentcorrelationcoefficient)表示,符号为r,计算公式r无单位,介于-1~1之间,绝对值≥0.7,表示相关程度较强;0.4≤|r值的绝对值|≤0.7,表示中等程度相关;r值的绝对值<0.4,表示相关程度较弱。对相关系数ρ进行假设检验分母为相关系数r的标准误,自由度=n-2。
等级相关
如果X、Y不服从双变量正态分布,总体分布类型未知,数据本身有不确定值或为等级资料,应用秩相关(rankcorrelation)或称等级相关来描述两个变量间相关的程度与方向。相关系数称为Spearman秩相关系数或等级相关系数,用rs
表示简单线性回归应用:存在线性关系,可进行简单线性回归(simplelinearregression)分析方法:最小二乘法回归方程:x,y为相应的两个变量;a为截距,b为直线的斜率,又称回归系数(regressioncoefficient),计算公式:线性回归应用条件满足线性独立正态等方差决定系数(determinantcoefficient)或确定系数R2常被用来反映回归模型的拟合效果。介于0~1之间2)自变量为定性资料两独立样本t检验方差齐时方差不齐时要求:两样本均来自正态分布且方差齐,不满足时可选用非参检验中的Mann-Whitney法对两组独立样本进行比较。
单因素方差分析只安排一种处理因素的设计称为单因素设计,不安排其他任何控制因素的单因素设计即为完全随机设计。常用公式见表13-1变异来源离均差平方和SS自由度均方MSF值总变异N-1组间变异g-1SS组间/g-1MS组间/MS组内组内变异SS总-SS组间N-kSS组内/N-g表13-1完全随机设计方差分析公式若F检验发现差异,需进一步进行两两比较,常用方法包括:LSD-t检验、SNK-q检验和Bonferroni法注意:进行方差分析的前提条件是,各处理组均来自正态分布的总体,当不能满足,可采用Kruskal-Wallis非参检验法。2、因变量为定性资料1)自变量为定量资料根据因变量是二分类、无序多分类和有序多分类,分别采用二分类Logistic回归、无序多分类Logistic回归和有序Logistic回归进行分析(详细介绍见多变量分析)图13-6因变量为定性资料双变量分析统计方法选择流程图2).因变量自变量均为定性资料因变量无序分类自变量无序或有序2检验或Fisher精确概率法因变量有序分类自变量无序分类秩和检验或Ridit分析因变量无序自变量无序一致性检验或2趋势检验
四格表资料的2检验要用来检验两样本的率或构成比有无差别。整理表见表13-2处理或特征状态合计+-有aba+b无cdc+d合计a+cb+dn=a+b+c+d表13-2四格表2检验整理表专用公式a、b、c、d分别为四格表的实际频数,n为总例数校正公式当1≤T<5且n≥40时确切概率计算法当T<1或n<40时配对2检验可应用McNemar公式作配对2检验。整理表见表13-3对照病例合计有暴露史无暴露史有暴露史aba+b无暴露史cdc+d合计a+cb+dn=a+b+c+d表13-31:1配对病例对照研究资料整理表专用公式校正公式b+c<40
行列表2检验用于多个样本率的比较,样本构成比的比较
为第i行第j列所对应格子的观察频数,n为总例数,及分别为第i行合计数与第j列合计数。行列表的2检验要求理论频数小于5的格子数不应超过l/5,否则应先对列联表进行处理。处理方法主要有:增加样本例数删除理论频数较小的行或列可将较小理论频数所在行或列与性质相近的邻行或邻列合并采用确切概率法2趋势检验某因素的暴露分成由低到高不同的水平,分析暴露水平与发病率之间的剂量-反应关系,增加因果关系推断的依据暴露水平Xi合计X0X1X2…Xi病例aia0a1a2…aim1对照bib0b1b2…bim0合计min0n1n2…nin表13-42趋势检验资料整理表公式(自由度为1)xi的取值方法有两种:取每一暴露水平的中点值,或者取第i暴露水平的xi=i。(三)多变量分析对一个因变量与两个或两个以上的自变量之间关系进行的分析应用:筛选影响因素校正混杂因素预测或预报1.因变量为定量资料图13-7因变量为定量资料多变量分析统计方法选择流程图配伍组设计的方差分析
又称两因素方差分析。公式如下变异来源离均差平方和SS自由度均方MSF值总变异N-1处理组间k-1SS处理/处理MS处理/MS误差配伍组间b-1SS配伍/配伍MS配伍/MS误差误差SS总-SS处理-SS配伍(k-1)(b-1)SS误差/误差注意:前提是满足方差分析条件,如不满足则采用非参数Friedman检验。协方差分析(analysisofcovariance,ANCOVA)
一种把线性回归法与方差分析结合起来的方法,即扣除协变量的影响后再对修正后的主效应进行方差分析。协方差分析主要用于控制实验中非处理因素对实验效应的影响多重线性回归分析(multiplelinearregression)研究多个自变量(X)与一个因变量(Y)之间是否存在线性关系公式
为因变量的估计值,b0为回归方程的常数项,
bi偏回归系数原理:最小二乘法要求:线性、独立正态、等方差假设检验:回归方程、总体偏回归是系数其他分析:负相关分析、偏相关分析图13-8因变量为定性资料多变量分析统计方法选择流程图2.因变量为定性资料分层分析当自变量为定性资料,且有两个或两个以上时,可按这些自变量分成数层(亚组),然后分析它们同因变量的关系作用:1)控制混杂因素
2)判断效应修饰作用方法:
Mantel-Haenszel分层检验Logistic回归分析
能够克服多重线性回归,分层分析,χ2检验的缺点Logistic回归方程三种表达式lnP/(1-P)与各因素间呈线性关系,xi可以为危险因素、混杂因素,也可是因素间的交互作用。i为Logistic回归的偏回归系数研究类型非条件Logistic队列研究成组病例对照条件Logistic配比病例对照因变量类型二分类Logistic无序多分类LogisticLogistic分类Cox模型
又称比例风险模型(proportionalhazardmodel),是一种多因素生存分析方法,它以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响h0(t)是在时间t时相应的自变量处于0(或标准)状态下的风险函数,为回归系数,hi(t/X)为第i个患者生存到时间t的风险函数。特点:能处理生存资料中特有的删失数据。它不要求估计资料基本生存函数的类型,且可以处理分布未知的资料;因变量hi(t)是不可观测的,且随时间变化。第三节
统计结果的表达与解释描述性统计分析结果的表达与解释统计图表定量资料定性资料统计推断结果的表达与解释多重比较结果的报告与解释方差分析结果的报告与解释关联和相关分析结果的报告与解释回归分析结果的报告与解释生存分析结果的报告与解释统计图表
统计表原则,重点突出、简单明了、主谓分明、层次清楚具体要求:标题概括地指明表的内容标目分为纵标目和横标目不宜太多表线,不允许使用竖线与斜线表中数字一律用阿拉伯数字,同列数据应取相同的小数位,表中不应有空格。不详的数据可用“…”表示,不存在的数据应以“-”号表明,零值应用“0”表示释一律列在表下方,可用“*”等符号表示一、描述性统计分析结果的表达与解释统计图的基本要求按照资料的性质与分析目的恰当地选择图形标题位于图的正下方对图中的不同事物应通过不同的图案或颜色加以区别,并附图例涉及坐标系的统计图,数轴应标注合适的原点、尺度和单位(二)定量资料定量资料集中趋势算术均数、中位数、众数几何平均数和调和平均数离散趋势标准差(方差)、四分位间距、极差和变异系数对称分布资料算术均数和标准差非对称资料及分布类型未知的资料中位数和四分位间距其他类型资料几何均数取对数后呈对称分布调和均数正偏峰分布资料变异系数
不同量纲的比较或相差悬殊的数据众数概略分析(三)定性资料采用相对数指标,计算阳性事件的频率、频率分布、强度和相对比例13-1陈荣昌等人针对重症SARS激素治疗的有效性和安全性的问题,对广州市2002年12月到2003年6月期间收治的401例SARS病例进行回顾分析,探索激素治疗的有效性和安全性(Rong-changChen,Xiao-pingTang,Shou-yongTan,etal.GuangzhouExperienceTreatmentofSevereAcuteRespiratorySyndromeWithGlucosteroids:TheGuangzhouExperience.Chest,2006,129:1441-1452)。原文中Table1列出401例患者中一般资料的基本特征,由于Table1内容太多,表13-6仅节选其中一部分作为示范参数合计(401例)非重症(249例)重症(152例)统计量P值年龄(岁)34.7±13.331.5±11.440.0±14.6Z=-6.4#<0.001性别(男/女)129/27261/18868/84
=17.7$<0.001死亡人数25(6.23)0(0)25(16.5)=43.7<0.001接受激素治疗人数268(66.8)147(59.0)121(79.6)=18.0<0.001激素累积剂量(中位数,IQR),mg1868.0(2132)1372.18(1430)2470.48(3080)Z=-3.6<0.001激素日平均剂量(中位数,IQR),mg131.4(103.0)105.3(88.3)163.2(162.8)Z=-3.9<0.001OI分级Ⅰ级(OI<100)14(3.5)0(0)14(9.2)Fisherexacttest<0.001Ⅱ级(100≤I<200)37(9.2)0(0)37(24.3)Ⅲ级(200≤I<300)101(25.2)0(0)101(66.4)Ⅳ级(OI≥300)249(62.1)249(100)0(0)表13-6非重症和重症SARS患者的一般情况*(节选)*
数据用均数±标准差,例数(%)或中位数(四分位数间距)表示#
Mann-WhitneyU非参数检验$
(df)二、统计推断结果的表达与解释包括假设检验方法、单侧或双侧检验、检验水准、检验统计量、自由度及其P值与有关参数的可信区间常见的几种统计方法结果解释包括:多重比较结果方差分析结果关联和相关分析回归分析生存分析结果多重比较结果的报告与解释常用的多重比较方法:均数比较方法LSD-t检验、Bonferroni法、Student-Newman-Keuls(SNK)法和Dunnett-t检验等;秩均值多重比较方法有Bonferroni法、q检验和Nemenyi检验等;率多重比较方法有检验水准调整法(如基于Bonferroni思想)、Scheffe可信区间法简单用t检验、χ2检验,会导致一类错误增大在报告结果时,不仅要报告多组资料差异比较采用的统计方法、统计量及其P值,还要报告多重比较采用的方法及其结果方差分析结果的报告与解释方差分析(AnalysisofVariance,ANOVA),又称F检验,通过变异分解的原理进行推断分类:因素方差分析、双因素方差分析、多因素方差、完全随机设计方差分析、配伍组设计方差分析、交叉设计方差分析等前提条件:相互独立,正态分布,方差齐性
例:
为研究茶多酚保健饮料对急性缺氧的影响,将60只Wistar小白鼠随机分为对照组、低剂量、中剂量和高剂量四个组,每组15只。40天后,测得四个组小白鼠耐缺氧存活时间均数±标准差分别为(21.55±3.43)分钟、(22.88±3.56)分钟、(28.06±4.38)分钟、(31.83±4.54)分钟;4组总体均数的95%可信区间分别为(19.47分钟,23.62分钟)、(20.81分钟,24.95分钟)、(25.98分钟,30.13分钟)和(29.76分钟,33.91分钟)由方差分析得F=21.14,P<0.01;进一步经LSD-t检验,除低剂量组外,其他任何两组间在延长小白鼠耐缺氧生存时间上的差异均具有统计学意义(P<0.05)关联和相关分析结果的报告和解释
关联(association)与相关(correlation)是用来描述两个变量间的相互关系(relationship)的统计学术语类型关联相关变量定性资料定量资料方法独立χ2Pearson或Spearman取值范围0~1-1~1散点图计算得出相关系数对相关回归系数做假设检验解释r和p值注意:相关和关联是两变量间数量上的相互关系,不能据此推论两变量有生物学的联系,或因果关系,有可能只是伴随关系相关性分析结果报告内容:各指标的描述性统计内容、相关或关联分析过程(如散点图是否显示线性相关趋势)、相关系数的大小及其95%可信区间、假设检验方法、检验统计量和P值等、统计学结论(是否相关及相关性的强弱)。例:
为了探讨学龄儿童身高与体重的关系,某人搜集了10名学龄儿童身高与体重数据。10名儿童身高均数为157.6cm,标准差为8.4cm;体重均数为36.1kg,标准差为4.8kg。从散点图(图13-9)可见,学龄儿童身高和体重呈线性趋势,Pearson相关系数r=0.93(t=7.10,P<0.001),总体相关系数95%可信区间为(0.72,0.98)。结果表明,学龄儿童身高和体重间呈线性正相关图13-9儿童体重和身高散点图回归分析结果的报告与解释
1)线性回归(
linearregression)研究一个变量(反应变量,又称因变量)和另外一个或一些变量(解释变量,又称自变量)线性依存关系的统计分析方法用途刻画定性关系,筛选危险因素,估计变量,预测和控制分类简单线性和多重线性要求线性、独立、正态、等方差注意:多重共线性的识别与处理
线性回归分析结果应该包括如下内容:回归分析目的、确定分析用的自变量和因变量、检验资料是否满足进行线性回归的前提条件、拟合线性回归模型的方法、筛选自变量的方法、自变量之间是否存在共线性、是否考虑自变量之间的交互作用、最终确定的模型及其相关统计量(如确定系数、偏回归系数估计值及其标准误、偏回归系数的95%可信区间、标准偏回归系数、t值、P值等)例:
ChangHT等人为了探讨台湾年老退伍军人生活质量和影响因素,收集了260名男性年老退伍军人社会人口学和慢性疾病相关数据,并用了WHOQOL台湾简单版、SF-36、社会支持量表、老年人抑郁量表等量表进行测量。采用逐步回归的方法分析在四个领域中调查者的生活质量,结果表明抑郁症状、慢性疾病的数量、退休时军衔和亲戚的支持跟身体和心理领域相关,朋友的支持和抑郁症状与社会关系领域相关,朋友的支持和日常娱乐生活与环境领域相关。(ChangHT,LiuLF,ChenCK,etal.Correlatesofinstitutionalizedseniorveterans’qualityoflifeinTaiwan.HealthQualLifeOutcomes,2010,8(1):70)。因原文中Table5列出生活质量四个领域相关因素多重回归结果,由于内容太多,表13-7仅节选其中一个躯体领域(physicaldomain)作为示范表13-7生活质量四个领域相关因素多重回归结果(节选)影响因素偏回归系数标准化回归系数tP共线性容忍度方差膨胀因子躯体领域(校正
)常数项12.9812.52<0.0001抑郁症状-0.43-0.50-5.98<0.00010.901.11慢性疾病数量-0.45-0.33-3.77<0.00010.821.22教育程度0.680.202.12<0.050.741.36退休时军衔0.620.202.33<0.050.881.14亲戚支持0.120.182.14<0.050.911.092)
Logistic回归
Logistic回归适用因变量为分类变量的一种回归分析方法,常被用于研究各种危险因素与疾病发生之间的定量关系Logistic回归分析结果的报告应包括:分析目的、自变量基本统计描述、自变量筛选方法、自变量之间交互作用的考察、Logistic回归系数、标准误、P值、OR的估计值以及OR的95%可信区间。例:为研究子宫内膜癌与过去服用雌激素的关系,用回顾性病例对照研究方法调查188例子宫内膜癌患者,另选188例未患子宫内膜癌妇女作对照,了解过去使用雌激素史。Logistic回归分析结果见表13-8,结果表明服用雌激素与子宫内膜癌发生有关(P<0.001),服用雌激素组的优势比为7.402,95%可信区间为(4.534,12.083)。变量系数标准误Wald
POROR的95%CI雌激素2.0020.25064.078<0.0017.402(4.534,12.083)常数项-0.6870.13725.110<0.0010.503-表13-8子宫内膜癌与雌激素关系的Logistic回归分析结果5.生存分析结果的报告与解释
生存分析是将终点事件的出现与否和出现终点事件所经历的时间结合起来分析的一类统计分析方法,可用于生存率估计、生存曲线比较、影响因素分析和生存预测生存分析寿命表法Kaplan-MeierLog-rank和BreslowCox回归若是生存率估计,分析结果报告应是:生存率估计方法、生存曲线及中位生存期;若是生存曲线比较,则需报告生存曲线、生存曲线比较方法、检验统计量及其P值;若是影响因素分析和生存预测,结果报告包括:变量筛选方法、检验水准、各变量相对危险度(RR)、RR95%可信区间及其P值。例:
LiangJF等人研究SPARC和
VEGF在结肠癌蛋白表达的关系和预后意义,采用Kaplan-Meier法和Log-rank检验评价PARC和
VEGF表达对生存时间的影响,SPARC在间质细胞(MSC)表达高反应组和低反应组总生存时间(overallsurvival)和无病生存时间(disease-freesurvival)有统计学的差异,生存预后的影响因素分析见表13-9
多变量Cox比例风险回归分析表明,SPARC表达、VEGF表达以及TNM分期是总生存时间的独立预后影响因素表13-9影响结肠癌患者总生存时间的预后因素Cox回归分析结果参数回归系数标准误Wald相对危险度95%CIP值下限上限肿瘤分化0.0760.2800.0741.0790.6231.8690.785淋巴结转移-0.1740.3630.2300.8400.4121.7120.632淋巴结浸润-0.0120.3840.0010.9890.4662.0970.976入侵深度-0.3440.4310.6390.7090.3051.6490.424远处转移-0.2050.4590.2000.8150.3312.0030.655TNM0.9590.3636.9722.6091.2805.3160.008SPARC0.9990.3677.4312.7171.3245.5740.006VEGF-0.3110.1534.1360.7330.5430.9890.042MVD0.0260.0280.8871.0270.9721.0850.346第四节中介效应与交互作用分析中介效应定义中介效应识别和检验中介效应的估算方法中介效应与间接效应交互作用概述交互作用的识别交互作用分析交互作用解释定义在疾病病因研究中,常会出现一种情况,由病因(自变量X)至疾病(因变量Y)的过程中,不是直接的因果关系(X→Y),先是通过先引发一个或多个中间变化,间接产生影响,最终导致疾病的发生。其中的中间变化在病因分析中,被称为中间变量或中介变量(mediatorvariable,M),而自变量X通过中介变量M对因变量Y产生的间接影响,被称为中介效应(mediatingeffect;mediation)。一、中介效应以三变量为例,介绍中介效应关系中介效应XYe1Y=cX+e1(1)XYMabC,Ce2e3M=aX+e2(2)Y=c,X+bM+e3(3)意义:探索病因(X)导致疾病(Y)的作用机制整合已有的研究或理论,具有显著的理论和实践意义例子吸烟炎性反应因子高血压中介效应中介效应识别与检验自变量与因变量存在关联(系数c)自变量与中介变量的关联也有关联(系数a)在控制了自变量后,中介变量与因变量存在关联(系数b)在控制了中介变量后,如果自变量仍与因变量存在有统计学意义的关联(系数c´)识别对方程1中自变量(X)与因变量(Y)的回归系数c做显著检验有统计学意义,继续下面第2步,检验方程2如果c没有统计学意义(说明X对Y无影响),则停止中介效应检验对方程2中自变量(X)与中介变量(M)的回归系数a做显著检验如果a有统计学意义,继续第(3)步,检验方程(3)如果a没有统计学意义(说明M对Y无影响),则停止中介效应检验对方程3
(Y=c’X+bM+e3)中的回归系数b和c’做显著性检验如果b有统计学意义,则说明存在中介效应。进一步检验c’,如果c’
有统计学意义,则说明是不完全中介效应;若c’
没有统计学意义,则说明是完全中介效应,X对Y的作用完全通过M来实现,检验结束。果b没有统计学意义,则不能排除中介效应,需要进一步做4步,Sobel检验。Sobel检验该方法直接检验中介效应ab乘积项的系数是否有统计学意义,得到一个z值,将这个z值和标准正态分布的临界z值进行比较,如果z值大于临界z值,说明中介效应存在,如果z值小于临界z值,说明中介效应不存在中介效应检验中介效应的估算方法在中介效应分析时,除了要报告中介效应(ab)的大小外,还要报告中介效应与总效应之比,后者表示中介效应占总效应中的比重,或者中介效应与直接效应之比,它们都可以衡量中介效应的相对大小在炎性反应在吸烟与高血压病的联系中起中介效应作用的研究中得到如下结果,吸烟量与炎症因子CRP之间的偏回归系数为a等于0.500,吸烟量与高血压之间的偏回归系数c为0.225;在同时纳入吸烟量和炎症因子CRP两个变量时,吸烟量和炎症因子CRP与高血压的偏回归系数分别为0.047(c’)和0.133(b),并且c’不具有统计学意义。因此,推论炎症因子CRP在吸烟量与高血压的联系中起完全中介效应,其中介效应值为0.0665,中介效应占总效应的比重为58.59%,直接效应占总效应的比重等于41.41%(1-58.59%),中介效应与直接效应之比为1.41。即在吸烟量对高血压的效应中,有41.41%是直接效应,另外有58.59%是通过中介变量炎症因子CRP中介效应(或间接效应)起作用的例子图13-12炎症因子CRP对吸烟量和高血压联系中的中介效应例子中介效应与间接效应区别:在中介变量不止一个时,中介效应要明确是哪个中介变量的中介效应,而间接效应既可以是某特定中介变量的间接效应(即中介效应),也可是部分或所有中介效应之和在只有一个中介变量的情形下,虽然中介效应等于间接效应,但两者还是不等同(一)概述
1.定义当两个或两个以上因子共同作用于某一事件时,其效应明显不同于该两个或两个以上因子单独作用时的和或积,称这些因子间存在交互作用(interaction)二、交互作用2.类型:协同作用
拮抗作用3.交互作用数学模型:相加模型相乘模型4.交互与混杂因素的区别:交互作用取决于因素的内在机制,通过统计学方法进行描述和评价混杂因素是对真实性的一种扭曲,在设计阶段和资料分析方面可以避免(二)交互作用识别明确所研究的因素与事件之间是否存在统计学联系否由偏倚或混杂所致判断交互作用是否存在是否
判断交互作用的方法分层分析
Mental-Haenszel法、Woolf法、直接分层分析和最大似然比检验
注意:难以分析多因素间的交互作用,且无法调整和控制研究中的其他因素多因素分析
线性回归模型是否有相加交互作用
Logistic或Cox回归模型是否有相乘交互作用(三)交互作用分析1.定量分析交互作用超额相对危险度(relativeexcessriskofinteraction,RERI)交互作用归因比(attributableproportionsofinteraction,API)交互作用指数S(thesynergyindexS,S)表示X与Z两个因素均不存在时的相对危险度表示X与Z两个因素均存在时的相对危险度表示X因素存在而Z因素不存在时的相对危险度表示X因素不存在而Z因素存在时的相对危险度注意:API可以评价两因子同时存在时可归于其交互作用的比例,公共卫生学意义较大2)相加交互作用的回归分析当模型中交互作用项的回归系数无统计学意义时,即
时,两因素同时存在时的作用等于两因素单独作用之和,此为交互作用的相加模型3)相乘交互作用的回归分析检验
是否为0便可判断相乘交互作用是否存在(四)交互作用解释统计学交互作用生物学交互作用公共卫生学交互作用第五节临床研究中的常见统计学错误描述性分析中常见的常见的错误统计推断中常见的统计学错误一、描述性分析中常见的错误1.统计图表统计图常见错误:该用表格之处未用;表格设计不合理;标题过长;线条过多;数字小数位数不统一;表中数据的含义未表达清楚等统计表常见错误:选用的统计图类型与资料的性质不吻合;坐标轴上所标的刻度值违背数学原则,横轴等距离刻度表示不相等的数量,导致改变图形应有的变化趋势;纵横坐标轴交汇点不是坐标原点,破坏了直角坐标系的严谨性等某文对50例皮肤癌p53蛋白和增殖细胞核抗原(PCNA)的检测结果有如下一段叙述:“癌中p53蛋白和PCNA表达的比较:50例鳞癌中22例p53阴性但PCNA阳性(44.0%),p53和PCNA均阳性28例(56.0%),PCNA(+)12例,p53阴性9例(75.0%),阳性3例(25.0%),PCNA(++)23例,p53阴性9例(39.1%),阳性14例(60.9%),PCNA(+++)15例,p53阴性4例(26.7%),阳性11例(73.3%),两者呈平行关系(P<0.05)。”例13-7对差错的辨析与释疑:以上一段话的描述,不能给人以清晰的印象,若用自身对照表(表13-11)列出,则不仅有利于对比,而且两者关系一目了然表13-1150例皮肤鳞癌p53蛋白和增殖细胞核抗原表达的关系PCNAp53(例数)p53阳性率(%)+-合计+391225.0++1492360.9+++1141573.3合计28225056.0某研究目的是探讨细胞代谢中产生的活性氧如氧自由基、H2O2等,对细胞具有毒害作用。利用诱导培养N-2a细胞,研究其死亡特征(图13-13)例13-8图13-13Bcl-XL基因可以抑制H2O2诱导培养的N-2a细胞死亡(条图)
对差错的辨析与释疑:培养时间是一个连续性变量,反映事物或者现象随时间推移的变化趋势时宜选用线图(图13-14),不应该选用条图。条图割断了时间点之间的联系,它适合表达彼此之间相互独立的项目的数量大小图13-14Bcl-XL基因可以抑制H2O2诱导培养的N-2a细胞死亡(线图)(二)定量变量
定量资料统计描述中常见的描述性错误有:
误用呈正态分布定量资料的方法“均数±标准差”来取代描述呈非正态分布定量资料的方法“中位数(四分位数间距)”;利用“均数±标准误”代替“均数±标准差”来描述定量资料等。例13-9为了解胆石患者血清中相关元素和膳食状况,原作者采用病例对照方法进行了营养膳食调查及血清中元素的测定,其中胆结石患者与健康人群的膳食结构关系见表13-12表13-12平均每人每日各种食物的摄入量(
)(g/d)组别大米豆类水果类动物油病例组189.06±51.9523.38±23.57128.12±145.82.38±19.83对照组198.17±82.9644.03±43.36189.67±134.21.67±18.29辨析与释疑:动物油所对应的摄入量标准差是平均值9~10倍,很明显此资料服从偏态分布,不适合用正态分布法进行统计描述正确描述方法中位数(四分位数间距)
例13-9比较下颌升支矢状截骨术(SSRO)和下颌升支垂直截骨术(IVRO)后下颌对口颌系统功能的影响。对27例下颌前突患者(16例接受SSRO,11例接受IVRO)分别在术前、术后3个月、6个月测定其颌力、咀嚼效能例13-10表13-13两组患者术前和术后颌力的测定结果(kg,
)时间SSRO(n=16)IVRO(n=11)术前14.58±7.8516.89±9.14术后3个月10.54±5.879.63±7.24术后6个月15.02±6.6113.48±8.29辨析与释疑:错用“平均数±标准误”来描述数据分布的集中趋势和离散程度正确描述方法中位数(四分位数间距)例13-10(三)定性资料
常见描述性错误:
将构成比与率混为一谈;错误地计算平均率;分母很小时也计算相对数;相对数的比较没有注意可比性某文有一段文字叙述:“在鼻咽癌高发区的广州地区,HD(霍奇金病)并不少见。在统计的1398例淋巴瘤中HD占28.5%,较中国的平均发病率10.9%高,但比英美国家(分别为42%和53%)低例13-11辨析与释疑:错误地将构成比当作率使用,HD占淋巴瘤总数的28.5%,只是构成比,此处却解释为发病率,从而得出广州地区的发病率比中国的平均发病率高的错误结论参数估计中常见错误
常见错误:把总体均数的可信区间估计与参考值范围估计相混淆;在进行区间估计时,没有注意到是否符合正态近似条件而盲目套用公式二、统计推断中常见的统计学错误
表13-14是某研究者测得某地120名正常成人尿铅含量(mg/L),由于尿铅值高于某上限值才被看作异常,故采用
计算得到正常成人平均尿铅含量95%可信区间的上限,从而得到95%可信区间为(
,26.031)例13-12表13-14120名正常成人尿铅含量频数表尿铅含量0~4~8~12~16~20~24~28~32~36~合计例数1422291815106321120辨析与释疑:把总体均数的可信区间估计与参考值范围估计相混淆正确做法利用公式
计算得到正常成人尿铅含量95%参考值范围为(
,14.068)例13-12(二)假设检验中常见错误
1.不注意应用条件而误用统计分析方法
忽视t检验和方差分析的前提条件不符合
检验适用条件仍盲目套用公式研究CEA、CA19-9、CA72-4和CA242四项肿瘤标志在结直肠癌诊断的作用,分别检测手术前患者58名和手术后患者30名这4项指标(表13-15),原作者对资料进行了t检验例13-13表13-15手术前后两组4项肿瘤标志检测结果(
)组别CEA(µg/L)CA19-9(U/L)CA72-4(U/L)CA242(U/L)术前组(n=58)34.0±79.0209.0±739.07.2±4.8111.0±179.0术后组(n=30)2.0±1.211.0±10.94.3±2.810.8±17.5辨析与释疑:忽视了t检验的前提条件:正态性和方差齐例13-13正确做法通过对原始数据进行变量变换,使之满足正态性和方差齐性的要求,或者是直接用非参数检验方法。某文对31例肾细胞癌c2erbB22癌基因表达与预后的关系分析如下(表13-16):本组随访病例中5年存活者为17例,死亡14例,5年存活率为54.84%。死亡病例中13例为c2erbB22表达阳性病例,5年存活率为43.48%;阴性病例的5年存活率为87.50%(7/8例),二者经
检验,差异有统计学意义(=4.644,P<0.05)例13-14表13-1631例肾细胞癌c2erbB22表达不同者5年存活率c2erbB22存活死亡合计5年存活率(%)阳性10132343.48阴性71887.50合计17143154.84辨析与释疑:普通四格表资料做
检验时,要求样本量n≥40,并且格子的期望频数≥5。如果样本量n≥40,但是有格子的期望频数小于5但大于等于1,则需要校正
值;如果样本量n<40,或有格子的期望频数<1,应采用Fisher确切概率法例13-14正确做法Fisher精确概率检验法2.不考虑设计类型而误用统计分析方法误用成组设计t检验处理配对设计的定量资料误用成组设计t检验代替单因素方差分析进行多组间比较误用t检验处理析因设计的定量资料误用t检验处理重复测量设计的定量资料误用一般
检验代替配对设计McNemar检验将高维列联表简单拆分或合并成简单的列联表后再处理误用成组设计t检验处理配对设计的定量资料例13-15
某文用改良的Seldinger插管技术对8例经临床及病理证实的恶性滋养细胞肿瘤进行选择性盆腔动脉插管灌注化疗。治疗前后测血hCG放免测定值(表13-17),原作者采用一般t检验进行分析,得出治疗前后血hCG值有统计学差异(P<0.05)病例灌注治疗前(X1)灌注治疗后(X2)lgX1lgX2112800002100006.10725.322227550033004.87793.518531245022104.09523.3444415000009.36.17610.968551000025004.00000.39796970012033.98683.080371558848254.19283.6835842239143.62562.9609注:由于本组数据相差较大,故取其对数使之成为正态分布,经t检验(P<0.05)辨析与释疑本资料为自身配对设计,直接用t检验比较,容易增大犯假阴性错误的机会例13-15正确做法配对设计或配对秩和检验误用成组设计t检验代替单因素方差分析进行多组间比较例13-16表13-18为缺氧缺血性脑病动物模型实验研究关于大脑重量的观察结果,共分对照、治疗和预防三个组,原作者采用t检验进行多组比较。分组动物数(只)脑重量(g)左脑右脑对照130.392±0.096a0.587±0.023d治疗180.452±0.116b0.587±0.044e预防210.529±0.585±表13-18各组大鼠病变大脑重量的比较(
)t检验结果:a与b,P>0.05;a与c,P<0.01;b与c,P<0.05;a与d,P<0.01;b与e,P<0.01;c与f,P<0.01辨析与释疑用t检验分别对各组均数逐一进行比较,且每次比较检验水准仍为=0.05,这样就会增大犯错误的概率例13-16正确做法一是三组间同侧脑重量比较,需作单因素方差分析而不是t检验,当差异有统计学意义后,再进行两两比较。二是对同一组左右脑重量进行比较,应采用成组设计的t检验误用t检验处理析因设计的定量资料例13-17为探讨发育期营养不良伴发癫痫持续状态对海马神经发生的影响,将28只新生Wistar大鼠建模分为4组,分别为营养良好组、营养不良组、营养良好+惊厥组、营养不良+惊厥组,每组7只,测量各组齿状回Brdu阳性细胞数,并采用t检验比较各组的差异是否具有统计学意义(表13-19)。表13-19营养状态及有无惊厥幼鼠齿状回Brdu阳性细胞数比较(
)营养状态Brdu阳性细胞(个)有无惊厥比较(t值)单纯组伴惊厥组不良303±20374±187.05良好269±18312±243.77营养状态比较(t值)3.325.51—辨析与释疑本试验设计为析因设计,使用t检验割裂了整体设计;资料利用率低;误差自由度变小;增大犯假阳性错误概率;无法分析因素间可能存在的交互作用大小例13-17正确做法析因设计的方差分析方法,如不满足参数检验的前提条件,应进行变量转化误用t检验处理重复测量设计的定量资料例13-18某文研究消炎痛栓对肝硬化门静脉高压症患者门静脉压力的影响。在手术后10~14天停止全部用药后进行,首先经术中留置的门静脉插管测基础门静脉压、血压和脉搏,然后从肛门塞入消炎痛栓半枚(50g),再分别记录给药后0.5、1、3、5和10小时的门静脉压、血压和脉搏(表13-20)。原作者采用自身对照t检验进行统计分析。表13-20肝硬化门静脉高压症患者应用消炎痛栓后不同时间门静脉压、血压和脉搏变化用药时间(h)门静脉压(mmHg)收缩压(mmHg)舒张压(mmHg)脉搏(次/分)用药前24.44±2.71121.13±11.2877.89±9.4082±10用药后0.521.29±1.88114.21±10.3071.28±13.0179±9120.68±2.26124.50±13.0183.46±13.4683±12319.25±2.11123.68±7.4478.72±8.4277±9522.03±2.41125.56±11.8082.56±10.0882±81024.29±2.56119.40±9.9276.62±11.2076±10例13-18辨析与释疑把重复测量的单因素设计用多个配对t检验进行均值之间两两比较,割裂了整体设计,使资料利用率降低,增大了犯假阳性错误的概率例13-18正确做法重复测量的方差分析误用一般
检验代替配对设计McNemar检验例13-19某文分析肺大细胞癌中p53蛋白表达和p53基因突变检测结果的关系,p53蛋白表达阳性者24例(40%),p53突变基因检测阳性者32例(53.3%),二者结果完全一致者44例(73.3%),二者结果不一致者16例(26.7%),见表13-21。原作者经一般
检验,=14.464,P<0.01,认为肺大细胞癌中p53突变基因阳性多于p53蛋白阳性表达,差异有统计学意义。例13-19表13-2160例肺大细胞癌p53蛋白表达与突变基因结果对照p53蛋白p53突变基因阳性阴性合计阳性20424阴性122436合计322860辨析与释疑本资料属于配对四格表,采用一般的
检验,分析其关联性(独立性);或者采用McNemar检验,分析其差异性例13-19正确做法采用McNemar检验将高维列联表简单拆分或合并成简单的列联表后再处理例13-20某文欲比较盆炎栓和野菊花治疗慢性盆腔炎的疗效,分别用盆炎栓和野菊花栓治疗慢性盆腔炎300例和100例(表13-22)。经
检验,认为盆炎栓组的痊愈率高于野菊花栓的痊愈率,差异存在统计学意义(P<0.01)例13-20表13-22两组疗效比较病情程度盆炎栓组例数野菊花栓组例数痊愈未痊愈痊愈未痊愈轻度51361020中度64742428重度2352414辨析与释疑这是一个结果变量为二分类变量(即痊愈与否)的三维列联表资料例13-20正确做法加权
检验或Mantel-Haenzel
检验例13-21
某作者对实验组与对照组疗效进行比较,采用一般
检验,得出实验组疗效显著地优于对照组的疗效(表13-23)表13-23两组患者在2个月、6个月、12个月时的疗效(例数)组别例数完全适应基本适应部分适应未适应总适应率(%)值P值2个月
实验组11703179717.112.54<0.01
对照组1080031052.86个月
实验组1172612582182.169.30<0.01
对照组10839177926.912个月
实验组117732371488.053.64<0.01
对照组1081113216341.7例13-21表13-22两组疗效比较病情程度盆炎栓组例数野菊花栓组例数痊愈未痊愈痊愈未痊愈轻度51361020中度64742428重度2352414辨析与释疑在收集和整理资料时违背了实验设计的要求,将原本属于“重复观测”的多因素定性资料错误地按“独立重复试验”方式进行收集和整理将一个三维列联表资料简单地拆分成三个独立的二维列联表资料对结果变量疗效的有序性不予理睬例13-21正确做法严格按重复测量设计收集资料,并采用重复测量设计定性资料的统计分析方法进行处理3.不考虑资料类型而误用统计方法将定量资料误判为定性资料从而误用统计分析方法将定性资料误判为定量资料从而误用统计分析方法将分组变量有序而结果无序的单向有序列联表误判为分组变量无序而结果有序的单向有序列联表,误用秩和检验取代
检验或Fisher精确概率法;因变量为二分类变量时选用线性回归;生存资料未用Cox回归,而是选用线性回归和检验等例13-22为了探讨雌激素受体(ER)、孕激素受体(PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER、PR受体进行检测。全部标本经10%甲醛固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER、PR阳性细胞百分率(表13-24),原作者采用
检验进行分析将定量资料误判为定性资料从而误用统计分析方法例13-22表13-24血管瘤中ER、PR检测结果(
)类别例数ER(%)PR(%)毛细血管瘤4574.18±11.7777.92±10.54混合型血管瘤4464.55±12.3468.12±15.38海绵状血管瘤1823.00±7.8925.12±9.66淋巴管瘤2326.93±15.6230.00±18.87正常皮肤69.83±6.6911.00±4.56辨析与释疑本例测量指标为“阳性细胞百分率”,研究的是四种疾病病例标本和一组正常人标本的ER、PR阳性细胞率之均值是否相同,因而应属于定量资料,涉及一个实验因素,有5个水平例13-22正确做法做平方根反正弦变换,满足正态和方差齐性,采用单因素五水平设计的方差分析,如不满足,采用非参数检验例13-23某作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体重相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,即0.0、12.5mg/kg、25.0mg/kg、75.0mg/kg,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15分钟后,给各组动物按28.0mg/kg剂量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1分钟以上作为入睡判断标准,观察给戊巴比妥钠25分钟内各组发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较差异具有统计学意义(P<0.01)。具体结果见表13-25将定量资料误判为定性资料从而误用统计分析方法例13-23表13-25美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响剂量动物数入睡动物数睡眠发生率t值P值0.010220.012.510550.01.406>0.0525.010880.03.182<0.0175.010880.03.182<0.01辨析与释疑
本资料从性质上说应属于定性资料,但原作者却错误地将其判断为定量资料。例13-23正确做法检验或Fisher精确概率法进行统计分析例13-24某文运
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美容店房屋出租合同(2025年度)美容美发行业专用
- 二零二五年度田地租赁合同农业金融服务创新合作协议
- 《情商故事小分享》课件
- 《品牌形象塑造》课件
- 《工业化与城市化》课件
- 二零二五年度耐火材料新产品研发与市场推广合同
- 二零二五年度母猪养殖与农村土地流转合作合同
- 《电路向量法》课件
- 人工智能推动大健康产业高质量发展的意义
- 《厦门大学硕士生》课件
- 《隋朝的统一与灭亡》 -完整版课件
- API-650-1钢制焊接石油储罐
- 职业危害告知书(最新版)
- 会计专业工作简历表(中级)
- 金融科技课件(完整版)
- 医院压力性损伤患者质控标准
- 医疗机构规章制度诊所诊所规章制度
- 幼儿园中班开学第一课
- 饮品店操作流程图
- 风居住的街道钢琴二胡合奏谱
- PADS元件封装制作规范要点
评论
0/150
提交评论