




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多因素分析,概述:多因素分析 又称为多变量分析or多元统计方法(简称多元分析(Multivariate analysis),在病因危险因素、诊断试验、防治效果、疾病预后、环境卫生、妇幼卫生、药物、评价、计划生育等方面更为广泛被应用。就众多客观存在的因素对研究观察结果影响的认识,较之更为全面和深入,因此它对提高研究水平有重要意义。,常用多元统计学方法假设检验回归分析,均向量比较 多元方差分析,线性回归 非线性回归,Logistic回归 COX模型,分类与归类相关分析,判别分析 聚类分析 多维标度法,典型相关分析 因子分析 主成分分析,设计与应用时应注意的问题:,A、样本含量一般至少是研究因素个
2、数510倍。 B、指标的变换与数量化,量化指标 要注意大小顺序。 C、按设计时确定的多元分析方法所 要求的条件收集资料。,D、设计时为防止主要因素OR指标 的遗漏,在条件允许的情况下, 尽可能多观察几个指标OR因素, 分析前可椐调查结果舍去部分因 素。 E、分析时要通过回代与实践检验。 F、注意应用条件,如应用回归方 程、判别式要注意建立时条件相 同。,多因素方差分析概述: 单因素方差分析是检验多个样本均数间差别有无统计学意义的统计学方法。 在医学领域中,还经常碰到研究多个因素对某个观察指标的作用的问题 。 多因素方差分析是分析两个及两个以上因素对观察指标影响的统计方法。,方差分析中,影响观察
3、指标的因素称为因子(factor);因子所处的状态称为因子的一个水平(level of factor);各因子水平的组合称为处理(treatment).,二因子方差分析例:A、B两药治疗缺铁性贫血一例,试验结果如下: 四种疗法治疗缺铁性贫血后红细胞增加数(1012/L),本例研究目的之一为A药的使用是否会引起病人的红细胞数变化。检验H01: + = + 研究目的之二为B药的使用是否会引起病人的红细胞数的变化。检验H02: + = +,研究目的之三为A药与B药是否有交互作用。所谓有协同作用,是指同时用A、B两药起的作用大于单独用A药和B药的作用之和。所谓有拮抗作用,是指同时用A、B两药起的作用小
4、于单独用A药各B药的作用之和。,不论协同或拮抗作用均意味着A、B药同时使用的作用不等于单独作用之和。两药有无协同作用或拮抗作用,只要检验假设: H03: - = - 或H03: - = -,例题的统计量,方差分析表,注意:当因子A与B间的交互作用有统计学意义时,对A(或B)的单独作用的解释须小心。本例,用B药时,用A药病人比不同时用A药的病人的红细胞数均数大,不用B药时,用A药病人比不同时用A药的病人的红细胞数均数也大,故可说明A药有效。但有时可能出现这种情况,用B药时,用A药病人比不同时用A药的病人的红细胞数均数大,不用B药时,用A药病人比不同时用A药的病人的红细胞数均数小,此时就不能简单地
5、说A药有利于病人红细胞数增加,需分别就用B药和不用B药两种情况说明A药的作用。对B作用的作用的解释也是如此。,方差分析变异来源:,各自的自由度分别为:,三因子方差分析 例题 某研究者以大白鼠作试验,观察指标是肝重与体重之比(5%),主要想了解正氟醚对观察指标的作用,同时要考察用生理盐水和用戊巴比妥作为诱导药对正氟醚毒性作用有无影响,对不同性别大白鼠诱导的作用有何不同,以及对不同性别大白鼠正氟醚的作用是否相同。,方差分析的随机效应模型 方差分析中的因子有选择型与随机型之分,若数据资料中涉及到因子水平是研究者关心的因子水平全体,则该因子属于选择型因子;相应的模型称为固定效应模型。,若数据资料中涉及
6、到因子水平只是研究者关心的因子水平总体的一个样本,则该因子属于随机型因子;若你的研究中有某些因子是随机型因子或全为随机型因子时,方差分析的模型与固定效应模型相同,但关于主效应、和交互效应的假定及F统计量的计算公式有些不同。,实例 某医院管理者欲了解血压计与量血压的医生对血压测定结果是否有影响。他在医院中随机抽取3台血压计,4名医生,对24名体检者测量血压,下面是舒张压的观察结果,请作分析。,用随机效应模型作为方差分析时,离均差平方和与自由度的计算与固定效应相同,但无效假设与F统计量的计算有所不同。,它们的计算公式为:,方差分析的混合效应模型例题:设某人研究围产期窒息对新生儿中血中次黄嘌呤浓度是
7、否有影响,同时还了解新生出生一小时内次黄嘌呤浓度是否有变化。他随机抽取围产期窒息9名,不窒息的正常新生儿9名(作为对照)对每组的9名新生儿随机安排三个不同时间,测定血中次黄嘌呤浓度如下:,用混合效应作方差分析时,离均差平方和与自由度的计算与固定效应相同,但无效假设与F统计量不同。它们的计算公式为:,几点说明1、每个处理均有观察且有相同观察例数(n),这种设计称为完全、平衡设计。若每个处理均有观察,但观察例数不等,则属于完全、不平衡设计。2、方差分析要求观察值独立且服从正态分布,还要求各处理组有相同的方差。在这三个条件中,对独立性要求最严,对正态性要求最宽,当各处理组有相同观察例数时。对方差齐性
8、的要求也不严。,3、本章仅介绍二因子、三因子方差分析,二因子方差模型中除了各因子的主效应外,还有两因子的一级交互作用项;三因子模型中除了主效应,每两因子的交互效应外,还有三因子的二级交互效应;四因子模型中除主效应,每两因子一级交互效应,三因子的二级交互效应;还有四因子的三级交互作用项;五因子及五个以上的因子的模型以此类推。,协方差分析 检验两个或两个以上均数间差别的显著性,可考虑用方差分析。方差分析要求各比较组除了所施加的处理因素不同外,其它对观察指标有影响因素的因素齐同或均衡,即要求控制对观察指标有影响的其它因素。在实际工作中,有时有些因素无法控制或由于实验设计的疏忽、实验条件的限制等原因造
9、成对观察指标有影响的个别因素未加控制或难以控制。如降压药物疗效考核的临床试验中,病人的初始血压水平对服药一段时间后血压下降量有相当的影响,但病人初始血压水平是难以控制的。如果不考虑病人初始血压水平的差异,直接用方差分析的方法比较不同处理组病人的平均血压下降量,以评价药物的降压效果是不恰当。如何在比较两组或多组均数间差别的同时扣除或均衡这些不可控因素的影响,可考虑采用协方差分析方法,协方差分析的基本思想和步骤一、基本思想 协方差分析(analysis of covariance,ANCOVA)是将线性回归分析与方差分析结合起来的一种统计分析方法。在方差分析中,影响观察指标Y的因素往往是一些定性变
10、量,而在线性回归分析中,影响Y的都是定量变量。协方差基本思想就是将那些定量变量X(指未加控制或难以控制)对Y的影响看作协变量(convariate),建立应变量Y随协变量X变化的线性回归关系,并利用这种回归关系把X值化为相等后再进行各组Y的修正均数(adjusted mean)间比较的假设检验,其实质就是从Y的总离均差平方和中扣除协变量X对Y的回归平方和,对残差平方和作进一步分解后再进行方差分析,以更好的评价各种处理的效应。,二、应用条件 协方差分析(analysis of covariance,ANCOVA)有两个重要的应用条件:一是与方差分析的应用条件相同;二是各总体客观存在线性回归关系且
11、斜率相同(回归线平行),即要求各样本回归系数b本身有统计学意义而各样本回归系数b间的差别无统计学意义。因此进行协方差分析时,必须先对样本资料进行方差齐性检验及回归系数的假设检验,若满足这两个条件或经变量变换后满足这两个条件,才可作协方差分析。,完全随机设计资料的协方差分析例 为研究A、B、C三种饲料对猪的催肥效果,用每种饲料喂8头猪一段时间,测得每头猪的初始重量(X)和增量(Y)数据见下表,试分析三种饲料对猪的催肥效果是否相同?,协方差分析表,随机区组设计资料的协方差分析例 为研究三种饲料对增加大白鼠体重的影响,有人按随机区组设计将初始体重相等的36只大白鼠分为12个区组,再将每个区组的3只大
12、白鼠随机分入A、B、C三种饲料组,但在实验设计时未对大白鼠的进食量加以控制。三组大白鼠的进食量(X)和所增体重量(Y)数据见下表,试问扣除进食量因素后,三种饲料对增加大白鼠体重有无差别?,四 重复测量资料的方差分析,重复测量资料(repeated measurement data) 是同一对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该指标在不同时间 点上的变化特点。这类资料在临床试验和流行病学研究中常见。,例9-4 为研究减肥新药盐酸西布曲明片和盐酸西布曲明胶囊的减肥效果是否不同,以及肥胖患者服药后不同时间的体重随时间的变化情况。采用双盲双模拟随机对照试验,将体重指数BM
13、If27的肥胖患者40名随机等分成两组,一组给予盐酸西布曲明片+模拟盐酸西布曲明胶囊,另一组给予盐酸西布曲明胶囊+模拟盐酸西布曲明片。所有患者每天坚持服药,共服药6个月,受试期间禁用任何影响体重的药物,而且受试对象行为、饮食及运动与服药前的平衡期均保持一致。分别平衡于(0周)、服药后的8周、16周、24周测定肥胖患者的体重(kg)见表9-13,随机区组与重复测量资料的区别主要有二:,重复测量资料中同一受试对象的数据高度相关 表9-14 表9-13数据的简单相关系数r(n=20) 2)重复测量资料中的处理因素在受试对象间为随机分配,但受试对象内的各时间点往往是固定的,不能随机分配;随机区组设计资
14、料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同一区组内的受试对象接受处理各不相同,一、离均差平方和与自由度的分解:全部受试对象的结果用Xijk表示 ,其中i表示时间点,j表示受试对象,k表示受试对象的处理因素。,二、重复测量资料方差分析的基本步骤,(1) 建立假设并建立检验水准 对于因素K: H0:不同剂型的减肥总体均数相等,即1= 2 H1:不同剂型的减肥的总体均数不等或不全相等 对于时间因素I: H0:服用减肥药前后不同时间体重的总体均数相等 H1:服用减肥药前后不同时间体重的总体均数不等或不全相等,对于交互作用KI: H0:服药剂型K和时间I间无交互效应,即K因素与I因素无
15、交互作用H1:服药剂型K和时间I间有交互效应,即K因素与I因素有交互作用=0.05(2) 计算检验统计量F值:,(3)确定P值,做出推断结论本例,按=0.05的水准,减肥药剂型K、剂型K与时间I的交互应KI均不拒绝H0,无统计学意义,还不能认为盐酸西布曲明不同剂型的减肥效果不同,也不能认为盐酸西布曲明不同剂型和不同时间的交互作用的减肥效果不同。而时间因素I拒绝H0接受H1有统计学意义,可认为服用减肥药盐酸西布曲明前后不同时间的平均体重不全相等。,三、重复测量资料方差分析的前提条件 进行重复测量资料的方差分析,除需满足一般方差分析的条件外,还需要特别满足协方差阵(covariance matri
16、x)的球形性(sphericity/circularity)或复合对称性(compound symmetry)。若球形不对称性质不能满足,则方差分析的F值是有偏的,因它增大了第一类错误的概率。球形对称性通常采Mauchly检验( Mauchlys test)来判断。 表9-16 例9-4资料的Mauchly检验和球对称系数,若按规定的检验水准=0.10,拒绝H0,接受H1,则理论上讲应对受试对象内所有变异的自由度进行校正,包括时间效应、处理和时间的交互效应以及个体误差三者的自由度均进行校正。 表9-17 例9-4资料经球对称系数计算机结果,多元线性回归 多元线性回归,一、此型资料有一个应变量与
17、多个自变量(M个自变量)依存在关系,它的基本形式为Y=B0+B1X1+B2X2+BMXM。B0为回归方程的常数项,B1、B2.BM为偏回归系数(PARTIAL REGRESSION COEFFICIEBT)。如B1表示在X2、X3.XM固定条件下,X1每增减一个单位对Y的效应。二、步骤。 1、建立回归方程。2、对总回归方程检验。3、B进行检验。,多元线性回归方程的建立(利用最小二乘法的原理),例11-2 现有20名糖尿病人的血糖(mmol/L)、胰岛素(mU/L)及生长素(g/L)的数据如表11-9。试建立多元线性回归方程分析血糖浓度与胰岛素及生长素的数量依存关系。,三、应用方程中几个问题。
18、使用注意的问题。(1)正态性问题。多元回归模型的前提条件是当前各自变量XI分别取不同值时,Y的分布是正态分布,Y的不同分布服从方差齐性。如稍偏离以上条件,一般影响不大;但如资料与以上条件偏离较大,则需寻资料作适当的数据转换,使之尽可能满足以上条件,方可进行多元回归分析。 (2)N直的大小 一般是分析因素的5-10倍,3、对资料类型要求数值变量资料。如有少数自变量的观测值为半定量资料,甚至是定性资料时,适当的数据转换也可应用。 4、多元共线性。在多元线回归模型中,当一个自变量几乎是其他一些自变量的线性组合时,即自变量存在线性相关时,偏回归系数的估计就不稳定,并且会有较大的误差。在医学中经常遇到这
19、种问题。如果相关程度不大,一般影响不大,如相关程度大,则回归方程就不能正确反映自变量和应变量之间本来的数量关系。解决的办法是采用岭回归分析或筛选自变量。,4、自变量的选择:若自变量间存在多重共线,将引起偏回归系数j的最小二乘估计bj的方差过大,从而引起bj失真。 其实不仅在发生共线性时需筛选自变量,在一开始数据分析时就有自变量筛选的问题。 如何选择自变量呢?主要依赖专业知识,根据研究目的选择尽量少的自变量。,被选自变量一般有这样两种:一是研究目的要弄清它对因变量的作用的影响因素,二是已知对自变量有作用,且观察对象中有变异的,而且可能干扰影响因素x对y的作用因素。椐专业知识选择自变量的基础上,再
20、借助统计方法进一步筛选自变量。,用统计学方法筛选自变量,首先有准则。一般有残差平方和准则和统计量检验准则。 统计量显著性检验准则是通过显著性检验,选择有统计学意义进入自变量子集。常用的有三种:,向前法 后退法 逐步回归法,5、指标的数量化1)自变量为连续变量的情况:通常情况下连续变量是以原始观察值的形式出现。当某个自变量X与应变量Y间不呈线性关系时,可考虑对X作某种变换,以改善回归方程的拟合优度。某种数据转换是否为优,可用确定系数R2作为判断尺度。一个好的数据转换可使R2明显增大。2)自变量为无序分类变量的情况:如病人的性别、治疗方式等都可能是影响疾病预后的自变量。为了能将这类信息引入回归方程
21、中,必须对其数量化。数量化方式有多种,如是二分类指标,如对性别变量X的赋值方法为:,如果是多分类指标,假定有K类,则用K1个取值为0或为1的哑变量(dummy variables)能完整地标记出这些类别。如治疗原发性高血压有中医、西医及中西医结合三种不同的疗法,可用两个哑变量X1, X1表示,赋值方法为:,3)自变量为有序变量:如果自变量是一个有序变量,如将病情分为“轻、中、重”,用X表示病情,赋值方法为:另一个方法是将X用两个哑变量表示。,6、关于逐步回归在自变量较多的情况下,使用逐步回归分析常能使问题得到简化,较快得到结果。但必须指出:对逐步回归结果不要盲目信任,所谓的“最优”回归方程并不
22、一定是最好,没有选入方程的变量未必没有统计学意义。事实上,方程上中引入什么变量,理想的做法应该由研究者结合问题本身和专业知识以及经验来确定,不加分析地使用逐步回归难以取得好的应用效果。 7、变量间的交互作用当某一自变量对应变量Y的作用大小与另一个自变量的取值有关时,则两个变量有交互作用。回归方程中是否要考虑交互作用主要靠专业知识。为检验两个变量是否有交互作用,普遍作法是在方程中加入它们的乘积项。,8、回归方程的评价为评价回归方程的拟合效果,应分析回归方程的残差分布,利用残差提供的信息可以检验资料的正态性与方差齐性,并可分析所建立的回归方程是否合适以及对哪些观察点的预报效果较差。残差是指观察值与
23、估计值之差,即。残差分析中一个简单的方法是以标准化残差为纵坐标,以为横坐标作残差图分析。如果以0为中心,在恒定区内较均匀地散布在一条直线的上下两侧,可认定同方差的假定成立,如果的分布随的增大而扩散或收敛,则说明同方差的假定不能成立。,LOGISTIC回归 (LOGISTIC REGRESSION),在流行病学中通常是需要分析疾病与致病因素的定量关系,如食管癌的发生与吸烟、饮酒、不良饮食等危险因素有关,为正确说明这种关系,需要排除一些混杂因素的影响,传统上常使用Mantel-Haenszel分层分析方法,但这种方法适用于样本量大、分析因素较少的情况。如果用线性回归方法,由于应变量Y是一个二值变量
24、(通常取值为1或0),不满足应用条件,尤其是当各因素都处于低水平或高水平时,预测值可能超过它是一种用于多因素分析的曲线模型(即S型曲线模型,适用于应变量为离散的分类资料)。01范围,出现不合理现象。用logistic回归分析则可较好地解决上述问题,当前医学常用的应变量为两项分类资料的LOGISTIC回归。按设计类型分为条件LOGISTIC回归,用于处理配对病例对照研究资料;非条件LOGISTIC回归,用于对例研究与非配对病例对照研究资料。当然也用于多项分类资料。,二分类模型 一个受试单位或个体的分类变量Y取值为两个可能数值之一,为方便起见用1和0表示(如,患病Y=1,否Y=0)。 Y=出现阳性
25、结果的概率记为P(Y=1);出现阴性结果的概率为1-P(Y=0),或简记为1-P,用LOGISTIC回归模型表示出现阳性结果的概率为:,P=EXP(+1X1+mXm)/(1+ EXP(+1X1+mXm)) 出现阴性结果的概率为: 1-P=1/ EXP(+1X1+mXm) 那么 P/1-P= EXP(+1X1+mXm),两边取对数称为: LOGIT(P)=+1X1+mXm,模型的基本性质:设为0,1为1,就得最简单的LOGISTIC回归P=1/1+e-x,实际上是它的截距,它越小曲线越左移。它越大曲线越右移。如果1为负值,就为X增加时P反而下降,这反映暴露因素是保护因素而不是危险因素,如果1为正
26、值时,暴露因素为危险因素。,比数(Odds)、Logit(In Odds)与比值比(Odds Ratio):以P为某事件发生的概率,1-P为不发生某事件的概率,两者的比值为叫做比数,也叫优势,比数若大于1说明发生的可能性大于不发生的可能性,也就是说发生占优势;反之,比值小于1说明不发生占优势。比数的自然对数值LnP/1-P,叫做Logit,即LogitP,它也可写作为LogitP=+1X1也可用Odds= e+1X1,在流行病学中往往有两个组,如暴露组与未暴露组,这两个组的比数的比值,叫做比值比(Odds Ratio也简称为OR)。如对比某一因素两个不同暴露水平x1=cj,与xj=c0的发病情
27、况,其优势比的自然对数为:,特殊地,如果Xj赋值为则暴露组与非暴露组发病的优势比为Orj=expj.对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,由于p1,优势比可以作为相对危险度的近似估计,即:,参数估计 根据一组实际观察资料估计Logistic回归模型的参数时,通常用最大似然估计(maximum likelihood estimate,MLE),即建立一个样本函数根据最大似然原理,在一次抽样中获得现样本的概率应该最大,也即似然函数L应该达到最大。为简化计算,通常取函数的对数形式它所采用Newton-Raphson迭代方法使对数似然函数达最大,此时就可求出0 、1、 2。 m的估计值b0
28、、 b1、 b2。 mm,及标准误。,优势比估计:由以下公式就可求出某个因素两个不同水平(C0 ,C1)优势比的估计值为:ORj的可信区间可利用bj的抽样分布来估计,在样本含量较大时,它近似正态分布。若自Xj只有暴露与非暴露两个水平,则优热势比的可信区间估计公式为:,例下表是一个研究吸烟、饮酒与食管癌关系的病例对照资料,试作Logistic回归分析,随访资料的生存分析 对生存资料的分析称为生存分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,称为生存分析。,一、基本概念 1、失效事件与起始时间在生存
29、分析随防研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全;这种事件称为失效事件(failure event)也称之为死亡事件、终点事件。起始事件(initial event)是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等。,2、截尾数据(Censored data) 但往往有一部分人或中途失防,或到观察结束时仍存活,对这些人无法知道准确的生存时间,对于这样的观测值,只知道其生存时间大于,而不知道其准确的生存时间。这种数据称为截尾数据(Censored data)。它提供不完全信息。生产截尾值的原因:1)病人失访;2)病人的生存期超过了研
30、究的终止期;3)在动物实验中,有时事先规定观察期限或动物数,3、生存时间生存时间(survival time)是指任何两个有联系事件之间的时间间隔,常用t表示。狭义的生存时间指患某疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。如急性白血病病人从治疗开始到复发为止之间的缓解期,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间间隔,接触危险因素到发病的时间间隔等。生存分析中最基本的问题就是计算生存时间,要明确规定事件的起点、终点及时间的测度单位,否则就无法分析比较。,生存分析这个统计技术可以同时分析有结局的生存数据和没有结局的截
31、尾数据,能较充分地利用资料信息。 如果改变出生/死亡的含义,可使生存分析得到更广泛的应用。如以开始暴露于某病的危险因素代替出生,以发生此病代替死亡可用生存分析来研究暴露于危险因子后在多少月或年内发病概率。再比如,以某病治疗代替出生,以死于该病作为死亡,生存分析来研究某病治疗后的生存时间,如此等等。,二、资料收集一)随访内容1、明确开始随访的时间如住院时间、确诊时间、开始治疗时间等。2、随访结局和终止随防的时间3、记录影响生存时间的有关因素二)随访方式1、全体观察对象同时接受处理措施,观察到最后一例出现结果,或事先规定的随访截止时间。2、全体观察对象在不同时间接受治疗,完成一定数量随访病例后决定
32、随访截止时间,可按事先规定的时间停止随访。,随访资料常见形式示意图,三)生存分析研究的主要内容1、描述生存过程2、比较生存过程3、影响生存时间的因素分析,三、生存分析的基本方法1、非参数法非参数法的特点是不论是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘法极限法和寿命表法。对于两个及多个生存率的比较,其无效假设只是假定两组或多组总体生存时间分布相同,而不对其具体的分布形式及参数进行推断。2、参数法参数的特点是假定生存时间服从特定的参数分布,然后根据已知分布特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分布法和logist
33、ic回归法3、半参数法,四、生存率的估计 与生存曲线 1、小样本生存分析当随访的病例数较少时,不需要根据病人的随访时间对病人分组,生存率的估计采用乘积极限法(product-limit method)。该方法由Kaplan-Meier提出,故又称Kaplan-Meier法。 例 一组病人的存活时间(天数)如下,试估计生存曲线(带+的数据是截尾数据)。 90 150 210 540 150 270+,1、生存率计算1)、将生存时间由小到大排列2)、计算条件死亡概率及生存概率3)生存率,2、生存率的标准误的计算3、生存曲线以生存时间为横轴、生存率为纵轴绘制一条生存曲线,用以描述其生存过程。并根据两
34、条生存曲线的高低,直观比较不同治疗方式之间的生存过程。,3、中位生存时间中位生存时间(median survival time)又称为生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。计算中位生存时间有两种,即图解法和线性内插法。图解法利用生存图,从纵轴生存率为0.5处划一条平行线与生存率曲线相交,然后自交点处划垂线与横轴相交,此交点即为中位生存时间。线性内插法首先找出两生存率S(ti-1)和S(ti),使得S(ti-1)0.5, S(ti)0.5,然后计算中位生存时间。,乘积极限法估计生存率计算表,生存曲线图,2、大样本资料的生存分析在样本较大时,随访病例的生存时间常可按年、月、或
35、日进行分组,得出具有若干时间段生存时间数据的频数表。对分组的生存数据可按寿命表法计算生存率。它的计算与小样本的计算基本相同,稍有不同的是:若有截尾数据,则计算条件概率分母用校正人口数,如校正人口数期初人口数1/2*截尾例数,寿命表法估计生存率计算表,五、 生存率的比较(log-rank检验) 各组的生存率是由样本资料计算所得,必然有抽样误差,故需进行假设检验。对数秩和检验是以生存时间的对数为基础推导出来的,其基本相思是实际死亡数与期望死亡数间比较。它对各组生存率作整体比较,故应用范围广。它适用于两组及多组生存率间比较。这只介绍两组生存率比较。,例 两组儿童横纹肌肉治疗后复发时间(月数)如下,对
36、照为“摘除+放疗”,处理组为“摘除+放疗+化疗”,问在“摘除+放疗”基础上附加“化疗”是否可提高缓解率?对照组复发时间(月) 2 3 9 10 10 12+ 15 15+ 16 18+ 24+ 30 40 45+处理组复发时间(月) 9 12+ 16+ 19 19+ 20+ 20+ 24+ 24+ 30+ 31+ 34+ 42+ 44+ 53+ 59+ 62+(带+的数据均为截尾数据)。,对于两组生存率的比较有近似法和精确法两种,上述法是近似法,其计算方法较为简便,但结果较为保守。两种方法的计算步骤相同,只是作统计量的方法不同,精确法计算卡方统计量的分母是对应的方差估计量,统计软件中常用精确法
37、进行计算。两种方法在样本例数较小时稍有不同。用log-rank检验对样本的生存率进行比较时,要求各组生存曲线不能交叉,生存曲线的交叉提示存在某种混杂因素,因此应采用分层的办法或多因素方法来校正混杂因素。别外,当假设检验推断有差别时,可以通过生存曲线、半数生存期及相对危险度等指标来评价其效果。,对于两组生存率的比较有近似法和精确法两种,上述法是近似法,其计算方法较为简便,但结果较为保守。两种方法的计算步骤相同,只是作统计量的方法不同,精确法计算卡方统计量的分母是对应的方差估计量,统计软件中常用精确法进行计算。两种方法在样本例数较小时稍有不同。用log-rank检验对样本的生存率进行比较时,要求各
38、组生存曲线不能交叉,生存曲线的交叉提示存在某种混杂因素,因此应采用分层的办法或多因素方法来校正混杂因素。别外,当假设检验推断有差别时,可以通过生存曲线、半数生存期及相对危险度等指标来评价其效果。,Cox模型 英国统计学家D.R.Cox提出一种能处理多因素生存数据的回归模型比例危险度模型(Proportional hazard model),也称Cox回归模型,简称Cox模型。,为风险函数,又称为风险率或瞬时死亡率,也就是说具有协变量X的个体在时刻t时的风险函数或瞬时死亡率,t表示生存时间,X表示与生存时间可能有关的协变量或交互项。为基准风险函数,是指所有危险因素为0时的基础风险率,它是未知,但假定它与是呈比例的。,1、比例危险度:现举例说明在Cox回归中两个危险度的比值,即比例危险度的计算。某疾病的发病,受吸烟X1与饮酒X2的影响,对有关资料作Cox回归分析后,得回归方程为X1与X2的回归系数为0.8755与0.5108。,试求既吸烟又饮酒者发病与不吸烟不饮酒发病的危险度。既吸烟又饮酒者危险度为:不吸烟不饮酒者的危险度为:二者的比值为:,二、参数估计与假设检验1、参数估计Cox模型中的参数是采用偏似然函数估计。2、假设检验1)最大似然比检验:它主要用于模型中原有不显著变量的剔除和新变量引入,以及包含不同协变量数时模型间的比较。2)得分检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 饭店质量管理
- 辽宁政法职业学院《中国古代文学(二)》2023-2024学年第一学期期末试卷
- 山东省牡丹区王浩屯镇初级中学2025年初三第一次诊断考试(化学试题文)试卷含解析
- 上海体育大学《工程经济》2023-2024学年第二学期期末试卷
- 辽宁师范大学海华学院《美术基础(一)》2023-2024学年第二学期期末试卷
- 安徽机电职业技术学院《印度社会专题》2023-2024学年第二学期期末试卷
- 昆明医科大学海源学院《材料磨损与抗磨材料》2023-2024学年第二学期期末试卷
- 湖北省咸宁市重点中学2025届高三下学期3月月考(文理)生物试题含解析
- 寿阳县2024-2025学年五下数学期末调研试题含答案
- 丽江职业技术学院《土木工程软件应用》2023-2024学年第一学期期末试卷
- 骨关节病的健康教育
- 中医治疗失眠课件
- 2024年天津生态城投资开发有限公司招聘笔试参考题库附带答案详解
- 2022年江苏省南京市中考历史试题(含答案)
- 信息技术2.0微能力:小学五年级道德与法治上(第三单元)守望相助-中小学作业设计大赛获奖优秀作品-《义务教育道德与法治课程标准(2022年版)》
- 最新版个人征信报告(可编辑+带水印)
- 《冷冲压工艺与模具设计》完整版ppt课件全套教程
- 新教材人教版高中化学选择性必修三全册知识点梳理
- 健身教练职业能力测评考试专项理论题库与答案
- 有机化学 第十三章 有机含氮化合物
- 青岛版小学二年级数学下册《解决问题(信息窗3)》参考课件(共12张PPT)
评论
0/150
提交评论