第九讲-分层分析(XDL)_第1页
第九讲-分层分析(XDL)_第2页
第九讲-分层分析(XDL)_第3页
第九讲-分层分析(XDL)_第4页
第九讲-分层分析(XDL)_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九讲分层分析StratifiedAnalysis2/7/20241主要内容一、概述二、步骤与方法:资料整理同质性检验点值估计假设检验区间估计三、效应测量修饰的评价与描述四、应用基本生存分析诱导期分析2/7/20242一、概述历史:

美国著名生物统计学家Mantel和Haenszel于1959年首次提出了著名的分层分析(stratifiedanalysis)法,以解决肿瘤回顾性研究中的混杂问题。

概念:分层分析是将资料按某个(些)需要控制的变量的不同分类进行分层,然后再估计某暴露因子与某疾病之间的关系的一种资料分析方法。2/7/20243概述-分层分析的用途

估计和控制混杂因子;评估和描述效应测量修饰;描述随访研究中的失访问题和竞争风险;研究两因子之间的生物学交互作用;用于生存分析和诱导期分析。2/7/20244概述-混杂与效应测量修饰(1)

混杂:在研究某疾病与某因子的关系时,由于一个或多个既与疾病有制约关系,又与暴露因子密切相关的第三变量的影响,掩盖或夸大了所研究的暴露因子与疾病的联系。这种作用就称为混杂,这些第三变量就称为混杂因子。效应测量修饰:是指某种效应测量值的大小随某个第三变量(暴露和发病以外)的值的变化而变化,这个第三变量称为效应测量修饰因子。2/7/20245概述-混杂与效应测量修饰(2)效应测量修饰被认为是效应的异质性,而没有效应测量修饰被称为效应的同质性。当效应测量修饰因子与暴露因子两者均对疾病的发生有作用时,如果暴露组的发病率和非暴露组的发病率之比在某可疑效应测量修饰因子的各水平之间恒定,即不存在修饰作用,那么它们的差则可能是不恒定的,即可能存在修饰作用;如果比测量和差测量均不存在修饰作用,那么在其他测量中一定存在修饰作用。反之亦然。2/7/20246概述-混杂与效应测量修饰(3)2/7/20247概述-混杂与效应测量修饰(4)混杂与效应测量修饰的异同:相同之处在于两者均能使所估计的暴露效应被歪曲;两者的主要区别表现在下列四个方面:

1)效应测量修饰是所研究的效应的一种特性,是独立于研究,不随调查研究设计的变化而变化的一种客观现象;而混杂的存在与否却取决于研究设计,混杂是研究中的一种偏倚,是系统误差。

2)效应测量修饰存在与否取决于所用的效应测量指标;而混杂却与特异的效应测量指标无关。2/7/20248概述-混杂与效应测量修饰(5)

3)混杂是由于混杂因子在暴露与非暴露组(或病例与对照组)中分布比例不同所造成的;而效应测量修饰是由于效应测量修饰因子对暴露与疾病的关系产生了实质性影响,或者说效应测量修饰因子与暴露因子有交互作用。

4)研究者希望预防和消除混杂,而对效应测量修饰却要尽量的发现和描述。通过改变源人群或设计策略(如配比等),能阻止一个潜在的混杂因子产生混杂,但同时也可能削弱了对效应测量修饰的研究。2/7/20249概述-混杂的判断混杂因子具有下列四个基本特征:

1)它必须是对照人群中所研究疾病的一个危险因子;

2)它必须和源人群中的暴露变量有关;

3)它不是暴露和疾病之间的一个中间变量;

4)按该可疑混杂因子调整后的效应测量值不同于调整前的效应测量值。2/7/202410概述-混杂作用大小的估计对混杂因子作用大小的最直接估计方法是比较对该混杂因子进行调整前和调整后的效应测量值,用两个效应测量值之间的不一致的程度来估计。对混杂因子作用大小的估计最好是在其他混杂因子被控制的条件下进行。2/7/202411概述-选择混杂因子(1)控制的必要性的判断:对效应估计值的变化选择一个临界点作为判断的标准。临界点的选择通常有两种方法:人为确定法,即人为规定调整后的效应测量值的变化应大于5%,10%或其他标准,才被认为是重要的。统计学检验:对未调整和调整估计值两者之间的差异进行统计学检验,如果检验结果有显著性,则对该因子的调整是必须的。选择混杂因子时,一般需要提高拒绝无效假设的α水平至0.2甚至更高,而不使用传统的0.05水平。2/7/202412概述-选择混杂因子(2)选择控制的必要性:不能试图通过分层分析控制所有的混杂因子,因为样本的限制。另一方面,当一部分混杂因子被控制后,另一些混杂因子的作用则可能变小而可被忽视。因此,我们无需对每个重要的混杂因子都进行控制。2/7/202413概述-选择混杂因子(3)向前选择(forwardselection)的策略选择需要控制的混杂因子。一般先从最简单的可接受的分层(如按性别)开始进行暴露效应估计,然后根据混杂因子作用的大小,将作用较大的混杂因子一个一个地增加到分层变量中。当控制变量的增加对总的效应估计值不再有重要意义时,这种选择过程即停止。2/7/202414概述-选择混杂因子(4)后退删除(backwarddeletion)策略:即首先对所有能够调整的潜在混杂因子都进行调整,然后将那些导致效应变化最小的混杂因子逐一删除,如果某变量的删除导致的总的效应估计值的变化超过某一临界点时,删除即可停止。在评价混杂因子的重要性时,会受到其他混杂因子和选择策略的强烈影响。2/7/202415概述-选择混杂因子(5)当所有的或大多数的混杂因子都通过分层进行调整时,由于样本变小,此时以近似统计学为基础的分层分析方法都将导致很大偏倚的最终结果。这种偏倚的特征是效应估计值开始越来越远离无效假设。控制或减少这种偏倚的方法主要有:①采用向前选择的策略;②确定选择混杂因子的临界点时,考虑使用可信区间;③应用精确法代替近似法计算效应估计值及其可信限。2/7/202416概述-确定混杂因子的分类理想的情况是控制混杂因子的重要混杂作用所需的最少分类。原则上,如果样本够大,分类不宜过少;如果样本不大,则以检查精确可信限为标准。要求当分类数发生变化时,精确可信限有一个合适的变化(达到要求的临界点,但又不出现过于夸大的现象)。2/7/202417概述-分层分析的基本步骤(1)分层分析的前奏是先要判断某(些)因子是否为混杂因子,然后从众多混杂因子中选择必需调整控制的混杂因子,并确定它们的分类。分层分析的基本步骤是:

1、分层列表:将资料按混杂因子分层后列表,然后分别计算各层的效应估计值。2/7/202418概述-分层分析的基本步骤(2)2、检查层别效应估计值:在绝大多数分层分析中,效应估计值在各层都有一些变化,而这些变化的意义却不尽相同。检查与分析的目的就是要明确这种层别效应估计值的变化有无统计学意义,是否是科学的,有无重要的公共卫生意义。明确这些问题对决定下一步用什么分析方法和如何报告分层分析结果将起关键作用。2/7/202419概述-分层分析的基本步骤(3)3、层别效应的一致性假设与检验:绝大多数的分层分析方法是以各层效应大小一致(即同质的)为基础的。层别效应一致性的假设检验即为同质性检验,它是先要在同质性假设条件下,求出一个一致效应的总的估计值,然后与各层别估计值比较。由于比值测量的一致性通常意味着差值测量的异质性,因此,对比值和差异测量的一致性需要单独评价。2/7/202420概述-分层分析的基本步骤(4)4、调整控制混杂:如果同质性检验结果证明,层别效应是一致的,分层分析则以调整控制混杂为主。其计算主要包括一致效应的合并点估计,一致效应的区间估计及一致效应的P值。5、评价和描述效应测量修饰:如果同质性检验的结果证明层间效应估计值的差异有统计学显著性时,则认为该变量具有效应测量修饰作用。此时,分层分析的目标指向效应测量修饰的评价与描述2/7/202421二、步骤与方法

1、资料整理(1)2/7/202422资料整理(2)2/7/202423资料整理(3)2/7/2024242、同质性检验(1)同质性检验(testinghomogeneity)即检验各层的效应大小是否一致,其变异是随机误差造成的还是固有的。它是分层分析所面临的首要任务。同质性检验的假设是效应大小U在各层是同质的,同质性检验一般采用Wald卡方检验的方法。2/7/202425同质性检验(2)2/7/202426同质性检验(3)2/7/2024273、点值估计(1)2/7/202428分析方法的选择分析方法:直接合并法最大似然法

M-H法资料类型:人时资料纯计数资料病例队列资料测量指标:率差和率比要求精度:精确法和近似法2/7/202429步骤与方法-点值估计(2)(一)直接合并法

直接合并(directpooling)法是利用从各层资料中计算的效应估计值的方差的倒数直接作为对各层别效应估计值进行加权的权重,直接合并法的公式均是直接从一般公式导出的。这种方法要求每一层内都有足够的样本,以获得满意的方差估计值,如果层内样本太小,方差将较大,估计的结果将是不可靠的。2/7/202430步骤与方法-点值估计(3)2/7/202431步骤与方法-点值估计(4)2/7/202432步骤与方法-点值估计(5)2/7/202433步骤与方法-点值估计(6)2/7/202434步骤与方法-点值估计(7)2/7/202435步骤与方法-点值估计(8)直接合并与标准化都是将层别效应估计值加权平均以获得一个一致效应估计值的方法。两者的区别是:标准化所选择的权重是以符合一个可能是资料以外的标准分布为基础的,即权重的选择可能与被标化的资料无关,并且不要求各层别效应大小是同质的;直接合并法的一个主要缺点就是用于合并的层别权重是直接从该层的效应估计值的方差的倒数获得的。对于频数很少的资料,其方差估计和随后的权重都是高度不精确的。2/7/202436步骤与方法-点值估计(9)(二)最大似然法最大似然法(maximumlikelihood)的一个主要优点就是趋于高度有效和偏倚很小,即使在样本相对离散,层别估计值高度不规则的情况下,最大似然法亦能对其进行有效的平均,并得出一个适当的相对可靠的结果。缺点是计算复杂。2/7/202437步骤与方法-点值估计(10)应用最大似然法进行合并估计首先需要建立某一资料的似然方程作为所研究参数的函数,然后在似然模型下,通过迭代求解高阶方程或高阶方程组,求出该参数的最大似然估计值,即使手头的观察资料最适的参数值。一个复杂的方程并不包括任何直接的用于平均层别效应估计的权重,但方程的解总是在层别估计值的范围之内。2/7/202438步骤与方法-点值估计(11)应用最大似然法对一致效应进行估计时,依据资料类型(人时资料、累积发生率资料和病例对照资料)和效应测量指标(发生率差和发生率比)的不同将应用不同的模型,建立不同的方程组,有不同的解法。除人时资料的发生率比的最大似然估计值仅通过对单个方程迭代求解即可获得外,其他参数估计值均必须对比层数多1的方程组求解,而且必须同时解出满足似然方程的各层非暴露组的发生率的值。2/7/202439步骤与方法-点值估计(12)一般情况下,分析率比的最大似然法使用泊松(Poisson)概率模型或二项式概率模型,这些模型要求各层内和各层间的数值是相互独立的。当所研究的疾病有传染性时,这种假设不能成立,因此,应用似然模型分析传染性疾病的资料可能是不妥的。对于四格表(2×2)资料的比值比分析有两种不同的模型:一个是双二项式模型(two-binomialmodel),又被称为非条件模型;另一个是单超几何模型(single-hypergeometricmodel),又称为条件模型。应用该模型进行似然统计称为条件似然统计(conditional-likelihoodstatistics)。2/7/202440步骤与方法-点值估计(13)由于双二项式模型的似然统计要求每一个二项式的分母(N1i和N0i)均很大(一般要求>10),因此,在资料频数较少时,只有超几何模型的似然分析是近似有效的。这种小样本的近似,一般只限于层别效应值的估计,当各层的频数被汇总时,无论是条件或非条件最大似然估计均要求有一个大的样本。2/7/202441步骤与方法-点值估计(14)(三)M—H法在一致效应的点值估计中,直接合并法计算简单,概念明确,但要求每层内有较大的频数,否则可靠性很低;最大似然法即使在频数较少时亦能获得可靠的结果,但计算十分复杂。1959年Mantel和Haenszel提出了著名的M—H法,该法计算简单,而且象条件最大似然统计一样,即使在每层内的频数较少或资料偶然含有零的情况下,也能获得好的效果。2/7/202442步骤与方法-点值估计(15)2/7/202443步骤与方法-点值估计(16)2/7/2024444、假设检验(1)分层资料的统计假设检验实际上是一种比值比或发生率比偏离1的检验;只对资料与无效假设的总的分离情况进行判断,即使层别效应测量值是变化的,其检验也只是对一致效应的合并估计值与无效值分离的检验。2/7/202445步骤与方法-假设检验(2)用于分层资料的统计假设检验方法是用于未分层资料的假设检验方法的直接扩展,有精确检验和近似检验两类方法。根据概率的乘法定律,观察到一系列结果的概率是每一结果出现的概率的乘积,因此,在分层资料中,观察到一系列层别效应估计值的概率可通过对每一层所出现的结果的概率求积来计算。精确检验的指标是Fisher精确P值,近似检验指标是计分统计量(scorestatisticχscore)。2/7/202446步骤与方法-假设检验(3)2/7/202447步骤与方法-假设检验(4)2/7/202448步骤与方法-假设检验(5)2/7/2024495、区间估计(1)可信区间估计是流行病学资料分析的基本要求。分层资料的一致效应的可信区间可精确计算,亦可近似估计。区间估计方法依据效应指标、资料类型及所用的点值估计方法的不同而异。1、率差:率差(ratedifference,RD)包括发生率差(ID)和累积发生率差(CID),其精确可信区间的计算目前尚无现成可用的方法,近似可信区间的计算方法是用于未分层资料的区间估计方法的直接扩展。主要有以方差为基础的方法和以假设检验为基础的方法。2/7/202450步骤与方法-区间估计(2)2/7/202451步骤与方法-区间估计(3)2/7/202452步骤与方法-区间估计(4)2/7/202453步骤与方法-区间估计(5)(二)率比率比(rateratio,RR)包括发生率比(IR)、累积发生率比(CIR)和比值比(OR)三种。分层资料的率比合并估计值的可信区间可通过精确计算(从略)或近似方法获得,近似方法同样有以方差为基础的方法和以假设检验为基础的方法。2/7/202454步骤与方法-区间估计(6)2/7/202455步骤与方法-区间估计(7)2/7/202456步骤与方法-区间估计(8)2/7/202457步骤与方法-区间估计(9)2/7/202458步骤与方法-区间估计(10)2/7/202459三、效应测量修饰的评价与描述(1)关于效应测量修饰的判断与识别应根据:已有的一般生物学理论和研究成果对可疑的效应测量修饰因子进行判断;研究者对各层别估计值的变化进行简单的定性分析;统计学检验,即同质性检验。如果资料被判断为存在效应测量修饰,则对各层别估计值的任何粗的合并估计和调整合并估计都是不适当的,这时,资料分析的重点便由调整控制混杂转向对效应测量修饰的精确描述上来。2/7/202460效应测量修饰的评价与描述(2)效应测量修饰的精确描述:

(一)分别列出每一层的估计值把每一层作为一个分课题,同时分别报告每一层的点估计值和可信区间。该法的一个明显弊端就是资料的整体性被分割,因而导致每一层的效应估计值的精确度被降低。

(二)标准化该法应用一种特别的权重系统—可能独立于资料以外的权重系统对层间信息进行整合,即将各层别估计值在分层变量上标化成一种标准分布。2/7/202461效应测量修饰的评价与描述(3)标准的确定:标准,即用于标准化的一个特别的权重系统,选择标准应该有利于结果的解释。如果要与全国或全世界的其它同类资料进行比较,一般选择某一特定的全国人口普查资料作为标准;如果要将研究结果推广到某特定范围的人群,则应该以该范围人群的分布为标准;如果研究样本较大,并且是随机选择的,也可以该研究人群的暴露组的分布或非暴露组的分布或全部研究人群的分布作为标准。对于同一资料,由于标准选择不同,可得出不同的结果,因此,对于选择不同标准得出的结果难以进行比较。2/7/202462效应测量修饰的评价与描述(4)2/7/202463效应测量修饰的评价与描述(5)2/7/202464效应测量修饰的评价与描述(6)2/7/202465效应测量修饰的评价与描述(7)2/7/202466效应测量修饰的评价与描述(8)2/7/202467效应测量修饰的评价与描述(9)2/7/202468四、应用的扩展

1、生存分析(1)生存的反面是死亡危险。前面介绍的比较暴露组和非暴露组某病的死亡危险的方法,都有一个基本的假设,即假设每一个队列成员都被随访直到感兴趣事件发生或者关心的危险期结束,即没有失访或竞争性危险(competingrisk)。但这种假设在多数情况下不能满足。大多数的失访和竞争性危险都与所研究的变量有不同的密切关系,因而它将影响对暴露所致危险的估计。通过按生存时间分层,然后用分层分析方法来估计危险度和计算生存率。可部分纠正这种失访或竞争性死亡所致的危险度的偏倚。2/7/202469应用的扩展-生存分析(2)2/7/202470应用的扩展-生存分析(3)2/7/202471应用的扩展-生存分析(4)2/7/202472应用的扩展-生存分析(5)2/7/202473应用的扩展-生存分析(6)2/7/202474应用的扩展-生存分析(7)2/7/202475应用的扩展-生存分析(8)(三)不同时间的率的比较在对队列研究的资料进行分析时,如果考虑队列成员在不同时间的发病率的差异,需作不同时间的率的比较(comparisonofratesovertime),需要对时间的可能混杂作用进行调整。此时,我们可以把时间当作一个分层变量。假设t1,……tn代表所有的彼此分开的疾病发病时间,如果在每一发病时间设置一个分界线进行分层,然后做分层分析。2/7/2024762、诱导期分析(1)2/7/202477应用的扩展-诱导期分析(2)在一个给定的分析中,假定诱导期和实际诱导期两者之间重迭越小,则导致的错误分类和随后的偏倚就越大。理论上,一系列诱导期假设将产生一系列效应估计值,当估计值达最大时,其诱导期假设将较其他假设更接近于正确值。从该假设诱导期的中位数值将估计出平均诱导期间。2/7/202478应用的扩展-诱导期分析(3)应用“最大估计值”方法的注意点:第一,“最大估计值”方法求出的诱导期可能简单地受到统计学变异的影响,得到的效应估计值可能是一个远离无效值的极值,因而效应被夸大。有人建议把产生最大似然比统计量的诱导期作为估计的诱导期,该方法等于选取了产生最小P值、因而在统计上最显著的估计值作为诱导期,这将使估计值的统计显著性被夸大,因而也是值得注意的。2/7/202479应用的扩展-诱导期分析(4)第二,由于在不同时间暴露率的变化将导致在不同时间其错误分类偏倚也发生变化,因而可能歪曲各假定诱导期窗口中的效应估计值。第三,由于暴露和混杂因子与各假定的诱导期窗口高度关联,因此产生的混杂也肯定地在各窗口之间有很大程度的变化。为了避免这种混杂的作用,当估计一个窗口的效应时,应同时对混杂因子进行分层调整。2/7/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论