(统计学专业论文)经验似然与比例优势模型在不完整数据上的应用.pdf_第1页
(统计学专业论文)经验似然与比例优势模型在不完整数据上的应用.pdf_第2页
(统计学专业论文)经验似然与比例优势模型在不完整数据上的应用.pdf_第3页
(统计学专业论文)经验似然与比例优势模型在不完整数据上的应用.pdf_第4页
(统计学专业论文)经验似然与比例优势模型在不完整数据上的应用.pdf_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在收集数据时,常常由于客观条件的限制或主观因素的影响,造成数据的真 值没有被观测到,即数据不完整。在实际生活中,经常出现的不完整数据有删失、 缺失、分组数据等。本文对其中的删失和缺失这两种不完整数据情形,进行了总 体参数估计方法的探索和研究。在第一章里,研究了删失和缺失同时存在的情况 下,如何对总体的均值作出估计。首先对删失数据作回归拟合,再用拟合出的回归 方程对缺失值进行估计,然后用缺失值的估计值和删失数据一起构造总体均值的 置信区间。置信区间的构造用了两种方法,一种是正态逼近的方法,一种是经验似 然的方法。随机模拟的结果显示,经验似然方法在很多情况下都优于正态方法。 第二章研究了临床医学中常见的区间删失数据的情形。在这一章里主要探讨了将 单结局的情况扩展到多结局情况下,比例优势模型的精确性和稳健性。牛顿拉普 森算法被甩来估计模型的参数。由于多结局之间存在相关性,所以夹心方差的引 进很好地估计了参数的方差。随机模拟的结果表明,该模型在多结局情形也还是 十分有效的。 关键词:不完整数据、删失、经验似然、比例优势模型 中图分类号:0 2 1 m a b s t r a c t w h e nd a t aa r ec o l l e c t e d , t h e ya r eo f t e : q l li n c o m p l e t e w h i c hi sc a u s e db yt h eo b j e e - t i v er e s t r i c t i o no rb yt h es u b j e c t i v ef a c t o r s i n c o m p l e t e n e s sm e a n st h a tt h er e a lv a l u e s a r en o ta c t u a l l yo b s e r v e d i nt h er e a ll i f e ,t h e r ea r em a n yk i n d so fi n c o m p l e t ed a t a , s u c h 嬲c e n s o r i n g , m i s s i n g , g r o u p e dd a t aa n ds oo r t h i sp a p e re x p l o r e st h ew a yo f e s t i m a t i n gt h ep a r a m e t e r si nt w oc o m m o ni n c o m p l e t ed a t ac a s e s ( c e n s o r i n ga n dm i s s - i n g ) i nc h a p t e ro n e ,t h ew a yo fe s t i m a t i n gt h ep o p u l a t i o nm e a ni ss t u d i e dw h e nb o t h c e n s o r i n ga n dm i s s i n ge x i s t t h em i s s i n gv a l u ei sh n p u t e db yt h er e g r e s s i o nt h n c - t i o nw h i c hi sb a s e do nt h ec e n s o r e dd a t a w i t ht h ei m p u t e dv a l u e sa n dt h ec e n s o r e d d a t a , t h ec o n f i d e n c ei n t e r v a lo ft h ep o p u l a t i o nm e a ni sc o n s t r u c t e di nt w od i f f e r e n t w a y s ,o n ei sa s y m p t o t i cn o r m a la n dt h eo t h e ri se m p i r i c a ll i k e l i h o o d t h es i m u l a t i o n s h o w st h a tt h ee m p i r i c a ll i k e l i h o o dm e t h o dw o r k sb e t t e rm a no re q u a l l yt ot h en o r m a l m e t h o d i nc t l a p t e rt w o ,i n t e r v a l - c e n s o r e dd a t ai ss t u d i e dw h i c hi sn o tu n c o m m o ni n c l i n i cm e d i c i n e i nt h i sc h a p t e r , t h ep r o p o r t i o n a lo d d sm o d e li se x t e n d e df r o mu n i - v a r i a t ef a i l u r et om u l t i v a r i a t ef a i l u r e s n e w t o n - r a p h s o na l g o r i t h mi sa p p l i e dt og e t t h ee s t i m a t i o no f t h ep a r a m e t e r s t h es a n d w i c he s t i m a t o ro f v a r i a n c ei si n t r o d u c e db y t a k i n gt h ec o r r e l a t i o nb e t w e e nm u i t i p l ef a i l u r e si n t oe o n s i d e r a t i o n t h er e s u l t so f t h e r a n d o ms i m u l a t i o n sg i v eas u p p o r to f t h ee f f i c i e n c yo f t h em o d e l k e yw o r d s :i n c o m p l e t ed a t a , c f f l s o r , e m p i r i c a ll i k e l i h o o d ,p r o p o r t i o n a lo d d s m o d e l c l c :0 2 l 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的 研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明 并表示了谢意。 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此 规定。 名:避一名:确吼 引言 引言 在现实中,数据不完整的情况不可避免。删失数据是生存分析重点研究的对 象,虽然删失的方式多种多样,目前在数学上比较容易处理的却不多,随机删失是 其中之一。在随机删失中,通常有删失随机变量影响所关心变量的真值的观测, 另外还假定删失随机变量与被删失的随机变量之间互相独立,虽然这种假定有时 并不成立,但是数学上比较容易处理。另一方面,从时间延伸的方向来看,如果只 知道真值大于某个数,这种删失被称为右删失;如果只知道真值小于某个数,则 被称为左删失。当只知道真值落在某个区闻内时,这利,数据称为区闻删失数据。 左删失和右删失可以看作是区问删失的特倒。随机删失最初来自生物学方面,区 间删失数据又是临床医学中常见的数据类型,因此删失数据的统计推断有很强的 现实意义,也是本文的研究主题。 缺失是另一种不完整数据的类型,也是指数据的真值没有被观测到,但与删 失的区别在于,其真值的范围也无法直接了解。在统计分析中,一般的做法是引 进一种缺失机制,它是一个非常本质和关键的问题是指数据缺失的根本原因, 并且更关心的是这种原因是否与缺失的数据本身有关。r u b i n 把缺失机制分为三 种:完全随机缺失,随机缺失,非随机缺失。本文研究的缺失机制是随机缺失,即 数据缺失的概率与缺失的数据无关。另外,本文还假设,缺失的真值与另外一些 变量有线性关系。这样的假设是为了能方便地对缺失的真值进行回归估计。 对不完整数据的研究越来越受到人们的关注,方法也有很多,本文主要针对 经验似然方法和比例优势模型在不完整数据上的应用展开讨论与探索。 经验似然方法是一种非参数方法,是a r t o w e n :生1 9 8 8 年第一个提出的,他有 效地将经验分布和似然估计结合起来,证明了在完整数据的情况下,该方法相对 于参数方法的优越性,并且把该方法推广到了非常一股的统计问题。后来,很多 作者进行了大量的研究工作,并给出了经验似然方法很好的性质:如能够保证置 信域不超出值域,不受数据变形的影响,在小样本情况下有很好的精确性等。由 于o w e n 的经验似然方法大多被限制于完整数据,我们自然会想到是否能把他的 方法扩展到随机删失数据中。这个问题的答案是肯定的,准确地说,能把他的方 法应用到一族统计泛函。这种情况下,经验似然比率会渐近服从加权的x 2 分布, 引言 权重依赖于未知的总体,是随机删失导致的结果。幸运的是,这个方法仍然保持和 通常的经验似然一样的性质,如置信域不超出值域,置信区问完全由样本决定。 在本文的第一章里,讨论的数据结构是既有删失又有缺失,删失主要研究右删 失情况。是否能保证经验似然方法在删失缺失共存的情况下依然有效、精确,这是 本文要研究的内容之一。为了对缺失值进行估计,首先要对删失数据作回归拟合, k - s v 估计是本文用的回归估计方法,该方法是k o u l 、s u s a r l a 和v a n r y z i n 于1 9 8 1 年 提出的,解决了收敛问题,并证明了估计量的渐近正态性。有了估计值和删失数 据,用经验似然方法构造置信区间,并与正态近似的方法进行比较。 另方面,在临床医学中,刻画观察对象的结局情况有两个指标:观察对象 是否发生预期的结局和结局发生的时间。如果预期的结局发生了,即称为发生失 效事件。经典生存分析通常研究一种失效事件,但是多结局的情形在临床医学研 究中越米越多。所谓的多结局现象就是指研究对象可能出现的失效事件有多种, 通常这多种失效事件又是互相关联。本文的另一个研究主题,也是第二章的主要 内容,是探索比例优势模型在多结局区间删失数据情况下的表现,对现实也有一 定的指导意义。这里的区闯删失数据是这样产生的,对被研究个体进行不定期地 检查,记录失效事件在前后诱次检查之间有没有发生。在很多研究区间删失数据 的模型中。都不可避免地遇到讨厌参数的问题。由于在本文的研究中,并不关心 讨厌参数的估计,因此比例优势模型的引入和条件逻辑回归方法的应用可以有效 地避免讨厌参数估计的问题。比例优势模型是个回归模型,可以用牛顿一拉普 森方法估计参数,但是因为多结局之问存在相关性,参数估计量的方差估计就不 能不考虑到这一点,因而夹心方差估计量就自然地引入了。第二章的研究是建立 在r a b i n o w i t z ( 2 0 0 0 ) 在单结局情况的成功经验基础上的,探索把单结局推广到多结 局时比例优势模型的有效性。 第一章包含缺失和删失数据的经验似然推断 第一章包含缺失和删失数据的经验似然推断 1 1 背景介绍 许多统计试验,即使在控制得很好的条件下,仍然无法避免地会产生带有不 完整数据的样本。这是因为一些无法控制的客观因素导致了数据的不完整,甚至 缺失。这种情况下,数据无法被准确地观测。这一章旨在研究如何在缺失和删失 共存的情形下估计总体的均值。 处理缺失数据的通常方法就是估值,然后把它们视为真实值来作统计推断。经 常应用的估值方法有;比例线性回归估值法、邻值估值法、k e r n e l 回归估值法。在方 差、协方差的分析中,用最小二乘估计对缺失值估值的思想,要追溯到y a t e s ( 1 9 3 3 ) 1 1 1 和b a r t l e t t ( 1 9 3 7 ) 2 1 。对于缺失数据的估值,在l i r l e & r u b i n ( 1 9 8 7 ,c h 4 ) p j d p 有详细的 介绍。 删失数据经常会在临床研究、生存分析、生物与可靠性分析中碰到。在过去 的二十几年中,删失数据的统计推断越来越受到重视和深入地研究。 令m ,砼,k 为服从未知分布f 的、非负独立同分布随机变量。其真实的期 望是我们关心的,记为8 。令白,伤,g 为服从已知分布g 的、非负独立同分布 删失随机变量。假设k 和g 独立。在随机删失模型中,真值k ,巧,碥是无法观 测到的,我们仅仅能观测到的是2 :f = r a i n ( ,q ) 和磊= ,( ksc ;) ,其中j ( ) 是示 性函数。 在实际情况中,比较常见的是随机缺失。意味着y 的缺失与否与y 的值是独立 的、不相关的。我们用琅表示缺失与否,如果缺失依= 0 ,否则仕= 1 。 这一章节的结构如下:在第二节中,分别用正态的方法和经验似然的方法构 造均值的置信区间。经验似然方法是a r t o w e n ( 1 9 8 8 ,1 9 9 0 ) t 4 ,5 1 第一个提出的。按 照他的思想,置信区间是用经验似然比率构造的。与传统的参数方法相比较,经 验似然在小样本情况下有很好的精确性。在第三节里,随机模拟给出了不同条件 第一章包含缺失和删失数据的经验似然推断 2 下,正态与经验似然的比较结果。第四节给出了主要定理和引理的证明。 1 2 方法与主要结果 首先,我们用线性回归估值方法给缺失值估值。假设如下回归模型: k = 霹卢+ 岛, = 1 ,2 ,n ,( 1 1 ) 其中,卢是_ p xl 的回归参数向量。岛是独立同分布的随机误差,均值为0 ,与托独 立。 用k o u l ,s u s a r l a 和v a n r y z i n ( m s d 提出的方法( k - s v ) ,p 估计量为: 鼽f = 禹扣1 2 棚。 因此,如果m 缺失,我们可以用x 口来估计k 的值。 令 z :。= 侬f + ( 1 一依) 霹p , i = 1 ,2 ,n 我们用自2 去瓦作为口的估计量 其中 定理1 2 1 假设e i i xj i ,互舻 0 0 ,并且如果如是口的真值,那么 击砉( 蹦一( 0 川, v ( o o ) = 砰+ 砖+ 2 饥2 , 蠢= e h ( 岛s 1 x + 1 ) 2 ( y 一x 7 f 1 ) 2 】, 磋= e ( x 7 p o o ) 2 , 0 1 2 = e 切( 岛s ;1 x + 1 ) ( y 一x f 1 ) ( x 7 p o o ) 1 , 研= e 【( 1 一们x 7 】, & = e h x x 。 k x 仇 。:l f : x 磁啦 。甜 f f d p 第一章包含缺失和删失数据的经验似然推断 3 证明首先,k - s - v 方法告诉我们e ( r 二) = e m ) ,于是我们得到e ( z 汛) = e ( k ) 。 代入声的表达式,我们可以得到: n - ;z ( i 一班) 霹( p p ) nn n = n 一;( ( 1 一班) 霹) ( j x j x ;) - 1 辄凰( w 一研声) i = l j = l k - - - - 1 = n 一e l ( 1 一叩) x 7 e o i x x 7 ) 1 - 1 依j 最( 玲一x :p ) + o p ( 1 ) k = l = n - & 昂1 孤溉( 琢一群励+ 唧( 1 ) k = l 重新组织( 4 1 ) ,得到: n - e ( i 一依) w p i = l 利用( 4 2 ) ,我们有: n 一 ( 五。一如) = 1 = n 一;( 琅k + + ( 1 一协) 碍声一如) i = l n = n 一;1 ( 琅f 一岛) + 亿一( ( 1 一臻) 巧矽) + n 一;( ( 1 一班) 霹p ) + 郇( 1 ) i = 1 = 礼一j 1 ( 依+ 一a d + 岛豸1 哺x ( 玎一w 卢) + ( 1 一依) 碍卢) + 哆( 1 ) ( 1 2 ) ( 1 3 ) 研 一 瞄磁弧 。脚 广碍巧珩 。硝 矸 艰 一 0 。僦 1 2= 0 唧 十 卢矸蝴 一 旺 。斟 l i + 国研 一埽戤 。m 笥 研 毛 n= 历研 k墨准 。僦 露& l 一2 一 珏+ 靠一 k 琅 。i n i | 第一章包含缺失和删失数据的经验似然推断 4 = n i 1 ( 仇( s i s 彳1 五+ 1 ) ( f 一群卢) + ( 霹卢) ) - i - o p ( 1 ) ( 1 4 ) 仁= 1 根据中心极限定理,( 4 3 ) l v ( o ,y ) ) , 其中, v ( o o ) = e ( 琅( s ;1 五+ 1 ) ( y i 一碍p ) + ( 砑p 一如) ) 2 = 砰+ 砖+ 2 a n ; 口 = e 协( 毋s i l x + 1 ) 2 ( y + 一x 7 卢) 2 】, 盯;= e ( x 7 p o o ) 2 , 盯1 2 = e h ( 研s ;1 x + 1 ) ( y + 一x 7 p ) ( x 7 p o o ) 1 口 由于y ( 如) 未知,我们用它的矩估计量矿( 如) 代替。矿( 如) = 砰+ 霹+ 2 矛1 2 ,其 中,子 = n 一1 :。依( 袅雪 1 五+ 1 ) 2 ( k 一鼍矽) 2 ,磅= n 一1 :。( 碍矽一岛) 2 ,白2 = 扎一,墨。臻碗露1 五+ 1 ) ( 一碍口) ( 碍p 一如) ,岛= :( 1 一啦) 辫,岛一 x 耽五霹。 我们可以得到正态近似的1 一口置信区间( 口一“l 一。、f z ( o ) 1 ,d + t - 一吖2 4 f ( o ) l , o , 其中u 1 - ( * 2 是标准正态分布的1 一a 2 分位点。 但是当样本容量很小时,上述的按照中心极限定理构造的对称的置信区间估 计不佳。因而,我们也要考虑基于经验似然方法的置信区间。这个方法无须假设 底分布,也有很好的渐近性质。 令b 为瓦a = 1 ,2 ,n ) 的分布函数,每个z 轨的概率为a 。于是,我们有日( 弓) = 汹na z m 。在护一处的经验似然比率被定义为: ( 如) = 一2 坼) 矾m ,a x 笛矧善崦嘶) ( 1 5 ) 引入拉格朗日乘子,可以得到 t ( 如) = 2 l o g ( 1 + a ( 一如) ) , ( 1 6 ) 其中a 是下述方程的解: 熹砉赫1 - o n 乃 n 台+ a ( 磊一岛) ” ”“ 第一章包含缺失和删失数据的经验似然推断 5 与标准的经验似然函数不同的是,这里t ( 如) 中的z h 不是独立同分布的。因 此,t ( 钆) 的渐近分布不是标准的x 2 分布,这样构造置信区间没有标准x 2 分布情况 下那么容易。因此( ) 必须调整到使它服从标准的x 2 分布。 令 乙( o o ) = , c o o l c o o ) , ( 1 8 ) m ) = 器和啪) = ;喜( 圳2 这样,乙) 就渐近服从标准x 2 分布,自由度为1 ,证明如下: 引理1 2 2 在定理j 2 j 的条件下,我们有 :( 一0 0 ) 2 = 司+ 磅+ 2 + o p ( 1 ) , 其中, 砖= e ( x 7 p 一) 2 , 霹= e ( r i ( y 一x 7 声) 2 , 观3 = e 伽( x 7 卢一o o ) ( y + 一x p ) 】 证明由大数定律和口岛口,易见 其中 ;喜( 一咿= 去砉( 椎玲+ ( 一琅) 辫口一如) 2 = 几l + 足1 2 + + 哆( 1 ) , ( 1 9 ) 冗,1 1 2 尼。2 = = ( 霹p o o ) 2 , 叩( f 一群p ) 2 哺( 群p o o ) ( w 一墨卢) 。黼。=l。=l 1 一竹 1 一n 2 一n 第一章包含缺失和删失数据的经验似然推断 6 又由大数定律,得到: 蜀。1 蜀。2 冠诅 j l l l 砖, 砖, 2 口西 由( 1 9 ) 一( 1 1 2 ) n - 以证明引理l 2 2 ( 1 1 0 ) ( 1 - 1 1 ) ( 1 1 2 ) 口 引理1 2 3 令白。) = m a x l s 。i z 讯1 如果定理j 2 j 的条件满足,可以得到: 五帕= o p ( n m ) 证明注意到 互砷黪阱i + 鼢0 五硎 ( 1 1 3 ) 由o w e n ( 1 9 8 8 ) i 引理3 可知: 是罄f + i = o p ( n v 2 ) ,擢落0 五8 = o n ( n 1 1 2 ) 0 1 4 ) ( 1 1 3 ) ,( 1 t 4 ) 和p = o _ ( 1 ) 可以证明引理1 2 3 。 口 引理1 2 4 在定理j 2 j 的假设条件下,可以得到 a = o p ( n 1 2 ) 证明由定理1 2 1 可知 去一c o ) 2 o p ( n - 1 1 2 ) ( 1 1 5 ) 这个结论和引理1 2 2 、引理1 2 3 可以证明引理1 2 4 ( 参见o w e n ( 1 9 8 8 ) ) 。 口 定理1 2 5 假设e 4 x 0 o o ,五 0 0 ,并且如果如是口的真值,那么( ) 渐 近服从x i 分布或者说,p ( 乙( c o ) ) = 1 - - a + o ( u ,其中满足p ( x c o ) = l q 证明泰勒展开k ) ,可以得到 n 厶( 如) = 2 a ( 瓦一) 一;n ( 一) 】2 + ( 1r 1 6 ) 第一章包含缺失和删失数据的经验似然推断 7 并且i i e l a ( 瓦一o o ) 1 3 依概率满足。 由引理1 2 i = 2 1 、引理1 2 3 、引理1 2 4 ,得到: m 卯i 理聊i z , n 也l 萎娟) 2 - 榔 ( 1 1 7 ) = :妻i = 1 ( 瓦一如) 一睦娄( 一如) 2 】a 由( 1 7 ) ,( 1 1 8 ) 和引理1 2 2 1 2 4 ,可以得到: ( 1 1 8 ) ( 1 。1 9 ) 代八( 1 7 ) ,叫以得到o 。= 。1 a ,( z 、。i 。- o o 。) 万 一白a(苏一刚一壹协(刚扎吲-i=:x(z叩,-,。oo),13i万(120)=1i = l,= 1 ”7 由引理1 2 二1 2 4 可知 k 监巡= d p ( 1 ) (i2i)-i a ( z , - 0 0 ) i o o 。p , 一, ( 1 2 0 ) 和( 1 2 1 ) 可以推出 【a ( - o o ) l = 盼( 磊一) 】2 + 咋( 1 ) ( 1 ,2 2 ) 通过( 1 16 ) ( 1 1 n ( 1 1 9 ) 和( 1 2 2 ) ,我们可以得到: t ( ) 2 畦i = 1 ( 磊一晰1 。 去;( 瓦一删2 + d p ( 1 l 因此, m h 击砉赫n 榔 2 s ) 户两 靠= 。瓦 墨u 暇了 l 。:l l n 胆 绵 +如 一 。: 一 疗如 一磊 。:l f f 天 第一章包含缺失和删失数据的经验似然推断8 另外,易知 v ( o o ) ,y ( ) 这个结论和定理1 2 1 、( 1 2 3 ) 证明了定理1 2 5 口 由定理i ,2 5 ,可以构造渐近的l o 置信区同:厶= p :乙( 口) c n 。 推论1 2 6 特别地,当没有删失发生,互。= 哝+ ( 1 一维) 墨参,其中 p = ( :。哺五霹) 一1 銎1 琅五m 。假设e l i x 0 o o ,e 铲 0 0 ,并且如果如是口的 真值,那么乙鳓) 也渐近服从x 分布 这是q i h u aw a n g & j n i c r a o ( 2 0 0 2 ) 6 】文章里的定理l 。 1 3 模拟结果 在第二部分,当缺失与删失共存的情况下,我们考虑了两种构造置信区间的 方法。下面的模拟结果比较了两种方法的估计效果,用构造的置信区阋覆盖总体 均值的概率表示。 我们用最简单的回归模型y = 3 + 3 x + 来产生y 的真值,其中e 是标准正态 随机误差,x 服从均值为l 的指数分布。删失随机变量c 服从均值为c 的指数分布。 记( p ) ,e l ( e ) 分别为两种方法构造的置信区间覆盖真值0 的概率。对每个模拟条 件,产生1 0 0 0 组数据来计算覆盖概率。删失随机变量的均值c = l o ,2 0 ,5 0 。缺失概 率为0 0 5 。0 1 和0 2 ( 参见表1 、表2 和表3 ) 。 从结果中可以看到,在任何情况下,经验似然方法都比正态逼近的方法要好, 覆盏概率比较大。另外我们可以预见到的是,随着缺失概率的增大覆盖概率减 d 、。 第一章包含缺失和删失数据的经验似然推断 9 壅! :矍垂塑空f 箜叁塑垩塑! :堕! n = 0 1a = 0 0 5 堑:焦董篮奎f 丛叁塑奎塑! :! ! n = 0 1 a = 0 0 5 i 墅:蕉董壁室f 壁叁堡壅塑! :望 o = 0 1 q = 0 0 5 c n 口( 8 ) 昱k ( p )口( 口) e k ( l o 2 00 7 6 30 8 5 7 0 8 3 00 8 9 6 1 5 5 0 1 0 0 2 0 5 0 1 o 8 l s o 8 3 1 0 7 9 5 0 8 1 4 0 8 3 5 0 8 7 7 o 8 7 2 0 8 6 7 o 8 5 4 0 8 8 1 0 8 5 6 o 8 9 0 0 8 2 4 0 8 5 5 o 8 9 9 o 舯l o 9 1 5 0 8 7 2 o 8 9 7 o 9 3 l 2 0 0 8 1 90 8 8 3 0 8 6 20 8 9 2 5 00 8 0 90 8 4 3 0 8 7 60 9 0 2 1 塑垒些 竺! :! ! :! 竺堡! ! ! 第二章比例优势模型在多结局区间删失数据上的应用 1 l 第二章比例优势模型在多结局区间删失数据上的应用 2 1 背景介绍 在临床医学中,一些关心的事件很难被观测到其发生的准确时问,因为对被 研究个体时时刻刻进行观测是不可行的。一般情况下,对被研究的个体进行定期检 查,检查关心的事件有没有发生,这样记录下的数据被称为区间删失数据( i n t e r v a l c e n s o r e dd a t a ) ,因为我们只知道事件发生的时间在某两次连续的检查时间之间。 特别地,在一些试验设计中,对被研究个体只进行一次检查,事件的发生或 者是在检查之前,或者是在检查之后。这样的区间删失数据被称为当前状态数 据( c m - m n t s t a t u sd a t a ) 。 迄今为止,许多人研究了如何处理区间删失数据。t u m b u l l ( 1 9 7 4 ) m ,v a nd e r g e e r ( 1 9 9 0 ) l s l 和g r o e n c b o o m ( 1 9 9 1 ) 【9 】对这种数据的分布函数构造了非参数的极大 似然估计量。之后,g r o e n e b o o ma n dw e l l n e r ( 1 9 9 2 ) 【l q 研究了用e m 算法和最小凸 弱函数算法( t h el e a s tc o n v e xm i n o r a n ta l g o r i t h 叫来求极人似然估计。 协变量分析是另一个关于区问删失数据研究课题,r a b i n o w i t z ( 1 9 9 5 ) t l i i ,h u a n g ( 1 9 9 6 ) p 2 1 和r o s s i n i ( 1 9 9 6 ) 3 1 分别引入了诸如比例风险( p r o p o r t i o n a lh a z a r d s ) 、比例 优g ( p r o p o r f i o n a lo d d s ) 和加速失效 a c c e l e r a t e df a i l u r et i m e ) 模型的半参数回归模 型。另外,f a y ( 1 9 9 6 ) t t + l 应用了一般变换( g e n e r a l t r a n s f o r m a t i o n ) 模型。s a t t e n ( 1 9 9 5 ) 1 f m 在c o x 模型的估计中采用了秩方法。 所有的这方面研究都无法避免得存在问题,大多数是在讨厌参数的估计上。 对比例风险回归来说,讨厌参数是基准风险( b a s e l i n e h a z a r d ) :对于比例优势回归, 讨厌参数是基准对数优势l - l :( b a s e l i n el o go d d s ) ;在加速失效模型中。讨厌参数是 残差的分布。通常,非参数极大似然方法能解决这个估计问题,但是计算的复杂 和编程的困难便诸多实践家知难而遇。 由于多数情况下,讨厌参数不是我们关心的,许多人设法避开对它们的估计。 条件逻辑回归就是个好方法,r a b i n o w i t 2 ( 2 0 0 0 ) f m 已经在单结局失效事件的情形 中成功地应用了。 如今。临床研究中越来越多地牵涉到多结局的l 鼋题,也就是在个被研究个 第二章比例优势模型在多结局区间删失数据上的应用1 2 体身上研究两个或两个以上的事件。这些事件可以是某种事件的重复发生,也可 以是完全不同类型的事件。比如,在l i 缶床中,哮喘病、癫痫病症的发作,传染病的 周期,肿瘤的诊断与复发,或者是流血事件,都可以看作是多结局事件。再有,在 工业中,多结局事件可以是某种机器( 如电子计算机、汽车等) 的故障发生时间。 在这章中,为了迎合临床医学中的常见研究课题,利用r a b i n o w i t z ( 2 0 0 0 ) 在单 结局情况的成功经验,主要通过随机模拟检验比例优势模型和夹心方差在多结局 中的有效性。 第二节详细介绍了比例优势模型和条件似然的方法。第三节给出了参数和其 方差的估计。第四节包括了随机模拟的结果。第五节有一些其它方面的讨论。 2 2 模型和条件似然 给出模型之前。有必要引进一些要用到的记号,介绍一下数据的结构和数据 收集的机制。 假设有1 1 个被研究个体,每个个体有k 个事件要被观测。对个体i 进行讹次检查 来检测事件的发生,检查时问随机确定。记五f 为第i 个个体的第j 次检查的时同, 记五为所有次检查的集合。让互表示个体i 第k 个事件的发生时问0 c = l , 2 ,l p , k 社作为第i 个个体的第k 种事件在莉次检查之前发生的示性变量,即m 掂= ,( 正i 五j ) 。记z 沩个体i 的协变量,为了方便起见,假设它表示个体i 的属性,即认为它 不随时间的改变而改变。 假定所有被研究个体之间相互独立。另外在五给定的情况下,正k 和咒f 也假 设独立,即检查和事件的发生独立。对每个被研究个体来说,所有k 种事件的发生 是有相关性的,然而在对参数进行估计时我们可以把它当作独立,但是这相关性 在估计方差时不能被忽略。 至此,对第i 个个体( i - l 2 ,n ) ,所有我们关心的信息包括:互,x j c j = 1 ,2 , k ) , t k ( k = l , 2 ,j p 。 蕊的计算是建立在五,和取基础上的。 在多结局情形,给定k 和i ,半参数比例优势回归模型构造如下: l o c t ( p t t k t i 五 ) = a k ( t ) + p z ,k = 1 ,2 ,k( 2 1 ) 其中,a ( ) 是一未知的递增的基准优势函数,卢是我们关心的系数向量,反映 了协变量对事件发生时间的影响强度。基准优势函数被看作为一个无限维空间上 的讨厌参数,可以通过条件逻辑回归的方法消除a 给定五,示性变量 的条件期 第二章比例优势模型在多结局区问删失数据上的应用 1 3 望e ( m 弛i 五) ,或者正k 小于五,的概率,是: p ( 墨i 磊) = 1 + 竺e 丛x 丝p a 墅堕( x h , j ) + 坠f l z , 1 ( 2 2 ) 在定义条件似然函数前。有必要按时间的前后顺序分割成若干个风险集。将 所有被研究个体的检查时间按先后顺序排列,相邻的检查时间被划分成一个风 险集。第1 个风险集记为岛。由于个体i 在鳓次检查时可能不是暴露在所有k 种事 件发生的风险中,即一些事件在上一次检查之前已经发生,因此记局k 为在风险 集韪中,并且有发生第k 种事件风险的所有可能的( i j ) 集合。 给定协变量,对r k 有似然函数: i 煳i 。甓鬟等蓦筝辫 亿s , 给定集合局k 中示性变量m 仕的和,其条件似然函数为: = 夏l 丽 ( i d ) 忑e r q k i e x p 面 a 而k ( x 蕊i j ) 再+ f l 而z i y i j k f l z d w m , ( 2 4 ) 弧n ( j ) 而。e x p k ( ) + ” 其中,。表示当局k 中示性变量 的和给定时,所有可能的物的排歹l j 如果在风险集中,检查时问都一样,那么q k ( 墨j ) 可以被消去,条件似然函数 变为: n ( j ) 焉ke x p ( f l z i y q ) m 。n 锄。e x p ( f l z i y i j t ) 如果风险集中的检查时间不一样,但是十分接近,我们可以把它们看成一样, 因为可以相信,在同一个风险集中,口( 鼍,) 应该是很相近的。这样,条件似然可 以近似地表示成上面的形式。 于是,总体的条件似然函数可以近似地表示成为: l ( f 1 ) = i 垂:i ,i 。i k = l 毒x 譬( z , 3 ) 。l q k 鬻 q 柳 = 紫譬篆篙 ( 2 s k l o 们k l 。”7 2 3 参数估计 由于总体的条件似然函数和通常的条件逻辑同归似然一样,所以我们可以通 过牛顿拉普森算法估计参数p 。对l ( 所求对数,i a y g z ( f 1 ) 。在该算法中,如果声是 第二章比例优势模型在多结局区间删失数据上的应用 1 4 当前的估计值,那z , t - - 个估计值声为 口“声弋百o l ( f 1 ) ,脚, 叫- ) ( 2 7 ) 其中,j ( p ) 是总体的条件对数似然函数“历对p 求导,即: 其中, lk 蛔= 【互一鲰( 矾 ( 2 8 ) i - 1k = l ( j ) r t k f ) 也被称为分数统计量( s c o s t a t i s t i c ) 。 在估计标准差时,不同事件发生的相关性,在不同风险集中同一个个体产生 的相关性都应该被考虑进去。 如果条件似然的最大值是在口处取到,那么 鲫( p 一国、o 矽t ( f 1 ) ,一l 删( f ( 剐( 磐) - 1 , ( 2 - l o ) 其中,( 碧) 一是f ) 关于参数p 的二阶导数矩阵的逆矩阵,它可以通过信息矩阵 的观测值进行估计。 对于当前状态数据( a l 仃衄ts t a t u sd a 吣,一个风险集中的个体与其它风险集中 的个体一定独立,因而 lk 伽( 悃) = 伽( 【互一肌t ( 舢 l = 1 k = l ( 1 j ) 局 lkk = 科【五一肌t ( 刚磊f m ( p ) 】 扛1 枉l r = l 以j ) 角瓴f ) 黾矿 ( 2 1 1 ) 它的估计量可以构造为: 厶kk f 互琢一凤( 刚2 t y q v 一鼬雠 ( 2 1 2 ) i = 1k = l = 1 “j ) 局 a j ) 鱼矿 第二章比例优势模型在多结局区问删失数据上的应用 1 5 对于区间删失数据,相关性既存在于不同的事件之间,又存在于不同的风险 集之间,所以 工j ( 俐( 蛔) = 例( e t 五一胁t ( 舢 1 = 1k = l0 d ) e 两 lxlx = 科【五一肌e ( 刚五,场f 一脚f ( 卢) 1 ) 1 = 1k = lt = 1 七,= l ( i j ) 两( i a ) 蜀,一 r 2 1 3 ) 只有当个体i 的一次检查在集合扁k 中,另一次在扁,一中,其期望项才不等于零。对 所有非零期望项的估计量的形式,只要把公式前的眩掉即可。 2 4 随机模拟 在没有真实数据的情况下,为了检验多结局情形模型估计的效果,有必要进 行随机模拟。为了简化程序,随机模拟中,只考虑两种事件和一个0 - l 取值的协变 量。口的值、样本容量和事件之间的相关性在不同的模拟条件下,有不同的取值。 每个模拟条件下,独立产生1 0 0 0 组数据。事件发生时问满足的比例优势模型,其 参数为q l ( t ) = l o g o o ) ,0 2 ( t ) = z 叼( o 0 8 t ) + l ,p = 0 ,1 5 ,3 。另外,风险集的大 小为2 ,对每个个体进行随机的5 次检查。 有相关性的随机变量的产生不像独立随机变量的产生那么容易。首先,用公 式阢= f ( 、石= = _ 五m + 知e ) i = 1 ,2 产生两个相关的均匀分布随机变量,其 中f ( ) 是标准正态分布的累积函数,m 和服从标准正态分布。然后用矾替代( 2 1 ) 中 的p 正女t l & ,得到两个相关的事件的发牛时间。它们的相关系数是o 。 口的估计可以通过( 2 7 ) 得到,这个有现成的统计软件可以求得,如s a s 。用( 2 1 3 ) 可 以求得方差的估计。 在模拟过程中,i o 作为牛顿拉普森算法的迭代初始值。 第二章比例优势模型在多结局区间删失数据上的应用 1 6 c o f 广= 0c o n - - - 0 2c o l 间8 口n 舢gaa v g s es e o f 声a v g a v g s es e 艟酗g6a v g s e s e o f o5 00 0 2 70 5 2 80 5 7 00 0 0 30 5 5 80 5 9 60 0 1 70 6 5 10 6 3 4 1 0 00 0 0 40 3 40 3 8 7- 0 0 1 60 3 6 40 3 7 7o 0 2 60 4 3 90 4 5 3 2 0 00 0 0 60 2 3 80 2 6 4 - 0 0 0 9 0 2 5 60 2 8 40 0 1 30 3 嘶0 3 1 5 1 55 01 2 7 00 6 7 20 6 4 21 2 4 50 6 8 90 6 8 01 1 3 80 7 4 90 ,6 8 l 1 0 01 2 7 l0 4 4 60 4 9 21 2 9 60 4 7 40 5 2 91 3 2 00 5 5 10 5 4 9 2 0 01 3 0 2o 3 0 10 3 5 11 3 0 40 3 1 50 3 8 0 1 3 l l 0 3 7 90 3 8 8 35 02 1 7 60 8 4 60 6 0 22 1 3 0 7 9 8 0 5 9 7 2 0 5 2 0 8 6 10 6 8 7 l 2 5 0 80 7 2 9o 6 0 825 7 90 7 8 00 5 7 42 4 0 00 7 6 50 6 4 6 2 0 02 7 5 90 6 0 90 5 5 92 7 5 4n 6 2 90 5 3 22 7 4 20 6 8 6o f 5 8 6 + r i s ks e ts i z e = 2 ,n l l mo f e v i l s = 2 ,l l u n lo f e x a m s = 5 + + c o r r - - c o r r e l a t i o nc o e f f i c i e n t 从结果的表格1 中可以看到,几乎所有的卢平均值,当p 等于1 5 和3 时,是随着 样本量的增加而增大、趋近于真值的。对于p 等于0 的情况,p 平均值没有这样的单 调趋势,但是它们都十分接近p 的真值,在p 士( a v gs e ) 范围中。在所有的模拟条 件下,样本量增加后,标准差估计值的平均值( a v gs e ) 和p 的标准差( s eo f 国都变 小了。另外,两种事件越是相关,标准差估计值的平均值就越大。总之,在多结局 情形中,比例优势模型也有很好的估计效果。 2 5 讨论 为了能更好地处理现实问题,这里给出一些讨论。 ( i ) 当我们得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论