缺失数据下两样本差异指标的经验似然推断_第1页
缺失数据下两样本差异指标的经验似然推断_第2页
缺失数据下两样本差异指标的经验似然推断_第3页
缺失数据下两样本差异指标的经验似然推断_第4页
缺失数据下两样本差异指标的经验似然推断_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广西师范大学硕士学位论文缺失数据下两样本差异指标的经验似然推断姓名:张俊超申请学位级别:硕士专业:概率论与数理统计指导教师:秦永松20070401缺失数据下两样本差异指标的经验似然推断学科专业:概率统计指导教师:秦永松摘要研究方向:数理统计研究生:张俊超(2004010589)总体差异检验在许多实际应用中是相当广泛的,例如医学研究。在本文中,我们利用概率理论来判定两样本间的差异所具有的性质。在实际中,我们经常得到如下不完全样本:样本 ( X i , X i ) ( i=1 , , n)和样本 (Yi , Yi ) (j=1 , , m),其中样本 X i ( i=1 , , n)和样本 Y j

2、 ( j=1 , m)都缺失,即0 xi mis sin g1 xi no mis sin g01y j mis sin gy j no mis sin g(i=1 , n; j=1 , m)本文中,我们假定 X,Y 都是完全随机缺失(MCAR)(参见 Little and Rubin(2002),即 X、Y 的缺失满足 P( X = 1| X ) = P (与 x 无关的常数)、 P(Y = 1| Y ) = Py (与 y 无关的常数),且 ( X , X ) , (Y ,Y ) 是相互独立的。通常的理论推断在这些有缺失样本的情形下不能直接应用,处理不完全样本的基本方法是对那些缺失的样本观

3、测值进行补足,再应用标准统计方法将其看作实际观察中的完全数据处理,补足方法主要有固定补足和随机补足两种(参见 Rao(1996)。本文在第一章中假定 xi , i=1 , , n, 和 y j , j=1 , , m,是来自总体 x , y 中的简单随机样本, x F ( x) , y G ( y ) , F (i) 和 G ( i) 都未知。n mi ji =1 j =1个观测值中未缺失个体的集合;snx , sm y 分别表示 X 和 Y 的 n 和 m 个观测值中缺失个体的集合。作为 X 的补足数据.类似可得 yj 。令= + (1 yI , j = y j y j + (1 y j )

4、 y*i = 1, , nj = 1, m表示 X 和 Y 补足后的完全数据样本。令0 ,1 分别是关于 F 和 G 的指标,且 = 1 0 。设已知下列信息:E (1 ( x,0 , ) = 0, E(2 ( y,0 , ) = 0,其中 i , i = 1, 2, 为已知函数。考虑似然函数:I(1), y j = 令 rx = x , nx = n rx ; ry = y , my = m ry 。分别用 srx , sry 表示对 X,Y 的 n 和 m, i s, i s此时用如下方法补足:记xi nx 为从xi rx 中独立随机抽取的 nx 个样本,将其xxI ,i xi xi xi

5、 ) xi*jn mi =1 j =1(2) ni j考虑关于 的经验似然比统计量:R() =supn mj =1 (3)其中 p1, pn , q1, qm 满足约束条件pi 0 , i = 1,q j 0, j = 1, n ,, m ,n ni =1 i =1m mj =1 j =1(4)(5)由(3)(5),利用拉格朗日乘子法,可得对数经验似然比统计量为:n mi =1 j =1其中 j ( ) , j = 1, 2 由下式确定n 1 1 I ,im 2 2 I , j1 n ( x , , )1 m ( y , , )(6)(7)令= 0 ,得如下经验似然方程:n m+ n i =1

6、 1 + 1 ( )1 ( xI ,i , , ) n j =1 1 + 2 ( )2 ( yI , j , , )= 0(8)其 中 1 ( xI ,i , , ) = 1 ( xI ,i , , ) / , 2 ( yI , j , , ) = 2 ( yI , j , , ) / 。 此 处 假 定1 ( xI ,i , , ) / 和 2 ( yI , j , , ) / 都存在。首先给出如下正则条件:1. 0 , 为开区间。2 2| 13 ( x, , ) | 在 0 的 某 邻 域 内 以 某 可 积 函 数 G1 ( x) 作 为 上 界 。 | 2 ( y, , ) | 和|

7、23 ( y, , ) | 在0 的某邻域内以某可积函数 G2 ( x) 作为上界。3.nm k (n, m ) ,且 0 k 0, i = 1, , n , pi 1;q j 0, j = 1, m , q j 1,则(2)的最大值是 n m m 。 npi mq j = supR(, ) pi = 1 , pi1 ( xI ,i , , ) = 0 q j = 1, q j2 ( yI , j , , ) = 0log R(, ) = log1 + 1 ( )1 ( xI ,i , , ) log1 + 2 ( )2 ( yI , j , , )=i 1 1 + (1 )I ,i ( x

8、, , ) = 0j =1 1 + (2 )I , j( y , , ) = 0 log R(, )11( )2. E1 ( x,0 , ) 0 , E2 ( y,0 , ) 0 , 1 ( x, , ) , 2 ( y, , ) 连续, | 1 ( x, , ) | 和定理 1 若条件 1-3 满足,则存在(8)的一个根 ,使得 R(, ) 在 点达到极大值,且2 log R(, ) k 1 20 1 + 10 2未知参数。n mi ji =1 j =1个观测值中未缺失个体的集合;snx , sm y 分别表示 X 和 Y 的 n 和 m 个观测值中缺失个体的集合。此时用如下方法补足:估计。

9、令= + (1 i = 1, , nyI , j y j y j y j ) y*jj = 1, m表示 X 和 Y 补足后的完全数据样本。对固定的 0 q 0 , i = 1, , n ,ni =1i= 1 ,(12)ni =1i h1(q) xI ,i ) = q(13)令 ( xI ,i , , ) = Sh ( + G 1 (q) xI ,i ) q ,i = 1, , n ,(14)由(10)-(14),利用拉格朗日乘子法可得对数经验似然比统计量其中 ( ) 由下式确定n mi =1 j =1n I ,i1 n ( x , , )III) / g ( y(15)(16)令 rx =

10、x , nx = n rx ; ry = y , my = m ry 。分别用 srx , sry 表示对 X,Y 的 n 和 m, i s, i s记 xi nx 为从 xi rx 中独立随机抽取的 nx 个样本,将其作为 X 的补足数据。取 y*j m y iid. G (i) 来补足 Y 缺失的数据, 其中 是 基于 yl ry 下的极大似然, j s, l sxI ,i xi xi xi ) xi*= + (1 p g( y j )g 其中 pi 0, i = 1, , n , pi 1,则(2.1)的最大值是 n n g j ( y j )g 1 y jj =1取 h = hn 0,

11、 h 0 ,取 Borel 可测函数 K (i) ,令 Sn (t) = sup npi g j ( y j ) g j ( y j )1j =1 j =1 p p S ( + Glog R(, ) = log(1 + ( ) ( xI ,i , , ) + y j log g ( y j j )=i 1 1 + ( )I ,i ( x , , ) = 0令 log R(, )= 0 ,得如下经验似然方程:n mi =1 1 + ( ) ( xI ,i , , ) j =1 ( ) = log g ( y j )(17)其中 ( ) =G1 ( q )g (G1 (q),此处假定 g (G1

12、(q) 0 ,g (t )G1 ( q )(g (t) / )dt存在,用0 表示 的真值。首先给出如下正则条件:1. 0 , 为开区间。2. Y 的分布 G ( y) 有共同支撑,即集合 A = y : g ( y) 0 与 无关。3. 对任意 y A , g ( y) 关于 三次连续可微。4.jjg (G1 (q) 0 , ( 2) ( ) 存在且在 0 的某邻域内连续, ( 0 ) 0。 log g ( y)3 c 2, f (i) 和 f t 1 (i) 在 q 的某个邻域内存在且在 q 点连续, f ( q ) 0 ,其中 f (i) F (i) 。8.nm k (n, m ) ,且

13、 0 k 0 ,|u|c / htj 1j = 01 j t 11 1 4r 13 2112时,有 mh2t 0 )。12= 0 ,其中 l2 ( ) =1 mn j =1定理 2 d1c0(1) ,( m, n )(18)关键词:经验似然;置信区间;分位数;缺失数据;补足IVh K ( + G1 (q) xI ,i ) / h)1(g (t ) / )dt和 j y g (t )j g ( y)dy = g ( y)dy ,j = 1, 2 ;对任意 y A ,dt 存在;对任意 , 5. Fisher 信息阵 I ( ) = E ( )2 满足 0 I ( ) 。 log g ( y)6.

14、 | | M ( y), y A,0 0 + c ( c 为常数)。 E0 M ( y) 。| K (u) | du = o(ht ) , | u K (u) |du ,且: u K (u)du = 010. mh2t 0 且存在 r ( r 2且 max3 4t +t2 r 0, i = 1, , n , pi 1;q j 0, j = 1, m , q j 1. Then the maximum of(2)i j n m.Considering the empirical likelihood ratio statistic:R() =sup ; p1 , , pn ;q1 , ,qmn

15、mi =1 j =1 (3)Where p1, pn , q1, qm are subject to restrictions:pi 0 , i = 1, n ,ni =1ini =1(4)q j 0, j = 1, m ,m mj =1 j =1(5)From (3)(5),we explore Lagrange multipliers and abtain:n m( ) ( )i =1 j =1Where j ( ) , j = 1, 2 ,are determined by the following two equations:n 1 1 I ,im 2 2 I , j1 n ( x

16、, , )1 m ( y , , )(6)(7)Let= 0 , we can obtain the empirical likelihood equation:n mn i =1 1 + 1 ( )1 ( xI ,i , , ) n j =1 1 + 2 ( )2 ( yI , j , , )= 0(8)Where 1 ( xI ,i , , ) = 1 ( xI ,i , , ) / , 2 ( yI , j , , ) = 2 ( yI , j , , ) / .Here we assumethat 1 ( xI ,i , , ) / and 2 ( yI , j , , ) / exi

17、st.First making some assumptions in the following:1.2. 0 ,and is an open interval.2 21 ( x, , ) and 13 ( x, , ) are bounded by some integrable function G1 ( x) in aVIj pi q jis n m npi mq j = supR(, ) p= 1 , pi1 ( xI ,i , , ) = 0 q j = 1, q j2 ( yI , j , , ) = 0log R(, ) = log1 + 1 1 ( xI ,i , , ) l

18、og1 + 2 2 ( yI , j , , )=i 1 1 + (1 )I ,i ( x , , ) = 0j =1 1 + (2 )I , j( y , , ) = 0 log R(, )11+ 2 ( )E1 ( x,0 , ) 0, E2 ( y,0 , ) 0 , 1 ( x, , ) , 2 ( y, , ) are continuous,neighborhood of 0 ; 2 ( y, , ) and 23 ( y, , ) are bounded by some integrablefunction G2 ( y) in a neighborhood of 0 .3.nm

19、k (n, m ) ,且 0 k . d2 2 2c0 (1)2 ( m, n ),(9)In the second chapter of this paper ,we assume that xi , i=1 , n, is the independent simplerandom sample and is from the nonparametric population x , x F ( x) , F (i) is unknown. y j ,j=1 , , m, is the independent simple random sample and is from the para

20、metric populationy G ( y ) , G ( y ) is known, is an unknown parameter. The imputation as follows:n mi ji =1 j =1to x and y as srx , sry ,respectively, the sets of nonrespondents with respect to x and y assnx , sm y ,respectively.of based on the sample y j , j sry . We selects a simple random sample

21、 of size my withLet= + (1 yI , j = y j y j + (1 y j ) y* ,Which represent complete data after imputation.i = 1, , nj = 1, mFor fixed 0 q 0, i = 1, , n , pi 1,then the maximum of (2.1)is n g j ( y j )g 1 y jj =1Take bandwidth h = hn 0, h 0 ,and Borel kernel K (i) .Define Sn (t) = R() =n m m(11)Where

22、p1, pn are subject to restrictions:pi 0 , i = 1, , n ,ni =1i= 1 ,(12)ni =1i h1(q) xI ,i ) = q(13)Let ( xI ,i , , ) = Sh ( + G 1 (q) xI ,i ) q ,i = 1, , n ,(14)From (10)-(14),we explore Lagrange multipliers and abtain:n mi =1 j =1Where ( ) is determined by the following equations:) / g ( y(15)1 n ( x

23、I ,i , , )n i =1 I ,i , , )= 0(16)Let log R(, )= 0 ,we abtain the empirical likelihood equations:n m ( ) =i =1 1 + ( ) ( xI ,i , , ) j =1 log g ( y j )(17)Where ( ) =G1 ( q )1,here we assume that g (G1 (q) 0 ,和1(g (t) / )dt exsit. Use 0 to denote the true value of .First making some assumptions in t

24、he following:1. 0 ,and is an open interval.2. The distributions of G ( y) have common support, so that the set A = y : g ( y) 0 isindependent of .3. For every y A ,the density g ( y) is differentiable three times with respect to .jjany ,g (G1 (q) 0 , ( 2) ( ) exists and is continuous in a neighborho

25、od of 0 ,and ( 0 ) 0。5. The fisher information I ( ) = E () satisfies 0 I ( ) 。6. | 3 log g ( y) 3| M ( y), y A,0 c 0 + c (for some c )with E0 M ( y) 2 such that f (i) and f t 1 (i) exists and is continuous in aneighborhood of q with f ( q ) 0 ,where f (i) F (i) .VIIIsup npi g j ( y j ) g j ( y j )1

26、j =1 j =1 p p S ( + Glog R(, ) = log(1 + ( ) ( xI ,i , , ) + y j log g ( y j j ) 1 + ( ) ( xh K ( + G1 (q) xI ,i ) / h)1(g (t ) / )dtg (q)(GG ( q ) j y g (t )j g ( y)dy = g ( y)dy , j = 1, 2 ;For every y A ,dt exists;For4. log g ( y) 28.nm k (n, m ) ,and 0 k 0 ,|u|c / htj 1j = 01 j t 110. There exis

27、ts a1 1 4r 13 212= 0 , where l2 ( ) =1 mn j =1of1c0(1) ,( m, n ) (18)Key Words: Empirical likelihood; Confidence interval; Quantile; Missing data;Imputation.IX| K (u) | du = o(ht ) , | u K (u) |du ,and that u K (u)du = 0r ( r ) such that mh2t 0 and m h4 .11. m ( 0 ) = Op (1) , andl2 ( ) y j log g (

28、y j ) .Theorem 2 Suppose that assumptions 111 are satisfied. Then there exists a root equation (17) such that R(, ) attains its local maximum at , and2 log R(, ) Lp y k I (0 ) 12 + f 2 ( q ) 2 ( 0 ) 2论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下进行的研究工作及取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或其他机构已经发表或撰写过的研究成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论