缺失数据的插补调整重点_第1页
缺失数据的插补调整重点_第2页
缺失数据的插补调整重点_第3页
缺失数据的插补调整重点_第4页
缺失数据的插补调整重点_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文章编号:1002-1566(2001 06-0047-07缺失数据的插补调整金勇进(中国人民大学统计学系, 北京100872摘要:插补是另一类对缺失数据进行调整, 以减小估计偏差的方法估计, 均值插补, 随机插补, 回归插补和多重插补。关键词:缺失数据; 插补调整中图分类号:O212;C81, 一种被称为“单位无回答”, 它是指入选择本单位由于各种原因没有接受调查, 可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”, 它是指被调查单位虽接受调查, 但在某些调查项目上没有提供有效回答。与单位无回答相比, 项目无回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整法虽然也

2、可以应用于“项目无回答”, 但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”, 但主要是对“项目无回答”进行调整的方法。所谓插补是指, 采用一定的方式, 为调查中的缺失数据确定一个合理的替补值, 插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差, 为此, 就要使确定的替补值尽可能地接近缺失的原数据值。事实上缺失数据的真值我们无法得知, 因此所追求的只能是确定替补值方法的合理和有效。调整的第二个目的是力图构造一个完整的数据集。在调整前, 由于缺失值的存在, 使原数据集上出现许多“窟窿”, 给一些统计分析方

3、法的使用带来不便。采用插补的方式填补了缺失值的空缺, 就为后面分析人员的工作提供了方便, 他们在使用标准统计软件的同时, 不必繁琐地说明对缺失值进行处理的方法, 大大节省了精力和时间。而且不同分析人员使用的是同一套经过插补调整的数据, 也保证了分析结果的一致性。插补的效率如何, 取决于替补值与缺失值的近似程度。为了提高效率, 对研究总体进行分层, 使层内各单位诸方面情况尽可能相似, 利用同一层内回答单位的信息产生出缺失数据的替补值, 是进行插补的基本思路。因为可以利用不同的信息源, 采用不同的方式生成替补值, 所以有不同的插补方法。本文将对几种比较典型的方法做以简要介绍。二、演绎估计法演绎估计

4、法适用于这样一种情况, 目标变量Y 的缺失值可以以很高的确定性由其它辅助74缺失数据的插补调整收稿日期:2000-08-20基金项目:国家教育部人文社会科学研究“九五”规划项目资助课题变量来决定。这意味着, 目标变量与辅助变量之间存在着已知的函数关系, 即Z i =f (X i 。式中Z i 是第i 个单位目标变量缺失值的估计值(替补值 ,X i 是第i 个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中, 多处使用演绎估计法对缺失值进行插补。1. 对种族缺失值的插补函数式为Z i =X i , 即如果某人种族数据缺失, 可采用其配偶的种族; 如果某家庭成员种族资料缺失, 可

5、使用户主的种族。2. 如果年龄项目数据缺失, 则利用出生年份资料进行估计。若调查是在1990年进行, 令X i 为出生年份, 则Z i =1990-X i 。3. 若就业收入的数据缺失, 则利用其它4个相关的辅助变量信息推算。令X 1i 、X 2i 分别为该被调查者的主要职业和第二职业的周工资率,X 3i 、X 4i 分别为其在主要职业和第二职业上的工作周数入的估计值为Z i =X 1i . X 3i +X 2i . X 4i 。由此看出,f (X i 可假定为许多不同的形式Y 与关系, 且X 值已知。实践中, 。三, 使组内各单位的主要特征相似。然后分别计算各, 将各组均值作为组内所有缺失项

6、的替补值。均值插补法的特点是操作简便, 并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱点也比较突出。一个是插补的结果歪曲了样本单位中Y 变量的分布, 因为同组中缺失数据的替补值都由该组的平均值充当, 使得其分布状况受到由各组回答单位数据计算出的组均值的制约, 其次, 插补结果将导致在均值和总量估计中对方差的低估, 因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低, 因此均值插补适用的场合是仅仅进行简单的点估计, 而不适用于需要方差估计等比较复杂的分析。四、随机插补法为避免均值插补中替补值过于凝集的弱点, 随机插补应运而生。这种方法是指, 采用某种概率抽样的方式

7、, 从回答单位的资料中抽取缺失数据的替补值。为便于说明, 令某项目回答数据个数为n 1, 缺失数据个数为n 0, 则n =n 1+n 0, 现从n 1个数据中随机抽取n 0个替补值, 则样本构成为:样本=y1,y 2, ,y n 1,y 3n 1+1,y 3n 1+2, ,y 3n 此时, 目标变量的均值估计为:y hD =n(n 1 y 1+n 0 y 3式中, y 3=n1i =1H i y i /n 0, 如果采用不重复抽样, H i =0或1; 如果采用重复抽样, 则H 为多项式分配, 若h 1+h n1=n -n 1, 则PH =(h 1,h 2, ,h n 1 =( h 1! h

8、2! h n 1!否则上面所定义的概率为0, 由此得出E (H i =n 184数理统计与管理20卷5期2001 年Var (H i =(n -n 1 (1-n 1 n 1Cov (H i ,H j =-n 21(i j 若假设i 与j 独立, 由上面结果可以导出E ( y HD = Y Var ( y HD =(n 1-N S 2+(1-n 1 (1-nS 2式中,S 2为总体方差。可以看出, 随机插补法估计量 y HD , 第一项是仅用回答单位数据进行估计的方差, 即Var ( y 1 =(N 2n 1=(n 1-NS 2, 量方差增加项。, 变量分布的弱点, , 这就使随机插补法在估计与

9、样本分布, , 将样本单位进行事后分层, 然后在各层中使用, 。五、回归插补法回归插补的基本思想是利用辅助变量X k =(k =1,2k 与目标变量Y 的线性关系, 建立回归模型, 利用已知的辅助变量的信息, 对目标变量的缺失值进行估计。于是第i 个缺失值的估计值可以表示为:Z i =0+Kk =1k X ki +e i 式中的是回归系数。若辅助变量是定性变量时, 可以采用虚拟变量的处理方法:若目标变量Y 是定性变量, 则考虑通过Logit 变换, 进行Logistic 线性回归。与随机插补和均值插补的不同点在于:Zi 不是取自回答单位的实际值, 也不是由回答单位数据计算的均值, 而是利用目标

10、变量与辅助变量的线性关系, 采用标准方法(如最小平方法 计算出的估计值。上面的回归模型可以有不同的演变形式。例如, 对于连续性固定样本调查中的缺失值, 令0=e i =0, 并指定前期调查数据为唯一的辅助变量, 则上式变成:Z i =X i , 这便是简单比率插补, 即用时间的变化, 对前一期的回答数据进行调整, 并做为本次调查缺失值的替补值。应用回归插补法中一个讨论的问题是e i 的处理, 因为经过回归后,Z i 的估计为Z i =0+Kk =1k X ki , 对于相同的X k (k =1,2, k , 得到的替补值是相同的, 这就会和均值插补一样, 存在样本分布扭曲的问题。为此需要构造随

11、机残差e 的数据集。构造的方法有多种, 比较典型的一种方法是, 根据辅助变量X k 将样本单位分层, 在各层中将回答单位数值与其均值的离差视为残差e , 在用回归法得到Z i 后, 在该层的残差集中随机抽取Z i 的残差项, 并将其和作为缺失值的替补, 即:Zi =Z i +e i 。最后, 由回答数据y i 和回归替补值Z i , 得到目标变量的估计值为Y =n1y i +nZ in94 缺失数据的插补调整六、处理缺失数据的多重插补法(一 什么是多重插补法在上面介绍的插补方法均是单一差补法, 即对每个由于无回答造成的缺失值只构造一个插补值。单一插补法存在这样或那样的局限, 如均值插补容易扭曲

12、样本分布, 随机插补的稳定性不够, 等等。能否有一种方法综合起单一插补法的各自特长, 而将其弱点降低到最小程度? 多重插补法就是在这个背景下提出的。美国哈佛大学统计系的Rubin 教授70出多重插补的思想,80年代中与其他学者一起进一步扩展, 。90年代许多学者对这种方法继续研讨, 多重插补的主要思想是, , m 个完全数据集, m 个处理结果, 最后再综合这m 处理结果, m 个插补值的目的是模拟一定条件下的估, , , 研究人员可以借此估计目标量的实际后验分布(二 多重插补法的理论证明来源于贝叶斯理论, 它由Rubin 在80年代初期以一系列的论文提出, 其基本的理论架构被他整理在一本书中

13、(Rubin “Multiple Imputation for Nonresponse inSurveys ”, 这里仅对其推断理论做一简要介绍, 假定我们的目标是从一个有缺失的调查数据集中推断目标总体, 并且缺失值的后验分布(给定回答值的条件分布 可以获得, 那么目标总体的后验分布由下式给出:h (Y obs =g (Y obs , Y mis f (Y mis Y obs d Y mis 式中, Y obs 表示回答数据的集合, Y mis 表示缺失数据的集合,h (表示目标变量的后验密度函数,g (为的完全数据后验密度,f ( 为缺失数据的后验密度。目标变量通常是k 维列向量, 如果调查

14、数据集是理想的, 即不存在缺失值, 对的推断将有如下形式:(- N (0, 这里,是的一个统计量, 是(- 的方差估计量(通常是一个k k 的协方差阵 ,N (0, 是有着均值为0和方差为的k 元正态分布。假定由于出现缺失数据,n 个样本单位中只有n 1个单位提供了回答, 即Y =(Y 1, , Y n 1 被记录下来, Y obs 是n 1记录值的向量, Y mis 是 n 0个缺失值的向量(n =n 1+n 0 。又假定在一个给定的贝叶斯模型里, 采用适当的方法, 对每个缺失值构造了m 个插补值, 由此产生了m 套完全数据。于是对和而言, 有1,2m 和1, 2m 。将m 套经过插补的数据

15、集合并, 得到的多重插补估计值为 mi =mi =1i /m多重插补的方差估计包括两部分, 插补数据集内的方差和插补数据集间的方差。插补数据集内的方差为=mi i /m插补数据集间的方差为05数理统计与管理20卷5期2001年B =mi =1(i - mi 2/(m -1于是多重插补的方差估计T mi 表示为T mi =+(1+mB 可以把调整系数(1+m -1 看成的模拟误差。当m 足够大时, 对的统计推断为:(- mi N (0, T mi 即的95%的置信区间是 mi 1. 96T 1/2mi当m 比较小时, 对的推断则建立在t 分布基础上 mi t df (/2 T 1/2mi此时的自

16、由度df 为df =(m -1 (1+( , 请参阅Rubin 的书(见参考文献1 。NORM ,SOLAS (2. 0版本 ,SAS (8. 0版本 , AM EL IA (三 一个例子这里用一个例子来说明多重插补法的使用, 例子取自于Rubin 的书(19-22页 。此例展示了多重插补法的三个步骤:插补、分析、合并。假定从一总体N =1000中采用简单随机抽样, 抽取n =10的一个样本, 目标变量Y , 辅助变量X , 调查中无回答率为20%, 即y 4,y 6缺失, 具体数据如下:表一有缺失的数据集x i 4689111316182025y i420101416151822步骤插补由上

17、数据知, 目标变量Y 与辅助变量X 存在相关关系, 假定采用简捷的最近距离法为每个缺失值插补两次, 即m =2。第一个缺失值的辅助变量x =9, 与其最近距离的有x =8和x =11, 故取与之对应的y =10和y =14为第一个缺失值的插补值。同样的方法, 第二个缺失值的插补值为y =16和y =14, 由此形成两个完全数据集。表二完全数据集x i 4689111316182025y (1 i 420101416151822 y (2i 420101416151822在三个步骤中, 插补这个步骤甚为关键, 实际处理中需要根据具体情况, 选择适当的插补模型。步骤二分析现在我们感兴趣的是比估计量

18、。根据比估计公式15缺失数据的插补调整Www. statsolusa. com(J. L Schafer 数理统计与管理 卷 期 20 5 2001 年 52 YR = y X x i i = RX 将第一个数据集数据带入 ,且已知 X = 12 ,故 Y R1 = y 1 12 x ( i i = 13 . 38 将第二个数据集数据代入 ,可求出 Y R2 = y 2 12 x ( i i = 13 . 57 由此估计方差估计量公式 v = 1 - f n ( s 2 + R 2 s 2x - 2 R ssy y n n 式中 , f = n/ N , s 2 = y n ( y i - y

19、 2 / ( n - 1 , s 2x = ( x i - x 2 / ( n - 1 , s xy = ( x i - x ( y i - y / ( n - 1 由表二数据可以计算出 ,v1 = 2. 965 ,v2 = 3. 157 步骤三 合并 将步骤二的结果加以合并 ,也即 m m i = i =1 / i m = 1 ( 13 . 38 + 13 . 57 = 13 . 48 2 B = Tmi = + (1 + = 1 m 1 m ( v 1 + v 2 + ( 1 + 1 m ( Y i - i 2 / ( m - 1 m 1 1 ( 2 . 965 + 3 . 157 + (

20、 1 + 0 . 018 = 3 . 073 2 2 由此便可以对 Y 的置信区间进行估计 。 七、 总结 插补调整常用于对项目缺失数据的处理 。造成项目数据缺失的原因有多种 , 比较常见的 有项目无回答 ,此处缺失值还产生异常值的剔除 。虽然这些异常值是回答者实际提供的 ,但由 于它们是极端值 ,把它们修正为正常值对分析可能更有利 。当然 ,在数据审核中 ,把明显的 ,不 会逻辑的数据删去 ,用插补法进行调整 ,也是一种补救措施 。与花费很高费用去寻找正确数值 相比 ,或与用可疑数据进行分析相比 ,采用插补法对可数据进行修正是可以考虑的选择 。 多重插补法提出了处理缺失数据的一个新思路 。这

21、种方法采用模拟数据的方式 , 尽可能 地提取调查中的有效信息 。与单一插补法相比 ,多重插补法具有一些明显的优点 : 首先 ,该方 法利用多个插补值之间的变异性反映缺失值的不确定性 ,进而为估计抽样误差提供了依据 ; 其 次 ,多重插补可以保持研究变量之间的相关性 ,不像单一插补那样容易扭曲变量间的关系 ,这 样 ,它的应用范围就更加广泛 。例如 ,如果调查中的无回答率较高 ,单一插补的估计效率会受 到很大影响 ,而多重插补所受影响则相对小得多 ; 最后 ,插补的效果与构造插补值的模型有关 , 多重插补数据可以模拟特定方法下估计值的分布以及总体参数的贝叶斯后验分布 ,这就为更 好地理解和进一步

22、改进插补方法提供了发展空间 。 缺失数据的插补调整 53 当然 ,多重插补法的操作比较复杂 ,工作量大 ,与单一插补法相比 ,成本增加许多 ,因此有 些学者置疑 ,估计质量的提高能否补偿增大的成本 ; 还有 ,在多重插补的理论与应用方面 ,有些 学者也持有疑议 。看来 ,对多重插补的理论与应用研究还会继续下去 。 插补法的运用离不开辅助信息 。相对于目标变量的缺失值而言 , 辅助信息既可以来自于 同一次调查 ,也可以取自于以前的调查或其它有关资料 。显然 ,辅助信息的质量越高 ,与目标 变量的统计关系越密切 ,使用插补法的效果就越好 。但即便如此 ,在使用调整后的数据集时都 应时刻注意 ,毕竟

23、此 “完全数据集” 非彼完全数据集 ,在使用分析结果时对该结果抱一种客观而 谨慎的态度 。 参考文献 1 T seeler , D L Kalsbeek 。 调查中的非抽样误差M北京 : 中国统计出版社 ,1997 ,12. . 2 金勇进 非抽样误差分析M北京 : 中国统计出版社 ,1996 ,2. . . 3 金勇进 ,朱琳 不同插补方法的比较J 数理论统计与管理 ,2000 , ( 4 . . . 4 Donald B. Rubin. Multiple Imputation for Nonresponse in Surveys MJohn Wiley ,1987. . 5 Donald

24、B. Rubin , Nat haniel Schenker Multiple Imputation in Healt hcare Databases J Statistics in medicine , . 1991 ,10 :585 - 598. 6 Rao. Developments in Sample Survey t heory :an Appraisal The Canadian journal of statistics ,vol25 ,No1 , J . 1997 ,25 ( 1 :1 - 21. 7 赵民德 ,谢邦昌 . 探索真相 抽样理论和实务 台北 : 晓园出版社 ,1999. M . Imputation adjustment method f or missing data J IN Yong2jin ( The Department of Statistics , Renmin University of China , Beijing ,100872 Abstract :Imputation is anot her sort of adjustment met hods to reduce t he bias of estimation

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论