版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上毕业论文题 目部分协变量缺失下的线性回归分析及其应用学 院基础科学学院专业班级学 号姓 名吴佳桐指导教师袁晓惠二一五年六月四日专心-专注-专业中 文 摘 要在目前的各个领域的研究调查中,由于受到各种已知或者未知因素的影响,经常会导致缺失数据出现的情况。而由于缺失数据的存在,不但会增加研究者分析数据的难度,而且会造成分析结果的偏差,从而降低研究者统计计算工作的效率。因此考虑如何消除或者尽可能的减少这些缺失数据的影响就变的越来越重要了。文章首先介绍了回归模型及其基本概念并介绍了使用方法;然后介绍了国内外对缺失数据的研究现状,并简单介绍了数据缺失机制的三种形式,指出解决数据
2、缺失的一般性方法。并在接下来的文章中介绍了在协变量缺失下的线性回归模型,最后是利用R程序对数据进行实证分析。为了有效地解决缺失数据带来的问题,本文使用了其中三种方法对缺失数据集做了相应的处理。首先使用的是剔除法即将含有缺失数据列直接删除;第二种方法是对数据集做逆概率加权;第三种方法是使用回归补值法,对缺失数据集进行填补,从而形成一个完整的数据集,然后对填补后的数据集进行相应的统计分析。本文研究的重点是部分析变量缺失下的回归分析,对不同的样本量做数值模拟,研究在两种缺失程度的数据(15%、30%的随机缺失)通过对比,针对本文的数据研究发现逆概率加权法更好。关键词 线性回归 缺失值 缺失机制 填补
3、方法Title Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the
4、difficulty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper int
5、roduces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the ne
6、xt article, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the
7、second method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of m
8、issing variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missin
9、g value Missing mechanism Imputation method目 录1 绪论1.1 回归分析的发展历程回归分析是处理变量与之间的关系的一种统计方法和技术。回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家F.高尔顿。高尔顿和他的学生K.皮尔逊在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为,而取他们的一个成年儿子的身高作为,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为这种趋势及回归方程总的表明父母平均身高每增加一个单位,其儿子的成年儿子的身高也平均增加0.516个单位。这个结果表明,
10、虽然高个子父辈确有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈的身高与子辈身高的关系。尽管“回归”这个名词的由来具有其特定的含义,人们在研究大量的问题中,其变量与之间的关系并不总是具有这种“回归”的含义,但借用这个名词把研究变量与间统计关系的量化方法称为“回归”分析也算是对高尔顿这个伟大的统计学家的纪念1。1.2 多元线性回归模型的一般形式设随机变量与一般变量,的线性回归模型为 (1.1)其中,,.,是个未知参数,称为回归常数,.,称为回归系数。称为被
11、解释变量(因变量),,是个可以精确测量并控制的一般变量,称为解释变量(自变量)。是随机误差,对随机误差项我们常假定 (1.2)称 (1.3)为理论回归方程。对一个实际问题,如果我们获得组观测数据(,;)(=1,2,),则线性回归模型(1.1)式可表示为 (1.4)写成矩阵形式为 (1.5)其中 (1.6) 是一个阶矩阵,称为回归设计矩阵或者资料矩阵。在实验设计中的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称为设计矩阵。1.3 多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(1.4)式有如下一些基本假定:(1)解释变量,是确定性变量,不是随机变量,且要求。这里的
12、,表明设计矩阵中的自变量列之间不相关,样本量的个数应大于解释变量的个数,是一满秩矩阵。(2)随机误差项具有零均值和等方差,即 (1.7)这个假定常称为高斯马尔柯夫条件。,即假设观测值没有系统误差,随机误差项的平均值为零。随机误差项的协方差为零,表明随机误差项在不同样本之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为 (1.8)对于多元线性回归的矩阵模型(1.5)式,这个条件便可表示为 (1.9)由上述假定和多元正态分布的性质可知,随机向量服从维正态分布,回归模型(1.5)式的期望向量 (1.10) (1.11)因此 (1.12)1.4 回归
13、参数的估计的主要方法 1、回归参数的普通最小二乘估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样,仍然可以采用最小二乘估计。对于(1.5)式表示的回归模型,所谓最小二乘法,就是寻找参数的估计值,使离差平方和达到极小,即寻找满足 (1.13)依照(1.13)式求出就成为回归参数的最小二乘估计。得出用矩阵形式表示的正规方程组移项得,当存在时,即得到回归参数的最小二乘估计为 (1.14)称为经验回归方程。2、回归参数的最大似然估计极大似然估计是统计中最重要,应用最广泛的方法之一,最初被德国数学家高斯在1821年提出时,并未引起重视,直到1922年费舍尔提出了极大似然思想并得以得
14、出性质后,才广为研究和应用。多元线性回归参数的最大似然估计与一元线性回归参数的最大似然估计的思想一致。对于(1.5)式所表示的模型,即服从多变量正态分布,那么的概率分布为 这时,似然函数为 (1.16)其中的未知参数是和,最大似然估计就是选取似然函数达到最大的和。要使达到最大,对(1.16)式两边同时取自然对数,得 (1.17)在(1.17)式中,仅在最后一项中含有,显然使(1.17)式达到最大,等价于达到最小,这又完全与普通最小二乘估计相同,即误差项方差的最大似然估计为 (1.18)这是的有偏估计,但他满足一致性。在大样本的情况下,这是的渐近无偏估计。1.5 回归分析研究的主要内容回归分析研
15、究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。回归分析方法在生产实践中的广泛应用是它发展和完善的根本动力。如果从19世纪初高斯提出的最小二乘法算起,回归分析的历史已有200年。从经典的回归分析方法到近代的回归分析方法,他们所研究的内容已非常丰富。2 缺失数据的介绍2.1研究缺失数据的背景和意义缺失数据是分析数据中的一个基本问题。最常见的例子是在做调查的时候没有响应,我们要向在一项统计调查中要得到
16、百分之百的有效答卷是相当困难的,因为有很多因素产生影响,主要有:在调查初始阶段,可能由于种种原因调查人员无法和被调查人员接触;在调查进行阶段,被调查者拒绝接受调查是很常见的现象。拒绝的主要原因有很多种,例如被调查者没有时间,或者对调查的问题不感兴趣,或者处于被调查者的安全考虑拒绝调查人员的调查,或者被调查者拒绝回答某些重要的问题;在研究的整理阶段,研究人员将不和逻辑的数据剔除出去会造成数据的缺失。如果把缺失数据用无回答表示,当今的实践表明,在现在的调查研究中的缺失数据。其实,在如今这种信息爆炸的时代完整的和正确的数据是很难获得的。考虑到调查研究中数据的重要性,我们在研究工作中需要不断地采集数据
17、,从大量的数据中抽取出对我们有用的知识来指导我们的实践,但是,收集的数据量越大,可能造成缺失数据的情况就越严重,这本身就是一对矛盾。对此,这不仅仅是必须针对大量的数据进行分析处理得到正确结果的问题,同时也需要对缺失数据给出适当的填补措施,使得数据的分析更加有意义。2.2 国内外研究情况2.2.1 国外研究情况外国学术界对缺失数据的问题研究早就开始了,关于统计调查中缺失数据问题的研究大致可分为三个阶段2:第一阶段是启动期(1915年20世纪40年代)有关学者开始了对缺失数据问题的初步研究,强调处理无回答问题的重要性。第二阶段是专题研究、方法发展期(20世纪40年代中期20世纪90年代初)这一时期
18、许多学者对缺失数据问题进行了大量的专题研究,提出了对缺失数据进行处理补救的经典方法。要减少调查中的缺失数据,主要从事前预防和事后补救两方面入手。事前预防也许是处理缺失数据最简单且有效的方法,早期学者也较多的关注减少缺失数据的事前预防方法和措施。但是人们逐步认识到,现实中由于种种原因和条件的限制,这种事先预防的方法并不能使问题得到完全解决。因此,对缺失数据的补救越来越受到重视。第三阶段是方法的完善期(20世纪90年代初至今)这一时期,较少有学者提出关于无回答处理的全新思想,但很多学者或者提出了方法的改进和扩展,或者研究如何使用插补后的数据进行方差估计。此外,大量现代统计方法在缺失数据研究领域的应
19、用,带动了这一领域的蓬勃发展。近20年来涌现出众多关于处理缺失数据的研究文献,对缺失数据进行调整的统计方法取得了很多突破,方法不断完善。至今处理缺失数据仍为抽样应用和理论界的热点专题之一3。2.2.2 国内研究背景概况缺失数据是一个普遍现象,在我国同样存在。解决统计调查中的缺失数据,是提高数据质量的一个重要方面。目前从国内情况来看,我们对缺失数据虽有研究,但国内尚未见对填补方法以及其应用的深入研究,在对缺失值处理研究较前沿的医学卫生领域也未见对缺失值处理统计方法的深入研究。我国对于有关缺失数据的填补与调整的原创性学术研究还很有限,主要成果还只是对国外相关研究资料的译介和文献综述等方面。在过去因
20、为采集数据所花费的代价太高,所以人们经常是基于有限的信息进行决策。随着信息时代的到来,人们把数据挖掘技术作为一种发现和寻找有用信息的技术,正在迅猛发展并在商业决策支持、经济、管理、统计以及计算机科学中发挥着巨大的作用,它使用许多计算方法,如决策树、聚类、人工神经网络和回归算法等。处理缺失数据在统计领域中并不是一个新的课题,然而遗憾的是,传统的统计方法不能正确的解决某些特定数据的缺失问题,例如具有很大的缺失窗口的时间序列数据,这就需要我们根据实际问题的需要采用新的方法。统计学数据主要来自于两个方面:调查的数据和实验数据。统计调查中的数据缺失是影响统计数据质量的一个重要方面,在概率抽样中,缺失数据
21、将导致统计推论中出现估计量偏差和估计方差增大,在其他调查方式中,缺失数据也会对统计数据的质量产生影响,使统计数据的说服力降低。况且,种类调查特别是抽样调查应用的领域越来越广阔,各种干扰项调查的因素也逐步凸显,调查研究中出现的缺失数据也会带来相同的后果。这种现象是普遍性的,正是因为如此,对缺失数据问题的研究,一直是国际统计学届热点讨论的课题之一。国内对缺失数据问题的研究虽有发展,但与国外相比,仍有很大差距。主要表现在理论讨论方面缺乏原创性,基本上是介绍国外已有方法,即便如此,介绍的也不够全面和丰富,而在应用方面则几乎是空白。2.3 缺失的原因在各种科学研究中,数据的缺失现象很普遍,不完备数据给数
22、据的使用和分析带来了很大的困难,也是造成信息系统不确定的主要原因之一。总结了一些不完备数据的定义:数据传输或采集中的错误、空值、超出范围或者不符合要求的值。造成数据缺失的原因是多方面的,主要可能有以下几种4:1、有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。2、有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障和一些人为因素等原因而丢失了。3、有些对象的某个或某些属
23、性是不可用的。也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入状况等。4、有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值。5、获取这些信息的代价太大。6、系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。2001年荷兰统计与运筹协会下属的统计软件分会组织了一个关于缺失数据的讨论会,讨论会提醒人们,即使表面上看缺失数据对研究结果不可能构成威胁时,也不要简单地将其删除,因为虽然缺失数据可能只占到4一5的比例,但那些重要信息中往往有30-95来自这些数据。所以绝对不能存在侥幸心理,而要
24、妥善处理好不完备数据。缺失数据的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。2.4 缺失机制2.4.1 完全随机缺失完全随机缺失(missing completely at random, MCAR),完全随机缺失是缺失数据问题中最简单的一种,指缺失数据是随机发生的,即某一变量的
25、缺失与非缺失数据之间不存在任何系统差异,数据集中与其有关的其他变量,在该变量的缺失与非缺失数据之间分组也不存在任何差异。在MCAR机制下,目标变量集,协变量集和指示变量集A相互独立,并且有其中L是的分布函数。此式表明目标变量的回答数据集与无回答数据集有相同分布,该分布就是目标变量分布本身。在完全随机缺失机制下,对含有缺失值的数据集采用通常的统计分析方法是可行的,估计量无偏,但方法不同的估计效率存在差别。尽管完全随机缺失只要求数据缺失的概率与所研究的变量独立,但是研究变量与未观察到的因素间的间接关联仍是可能的,而资料本身难以证实这种假设的成立,因而完全随机缺失假设有时存在一定问题。现实中完全随机
26、缺失的情况有所存在,但并不普遍。2.4.2 随机缺失随机缺失(missing at random, MAR)随机缺失相对完全随机缺失而言,要求没有那么严格此时数据并非完全的随机缺失。假设缺失数据发生的概率与所观察到的变量是有关的而与未观察到的数据特征是无关的,此时可以认为数据缺失属于随机缺失。MAR是指目标变量是否缺失只是与已经观测到的值有关,而与缺失的无关。若用表示的观测部分,用表示的缺失部分,在MAR机制下,有式表示缺失数据(即是否回答的知识变量数据集A)只是与有关,而与无关。当缺失数据发生的概率仅与实际的缺失数据有关时,随机缺失假设也成立。完全随机缺失与随机缺失均被称为是可忽略的缺失。2
27、.4.3 完全非随机缺失完全非随机缺失(not missing at random, NMAR)完全非随机缺失与随机缺失相对应,是指目标变量是否缺失与值本身有关,不管其是否被观察到。非随机缺失也被称为不可忽略的缺失。在随机缺失机制中曾提及单调缺失是MAR的一种典型形式,而非单调缺失则归应于NMAR。非随机缺失是缺失数据的普遍形式,但是比较难于处理。进行处理时需要基于目标变量和协变量模型比较强的假定。解决随机缺失的一种思路是将其有条件的转化为随机缺失模式。例如,将非单调缺失转变为间隔性的单调缺失,或利用辅助变量将样本单元类别细分,使得同类别中样本单元的目标变量值接近56。2.5 缺失数据的处理方
28、法2.5.1 剔除数据法顾名思义,剔除数据法也就是将存在遗漏信息属性值的对象删除,从而得到一个完备的信息数据表。并且这种方法操作简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常的有效的。然而这种方法也有其一定的局限性,比如说它是以减少历史数据来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在信息表中本来包含的对象很少的情况下,删除少量对象就足以严重影响到数据信息表数据的客观性和结果的正确性。因此,当遗漏数据所占比例比较大,特别当遗漏数据随机分布时,这种方法可能导致数据发生偏理,从而引出错误的结论并对分析结果产生误差。2
29、.5.2 回归填补法回归填补法(regression imputation)是运用回归技术来替代缺失数据的方法,它是通过多元回归方法建立变量关于数据集所有其它变量的回归模型,并用非标准化的结果预测该变量的缺失数据来实现的。回归填补法是利用辅助变量(1,2,)与目标变量的关系,建立回归模型,然后利用已知的辅助变量的信息和回归模型,对目标变量的缺失数据进行估计的方法。在样本变量中,如果变量(1,2,)和变量,之间存在高度相关,可利用已知数据拟合回归预测模型,预测出未知的缺失数据。例如,缺失变量和已知变量是线性回归关系,其预测模型为根据最小二乘法求得的线性模型。回归替代值是一个预测值,而不是取自当前
30、调查中得到的实际值。于是我们可以推出第个缺失数据的估计值可以表示为,式子中的是回归系数。若辅助变量是定性变量时,可以采用虚拟变量的处理方法;若目标变量是定性变量,则考虑通过logit变换,进行logistic线性回归。我们应该看到,利用严格拟合的回归方程来预测目标值,容易人为地增大变量间的相关关系。因此只有当辅助变量与目标变量之间存在着高度的相关关系时,采用回归填补法才是比较有效的。2.5.3 IPW逆概率加权法逆概率加权法就是对在CC(complete case analysis)情形下对估计方程的项加权,且权为缺失概率的逆,在通常情况下,估计是相合估计,这一思想是Horvitz and T
31、hpmpson在1952年提出的,被称为IPW逆概率加权法,在协变量缺失时被普遍采用。逆概率加权法就是对每个可观测的的概率取倒数,作为被观测的的权重。即由于在总体中每一个样本都有可能被随机选择到,被选择到的概率是,这个样本就可以看为是总体的个总体。如果假设是总体均值,即:,可以用来估计,由弱大数定律知,取条件期望得: 在实际中,通常是未知的,如假定一个模型可以用极大似然估计:,得到了IPW估计在参数估计的问题中,如果被估计的权函数适当,IPW方法估计比已知权时得估计更加有效,但是如果权函数假设不合适或者错误时,是得不到相合估计的,所以Rubin等还有其他学者提出了扩张逆概率加权法,其具有“双稳
32、健”性,进一步推广了这种方法7。3 协变量缺失下的回归分析3.1协变量缺失下的回归分析的介绍研究协变量缺失的回归分析方法在过去的二十年已经是一个活跃的研究领域。Little8最近回顾了在这一领域的文献,并总结了六大方法包括CC分析。除了这些方法,半参数的方法也已开发用于缺失协变量的回归分析,不过其中一些是在其他方面开发的。在两阶段的病例对照研究的背景下,Breslow和Cain9介绍了一个在协变量和二元结果上的逻辑回归的伪似然条件的方法,绝对值作为在第一级所有研究对象的样本,作为在第二级研究对象的一个子集(被认为“丢失”的不是在第二级的研究对象)。这种方法适用于当缺失机制是MAR时的缺失协变量
33、的回归分析。在另一方面,Pepe和Fleming10与Carroll和Wand11考虑在协变量测量错误,其中在所有研究对象和中被观测到的背景下的半参数方法。协变量真正的价值,是收集只有部分研究对象,他们的方法适用于缺失协变量是MCAR的回归分析。Reilly 和 Pepe 12扩展了Pepe和Fleming的半参数法回归分析,当一个协变量已经缺少观测值和缺失数据是MAR时,称它是平均得分方法。Reilly 和 Pepe指出,平均得分方法,本质上与加权估计方程相一致,Flanders 和 Greenland 13,Zhao 和 Lipsitz 的文本的两阶段表明了这是独立的两个阶段。他们提出的加
34、权估计方程的想法是对在第二级的样本中的一个完整的观测值加权贡献,通过抽样概率使在第二级被观测到。在当前的背景下,本次抽样概率对应“被观察到的概率”,即是被观测到的概率。已经表明,该加权估计方程可适用于缺少协变量是MAR或MCAR时的回归分析。3.2 协变量缺失下的估计方程3.2.1 估计方程的介绍认为一个回归问题包括个独立的研究对象,= 1, 。在第个研究对象上收集的数据是一个结果变量。P维协变量通常是可观测的,协变量是缺失了一些研究对象。令表示为所有协变量的一个向量。同时令表示为观测到的结果和所有观测到的协变量的一个向量。令表示为观测的一个指标(若被观测到则=1,;若没有被观测到则=0)。的
35、随机过程被,观测到的概率以及给出的结果和协变量所约束。即。不可忽略的缺失值表明了取决于。MAR表明了不取决于,即。MCAR表明了不取决于中的任意一个。令表示为结果给出的协变量的期望。在大多数的回归问题中,从回归模型 (3.1)估计回归系数是很受关注的。这里是一个指定的方程,例如线性回归的和逻辑回归的。3.2.2 完整案例分析和相关偏差当执行CC分析时,量化模型(3.1)中的估计偏差是很重要的。为简化起见,让我们考虑在估计方程的线性回归(3.1)中的估计回归系数()的偏差。由于CC分析排除了缺失的值的这些记录,它有效地利用估算公式。其中,和是观测的指标。当=0,相应项就会从估计方程中被剔除。要解
36、决这个估算公式是明确的,由下式给出 (3.2)如果在(3.2)中,我们用替代,然后合并同类项,我们可以得到因此的偏差由下式给出 在弱规律性的条件下,上述偏差是渐近等同于 其中,。有趣的是,当不依赖于时,则上述偏差渐近为0,在这种情况下,不管,MAR或MCAR的缺失值是不是不可忽略的。Little在他文章的讨论中指出CC分析的这种无偏的特征。如果依赖于,那么偏差可能不为零。比如,认为模型是通过来依赖于线性的(来确保积极性)。那么上述偏差是渐近等于其中,是的方差。如果,偏差进一步简化为显然,一般情况下,这种偏差不等于零,除非,即缺失值是MCAR。如果所观察到的概率是已知的,一个简单的方法来纠正估计
37、模型(3.1)中 的CC分析的偏差在是采用一个加权的估计方程。正如zhao和Lipsitz14所描述的,加权估计方程具有和相同的形式, (3.3)其中,。因为核函数的期望是在MAR等于零的情况,的估计和从上述加权估计方程获得的是一致的,其可以用矩量法来表示。在这个意义上说,这种加权估计方程可以被看作是一个具有所观察到的已知概率修改后的CC分析。注意,CC分析实际上可以看作是(3.3)的特例,其中被观察的分配概率是恒定的,即。在大多数应用中,所观察到的概率是未知的,需要连同一起估计。3.2.3 加权估计方程现在假设,被观测的概率,取决于所观察到的结果和协变量,并且依赖性被指定到由未知参数有限个的
38、索引的已知概率函数。具体来说,我们认为逻辑回归的被观察的概率,其中是一个未知参数向量,。我们可以使用加权估算方程(3.3)估计,同时构建另一基于估计方程来估计。两个估计方程可以结合成一个类似于的单一的估计方程,具有核函数 (3.4)我们将此估算公式作为有观测到的估计概率的加权估计方程(WEE)。可以看出以提供一定的规律性条件时,的期望等于零,除了和(Zhao和Lipsitz14)分别正确的模型假设。因此和的估计是一致的。他们也有一个方差是由一致估计方程(3.4)得到的渐近正态分布,其中和其中,0是具有合适空间的0向量。应该指出的是,的估计是一致的,就必须正确地指定的模型。这个概率函数是建立在(
39、以及可能的相互作用)上的有关的逻辑回归。如果的模型是错误指定的,那我们感兴趣的是回归系数的估计值,会有偏差。因此,回归系数的解释应该有模型的明确说明假设。3.3 方法介绍3.3.1 建立模型在缺失数据的研究中,对于协变量缺失的研究不是很多,而协变量的缺失在实际生活和应用中也是普遍存在的,本文将对协变量的随机缺失进行研究。假定下述线性模型: (3.5)其中是响应变量,是协变量,是随机误差。且,是未知的参数,假设我们得到来自模型的样本为,=1,。其中为示性函数。我们假设在缺失机制为MAR,即。3.3.2 全数据下的参数模型多元线性回归方程未知参数的估计可以采用最小二乘估计。对于所谓最小二乘法,就是
40、寻找参数的估计值,使离差平方和达到极小,即寻找满足根据(3.5)式结合本文的模型可以得出。3.3.3 直接剔除法剔除数据法也就是将存在遗漏信息属性值的对象删除,从而得到一个完备的信息数据表。并且这种方法操作简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常的有效的。然而这种方法也有其一定的局限性,比如说它是以减少历史数据来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在信息表中本来包含的对象很少的情况下,删除少量对象就足以严重影响到数据信息表数据的客观性和结果的正确性。因此,当遗漏数据所占比例比较大,特别当遗漏数据随机分
41、布时,这种方法可能导致数据发生偏理,从而引出错误的结论并对分析结果产生误差。我们对做出估计,。3.3.4 逆概率加权法逆概率加权法就是对在CC情形下对估计方程的项加权,且权为缺失概率的逆,在通常情况下,估计是相合估计,被称为IPW逆概率加权法,在协变量缺失时被普遍采用。逆概率加权法就是对每个可观测的的概率取倒数,作为被观测的的权重。即由于在总体中每一个样本都有可能被随机选择到,被选择到的概率是,这个样本就可以看为是总体的个总体。根据(3.5)可以得出的估计。3.3.5 回归填补法回归填补法是运用回归技术来替代缺失数据的方法,它是通过多元回归方法建立变量关于数据集所有其它变量的回归模型,并用非标
42、准化的结果预测该变量的缺失数据来实现的。回归填补法是利用辅助变量(1,2,)与目标变量的关系,建立回归模型,然后利用已知的辅助变量的信息和回归模型,对目标变量的缺失数据进行估计的方法。在样本变量中,如果变量(1,2,)和变量,之间存在高度相关,可利用已知数据拟合回归预测模型,预测出未知的缺失数据。例如,缺失变量和已知变量是线性回归关系,其预测模型为根据最小二乘法求得的线性模型。回归替代值是一个预测值,而不是取自当前调查中得到的实际值。 于是我们可以推出第个缺失数据的估计值可以表示为,式子中的是回归系数。若辅助变量是定性变量时,可以采用虚拟变量的处理方法,若目标变量是定性变量,则考虑通过logi
43、t变换,进行logistic线性回归。我们可以得出的估计为其中,。3.4 模拟比较我们是为了研究在有限样本下的协变量随机缺失,选择缺失模型为,其中=1,。本节中我们考虑两种缺失,和,缺失率分别为 15%和30%。在MAR缺失机制下,对100和300个样本容量做1000次模拟。我们的结果在表3.1-3.4 中列出。表3.1 在缺失率在15%时对三种方法进行模拟的值估计表all dataCCAIPWIMPBias-7.520990.184710.00893-0.17221Bias-0.00327-0.00442-0.00355-0.00347Bias0.-0.040120.000590.17911
44、Std0.173220.214030.224210.20734Std0.103140.117950.128870.11651Std0.098830.124030.131920.11828RMSE0.173140.282640.224280.26946RMSE0.103140.117980.128860.11650RMSE0.098920.130300.131850.21461从表中可以看出不论哪种方法填补都不会比原有真实数据更优秀,这表明了数据的真实性,Bias和RMSE越接近于0,说明对本文数据缺失机制来说方法越好。在随机缺失15%的机制下可以直观的看出IPW逆概率加权法效果更好。但是IPW
45、的标准差略大于其他两种方法,也可能体现出方法的局限性。同样的,我们对100个样本量做1000次模拟,改变缺失率为30%表3.2 在缺失率在30%时对三种方法进行模拟的值估计表all dataCCAIPWIMPBias0.000360.183490.00637-0.17144Bias-5.613500.000660.00267-0.00053Bias0.00200-0.04159-0.001050.17772Std0.172690.217700.222570.20337Std0.100720.117220.125500.11657Std0.100780.124410.134370.12051RM
46、SE0.172600.284630.222550.26591RMSE0.100670.117160.125470.11651RMSE0.100750.131130.134310.21426从表中我们依然可以看出不论哪种方法填补都不会比原有真实数据更优秀,这表明了数据的真实性,Bias和RMSE越接近于0说明填补方法越优秀。在随机缺失30%的机制下IMP回归填补法效果更好,但是RMSE均方根误差比其他两种方法稍大一些,也体现出了回归填补的局限性。对当=300个样本量执行随机缺失15%表3.3 在缺失率在15%时对三种方法进行模拟的值估计表all dataCCAIPWIMPBias-0.00237
47、0.12857-0.0369-0.11819Bias0.000940.001940.001520.00195Bias-0.00047-0.033960.001410.11563Std0.102130.118750.118510.11288Std0.056930.062970.065830.06093Std0.0.068130.071320.06718RMSE0.102100.174980.118510.16340RMSE0.056910.062970.065810.06093RMSE0.061090.076090.071300.13372从表中依然可以看出不论哪种方法填补都不会比原有真实数据更
48、优秀,这表明了数据的真实性,Bias和RMSE越接近于0说明方法越好。在随机缺失15%的机制下IPW逆概率加权法效果更好。对=300的样本量执行随机缺失30%表3.4 在缺失率在30%时对三种方法进行模拟的值估计表all dataCCAIPWIMPBias-0.002070.17245-0.00463-0.17357Bias0.001440.003060.002340.00175Bias0.00075-0.040330.001950.17087Std0.099480.122540.127570.11990Std0.057720.067240.071290.06649Std0.059090.07
49、0050.075430.06620RMSE0.099450.211530.127590.21092RMSE0.057710.067280.071290.06648RMSE0.059070.080800.075420.18323从表中可以看出不论哪种方法填补都不会比原有真实数据更优秀,这体现了数据的真实性,模拟值越接近于0说明方法越好。在随机缺失30%的机制下IPW逆概率加权法效果更好,更接近于原始数据。4 实例分析 4.1 数据来源请键入文字或网站地址,或者。Davis, James A. and Tom W. Smith. 1997. General Social Surveys, 1972
50、-1996: Chicago, IL: National Opinion Research Center producer. Ann Arbor, MI: Inter-university Consortium for Political and Social Research distributor.4.2 数据描述该数据集包括2,879受访者对1994年社会总调查的反馈信息。其中调查了受访者的年龄、学历、性别对收入的影响。为了研究收入的变化趋势及其成因,我们以居民收入作为因变量,分别以年龄、学历、性别为影响居民收入的主要因素。1、表示年龄(age,随机缺失,数值型)2、表示学历(研究生、本科、高中等)3、表示性别,为分类变量(1为男性、0为女性)4、表示居民收入我们假设为MAR随机缺失机制,具体数据详见附录。这里列举部分数据。表4.1 部分数据表AgeEducFemaleIncome5120067.55312032.5NA16055581215.53812167.5818111.254.3 方法应用及分析1、直接剔除法表4.2 直接剔除法运行结果Call:lm(formula = y + + , weights = delta)EstimateStd.Errort val
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度主题餐饮店长创意管理聘用协议3篇
- 2024版新媒体内容创作与分发合同
- 2025年度医疗器械代工与品牌推广管理协议4篇
- 2025年度新型瓷砖研发生产合作协议范本4篇
- 2024版箱式变压器的采购合同范本
- 2024版铝合金办公室隔断门制作与安装协议
- 中国片壮晶石项目投资可行性研究报告
- 2025年版个人房产出售交易资金监管及风险控制合同2篇
- 2025年度个人房产买卖合同(含物业费)4篇
- 2025年度个人消费贷款合同补充协议(绿色金融)4篇
- 品牌策划与推广-项目5-品牌推广课件
- 信息学奥赛-计算机基础知识(完整版)资料
- 发烟硫酸(CAS:8014-95-7)理化性质及危险特性表
- 数字信号处理(课件)
- 公路自然灾害防治对策课件
- 信息简报通用模板
- 社会组织管理概论全套ppt课件(完整版)
- 火灾报警应急处置程序流程图
- 耳鸣中医临床路径
- 安徽身份证号码前6位
- 分子生物学在动物遗传育种方面的应用
评论
0/150
提交评论