




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士毕业论文 缺失数据下的非参数回归分析 中文摘要 近年来,由于缺失数据在实际领域中有很强的应用背景,诸如生存分析、可靠性寿 命试验、医药追踪试验中产生大量不完全数据等因此,对缺失数据的统计性质以及缺 失数据下的回归问题进行讨论具有很重要的实际意义而非参数回归模型在完全数据 下的统计性质已经发展得较为完善,相对而言,基于缺失数据下的统计性质的分析是 一个历史不长、逐步发展的领域 本文在缺失响应变量的情况下,对非参数回归模型进行研究利用变窗宽局部线 性平滑法和稳健的变窗宽局部m 一估计法给出了回归函数聊( z ) 的估计利用变窗宽提 高了估计的可塑性,使之更灵活,利用m 一估计既继承了线性平滑法的优点,又克服了最 小二乘方法缺少稳健性的缺点 而在处理缺失数据问题时,本文采用两种方法7 一是成对删除法,即把y 缺失的数 据成对删除,利用剩余数据进行非参数回归,称其为简单法,这是实际中最常用韵方法 二是两阶段估计法,由y a t e s ( 1 9 3 3 ) 以最小二乘估计值代替缺失数据值思想启发,利用 简单法得到的估计值代替缺失的r 值,从而形成一个完整数据集,用此数据集进行非 参数回归,称其为估算法 文章将分别用变窗宽局部线性平滑法和稳健的变窗宽局部m 一估计法按上述两种 方法处理缺失数据,得到相应的估计函数,并给出它们的渐近均方误差( a m s e ) 表达式 通过渐近均方误差( a m s e ) ,可看出核函数和窗宽对估计的作用,并且可以利用最优渐 近均方误差比较简单法和估算法,进而得到结论:估算法中,若两个阶段的窗宽不同阶, 则简单法优于估算法;若两个阶段的窗宽同阶,当选取适当的核函数时,可得到估算法 优于简单法这样就给实际中处理缺失数据带来一种更好的方法,即两阶段估计法 关键词:非参数回归;缺失数据:变窗宽局部线性平滑;局部m 一估计;渐近均 方误差 浙江大学硕士毕业论文 缺失数据下的非参数回归分析 a b s t r a c t f o ri n c o m p l e t ed a t a ,i ti sc e r t a i n l yw o r t h w h i l et oc o n s i d e ra na p p r o p r i a t er e g r e s s i o n e s t i m a t o ra n dt oe x a m i n et h ei m p a c to ft h em i s s i n go b s e r v a t i o n so ni t sp e r f o r m a n c e i nt h e p a p e r ,t h ee s t i m a t i o no fm ( x ) w a sg i v e nb yu s i n gt w om e t h o d s :l o c a ll i n e a rr e g r e s s i o n s m o o t h e r sw i t hv a r i a b l eb a n d w i d t ha n di o c a lm e s t i m a t o rw i t hv a r i a b l eb a n d w i d t h t h e u s eo fv a r i a b l eb a n d w i d t he n h a n c e st h ef l e x i b i l i t yo ft h ee s t i m a t i o na n dm a k e si tp o s s i b l e t oc o p ew e l lw i t hs p a t i a l l yi n h o m o g e n e o u sc u r v e s ,h e t e r o s c e d a s t i ce r r o r sa n dn o n u n i f o r m d e s i g nd e n s i t i e s l o c a lm e s t i m a t o ri n h e r i t st h ea d v a n t a g e so fl o c a ll i n e a rr e g r e s s i o na n d o v e r c o m e st h es h o r t c o m i n go ft h el a c ko fr o b u s t n e s so fl e a s t - s q u a r e st e c h n i q u e s t w om e t h o d st oc o p ew i t ht h em i s s i n gd a t aw e r ea l s oi n v e s t i g a t e d ,o n ei st h ew e l l k n o w n p a i r w i s ed e l e t i o nm e t h o dw h i c ho f t e nu s e df o rc o n v e n i e n c eb yp r a c t i t i o n e r b yd r o p p i n g o u tt h ed e s i g np o i n t sw h i c ht h er e s p o n s ed a t aw e r emi s s i n ga n dt r e a t i n gt h er e s to ft h ed a t a a sac o m p l e t ed a t as e t ,w eo b t a i na ne s t i m a t o r ,c a l l e dt h es i m p l i f i e dm e t h o d t h eo t h e ri s c a l l e d t h ei m p u t e dm e t h o dw h i c ha d j u s t sf o rt h ee f f e c to fm i s s i n gb ys u b s t i t u t i n gt h e m i s s i n go b s e r v a t i o n sw i t ht h ee s t i m a t e so b t a i n e db yt h es i m p l i f i e dm e t h o d i ti sw o r t h i n g t h a tt h ei m p u t e dm e t h o di sat w o - s t a g ee s t i m a t o rw h i c hc a np o s s i b l ym a k eu s eo ft w o d i f f e r e n tk e r n e l sa n db a n d w i d t h s t h ee f f e c to fm i s s i n gd a t ai s p r e c i s e l yq u a n t i f i e d t h r o u g ht h em i n i m u mv a l u eo fa s y m p t o t i cm e a ns q u a r ee r r o r w ew i l lf i r s tu s et h el o c a ll i n e a rr e g r e s s i o ns m o o t h e r sc o m b i n e dw i t ht h es i m p l i f i e d m e t h o da n di m p u t e dm e t h o dt oe s t i m a t et h ef u n c t i o nm ( x ) ,a n dt h e nc o m p a r et h e mb a s e d o nt h e i rm i n i m u ma s y m p t o t i cm e a ns q u a r ee r r o r i na d d i t i o n w eu s et h el o c a lm - e s t i m a t o rt od o t h es a m et h i n ga st h ea b o v es t e p s f i n a l l y ,w eg e tt h ec o n c l u s i o n :i ft h et w ob a n d w i d t h si n t h et w o s t a g ec o n s t r u c t i o no ft h ei m p u t e dm e t h o da r en o to ft h es a m eo r d e r ,t h e nt h e i m p u t e dm e t h o dw o u l db ei n f e r i o rt ot h es i m p l i f i e dm e t h o di nt e r m so f a m s e w h e r e a s ,i f t h et w ob a n d w i d t h sa r eo ft h es a m eo r d e r ,a n db yp r o p e rs e l e c t i o no ft w ok e r n e l si n i m p u t e dm e t h o d ,w ew i l ls h o wb yn u m e r i c a lc a l c u l a t i o nt h a tt h ei m p u t e dm e t h o dw o u l db e p r e f e r r e dt ot h es i m p l i f i e dm e t h o d k e yw o r d s :n o n p a r a m e t r i cr e g r e s s i o n ;m i s s i n gd a t a ;l o c a ll i n e a rs m o o t h i n g ; m e s t i m a t o r ;v a r i a b l eb a n d w i d t h ;a s y m p t o t i cm e a ns q u a r ee r r o r l i 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得滥姿盘堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文 中作了明确的说明并表示谢意。 学位论文作者签名:翻、素分 签字日期:切。7 年箩月乡日 学位论文版权使用授权书 本学位论文作者完全了解逝婆盘鲎有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 匆、静 导师签名: 签字同期:砌7 年箩月占日 签字日期:年月日 致谢 在论文完成之际,我要特别感谢我的导师林正炎老师的热情关怀和悉心指导 在我撰写论文的过程中,林老师倾注了不少心血和汗水,花费了不少的时间和精 力他广博的学识、深厚的学术素养、严谨的治学精神和一丝不苟的工作作风使 我终生受益,在此表示深深的谢意! 在论文的写作过程中,我也得到了许多同学的宝贵建议,感谢所有关心、支 持、帮助过我的良师益友祝你们一帆风顺! 还要感谢浙江大学数学系提供了欧 阳楼这样的学习环境,使我能够及时地和同学交流,共同探讨问题! 感谢我的爸爸妈妈,焉得谖草,言树之背,养育之恩,无以回报,感谢你们一直 对我的支持和鼓励,祝你们永远健康快乐! 最后,向在百忙中抽出时间对本文进行评审并提出宝贵意见的各位专家表示 衷心地感谢! 浙江大学硕士学位论文 缺失数据下的非参数回归分析 第一章绪论 在传统的回归分析中,往往假定回归函数r e ( x ) 有某种特定的数学形式,如线性型, 并假定误差项的分布为正态分布,然后用最d - - 乘法进行估计众所周知,在上述条件 下这种估计有许多优良性质但在实际问题中,不一定可以假设上述条件( 回归为线性, 误差为正态) 成立,这时经验和理论都可以证明,基于最小二乘法作出的估计不一定好, 此时就可以应用非参数回归非参数回归方法对模型不做任何假设,只是从数据本 身出发,寻求合适的模型,因此具有很大的灵活性和适应性 近年来,由于缺失数据在实际领域中有很强的应用背景,诸如生存分析、可靠性寿 命试验、医药追踪试验中产生大量不完全数据等因此,对缺失数据的统计性质以及缺 失数据下的回归问题进行讨论具有很重要的实际意义非参数回归模型在完全数据下 的统计性质已经发展得较为完善,相对而言,基于缺失数据下的统计性质等的分析是一 个历史不长、逐步发展的领域回归分析中缺失数据的研究从y a t e s ( 1 9 3 3 ) 开始,他是 以最小二乘估计值代替缺失数据值,从而形成完整数据集,然后再作进一步研究后来 有学者用此方法来减少模型的偏性,并给出理论证明;也有学者研究正态和对数线性回 归模型中的缺失数据问题 1 1 研究背景综述 文献 1 对缺失数据下的非参数回归给出了简单局部线性平滑( s l l s ) 和估算局部 线性平滑( i l l s ) 两种估计,并通过渐近均方误差( a m s e ) 的比较,得到在何种情况下,估 算局部线性光滑法得到的结果要更优,从而提供了在一种在缺失数据下更好地估计非 参数模型的方法然而,虽然局部线性平滑法己证明是一个有效的非参数回归方法,它 们有优于流行的核方法的优点,如设计的自相适应性和高的渐近效率,并且局部多项式 能适应几乎所有回归设计并成功处理好边界效应 5 但是该方法用的是常窗宽,不能 有效的处理空间非齐次曲线,异方差性及非均匀设计密度等问题变窗宽的概念是 m e i s e l 和p u r c e l l 在1 9 7 7 年首次提出的,后来一些学者又作了进一步的研究文献 2 介绍了变窗宽的局部线性平滑法,它结合了局部线性平滑和变窗宽两种思想,使其具有 两者的优点,并且证明了变窗宽局部线性平滑估计的相合性和渐近正态性,及其无边界 效应的性质所以在一定意义上,该方法比常窗宽局部线性平滑法要进步但从稳健性 浙江大学硕士学位论文缺失数据下的非参数回归分析 角度考虑,由于局部线性平滑法是基于最小二乘原理的,所以它缺乏稳健性而文献 3 中介绍的局部m 一估计是能够达到所需的自然备选该文献介绍变窗宽下局部m 一估计, 并证明了它的相合性和渐近正态性,另外出于计算的简便,还介绍了一步局部m 一估计 以上两篇文献都是在完全数据下进行讨论的 在对缺失数据的研究中,文献 6 中提到传统的处理缺失数据方法是只保留完全记 录,丢弃含有缺失项的记录,然后将其看作完全数据进行处理,即本文中的简单法但这 样做不仅会产生偏倚,甚至会得出误导性的结论,同时丢失大量信息,造成很大的浪费 目前,插补( i m p u t a t i o n ,也译为借补、替代等) 是处理缺失数据时普遍使用的一种技术, 即给每一个缺失数据一些替代值,如此得到“完全数据集”后,再使用标准的完全数据 统计方法进行数据分析与统计推断,即本文中的估算法 1 2 论文基本框架 本文在第二章2 i 节介绍了非参数回归模型以及缺失数据下变窗宽局部线性平滑 法并采用两种方法处理缺失数据,一是成对删除,即把r 缺失的数据成对删除,利用剩 余数据进行非参数回归,称其为简单法;二是两阶段估计,由y a t e s 思想启发,利用简单 法得到的估计值代替缺失的值,从而形成一个完整数据集,用此数集进行非参数回归, 称其为估算法在2 2 节分别给出简单变窗宽局部线性平滑法和估算变窗宽局部线性 平滑法的渐近均方误差( a m s e ) 表达式针对窗宽的不同情况,在2 3 节,对这两种方法 进行比较,并得到结论:估算法中,若两个阶段的窗宽不同阶,则简单法优于估算法;若 两个阶段的窗宽同阶,当选取适当的核函数时,则估算法优于简单法这样就给实际中 处理缺失数据带来一种更好的方法,即两阶段估计法 第三章3 i 节介绍了缺失数据下变窗宽局部m 一估计,3 2 节分别给出简单变窗宽局 部m 一估计和估算变窗宽局部m 一估计的渐近均方误差( a m s e ) 表达式针对窗宽的不同情 况,在3 4 节对这两种方法进行比较,得到与第二章类似的结论出于计算的方便,文章 还在3 3 节介绍了一步局部m 一估计,并得到类似于局部m 估计的结论 第四章为文章内容的总结及论文的可改进之处,第五章为证明 2 浙江大学硕士学位论文 缺失数据下的非参数回归分析 第二章缺失数据下变窗宽局部线性平滑估计 非参数回归方法对模型不做任何假设,只是从数据本身出发,寻求合适的 模型,因此具有很大的灵活性和适应性局部线性平滑本身具有许多优点,如 设计的自相适应性和高的渐近效率,并且它没有边界效应;而变窗宽能有效的处理空间 非齐次曲线,异方差性及非均匀设计密度等问题,因此两者结合将是更好的方法 2 1 非参数回归模型及变窗宽局部线性平滑法 设( x ,】,) 为rxr 值的随机变量,e iy i ,g ,= 矾( 五为大于0 的常数) 和g 。 沙。表示! 受沙。纯= o d 。的值分别为 q 叫x ,f = 脚2 m 鲁( 等p 幽吻硼,) , u z2 玄万e g ( x ) k ( “) + g ( x ) 才1 彳( “疗幽,其中爿( ”) = e k ( z ) ( ( 材一z ) 兄) 出, 6 浙江大学硕士学位论文缺失数据下的非参数回归分析 = 去e 脚舳 由定理2 2 我们知道廊,( x ) 的渐近均方误差为a m s e ,;i ,( x ) = b 帕2 ( x ) + 1 ,主:( x ) 2 3 定理的应用 2 3 1 缺失数据的影响 由定理2 1 及文献 2 的定理1 ,我们得知,缺失数据对历s ( x ) 的渐近偏差没有影响, 但使历。( x ) 的方差增加一个因子p _ 1 ( x ) ,据此可知,在x 的邻域内,若缺失数据越多,相 对在x 点缺失的可能性就越小,所以r h s ( x ) 的渐近方差就越大 2 3 2 简单法优于估算法的情况 通过2 2 1 和2 2 2 节,我们用渐近均方误差( a m s e ) 来比较简单变窗宽局部线性平 滑估计疡s ( x ) 与估算变窗宽局部线性平滑估计r h ,( x ) 两种估计的优劣( 此处只考虑 s o = 1 ,s l = 0 ,t o = 1 ,t l = 0 的情形) 由( 2 7 ) 一( 2 1 0 ) 式可知 ( 1 ) 当g 。 时,( 2 9 ) 式中的第二个和项远大于第一个和项,而q 中第二个和项趋 于0 ,所以a m s e 织( x ) o 时, w ( x ) = 0 时, ( 2 1 4 ) 再把口倒( x ) 代入吃肆即可得最优吃为 k 叫:6 f 毕卜班 仫旧 由( 2 1 4 ) 和( 2 1 5 ) 式可知:g ) 与权函数( x ) 无关,吃倒与任何未知函数无关,这样 的选取易于操作并且可以看出,若x 附近点越多或x 点曲率越大,则口叫( x ) 越大,也即 变窗宽忍。肛唧( x ) 越小;这与直观理解是一致的:在点密集区或高曲率区,窗宽要相应小, 而在点疏散区或低i t i i 率区,就要求相对大的窗宽 再将吃。叫和口掣( x ) 代入( 2 11 ) 式可得最优a m i s e 为 么一s 删,= 斋跏协) ) 2 5 淼卜出, 眨旧 在( 2 11 ) 式中,若令口( ) = 1 ,吃为最优常窗宽,即得常窗宽时的最优a m i s e 么帔删n 删:斋( e c m ( x ) ) 2w ( x ) d x e 以x ,揣州卢 通过比较,我们容易得知a m i s e , ,叫a m i s e ,叫,所以从这个角度也可看出变窗宽比常 窗宽好对于完全数据,文献 2 也有类似结论 若把吃,叫和口叫( x ) 代入( 2 7 ) 和( 2 8 ) 式,得到廊s ( x ) 的最优渐近均方误差为 彳城删破吣肛羽5 g , 删) 2 5 淼 4 5 亿1 7 ) 下面按上述相同方法讨论疡,( x ) 时的情况当g 。= 纸时,由定理2 2 并通过计算 9 浙江大学硕士学位论文 缺失数据下的非参数回归分析 可得 西叫( x ) =6 【嵩需糕滁】 、1 ,5 【盯2 ( x ) e 0 ( x ) k ( 甜) + g ( x ) 万1 么( “) ) 2 砌j = 6 ( 掣一卜轳, a m i s e ,叫( 而,( z ) ,聊( x ) ) = 嘉e 眙:+ 名,:g ( x ) k ( x ) 5 形( x ) 0 时, 形( x ) = o b 寸, |_三:!三!二00鱼!三竺三兰二三翌;堂-i 吖5 缈( x ) 出, l i x ( x ) p ( x ) l ( 2 1 8 ) = 嘉眙zm :咖) 肌) 5 【a ( x ) j p ( x ) k ( ( u 帅) + q ( ) x ) a - a ( u ) yd u j i x 们, l ( x ) p ( x ) l 其中彳( 甜) 为定理2 2 中定义的彳( “) = e k ( z ) l ( ( u - z ) 五) 沈 优渐近均方误差( 彳彪甄,咧) ,通过比较么m 瓯来说明估计的优劣由( 2 1 7 ) 和( 2 1 9 ) a m s e ,叫( 疡,( x ) ,m ( x ) ) a m s e ,叫( 而s ( x ) ,朋( x ) ) = ( 吃) 1 7 5 量, = 0 + 2 2 t 2 s f l g ( x ) ) 2 , 吃= :o c x ,k c 甜,+ o c 工,万1 彳c 甜,y 砌( e k 2c “胁) _ 4 1 0 浙江大学硕士学位论文缺失数据下的非参数回归分析 此结果与文献 1 中说明3 3 的结果是一致的,按照相同思路我们可作如下说明:若 , 1 ,则晚( x ) 比疡s ( x ) 优我们先令名= 1 ,即g 。= ,此时_ ,2 可作相应简化,并且使 , 1 的最简单的方法就是使_ 变小,所以我们寻找估计确( 功第一步时的核函数,使 ,;9 2 ( x ) + 2 r 2 9 ( x ) o ,即乞g ( x ) 0 ,而g ( x ) o 恒成立,所以只能要求t 2 等 时,r : o 若九( x ) 和商( x ) 中的核函数k 都取为印硎p 幽”勃1 ,函数:妄( 1 _ z 2 k - l 。】( z ) , 通过计算可知,当( 2 2 0 ) 式中的c = 4 , 5 ,6 ,7 ,8 时, 1 都成立为了直观理解和观察,我 们引用文献 1 的图1 ,以p ( x ) 【0 4 ,1 】为横轴,r 值为纵轴作图从图中也可以看出c = 4 , 5 ,6 ,7 ,8 时, 1 成立,所以此时r h ,( x ) 比织( x ) 优 p 图1p ( x ) 【0 4 ,1 】时,r 的图,历s ( x ) 和,砩( x ) 中的核函数k 取为e p a n e c h n i k o v 函数,估计 疡,( x ) 第一步时的核函数l 取为( 2 2 0 ) 式定义的函数,图中从上而下分别为c = 4 ,5 ,6 ,7 ,8 时情形 浙江大学硕士学位论文 缺失数据下的非参数回归分析 现在我们知道,估计翻( x ) 时,若两阶段的窗宽相等且第一阶段的核函数三满足 t : 0 ,则如( x ) 可以比九( 功优但是利用该作第一阶段估计时,由定理2 1 的证明过 程( 5 1 1 ) 椭i ,当f : o 时,( 2 4 ) 式中的q 0 ,即弓的权重小于0 ,这在加权最小二 乘法中是没有意义的所以下面考虑工为密度函数时的情形由上段讨论可知,若此时 g 。= ,则商( x ) 劣于痨s ( x ) 为了解决这个问题,受到文献 1 的启发,我们考虑是否 存在五( o 0 1 ,1 ) ,当g 。= 2 h , 时,使得, l 成立若核函数k ,三都取为e p a n e c h n i k o v 函 数,通过计算可知m i n , l 是成立的这说明只要选取合适的五,就可以使, l ,即 l u 。0 1 - 疡,( x ) 优于机( x ) 同样为了直观理解和观察,我们引用文献 1 的图2 ,以p ( x ) 【0 4 ,1 】 为横轴,m i n ,为纵轴作图从图中也可以看出m i n , 0 ; ( a 7 ) 函数缈( ) 连续且几乎处处有导数缈( ) ,进一步假定纯0 ) = 研缈( s ) ix = x 】和 伊。:( x ) = e 印2 ( 6 ) ix = x l 在x 。处连续且为正的,同时了y 0 使研l 伊2 ( e ) i ix = x e x 。 邻域内有界; ( a 8 ) 对v 万 0 ,函数缈( ) 在邻域内关于x 一致满足 4 泌桫”垆双驯陋抽i 1 ) , l i 司蔓j e l | 翟m 占+ z ) 吲矿认训x = x _ d ( 趴( 万一o ) i z i s 占 j 可以看出以上条件并不强,一般容易满足例如,这里并不要求缈( x ) 的单调性和有 界性;条件( a 8 ) 中对缈7 ( x ) 的要求比l i p s c h i t z 连续弱,l f 百k ( ) 的连续和有界支撑条件只 是为了方便证明,当适当地限制k ( ) 的尾部条件时,该条件完全可以去掉,比如在定理 2 1 和定理2 2 中就只对k ( ) 的尾部条件进行限制,这也是可以的;另外,并不要求p ( x ) 的凸性,也不需要t 的条件分布的对称性这些条件与文献 3 中完全数据下局部m 一估 计的条件一样,所以条件并不因为数据的缺失而加强 首先我们讨论简单变窗宽局部m 一估计而s ( x ) 定理3 1 假设条件( a 1 ) 一( a 8 ) 成立,则简单变窗宽局部m 一估计历。( x ) 在点的条件均 方误差( m s e ) 为 其中 e ( m s ( x o ) 一班( 而) ) 2 | 五,以】= ( 瑶,( ) + 谚,( 而) ) ( 1 + 郇( 1 ) ) ( 3 4 ) 址沪扣蒜2 ( 南) 2 , ,( ) =程( ) 厶( x o ) p ( x o ) ( s 2 s o s ;) 2c ( s 2 - u s , ) 2 k 2 ( u ) d u ( 3 5 ) 刀 浙江大学硕士学位论文 缺失数据下的非参数回归分析 右仫凼致k 为盯杯嗣衔发幽赦,则s o = 1 ,= 0 ,迸向口j 以。同化上回两式 沪掣( 南) 2 t “= 肛2 幽裂丽a ( x o ) 由定理3 1 我们知道飒( x ) 的渐近均方误差为a m s e 飒( x ) = b 邸2 ( x ) + k 2 ,( x ) 下面我们讨论估算变窗宽局部m 一估计而,( x ) 和2 2 2 节一样,为了讨论的方便,我 们假设k 和上满足j 。= 1 ,s l = 0 ,f 。= 1 ,f ,= 0 ,且k 为密度函数,而三未必为密度函数 定理3 2 假设条件( a 1 ) 一( a 8 ) 成立,则估算变窗宽局部m 一估计而,( x ) 在点的条件均 方误差( m s e ) 为 e 【( 历,( 而) 一所( 而) ) 2i x , e 】= ( 配。( 而) + 谚。( ) ) ( 1 + d p ( 1 ) ) 其中 啪护扣士( 志卜m 。,( 南) 2 , 6 , ,= 籍燕高q 7 , 上式中o i ( f = 1 ,2 ,3 ) 分别对应岛 吃,g 。= 2 h ( 五为大于0 的常数) 和g 。 吃q 的 值分别为 q 叫肛2 幽+ 鲁 等p 咖+ 2 q ( x o ) l ( o ) ) , u z2 i b e o ( ) k ( z ,) + g ( x o ) ;t - 1 彳( “沙幽,其中彳( z ,) = e k ( “) 三( ( z 一“) 允) 砌, 2 志e 妣 由定理3 2 我们知道而,( x ) 的渐近均方误差为a m s e 扁,( x ) = 6 :。( x ) + 1 ,:。( x ) 1 6 浙江大学硕士学位论文缺失数据下的非参数回归分析 3 3 定理的应用 3 3 1 缺失数据的影响 通过定理3 1 和文献 3 定理2 2 可知,缺失数据对飒( x ) 的偏差没有影响,但使 而。( x ) 的方差增加一个因子p - 1 ( x ) ,据此可知,在x 的邻域内,若缺失数据越多,相对在 x 点缺失的可能性就越小,所以而s ( x ) 的渐近方差就越大 3 3 2 简单法与估算法的比较 由3 2 节的定理以及2 3 2 节类似的讨论可知,简单变窗宽局部m _ 估计痢s ( x ) 优于 估算变窗宽局部m 一估计而,( x ) 的情况为 ( 1 ) 当g 。 吃时,a m s e 历s ( x ) o l 爿i k + ( z )r v ( x ) :o 时, = 6 ( 邀一卜班, a m s e ,叫( 历,( x ) ,m ( x ) ) = 嘉眙z m :船) 肌) 5 k x ) e ( 贴擞卅咖帅) 2 幽 4 5 i 谚( x ) f x ( x ) p ( x ) i 所以a m s e ,叫( 而,( x ) ,m ( x ) ) a m s e ,叫( 而s ( x ) ,聊o ) ) = ( 吖呓) 1 7 5 兰,其中 r l = 0 + 2 , 2 t 2 s 2 1 9 ( x ) ) 2 , 呓= 阻咖) + g 以,) 2 幽( 聃”胁) 。1 4 由此可以看出,局部m 一估计法得到的,与局部线性平滑估计法得到的,是一致的,所以 综上可知:利用变窗宽局部m 一估计时,只要选取合适的核函数和窗宽,历,( x ) 也可 以比而s ( x ) 优这样在实际中可以采用两阶段法处理缺失数据,如此得到的结果比成对 删除法得到的结果更好这就为处理缺失数据的回归问题又提供一种更好的方法当然, 3 4 变窗宽一步局部m 一估计的介绍及相关结论 在3 2 节,我们讨论了缺失数据下局部m 一估计但是,解非线性方程组( 3 2 ) 和( 3 3 ) 式并非易事所以,找一个有类似性质且计算方便的估计是必要的,参照文献 3 中建立 一步估计的思想,我们可得到缺失数据下的一步局部m 估计 考虑用牛顿法解非线性方程组( 3 2 ) 和( 3 3 ) ,并令初始解为a o = 碗( x ) ,b 。= 绒( x ) 浙江大学硕士学位论文缺失数据下的非参数回归分析 那么 其中 妻 二; = ( 象 二; 陟7 1 ,甲q j l 2 , n , , ( ( q a d ,o , b o ) ) , 睨= 云w 柏 ,6 0 ) 弛o q , :一( ,6 0 ) ( 3 8 ) 而。( x ) 和弼( x ) 就称作缺失数据下的一步局部m 估计不妨令初始解为变窗宽局部线 性平滑估计熟( x ) 和而;( x ) ,则只要计算出而s ( x ) ,就可以算得一步局部m 一估计 文献 3 中定理3 1 说只要初始解晚( x ) ,绒( 工) 满足以下条件 啪。) 一肌( x 。) = 啡( 群+ 丽1 ) , ( 3 9 ) 嘶抵h ) = o p ( h :+ 赤) , ( 3 1 0 ) 那么一步局部m 一估计与局部m 一估计有相同的渐近性质 定理3 3 假设条件( a 1 ) 一( a 8 ) 成立,并且初始解满足( 3 9 ) 和( 3 1 0 ) 式,则由成对删除 法得到的一步局部m 一估计历s ( x ) 的条件均方误差( m s e ) 为 e 【( , “h s ( ) 一m ( 而) ) 2i 五,以 = ( 磋,( ) + 霄,( ) ) ( 1 + d p ( 1 ) ) 其中 ,5 ( x o ) = 既,3 ( x o ) ,1 ,。2 ,5 ( x o ) = v 。2 ,3 ( x o ) 定理3 4 假设条件( a 1 ) 一( a 8 ) 成立,并且初始解满足( 3 9 ) 和( 3 1 0 ) 式,则由两阶段法 处理缺失数据得到的一步局部m 一估计历,( x ) 在x o 点的条件均方误差( m s e ) 为 e 【( 磊s ( x o ) - m ( x o ) ) 2ix , ,以】= ( 磋。( ) + - v 小2 ( 而) ) ( 1 + d p ( 1 ) ) 其中 “,6 ( x o ) = 屯,。( x o ) ,v ,2 ,6 ( x o ) = v 。2 ,4 ( ) 对于定理3 3 和3 4 的应用,与3 3 节类似,这里就不给出了 l 2 疗 一 y 甲 旦瓿旦瓿 浙江大学硕士学位论文缺失数据下的非参数回归分析 第四章总结 4 1 文章内容的总结 由绪论部分我们知道常窗宽局部线性平滑估计,变窗宽局部线性平滑估计和变窗 宽局部m 一估计为三种非参数回归的方法,从方法本身看后者要比前者优结合本文提 出的两种处理缺失数据的方法,对每种非参数回归都可分别得到简单估计和估算估计 通过比较文献 1 和本文第二、三章可知:若每种非参数回归的简单估计以及估算 估计采用的窗宽和核函数一样,则a m s e h o p t ( m ,( 功,优( x ) ) 彳旌e ,叫( 朋s ( x ) ,m ( x ) ) 三,相 同,厂并不因为非参数回归方法的不同而不同这里m s ) 和m ,( x ) 分别为简单法和估 算法得到的估计但这并不说明三种非参数回归方法在处理缺失数据时是一样的,原因 是三种方法本身有优劣,它们各自的渐近均方误差并不一样,所以处理缺失数据时,这 三种方法还是有所区别的:缺失数据下变窗宽局部线性平滑估计比常窗宽局部线性平 滑估计更具灵活性并更符合实际,而缺失数据下的局部m 一估计比变窗宽局部线性平滑 估计更具稳健性再次总结本文的内容:估算法中,若两个阶段的窗宽不同阶,则简单法 优于估算法;若两个阶段的窗宽同阶,当选取适当的核函数时,可得到估算法优于简单 法这样就给实际中处理缺失数据带来一种更好的方法,即两阶段估计法 4 2 本论文可改进之处 一、对于用两阶段法处理缺失数据时,核函数和窗宽的选择问题,本文只是举了特 例,说明在这些例子下估算法比简单法优,从而提供了一种更好的处理缺失数据的方法 但是没有给出具体选择的条件和方法,核函数和窗宽选择的问题有待进一步研究 二、在对简单法和估算法进行比较时,由于最优一致渐近均方误差 ( a m i s e ,倒) 中有未知函数的积分,不好直接进行比较,所以本文采用最优渐近均方 误差( a m s e v ,叫) ,通过比较a m s e v ,叫来说明估计的优劣理论上若采用a m i s e , ,叫, 应该更合理 三、文章在3 4 节介绍了一步局部m 一估计,该方法结合了m 估计和牛顿迭代法, 在计算上提供了方便,但由于和迭代法结合,那么一步局部m 一估计是否依然具有稳健 性? 这个问题在文章中未给出讨论 浙江大学硕士学位论文缺失数据下的非参数回归分析 第五章证明 5 1 第二章和第三章定理的证明 由文献 2 中定理1 的证明思路,为证明定理2 1 ,首先要证明两个引理 引理1 假设六( ) ,口( ) 和m ( x ) 都为有界函数,且在六( ) 支撑集的内点x 连 续,口2m l n z 口( z ) o ,且对一个非负整数,o 有l i m s u p r 牡。l k ( u ) u 川i 0 ,一定存在足够大的正常数m ,满足对所有的i “i m a ,有 ik ( u ) u “4i 吃,g 。= 纸和g 。 吃,g 。= 2 h 。和g 。 吃 g 。= a h , g 。 吃 g ” + 万1 lk ( u ) a ( u ) d u ,g 。= 矾 e k 2 ) d u , g 。 0 时, ( 5 1 9 ) 形( x ) = 0 时, 其中口( x ) 可取任意非负值,p 是使写成立的值,记为岛将( 5 1 9 ) 式带入( 5 1 7 ) 式可知( 5 1 7 ) 式的第一个最小值问题并不依赖于口,所以口取见也是可以的,由此定理 证明完毕 由文献 3 定理2 2 的证明思路,为证明定理3 1 和3 2 ,先要证明几个引理记 q = 口( x a q = k ( 苎寡鱼口( _ ) ) ,r ( 一) = m ( 一) 一所( ) 一所k 。) ( x ,一x 。) 引理3 假设条件( a 1 ) 一( a 8 ) 成立,对任一随机序列 7 7 彤圳若躐1 7 l = o p ( 1 ) ,则对非负 整数,有 妒( s ,+ r ) t 口k j ( x ,一) ,= l = 搿峭1 似肭加,( 1 + o p ( 1 ) ) 缈( 占j + 1 1 j ) 尺( x ) q 口k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 诊所消防安全培训试题及答案
- 2024年项目管理资格考试的心理准备与应对试题及答案
- 项目管理师考试考题研究法试题及答案
- 枣庄医院面试试题及答案
- 注册会计师考生如何建立信心的试题与答案
- 云龙小学面试题库及答案
- 注册会计师考试入门试题及答案
- 2025年注册会计师考试方法论探讨试题及答案
- 2025年注册会计师考试仲裁法律知识试题及答案
- 初中数学期中阶段 第5-7章 模拟测试题+2024-2025学年华东师大版七年级数学下册
- 国内外小学音乐跨学科教学的研究现状
- 教堂寺庙租赁合同协议
- 防范遏制矿山领域重特大生产安全事故硬措施解读
- 河南省洛阳市涧西区2024-2025学年八年级上学期期中考试数学试题
- 社会认知理论发展
- 管道完整性管理培训
- 小学全体教师安全工作培训
- 19G522-1钢筋桁架混凝土楼板图集
- 律师事务所薪酬分配制度
- 马克思主义诞生与传播课件
- 2025年高考语文一轮复习:文言断句(新高考)
评论
0/150
提交评论