(应用数学专业论文)带约束线性模型岭估计的影响分析.pdf_第1页
(应用数学专业论文)带约束线性模型岭估计的影响分析.pdf_第2页
(应用数学专业论文)带约束线性模型岭估计的影响分析.pdf_第3页
(应用数学专业论文)带约束线性模型岭估计的影响分析.pdf_第4页
(应用数学专业论文)带约束线性模型岭估计的影响分析.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本学位论 授权北京交通 提供阅览服务 同意学校向国 ( 保密的 学位论文 签字日期 中图分类号:0 2 1 2 4 u d c :x x x x 学校代码:1 0 0 0 4 密级:公开 北京交通大学 硕士学位论文 带约束线性模型岭估计的影响分析 t h ei n f l u e n c ea n a l y s i so fr i d g ee s t i m a t i o ni nr e s t r i c t e dl i n e a r m o d e l 作者姓名:邢慧娟 导师姓名:张尚立 学位类别:理学 学号:0 8 1 2 2 1 4 1 职称:副教授 学位级别:硕士 学科专业:应用数学研究方向:应用统计学 北京交通大学 2 0 1 0 年5 月 致谢 本论文的工作是在我的导师张尚立老师的悉心指导下完成的。张老师严谨的 治学态度和科学的工作方法多我有极大的帮助和影响,是我学习的榜样。在做人 方面影响也很大,教育我要谦逊做人。在北京交通大学度过的两年研究生学习生 活中,无论是在理论学习阶段,还是在论文的选题、资料查询、课题研究、论文 写作等每一个阶段,张老师都耐心指导、严格要求,在生活上也给予了我很大的 关心和帮助,在此,谨向张老师表示深深地敬意和衷心的感谢! 此外,还要感谢学院的各位老师给予我的指导与帮助,感谢王立春老师对我 各方面的教导与鼓励,感谢我的师弟、师姝对我顺利完成论文给予的帮助。在此, 向他们表示我由衷的谢意! 最后感谢我的家人在各方面对我的默默支持,他们对我的理解和鼓励使我得 以安心完成学业,在此向我的家人表示衷一d 、的感谢! , 中文摘要 摘要:对于线性模型中回归参数的最d , - - 乘估计的研究工作已经有了系统和 完整的研究结论。本文主要研究了带约束线性模型回归系数岭估计的影响分析问 题。基于所提出的条件岭估计,分析了三种扰动情形对条件岭估计的影响,并给 出了相关结论。定义了度量影响大小的广义c o o k 距离和w e l s c h k u h 统计量,并 给出了相应的计算公式。 本文第一章介绍了一般线性模型和影响分析的发展历史及研究现状。第二章 介绍了矩阵知识、岭估计和若干引理。第三、四章分别研究了带约束线性模型协 方差扰动和数据删除的影响分析问题,建立了扰动前后条件岭估计的关系,还研究 了协方差扰动和数据删除对条件岭估计的混合影响。第五章讨论了均值漂移对带 约束线性模型条件岭估计的影响问题。第六章给出了广义c o o k 距离和w e l s c h k u h 统计量来度量影响大小,并进行了实例分析。 关键词:带约束线性模型;条件岭估计;影响分析;均值漂移;广义c o o k 距离; w e l s c h k u h 统计量 分类号:0 2 1 2 4 a bs t r a c t a b s t r a c t :t h er e s e a r c ha b o u tl e a s ts q u a r ee s t i m a t i o no fr e g r e s s i o np a r a m e t e r s i nt h el i n e a rm o d e lh a si n c l u d e di n t e g r a t e da n ds y s t e m i cr e s u l t s t l l i sa r t i c l em a i n l y s t u d i e st h ei n f l u e n c ea n a l y s i so fr i d g ee s t i m a t i o ni nr e s t r i c t e dl i n e a rm o d e l b a s e do n t h ep r o p o s e dc o n d i t i o n a lr i d g ee s t i m a t i o n ,w ea n a l y s et h ei n f l u e n c eo ft h et h r e ek i n d so f d i s t u r b a n c eo nt h ec o n d i t i o n a lr i d g ee s t i m a t i o n ,a n dg i v et h er e l e v a n tc o n c l u s i o n s a l s o t h ed e f i n i t i o no fg e n e r a l i z e dc o o kd i s t a n c ea n dw e l s c h k u hs t a t i s t i c sa r eg i v e nt o m e a s u r et h ed e g r e eo ft h ei n f l u e n c e ,a n dg i v et h ec o r r e s p o n d i n gf o r m u l a s 1 1 1 i sp a p e ri n t r o d u c e st h eh i s t o r yo ft h ed e v e l o p m e n ta n dr e s e a r c hs t a t u sa b o u t g e n e r a ll i n e a rm o d e la n di n f l u e n c ea n a l y s i si nt h ef i r s tp a r t t h e nt h ek n o w l e d g e o ft h e m a t r i x ,r i d g ee s t i m a t i o na n ds e v e r a ll e m m a sa r ei n t r o d u c e d i nt h em i r da n df o u r t h c h a p t e r s ,w es t u d yt h ei n f l u e n c ea n a l y s i so ft h ec o v a r i a n c em a t r i xd i s t u r b a n c ea n dd a t a d e l e t e dd i s t u r b a n c eo nt h el i n e a rm o d e lw i t hc o n s t r a i n t sa n dw ee s t a b l i s ht h e r e l a t i o n s h i p so ft h ec o n d i t i o n a lr i d g ee s t i m a t i o nb e t w e e nb e f o r ed i s t u r b a n c ea n da f t e r d i s t u r b a n c e ,a l s os t u d yt h em i x e di n f l u e n c eb yt h ec o v a r i a n c em a t r i xd i s t u r b a n c ea n d d a t ad e l e t e dd i s t u r b a n c eo nt h ec o n d i t i o n a lr i d g ee s t i m a t o r t h ef i f t hc h a p t e rd i s c u s s e s t h ei n f l u e n c eo fm e a ns h i f td i s t u r b a n c et oc o n d i t i o n a lr i d g ee s t i m a t i o ni nr e s t r i c t e d l i n e a rm o d e l i nt h ee n d ,w eg i v et h eg e n e r a l i z e dc o o kd i s t a n c ea n dt h ew e l s c h k u h s t a t i s t i ct om e a s u r et h ed e g r e eo ft h ei n f l u e n c e ,a n da ne x a m p l ea r eg i v e n k e y w o r d s :r e s t r i c t e dl i n e a rm o d e l :c o n d i t i o n a lr i d g ee s t i m a t o r ;i n f l u e n c e a n a l y s i s ;m e a ns h i f t ;g e n e r a l i z e d c o o kd i s t a n c e ;w e l s c h k u h s t a t i s t i c c l a s s n o :0 2 1 2 4 2 2 岭估计4 2 3 条件岭估计5 2 4 若干引理7 3 协方差扰动约束线性模型岭估计的影响分析8 3 1 基本原理8 3 2 主要结论8 4 数据删除约束线性模型岭估计的影响分析1 l 4 1 约束线性模型数据删除与协方差扰动的关系1 1 4 2m 组数据方差扰动或删除m 组数据条件岭估计的关系1 2 5 均值漂移约束线性模型岭估计的影响分析1 7 5 1 基本概念1 7 5 2 主要结论1 7 6 度量影响的统计量2 0 6 1 主要结论2 0 6 2 实例分析。2 3 7 结论与展望2 8 参考文献2 9 作者简历3 l 独创性声明3 2 学位论文数据集3 3 1 引言 线性模型是现代统计学中内容丰富、应用最广泛的一个研究分支。随着计算 机的日益普及与数字计算能力的不断提高,它被广泛应用于经济、管理、金融、 生物、医学、工农业和工程技术等领域,并在其中发挥着重要作用。近几十年来, 很多学者对线性模型进行了深入细致的分析和研究,使它无论在广度和深度上都 有不少新的发展,例如有偏估计、可容许性理论、非参数回归、稳健回归、大样 本理论、序贯理论、b a y e s 方法和回归诊断等。 线性模型的参数估计问题的研究可以追溯到上世纪初。著名数学家 a m l e g e n d r e 和c e g a u s s 分别先后于1 8 0 6 年和1 8 0 9 年独立地把最d - - 乘法应用 于观测数据的误差分析。后来,a a m a r k o v 于1 9 0 0 年证明了最小二乘估计的方差 最小性质,即著名的g a u s s m a r k o v 定理,奠定了最小二乘法在参数估计理论中的 地位,r c b o s e 在1 9 4 4 年引入的可估计函数的概念以及广义逆矩阵的应用,使得 设计阵为列降秩的线性模型的估计理论表述的更加严格而简洁。误差协方差阵为 列降秩的线性模型的估计理论的研究始于本世纪6 0 年代中期g o l d m a n 和z e l e n 率 先提出了用满秩线性变换把模型化为协方差阵为盯2 i 且带约束的情形。1 9 7 1 年以 来c r r a o 采用推广最小二乘的思想,提出来所谓的“最小二乘统一理论”( t h e u n i f i e dt h e o r yo fl e a s ts q u a r e ) ,这种方法既适用于设计阵列满秩或列降秩又适用 于协方差阵奇异情形。导出的估计形式简单便于理论研究,得到普遍采用,使得 奇异的线性模型和多元线性模型的参数估计问题也可顺利得以解决。 当设计阵病态时,最小二乘估计表现出不稳定性。针对病态设计阵来改进l s e 的一系列有偏估计被提出来了,有主成分估计、岭估计、广义岭估计、s t e i n 估计、 特征根估计和刘估计等。1 9 7 0 年,h o e r l 和k e n n a r d 提出的有偏估计岭估计( 狭 义岭估计) ,其基本思想是在参数估计的计算时引入一个偏参数,通过对此参数的 合理取值来消除由于复共线性带来的估计误差。文 6 d p 给出,在均方误差意义下, 总存在岭参数k ,使得岭估计优于l s 估计。近几十年来的应用实践表明,当设计 阵病态时,岭估计确实改进了l s 估计,它是目前应用最为广泛的一种非最小二乘 估计。文献 1 0 - 5 三 1 5 就是征对不同模型的岭估计的一些研究结果。文献 1 6 】至 2 2 】 给出了岭型主成分或主相关估计的重要结论。 统计诊断是近3 0 多年来迅速发展起来的一门统计学分支。顾名思义,统计诊 断就是对实际问题中得到的数据和提炼出的模型以及推断方法中可能存在的“毛 病 进行诊断,并提出相关的“治疗措施。大量的理论研究和应用实践使人们 对统计诊断的意义和价值有了肯定而明确的认识,现今已广泛应用于各种统计问 题和统计模型,成为统计学使用过程中不可缺少的一个重要步骤。 影响分析是统计诊断中十分活跃的分支,其研究内容和方法近年来仍然在不 断的发展和开拓。文献 2 3 】至 2 6 】就研究了参数估计的影响分析。从目前来看,影 响分析的内容大致可分为三个方面:第一,数据点的影响分析。主要研究特定的 某几个特别是某一个数据点对于统计分析的影响。这是影响分析的重点,也是最 有价值的部分。本文就是结合带约束线性模型研究了这方面内容。第二,广义的 。 影响分析。主要研究当模型有微小扰动时,对于统计推断的影响。通常可把扰动 问题归结为与模型有关的若干具体因素所产生,如均值漂移、方差扰动、自变量 改变等。文献【2 7 】至【3 4 】讨论了不同模型的影响分析。第三,度量影响的统计量。 主要有c o o k 距离,w - k 统计量,协方差比统计量和相关系数等。文献 4 1 至 4 3 】 给出了各种统计量的相关结论。本文也涉及了这三方面的内容。 本文主要研究了以下几种模型: 考察线性回归模型 ,y = x , o + 1 3 , i g ) = o ,c o v ( s ) = c r 2 i 。 u 7 其中y = 。,y :,y 。) 7 ,x = g ,x :,吒厂,一是p 维列向量,= 慨,殷,成广, s = ( 1 3 。,占:,巳y 。众所周知,的s 估计是夕= 伍7 x ) - 1 x7 y ,它是的b l u e , 但当设计阵x 趋于退化时,矽的性质会变坏。为了改进l s 估计,近几十年来, 的有偏估计的研究得到人们的广泛重视。本文所讨论的岭估计就是应用最为广泛 的有偏估计之一。当模型( 1 ) 产生扰动时的有偏估计的影响分析也是统计学家 感兴趣的问题。为此,文献 1 , 2 币1 1 3 分别研究了剔除一组数据或若干组数据对 参数估计与拟合值的影响问题。实际中,我们对参数并不是一无所知,而是有一 定的附加信息,这些信息可以用约束条件来描述,文献 5 】, 6 】和【7 】研究了带约束 条件的g m 模型 j y = x p + 1 3 ,e ( 1 3 ) - - o ,c o v ( s ) = 盯2 l ,m 1 筇= 0 的有关影响分析问题,其中l 为q p 行满秩矩阵。文献 8 研究了约束条件下线性 模型协方差阵扰动的影响分析,给出了约束条件下扰动前后参数的b l u e 估计 之间的关系等一系列重要结果。文献 9 研究了协方差扰动模型 y = x p + 6 , l e ( 1 3 ) = o ,c d ,g ) = 盯2 g 。1 v 7 其中g 0 ,岭估计夕 ) g = 伍7 g x + k 1 ) - 1x r g 】,的影响分析,建立了扰动前后夕 ) g 与矽( 七) 的关系。而对本文约束条件下线性模型岭估计的影响分析,是对文献 8 】和 9 的进一步推广,目前这方面的研究较少,有很大的发展空间。我们将讨论 2 带约束条件的协方差扰动线性模型 j y = 即+ g ,e g ) = o ,c 。v g ) = 矿2 g ,( 4 ) 【= 0 条件岭估计的影响分析问题,并得到了一些有意义的理论结果。本文里我们还研 究了在约束条件下数据删除模型中的条件岭估计的问题,数据删除模型为 j y ( g ) - - x ( j ) p + 占d ) ,p p ) 】= o ,c d v k u ) 】= 盯2 l 一饼,( 5 ) 【z , p = 0 其中j = 瓴,i 2 ,i 。) 为指标集,1 0 为常数,称为岭参数,是一个修正值。这是对最小二乘估计的改进。 当自变量存在多重共线性时,i x7 x i 0 ,给x r x 加上一个正常数灯,那么 x r x + 材接近奇异的程度就会比x 7 彳接近奇异的程度小得多。 岭估计是一个很大的估计类,特别的,当k = 0 时,得到l s 估计。( 后) 是l s 估计矽向原点做压缩得到的,且e ;( k ) ,所以岭估计是一种压缩型有偏估计。 岭估计矽亿) 比l s 估计矽有较小的均方误差,且是的可容许估计。因此,岭估计 是一种较好的估计,讨论实验数据对岭估计的影响是有实际意义的。 2 3 条件岭估计 在约束线性回归模型f ,的约束最小二乘估计为 、 尻= 矽一伍r x ) - 1 k 伍7 x ) - 1 _ 1 三夕 ( 2 3 1 ) s a r k 川1 9 9 2 ) 年给出了一种新的估计 ,、 夕 ) = 互尻,瓦= ( ,+ 七伍x ) 卅) _ 1 ,k 0 很显然,夕( 0 ) = 历,1 i m ; ) = 0 这是对( 2 3 1 ) 的自然推广,与此类似,史建红在文 1 1 给出了新的条件岭估计 夕+ ) = 形+ ,) 1 尻 ( 2 3 2 ) 其中矽:伍x ) 一似x ) 一1 三( l w x ) 1 ) - 1 l ( x x ) 在非齐次线性约束三= ,的条件下,为了使估计满足= , j i i r g e n g r o f l 给出了一种新的有偏估计 应 ) :夕 ,属) 一s f t ,亿s i - 三,) - 1 g 夕 ,风) 一,1 k 0 ( 2 3 3 ) 其中 夕 ,p o ) = ( x x + 盯p ) - 1x t + k l ( t l ) ,l 豇o ,瓯= x x + k i ,p o = 池) - 1 厂 显然从表达式来讲,此方法已经消除了( x x ) - 1 ,但是由于算式较繁琐,给估计运算带 来不便。 上述估计方法都可以看作是对约束型有偏估计研究的一些有效结果,从估计 效果来看,都能在一定程度上克服o r l s e 在处理共线性问题上的不足。但是,从 公式可以看出,这些研究还远远没有无约束线性模型那样成熟。因而,还具有很 大的研究空间。 考虑带齐次线性等式约束的线性回归模型 j y = x p 托e g ) = 0 ,c o y ( e ) = 盯2 i 。, ( 2 ) 【印= 0 其中y 是刀x l 观测向量,x 为1 p 列满秩设计矩阵,l 为q p 的矩阵,占为n x l 维随即误差向量,l 为n 阶单位矩阵,b 兰护:= 0 ) 为未知回归系数向量, 盯2 0 为误差方差。秩伍) = p ,秩乜) = g 。 定义2 3 1 对于上述约束线性回归模型,称由下式给出的皮伍) 为 的条件广义岭估计 虞伍) = 夕( k ) 一s 二1 l 7 乜s 二1 ) 1 l f l ( k ) , ( 2 3 4 ) 其中k :历昭传。,k :,k ,) ,s k = x7 x + k ,夕伍) = 伍r x + k ) - 1 x 7 y 对于不同 的k ,上式给出了不同的估计,可见条件广义岭估计是一个很大的估计类。 x c f ( 2 3 4 ) 式给出的估计当k = 0 时,我们得到度( o ) = 厦,其中厦为的约束 最小二乘估计,尻:夕一( ,r 彳) - 1 r k 伍r x ) - 1 r ) - 1 三夕, 其中夕为的l s 估计,即夕= 伍7 x ) - 1 x r 】, 本文要研究的是约束线性模型回归系数的条件岭估计,所以给出如下定义: 定义2 3 2 模型( 2 ) 的条件广义岭估计中,当k = 疥昭k 。,尼:,后,) 中, k l = k 2 = = k 口= 七时,( 2 3 4 ) 式就变成 度 ) = 夕 ) 一s f l r i l r ) - 1 三夕 ) ( 2 3 5 ) 称为条件岭估计。( 2 3 5 ) 式是( 2 3 4 ) 式的特殊情况,比( 2 3 4 ) 式更简单,参数k 的 6 选择更加容易,后文的讨论主要是基于( 2 3 5 ) 式进行的。 2 4 若干引理 引理2 4 1 模型( 2 ) 中的b l u e 度为 厦:夕一伍r x ) - 1 r ( 己伍r x ) - 1 ) - 1 夕 引理2 4 2 模型( 3 ) 中的b l u e 夕( g ) 为 夕( g ) = 伍r 似) 1 x r g y 由引理2 4 2 ,利用类似于引理2 4 1 的证明方法( 详见文献 6 】) 可得引理2 4 3 引理2 4 3 模型( 4 ) 中的b l u e 度( g ) 为 度( g ) :夕( g ) 一口r g x ) - 1 k 伍r g x ) - 1 r 】- 1 咖( g ) 模型( 1 ) 的岭估计为夕 ) = ( 7 x + 灯广1 x7 y ,模型( 3 ) 的岭估计为 夕q ) g = 伍r g x + k i ) - 。x r g y 记虿:j g ,h = x ( x7 x + 灯) - 1 x r ,有 引理2 4 4 若,一x ( x r x ) - 1 x r 虿可逆,一h gn - :i 煎,则 夕( g ) :夕一伍r x ) - 1 x ,石p x 伍r x ) - 1 x r 虿1 _ 1 l x 伍r x ) - 1 x 丁p ; 夕 ) g :夕 ) 一( 芦7 x + 灯广1 x r 虿( ,一麻) - 1 艿; 其中万:“一日) y 7 3 协方差扰动约束线性模型岭估计的影响分析 3 1 基本原理 对于协方差扰动线性模型,协方差扰动前后岭估计的关系已由引理2 4 4 中的 第二式给出,那么要得到约束条件下协方差扰动前后岭估计的关系,首先要得到 协方差扰动模型条件岭估计度g ) g 的表达式。 引理3 1 根据定义( 2 3 2 ) ,得到模型( 4 ) 的条件岭估计度 ) g 的表达式: 虞 ) g = 夕 ) g s 。- t 。i f ( l s 。- i 。i f ) - 1 咖 ) g ( 3 1 ) 其中矽 ) g = 伍7 g x + k 1 ) - 1 x7 g y ,s 帕- i = 伍7 g x + m ) - 1 有t ( 3 1 ) 式,再利用矩阵的相关知识,就建立了模型( 2 ) 与模型( 4 ) 的条件岭估计 度 ) 和度g ) g 之间的关系。 3 2 主要结论 定理3 2 若矩阵( ,一面) 和,+ 厮( ,一丽) - 1 都可逆,则 度 ) g :夕。 ) 一o s k 。- m 声i x r 虿o 一日百) - 1 - + 百( ,一月虿) - 1 l 占( 3 2 o ) 其中记虿:j g ,日= x 伍r x + 蚶) - 1x r ,万= o h ) y ,s :1 = 伍r x + 灯) 1 , m = l t ( l s ;1 r ) - 1 l ,n = x s f l m s ;1 x r ,占= ( ,+ 一h ) y 证明:因为g 一= i g ,由引理2 4 4 及引理3 1 可得 度亿) g = 夕 ) g s 盎仁s 盎r ) - 1 印 ) g :夕 ) g 一伍r g x + 盯) - 1 k 伍r g x + 灯) - 1 r l 三夕 ) g = 夕仗) 一 伍,g x + 灯) - 1 r k 伍r g x + 盯) 1 r 印 ) 一伍r 彳+ 材) _ 1 x r 虿( ,一丽) - 1 万 + 伍r g x + 材) - 1 k 伍r 6 + 灯) - 1 r 】- 1 伍r x + 船) 1 工r 虿( ,一丽) _ 1 艿( 3 2 1 ) ,一- + 腼( ,一丽汁而( ,一丽) _ 1 :l + 而o 一丽叶 有伍r g x 二二霞弦鬟婴嚣产岁广1 l = p + 而( ,一丽) - 1 l有伍r+ 射) _ 1 r k 伍r g x + 灯) - 1 j _ 1 , = i x r x + 灯一x7 砑r r i 伍r x + k i - x r 砑r r 】_ 1 :b 一+ 墨t x r 虿( ,一面) - 1 x s ;t 】r 臣t 一l s ;,工r 虿( ,一丽) - 1 x s ;t r 】- 1 三 = k - + - x r 虿( ,一丽) - 1 x s ;j f m m s ;”虿( ,一面巾+ 厩( ,一丽汁x s ;m 、 = s 扭一s i l m s ;1 x 百( ,一面巾+ 而( ,一丽叶x s ;1 m + s ;1 x7 石( ,一面) - 1 l + 而( ,一面叶x s ;1 m ( 3 2 2 ) ( 3 2 3 ) :s k 。m + ( ,一m 废t x 百( ,一丽) _ 1 l + 厩( ,一腼汁x s ;- m , ( 3 2 4 ) 伍r g x + 灯) - 1 i 伍r g x + 肼) - 1 r i 三伍r x + 灯) - 1 x r 虿( ,一面) - 1 = 1 m s ;1 x r 虿( ,一日虿) _ 1 + ( ,一t m 冷i x r 虿( ,一丽巾+ 厮( ,一丽叶丽( ,一丽) - 1 = s m s ;1 x r 石( ,一丽) - 1 + ( ,一s m 声f - x r 虿( ,一丽) - 1 f 卜p + 腼( ,一面汁, = 1 x7 虿( ,一腼) _ 1 ( ,一t m 声i x r 虿( ,一面) _ 1 p + 而( ,一丽汁 ( 3 2 5 ) 夕l ) g :夕仗) 一o s m b ,x r 虿( ,一丽) _ 1 l + 厩( ,一日虿广1 l ( ,一日+ ) y :度 ) 一( ,一- m p i - 石r 虿( ,一丽) _ 1 l + 丽o 一丽) _ 1 l 占 9 定理3 2 说明了协方差阵扰动前后条件岭估计的关系。若俐0 ,则度 ) 和度 ) g 相差极微,从而可用度 ) 来估计度 ) 6 ,不必考虑协方差阵的扰动。否则,就需 对度亿) 作修正,修正项为式( 3 2 0 ) 右端的第二项。 l o 4 数据删除约束线性模型岭估计的影响分析 4 1 约束线性模型数据删除与协方差扰动的关系 讨论数据删除模型 菇器o , 肌c o 心占:d r k 。 , 【e g u ) ) =p ) ) = 2 l 一。 r j j 7 记夕 l 为数据删除模型( 4 1 1 ) 的岭估计,若 g = i x ( 1 一哆k 衫,0 0 ,若 g = i - x o - 红, ,归,d ,t ,0 q l ,j j , 则有 l i m 。,f l l ) g = 度 l , 口训 j e j 其中d j 为第j 个元素为1 ,其余元素都是0 的列向量 证明:注意到 度传) ,:夕伍) ,一似r p 沙d ) + 甜) - 1 i 伍r d 沙p ) + 盯) - 1 ,】- 1 够 ) ,( 4 1 4 ) 而 虞 ) g :夕 ) g 一伍r g x + 材) - 1 r k 伍r g x + 材) _ 1 i 夕 ) g 若g = ,一( 1 一q p d ,t ,则有 j j 夕 ) g = 伍7 g x + k i ) - 1x 7 g y 且 = i x t x q k + 材 。1 x7 y 一,e 。,( 1 一国,b y , _ jl“- j 伍r g x + 灯) 1 r i 伍r g x + 灯) 1 1 r 】- 1 三 = x r x - e o 一彩,b 工歹+ 肼 一三7 三 x r x 一若( 1 一彩,b r ) 一三, 其中,x j 汞1y 分别为x 和y 的第j 行 所以有( 4 1 3 ) 式成立,和 q l i + m ( x 7 g x + 肼) - 1 k 伍r g x + 盯) - 1 计1 :伍r u 皿p ) + 灯) - 1 r k 伍r p 沙u ) + 盯) - 1 r 】- 1 ( 4 1 5 将( 4 1 3 ) 式和( 4 1 5 ) 式代入( 4 1 4 ) 式得 l i m + 成 ) g = 度伍l ,j j j 定理4 1 说明,若g = ,一( 1 一qp ,d 歹,且q 专o + ,- , j e j 对条件岭估计来说,方差扰动就等价于删除了j 中的数据。 4 2m 组数据方差扰动或删除m 组数据条件岭估计的关系 则有 度 ) g :度 ) 一o s i t m b i x y a ,( ,一h s a ,) 一1 【,+ n j a ,( i j h s a ,) 1 r 1 旬 和 一l i r a ;l ( k ) g = 度 ) 一( ,一s f l m 废1 x 地一日,吨+ n s ( i ,一日j 1 h , j e j 1 2 以 l 一 缈 p r, j b 尸 缈一 ,n、 一若“札g h 型模24理定 其中蜀,旬分别是由x 和占在j 中各行所构成,l 为m 阶单位阵, h j = xj b t x + k i ) - 。墨n j = xj s :m 蜀 x y 入j = d i a 文l 一l ,1 一r x 一t 、 证明: 为了符号简单,不妨设j = 1 ,2 ,m ,则 虿= 驴哆p 胪除x = ( 劫 ,vv 0 1 、一,日= r :) , = _ 3 占= ( ,一耐= r ,甜= r 跚蚴, l + 厮( ,一丽小p ) - l 】j 甜 = ( p ,+ m 人,o 二一日,人,) _ 1r l ,吕) c 4 2 2 , 夕。 ) g :虞伍) 一( ,一s i - m 声i t 髟t a ,( ,一h ,人,) 一1 【,+ n j a ,( i j h s 人,) 一1 l 句 显然有 q l i 州m ? l ( k ) g = 度 ) 一( ,一1 m k l x j 也一日j 1 【,+ 以亿一日,) - 1 】- 1 旬 j 毫j 推论4 2 1 模型( 4 ) 中,若g = ,一( 1 一q 弦,d ,则 圳g = 圳一蒜蒜等等, 铲l i m 莨( k ) 州一锵, e j ” 其中色为占的第f 个分量,p 。是h 的第f 个对角元素,g 。为n 的第f 个对角元素。 推论4 2 1 描述了一组数据方差扰动或删除一组数据后条件岭估计的变化情况。 另外考虑一组数据方差扰动同时另一组数据被删除的混合扰动下的条件岭估计的 变化情况。 为了描述在一组数据方差扰动同时另一组数据被删除的混合扰动下条件岭估 计的变化情况,我们有 推论4 2 2 若g = ,一0 一q p ,d f 一( 1 一哆p d 歹,i j , 则q l i 训m f l l ( k ) o :夕g ) 一峄( 6 l _ 色+ 6 2 x j e t + b 2 x t e i + 以x ,占,) 其中p 驴表示h 的第f 行第列元素,g 扩是n 的第f 行第列元素,e 是矩阵 c 三? 一( g 二:客:;二) 的行列式,且e = ( 1 - p i m 一( 1 一,b 豇】一( 1 一缈,b ; e i 2 0 一彩f 咫一p 矗j , c 22u 一哆胗盯,c 32u 一缈r 归甜, f 是矩阵 f e + c l q u + c 2 q 驴c + 2 q u + c + 3 q u 1 的行列式,6 l :c l 五+ c i c 3 9 一c 2 2 9 ,c il q f + c 2 q e + c 2 q 驴+ c 3 q j 。 1 1 1 1 21 。 b 22c 2 e c l c 3 9 f + c 2 2q 扩,b 32c 3 e + c l c 3 q 甜一c 2 2 9 f f 证明:因l i m + g 一= i - g = a ) j - ,0( 1 0 q ? ) , + l1 且度 ) g :度 ) 一( ,一s f t m 声i - x r 虿( ,一丽广i + 而( ,一丽) _ 1 】- 1 占, 所以 俨l i m , ( k ) g 以”o 刮m k l bx t :) 一匕欲玎 ( 三;) + ( ;:q g 驴o ( 1 - - 。( 0 s 0 ) l ( 1 l : 一( ;:;: ( 1 - - 。0 ) i : 记 ( 三0 ) 一( 2z ( 1 0 劬? ) 一为c ,式, + 眦弦瓣批- - 0 ) i 玎) 1 4 矾_ 为( i i ) 式,则有, 所以 回式= 雌鬻 l1 一p p 矿| lo - - ( d i ) p 妒1 一o - - o , , ) p 豇j ( 1 胖l - h o - c o i ) p , , 甜 ( 1 - c o f x l - p o - - ( 0 i ) p 。ji - - 0 - - 哆0 ) 豇 i 。 扫j = 地翁 h 2 司 c - - ,式= ( 三o ) + 圭( g 二荔窨:z ) ( 0 1 一- q p 场i j 驴。一。一p u 哆b 。) 一 、e + c ,l q i i + c 2 q 扩+ c 2 q + 均c 3 q o c 2 q 2 1 ec 2 q ;g _ l 、, 七 + c 3 qo ) = 虱e :e 1 + c 9 3 q 扩y y ,+ c 9 2 量q 封- 心c 2 q g 驴- + c 3 q u ec l q 。 ,i c l g 一c 2 9 量+ c 2 9 】【+“j 所以 q l i 枷m 3 l ( k ) g = 夕。 ) 一。一1 m p i l g ,_ ) 去( 曼c c ,2 ) e,lfe一+c3q扩2一+c2口q扩-+c2q鲈-+c3qqvctq c 2 q ec 2 q q 盯 ( 宝 ,k i f 一 口 + + c l 盯ji 吾, = 度 ) 一i 1 ( ,一1 m 冷i 1 g ,_ ) ic c :le + + c c i :c 9 3 扩q 一- c 2q 且u c c 2 ,e + + c c 。2 c q ,u g 甜- 一c l c c i 3g q 豇o l ,( l p ! ,i e 2 c ic 3q e ) i c 2 + c 2 9 ,一且 c 3 + c l c 3 9 甜一c i g 豇l p = 夕。 ) 一吉( ,一s f m b i l ( 6 l 五+ 也_ 6 2 一+ 6 3 工,) ( 宝 1 5 1jl, _ 孤扩彩一既兰m,u、一豇4 厩也乃坐却砰 卜万 r i _ 1 乃如 l i m w 。i l l ( k ) g = 声l 一j 11 3 一s :m :、x i 乏i + b 2 x j 宅i 七b 2 x l 乏j + b 3 x i e j ) 下面综述以上定理和推论的意义。定理4 1 描述了协方差阵扰动前后条件岭估 计的关系。定理4 2 表明了m 组数据方差扰动前后条件岭估计之间的关系和删除m 组数据前后条件岭估计之间的关系。推论4 2 1 说明,若只有第i 组数据有方差扰 动或只删除第i 组数据,条件岭估计的变化情况与匆,p 。和g 。有关。推论4 2 2 说 明,第i 组数据方差扰动同时第j 组数据被删除对条件岭估计的混合影响与p p ” p 学、q j f 、qz 、q f 及色、亏,有关。 1 6 5 均值漂移约束线性模型岭估计的影响分析 5 1 基本概念 线性模型i = 石+ 刍,i = 1 ,行如果“,1 ) 是一个异常点,那么它的残差之 所以增大,是因为e ) x ;,而是e ( ) = + 7 7 j ,这里仇是一个非随机向量。 因此,若l i ,一,k 对应于后个异常点,则线性回归模型为 r = 卜x ;p + + s r ,, ,- f b 芒s i ,, f ,= t , , ( 5 1 ) 记d ;= ( o ,o ,1 ,o ,0 ) ,即第i 个元素为1 ,其余n 一1 个元素全为0 的向量, 又记d = p n ,d 请) ,r = ( r h l , - - , r 献) 则( 5 1 ) 为 y = 五+ d 刁+ 占 ( 5 2 ) 这个模型可以看作将模型( 1 ) 对均值作平移后得到的,所以称为均值漂移线性 回归模型。 5 2 主要结论 对约束条件下均值漂移模型均值漂移前后岭估计的关系的研究方法同模型( 4 ) 和模型( 5 ) 类似,是按下面的思路进行的: 对于均值漂移模型】,= 即+ d ,7 + s ,占( 0 ,仃2 l ) l ie i = i , ,f :,i 。 写成矩阵形式为y = 伍。物影把 首先利用最小二乘法求得7 的三s 估计乃,再得到y 的岭估计尹 ) 碍。由于我们关心 的主要是参数的变化情况,所以当参数有约束条件时筇= 0 ,根据条件岭估 计的定义,可得到均值漂移模型的条件岭估计度 ) ,最后就可以得到均值漂移前 后条件岭估计虞 ) 与度 ) 呀的关系。下面给出具体推导过程。 定理5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论