(计算数学专业论文)两类重要多元统计模型的扩展及局部影响分析.pdf_第1页
(计算数学专业论文)两类重要多元统计模型的扩展及局部影响分析.pdf_第2页
(计算数学专业论文)两类重要多元统计模型的扩展及局部影响分析.pdf_第3页
(计算数学专业论文)两类重要多元统计模型的扩展及局部影响分析.pdf_第4页
(计算数学专业论文)两类重要多元统计模型的扩展及局部影响分析.pdf_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r 一 n a n j i n gu n i v e r s i t yo f a e r o n a u t i c sa n d a s t r o n a u t i c s t h eg r a d u a t es c h o o l c o l l e g eo fs c i e n c e j j i i i l lli 1 lll l l l l lll l lillf y 18 2 5 9 2 9 t h ee x t e n s i o n so ft 0m u l t i v a r i a t estatisticallleu l t l v a r lt a t l s t l c a ll w m o d e l sa n dt h el o c a li n f l u e n c e a 砀e s i si n c o m p u t a t i o n a lm a t h e m a t i c s b y j i a n g j i e a d v i s e d b y p r o f e s s o rl i ux i n s h e n g s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o r t h ed e g r e eo f m a s t e ro fs c i e n c e d e c e m b e r , 2 0 0 9 承诺书 本人声明所呈交的硕士学位论文是本人在导师指导下进 行的研究工作及取得的研究成果。除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:差蔓 日 期: 皇旦f 垒! :呈皇 一 南京航空航天大学硕士学位论文 摘要 多项p r o b i t 模型和多元p r o b i t 模型在计量经济学、生物统计学、交通运输学、心理学、医 学和行为学中广泛应用,是两类比较重要的多元统计模型近几十年来,已有很多学者对这两 类多元统计模型进行研究,使得这两类模型不断得到扩展和完善,应用范围越来越广泛其中, m n p f a ( t h em u l t i n o m i a lp r o b i td i f m e db yf a c t o ra n a l y s i s ) 模型和m p c f a ( m u l t i v a r i a t ep r o b i tm o d e l d i f i n e db yc o n f i r r m a t o r yf a c t o ra n a l y s i s ) 模型就是通过融入因子分析得到的扩展模型 本文对m n p f a 模型和m p c f a 模型进行扩展,并对m n p f a 模型进行局部影响分析,且相 应地给出了基于极大似然估计的e m 算法在第二章中,根据统计诊断中的局部影响分析理论, 我们对m n p f a 模型进行局部影响分析,这是数据分析中很重要的一步,进而可以得到模型的 微小扰动所产生的局部影响我们进行了数值模拟,结果表明本章对m n p f a 模型进行局部影 响分析的方法是有效而稳定的本文第三章通过引入具有t 分布的误差结构,对m n p f a 模型进 行扩展,使得模型可以拟合具有较宽尾部的样本我们给出参数估计的m c e m 算法,并通过数 值模拟证实了算法的有效性在本文第四章中,将具有t 分布的误差结构运用到另外一个非常重 要的模型m p c f a 模型,使得m p c f a 模型的应用范围更加广泛 关键词:多项p r o b i t 模型,局部影响分析,保形法正则曲率,多元p r o b i t 模型,e m 算法 m c e m 算法,m c e c m 算法 两类重要多元统计模型的扩展及局部影响分析 a b s t r a c t m u l t i n o m i a lp r o b i ta n dm u l t i v a r i a t ep r o b i tm o d e la r et w oi m p o r t a n ts t a t i s t i c a lm o d e l st h a th a v e b e e na p p l i e di nm a n yf i e l d s ,s u c h 弱i ne c o n o m e t r i c s ,b i o s t a t i s t i c s ,t r a n s p o r t a i o ns t u d i e s ,p s y c h i c s , m e d i c m ea n db e h a v i o rs c i e n c e i nt h ep a s td e c a d e s ,m a n ya u t h o r sh a v es t u d i e dt h et w om o d e l s ,a n d m a d et h e ma d v a n c e d f o re x a m p l e ,m n p f aa n dm p c f am o d e l sw e r ee x t e n d e dm o d e l sb y i n c o r p o r a t i n gf a c t o ra n a l y s i s t h i sp a p e ri sd e v o t e dt oe x _ t e n d i n gt h et w om u l t i v a r i a t es t a t i s t i c a lm o d e l sa n di m p l e m e n t i n g l o c a li n f l u e n c ea n a l y s i so ft h e m ,a n dt h ee ma l g o r i t h mi su s e dt oe s t i m a t ep a r a m e t e r so ft h et w o m o d e l sb a s e do nm a x i m u ml i k e l i h o o de s t i m a t e s i nc h a p t e r2 ,w ec o n s i d e rl o c a li n f l u e n c ea n a l y s i s , w h i c hi sw e l l r e c o g n i z e di m p o r t a n ts t e po fd a t aa n a l y s i s ,o fm n p f am o d e lb a s e do nt h et h e o r yo f s t a t i s t i c a ld i a g n o s i s t h e nw ec a no b t a i na s s e s s m e n to fl o c a li n f l u e n c ei nm i n o rp e r t u r b a t i o n so ft h e s t a t i s t i c a lm o d e l t h ea s s e s s m e n to fl o c a li n f l u e n c eo fm n p f am o & i si si l l u s t r a t e db yn u m e r i c a l s i m u l a t i o n s ,a n dt h er e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o di sf e a s i b l ea n ds t a b l e f o rf i t t i n gs a m p l e s w i t hl o n gt a i l s ,i nc h a p t e r3w ee x t e n dm n p f am o d e lb ya s s u m i n gt - d i s t r i b u t i o ne r r o ri np r o b i tf a c t o r a n a l y s i s t h em c e c ma l g o r i t h mi s u s e dt oe s t i m a t ep a r a m e t e r so ft h ep r o p o s e dm o d e l s t h e m e t h o d o l o g yi s i l l u s t r a t e dw i t hn u m e r i c a ls i m u l a t i o n s i nc h a p t e r4 ,w ep r o p o s em p c f aw i t h t - d i s t r i b u t i o ne r r o ra n dm a k em p c f am o & la p p l i e dm o r ew i d e l y , k e y w o r d s :m u l t i n o m i a lp r o b i t m o d e l ,l o c a li n f l u e n c ea n a l y s i s ,c o n f o r m a ln o r m a lc u r v a t u r e , m u l t i v a r i a t ep r o b i tm o d e l ,e ma l g o t i t h m ,m c e ma l g o r i t h m ,m c e c ma l g o r i t h m i 南京航空航天大学硕士学位论文 目录 第一章绪论1 i 1 研究背景l 1 2 本文主要研究工作3 1 3 预备知识3 第二章m n p f a 模型的局部影响分析6 2 1 引言6 2 2i 州p f a 模型6 2 3i i n p f a 模型的局部影响分析7 2 4 数值模拟:1 1 2 5 讨论1 5 第三章误差服从t 一分布的i n p f a 模型及m c 酬算法1 7 3 1 引言1 7 3 2 误差服从t 一分布的m n p f a 模型一t 删p f a 1 7 3 3 极大似然估计1 9 3 4 标准误差估计2 3 3 5 数值模拟2 4 3 6 讨论2 5 第四章误差结构服从t 一分布的m p c f a 模型3 0 4 i 引言3 0 4 2t 肿c f a 模型3 0 4 3 参数的极大似然估计3 l 4 4 讨论3 5 第五章总结与展望3 6 5 1 本文总结3 6 5 2 工作展望3 6 参考文献3 7 致谢4 0 在学期间的研究成果及发表的学术论文4 l 两类重要多元统计模型的扩展及局部影响分析 图表清单 图2 1 样本单元频数扰动模型的局部影响分析1 3 图2 2 潜变量扰动模型的局部影响分析1 4 图2 3 说明变量扰动模型的局部影响分析1 4 图2 4 未知参数扰动模型的局部影响分析1 5 图3 1 a 估计值对迭代次数的迭代图2 6 图3 2 从估计值对迭代次数的迭代图2 6 图3 3 从估计值对迭代次数的迭代图2 7 图3 4 此估计值对迭代次数的迭代图2 7 图3 5 。估计值对迭代次数的迭代图2 8 图3 6 自由度y 估计值对迭代次数的迭代图2 8 表3 1 各参数的极大似然估计值( m l e ) 和标准误差估计值( s e ) 2 9 南京航空航天大学硕士学位论文 第一章绪论 1 1 研究背景 我们先介绍本文所要研究的两类多元统计模型:多元p r o b i t 模型和多项p r o b i t 模型 ( 1 ) 多元p r o b i t 模型 元p r o b i t ( m u l t i v a r i a t ep r o b i t ,简记为m p ) 模型就在这一背景下产生【1 1 分析具有相关性二分数 用,元正态向量乙= ( z j i ,乃) 7 表示响应变量咋,乃和咋关系如下: = l ,孑三:,= , c 1 - , f ,矗、1 其中置为,k 阶协变量且五2 l砭巧j 嘞为吒1 阶协变量,后= 白+ 一_ ; b = 他,以) ,岛为屯1 阶未知参数向量;q 为,1 阶残差向量,且乞f in ( o ,) 两类重要多元统计模型的扩展及局部影响分析 p r o b i t 模型( m u l t i n o m i a lp r o b i tm o d e l s ,简记m n p ) 主要用来分析无次序分类数据,在生物 统计学、计量经济学和交通运输等方面有很多的应用们多项p r o b it 模型是根据概率选择理 论中的最大随机效应准则定义的,其分类变量用服从多元正态分布的潜在变量来表示假设有 n 个个体,每个个体可从p 个选项中进行选择,且设第f 个个体的多项观察变量 形= ( 形。,彤:,) 用潜在变量e = ( z 。,:,一。) 表示具体定义如下: 彤,:j ,( 虼 0 2 m a x t 虼) ) , 歹= 1 ,p 一1 , ( 1 3 ) 9 i( 虼o ,v k ) ,j = p , 和 鬈= 置+ 毛 ( 1 4 ) 其中,( ) 是示性函数;五是( p - d x k 的说明变量矩阵,是p l 维的固定效应,占是随机 误差,且服从n ( o ,甲) ,甲是。一1 ) ( p 一1 ) 的协方差矩阵由( 1 3 ) 和( 1 4 ) 式,我们可以 得到多项p r o b i t 模型的似然函数: ( ,甲) = n 兀矽, p 其中,乃是第i 个个体选择第歹项的概率,满足 o ,乃= 1 ,且有 j = l 嘞o cj e x p i 一寺( 一五) 、王,一( 乃一z ) l ,( 均 o ,耽= m a x y i k ) d y i 二 在对多项p r o b i t 模型的参数进行极大似然估计时,似然函数的表达式比较复杂且极难处理,所 以许多学者提出了很多估计方法,比如l e r m a n 和m a n s k i 1 0 1 、s t e r n 1 1 】、b o r s c h - s u p a n 和 h a j i v a s s i l i o u 1 2 1 和m c f a d d e n l l 3 1 提出的基于似然函数模拟估计的极大似然方法;a l b e r t 和 c h i b 1 4 1 、m c c u l l o c h 和r o s s i t l 5 1 采用g i b b s 抽样的贝叶斯方法;d i e b o l t 和i p 1 6 】的随机酬算法 以及n a t a r j a n 等人【】7 】的m o n t ec a r l oe m 方法 下面再介绍一下局部影响分析理论: 影响分析是统计诊断中十分活跃的分枝,其研究内容和方法近年来在不断地发展和开拓 从目前来看,影响分析的内容大致可分为两个方面引:第一,数据点的影响分析主要是研究 特定的某几个,特别是研究某一个数据点对于统计分析的影响这是影响分析初期研究的重点, 也是最有实用价值的部分第二,广义的影响分析主要是研究当模型有微小扰动时,对于统 计推断的影响通常可把扰动归结为与模型有关的若干具体因素所产生,如均值的漂移、方差 的扩大、自变量的改变等等广义的影响分析定量地刻划了这些扰动的影响,并提出度量影响 的统计量至于影响的刻划,似然距离受到很多统计学家的重视,因为它有明确的统计意义, 适用范围也十分厂“泛近年来,广义局部影响分析理论得到不断发展c o o k n 引建议从微分儿何 2 南京航空航天大学硕士学位论文 观点分析似然距离的变化,利用统计曲率来研究扰动的局部影响z h u 和l e e 2 0 1 对c o o k 的方法 进行了扩展,提出了通过条件期望定义似然距离的局部影响分析方法,并对含有缺失数据的广 义统计模型进行了局部影响分析 1 2 本文主要研究工作 本文对m n p f a 模型和m p c f a 模型进行扩展,并对m n p f a 模型进行局部影响分析,且相 应地给出了基于极大似然估计的e m 算法在第二章中,根据统计诊断中的局部影响分析理论, 我们对m n p f a 模型进行局部影响分析,这是数据分析中很重要的一步,进而可以得到模型的 微小扰动所产生的局部影响本章中,选取怎样的统计诊断方法对m n p f a 模型进行局部影响 分析是关键由于m n p f a 模型的似然函数含有较难处理的多重积分,常用的c o o k 局部影响分 析方法不适合本模型,所以本章采用z h u 和l e e 提出的通过条件期望定义似然距离的局部影响 分析方法对m n p f a 模型进行局部影响分析我们利用m c e m 算法得到模型参数的极大似然估 计值,并在此基础上进行局部影响分析数值模拟结果表明,本章对m n p f a 模型进行局部影 响分析的方法是有效的、稳定的本文第三章通过引入具有t 分布的误差结构,对m n p f a 模型 进行扩展,同时给出参数估计的m c e m 算法和数值模拟扩展后的m n p f a 模型应用范围更广, 不仅可以拟合一般样本,而且可以拟合尾部较宽的样本对扩展的m n p f a 模型而言,很难通 过直接计算得到模型参数的极大似然估计值,本章采用条件期望方法,运用m c e m 算法进行 参数极大似然估计,并给出模型参数的标准误差估计数值模拟结果显示本章采用的方法是合 理的、有效的在本文第四章中,将具有t 分布的误差结构运用到另外一个非常重要的模型 m p c f a 模型,使得m p c f a 模型的应用范围更加广泛第五章是文章的总结与展望 1 3 预备知识 1 3 1e m 算法 e m 算法是一种迭代方法,最初由d e m p s t e r 等人【2 1 1 提出,并主要用来求后验分布的众数 ( 即极大似然估计) ,每次迭代由两步组成:e 步( 求期望) 和m 步( 极大化) 一般地,】,为 观察数据,z 为潜在数据,也可以是“缺失数据( m i s s i n gd a t a ) ”, 称( 】,z ) 为完全数据以 p ( o l y ) 表示口的基于观测数据的后验分布密度函数,称为观测后验分布,p ( o i 】,z ) 表示添 加数据z 后得到的关于口的后验分布密度函数,称为添加后验分布,p ( zi 口, 表示在给定日和 观测数据】,下的潜在数据z 的条件分布函数我们的目的是计算观测后验分布p ( oiy ) 的众 数,于是,e m 算法如下进行记p ( ,是第什1 次迭代开始时后验众数的估计值,则第t + 1 次迭 代的两步为: e 一步:将p ( a i l z ) 或l o g p ( 8 i 】,z ) 关于z 的条件分布求期望,从而通过积分消除变量z , 3 两类重要多元统计模型的扩展及局部影响分析 即 q ( 口l 目( n ,y ) = e z ( g ( o ;y ,z ) i 臼,y ) = i l o g p ( oi 】,z ) 】p ( zl 口o ,r ) a z ( 1 5 ) m 步: q ( oio c n ,n 极大化,即找一个点口川,使 q ( o 1 9 ,】,) = r r l 黔q ( o i p ,l ,) , ( 1 6 ) 如此形成一次迭代口专口,将上述e 步和m - 步重复进行,迭代直至渺m _ o t t ) 0 充分小 或j i q ( 口l 口,y ) 一q p i o f t ) , y ) 充分小时停止 e m 算法的最大优点是简单和稳定e m 算法的主要目的是提供一个简单的迭代算法来计算 后验众数,人们自然会问,如此建立的e m 算法能否达到预期要求,就是说,由e m 算法得到 的估计序列是否收敛,如果收敛其结果是否是p ( 引y , z ) 的最大值或局部最大值下面两个定理 可以回答上面的问题:记l ( o iy ) = l o g p ( 0 iy ) , 定理1 :e m 算法在每一次迭代后均提高( 观测) 后验密度函数值,即 p ( o m i 功p ( o i y ) 定理2 - ( 1 ) 如果p ( p iy ,z ) 有上界,则( 口i 功收敛到某个r ; ( 2 ) 如果q ( o l 咖关于p 和妒都连续,则在关于l 的很般的条件下,由e m 算法得到 的估计序列口( 的收敛值矿是的稳定点 在大多数情况下,e m 算法保证收敛到后验密度函数的稳定点,并不能保证收敛到极大值点, 事实上,任何一种算法都很难保证其结果为极大值点较为可行的办法就是选取几个不同的初 值进行迭代,然后在各个估计值间加以选择,这可减轻初值对结果的影响【2 2 】 在e 步中有时要获得期望的显式是不可能的,即使近似也很困难,这时可用m o n t ec a r l o 方法来完成( 例如,本文的第二、三章) ,这就是所谓的m o n t e c a r l o e m ( m c e m ) 方法,即( 1 5 ) 式改为: e l - 步:由p ( z1 秒,y ) 随机地抽取m 个随机数毛,z 2 ,知, e 2 - 步:s + 算t 0 ( o l r - ) = 吉1 0 9 p ( 9 ;y ,z m ) m 篁t 由大数定律,当m 足够大时,亘( 曰f 口( ,y ) 与q ( oi 口n ,y ) 很接近,从而我们可以在m 步中对亘( pl 口“,】,) 求极大化在m c e m 算法中,收敛性的判断往往可借助图形来进行若经 过若干次迭代后,迭代值罔绕直线0 = 0 小幅波动,则可以认为算法收敛了此时,为增加估 计精度,可增加m 的值再运行一段时间,就可停止 另外,在m 步中极大化也可能得不到显式,这样便使得( 1 6 ) 式右端关于口求最大值十 分困难,此时可采用m e n g 和r u b i n l 4 0 提出的e c m ( e x p e c t a t i o nc o n d i t i o n a lm a x i m i z a t i o n ) 算 南京航空航天大学硕士学位论文 法,该算法保留了e m 算法的简单性和稳定性对参数p = ( 最,幺,吃) ,它将原先e m 算法中 c m l 步:解研h 1 = a r g m a x 品( q ,谚n ,碰d1 0 t o ) , c m i 步:解彰件n = a r g m a x 吐( 研件n ,雏i ) , 8 1 ,。o f + l l ( t ) ,碰o1 秒o ) , c m l 步:解醴“= a r g m a x 岛( 研h n ,碰:n ,眈ip o ) , 如此,得到口1 = ( 研件n ,醒h n ,秽1 ) 是e c m 算法下一步的开始值 设x 口( 。 1 ) ,y z 2 。) ,x 与】,独立,则称随机变量r = 了务i 服从自由度为万的f - m ,= 蒜叶争掣 其中,f ( x ,n ) 为t 分布的密度函数,刀为自由度;矽o ) = ( 2 万) 2e x p - x 2 2 ) 为正态分布 5 两类重要多元统计模型的扩展及局部影响分析 第二章m n p f a 模型的局部影响分析 2 1 引言 用来分析无次序分类数据的多项p r o b i t 模型( m u l t i n o m i a lp r o b i tm o d e l ,简记m n p ) 在 生物统计学、计量经济学和交通运输等方面有很多应用睁1 0 1 多项p r o b i t 模型是根据概率选择 理论中的最大随机效应准则,并用服从多元正态分布的潜在变量表示分类变量建立的为了估 计模型的参数,需要计算由似然函数推导出的多元正态象限概率( m u l t i n o r m a lo r t h a n t p r o b a b i l i t i e s ) 在计算上,多元正态象限概率不易处理,除非多元分布的维数小于五维或者 方差阵有特别的结构f 9 1 对复杂似然函数的处理,许多学者提出了很多的估计方法,包括由 l e r m a n 和m a n s k 1 0 1 、s t e r n 1 1 1 、b o r s c h - s u p a n 以及h a j i v a s s il i o u 1 2 1 和m c f a d d e n 1 3 】基于似然函数 模拟估计提出的极大似然方法( m a x i m u ml i k e l i h o o de s t i m a t e s ,简记m l e s ) ,a l b e r t 和c h i b 1 4 1 及m c c u l l o c h 和r o s s i 1 5 1 运用g i b b s 抽样的贝叶斯( b a y e s i a n ) 方法,d i e b o l t 和i p 16 1 的随机e m 算 法以及n a t a r j a n 等人【1 7 i 的m o n t ec a r l oe m 方法 z h o u $ - l i u 2 3 1 提出了用因子分析和协变量定义的m n p 模型,并显示它比n a t a r a j a n 等人1 刀 提出的模型更具有一般性为了得到模型的参数估计,采用m c e c m 2 4 】方法融入因子分析到m n p 模型,主要是两方面的考虑:一方面它扩展了m n p 模型,另一方面引入因子分析的因子系数体 现分类变量之间的相关性在计算上,对m n p f a 模型而言,m c e c m 算法很稳定、有效口4 1 局部影响分析是进行数据分析的一个重要步骤通过局部影响分析,可以识别出强影响点, 得到模型某一或某几个因素的微小扰动对统计推断的影响,进而得出一些有用的结论或对模型 进行合理的改进c o o k 1 9 1 提出的局部影响分析方法简单易行,且被实践证明非常有效,使得此 方法得到广泛应用但是就m n p f a 模型而言,似然函数含有极其难处理的积分,c o o k 的方法不 再适用于此模型z h u 和l e e 2 0 对c o o k 的方法进行了扩展,提出了通过条件期望定义似然距离的 局部影响分析方法,并对含有缺失数据的广义统计模型进行了局部影响分析本章运用z h u 和 l e e 的方法对m n p f a 模型进行局部影响分析 本章第二节介绍m n p f a 模型;第三节是m n p f a 模型的局部影响分析,给出了局部影响的曲 率度量和它的简洁计算公式,以及四个具体的扰动模型;第四节是数值模拟;最后给出结束语 2 2m n p f a 模型 假设有玎个个体,每个个体可从p 个选项中选择一项,且设第i 个个体的多项观察变量 彬= ( 形。,形:,) 用潜在变量r = ( r ,r :,一。) 表示定义多项p r o b i t 潜在变量模 6 南京航空航天大学硕士学位论文 = 她:嚣蕊l 岩,。1 泣l , 卜钿 , z ( 。;= 一n ( p 2 - 1 ) i n2 t r - 兰l ni 甲j 一丢喜( 乃一置一怛) 甲一( 乃一置一心) 一n q i n 2 万一n _ i n i l 一一l n 彳一1 刁 ( 2 3 22 2 智。 两类重要多元统计模型的扩展及局部影响分析 个开集岛( d ;口,c o ) 为扰动模型的完全数据对数似然函数,且存在嘞q 使得对任意的0 , k ( d ;口,矿) = k ( d ;p ) p ,口( ) 分别为o y e 于q ( o i 国= 研丘( d ;d i w ,绷, q ( o ,o jo ) = e l l c ( d ;0 ,动iw ,甸的极大似然估计,很显然疹= 否( o ) 本章采用z h u 和l e e 口0 1 定 义的似然距离: 石( 叻= 2 q ( 口lo ) - q ( 口( 叻l ( 2 4 ) 似然距离s = 尼( 国) 包含了有关扰动的主要信息,它随国的变化情况反映了扰动国对模型的影 响从几何上看,函数s = 厶( 叻表示了( n + 1 ) 维空间的一个n 维曲面,称为影响图,把方程 s = 尼( 国) 改写为参数方程的形式:7 ( 动= ( c o ,f o ( 国”影响图在缈= 扩处的变化率反映了 原模型对于扰动的敏感程度即某种扰动的局部影响定义y ( 国) 在国。处沿单位方向向量h 方 向的正则曲率为: c 名, 垒_ 2 乃窖扩h = - 2 h 。a 扩 伤( 句) _ 1 扩h ( 2 5 ) 其中。 率: 卯户a = 硎q ( 口l o ) l 鸣= 驾剖一 进一步,为了研究的需要,我们采用由p o o h 和p o o n l 2 5 1 提出的具有不变性的保形法正则曲 = 秽 ( 2 6 ) 取值于【o ,l 】令b = 石- 两2 0 。,a 乃 。为b 的r 个非零特征值,q 巳为相应的正 交特征向量m ( o ) :圭丑巳z 用来估计局部影响的大小,其e ge , 2 = ( q 1 2 ,2 ) z h ui g ll e e l 2 0 】 1 = 1 已证明对于= 1 ,m ,m ( o ) 的第j 个分量m ( o ) 刚好与b 的第j 个对角元素相等,于是 可以直接计算矩阵b ,从而获得它的对角元素,而不需要计算矩阵b 的特征值和相应特征向量, 进而避免了繁重的计算 为了计算矩阵b ,需要得到包( 旬,a 矿的解析式: 8 酶d 訾m l ( 2 7 ) 南京航空航天大学硕士学位论文 r 。:e l 矿 l l叫喊浏, 在计算( 2 7 ) 和( 2 8 ) 式的过程中,出现了极难处理的积分,为了解决这个问题,采用蒙特 卡洛数值逼近, 口”,z ”) ;历= l ,m 从联合条件分布p ( r ,z i 形,p ) 中g i b b s 抽样,( 2 7 ) 和 ( 2 8 ) 式的数值逼近为: 狮,击薹麴铲卜 , 小吉薹 为得到包( 旬的解析式,只需知道鱼考铲的具体解析式,而: 訾= 。国= 扩 a 嗡b 、a 嗡心。 a 2 厶( d ;口) 8 旧b a 2 岛( d ;p ) a a 扒 ( 2 1 0 ) 0 2 l 而c 矿( d ;o ) :一窆置甲一- 五, 一= 一, 丫 8 阳p 怠l 。 百02lc(d;o):一一一主嘞毛-,op:a 一= 一仃f , 7r z t t急 i o x l 汀c ( d 万;o ) :一露一t 妻z ,刁- , a 入i a 入。一且急一j 其中哆,= 器二三: 结合具体的扰动模型,扩的集体解析式将在下面部分中给出 2 3 2m n p f a 模型的四种扰动模型 当w 岬f a 模型的单元频数、潜变量、说明变量和未知参数发生扰动时,相应地得到以下四 种m n p f a 模型的扰动模型就每一种具体的扰动模型,本文给出a 扩的简洁解析式 2 3 2 _ 1样本单元频数扰动模型 在m n p f a 模型中,假设样本容量为母,但有n ( n m ) 种不同的样本,即有n 个样本单元, 两类重要多元统计模型的扩展及局部影响分析 0 2 l i c ( 石d ;一o , a ) :巧五- 甲一1 一x , p 一心)8 t i“ a2l磊c(d-;o,w):il,。一石jblx,溉-aj11 z ) z i a 入;8 1 ”删 j ”i a 2 l 丽c ( d - ;e , a o :一置甲一1 鸠 。 a 国; 1 訾听1 - a s 嘲 设s=s逆昂4为调整尺度的常量矩阵,与配同阶,邑c=l,p一, 1 0 南京航空航天大学硕士学位论文 为七,x l 维常向量,扰动向量c o = ( c o l q ) 则说明变量五经过扰动后变为 五( 功= 五十q s 除了常量以外,扰动模型的完全数据对数似然函数为: 一去( 弗一( 置+ 哆s ) 一 弓) 甲- 1 ( 乃一( 置+ 哆s ) 一人刁) 于是,对于f = 1o o 刀,歹= 1 ,p - 1 , 0 2 l c ( d ;o , c o ) :一置甲一1 s p o 局9 c o , c32lc(di;g,ca):呻,sj,bjzt0a。a i 埘川川 当模型的某几个变量同时扰动时,可以分别分析每个变量单独扰动时的局部影响,得到与 之对应的强影响点所有的这几个变量单独扰动时得到的强影响点就是这几个变量同时扰动时 的强影响点 2 3 2 4 未知参数扰动模型 给未知参数为q = ( ,人) 一个扰动国,则口变为p ( 缈) = ( ,a ) + u o ,扩= ( o ,0 ) 其中,u 为一个调整尺度的常量因子,使得u c o 与p 的维数保持一致1 8 1 ,这里取u 为对角阵【2 6 l 可以得到: 2 4 数值模拟 鲂= ( 等) 。( 舞搿 ( 等) 圳( 盟a o ( o ) 裟o o ( o ) 户 l 为了说明m n p f a 模型局部影响分析方法的正确性和有效性,本章做了一个模拟研究对于 本文定义的n 田w f a 模型,其中p = 7 ,k = 6 和q = 2 参数= ( 岛,6 6 ) 和a = ( 乃) ( s = l ,2 ,6 ,f = l ,2 ) 的真实值如下: = ( o 4 ,一o 5 ,0 4 ,一o 5 ,o 4 ,一o 5 ) 。, r - 0 5 - o 5 - o 5 一o 5 - o 5 0 5 1 2 【0 4 0 40 40 4o 40 4j 对于模型的识别性问题,甲被固定为单位阵,且= 0 7 i + 0 3 j ,其中,是2 x 2 的单位矩阵, ,是2 x 2 的元素全为1 的矩阵固定的说明变量 两类重要多元统计模型的扩展及局部影响分析 而= oo 0o o0 00 毛5 0 0 t 6 ,五l ,五2 ,五3 ,x j 4 ,而5 6 分别由 g a m r n d ( 1 ,1 ) ,g a m r n d ( 1 2 ,1 ) ,g a m m d ( 1 4 ,1 ) ,g a m r n d ( 1 6 ,1 ) ,g a m m d ( 1 8 ,1 ) ,g a m r n d ( 2 ,1 ) 分 布产生,f = l ,2 ,3 0 0 这样,我们产生了样本容量为3 0 0 的样本为了快速收敛,我们用 p ( o ) = ( 0 5 ,一0 6 ,o 5 ,一o 6 ,o 5 ,一o 6 ) , 人( o ) ,:卜6m 6 _ o 6 。0 石m 6 卸石1 l 0 5o 50 5o 5o 5 0 5 作为c e c m 算法的参数估计的初值 y ( ,z ( “;历= 1 ,m 从联合条件分布尸( 1 r ,zi 形,d 中g i b b s 抽样在执行m c e c m 算法过程中,进行5 0 次迭代,每次迭代进行5 0 0 0 次g i b b s 抽样 以下是得到的和a 的极大似然估计值: = ( o 4 11 - 0 4 7 30 4 3 0 0 4 5 00 4 2 9 0 4 51 ) r 0 4 9 8 - 0 5 2 4 0 5 2 3 0 5 1 8 0 5 1 6 o 5 1 6 、 ,一l i 10 4 1 60 4 3 7 0 4 3 20 4 3 00 4 3 00 4 3 6j 在以上结果的基础上,分别对样本单元频数扰动模型、潜变量扰动模型、说明变量扰动模型 和未知参数扰动模型进行数值模拟 ( 1 ) 样本单元频数扰动模型 在以上随机抽取的3 0 0 个样本的基础上,令如,邑。各出现3 次,五,如。各出现 5 次,五。,出现4 次,其余样本只出现一次,则样本容量变为3 1 9 统计可得,在这3 1 9 个样 本中有3 0 0 个不同的样本,即样本单元有3 0 0 个样本单元出现的频数为: 乃o = 砀9 = 3 ;= = 死8 0 = 5 ;乃4 9 = 2 ;乃= 1 ,f 5 0 ,9 0 ,1 4 9 ,2 0 0 ,2 4 9 ,2 8 0 如图2 1 所示,得到样本单元频数扰动模型的局部影响分析( 横坐标表示样本单元,纵坐标表示样本 单元j 的局部影响分析值m ( ,以下图2 2 ,2 3 同) 从图中可以看出,只有第5 0 ,9 0 ,1 4 9 , 2 0 0 ,2 4 9 ,2 8 0 个样本单元点的局部影响值相对较大,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论