已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 两正态与多正态分布的参数估计问题是统计中的经典问题人们很早也就开始了对 它的研究两正态与多正态分布数据在很多领域有着广泛的应用例如,生物学、物理学、 医学、经济学等 参数估计问题是最常见的一类统计推断问题参数估计的形式有两种:点估计和区间 估计其中点估计指的是用一个统计量去估计未知参数的方法点估计的方法很多,最常 用也是最重要的有两种,一是极大似然估计另一个是矩估计e m 算法是不完全数据问题 中很常用的一种迭代算法,并主要用于计算后验分布的众数f 极大似然估计) 在实际的统计应用中,为分析完全的矩阵型数据已经发展了许多标准的统计方法传 统上,在数据矩阵中,每个矩阵元的位置上均有实际数据,他们表示的大部分是连续变量 的值,如年龄收入等而很多时候某些量是无法观测的有时候观测到的数据也会部分遗 失这时候我们就必须面对数据缺失问题本文运用e m 算法的基本思想,并对传统的e m 算 法进行了一定的改进对缺失数据下两正态混合分布的参数进行了估计 本文主要内容可概括如下 第一部分: 概括了两正态与多正态分布的参数估计问题的发展状况以及应用价值介绍了数据缺失 问题以及我们要做的工作 第二部分: 回顾了e m 算法的基本理论以及主要步骤,介绍了人们针对它的推广如e c m 算法、e c m e 算 法和a e c m 算法以及这些推广所针对的问题 第三部分: 运用e m 算法对完整数据下两正态混合分布的参数进行了估计然后用我们改进后的新e m 算 法对缺失数据下两正态混合分布的参数进行了估计 第四部分: 用m 灯l a b 编程进行数据模拟检验估计的性质 关键词:缺失数据;e m 算法;混合正态分布;极大似然估计;潜在数据 i 基于缺失数据的两正态混合分布的参数估计 p a r a m e t e re s t i m a t i o no ft h em i x t u r eo ft w _ o上a r a m e t e r _ l 王s t l m a t l o nu t 。上。n e 上v l l x t u r eu t 。上w _ o n o r m a ld i s t r i b u t i o n so fm i s s i n gd a t a a b s t r a c t t h ep r o b l e mo fe s t i 玎1 a 七i o no ft h ep 缸铷n e 七e r so ft h em i 】c t l l r eo f 细oo r 蜘o r en o r i n a l ld i s - t r i b u t i o ni sat r a d i t i o n 出p r o b l e mi n8 t a t i s t i c 8 f b ml o n gb e f b r ew eh a 她s t a r t e dt or 鹤e a r c hi t t h eo c c l l r r e n c eo f8 锄p l ed a t af o r 尚c ht w oo rm o r en o r m a l lp o p l l l a t i o n 缸em 议e di sp r e v m e n t i n 嫩哪a r e 鹪o fa p p l i c a t i o n ,8 u c l l 嬲b i o l o g y p h y s i c s ,m e d i c i i l e ,a n de c o n o i l l i c s t h ep r o b l e mo fp 缸a l e t e re 8 t 血a t ei 8o n eo ft h em o s tf a i n n i 盯p r o b l 眦i ns t a t i s t i c mi 血卅 e n c e t w ok i n d so ff 0 鼬a t 沁l u d e di i lp a r a m e t e re s t i 】阻a t e :p 血l te s t i m a t e2 l i l di n t e r v 础e s t 妇a t e , p o i n te 8 t 谊i a t ei 8am e t h o d 、他记hu 舱as t a t i s t i ct oe 8 t i l a t et h ep 8 r a m e t e r t h e r e8 r em a l i l yk i n d & o fp o i n te s t i m a t e ,i n 恤c ht h em o s ti n l p o r t a n tt w ok i n d s 啪m e t h o d0 fm o m e n t 8a n dm 嬲衄吼 m 【e l i h o o de s t i 】n a t i o n e ma 1 9 0 r i t l u ni j sai t e r a t i v em e t h o di i lc o m m o nl l s eo fi n c o m p l e t i o nd a t a i ti 8u s e df b rc a l c u l a t i n gt h ep 0 8 t e r i o rm o d e ht h ea p p l i c a t i o no fs t a t i s t i c s ,t h e r ea r em 粕ym e t h o d 8i n8 n a 妙s i 8 s i n gt h ed a t ao fm 跏 t r i ) ( f o r m a t n a d i t i o n 出l yi 1 1t h ed a t am a t r i ) ( ,e a c hm a t r i ) 【e 1 锄e n t sh a t h ea c t u md a t a t h e y 1 坞u a l l yr 印r e 8 e n tc o n t i i m o l l s 、,乏盯i a b l e f b re x a m p l e ,a g e0 ri i l c o m e s o m ev 跚i a b l 嘲c 缸n o tb e o b s e r 、,e db e 拥r e e nt i m 皤a n dt h ed a | t aw | h i c hh a v eb e e no b 眈e dm i g :h :tb em i s s e d a tt l l i st i n l e w em u 8 tf a c et h ep r o b l e mo fm i 8 s i n gd a t a i nt 1 1 i sp a p e r ,w eu 8 et h eb 嬲i ci d e ao ft h ee ma l g 争 r i t l m ,p l 】tu pac e r t 啦d e g r o f 如叩r o 、陀m e n tt ot h et r a d i t i o n 址e ma l 舀d r i t 虹,a n d 铅t i m a t e t h ep a r 彻n e t e r so ft h em i ) ( t u r eo f 佃mn o m 8 ld i s t r i b u t i o nb 鹪e dm i 8 咖gd a t a i nt h i sp a p e r ,t h ec o n t e n tc a nb es u m m 缸溉d 舾f 0 u 昭: t h e 丘r 8 tp a r t :飘瑚啦缸i z i n g 戗圯t h ep r o b l e mo f 镬;t i m a t i o no ft h ep a r 铷:n e t e r 8o ft h em i x t l l 】呛o f 佃oo rm o r en o 唧丑出【i s t r i b u t i o na n di t 8a p p h e d d u e i n t r o d u c i n gt 上屺p r o b l e mo fm i s s i n gd 8 土a a n dt h ew r o r kw ew i l ld o t h e8 e c o n dp a r t :r e c a u i n gt h ee ma l g o r i t h m 8b 鹪i ct h e o 巧a n dm a j o r8 t 印8 i n t r o d u c i n gt h e p r o m o t i o no fm e t h o d ,s u c h 嬲e c ma l g o r i t h me c m ea l g o r i t h ma n da e c ma l l g o 毗h m ,嬲碳m a 8t h 0 8 et a r g e t e db yt 上l ei 8 8 u eo fp r o m o t i o n t h et h i 旧p a r t :w 宅u 8 e de ma l g 呲h mt o 箦t i m a t et h ep a r 锄e t e r so ft h em i ) c t u r eo ft w on o r m a l 出s t r i b u t i o nb a dc 0 瑚【p l e t e n 朗8d a t a ,a n du s e dn e we m :a l l g o r i t h 】咀t oe s t i m a 七et h ep a r a l i n e t e r s o ft h e 皿由曲u t eo f 恫r on o r m a ld k t r i b u t i o nb 嬲e d1 1 1 i 8 8 i n gd a 七a t h ef o u r t hp a r t :t e 8 t i n gt h ee 8 t i m a t o rt h o u g hd a t as im _ u l a t i o nb yp r o g r 锄衄血go fm a t l a b k e ”m r d s :t h ed 1 i s s i n gd a t a ;e ma 岵o r 讹h m ;g a 瑚s i a j ln l i 妣u r e ;m a x i m l u nl i l l i h o o de 8 t i - m a t e ;t h ep o t e n t 试d a t a i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行 的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和 致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果, 也不包含为获得大连理工大学或其他单位的学位或证书所使用过 的材料。与我一同工作的同志对本研究所做的贡献均已在论文中 做了明确的说明并表示了谢意。 作者签名:啦日期:竺兰箜二生! :o 大连理工大学硕士研究生学位论文版权使用授权书 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士:博士学位论 文版权使用规定 ,同意大连理工大学保留并向国家有关部门或机构送交学 位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可 以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、 缩印或扫描等复制手段保存和汇编学位论文。 作者签名:墨兰堕鎏 导师签名:丛锰渔 导师签名: 岔! 醚盘缨 3 1 大连理工大学硕士学位论文 己l言 丁l 口 两正态与多正态分布的参数估计问题并不是一个新问题一般情况下,混合被定义为 下面密度函数的组合: 七 ,( z ) = 鼽( z ,地,砖) 扛:o 一。 z o o 鼽 1 ,纯= 1 i = 0 其中,仕,“,盯2 ) 是均值为肛,方差为盯2 的正态分布的密度函数阢是混合正态的第i 个正态分 布的系数而后是正态分布元素的个数 通常忌看作是未知的而对于庇:2 的问题早在( 1 8 9 4 ) k a r lp e 盯8 0 n 就用矩方法进行了研 究,发展到现在,理论与经验都告诉我们,极大似然法( m l e ) 明显优于矩方法尤其当高速 计算机时代来临以后研究者更把关注点转移到用极大似然的方法来估计混合正态分布 的参数c r 于1 9 4 8 年用似然的方法对南= 2 ,c r l = 盯2 的情景进行了研究d a y 于1 9 6 9 年 在蠡:2 的情况下,分别用极大似然方法、矩方法、最小x 2 方法、以及b a 渺方法,对混合正 态分布的参数进行估计,并得出结论,极大似然方法方法是优于其他方法的而在实际的 统计应用中,我们也会经常遇到两总体问题,在实际生活中与性别有关的统计问题中就会 有基于不同性别的两个总体在特殊情况下我们当然可以将问题分解为两个小问题来处 理但是在实际问题中我们很可能不知道我们的抽样来自哪一个总体,或者说标识总体的 量是缺失的( 如上面提到的性别缺失) 因而我们寻找一些直接的解决两总体组合问题的 办法是必要的对于一般的不带数据缺失的两正态分布混合的参数估计问题已经有了详 细的研究( e d w a 砸b f o w 】k e 8 ,1 9 7 9 ) 为分析完全的矩阵型数据已经发展了许多标准的统 计方法传统上,在数据矩阵中,每个矩阵元的位置上均有实际数据,他们表示的大部分是 连续变量的值如年龄收入等而很多时候某些量是无法观测的,有时候观测到的数据也 会部分遗失这时候我们就面对数据缺失问题目前数据缺失条件下混合正态分布参数估 计问题还没有一个完整而系统的研究,本文针对取自两正态总体的组合的数据缺失模式 下的数据对两个正态总体的均值进行了估计 e m 算法是不完全数据问题中用于m l 估计的很通常的一种迭代算法,主要用于求解 验后分布的众数,但事实上,e m 算法进入问题的范围非常的宽,且包括通常不认为涉及 缺失数据的一些问题的m l 估计,如方差分量估计,因子估计它的每一步迭代由两步组 成:e 步( 求期望) ,m 步( 极大化) e m 算法最早是m c k e n 幽出( 1 9 2 6 ) ,在一个医药应用中考虑 到它h a r t l e y ( 1 9 5 8 ) ) 考虑了记数数据的一般情况,相当广泛的发展了这一理论,在其中可 以看到很多关键的想法,b a u m 等( 1 9 7 0 ) 在一个马尔可夫模型中使用了这一算法,在这一情 况下证明了关键的数学结果,这些是很容易推广的o r c h a r d 和w - o o d b e r g ( 1 9 7 2 ) ,第一个说 明了这些基本想法的广泛应用,把它称为c 缺失性质准则”s 衄d b e r g 清楚的考虑了一般似 l 基于缺失数据的两正态混合分布的参数估计 然方程的性质,而b e a l e 和w ,0 0 d b u 珂进一步发展了正态模型的理论,他们的工作展示了这 一算法的充足的普遍性,其工作有( 1 ) ) 证明了该算法行为的一般结果,特别是每次迭代增 加似然f ( 秽l ) ( 2 ) ) 提供了广泛的例子1 9 7 7 年以后有许多e m 算法的新应用,同时在收敛 性质上有了进一步的工作( w u ,1 9 8 3 ) e m 算法有很多推广,但是推广多用于解决( 1 ) 缺失 信息比例过大,它收敛速度可能过慢( 2 ) 在某些问题中,m 步是困难的,从而e m 理论上的 简单性不能转化成实际的简单性如e c m 算法避免一个迭代的m 步,在每次e m 迭代中增 大q 函数,而不是极大化它它比e m 算法有更广泛的应用,并享有它希望的收敛性质而 实际上m 步等同于完全数据处理,往往还是比较简单的而很多期望却是很难计算甚至是 无法计算的,本文主要针对我们的问题对e m 算法的e 步进行了一定的改变,不再机械的按 照e m 算法的步骤进行计算,而采取一定的变动后的新e 步得到最后的迭代式并希望通 过数据模拟来检验估计效果的好坏 2 大连理工大学硕士学位论文 1e m 算法及其推广理论回顾 1 1e m 算法 在统计领域里主要有两大类计算,一类是极大似然估计的计算,一类是b a y e 8 计算,从 计算方法上来看二者是一致的,因为极大似然估计的计算类似于b a 卵8 方法中后验众数的 计算b a y e 8 计算方法已经有很多,大体上可以分为两大类:一类是直接应用于验后均值或 验后众数的估计,以及这种估计的渐近方差或其近似,如定积分的统计模拟计算等,只能 应用与比较简单的验后分布;另一类算法称为数据添加算法,这是今年来发展很快应用很 广的一种算法,它不是直接对复杂验后分布进行极大化或进行模拟,而是在观测数据的基 础上加上一些“潜在数据”从而简化计算并完成一系列简单的极大化或者模拟,该c 蜡在 数据”可以是t 缺失数据”或者未知数据其原理可表述如下:设能观测到的数据是y ,p 关 于y 的验后分布是p 蚓y ) 很复杂,难于直接进行各种统计计算,假如能假定一些没有观测到 的潜在数据z 为已知,则可能得到一个关于口的简单的添加验后分布p 蚓y ,z ) ,利用p ( 口i y , z ) 的简单性可以进行各种统计计算,如极大化、抽样等,然后又可以对z 的假定做检验或 者改进。这样就将一个复杂的极大化或者抽样问题转变为一系列简单的极大化或者抽样 e m 算法是一种常见的数据添加算法 e m 算法是一种b o e s 计算方法,也是一种数据添加算法它不是直接对复杂的后验 分布进行极大化或者进行模拟,而是在观测数据的基础上加一些t 蜡在数据”,从而简化计 算并完成一系列简单的极大化或者模拟该“潜在数据”可以是t 缺失数据( m i s s i i 培d a t a ) ”或 者未知参数 具体的说e m 算法是一种迭代方法,最初由d m p s 亡e r 等提出,并主要用来求后验分布 的众数( 即极大似然估计) ,它的每一次迭代由两步组成:e 步( 求期望) 和m 步( 极大化) 一般用三蚓y ) 表示基于观测数据y 的后验分布密度函数或者似然函数,称为观测后验分布 l 蚓z ) 表示添加数据z 后得到的后验分布密度函数,称为添加后验分布p ( z 限y ) 表示在 给定p 和观测数据y 条件下潜在数据z 的条件分布密度函数我们的目的是计算观测后验 分布l y ) 的众数,于是e m 算法按照如下步骤进行记吼为第t 十1 次迭代开始时的后验众 数估计值。则第i + 1 次迭代分如下两步进行: b 步:对l i l l 蚓z ) 关于z 的条件分布密度函数p ( z i 吼,y ) 求期望,从而把z 积掉,即 q ( 纠魄)全e ( 1 nl ( p i z ,y ) l 仇,y ) = 1 nl ( p i 互y ) p ( z i 吼,y ) 凹 jz 即1 i l p ( 口i z ,y ) 在分布p ( 岛,y ) 下的期望。 肛步:函数q 关于p 求极大值得到吼+ l ,迭代直至:l i 巩+ 1 一侠i l 或旧( 侠+ l l 巩,y ) 一q ( 巩i 吼,y ) i | 充 分小为止 3 基于缺失数据的两正态混合分布的参数估计 1 2e c m 算法 在许多重要的应用中,m 步没有一个简单的计算形式,即使完全数据来自指数族这 种时候一个途径是避免一个迭代的m 步,在每一m 步中每次e m 迭代增大q 函数,而不是极 大化它g e m 算法就是这样在每一次迭代,g e m 算法增加似然,但缺少进一步的增大q 函 数的过程的细节,不能保证适当的收敛性e c m 算法是g e m 算法的子类,比e m 算法有更 广泛的应用e c m 算法用一系列s 个条件极大化步来代替e m 的每一m 步称为c m 步,它每 次对p 极大化q 函数,并同时将某个p 的向量函数乳( p ) 固定在它的前一个值上 1 3e c m e 算法和a e c m 算法 e c m e ( e ) c p e c t a t i o n c o n d i t i o n mm a 妯旺z a 七i o ne i t h e r ) 算法替换e c m 的某些c m 步,极 大化受约束的期望完全数据对数似然函数这一算法享有e m 和e c 埘眄者的稳定单调收敛 性以及相对与较快的收敛方法,其实现的基本的简单性并且不管从迭代数还是实际计 算时间衡量e c m e 能有一个比e m 和e c m 两者实质性的快速的收敛速度 a e c m 算法是在e c m e 想法的基础上建立的,对应于如何构造缺失数据的各种定义, 在特别的c m 步,极大化一些与q 和l 不同的函数,和e c m e 一样,a e c m 也能产生很高的计 算效率 另外还有很多e m 的加速算法例如,p x - e m 算法混合极大化方法等不过这些推广 多针对m 步以及增大收敛速度,而本文主要针对e 步进行推广 4 大连理工大学硕士学位论文 2 两多元正态混合分布的参数估计 2 1总体分布与符号说明 两个而正态总体历一n ( p 1 ,仃 昂) ,玩一n ( p 2 ,砖易) 其中仃 司,易为p 泮位矩阵对 已知的e ( 参) 一s 所忡叫慨 由正态分布的性质我们知道x ,y 为正态随机向量,设x ,y 维数分别为r ,口,则显然 有7 + 口= 节,且有: x 一日1 x + ( 1 一) 飓x ,y s 日1 y + ( 1 一e ) 岛y 其中日1 x ,玩x ,日1 y ,日2 y ,的均值分别为:p l x ,肛2 x ,p l y ,p 2 y 并且, 舻( = 卜= ( 等) , 设皿,日2 的密度函数分别为: ( 。,p 1 ) ,尼( 。,可,p 2 ) 记e 为真实参数空间,9 ( 埘为迭代 第七+ 】步开始前参数的估计值 2 2两正态混合分布的参数估计的e m 算法 关于两正态混合分布的参数估计,前人已经做了很多工作尤其是f e d 眦db f o w l k 朗 ,1 9 7 9 1 对各种方法进行了总结,本文采用e m 算法对无数据缺失下的两正态混合分布的均 值进行估计,并以此作为数据缺失条件下参数估计的基础为了推广的方便,我们将( x ,y ) 分 开处理,而实际如果仅就数据无缺失考虑的话,是没有必要这么做的 引入添加变量z z 取1 表示( x ,y ) 取自风一n ( p l ,盯 昂) ,z 取。表示( x ,y ) 取自日2 一n ( p 2 , 砖易) ,则显然有z 的概率分布为: z = 呈, 定理2 1 设z ,剪已知,励上述随机变量,则 岛( k ) ( 2 n 九( z ,可,z ) l z ,) ( 垫血垒:型! 些1 2 垫兰) 垒:型! 些笠! ) 兰( 垫是鱼! 堑! 丝2 垫f ! = 生) 盘垒:型! 丝釜! ) ( ! = 虫 一 ( z ,可,p ,) + 庀( z ,! ,p 笋) ( 1 一) 证明:设x ,y ,z 的联合密度函数为:危( z ,矽,z ) ,则因为有, 危( z ,i z = 1 ) = ( z ,暑,p 1 ) , ( z ,秒i z = o ) = ,2 ( 。,可,比) 故x ,y z ,的联合密度为: h ( z ,暑,z ) = ( z ,可,p 1 ) z 厶( z ,y ,p 2 ) 1 一名z ( 1 一) 1 一孑 5 基于缺失数据的两正态混合分布的参数估计 显然有: h 九( z ,暑,名) = z l n ,耖,p 1 ) + ( 1 2 ) 1 n 丘( z ,p 2 ) + 名l i l + ( 1 一z ) l n ( 1 一e ) 下面我们首先计算z 关于x ,y 的条件分布 从而有: 酬旧沪丽群篇 酬z 砒沪而孤喾燃而 酬撕,= 面而喾燃b 而 岛( k ) ( z 住九( 。,暑,z ) l z ,可) = ( 1 n ( z ,暑,p 1 ) + l i l ) 岛( k ) z + ( 1 n 丘( z ,耖,p 2 ) + 1 n ( 1 一e ) ) e ( 1 一z ) 一f 垫血( 兰! 型! 丝1 2 ! 翌兰2 f 竺! 型:丝竺! ! 三( 堡垒( 兰! 堑! 丝2 垫! = 兰21 盘( 兰! 型:丛尘( ! 二生 一 g ( z ,剪,p p ) + 丘( z ,p ) ( 1 一s ) 下面我们用e m 算法得到参数的估计迭代式由定理3 1 我们有, q ( e i e ( 舢,玩。,。) = 岛( - ) ( f 佗危( 瓤,耽,历) l 豌,犰) 一垫f 堕! 丝! 些! ) 盘! 垫! 丝! 些i 竺! ! 三垫盘( 墨! 丝! 些至! 盘( 堕:丝! 丛尘( ! 二盟 鲁纠h ( 反,鼽,p i 七) + 如( 戤,鼽,p ) ( 1 一) 斗垫兰f 墼! 丝! 些i 竺! ! 兰垫( ! 二盟盘f 堕! 丝:碰尘( ! 二璺 乞 ( 嗣,玑,p ) + 丘( 规,玑,肛) ( 1 一) 上式中的第二部分即 垫三盘f 墼! 丝! 些生2 兰垫( ! 二三) 盘( 垒! 丝! 鹾12 f ! = 生 台e ( 甄,瓠,p p ) + 丘( 孔,珑,谬) ( 1 一) 6 口 与参数e 无关,因而我们只需要极大化q 1 , q 1 ( e i e ,。,) = 砉咝訾测辩嚣搿喾产台 ( 巍,犰,p 娑) + ,2 t ,瓠,心) ( 1 一) o ( 1 z l ( 而。) 一p 一去( 戤一p t z ) 7 ( 翰一p 。) 一去( 玑一肛) 7 ( 犰一p 掣) ) 生! 兰:竺:竺竺:2 三 2 备百百磊阿万丽( 1 一e ) + 佗 扛= 0 熟一二壹堕二型! ! 坠竺:堂兰:o 批1 z 一缶s ,l ( 兢,班,p l 七) + ,2 ( 甄,玑,p ) ( 1 一e ) 我们记 群南);( ( 翰,们,p p ) ) ( 戤,执,p p ) + ,2 ( z t ,犰,p 字) ( 1 一) ) = 盯产e 印( 一去 一弘嚣) 协一p 霪) ) e 印( 一去( ! ! 一p 譬) 协一p 警) ) 盯r e 印( 一刍p 一肛辫) 怡一p 粤) ) e 印( 一去 一p 髫) 铀一p 髻) ) + 矿e 印( 一去( z 一趔) ,( z 一趔) ) e 印( 一去( 掣一肛若) ,( 秒一p 磐) ) ( 1 叫 则有 同理可知 p 譬1 ) = 巧动观巧叼 诂:0t = 0 完全类似的令, 玉七) :( 龙( 甄,犹,谬) ( 1 一) ( 纠气( 戤,耽,p p ) + 龙( 戤,耽,p 笋) ( 1 一e ) ) = 町p e 印( 一去 一p 婴) 一p 磐) ) e 印( 一刍( y 一础) b p 若) ) ( 1 一e ) 盯,唧( 一去( z p 婴) ,( z p 骱e 印( 一去( 一p 留) ,( 一p 跏 + 矿e 印( 一去( z 一趔) ,( z 一趔) ) e 印( 一去( 一p 缪) ,( 一p 跏( 1 一) 则有 n n p 譬1 ) = 9 5 七戤口5 知 i = 0 i = 0 7 砷 斟。 n 铷 班 砷 烈。 n 渤 = d 可正 基于缺失数据的两正态混合分布的参数估计 同理可知 n仃 p 铲d = 9 5 ”饥口5 砷 缸:ot = 0 2 3基于缺失数据的两正态混合分布参数估计的e m 算法 下面我们给出缺失数据的两正态混合分布的参数估计,设观测值为:( 其中,- c 代表数据 缺失1 ( 誊) ,( 盖) ,( 乏) ,( t + 1 ) ,( ) ,( 乏+ 。) ,( 曼) 引入添加变量z z 取l 表示( x ,y ) 取自皿一n ( 弘1 ,盯 易) ,z 取。表示( x ,y ) 取自玩一n ( p 2 , 程昂,则z 的分布为:z = :一 设x ,y ,z 的联合密度函数为:九( z ,秒,z ) ,则因为有, ( o ,耖1 名= 1 ) = ( z ,p 1 ) ,危( z ,l z = o ) = 办( z ,p 2 ) 故x ,y ,z ,的联合密度为: ( z ,可,z ) = ( z ,耖,p 1 ) z 丘( z ,y ,p 2 ) 1 一= 矿( 1 一) 1 一,则显然有 i n 九 ,秽,z ) = z l n ,p 1 ) + ( 1 一z ) h 允0 ,拶,弘2 ) + z l n + ( 1 一z ) l n ( 1 一) 记9 为真实参数空间,e ( 七) 为迭代第七+ 1 步开始前参数的估计值 我们在用e m 算法处理我们的问题时,面临两部分添加变量,一部分是我们引入的z , 另一部分就是缺失的数据由于在e m 算法的e 步中要分别对这两部分变量的条件分布求 期望于是下面我们首先计算z 关于x y 的条件分布 酬肚。m = 丽嚣恻麓赫, p e ( “肚l i 五2 丽孤蟹绻毓,l 【z ,暑,肛i 7 j 十,2 【z ,暑,肛八l s j 从而有: “引五聊= 丽砑铎拦e ,1 【z ,3 ,p i ,十如【z ,弘声崆八l e , 下面我们用e m 算法得到参数的估计迭代式 q ( e l e ,y 曲。) = 马( 埘( 局( 埘( z 佗 ( 瓤,玑,忍) i 魏,耽) ) = 马( ”( 马( 耐( z 竹 ( 筑,挑,忍) i 甄,玑) ) 上式求和号里要求两次期望,我们首先考虑内层的条件期望 五0 ( k ) ( :n ( z ,y ,z ) i z ,) = ( 1 i l ,! ,p 1 ) + l i l ) 岛( 女) z + ( 1 i l 尼 ,可,p 2 ) + l n ( 1 一e ) ) e ( 1 一z ) 一( 垫( 篓:堑:垡1 2 垫三2 垒! 堑! 丝i 竺2 曼f 垫盘( 兰! 堑:丝2 ! 呈( ! = 三2 2 盘垒! 型:丛2 2 f ! = 生 一 g ( z ,暑,p p ) + 厂2 ( z ,可,p 乎) ( 1 一) 8 大连理工大学硕士学位论文 故 q ( e l e v “,o 妇,圪加) t l 2 啄砷( 2 砒 “引陋幻鳓) 一虽e 。、【堡血( 堕! 丝:些! ! 垫三2 盘( 垒! 丝! 丝竺! ! 曼! ( ! 二生 2 备佧丽磊习町五百五翁鬲 + 霎跏,掣薏绻篝嬲胖 + 耋。跏,蒜警特黜蹦篙 + ;未,鼍惹眷甓兰胖 + ;耋。,蓑麓啭畿黯麓 + 未。,鼍惹巷篙篆辫 = 薹跏,必端豢辫蓑麓背产 十;喜。,啦蠕烹辩蓑裂栏产i :n 】+ 1,l p i ,玑,p i j 十,2 【观,玑,肛立八上一纠 + ;奎。,必必端豢籍篙警铠产t = n 2 + 1e ,1 【z t ,犰,p ij 十,2 l o t ,玑,p 八上一j + 砉跏,蚴意豁鞘意糍艘尸 上式中的第四部分即: 娄跏,垃意糍书意精艘尸 与参数e 无关因而与q 的极大化也没有关系因此我们只需要极大化前三部分,按照传统 的e m 算法,我们首先应该将添加的墨,m 积掉,由于表达式分母中有五,k 的项,因此这将 是一个很困难的问题,本文中不再机械的按照e m 算法的传统步骤,而在e 步中采用抛弃分 母的近似算法,并通过极大化改变后的新函数来得到参数的估计新函数用q 1 表示我们 9 基于缺失数据的两正态混合分布的参数估计 有: q 1 ( e i e ( 射,。,) = 岛( ”l i l ( 鼢,玑,肛1 ) ( 筑,犰,肛p ) s + 岛( k ) l i l 厶( 兢,玑,p 2 ) ,2 ( 戤,玑,弘字) ( 1 一) t = 0 = 岛( 砷l i l ( 甄,轨,p 1 ) ( 瓤,轨,p ) + ( 1 一) 岛( ”l i l ,2 t ,犰,p 2 ) 龙( 玩,犰,p ) 我们注意到,q 1 的和式中有两项,分别为; e 岛( t ) l i l ( ,犰,p 1 ) ( 兢,玑,肛p ) i = o ( 1 一) 岛( 砷l n 龙( 戤,耽,p 2 ) 如( ,犰,谬) 他们又分别为肛l ,p 2 的函数并且只是p 1 ,p 2 的函数,于是我们可以分别极大化每一部分得 到p 1 ,p 2 的估计 令 n q 2 ( p l i e ( 扪,y 西。) = 岛( 砷l i l ( 戤,玑,p 1 ) ,1 ( 兢,鼽,p p ) , = 0 q 3 ( p 2 l e ( 触,。) = ( l n ( 瓤,犰,p 2 ) ( 如,犰,弘乎) 缸:0 于是问题转化为求q 2 ,q 3 的极大值点下面我们求q 2 的极大值点 q 2 ( p l i e ( 扪,。,。) = ( t ) 1 n ( 甄,饥,p 1 ) ( 耽,玑,p 子) t = o = ( - ) l i l ( 戤,弘,p 1 ) ( 甄,玑,p p ) + ( - ) l n ( 甄,执,p 1 ) ( 戤,执,p p ) 扛:0扛=nl+1 + ( 姊1 1 1 ( 戤,瓠,p 1 ) ( 甄,玑,p p ) i = n 2 + 1 = 1 1 1 ( 甄,执,p 1 ) ( 毛,耽,p 乎) + ( t ) ( 1 1 1 ( 以,觚,肛1 ) ( 矗,瓠,p p ) i 戤) t=0扛=n1十l + ( 的( 1 ( 以,肌,p 1 ) ( 戤,玑,肛乎) i 犰) 由于q 2 ,q 3 的形式完全类似,因而我们只对q 2 极大化,得到弘1 的估计类比着可以得 到肛2 的估计在推导过程中两个期望展开的计算尤其重要,我们首先引入下面的定理 1 0 大连理工大学硕士学位论文 定理2 2 诎已知,一臌机变量,分那。如上所述,则 ( * ) ( 1 n ,vp 1 ) ,r 肛p ) l z ) = ( ( 而1 ) 呻( 以) 一口e 印( 一去 一p 婴) 7 一p 婴) ) ( 1 i l ( 而- ) 呻一去( z 一阢) ,( z 咱沪去( 眦一p 鼽胁一p 髫) 一等) ) + ( 1 一e ) ( ( 而1 ) - p e 印( 一去。一p 婴) 7 一p 兽) ) ( 1 i l ( 苏盯) - p 一去( z p 1 ) 7 徊一p 1 互) 一鼎啼功一辩以一餐小丽,口 一竿一三学州盟挈箬塑, 证明: ( 。) ( 1 l l ,kp 1 ) ,p ) l z ) = ( 。) ( 岛( 。) ( 1 i l ,k p l ) ,e p p ) i z ,名) ) = ( 。) ( 1 1 1 ,e 肛1 ) ,k p 子) i z ,名= 1 ) p ( z = 1 ) + ( 。) ( 1 1 1 0 ,r p l ) ,k p p ) i z ,z = o ) p ( z = o ) = g ( e ( 瓜叫呻e 印( 一刍( z 一肛婴) ,( z 一肛骱唧( 一刍( 一p 夥) ,( 可一p 警) ) ( 1 n ( 扼砚) 呻刍( z 一鼬) 怡一胁) 一壶( 一p l | ,) b p 1 ) ) ( 而) 一叮e 印( 一嘉 一p 绺) b 一肛够) ) 咖) + ( 1 叫( e ( 而1 ) - p e 计去( z p 龇z 一肛鼽计去( 挑一p 跏 ( 1 i l ( 扼卿) 呻一刍( z 一胁) k 一胁) 一寿( 秒一脚) b 一眦) ) ( 面) 一g e 印( 一去( 可一p 缪) 7 一谢) ) 咖) 叫( 而烨计去( 龇一弘辫) ) e ( 1 i l ( 而卜去( 叫曲7 一p t 茁) 一去( 一p ) b p ( 厮盯- ) 1 e 印( 一去( 3 ,一p 髫) b p 绺) ) 匆) + ( 1 一) ( ( 而1 ) 呻e 印( 一去( z p 婴) , 一p 龆) ) 厂+ ( 1 n ( 磊盯1 ) 一p 一刍( z 一肌) k 一胁) 一刍( y 一脚) 协一胁) ) ( 厮) 叫e 印( 一刍( 秒一p 留) 7 白一p 髻) 一去( 耖一p 若) 7 匆一p 缪) ) 匆) :( ( 厮盯。) 一p ( 以) 飞印( 一去( z p 口) 协一p 辫) ) 厂0 。( 1 i l ( 历盯。) 一p 1 1 一击 一p - 茹) 7 一p 2 ) 一去。一p 留) 7 一p 管) 一去( p - f p 蹭) 7 ( p - 掣一p 髫) ) ( 折酪- ) 一g e 印( 一去 一弘学) b p 警) ) 由) + ( 1 一州( 瓜盯) 呻 e 升去( 叫龇一p 婴) ) e ( 1 n ( 何呻一刍( 叫曲咱茹) 一去c 锄咱拼( 鑫) 口( 2 丌焘广 州c 竿一三c 掣蛔c 壁辨盟, e a ( 一一 2 1 旷搿九耖一籍川 = 州而) 弋在) 飞印( 一刍( z p 鼽z 一弘瓤一去( z 一钕咱。) 一去( 蛳一p 批胁一肛譬) + l n ( 历呻一 吲一去( 秒一鼢b p 露m ( y p 留) b p 髫) ( 诉盯1 ) 一q + ( 1 - s ) ( ( 面z ) p e 印( 一去( z p 龇z 一蛳1 n ( 历叫呻去( z 咱 ”删一鑫啼圹辩m 胁一藉小 州华一三学蛔c 一, = 州屙- ) 呻( 压) - 口e 印( 一去( z p 龇z p 譬) ) ( 1 1 1 ( 而1 ) - p 一刍( z 咱( z 一) 一去( 脚一鼢t f p 粉辔) ) + ( 1 叫( ( 而- ) _ p e 印( 一去( z p 鼽z p 黝l n ( 屙- ) 叩一去( z 一胁) ,( z 咱2 ) 一褊啼旷错m 胁一籍以 州掣一三掣州一, 同理我们可以得到: 1 2 口 大连理工大学硕士学位论文 定理2 3 y 已知,五次随机变量,概率分布如前所述,则有 ( 。) ( 1 n ( x ,矽,p 1 ) ( x ,矽,肛乎) i y ) = 州厕) 呻( 扼) ”e 印( 一去( 一肛鼽秒一p 髫) ) ( 1 n ( 而- ) 呻一刍( 可咱( 咱沪去( 胁一肛婴) ,( 胁一p 辫) _ 等) ) + ( 1 叫( ( 历叩唧( 一去( 秒一p 譬) ,( 耖二p 髫) ) ( 1 i l ( 面呻一刍( 秒一脚) ,( 一胁) 一燕啼一警m 胁一籍 州掣一三掣叫盟辚竖, 从而 ) q q 2 2 ( 屙,) - p e 计刍( 铲p 鼽铲肛粤) 去( 执一p 鼽玑一肛孰l i l ( 而) 呻 一寿( 戤一胁) 一胁) 一蠢一蛳) 一胁) ) + s ( ( 痂t ) 叩( 扼) 一口e 印( 一去( 甄一肛婴) 7 ( 翰一p 器) ) ( 1 n ( 痂- ) 一去( 一划( 铲胁) 一去( 胁一p 批胁一p 髻) 一等) ) + ( 1 一州( 而1 ) - p e 印( 一刍( 甄一肛澎) 7 ( 翰一p 婴) ) ( 1 i l ( 而1 ) _ p 一去( 戤一p l 善) 7 ( 兢一p l z ) 一鑫啼圹辩m 一餐小 州掣一三学州盥学, + ;毫。州而1 ) _ p ( 竹锄( 一去( 玑一p 髻) ,( 讹p 髻) ) ( 1 n ( 屙,) 呻一刍( 犰咱( 犰咱沪刍( 肌一p 婴) ,( 胁一p 器) 等) ) - + ( 1 叫( ( 面1 ) - p e 印( 一刍( 玑一p 鼽犰一f 上黝l i l ( 历9 1 ) _ p 一去( 犰咱( 玑咱暑,) 一燕啼一籍m 胁一籍小 1 3 于是我们有 基于缺失数据的两正态混合分布的参数估计 州掣一三掣州壁耩盟, 烨计三掣一三学如一籍, 为了记号以及数据模拟的方便我们引入a ,z = l ,2 ,6 + ( 1 一e ) ( ( 而) 叩e 印( 一刍一p 辫) 铷t p 粤) ) ( e 井三掣一 ( 玑一p 露) 7 ( 犰一p 髻) ) 如 芦堂) ) 瓤 如= e ( 而- ) 呻( 以) 一r 唧( 一去一p 辫) 7 慨一p 髻) ) p 兽 t = :n 口十上 圳叫c c 瞬一扣黼跏c 三一,心计三华一 p 1 ) 7 一 阻 一i 研键巡t 烹篮菇瞄 一一一鲢一一 一 盼乳 跏肌永柏碗如瑚 麓舞霉 三研 一 ) 0 黝 艘 以 4 蕾 h q 池 y 一0 1乳土研 一 p r 印 上研伊 j 加 以 ,、 口 似 广 p 仃 一 一m 、, _舢, l 矿 屙 一丌。飞 瓜 氛渤妻一 慨 盟 监峰譬 延 致 掣 篚豆上畦 + 一+ 递立上砰 砬 逝畦4 ,、 1 l 一2 大连理工大学硕士学位论文 山2 萎( 而) 呻e 印( 一刍( 铲p 鼽驴p 婴) 一去( 玑一肛鼽玑一鼢) t = 0 。1 “1 。 n 2 , 如= 圣,( 而) 呻( 以) 1 吲一去( 铲p 龇戤一p 婴) ) + ( 1 - 州( 而圹p e 计去( 驴p 婴) ,( 铲p 婴) ) ( 惰麓) 口 州竿一三掣嘲竖学, 山= ( 而1 ) 呻( 以) ”e 印(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抱团出游安全协议书
- 天津市北辰区第三学区2024-2025学年八年级上学期11月期中数学试卷(含答案)
- 山东省枣庄市台儿庄区2024-2025学年九年级上学期期中考试物理试题
- 辽宁省鞍山市海城市西部集团2024-2025学年七年级上学期11月期中英语试题(含答案)
- 河南省焦作市中站区2024-2025学年七年级上学期期中生物学试题(含答案)
- 《双组分纺粘法非织造布》
- 安徽省安庆市外国语学校2024-2025学年九年级上学期11月期中考试化学试题(含答案)
- 离子风枪行业相关投资计划提议
- 蓝耳病初期的症状
- 高分子合成材料行业相关投资计划提议
- Pilz安全继电器说明书大全-1
- 文莱专题知识课件
- 安全技术说明书(粗酚)
- 《观察日记》评课材料
- 城镇再生资源回收利用体系建设项目建议书(完整版)资料
- 两篇古典英文版成语故事狐假虎威
- 人教版高中地理必修一《大气的组成和垂直分层》PPT
- GB/T 41837-2022温泉服务温泉水质要求
- GB/T 34049-2017智能流量仪表通用技术条件
- 介绍济宁的英语ppt
- 外包施工人员入场安全培训考试卷(项目经理)
评论
0/150
提交评论