(运筹学与控制论专业论文)极值指数估计中的一种关于样本分割的新方法.pdf_第1页
(运筹学与控制论专业论文)极值指数估计中的一种关于样本分割的新方法.pdf_第2页
(运筹学与控制论专业论文)极值指数估计中的一种关于样本分割的新方法.pdf_第3页
(运筹学与控制论专业论文)极值指数估计中的一种关于样本分割的新方法.pdf_第4页
(运筹学与控制论专业论文)极值指数估计中的一种关于样本分割的新方法.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在估计极值指数时,首先要确定门限值,就是对所观测到的 样本值的次序统计量进行有效分割如何确定门限值一直是困扰 极值工作者的一个难题在本文中,我们从另外一个角度给出了 一种门限值的选取方法众所周知,要得出极值指数的较好的估 计,用于分析的数据应含有尽可能多的关于极值指数的信息,因 此基于判别信息和s h a n n o n 熵的理论,本文研究了门限值与次序 统计量的熵的关系,给出了广义帕累托模型下门限值和样本点分 割的选取原理和方法并针对广义帕累托分布进行模拟,得到了 理想的结果 关键词:极值指数;次序统计量;门限值;判别信息;s h a n n o n 熵 a b s t r a c t a bs t r a c t i fw en e e dt oe s t i m a t et h ee x t r e m ev a l u ei n d e x ,w em u s te s t i m a t e t h et h r e s h o l df i r s t ,t h a ti sg i v i n gt h eo p t i m a lf r a c t i o nf o rt h eo r d e rs t a f f s t i c so ft h es a m p l ew h i c hb eo b s e r v e d t h ee x t r e m ev a l u eo p e r a t o r sa r e b e w i l d e r e db yt h eq u e s t i o nh o wt og e tt h et h r e s h o l da l la l o n g i nt h i sp a p e r ,an e wm e t h o df o rs e l e c t i n gt h et h r e s h o l df r o mt h e o t h e rp o i n to fv i e wi sp r e s e n t e d a si sw e l lk n o w n ,t h ed a t ab ea n a - l y z e ds h o u l di n v o l v em o r ei n f o r m a t i o na b o u tt h et a i li n d e x s o ,w e r e s e a r c h e dt h er e l a t i o nb e t w e e nt h et h r e s h o l da n dt h es h a n n o ne n t r o p y o fo r d e rs t a t i s t i c sb a s e do nt h et h e o r yo fd i s c r i m i n a t i o ni n f o r m a t i o na n d s h a n n o ne n t r o p y t h em e t h o dh o wt os e l e c ts u i t a b l et h r e s h o l da n d f r a c t u r es a m p l ei ng e n e r a l i z e dp a r e t om o d e l si sp u tf o r w a r d t h e n ,t h eg e n - e r a l i z e dp a r e t od i s t r i b u t i o ni ss i m u l a t e da n di d e a lr e s u l t sa r ea t t a i n e d k e y w o r d s :e x t r e m ev a l u ei n d e x ;o r d e rs t a t i s t i c s ;t h r e s h o l d ;d i s c r i m i - n a t i o ni n f o r m a t i o n ;s h a n n o ne n t r o p y 一i v 学位论文独创性声明 本人郑重声明: l 、坚持以“求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表 或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。 作者签名: 日期: 学位论文使用授权声明 本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有权 保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版; 有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查 阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论文的标 题和摘要汇编出版。保密的学位论文在解密后适用本规定。 作者签名: 日期:墨 第1 章引言 第1 章引言 对于统计、风险管理和保险精算工作者而言,极值理论由于它的研究对 象的不寻常性而具有特别的吸引力作为一种对随机现象的研究,极值理论 最早可以追溯到2 0 世纪早期,但是直到2 0 世纪5 0 年代,才开始真正引起科研 工作者的注意,并开始对它建模极值模型已经广泛应用于金融、保险、水 利、气象等各个方面 在极值分析中主要有两类模型,一类是极值定理模型0 三v t ) ,这类模型 主要对组内最大值建模,即所谓的区组最大方法( b m m ) 在b m m 中,极值 型定理保证了组内最大值的极限分布不外乎f r 6 c h e t 、w e i b u l l 和g u m b e r 分布之 一,或者他们的一般形式一一广义极值分布( g e 另外一类是广义p a r e t o 分布 模型( g p d ) ,这一模型也称为p o t 模型( p e a k s o v e r - t h r e s h o l d s ) ,它对观察值中 所有超过某一较大门限值的数据建模由于广义p a r e t o 模型有效地和公平地使 用了有限的极端观测值,因此在实践中具有重要的实际意义 无论是e v t 模型还是g p d 模型,关键问题是对模型中的参数,主要 是极值指数进行估计根据估计的方法,我们还可进一步划分为两类 不同的研究方法,即围绕h i l l 估计、p i e k a n d s 估计和矩估计展开的半参 数模型及基于g e v 和g p d 的参数模型对这两种模型的理论的系统介 绍可参见e e m b r e c h t s ( 1 9 9 7 ) ,r d r e i s s 和t h o m e s ( 2 0 0 0 ) ,s e o l e s ( 2 0 0 1 ) 和s k o t z 和s n a d a r a j a k ( 2 0 0 0 ) 等 极值估计的主要内容是极值指数和高分位数的估计在估计g e v 和g p d 模 型的极值指数和高分位数时,首先要确定门限值,找出门限值以上的观测数 据,换句话说,就是对所观测到的样本值的次序统计量进行有效分割,得到 用于估计的观测数据,然后才能用参数和半参数方法估计极值指数但是, 值得指出的是如何确定门限值,对样本进行最优分割,一直是困扰极值工作 者的一个难题门限值越大,可以分析的数据量就越少,被分析的数据比较 接近分布的极端,估计的偏差减小,但由于数据量过少,估计的方差增大; 反之,门限值过小,被分析的数据量增加,估计的方差减小,但偏差却增大 了对这个问题的研究,统计工作者提出了许多方案e m b r e e h t s ( 1 9 9 7 ) 建议使 第l 章引言 用模拟法,通过研究在不同门限值的情形下极值指数的形状来确定门限值的 大小;j d u p u i s ( 1 9 9 8 ) 建议从参数的稳健性出发来确定门限值;但更多学者, 如b e i d a n t ( 1 9 9 6 ,2 0 0 2 ) 、d a n i e l s s o n ( 2 0 0 1 ) 、a g u i l l o u ( 2 0 0 1 ) 、a f e r r e i r a ( 2 0 0 2 ) 、g m a t t h y s 和j b e i r l a n t ( 2 0 0 3 ) 等建议使用最小化某一均方误差或渐近二阶矩 来获得门限值在这一准则下,g m a t t h y s 、j b e i d a n t ( 2 0 0 3 ) 、g d i e r c k x 和c s t a t i e a ( 2 0 0 2 ) 对g e v 模型建立了一种指数回归模型,得出了极值指数的 较好估计a f e r r e i r a ( 2 0 0 2 ) 、j d a n i e l s s o n ( 2 0 0 1 ) 等利用自助法得出了g e v 模 型的门限值的渐近结果s r e s n i c k ( 1 9 9 8 ) 利用光滑的矩估计对极值指 数建模,得出了它的估计,并研究了它的极限性质e g r o e n e b o o m 等 人( 2 0 0 3 ) 利用核型估计对极值指数进行了建模和估计,比较了由h i l l 估 计、矩估计、拟似然估计和核型估计得到的极值指数的性质 r h u i s m a n ,k k o e d i j k 和c k o o l ( 2 0 0 1 ) ,i a b a n 和m m m e e r s e h a e r t ( 2 0 0 4 ) 利用最 小平方法分别对h a l l 族和幂指数型的尾的极值指数进行了估计,得到了理想 的结果v b r a z a u s k a s 和g s e r f l i n g ( 2 0 0 3 ) 对p a r e t o 分布的极值指数构造了一种新 的稳健估计,并提出了在实际中对p a r e t o 分布的诊断检验方法 本文从另外一个角度给出了一种基于p a r e t o 分布的门限值的选取方法 众所周知,要得出极值指数的较好的估计,用于分析的数据应含有尽可能 多的关于极值指数的信息因此,我们考查样本的次序统计量的信息性质 b a r r ya m o l e 在p a r e t o 分布的理论和应用( a r n o l d1 9 8 3 ) 和次序统计量的理论和 应用( a m o l de ta 1 1 9 9 2 ) 方面做出了重大贡献,总结了次序统计量的信息测度 p a r k ( 1 9 9 5 ) 指出了次序统计量的熵的一些结果,1 9 9 6 年他又以f i s h e r 信息量的 形式提供了相似结果e b r a h i m ie ta 1 ( 2 0 0 4 ) 也提出了此问题的一些结果,列出 了少数分布的次序统计量的熵本文针对广义p a r e t o 分布,研究了门限值与次 序统计量的熵的关系,找出了使熵趋于稳定时的门限值,作为最优门限值的 选取方法之一 一2 一 第2 章基本理论 第2 章基本理论 2 1 正规变化函数 定义2 1 1 若函数,:肘一矿可测,存在九( z ) 使得 舰铬叫巩 其中 ) 不恒等于零,则称函数,为正规变化函数 定理2 1 1 ,正规变化,当且仅当存在p r ,使 恕帮- - x p 妇矿 ( 2 1 ) 此定理表明正规变化函数也可用( 2 1 ) 式来定义,其中p 称为,的正规变化 指数,并记为,砌( p ) 定义2 1 2 ,r k 0 ) ,则称函数,为缓慢变化函数显然,若f r v ( p ) ,贝i j 有,( z ) = x p l ( x ) ,其中l a v ( o ) 定义2 1 3 若分布函数f 具有如下性质: 舰铹玎专,坳 。, 掣 称f 具有正规变化尾 其中,y 0 为由f 唯一确定的常数,称为f 的尾指数对,y 的估计是一个重 要课题 一3 一 第2 章基本理论 2 2 极值理论 定义2 2 1 n 1 是概率空间( q ,莎,p ) 上t i d 序列,讪q , 把( u ) ,) 按大小顺序排列成 k ,l ( u ) ,2 ( u ) ,n ( u ) 则,七) :q _ r ,k = 1 ,2 ,n 称为次序统计量 定理2 2 1 设溉,x 2 ,是t i d 随机变量列,其分布函数为 f ) ,1 ,2 ,竹为其次序统计量如果存在实数列 i o ) 、 k ) 和非退化分布函数g ( z ) ,使得 p 瓮鲥_ g ,n 一, ( 2 3 ) 在g ( z ) 的所有连续点上成立,那么g 仁) 一定属于以下g e v 族: 啪,= = 二茹臻q , 1 + 一7 x o ,y o ( 2 4 ) r z ,7 = 0 、 7 定义2 2 2 如果( 2 3 ) 成立,我们称f 属于g 的最大吸引场,记作f m d a ( o ) 设f m d a ( g r ) 当7 0 时,q 称为p a r e t o 型( 或厚尾型) 分布,这 时f 的尾部是幂指数收敛的,且p p ( z ) = z 一毒扫0 ) ,其中扫是慢变函数f r 6 c h e t 分布、p a r e t o 分布和b u r r 分布均为厚尾分布当,y = 0 时,q = g o 称 作g u m b e l 分布,此分布非常广泛,这时f 的尾部主要是依指数衰减的指 数分布、正态分布、r 分布均属此类当,y = f 。( 1 一三) ( 2 5 ) 为尾分位函数,珏、缸均为慢变函数 2 3 极值指数的估计 对于极值理论中的参数,很多学者对它作过估计最重要的有如下四种 估计量: 笸2 = i 1 蚤k ,o s , n - j + x - l o g ,n - 七,k = 1 , 2 , - - - , n - 1 根= ( 1 。9 2 ) - 1 l o g 瓦x n 二, n - k i - - x 瓦n , n 五- 2 k ,k = i , 2 , - - - , n - i 识= 识一扣譬) _ l ,k = 1 , 2 , - - , n - 1 谍2 是, k = 1 ,2 ,n 一1 其中= 量凳1 1 0 9 孟讲l 1 0 9 。n 一七) 2 ,( 噩,x 2 ,) 是来自总 体x f 的简单随机样本 上述的估计量分别是由h i l l ( 1 9 7 5 ;识) ,p i c k a n d s ( 1 9 7 5 :识) ,d e k k e r s 、 e i n m a h l 及d eh a a n ( 1 9 8 9 ;识) ,c d ev r i e s ( e r a s m u su n i v e r s i t y , p e r s o n a lc o m i n u - n i c a t i o n ;识) 提出来的,其中最著名的是h i l l 估计量,是对,y o 的特殊情况 一5 一 第2 章基本理论 提出的一种估计法 h i l l 估计量还可以写为: 识= 丢j ( 1 0 9h 州+ 一1 0 9 ,州) 垒去乃 = 13 = i n t ,乃在后面门限值的取法中起关键作用事实上,在严格p a r c t 0 分布情况 下,即当f ) :z 一 时, 乃呈,y 马,歹= 1 ,七 其中勿表示同分布,髓,风服从标准指数分布 记取。1 r ,2 玩,n 为研,e 2 ,晶的次序统计量,两次运用概率 积分变换可导出如下结果: j 星u ( e r j ) , 1 j n , ( 2 6 ) 其中u 如( 2 5 ) 所示事实上, 尸( u ( e 风j ) s 。) = p ( f 。( 1 一e - - e 一) z ) = p ( e 一塌。1 一f ) ) = p ( 一r j 1 0 9 ( 1 - f ( z ) ) ) = 尸( 玩j 1 0 9 = 南) :p ( 磊j 1 0 9 z ) ;南仁盯e 。) ( 1 卅唧- e 一缸) :7:=-=厂茹亡一;ul(1一亡一)n-id(11 一t 一 ) = 一 j五1 ,i 一【 1il tl ( n 一歹) ! u 一1 ) ! 一 r 。 7 。 7 = p ( j z ) 。 第2 章基本理论 对于( 2 5 ) 中的慢变函数幻,有一个被广泛接受的假设: 假设( q 口( 6 ) ) :存在一个实常数p o 和一个正的比率函数6 ,b r v ( 一p ) ,当z _ o o 时,对所有的t l 1 ,有 l o g t v ( u z 1 ) 了- = _ l o g i v 一( x ) _ ,l 一卢( t ) , 6 ( z ) 叩r 其中 一卢( u ) = 一( t 一卢一i ) t ,若p = 0 ,则 一卢( u ) = l o g u 由上述假设可推出: 掰= 岬札舯( 卅d ( 6 ( 枞( z - - , o o ) ( 2 7 ) 利用( 2 6 ) 和二阶条件( 2 7 ) ,可知: 勿= 歹l 。g2 鲁呈歹l 。g u ( i e 7 v ( :, d 孑l 可e e , , , , , - 0 = jl o g ( :, j f 1 + j l 一卢( e 马乃) 6 ( e 晶n 一) ( 1 + d ( 1 ) ) 】) = j 7l o ge e j j + l o g 1 + 一卢( e 马乃) 6 ( e 晶n - j ) ( 1 + d ( 1 ) ) 】) ,y 马+ j l o g ( 1 + 巩j ) , 其中j 全h _ 卢( e e j j ) b ( e s p j ) 易知当可很小时,l o g ( 1 + 可) y ,h 一卢( e 可) y ,又当竹_ o 。时,丢一0 , 更有磊,住一j l o g ( n j ) s1 ( 详细证明见s t a s t i c so f e x t r e m e s :t h e o r ya n da p p l i c a - t i o n s ( 2 0 0 4 ) s e c t i o n3 2 ) 由此, 乃g7 e i + j l o g ( 1 + w n j ) 7 马+ 歹j 一7 一 第2 章基本理论 因为b r v ( - 了) ,所以 故 7 马廿了e j 6 ( 崭) = h + 6 ( 而n + l 牌- 6 ( 崭) ( 南蜘( 等) 垒( 南) z jgb + ( t 晕- 3 ) 卢6 n ,d 岛 2 4 样本分割的选取方法 ( 2 8 ) 我们先介绍几种对h i l l 估计的门限值的选取方法在h i l l 估计中,样本 的最优分割有两种途径,一是计算估计量础的渐近均方误差( a m s e ) , 使a m s e 达到最小的忌值就是我们所要求的最优值;另一种途径是给出估 计量的渐近表示,然后导出最优值拶在此我们只对第一种途径的几种方法 回顾一下 圆指数回归模型法 ( 2 8 ) 式即由f c u e e 唱e r 和h a l l ( 1 9 9 9 ) 、b e i r l a n t ( 2 0 0 2 ) 、m a t t h y s ( 2 0 0 0 ,2 0 0 3 ) 等 人建立的指数回归模型 将( 2 8 ) 简化为: 名: j o 。g k ,n 。+ 1 一l o g x 一。) 笔7 马,1 j f k ( 2 9 ) 易知,谍= 委暑k 乃正好是( 2 9 ) 中参数,y 的极大似然估计此时,h i l l 估计的 一8 一 第2 章基本理论 i i 渐近方差为: a 可”( 碟2 ) y 口r ( 丢妻马) 萼,( n - - * 0 0 , k _ 0 0 , 元k _ o ) j 2 i 而偏差主要源于在简化模型中忽略了回归项的作用渐近偏差可用下式度 量: 七 们记s ( 谍) 弧七毒( 南) 南 因此,h i l l 估计的渐近均方误差a m s e 为: a m s e ( 识) = ( a 讹s ( 谍) ) 2 + a v a r ( o ) ) j b 十n , k p2 + i 9 2 显然,a m s e ( ; ( n 1 , 2 ) 是后的函数,它的性状是u 形变化的,而 = a r g 呼n 【币b n , kj , 2 + 岳 ( 2 1 0 ) 指数回归模型算法如下: ( 1 ) 对指数回归模型利用极大似然估计,计算k d ,礼 时,参 数7 ,k 知,p 的估计值,k ,七,口; ( 2 ) 对k 3 ,佗) 计算a m s e ( 诎) ; ( 3 ) 利用铲= a r gm i n 3 0 ,d 0 口砌荧显然满足假设良p ( 6 ) , 且6 0 ) = 一所d c 一一卢【1 + 。( 1 ) 】,m _ o o ) 这时,使a m s e ( 识) 最小的七值 满足: + l _ ( 器) 南 + 1 ) 焉 一( 甓竽) 南+ 1 ) 】南 _ ( 甓竽向啡+ 1 ) 1 南 ( 2 1 1 ) 对于h a l l 族,b e i r l a n t 等人( 1 9 9 9 ,2 0 0 2 ) 设计了如下算法: ( 1 ) 在指数回归模型中,对i 3 ,仃) 计算,y ,k j ,的估计值倪,k , ,厦; ( 2 ) 对i 3 ,钆) 计算: 秽= ( 警) 志蜥+ 1 ) 如】赢_ 1 这样,就得到了一列轷j ,i = 3 ,n ( 3 ) 选取秽,- ,i = 3 ,詈的中位数作为尼的估计值,即: 矽= 仇e 畋轷j l i = 3 , 同时,b e i d a n t ( 1 9 9 9 ,2 0 0 2 ) 等人进一步指出,在模型( 2 8 ) 中可以先固定 参数= 岛= 1 ,从而将算法进一步简化 o r ) 子样本自助法 将自助法运用于极值指数的估计中,最早是由h a n 于1 9 9 0 年提出,此后 得到了迅速发展,d a n i e l s s o n ( 2 0 0 1 ) 等人利用子样本自助法很好地解决了门限 值的选取问题其基本思路如下: , 第2 章基本理论 首先,构造辅助统计量: 磊,七= m n 一2 ( 啦) 2 若记使a m s e ( 磊,七) 达最小的后值为础,则当n _ o o 时,静。和有相 同的阶: k 触y - - - z - ,( 1 + 舻勘- - , o o ) 但不幸的是轷的自助估计并不依概率收敛于真实的尼值, 因 此,d a n i e l s s o n ( 2 0 0 1 ) 等人进一步弓i a t 子样本自助法 设o e 1 ,取子样本大小为竹l = d m l 一) ,得印。的自助相合估计砾, 对统计量磊。七,样本和子样本的门限值的最优分割有如下关系:当礼l = o ( n 1 叫) ,0 1 2 5 ) ( 2 1 6 ) 诊断方法算法如下: ( 1 ) r i j - k 3 ,n ) 计算参数,y 的估计值铠: ( 2 ) 选取a = 0 6 ,b = 0 8 ,得k 的取值范围; ( 3 ) 由( 2 1 3 ) ,( 2 1 4 ) ,( 2 1 5 ) 分别计算6 ,以,q 七( 屉n n 6 ,扩名】) ; ( 4 ) 利用( 2 1 6 ) 求得尼,1 :哪 第2 章基本理论 ) 序列的重对数率法 d r e e s 和k a u f m a n n ( 1 9 9 8 ) 提出了一种利用重对数率构造h i l l 估计的样本最 优分割的停止时间,从而选取最优的杆我们这里只给出该方法的算法,至 于其理论基础和其中冗余常数的选取,可参照原文 序列的重对数率法的算法如下: ( 1 ) 设定未知参数,y 的初始值铂; ( 2 ) 对r n = 2 5 铂礼n 2 5 ,计算停止时间 蠢( ) = m i n kel ,2 ,n 一1 l 超鉴以( 谍一名1 , k 、 ) ; ( 3 ) 同样地,计算k ( 孺) ,其中e = o 7 。 ( 4 ) 设口是p 的相合估计,计算 秽= ( 器内1 枷一( 嗍) 南 ( 2 1 7 ) 及,y 的估计:同时,d r e e s 和k a u f m a n n ( 1 9 9 8 ) 说明了,在实际中可以限 定p = 岛= 1 ,特别是当所考察的分布属于前面提及的日以2 族分布时,可得 到很好的效果 第3 章基于s h a n n o n 熵的门限值的选取方法 第3 章基于s h a n n o n 熵的门限值的选取方法 3 1s h a n n o n 熵 定义3 1 1 ( k u l l b a c k - l e i b l e r 判别信息) 给出两个概率分布日、局,其密度函数分别为 、厶,则用于比较两分 布的k u l l b a c k - l e i b l e r 努j 别信息定义为: k(fl:尼)=fsf-(圳09锱如娟啊logf丌l(x)j 2j2, ,p ,l , 其中 相对于厶是绝对连续的,s 为f l 的支撑,毋表示相对于 的期望 注:k ( f l :f 2 ) o 等号成立当且仅当 = f 2a e 。但k ( a :厶) 并不是对 称的,所以它不是距离函数,它是 与,2 间有向散度的测度,其中厶是参考 分布 “信息”反映在( 3 1 ) 的两个方面:第一,k ( :,2 ) 概括了信息的两个测 度一一熵和相互信息,它们是i 扫s h a n n o n ( 1 9 4 8 ) 在通信理论中提出的:第二, 信息的统计释义源于对k ( f l :,2 ) 的概率推理中判别信息量化了r 、易相关 性质的信息的得失若其中一个分布是理想分布,则k ( :如) 度量了利用其 他分布代替理想分布的信息的丢失 在( 3 1 ) 中,若x f l ,取兄为【o ,1 】上的均匀分布,即得如下s h a n n o n 熵的 概念: 定义3 1 2 ( s h a n n o n 熵) 若7 肌x 的分布函数为f ( z ) ,其连续密度为,0 ) ,则x 的s h a n n o n 嫡j 定义 为: , h ( x ) 兰h ( f ) = 一,( z ) l o g ,( z ) 出, ( 3 1 ) js 也称为微分熵,其中s 为f 的支撑 第3 章基于s h a n n o n 熵的门限值的选取方法 s h a n n o n 熵是对某事件发生的不确定性的度量事实上,一日( ,) = 毋 1 0 9 f ( x ) 是f 与均匀分布间的k u l l b a c k - l c i b l c r 判别信息,是对f 所含有信 息的度量 命题3 1 1 ( 微分熵的性质) ( 1 ) 日( x ) 可以为正,也可以为负; ( 2 ) 日( x ) 可以达到负无穷大; ( 3 ) 熵是依赖于密度函数的,而密度函数本身并非刻度不变的,故 对v 口,6 ,有 h ( a x + b ) = h ( x ) + l o g a ( 4 ) 日( x ) 在非奇异变化下并非不变: 若y = ) 是一一变换,则y 的熵为: 日( y ) = 日( x ) 一e 1 0 9 l 昙y 咖一1 ( y ) | 】 ( 3 2 ) ( 5 ) 令e = 9 1 ,昆,) 为支撑s 的一个分割,则 n 日( ,) = 日( 巧;s ) + p f ( e i ) h ( f ;e i ) , i = 1 n 其中日( p i ;) = p i 瓴) l o gp i 眩) 为由f 在分割上导出的多项式分布的 i = 1 熵,b 俺) = lf ( x ) d x 第3 章基于s h a n n o n 熵的门限值的选取方法 3 2 次序统计量的信息性质 不少学者研究过次序统计量的信息性质,w o n g 和c h e n ( 1 9 9 0 ) 指出次序 统计量的平均熵和数据分布的熵只差一个常数,还指出对于对称分布来 说,次序统计量的熵关于中值对称p a r k ( 1 9 9 5 ) 给出了次序统计量的熵的 递推关系,p a r k ( 1 9 9 6 ) 又以f i s h e r t 肓息量的形式提供了相似结果e b r a h i m ie t a 1 ( 2 0 0 4 ) 推导了相关结果,且指出涉及次序统计量的k u l l b a e k - l e i b l e r 函数是非 参数的 设五,恐,k 是i d 的,共同的分布函数为戥,密度函数为a ,厶在 任何区间上均为正( 零点除外) ,记m k 为其次序统计量众所周 知,k 的密度函数为: ( 秒) = 而陬( 洲扣1 【1 一取( 洲舻i 厶( n 其中,r ( z ) = ( z 一1 ) 1 0 z + ) 为伽玛函数 令u = f x ( x ) ,u 服从均匀分布, 布的样本巩,巩,的次序统计量, 度函数为: 记肌 w 2 o ) ,记m 蚝 0 ,| 某,使得对任意常 数a 0 和z 玩都有 a z e z ( z ) a z 令p ( x ) = ( 1 + 如) 一1 6 1 踣( z ) ,则由上述命题可得 a ( 1 + 如) 一1 6 - 1 x 一 户 ) a ( 1 + 如) 一1 6 - 1 x 因为上式中a 是任意的,不妨取4 = 1 又,当z 充分大时,z 一丁l + 6 z ,故有 酽( 1 + 如) 一1 6 一一1 户( z ) 6 - ( 1 + 占。) 一1 占“一1( 3 1 2 ) 即f ( z ) 可被控制在两个尾函数最( z ) = 扩( 1 + 如) 一1 一卜1 和扇( z ) = 6 一( 1 + 6 z ) 一1 “一1 之间,我们分别研究服从扁( 。) 、扇 ) 的次序统计量m k k 的熵,第i 个次序统计量的熵分别记为h x c y , ) 、凰( m ) 由( 3 4 ) 式可得 月1 ( k ) = 丑n ( 瞰) 一魄l o g i ( f i l ( ) ) j = 风( 暇) 一1 0 9 ( 1 + ( 1 + 啪) + 再等雨l o g6 - 揣魄 全g t ( i ) 同3 3 节中推导方法, 删一( 蕾一互1 ) l 吲一主+ l 。g 何+ ( n 一主+ 互1 l o g ( 住一 ) 一( 礼一1 ) + l 。g 厮 一【( n + _ j 1 1 0 9 n n + l o g 侗 一( i 一1 ) 1 0 9 了i - 1 一一汕g ( 百n - i ) 第3 章基于s h a n n o n 熵的门限值的选取方法 同理可得, h i ( 蕾) = l o g i - 荔1 一1 0 9 ( n 叫一丽1y 岫g 等 + l 。g 1 n - - i + 丁1 + 万2 5 i l i 1 暮 7 1 l 。1 + ( 2 + ) 6 刮昭两一丽+ 百玎本币褊。 m ) = 1 0 9 卜荔1 一l o g ( n t ) 一及两1 - l o g 百i - - 1 + 1 0 91 n - - i + 丁1 + 万2 6 i l j 1 i n 。1 + ( 2 一e ) 艿 - 1 0 9 西一2 i ( n - i ) + 矿玎= 可而 可看出m ( 主) 、h i ( t ) 同上述 印) 唯一的区别在于6 的系数发生了微小的变 化,这说明当艿0 时,最优门限值的选择是依赖于指标6 的 一2 6 一 型n揣击 g 、p 崦 参考文献 参考文献 【1 】a l m d e k k e r s ,a n dl d eh a a n ,o p t i m a lc h o i c eo fs a m p l ef r a c t i o ni ne x t r e m e v a l u ee s t i m a t i o n , j o u m a o f m u l t i v a r i a t ea n a l y s i s , 4 7 ( 19 9 3 ) ,17 3 19 5 【2 】b c a r n o l d , n b a l a k r i s h n a t h a n dh n n a g a r a j a , af i r s tc o u r s ei no r d e rs t a t i s t i c s ,j o h nw i l e y & s o n s , n e wy o r k ,2 0 0 3 【3 】g a d a r b e l l a y , a n di v a j d a , e n t r o p ye x p r e s s i o n sf o rm u l t i v a r i a t ec o n t i n u o u s d i s t r i b u t i o n ,i e e et r a n s a c t i o n so ni n f o r m a t i o nt h e o r y , 4 6 ( 2 0 0 0 ) ,7 0 9 - 712 【4 】n e b r a h i m i ,e s s o o f i ,a n dh z a h e d i ,i n f o r m a t i o np r o p e r t i e so f o r d e rs t a t i s t i c s a n ds p a c i n g s ,i e e et r a n s a c t i o n so ni n f o r m a t i o nt h e o r y ,5 0 ( 2 0 0 4 ) ,17 7 18 3 5 】h a d a v i d ,a n dh n n a g a r a j a , o r d e rs t a t i s t i c s ,t h i r de d t i o n , j o h n w i l e y & s o n s , n e wy b r k ,2 0 0 3 【6 】s k u u b a c k ,a n dr a l e i b l e r , o ni n f o r m a t i o na n ds u f f i c i e n c y , a n n a so f m a t h - e m a t i c a ls t a t i s t i c s , 2 2 ( 19 5 1 ) ,7 9 8 6 【7 】a f e r r e i r a , o p t i m a la s y m p t o t i ce s t i m a t i o no f s m a l le x c e e d a n c ep r o b a b i l i t i e s , z o f s t a t i s t i c a lp l a n n i n ga n di n f e r e n c e , 10 4 ( 2 0 0 2 ) ,8 3 10 2 8 】s p a r k , t h ee n t r o p yo fc o n s e c u t i v eo r d e rs t a t i s t i c s ,1 e e et r a n s a c t i o n so n i n f o r m a t i o nt h e o r y ,4 1 ( 1 9 9 5 ) ,2 0 0 3 2 0 0 7 【9 】a r 6 n y i ,o nm e a s u r e so fe n t r o p ya n di n f o r m a t i o n ,p r o c e e d i n g so f t h ef o u r t h b e r k e l e ys y m p o s i u m , 1 ( 1 9 6 1 ) ,5 4 7 - 5 6 1 【l0 】k m w o n g ,a n ds c h e n , t h ee n t r o p yo f o r d e r e ds e q u e n c e sa n d o r d e rs t a t i s t i c s , 一 i e e et r a n s a c t i o n so ni n f o r m a t i o nt h e o r y ,3 6 ( 1 9 9 0 ) ,2 7 6 - 2 8 4 【11 】s r e s n i c ke ta l ,s m o o t h i n gt h em o m e n t e s t i m a t o ro ft h ee x t r e mv a l u ep a r a m 。 e t e r , e x t r e m e s l :3 ( 19 9 8 ) ,2 6 3 - 2 9 3 【12 】p g h a l l ,u s i n g t h eb o o t s t r a pt oe s t i m a t em e a ns q u a r e de r r o ra n ds o 一 一2 7 参考文献 l e e ts m o o t h i n gp a r a m e t e ri nn o n p a r a - m e t r i cp r o b l e m s j m u l t i v a f i a t ea n a j , 3 2 ( 19 9 0 ) ,17 7 - 2 0 3 13 】j d a n i e l s s o n , u s i n gab o o t s t r a pm e t h o d t oc h o o s et h es a m p l ef r a c t i o ni nt a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论