(应用数学专业论文)异常数据均匀分布检验法的研究.pdf_第1页
(应用数学专业论文)异常数据均匀分布检验法的研究.pdf_第2页
(应用数学专业论文)异常数据均匀分布检验法的研究.pdf_第3页
(应用数学专业论文)异常数据均匀分布检验法的研究.pdf_第4页
(应用数学专业论文)异常数据均匀分布检验法的研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学住论文 摘要 异常数据均匀分布检验法的研究 摘要 异常数据检验是指检验一组样本中是否含有异常数据,异常数据是指一批 数据中的个别值,其数值明显偏离该批数据的其余值。抽样时可能由于马虎大 意或人为等原因使得样本中含有了异常数据。因此,异常数据检验是统计分析 中首要的工作,排除了异常数据,才能保证进一步分析的正确性。 本文把常用的异常数据检验方法按照其适合检验的分布做了一个归类,并 逐一分析讨论了这些方法;然后讨论了一种新的异常数据检验法一均匀分布检 验法,其中包括上下o 2 分位点检验法和顺序统计量检验法。均匀分布检验法 能够检验任何己知总体分布并且没有未知参数的样本中是否含有异常数据,而 且能够检验样本中同时含有异常大值和异常小值的情况。其中上下“2 分位点 检验法能够有效的避免m a s k i n g 和s w a m p i n g 效应。 对大量的试验数据进行检验能够判断一种检验方法的效率。因此,本文中 还用所介绍的方法对服从一些常用分布的大量有污染和无污染的样本做了异常 数据检验,给出了检验结果,并根据检验结果对每种检验法做了进一步分析。 关键词:异常数据;均匀分布;m a s k i n g 效应;s w a m p i n g 效应 h 东北大学硕士学位论文 t h er e s e a r c ho fo u t l i e rd e t e c t i o n su s i n gu n i f o r m l yd i s t r i b u t i o n a b s t r a c t o u t l i e rd e t e c t i o ni st ot e s ts o m eo u t l i e r sw h e t h e ra r ei nag r o u po fs a m p l e so rn o t o u t l i e ri st h ee x c e p t i o n a ld a t u mi nap a s s e lo fd a t aa n di t sv a l u ei so b v i o u sa w a yf i o m t h eo t h e r s + i ns a m p l i n g ,o u t l i e r sa r em i x e di n t ot h en o r m a ls a m p l e sp o s s i b l yc a u s e d b yi n a d v e r t e n c eo rc o n t r i v e d l _ e _ a g o ne t e s o ,i ti si m p o r t a n ta n db a s a lt ot e s tw h e t h e r t h e r ea r eo u t l i e r si nag r o u po fs a m p l e si ns t a t i s t i c sa n a l y s i s ,a n dt h ec o r r e c t n e s so f f u l t h e ra n a l y s i sc a nb ee n s u r e dw h e ne x c l u d i n go u t l i e r s i nt h i s p a p e r , s o m ec o m m o nu s e d o u t l i e rd e t e c t i o n sa r ec l a s s i f i e d b y t h e d i s t r i b u t i o nw h i c ht h eo u t l i e rd e t e c t i o ni s a p p r o p r i a t ef o r ,a n de a c ho fo u t l i e r d e t e c t i o n si sd i s c u s s e d i n d i v i d u a l l y ;f u r t h e r m o r e ,a n e wo u t l i e rd e t e c t i o n t h e d e t e c t i o nu s i n gu n i f o r m l yd i s t r i b u t i o ni sd i s c u s s e d ,w h i c hi n c l u d e st h ed e t e c t i o n u s i n g s u p e r i o ra n di n f e r i o ro , 2p o s i t i o np o i n ta n dt h ed e t e c t i o nu s i n go r d e rs t a t i s t i c s w h e n t h ep o p u l a t i o nd i s t r i b u t i o ni sg i v e nw i t h o u tu n k n o w np a r a m e t e r s ,s a m p l e sc a nb e t e s t e dw h e t h e rh a v eo u t l i e r s ,m o l 屯o v e r , w h e t h e rh a v et h eu p p e ro u t l i e r sa n dt h el o w e r o u t l i e r sb yt h ed e t e c t i o nu s i n gu n i f o r m l yd i s t r i b u t i o n t h e r e i nt h et e s tu s i n gs u p e r i o r a n di n f e r i o rc t 2p o s i t i o np o i n tc a na v o i dt h ee f f e c to f m a s k i n ga n d s w a m p i n g t h ee f f i c i e n c yo fo n et e s tc a nb ee s t i m a t e db yt e s t i n gl o t so fe x p e r i m e n t a ld a t a s o , ag r e a td e a lo fu n c o n t a m i n a t e da n dc o n t a m i n a t e ds a m p l e sa 咒t e s t e dw h e t h e rh a v e o u f l i e r sb yt h eo u t l i e rd e t e c t i o n si n t r o d u c e di nt h i sp a p e r , a n dt h es a m p l e so b e yt h e c o l b n l o nd i s t r i b u t i o n t h e n ,e a c ho f o u t l i e rd e t e c t i o n si sf u r t h e ra n a l y z e da c c o r d i n gt o t h eg i v e nr e s u l t s k e yw o r d s :o u t l i e r s ;u n i f o r m l yd i s t r i b u t i o n ;e f f e c to f m a s k i n g ;e f f e c to f s w a m p i n g i l l 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者签名: 日期:嘶工同7 徊 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名: 签字日期: 导师签名: 签字日期: 东北大学硕士学位论文第一章引言 1 1 研究背景与现状 第一章引言 对于异常数据至今没有严格的数学定义。应用比较广的一种观点是,异常数 据是指一批数据中的个别值,其数值明显偏离该批数据的其余值,有时也称为异 常值,若进步划分,还可分为异常大值和异常小值。在统计分析中常会遇到大 量的数据,由于抽样调查的技术问题或疏忽大意导致错报,或人为的在统计指标 上做手脚等原因,常常会使样本中含有了异常数据。异常数据的存在会使得样本 均值产生明显偏差,样本方差变大。而常见的统计分析,如参数估计,假设检验, 方差分析,相关分析,回归分析,聚类分析等,都要用到样本均值、样本方差等 统计量,受异常数据影响的样本均值和样本方差会影响这些统计分析的结果,因 此,由样本对总体的推断、控制与预测等工作可能会不准确,甚至出现错误。可 见,检验样本中是否含有异常数据,显得十分有必要。不妨称这一工作为异常数 据检验或异常值检验,能够看出异常数据检验是采集数据后的首要的基础工作。 常用的一些异常数据检验法,大都只适合检验某一两种特定分布的样本中是 否含有异常数据,其中正态分布、指数分布、w e i b u l l 分布的异常数据检验法居 多,还有一些极值分布和对数正态分布的异常数据检验法。服从w e i b u l l 分布和 对数正态分布的样本取对数后就分别服从极值分布和正态分布。因此有时能够把 服从w e i b u l l 分布和对数正态分布的样本转换成服从极值分布和正态分布的样本 来进行异常数据检验。正态分布是统计中最重要的分布,其对称性和单峰性使得 对异常数据的研究相对简单一些,常用的检验方法也较多,检验效果也不错:指 数分布根据其特殊性质( 在第二章中绘出) 能够构造出一些统计量来检验样本中 是否含有异常数据,而这些统计量不仅与原分布的参数无关而且能够推导出来它 们的分布函数;对于w e i b u l l 分布的异常数据检验,常用统计量的分布都与原分 布的参数无关,但还没有推导出这些统计量的分布函数,因此当样本容量不大时 对常用统计量的分位数能够用m o n t e - c a r l o 模拟得到,样本容量较大时需要用大 样本理论找其近似分布。 东北大学硕士学位论文 第一章引言 1 2 评价方法与常用检验法的局限性 异常数据检验的过程中经常会遇到m a s k i n g 和s w a m p i n g 效应。m a s k i n g 效 应是指某一数据为异常数据,但由于其它异常数据的存在,导致检验统计量把此 异常数据判断为正常数据,而s w a m p i n g 效应则是指由于异常数据的存在,导致 检验统计量把正常数据判断为异常数据,因此异常数据检验中要避免m a s k i n g 和 s w a m p i n g 效应。也有的文献中把m a s k i n g 和s w a m p i n g 效应称为屏蔽效应,即 由于异常数据的存在而影响了对其它数据( 包括正常数据和异常数据) 的判断。 能否避免m a s k i n g 和s w a m p i n g 效应是判断一种异常数据检验法的检验效率的标 准之一。 一般而言,对多个异常数据的检验方法有两种,分别称之为b l o c k - - t e s t ( 群 组检验) 和c o n s e c u t i v e - - - t e s t ( 逐步检验) 。b l o c c s t 就是一次可检验若干个异常 数据,此检验的第一步就是需要确定异常数据的个数k ,如果k 已知,那么 b l o c k - - t e s t 往往具有最优性,这种情况下也不会遇到m a s k i n g 和s w a m p i n g 效应。 c o n s e c u t i v e - - - t e s t 是一种简化方法,每次检验一个数据是否为异常数据,逐步排 除,直至检验到正常数据。这种检验法容易遇到m a s k i n g 和s w a m p i n g 效应。 另一个判断一种检验方法检验效率的标准就是功效函数。异常数据检验中, 原假设是指样本中不含有异常数据,功效函数求的是否定原假设的概率。因此, 由功效函数就能够求出一种异常数据检验法犯第1 类错误和第1 i 类错误的概率。 第1 类错误是指当样本中不舍有异常数据时,经检验后认为样本中含有异常数 据,从而拒绝了原假设:第1 i 类错误是指当样本中含有异常数据时,经检验后没 有正确的检验出所有异常数据或把样本中的正常数据误判为异常数据。在求一种 异常数据检验法的功效函数时,若样本中含有异常数据,则需要知道异常数据的 分布函数,然而实际问题中异常数据的分布函数是难以求出的,因而,这种情况 下也难以求出检验法的功效函数。即使知道异常数据的分布函数,对于 b l o c k _ t c s t 在已知七的情况下能够求出其统计量的功效函数;而c o n s e c u t i v e - - t e s t 的功效函数就很难求出,因为需要知道异常数据的个数k ,还要知道样本总体分 布和异常数据分布的顺序统计量的条件分布函数。 常用的异常数据检验法都有一些局限性,如大多数检验法只能检验某些特定 分布的样本中是否含有异常数据;有的只能检验样本中只含有异常大值或异常小 值的情况;或有的只能检验样本中同时含有异常大值和异常小值的情况;很多检 验法都是c o n s e c u t i v e - - t e s t ,因此难避免m a s k i n g 和s w a m p i n g 效应,也很难求 一2 东北大学硕士学位论文 第一章引言 出其功效函数;有的检验法计算量很大,需要借助m a t h e m a t i c s 等数学软件的帮 助。在本文第二章中将介绍一些常用的异常数据检验法,并分析讨论这些检验法 的应用范围和局限性。 1 3 本文主要工作 本文的主要工作是,给出了一种新的异常数据检验法一均匀分布检验法。其 中包括上下0 2 分位点检验法和顺序统计量检验法。对于任何一个已知参数的总 体删,设随机变量j 的分布函数为卿) ,根据均匀分布的性质,则尺毋服从【0 ,1 】 均匀分布( 在第三章中给出证明) 。因此当总体分布已知,并没有未知参数时,就 能够把总体分布转化为均匀分布,然后能够用上下。以分位点检验法和顺序统计 量检验法来检验服从 o ,l 】均匀分布的样本中是否含有异常数据。 均匀分布检验法克服了常用的异常数据检验法只能检验某一两种特定分布 的局限性,而且计算量比较小,在把已知的总体分布转化为均匀分布时,借助统 计软件s p s s 很容易实现,此检验法还能够检验样本中同时含有异常大值和异常 小值的情况。其中上下以分位点检验法是b l o c k - - t e s t ,有效地避免了m a s k i n g 和s w a m p i n g 效应,而且检验步骤很简单;顺序统计量检验法是c o n s e c u t i v e - - - t e s t , 容易遇到m a s k i n g 和s w a m p i n g 效应,检验步骤相对简单,但不受样本容量n 的 影响,检验准确率较高。本文中还给出了上下c t 2 分位点检验法的功效函数与顺 序统计量检验法犯第1 类错误的概率,因为顺序统计量检验法是 c o n s e c u t i v e - - - t e s t ,由上面的讨论可知c o n s e c u t i v e - - t e s t 犯第1 i 类错误的概率很 难求出。 本文第四章中以指数分布为例,用上下北分位点检验法和顺序统计量检验 法检验了一组服从指数分布有污染的样本,详细地介绍了这两种检验法的检验步 骤。 对大量的试验数据进行检验能够判断一种检验方法的效率,因此,本文在最 后还对大量服从常用分布的无污染和有污染的样本进行检验。应用统计软件 s p s s ( 1 1 0 ) 生成一些服从常用分布的随机样本,并在一部分数据中人为的添加一 些异常大值或异常小值,然后用常用的一些异常数据检验法和本文给出的均匀分 布检验法做了异常数据检验,并把这些方法的检验结果,如正判率、错判率等以 表格形式给出,这样方便对比这些方法适应性、检验效率等,最后根据检验结果 对每种检验法做了进一步的分析讨论。 3 东北大学硕士学位论文第二章常用的异常数据检验法 第二章常用的异常数据检验法 一些文献( 【1 】 2 2 】) 讨论了异常数据检验法,本文中把各个文献中所讨论的异 常数据检验法按照其适合检验的分布迸行了归类。下面就按照每种分类介绍和分 析这些异常数据检验法: 2 1 正态分布的异常数据检验法 设服从正态分布的总体墨其分布函数如下,五,x 2 ,x 。为其容量 为门的简单随机样本,x ( 。j ,x ( 2 ) ,五。) 为样本的顺序统计量。下面给出几 种正态分布的异常数据检验法: 荆= 丽1 e 冲 一簪卜 , 2 1 1 改进的奈尔检验法 奈尔检验法是检验服从正态分布的样本中是否含有异常数据的重要方法,其 最优性质k l l d d 已经给出。1 9 8 5 年该方法被中国国家标准引用,近年仍有文献讨 论该方法。奈尔检验法的统计量为: 蚕1 ,v吾 矗。= 业足一:生! 兰( 2 - 2 )” 仃盯 可以看出奈尔检验法是逐步检验法,需要已知正态总体的方差。奈尔检验法 对样本中仅有一个异常数据时,检验效果是很好的。但当样本中异常数据的个数 不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近 时效果更差。奈尔检验法的统计量疋和r “刻划了样本极端值墨柏和z m 与样本中 心夏的差异,但夏本身抵抗异常数据污染的能力很差,当样本中出现同侧多个 异常数据时,其检验统计量已不能反映样本极端值与中心位置的差异,因此检验 效果不好。为了避免奈尔检验法的这个缺陷,文献【1 】中考虑采用总体中心位置 参数具有稳健性质的估计量埘e d f 鳓,即样本的中位数,代替奈尔检验法的统计 - 4 t 东北大学硕士学位论文第二章常用的异常数据检验法 量中的j ,得到新的具有稳健性质的检验统计量为: 疋:! 型! 垄! 二苎1 2r 一:兰堕= ! ! 坐型( 2 - 3 ) , = - - - 二 ,= :一 ” 仃 盯 用m e d x f ) 代替牙,使得改进的奈尔检验法增强了抵抗异常数据污染的能力。改 进的奈尔检验法也是逐步检验法。当样本中同时含有多个异常小值或异常大值 时,文献【1 】中没有给出检验步骤,在实际操作中可能会因为检验异常小值或异 常大值的顺序不同而引起检验结果不同,因此很滩避免m a 蛐g 和s w a m p i n g 效 应。改进的奈尔检验法也需要己知正态总体的方差,但有时正态总体的方差并不 已知,下面介绍一种不需要己知正态总体方差的检验正态样本中是否含有异常数 据的简便准则。 2 1 2 简便准则 文献【2 】中讨论了一个检验正态样本中是否含有异常数据的简便准则。设( 1 】, x t 2 ) ,x ( 。) 为正态总体的容量为撑的样本顺序统计量,xn ) ,x 2 ) , x ( 。) 为顺序统计量的取值,设统计量j 0 = m a x ( x 一五。) ,瓦) 一牙) ,贝l j x 最有可能 为异常数据,去掉,计算剩下的圹一1 个样本的均值刀和方差s , 牙2 刍萎五( f ) 2 。三互萎( 置一p ) 2 ( 2 - 4 ) 若统计量w = i 以- g i s 7 2 5 8 ,则认为是异常数据。文献【2 】中还讨论了在 砣9 时,此检验的置信概率p 在9 5 9 9 之间:在一取5 8 时,p 在9 0 9 5 之 间。若是异常数据,对剩下的珈1 个样本用同样的方法检查是否含有其它异常 数据。 这个方法比较简单,但只是一个估算方法,检验结果并不是很准确,当样本 容量胛较小时,检验统计量的拒绝域过大,容易把正常数据错判成异常数据,当 样本容量即较大时,这个方法就显得保守些,对异常数据的检验不够灵敏。 2 1 3 分位点检验法 文献【3 】中提出了分位点检验法,在检验来自正态总体的样本中有无异常数 据时,采用了如下的统计量: z = q l 一1 5 h , 五= 吼+ 1 5 h :e = 铂一3 h ,e = q 3 + 3 h( 2 - 5 ) 其中日= q 3 一q 。,孙9 1 分别为样本数据的l 4 、3 4 分位点。 5 - 东北大学硕士学位论文 第二章常用的异常数据检验法 若有样本落在【斤,五】区间以外,【e ,e 】区间以内,则认为这些样本为异常 数据,若有样本落在【曩,e 】之外,则认为这些样本为极奇异常数据。此方法判断 起来简单,且检验统计量是样本数据的1 4 、3 4 分位点的函数,因此当样本量较 大时检验统计量不易受到异常值的影响,但此方法过于保守,对异常数据不够敏 感,有可能漏判一些异常数据,而且当只有单侧异常数据时,g ,、g i 的估计值就 会产生偏斜,可能会导致最终异常数据的检验结果不准确。 2 1 4 改进的分位点检验法 文献【4 】中对分位点检验法提出了一些改进。 改进一: 若样本末受污染时,使得样本落在拒绝域的概率为a ,这样检验会更为灵敏, 改进后的检验统计量如下; f = q 2 ! 主乞,:其中p ( z 乞,:) = a 1 2e ( q 3 一吼) = k 子 ( 2 6 ) 几“ 而以q 。) 可由b l o m 近似公式e z ) = 。( ( f p ) ( n - 2 p + 1 ) ) ( 其中p “0 3 9 3 ) 求得。特别的对于大样本的情况: 。夥崩寺节1 ( 0 2 5 ) = o - 6 7 ( 2 _ ,) 即量。= 1 3 4 8 9 8 ,因此,大样本时检验统计量即为: 厂- 9 2 涨乙一其e o e ( z 元,z ) = 口2 ( 2 - 8 ) 当一些样本落于陀外时,就认为这些样本为异常数据,而正常数据落在艺外的 概率为口。 改进二: 当总体为近似正态分布并有些偏斜时,用2 ( q :- q 。) 和2 ( q 3 一q :) 代替吼一q 。, 这样更能反映出偏斜的性质,检验统计量为: f t = q :- 塑掣和f 3 = q 2 + 型掣 ( 2 9 ) 其e e e ( z 元,:) = 口2 ,e ( q 3 一吼) = 毛疗,k 。的求法同上。当一些样本落于【石,正】 之外时,就认为这些样本为异常数据。 改进三: 当样本总体分布为一般的分布f ( y ) 时,检验统计量为; 东北大学硕士学位论文 第二章常用的异常数据检验法 翩。一掣群( 脚五掣群池鸭) ( 2 一l o ) 其中e ( g 。) 可由顺序统计量的分布函数求得,设,( 1 ) ,y ( 2 ) ,y 为总体f ( ) ,) 的容量为行的顺序统计量,则y 。的密度函数为: g ( * ) 2 百二可;专i 而f ( m ) “ 1 一f ( 咒) ”,( m ) ( 2 - 1 1 ) 因此: e ( m ) = 亡m 南f ( m y 。 1 f ( 儿) 丁。m ) 嘲( 2 - 1 2 ) 当一些样本落于【石,五】之外时,就认为这些样本为异常数据。 改进后的分位点检验法与分位点检验法相比应用更广,检验统计量受异常数 据的影响变小,检验灵敏度也变高,但对于一般总体的情况,需要知道总体的分 布函数f ( y ) ,而且计算量很大,需要借助数学软件m a t h e m a t i c 等进行计算。 2 2 指数分布的异常数据检验法 设总体x 的分布为指数分布,分布函数如下: ,、l e x p f 一三1 x 0 f ( x ) : 石唧r 刮 ( 2 - 1 3 ) 【0 x o 的容量为n 的 顺序统计量,则对任意的1s 七 0 ,玎 0 分别称为形状参数和刻度参数。 x ,彳2 ,x 。为其容量为n 的简单随机样本,五。) ,x ( 2 ) x ( 。) 为样本的顺序统 计量,x ( 。) ,x ( 2 ) ,狮为顺序统计量的取值。下面给出几种w e i l 岫1 分布的 异常数据检验法。 2 3 1 检验异常大值的x l d 统计量与检验异常小值的j f f _ x 统计量 文献【1 2 】讨论了检验服从w e i b u l l 分布的样本中是否含有异常大值或异常小 值的两个统计量,检验样本中是否含有异常大值的统计量如下: 上 a n 五i ) _ i n 五2 ) ) x l d = 掣- 一一 ( 2 - 2 0 ) ( 1 i i 五。一i n 五1 ) ) 1 1 2 x l d 的分布与原分布的参数无关。五1 ) ,五2 ) ,x ( ,) 为来自w i i b i l l l 分布的前r ( r ,o 个顺序统计量,如果工。为异常大值,则x l d 统计量的值也会 比较大,因此x l d 统计量可以用来检验样本中是否含有异常大值,如果检验出 x 。为异常大值,则可知x ( ,) ,却。均为异常大值。若事先己知,的值,就 可以做b l o c k - - t e s t ,若不知道,的值就要做c c 曲e _ 电s t ,从工阳开始依次检 验x 舾1 ) 、孙_ 2 ) ,是否为异常大值。显然b l o c k - - t e s t 的效率要高于c o n s e c u t i v e t e s t ,而且不会遇到m a s k i n g 和s w a m p i n g 效应。当样本容量强较小时,x l d 统计量的分位数可由m o n t e c a r l o 模拟得到,当一比较大时,可以利用x l d 统计 、llrj l j x 一叩,r,i、 ,r 印 e卜 o 东北大学硕士学位论文 第二章常用的异常数据检验法 量的近似分布。当疗一时,文献【1 2 】中给出的x l d 统计量的近似分布如下: j p ( 皿。 y ) = r - ! y z ”廿r h 型i - l - - - 暑+ 型ix + 出1 其中。耶1 4 4x + “x + j 一1r 一占+ 1 检验样本中是否含有异常小值的统计量如下: 0 i l 五一) 一i n 五】) 如z = 鼍r 一 ( 2 - 2 1 ) ( 1 i l 五,) 一i n 五) ) 1 = 1 x l x 统计量对x ,、是严格单调减的,其中l f ,一3 ,当样本中含有异常小值 时,x l x 的值会比较大,因此x x 统计量可以用来检验样本中是否含有异常小 值。用此检验法若事先已知r 的值时,就可以做b l o c k - - t e s t ,若不知道r 的值就 要做c o n s e c u t i v e - - - t e s t ,从x ( 1 ) 开始依次检验x ( 2 ) ,x ( 3 ) ,是否为异常小值。 显然b l o c k _ 铀s t 的效率要高于c o n s e c u t i v e - - - t e s t ,而且不会遇到m a s k i n g 和 s w a m p i n g 效应。当样本容量n 较小时,x l x 统计量的分位数可由m o n t e c a r l o 模拟得到,当以比较大时,可以用x l x 统计量的近似分布。当拉斗时,文献 1 2 1 中给出的埘统计量的近似分布如下: p ( x l x y ) = y 2 其中( o y 1 ) 可以看出x l d ,碰z 统计量只能检验样本中只含有异常大值或异常小值的情 况,而且较适合检验大样本中是否含有异常数据,当样本容量不大时,需要用 m o n t e - c a r l o 模拟来得到其分位数,计算量较大。若要检验样本中同时含有异常 大值与异常小值的情况,文献中给出的方法是,认为样本顺序统计量中间的几个 取值为正常数据,然后从这些正常数据出发,分别检验顺序统计量两端的值是否 为异常大值和异常小值,但认为样本顺序统计量的中间数据为正常数据,这显然 是缺乏理论根据的,对一组待检验样本数据一开始并不能确定那些数据为正常数 据。 2 3 2g 型统计量 文献【1 3 】中讨论了检验来自w b n 州1 分布的样本中是否含有异常大值的g l 和g 2 统计量,不妨记它们为g 型统计量,g 型统计量可以检验服从w e i b u u 分布的样本 中是否含有异常大值。检验统计量如下: - 1 2 - 东北大学硕士学位论文 第二章常用的异常数据检验法 g i ;盥掌孥l l l l 墨圹者善h 五。 g ,和g :统计量的分布与原分布的参数无关。设置1 、,x 。,z 。为来 自w 卣b i l l l 分布的前r 个顺序统计量,如黜。为异常大值,则g 。和g :统计量的值 也会比较大,因此g 和g ,统计量可以用来检验样本中是否含有异常大值,如果 检验出x ,、为异常大值,则x ,、,m 均为异常大值。此检验法若事先已知r 的值,就可以做b l o c e s t ,若不知道r 的值就要做c o n s e c u t i v e - - t e s t ,从瓤m 开始 依次检验飘) 、x ( n - 2 ) ,是否为异常大值。在做c o n s e c u t i v e - - - t e s t 时,g2 统 计量要好一些,因为它避免了置。、了这个统计量,如果x 。和工。,、都是异常大值, 并且比较接近,g 。这个统计量容易受到z 。的影响,而对x 。做出错误的判断, 因此更容易遇到m a s k i n g 和s w a m p i n g 效应。显然b l o c k - - t e s t 的效率要高于 c o n s e c u t i v e - - t e s t ,而且不会遇至 i m a s k i n g 和s w a m p i n g 效应。g l 和g2 的分布函 数并不已知,当样本容量礴交小时,可以用m o n t e c a r l o 模拟方法得到其分位数。 2 3 3 均值比检验法 文献 6 q a 用的是反映均值跳跃度的统计量来检验总体为w e i b u l l 分布的样本 数据中是否含有异常数据,此检验法只能检验样本中只含有异常大值或异常小值 的情况。若记觑为仅依赖于j ( 。) ,五2 ) ,x ( 1 ) 的均值卢的点估计,则 i 五,) + ( n - d ) a = 型i 一下面的统计量能反应出均值变化: 叽一5 警2 ( 一) 氓一p o 1 j p 2 3 ) 其中允= c ( n ,k ,j ) l n x ( 力,喀= d ( ”,k ,j ) i n x ( j ) k r ,p 。为欧拉 常数0 5 7 7 2 1 5 6 6 4 9 当检验样本中是否含有异常大值时,由于p ,是n 的增函数。 如果 i t , - - i t , 职。( r ,磅,则可认双,) 在显著性水平口下为异常大值,若女选择适当, 吼 则可认为x 似1 ) ,x ( ,) 均为异常大值,其e 户u ( r ,七) 的分位数 f l j m o n t e c a r l o 模拟得到。异常小值的检验方法与之类似。此检验法中最关键的是确定k 的取值, 而且确定晡q 取值后就可以做b l o c k - - - t e s t ,不会遇到m a s k i n g 和s w a m p i n g 效应。 - 1 3 赫巅 妒 东北大学硕士学位论文 第二章常用的异常数据检验法 但瑚取值较难判断,文献中给出的方法是,取满足。m ;a 。 x 专 取得最大的 显然,这种方法的误差比较大,易受其它异常数据的影响,而找不到正确的七值。 此方法还可以用来检验来自两参数对数正态分布的样本中是否含有异常数据。 4 极值分布的异常数据检验法 设服从极值分布的总体五其分布函数如下, f,、 f ( x ) = 1 一e x p 一e x p l 型l 其中一o o x ,f 0 ( 2 2 4 ) l盯川 若y 为服从w e i b u u 分布的随机变量,则取对数后l n 瑚艮从极值分布,根据这一 性质,可以用前面提到检验来自w e i b u l l 分布的样本中是否含有异常数据的皿d 统计量、咒以统计量和g 型统计量来检验服从极值分布的样本中是否含有异常数 据。设x ,x :,j 。为服从极值分布容量为h 的简单随机样本,五1 ) ,z 。, x 。为样本的顺序统计量,则可采用如下统计量检验样本中是否含有异常数据: ( 五j ) _ :) ) x l d = 皇l 一 ( 五f ) _ 。) ) j - 2 t - 2 ( 五。) 一五n ) x l x = 掣= 广一 ( 五,) 一五。) ) i - i ( 2 - 2 5 ) ( 2 - 2 6 ) g 1 :j 鲁g 2 ;告( 2 2 7 ) 五,一击蕃五。五,一j 善五一, x l d 统计量、弼z 统计量和g 型统计量的分布函数与前面w e i b u l l 分布异常数 据检验法中这些统计量的分布函数是一样的。其中,x d ) 统计量和g 型统计量都 是检验样本中是否含有异常大值的统计量,脚计量是检验样本中是否含有异 常小值的统计量。这些统计量的检验方法和分布位点求法也同w e i b u l l 分布异常 数据检验法中的一样。 - 1 4 东北大学硕士学位论文 第二章常用的异常数据检验法 2 5 两参数对数正态分布的异常数据检验法 设总体x 的分布为两参数对数正态分布,分布函数为: f ( x ) =r 击e 斗嗲) 。 p 2 。, 0 x 0 其中,盯分别称为对数均值和对数方差。 x ,工2 ,x 。为其容量为雄的简单随机样本,x m ,五:) ,五。) 为样 本的顺序统计量,文献1 6 】中用的是反映均值跳跃度的统计量来检验来自对数正 态分布的样本中是否含有异常数据,若记反为仅依赖于x ( 。) ,x ( :) ,五”的 五,) + 如一七) ) 均值的点估计,则反= j 三! _ 一。则下面的统计量能反应出均值 变化: u ( r ,七) = 丛i 丝= ( 一丘) k r ( 2 - 2 9 ) 其中a = d ( 疗,k ,j ) l l l 五护 喀= c 。( n ,七,) l n 五,) i r 同上面w c i b u l l 分布的异常数据检验的均值比检验法的检验思想一样,u ( r , 七) 的分位数可由m o n t e c a r l o 模拟得到,此检验法只能检验样本中只含有异常大 值或异常小值的情况。 2 6 小结 综上为一些文献中讨论的对于某些特定分布的异常数据检验法,有些只能检 验样本中只含有异常大值或异常小值的情况,有些只能检验样本中同时含有异常 大值和异常小值的情况。因为无法确定异常数据的个数七,大多数统计量无法做 b l o c k - 钯s t ,因此容易遇到m a s k i n g 和s w a m p i n g 效应。当做c o n s e c u t i v e 匏s t 时,检验法的功效函数很难计算,而功效函数是评价检验统计量检验效率的标准, 因此也很难通过功效函数来评价这些检验法的检验效率。在第五章中举了大量服 从常用分布的有污染和无污染的样本,再分别用这些检验法进行异常数据检验, 通过检验结果再进一步对这些检验法进行分析。 1 5 东北大学硕士学位论文 第三章均匀分布检验法 第三章均匀分布检验法 本章将讨论一种新的异常数据的检验方法均匀分布检验法,包括上下a 2 分位点检验法和顺序统计量检验法。均匀分布检验法是基于均匀分布的一个性质 提出的,首先看一下均匀分布的这个性质。 3 1 均分分布的性质 均匀分布的一个性质:若随即变量的x 的分布函数为f ( x ) ,则随即变量 y = f ( x ) n 从【o ,1 】均匀分布。 证明:对任意的0 y l , p 0 y 产p f ( x ) y = p x 的概率,由前面的假设可知e 此概率等于 f + j 兀p k ( 1 - a ) ”。 t = l 综上,上下0 l ,2 分位点检验法的功效函数为: 1 1 一( 1 一口) ” 蹦如2 协只( 1 刊一一, lk = l 原假设正确 原假设错误( 3 - 1 ) 由功效函数可求出上下,2 分位点检验法犯第1 错误的概率为1 一( 1 一口y ;犯第 ,+ f i i 错误的概率为1 一兀只( 卜口) ”,。可以看出犯两类错误的概率都与显著性水平 1 k - 1 l a 和样本容量玎有关,犯第n 错误的概率还与异常数据的个数和异常数据落在拒 绝域内的概率有关,若比较犯两类错误的概率大小,一般而言异常数据落在拒绝 域内的概率会比较大,因此,犯第1 类错误的概率会大于犯第1 i 类错误的概率。 还能够看出此检验法犯两类错误的概率随着h 的增大而增大,当n _ o o 时,犯两 类错误的概率都趋于1 。下面给出另一种均分分布的异常数据的检验法,顺序统 计量检验法。 3 4 顺序统计量检验法 一般的,设五1 ) 五2 ) x ( 。) 是来自总体分布为f ( 功的样本容量为一的顺序 统计量,则x ( ,) 的密度函数为: z ( x ) = i 赢f ( x ) “1 1 一f ( x ) ”。1 厂( x ) ( 1 蔓f s 帕( 3 2 ) 若f ( x ) 为 0 ,l 】均匀分布,则五。的密度函数为: z ( x ) 2 f 丽n ! 而x t - i ( 1 一圹1 ( 1 s 砷( 3 - 3 ) 【0 ,1 】均匀分布上的每个顺序统计量墨。的具体分布都是已知的。因为异常数 据总是出现在样本值的两端,因此对容量为n 的一组样本数据;x m ,x ( 2 ) , x ( ) ,可以首先检验x ( 1 ) 是否为异常小值,若是,则依次检验工( 2 ) ,x ( ”,是 否为异常小值,直至检验到x ( j + 1 ) ,石( 。) 不为异常小值,则样本中含有i 个异常小 值x ( 1 ) ,x m ;同理从z ( 。) 开始依次检验其是否为异常大值,直至检验到 x ( 。1 ) ,x ( 州) 不为异常大值,则样本中含有_ ,个异常大值x ( w + 1 ) ,x 。) 。可 以看出这种检方法即是c o n s e c u t i v e - - t e s t 。 1 8 东北大学硕士学位论文 第三章均匀分布检验法 首先看一下如何检验x ( 1 1 是否为异常小值,由式( 3 - 3 ) 可知五。) 的密度函数为 石 ) = 瓜”1 ,如果x ( 1 ) 为正常数据,则五1 1 取值为x ( 1 ) 或比x ( i ) 更小的概率为: e “搬”1 出= 1 一( 1 一确) ) “j o ,7 若这个概率小于事先给定的显著性水平口,就有有充分的信心认为x 。是异常小 值,按下来检验x ( 2 】,x ( 3 ) ,是否为异常小值,直到存在i ,使得五。) 取值 为x ( ) 或比x j + 1 ) 更小的概率大于口,则不能认为x ( 1 + 1 ) 是异常小值,即x ( i ) , x ( 2 ) ,x j ) 为异常小值一般的,若判断x ( ,) 是否为异常小值,要计算x ( ,) 取 值为x ( f ) 或比善( j ) 更小的概率: e ”。i i ,:。i j ! ;i 丽x ”1 ( 1 工) ”一f c 6 c = l 一;t - 。i 、,f 。l l ,k ( 1 - x ( t ) ) ”一( 3 - 4 ) 若这个概率小于口,则认为x ( :) 是异常小值。 上面介绍的是如何检验x ( 1 ) ,x ( :) ,x ( 。) 中是否含有异常小值,同样 的方法来判断。( 。) ,5 ( :) ,x ( m 中是否含有异常大值。从x t 砷开始检验其是 否为异常大值,若五。,取值为x ( 。) 或比x ( 。) 更大的概率小于痒,则认为x 为异 常大值,接着逐个检验x 忙”x 。:,是否为异常大值,直到找到j ,使得 五州) 的取值为x ( 州) 或比i ( n - j ) 更大的概率大于口,则不能认为i ( n - j ) 为异常大值, 即x ( 。+ 。) ,x ( 。) 为异常大值。一般的,若检验x ( n 是否为异常大值,要计 算五) 取值为x ( 力或比x ( d 更大的概率,根据均匀分布的对称性,可以检验1 一t d 是否为异常小值,即计算墨叫取值为1 - 力或比1 一n 更小的概率,因此能够利 用上面检验x ( o 是否为异常小值时得到的式( 3 _ 4 ) : ( 。石j 纛岛r 慷2p 西岛矿砸刮1 拈 l 一芝k 虹n ”( 3 - 5 ) 若式( 3 - 5 ) 的概率小于口,这认为1 - 一,) 是异常小值,即x m 是异常大值。 综上,在检验总体为【0 ,1 】均匀分布的样本中是否含有异常数据时,通过对 样本顺序统计量两端的取值的逐个检验,来检验那些数据为异常数据,因此,不 妨称这种检验法为顺序统计量检验法。 顺序统计量检验法是c o n s e c u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论