(概率论与数理统计专业论文)不平衡数据问题的统计分析.pdf_第1页
(概率论与数理统计专业论文)不平衡数据问题的统计分析.pdf_第2页
(概率论与数理统计专业论文)不平衡数据问题的统计分析.pdf_第3页
(概率论与数理统计专业论文)不平衡数据问题的统计分析.pdf_第4页
(概率论与数理统计专业论文)不平衡数据问题的统计分析.pdf_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 文 1 1 2 3 】给出了几种对纵向不平衡数据建模时的参数做估计的方法( 极大似 然估计) 在众多文献中,对不平衡数据还有一些处理方法,本文在前人研究的基础上 给出综述,建立简单的模型并进行随机数据拟合来验证这些方法的优劣,以及对将 来这个问题的研究方向做出展望 本文共分四章第一部分是引言,主要介绍数据不平衡的定义第一章介绍中位 数平滑法,尝试用中位数平滑法处理不平衡数据第二章介绍几种估计方法并建模 给出估计第三章主要是应用举例,进行随机数据拟合来验证这些方法的优劣 关键词:不平衡;相关 a b s t r a c t i np a p e r l l 2 】,s e v e r a lm e t h o d so fp 甜锄e t e re s t l m a 乞ea b o u tl 。n g i t u d i n a lu m b a l a n c ed a t am o d l i n g a n dt h e r ea r em s o8 0 m ep r o c e s s e st ou n b a l a n c ed a t ei nm a n y o t h e rd o c u m e 珏t s a no u t l i n eo ft h i 8s u b j e c tb a 8 e do 珏p r e v i o u 8s t u d i e si i l 地i sp a - p e r t h e n ,t h ea 肛t h o rb u i l da8 i m p l em o d e l ,矗tt h er a n d o h ld a t at oi d e n t i f ,t h ep r 0 8 a n dc o n so ft h e 8 ed a t a ,a n dr n a k ep r o s p e c tt ot h es t u d yo ft h i sp m b l e m t h e r e 村ef o u rc h 婶t e r s 逊t h i sp 氇t e r 。t h e 缸8 tp a r ti 8 啦r o d u c t i o nw h i c ht e hu s a b o u tt h ec o n c e d t i o no fu n b a l a n c ed a 七a ,a n dt h em e t h o d su s en l e d i a nn u m b e rw a s i n t r o d u c e di nc h a p t e r1 t h ea u t 量l o rm a d ea 珏a 名t e h l p ta td e a l i n gw i t ht h eu n b a l 8 n c e d a t ai nm e d i a nn u m b e r i nc h a p t e r2 ,e s t i m a t em e t h o d sw e r eq u o t a t e d ,a n de v a l u a t i o n w a 8g i v e nb ym o d i i n g i nt h et h i r dc h a p t e r ,s o m ee x a m p l e sw e r eq u o t a t e dt oi d e r l t i 母 t h ed r o sa n dc o n s 西t h e s er a n d o md a t a 。 k e y w o r d s 1 1 1 l b a l a n c ed a t ac o r r e l a t i o n l l 独创性声明 本人声骥所呈交的学位论文蔻本人在导耀捂芬下进行的研究王俸及取得的研 究成果据我所知,除了文中特剥加以标注和致谢的地方外,论文中不戴含其他人 已经发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教脊机构的学 位或证书丽使用过的材料与我一阕工作的同志对率研究所做的任何贡献均已在论 文孛痒了睽确戆巍硬并表示澍意。 学位论文作者签名 袭。糸 日期 驴喵年| 鼍i j 学位论文版权使用授权书 本学位论文作者完全了鳃农北师范大学有关像鬻、使用学位论文的蟪定,即: 东嚣帮范大学蠢较镶餐著志藿家蠢关部 j 交援搀送突学位论文豹复零 孚程磁盘,竞 许论文被鸯阕和借阕。本人授权东北师范大学可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的论文在解密后应遵守此规定) 佟考签名:耋:! 叁 日期:塑塑璺璺 学位论文作者毕业后去向 工作单位 揍导教耀签名:避章 隧濑_ i ! ! 堡塑 t 穹 厦。、m 菇一中孝 遴最遮缱:墨! ! 量叁鎏苎三墨 电话i 旦丝丝够7 中 囊鹈签| ! 竺 引言 当观测的对象可以分为几类时,对他们分别观测可以得到几组数据,如果我们 将观测的几类对象作为横向坐标,由于观测时间或地点的差异,观测结果可能有所 不同,我们将其作为纵向坐标,这样我们得到了一个数据阵我们可以单独研究某 一对象,也可以研究在这一时间点所有对象的情况,也可以求出两个不同行也不同 列的点彼此间的关系但是,在实际观测中,我们未必能够得到一个完整的数据阵, 受到一些观测条件的限制,可能会出现这样的情况,对某些对象观测的点数可能会 比较多,其它的观测次数比较少或者观测的次数相同,但观测的时间或地点却不 同我们把这称为数据的不平衡数据不平衡后,会不会使研究的结果产生影响呢。 我所研究的就是这一问题。 本文尝试用多种方法来处理这一问题,包括对总体均值的极大似然估计,以及 中位数平滑法等等 中位数平滑法等等 第一章中位数平滑法 1 双向表 考虑这样一个数据集,其中观测值写作:, ;1 ,;j = 1 ,j 并且以 长方形表格的形式显示 13 l 挈l l爹l j , 口nj 我们称其为一个双向表这数据结构涉及三个变量:行因索p ,有,个水平戏位级, 即( 1 墨p 墨j ) ;剃因素q ,有j 个水平或位级,邵( 1 qs 刃;当p i ,印= j 霹,对应辍,我翻有j 了令怒测壤,箨每嚣每襄戆每令缀合骞一个鬣潦繁。 2 双因子方麓分量模型 我们建立双因子方差分量模型为 百珏= 弘+ 也t + | 毛+ 小 在这溪墼中、弘怒整个表夔总薅憨穰;搿嚣素懿第j 令承乎对总瘁魂篷懿影嚷楚8 ; 称为行效应:列曝豢盼筹j 个水平对总体均值的影响是岛,称为列效应:e 。怒溟差 现在,我们想蒙得到,n 。,岛的估计,最简单的方法莫过于直接求均值估计,即 ij f :1 = 蜘,( = j ) 1 = t ,端1 j 威一匹虢,】一砖 j = l , 岛一【”。引一皿 t = 1 它兹不霆之处密子:步数纂元鹣大撬动影韵总薅均德、嚣效应与裂效应。爱羚, 数据的不平衡也会对信计结果产奎影响 不平衡 在实际观测中,我们未必能够彳辱到一个完整的数据阵,受到一些观测条件的限 制,可能会出现这样的情提:对某魑对象怒测的点数可能会比较多,其它的贼测次数 跑较乡。或袁鼹测戆次数耀霹,毽麓溪麓霹楚或建点嫠不淹,我察据这舔菇数糖豹不 平衡 2 当数撼苓平衡对,缺失点必麓按o 处瑾,辩络皋产生较大影响,我们尝试尾中位 数取代均值做估计 1 中位数平滑法简介 我髓瑗在对数据表述转速代运算,接行计算每符瓣申位数,然鼹及该行的每个 蕊测餐审减去这拿孛位数簸然后对予结果褥爨鹅表,按襄计算每魏戆孛往数,及该 列的每个观测值中减去这个中位数值当然,如果一个行或列有中缎数o ,这行或列 没变化不停这样做,直到所有行或列都有零中傥数为止 为了更正式表示这个过程,我们建立模型为 我们记第n 次迭代结荣厝时的值为 矾,需m 扣1 + n m 十西岫+ e 擘 ( 1 1 2 ) 我嬲记第1 次遥我蔻# 艟拐戆条搏 m ( o ) :o 。l o = o ,6 ,1 = o ,诘1 ,;,= l 。, 一次遮代中懿具体步骤魏下: 行: n :一m 谢( e 争1 1 撑1 ,;j = 1 、j ) m l “1 一m e d e ”1 b l ,l , d 鎏= e 驴n 一8 魁 江l :,f ;,= l ,j ) 捌: 妒= ,n e d ( d 孑。h = 1 ,tj = l ,j ) m 驴一m e d n :“一1 + n “1 4 一l ,一,) e 霉= 嘞 螂一秽;囊= l ,f ;,= l ,毋 公共值与效应: m f ”) = m n 一1 + m 驴+ m 扩 3 f 1 13 1 f 114 1 f 1 1 ( 1 1 6 ) ( 11 ,7 1 ( 1 1 岛) ( 1 1 9 ) 血:州= o :n “+ 口:一m p 妒= 妒一一m 驴+ 妒 ( 1 1 1 0 ) ( 1 1 1 1 ) 为了便于保存中间结果,我们写出有关行和列的计算表格,在表1 和表2 中草 拟出这些计算表格的图式表1 表示在第n 次迭代的行中位数平滑,表2 表示在第 n 次迭代的列中位数平滑 表1 前一次 l ,j lj新m e d 1 e 器。)e 净1 ) o ,】o p _ 1 1 i e 赡- 1 e 垮1 ) n , n n - 1 前一次 6 p _ 1 妒q f m :n m ( n 一1 ) 表2 1 0 1j 前一次 1 龆。d 净1 1n p + n p 1 i 赋。d 易_ 1 n r + 。p 。1 新n l c d b p 6 , m 驴) 前一次 6 p - 1 一m 扩6 9 一一,7 l l 叫m l ”+ m ( n 1 ) 以上是中位数平滑法的基本步骤,迭代到最后时,m 驴n t “i 妒,n 为。 我们可以用最终得到的”z 估计公共值,标记着前一次的列和行在最后一步成为行效 应和列效应的估计用各点数据的剩余值( 表中数) 估计偏差巳, 4 2 朋中位数平滑法处理实际问题 现搬,我们用中位数平滑法来处理实际问题,考察美国的婴儿死亡率:行差别反 映地区的不同,包括东北、中北、南部、西部四火地区;纵差别反映父亲受教育年限, 包括小予等予八年、九年刭十一年,十二年、十三列卡五年、大于十簸年,根据所得 懿数据蠲表3 懿下: 表3 地区,受教颦限 1 6 东北 2 5 32 5 31 8 21 8 31 6 3 中j e 3 2 12 9 o1 8 。82 4 31 9 0 鬻帮 3 8 湛3 圭固 l 。3王5 。7 王6 。8 舀帮 2 5 ,42 l ,l2 0 32 4 o1 7 5 现在,我们用中位数平滑法处理此问题,袭4 是最终的迭代结果 表4 l 地区、受教年限 1 6 l 东j 一l 。l0 。50 00 、?0 ;7 中北 1 1 0 4,4 ,oo 71 2 i 南部 1 125oo 14 5o o l 西部 一2 95 6o 231oo m = 2 0 6 如= ( 7 ,4 ,5 8 ,一0 。8 ,0 ,一3 ,4 ) 讯= ( 一l6 ,3 + o 一o 4 ,o 4 ) 表中的剩余值为e 。的估计 我们褥到m 的一个岱汁2 0 6 ,并量发蠛磷部地区父亲受教育年限小于等于八 年秘大镶差 下丽,我们尝试用均值来分析幼儿死亡率,褥结果如下( 表5 ) 表5 地区,受教年限 1 6 i 东北 一3 oo 91 20 。llo l 孛袭 一e 。王0 62 2 圭。9一o 2 l 南部6 92 9。1 46 42 ,l 西部 一3 84 42 34 6 1 3 5 慨= 2 2 8 2 6 j 燃( 7 5 8 ,3 7 6 ,一3 ,6 8 ,一2 2 4 ,一5 。4 2 ) 哦= ( 一2 1 4 ,1 8 2 ,1 5 0 ,一1 1 8 ) 液中的剩余值为的估计 诳见,由于均值分析必须保证残蒺每行的朔与每列的和为o ,导致本来殿属于南 帮受教育最步的父亲的大残差1 1 2 分散甍它所在酌行与列中,餐很多小残藏膨藤 举例,假设粱种原因,我们缺失了东北地聪9 一1 1 ,中北地区小于等于8 ,南部地 医1 2 ,疆部逑医太于等予1 6 魏足缀数据,逮辩数器已不平鸯;我懿麓否曩溅蠢方法 计算睨? 我们仍用中倥数乎潜法,抛去装失的点不管,最终得结果如下液6 表6 地区受教年限8 9 1 11 21 3 1 5 1 6 l 东j e 国0 。0一l + 88 ,0 中北 0 01 _ 92 1o2 南部 3 74 74 o 一4 3 匿帮 1 87 30 22 2 m = 2 u r 6 7 = ( 5 4 66 ,一1 7 ,o 一3 6 ) a 。= ( 一1 o ,16 ,一1 1 ,10 ) 表中的剩余值为e 。,的估计 我们发现m 的值变化不会由于少数点的缺失受太大的影响假是与缺失点同行 或嗣列的菜些,藏酶偏差受翔较大子貔,南部魏区父受教肖,j 、于等予8 年的绱差已亩 1 13 变为3 7 我粕薅垮董| 萋方法求囊鲣下( 表7 ) 6 表7 地区,受教年限 8争l l1 21 3 一1 5 1 6 东北 ,1 4 4 2 1 6o 8 32 0 3 孛袭 圭。8 60 毒3 。鑫3王,鑫3 南部 6 ,0 71 0 6 7 7 9 3 4 7 西部 4 5 36 0 41 13 3 3 仇= 2 2 6 4 屯= ( 7 1 9 ,硅。3 9 ,3 5 4 ,一2 ,o ,一5 。2 7 ) 氐裟( 一3 1 ,o 1 ,2 9 ,0 1 ) 表中黪糕余筐为粕,翡售计 数据不平衡后,缺必点所在行和所在列的残差受到较大影响,和已经不为0 比 中位数方法更不理想的是由于备行或各列缺失点数的不同,使行鼹素或列因素的估 计嬲现较大偏整,和不为o 可见、数据不平衡使一些原肖方法失效,我们在下一章中讨论如何处理数据不 孚餐匏阉瑟 第二章极大似然估计 l 。d 邀l e 的方法 d i 9 9 1 e 在1 9 8 8 零绘出了一秘方法,求出了各个点均蠖与点与患之楚蛰穷差黪 极大似然估计我们假定整个实验包括m 个观测对象,对第i 个观测对象观测他;次 ( 1 f m ) ,这样我们一共观测n = n 1 + 扎2 + + 礼。次其中“魁随机变量, 为籍i 个观测对象的第j 次测量+ 一( l ,2 ,。1 ) ,y 一( k ,k ,) p n 。= e k 奶】,地一e 班】,牲一e y 】 我们假定y 在一些变形后满足一个多元正态分每,郄y m v n ( 弘,矿) ,为了 完成对这个模型的分析,我们需要找到n 维向疑p 与n 他维方差阵v 的舆体形 式 对均值# l ,我们假定线性模型p = x p ,其中x 鬼n 咒维协变蹙:日悬一个口1 缭参数阵,静? 1 l _ 舻l 一,跏。可蔫芦个参数线性表出,对y 我们需要假设之 阍是彼此独立黪( 尽管在测震过程中蠢可麓产生程度懿结果) 这襻矿是一个对凳 块矩阵,( 因为c 。v ( m a 、k 女) = o ,i j ) ,每一块m = ”8 r ( k ) 我们选择一个简单而又能满足上述条件的模型, m 。= 趣,+ z 咄。+ 戳+ 虹( o u ) ( 2 11 ) 其中z 峨,蹩测量误差,疆立阕分带于n 固,r 2 ) ;识爱映观测对象之阐的藕关往、独 立圊分布于n ( 0 , 哩) ;峨似巧) ) 是关于i 独立螅稳定熬菇矮避程,有 扛 珏:( 。) j = o ,c o v ( 崴( ) 致( s ) ) = 矿2 | 。( t s | ) 一般情况下选择矿( 。) 一e 。p ( 乜岱) 最焉,我们令幻怒l ,的测量时闯,是一个单位降;j 怒一个元索都为1 的 阵;硪f ) 是一令对嚣疼,第( 舞,1 ) 个元素为p ( 一赴| ) 对应方差阵为 k 鬈丁2 f + y 2 j + 盯2 兄( o ) 我们建立极大似然方程并做检验 现在,我们建立的模型中有参数口,r 2 ,y 2 和。为了简化,我们新定义参数妒= ( l ,妒2 ,妒3 ) ,其中张= 丁2 拶2 ,轨= 矿2 矿,妒3 = ,裔矿一口2 矿。( 妒) ,这样极大儆然 s 方程为 l ( 口,a 2 ,) = 一扣l n ( 盯2 ) + l n 叭妒) i + ( x 口) 俨( 妒) 一1 ( 可一x p ) a 2 ( 2 1 2 ) 给出这些参数的估计即可 求得参数的估计为 d = x 7 ( 中) 一1 x r l x k ( 垂) 一1 ( 21 3 ) u n r ( d ) = 一2 【x 7 ( 西) 一1 x 一1( 2 1 4 ) i 2 = n 一1 ( 可一x 自) 7 y o ( 妒) 一1 ( 可一x 自) ( 2 1 5 ) 对于中的估计,我们令 一x = b ( 屯) 对所有的虫、有 b ( 垂) y o ( 妒) 一1 b ( 中) = y o ( 妒) 一1 b ( 西)( 2 1 6 ) 使方程圳v o ( 妒) l + n f n h _ 1 可y o ( 妒) _ 1 b ( 虫) 9 达到最小值的妒就是它的极大似然估 计 这种方法是d 谵g l e 在处理重复测量问题时所采取的方法它避免了数据不平衡 时缺失点对本行或本列的影响、把所有数据放在一起处理,解决了问题 我选择了一种简单的模型,:,= “+ u + 即所有的。服从一个均值z 、q 。, 独立同分布于n ( 0 ,r 2 ) ,反映行列影响:测量误差。独立同分布于n ( 0 矿) 此时, 参数有口2 “r 2 、建立新的极大似然方程为: l ( 1 ,口2 ,r 2 ,p ) :一; n l n ( 2 ) + l 。l y l + ( 一c 厂) v 一1 ( 一u )( 2 1 7 ) 其中 c 厂= ( p ,弘,“,) j v = ( r 2 ) “( t 2 + n 口2 ) 其中 v 1 n l l n l n n 1 0 n “ n ,。= 下2 + ( 几一1 ) 盯2 ( r 2 + 佗盯2 ) 7 - 2 ) 9 计 8 “= ( 一1 ) + ( a 2 ) f 2 + 铃群2 ) r 2 ,j ) 先薅对盯2 ,r 2 ,“求导,令露函数为o ,联立解方程,即可求出它们的极大似然估 1 0 2 核丞数估计方法 在菜螳实际问题中,均假与测量的时间有关,即肛为t 的函数,此时用上述方法 建模就不是很好z e g e r ( 1 9 9 4 ) 用一种改进的模烈对均值重新进行估计,他是这样建 模的 k 吣一五 日零磊+ 弘( o 韬) + 筏( o ) ( 2 。2 1 ; 此时舡一忍沁p + “( 奶) ,麓中五奶声的取法与d i g 科e 一致,置t ,为协变量;卢为参 数肛( 幻) 袭示均值的一部分照t 影响,眦( 幻) 烂纵向相关,均值为0 ,也是t 的函 数五,燎谩差 程徽芦懿售计时,走令声的褪篷鸯o ,估诗弘+ 我秘薅棱函数傣计方法,给蛊 带宽毳一蠢( 9 ( t ) ) 卸1 2 5 ,冀申茬是一个正常数,敬嚣受番数 k ( u ) = e 一“2( 2 2 2 ) q :,( = ) _ 1 ( 一如) h ( ) q 奶渤净。,是( 奶) ) 鍪l 凳t 曦。( 蕊。 得到的樱估计为 豇( = 翟1 器l a q ( t ”) 甄, 估计,时用迭代的方法,先给出初始值届吼令r 爨 ( 22 ) ,鸯 r 鏊,= z 玩,+ 弘( ,) + 玩( u ) 用核估计得到“川( n 再令 观= 一肛( 幻) f 2 2 1 3 1 f 22 ,喜 f 2 2 5 1 = k c 。一x 咄,口盹代入 ( 22 8 ) 代入( 2 2 + l j ,蠢 s 嚣= 鼍奶芦五+ 溉( 奶) 2 ,2 ) 用d i g g l e 的方法得到芦的估计卢弘再令一2 ,一,一。p 1 1 1 褥用核估计得到 肛叭幻) ,不停迭代直到二者都收敛为止,即p 叫如) 和卢趋于定值,就是它们的估 十 程求镑方差匏佶计时,技l 令磊秀溅璧淡簇,獯立嚣分布予n ( o ,) ,溉( 岛 是美予i 独立静稳定翡嵩凝避程, e 瞰( o 玎) 】一o l l 俐( 暇( t ) ,暇( s ) ) 一吒“陋一8 限 k 的掩方差阵k = a :j + 霆魄,盏) ,露( :,t 0 是令方阵,繁0 ,奄) 令嚣索鸯联一t :1 ) 1 2 3 对均值,标准差以及相关系数建模并求估计 2 0 0 5 年,h u a n g 用一种方法对均值,标准差以及相关系数建模并求估计,具体方 法如下: e 残( 棼 = m ( t ;砩 ( 2 3 ,1 ) ,5 翟 誓妨) = d i ( 亡l8 ,6 ) ( 2 3 ,2 ) g o r r k ( t 1 ) ,k ( 亡2 ) ) = n ( t 1 ,t 2 ;n ,6 ,c ) ( 23 3 ) 可见对标准差建模时照顾与均值模型有公共参数6 ,对相关系数建模时与均值 模型有公共参数6 ,与标准簸模型有公共参数( ,嗡这襻便极好的繇释了三者的关 系。 这艟先将( t ) 标准化。 q ( t ) 一 k ( t ) 一m ;( t ;6 ) 哦( t ;n ,6 )( 234 ) 它的均 薮为0 ,方差为l ,可分为三部分。 e ;( ) 羔芦 驻) 毛+ 弘2 0 ) g ;0 ) + p 3 8 ) 印( )( 2 ,3 ,善) 其中、8 是与时间独立的个体间影响:矗( t ) 是测撼误差,随时间改燮:叩( t ) 是个纵向 序列相关过程,p 1 ( ) 、f z 2 ( f ) ,“3 ( t ) 是权重函数并随时间变化而变化有 ( ? 8 、r ( 霉:1 ) ,臻2 ) ) 燃p ( t l 、t ! ) 数 令c 一( ( b ,c 。,啦,c 3 ) ,它们分别是弘1 ( t ) ,砌( z ) 脚( ) ,p ( t 1 、z 2 ) 的参数,有相关系 ,( f l 、 2 ,。) 祟芦l ( 屯、e 1 ) 芦t ( 如、e 1 ) + 芦2 t l ,。2 ) 蚌2 ( 2 ,晓) + 鳓秘i 。c 3 ) 艘l ( e 2 ,c 3 ) 尹( t l ,t 2 ;锡) + f 2 38 ) 建立迭代似然函数工( 8 ,口) ,当日= 目时,有l p ) 口= o 在每一次迭代中固 定口7 为前一次迭代时p 的值求日使l ( 目,日) 最大可知口= ( n ,b ,c ) ,口7 = ( n 7 ,b ,c ) , 定义似然方程: ( # ,# ) 一三箩p ,矿) + 嚣( 8 ,8 ) + 雾( c ,乎;2 3 ? ) 五妒( 6 ,8 7 ) = 一 叫”( 1 ,如;口) d 黜t t ;6 ) d 如;6 ) ) ( 23 8 ) # 1 ( e 1 ,如矗) 】3 五妒( 6 ,8 7 ) = 一 喇由哪戚4 ( t ,孤6 ) ) 2 ( 2 3 9 ) t = j ( l ,锄薯) l 妒( c ,幻= 一 叫7 ( l ,屯;) d f ( l ,。2 ;c 6 ) ) 2 1 0 ) b l ( o l ,如) d :”( 1 ;6 ) 一m ( t ) 一m 。( t ,)( 2 3 1 1 ) 妇,( 。1 ;。,= k # ) 一7 n ;( f ,f ) ) 2 一霹( ;。,6 + ) ( 2 名1 2 ) 耐“沁,t 2 ;# ) ,哦癣( ,;8 ) ,哦k t ,t 2 ;8 。) 是三个随时闻变纯静任意j 平蔑模式 的权重函数。 最后对口和求估计即可 以上是一龅圜内外学者对不平键数据的一些处理方法,还有一些我就不一一叙 述了,我想要戮突豹是当摸登楚纯辩,筑否一些方法鼹冀遴搿处理,先蓬枧褥遣一缀 平衡数据、再任意去掉一些使其不平褥,用数据揿合的方法来验证这些方法实用与 否 1 4 第三章随机数据模拟 现在,我们随机产生几组数据,用中位数平滑法来验证一下数据不平衡后的影 响 首先,我们产生1 9 1 9 数据阵,阵中每个数都是1 4 0 的随机整数,在任意 缺失一些数据,得到矩阵m ,先后用中位数平滑法来作,结果矩阵分别是b 和a ,结 果均值是几和m ,( 见附录1 ) ( 产生程序见附录2 ) 结果显示,均值m 和n 相差不大,但对结果矩阵影响巨大 我们将产生6 6 的数据阵a ,在随机缺失一些数据,得到列向量,用极大似 然求得m ,口2 ,r 2 的估计为( 见附录3 ) 盯2 为d ,r 2 为t ( 程序见附录4 ) : 1 5 参考文献 d l 职l e a n dv e r b y l ,( 1 9 9 8 ) n 。n p 踮a m e t r i ce s t i m a t i o no fc 。v a n 肌c e s t r u c t l l r ei nl o n g i t u d i n 砒d 8 t a b i o m e t r i c s ,5 4 2 g a b r 越( 1 9 6 2 ) a n t e d e p e n d e n c ea n a l y 8 i so f 舭1o r d e r e ds e to fv a r i a b l e s a n nm a t hs t a t i s t 9 3 h a u ,a n ds e v e r i n i ,( 1 9 9 8 ) e ) c t e r l e dg e n e r a l i z e de s t l m a t i n ge q u a t i o n sf o r c l u s t e r e dd a t a a ms t a t l s ta s s 3 3 4 1 h a l lp ,f i s h e rni a n dh o 母n a n n ,b ( 1 9 9 4 ) o nt h en o n p a r a m e t r i ce s t m a t i o no fc o v a “a n c ef u n c t i o n sa 皿s t a t i s t 2 2 副 h a n d ,d ja n dc r o w d e r ,m j ( 1 9 9 右) p r a c t i c a ll o n g l t u d l n a id a t aa n a l y s l s l o n d o n :e h a p m a na n dh a l l 6 1h u a n g 、w ( 2 0 0 4 ) i t e r a t i v el i k e l i h o o df u n c t i o nu n p u b l i s h e d 引 k e n w 。r dmc ( 1 0 8 7 ) am 。t h o df o rc o m p a r l n gp r o 丘1 e so fr e p e a t e dm e a s 1 1 i 彻1 e 1 1 t s a p p i s t 砒i s t3 6 8 】 l a l r d nn i ( 1 9 8 8 ) n i i s s i n gd a t ai nl o n g l t u d i n a ls t u d i e s s t a t i s t、i e d7 9 】l a i t d 、n 、i d o n n e l l y ,ca n dw a l e j h ( 1 9 0 2 ) l 。n 9 1 u d l i l a ls t u d l e sw l t l l ( 、1 j 1 l t i n t ) l 1 sr e s p o n s e s s t a t j s t 、i e t hl ( ) l a l r c 【,n 1 1 d 、a r e 、j h ( 1 9 8 2 ) r a n d o i n e f r e c t s 1 1 1 0 d e 】s 儿r i u i 】g m l ( 1 l i l a l d a c ab 】o m e ”i c s ,3 8 1 1 l m l l g ,k ya n dz c g e r 、sl ( 1 9 8 6 ) l o n g n d i n a ld a t aa n a l v s 叭1 s i “gg e l l c r a l 胁( 1l i i 】e ar i l d e l sb i o m c 埘h ,7 3 1 2 l l p s i t z ,sr ,la i r d ,nm a n dh a r r i n g t o n ,dp ( 1 9 9 1 ) g e n e r a l i z e de s “1 1 1 a t i n geq i l a t i o n s 。rc 。r r e l a t e db i n a r yd a t a :u s i n gt h eo d 出r a t l oa sam e a s ur e o fa s s o c l a t i o nb i o n l e t r i k a7 8 1 3 l l t t l e s r aa n dr u b m ,d b ( 2 0 0 2 ) s t a t i s t l c a la n a l y s i sw n l lm i s s l l l g d a t a ,2 n de d n n e w1 如r k :w l l e y 1 4 n 1 1 n 坼a n t o n ,va n dw o o d w o r t h ,gg ( 1 9 9 4 )a n a l y s i s o fl 0 n g i t u d i n a l d a t aw i t hu n e q l l a l l ys p a c e do b s e r v a t i o n sa dt i m e _ d e p e n d e n tc o r r e l a t e d e r r o r s b i o m e t r i e s 5 0 e r m r sb i o m e t r i c s 5 0 1 6 【王翻舶u 嫩l m a 惑m ( 2 0 0 i ) f o u n d a t i o n so f 艇m e8 e r i e s8 n 蛳i s a n dp p e d i c t i o n t h e o r y n e wy b r k :w i l e y , 1 6 l 】p r e n t i c e ,r l a n dz h a o ,l p ( 1 9 9 1 ) e s t i m a t i n ge q u a t i o n sf o rp a r 锄一 e t e r si nm e a n sa n d v 甜i a n c e so fm m t i 谶r i a t ed i s c r e t ea n dc o n t i n t 王o u s r e s p o 珏s 髂。b i o 磁e t 如。s ,唾7 , 【1 7 j 、v a r e ,j h ( 1 9 8 5 ) l i n e a rm o d e l sf o rt h ea n a l y s i sf o rl o n g i t u d i n a ls t u d i e s a m s t a s i s t n 3 9 1 8 1l i a n g ,k ,y a n dz e 宴鬻r ,s l ( 1 9 8 6 ) l o n g i t u d i n a ld a t aa n a l y s i sf o rd i s e r e t e l n dc o 珏t i n u o u so u t e o 羟l e s 。b i o m e t r i c s 。4 2 1 9 j ,z i m m e r m a n ,d l 【2 0 0 0 ) v i e w i n gt l 孢r r 越a 毛i o ns t r u e t u r eo fl o n g i t u d i n a l d a t at h r o u 曲ap r i s m a m s t a s i s t n ,5 4 2 0 】z i n l h l e h n a n ,dl a n dn u n e z - a n t o n ,v ( 2 0 0 1 ) p a r a m e 七r i co fg r o w 乞hc l t n e d a t a :a no v e r v i e w 。l b s t 1 0 2 l 嚣h a n g 、v ( 2 0 0 5 ) a n a l y s 呈so fl 。n g i t u d i n 馥d a t 8u n b a i a n e e d 。v e rt i ! n 。 j rs t a t i s t s 。c b ( 2 0 0 5 ) 6 7 2 2 d a 、i ( 1 c h o a 9 1 i n 探索 生数据分析中阿统计出版社2 0 0 2 年 2 3 ll w s 、1 l a t 锄l 。a n dj + c a r r o l l 。多无数据分析捉械工业挂 版祛1 9 。8 霉 2 4 1i ( 、i 、t 0 l t 方差估计引论中国统计出版社2 0 0 2 年 2 5 d m i ( 1f l e c d i n a n统计学中国统计出版社1 9 9 7 年 2 翻,o h n ,a 磁e e , 数壤绞计与数据分接飘猿王照出版事l s 年 f 2 7 】e l i s atl e e 生襻数据分析的统计方法中国统计出版社1 9 9 8 年 2 8 1 鸿诗松统计手册科举出版社2 0 0 1 年 【29 】剐俦数据模型与凝策分榜武汉大学黥峻社1 9 9 9 年 3 锑吴喜之统计学麓等教育出籁社2 0 0 2 簪 鎏l 】羚国泽菲参数统诗漤义j 衷大学窭叛李圭2 0 0 0 年 【3 2 j 朱洪文应用统计高摊教育出版社2 0 0 2 华 f 3 3 】商熬璇s a s 系统中黧统计出黻涟1 9 9 8 警 【3 4 1 扬位饮顾岚时间序列分析与动态数据建模北京理工大学出版社1 9 8 8 年 1 3 5 】田铮等译时间序列的理论与方法高等教育出版社2 0 0 1 年 1 8 致谢 本硕士论文是在史宁中教授的鼓励下,高巍教授的悉心指导下完成的,写作过 程中自始至终得到了两位老师在各个方面的关心和帮助攻读硕士三年期间,老师 们指导我们系统学习了高等概率论,高等数理统计,多元分析,生存分析等专业知 识,阅读了大量的文献几位教授广博扎实的专业知识,深刻的数学思想,严谨的 治学态度,富有启发性的思维方法,孜孜不倦的言传身教使我获益匪浅,终生难忘。 同时还有幸聆听多位国内外学者的报告在此特向概率论与数理统计的各位老师致 以最诚挚的谢意! 作者衷心感谢同一专业的全体同学,长期以来的共同探讨开拓了作者的数学视 野。 作者衷心感谢数学系的全体老师,感谢作者的全体同学,特别是在数据拟合编 程时帮助过我的柏庆昆同学 1 9 袁小庆 2 0 0 6 年3 月 黔录l : m 篇 n = 附录 1 91 3 3 21 1 2 5l 1 23 2 61 6 1 43 2 3 73 4 1 90 32 9 2 63 3 2 02 9 83 8 2 92 6 2 0 3 4 18 3 l 2 6 o 5 1 9 1 9 1 3 3 5 1 2 1 0 挎h强珏弘7诲如3凹0辩薅玎0 蟮始;号强6h法,蛆孵引”强 强 烈纠h并2烈鹑5 6 2弛,盘 4 ;m 倚o;强孔,笛h:辩。 珏 巧“玎 : 鹪弛弘瓣勰拟4 6懈艇引埒,躺艇8 0 ” ”弛弘惴弘5 2 u擗悖弛好硒玎如6鹕悖 弘鸺射拍。 狰9 毽弘 撼”驺7博b 弛6 3”弘垮黔孙”站撼”2美体辩 珏,3 m s:弘o扮努捞粥瑟嚣b强珏2勰 坤弛於他嬲m”伸0勰加0羚:粥0 6 豁 笛3 弘 鹅n 7 m 簦 巧n站弛;乌鍪弛娼 弘伸挎n 2 m 了拍4 0 h 胛 筋6 他9 o 4 s 谴5 8 5 5 9”塔3 0 6孙於7勰 8 7 3 0 l o 5 4 3 3 1 9 5 9 6 8 7 ;4 6 2 2 3 3 2 8 8 5 2 5 6 6 5 4 2 3 3 2 6 6 2 1 4 ,9 4 l i 8 8 9 8 7 2 3 5 3 3 3 2 2 , s 8 ,7 8 了3 5 2 2 3 2 3 2 3 赫m 5 拍 娩 坦m 瓣6 8 8 2 9籀他垤 ”勰弭辩43强”持o 弛 甜7 弱 。癸”如强7拍”珏h o 抑弘 挎的巧弘,疆辐加3翳o m撼俩”强拍弛6捞擂,舱 烈纠h 2烈辩,6 2弛,强婚8,篮引3於2强9弘” 她弘瓣勰斟4 6懈放m引婚 b弛於博s 2:2潍悖强站鼹6撼,舛醛h捞孙”n 筋,如勰勰n 9 7 m 勰驿笛甜 m 坶坶h 2 m 7 硒4 0揖耵强 4 5 2 5 8 5 5 9 7 5 o 3 o 2 l , 3 l 2 8 7 3 o l o 5 4 8 s 6 6 2 3 3 l 2 3 l 9 5 9 辱8 7 ,4 6 ;i 8 8 2 2 3 3 2 i 3 3 勰弘s 2 5 6始5斟协8勰” 5 o 5 6 7 2 7 2 0 ;6 8 8 2 3 3 3 ;2 了7 8 4 4 4 ;3 s 3 7 3 2 2 2 1 3 l l 3 3 ,7 6 6 o 0 7 2 6 7 6 7 2 3 3 3 3 3 3 3 2 3 8 2 1 8 5 9 7 9 8 3 l 2 2 3 1 5 0 3 8 3 3 i 3 o 8 4 1 5 6 2 3 l l 5 5 l 7 9 3 3 2 3 ,3 ,3 2 8 3 7 2 2 3 0 3 0 6 9 9 1 2 2 l l 7 3 7 o 8 3 1 3 2 1 1 8 5 2 l 8 4 1 2 2 1 3 9 3 5 3 2 8 2 l 3 1 2 2 8 8 6 5 0 3 2 3 2 6 6 2 8 3 3 2 2 3 3 3 6 2 9 0 5 , l 1 6 3 5 7 9 8 3 3 3 2 l 4 l l 9 4 1 3 3 9 8 7 2 3 5 3 2 2 7 3 8 7 3 5 3 2 3 2 3 6 2 9 6 2 2 2 2 l l o 1 0 2 9 2 l 2 2 3 3 3 4 o 9 5 l 2 2 3 3 附录2 : 生成1 9 + 1 9 矩阵,缺失项或9 7 f u n c t i o n 【a ,b = m a t ( m ) b = n o o r ( r a n d ( 19 ) + 4 0 ) ; a = b : f o r _ _ 1 :l :1 9 i - n o o r ( r a n d ( 1 ) + m ) : i f l o c o n t i n u e e l s e i f l _ = 1 n = 门o o r ( r a n d ( 1 ) 1 8 + 1 ) ; a ( i ,n ) = a ; e l s e f o r j = 1 :2 n 2 n 0 0 r ( r a n d ( 1 ) + l8 + 1 ) a ( j ,n ) = 。a 。; e n d e n d e n d 求行有效数的个数去掉缺火项) f l i n c t i o n k ,x = n l i m l ( a ) k = z e r o s ( 1 ,1 9 ) :x = z e r o s ( 3 8 ,2 ) ;l = 1 f o r 滓l :】:1 9 f o ri = l :1 :1 9 i f a ( i j ) = = a 。 x ( 1 ,1 ) = i ; x ( i ,2 ) 爿: l = i + l : c o n “n l l e : e l s e k ( 1 ,i ) 2 k ( 1 ,j ) + e n d e n d e n d 2 2 求行中位数 f n n c t i o n c ,x 】_ m e d i ( a ) 【k ,x 卜n u m l ( a ) ; f o r i = l :1 :1 9 l _ 1 ;b = z e r o s ( 1 ,k ( 1 ,i ) ) : f o r _ 1 :l :1 9 i f a ( i j ) 一a c o n t i n u e : e l s e b ( 1 ,1 ) = a ( i j ) ; l = 1 + 1 : e n d e n d c ( i ,1 ) = m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论