(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf_第1页
(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf_第2页
(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf_第3页
(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf_第4页
(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(概率论与数理统计专业论文)大维随机矩阵谱理论在多元统计分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

o _ - h l , k 一 k _ 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示谢意 学位论文作者签名:姜盘盘 日期:兰! 望:臼 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允 许论文被查阅和借阅本人授权东北师范大学可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:二篷爿扯 日 期:2 竺! 里: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:厶埏 电话: 邮编: 一 t , 一 - 一 1 p 6 曩, 翻 摘要 近几十年,随着计算机科学技术的飞速发展,大维数据分析在现代科学研究 中越来越突显其重要性,比如在生物学的微阵列数据,金融学的股票市场分析,无 线通讯网络等新兴领域中,都出现了关于海量数据的统计问题。遗憾的是,经典的 统计工具和统计方法却滞后于数据信息的发展,不能简单同步地应用于大维数据 分析中其根本原因是经典的统计极限理论建立在样本量礼远远大于变量维数p 的假设下,而当维数相对于样本量很大时,经典的极限理论结果不再适用为了弥 补由于维数升高而产生的理论缺失,本篇论文提出了一些新的统计方法来解决这 些大维数据的统计问题,这些统计方法基于维数p 和样本量佗同时趋于无穷的理 论假设 在本文中,我们就多元统计分析中的两个典型问题展开讨论:一是协方差矩 阵,二是均值向量首先,我们通过随机矩阵理论解释了为什么当维数相对于样 本量很大时,经典的关于正态总体的协方差矩阵和均值向量的似然比检验会失效。 其次,运用大维样本协方差矩阵和大维随机f 矩阵的线性谱统计量的中心极限定 理,我们提出了经典似然比检验的一些有效的修正,以削弱大维数的效应我们修 正的经典似然比检验包括:检验协方差矩阵等于某个给定的非随机矩阵;检验两 个协方差矩阵的相等;检验线性回归模型中的回归系数;检验同协方差矩阵的多 个总体的均值相等进一步,我们又以检验两个协方差矩阵的相等为例,说明了我 们所提出的修正的检验方法对于非正态总体也适用,可以看做是个广义的修正似 然比检验。同时,文中给出了这些修正似然比检验在原假设下的近似分布,并做了 相应的模拟试验通过模拟结果我们看到,无论是适中维数的情况( 比如p = 2 0 ) 亦或较大维数的情况,当经典似然比检验已经完全失效时,修正似然比检验模拟 计算的第一类误差仍十分接近于设置的检验水平,这说明尽管大维修正似然比检 验方法构建于样本量和维数同时趋于无穷的理论假设之上,但是这些修正的检验 方法对于维数p 具有稳健性,在实际中具有很强的可行性 关键词:大维数据分析;m a r 芒e n k o - p a s t r u r 律;似然比检验;大回归分析 一 p 一 - 一 k q :协 a b s t r a c t f o rd e c a d e s ,w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , l a r g ed i - m e n s i o n a ld a t aa n a l y s i sp l a y sm o r ea n dm o r ei m p o r t a n tr o l e i nm o d e r ns c i e n t i f i c r e s e a r c h e s p e c i a l l y , i nt h ef i e l d so fm i c r o a r r a yd a t ai nb i o l o g y , s t o c km a r k e ta n a l - y s i si nf i n a n c ea n dw i r e l e s sc o m m u n i c a t i o nn e t w o r k s ,e t c u n f o r t u n a t e l y , t h et r a d i t i o n a ls t a t i s t i c a lt o o l sc a nn o tc a t c hu pt h ed e v e l o p m e n to ft h ed a t aa n a l y s i s t h e b a s i cp r o b l e mi st h a tt h el i m i t i n gt h e o r yo ft r a d i t i o n a ls t a t i s t i c st y p i c a l l ya s s u m e al a r g es a m p l es i z enw i t hr e s p e c tt ot h en u m b e ro fv a r i a b l e sp a n db r i n gs e r i o u s l y p o o rr e s u l t sw i t hh i g hd i m e n s i o n t oc o m p e n s a t et h ee f f e c t sd u et ol a r g ep ,t h i s d i s s e r t a t i o np r o p o s e ss o m en e ws t a t i s t i c a lm e t h o d sf o rt h i sh i g h - d i m e n s i o n a ld a t a s e t t i n g ,w h i c hw o u l db eb a s e do na s y m p t o t i ct h e o r yt h a tb o t hna n dpa p p r o a c h i n f i n i t y i nt h i sd i s s e r t a t i o n ,w er e v i e wt w oa s p e c t so fm u l t i v a r i a t ea n a l y s i s :c o v a r i a n c e m a t r i c e sa n dm e a nv e c t o r s b a s e do nt h er a n d o mm a t r i xt h e o r y ( r m t ) ,w ef i r s t g i v ea ne x p l a n a t i o nt ot h ef a i l u r eo ft r a d i t i o n a ll i k e l i h o o dr a t i op r o c e d u r e sf o rt e s t i n ga b o u tc o v a r i a n c em a t r i c e so rm e a nv e c t o r sf r o mg a u s s i a np o p u l a t i o n sw h e n t h ed i m e n s i o ni sl a r g ec o m p a r e dt ot h es a m p l es i z e n e x t ,u s i n gr e c e n tc e n t r a ll i m i t t h e o r e m sf o r5 n e a rs p e c t r a ls t a t i s t i c so fs a m p l ec o v a r i a n c em a t r i c e sa n do fr a n d o m f - m a t r i c e s ,w ep r e s e n tn e c e s s a r yc o r r e c t i o n sf o rt h e s el rt e s t st oc o p ew i t hh i g h d i m e n s i o n a le f f e c t s :t e s t i n gac o v a r i a n c em a t r i xe q u a l st oag i v e nm a t r i x ;t e s t i n g e q u a l i t yo ft w oc o v a r i a n c em a t r i c e s ;t e s t i n go nc o e f f i c i e n t si nal i n e a rr e g r e s s i o n m o d e l ;t e s t i n ge q u a l i t yo fm e a n so fs e v e r a lp o p u l a t i o n sw i t hc o i n n l o nc o v a r i a n c e f u r t h e r m o r e ,c o n s i d e ras p e c i a lc a s eo ft e s t i n gt h ee q u a l i t yb e t w e e nt w oc o v a r i a n c e m a t r i c e s ,w es h o wt h a tt h ep r o p o s e dc o r r e c t i o na p p l i e se q u a l l yf o rn o n - g a u s s i a n p o p u l a t i o n sy i e l d i n gav a l i dp s e u d o - l i k e l i h o o dr a t i ot e s t t h ea s y m p t o t i cd i s t r i b u - t i o n so ft h e s ec o r r e c t e dt e s t su n d e rt h en u l la r eg i v e n s i m u l a t i o n sd e m o n s t r a t e t h a tt h ec o r r e c t e dl rt e s t sy i e l dar e a l i z e ds i z ec l o s et on o m i n a ll e v e lf o rb o t h i i m o d e r a t ep ( a r o u n d2 0 ) a n dh i g hd i m e n s i o n ,w h i l et h et r a d i t i o n a ll rt e s t sf a i l i ts h o w st h a ta l t h o u g ht h el a r g ed i m e n s i o n a lc o r r e c t e dl rt e s t sa r eb a s e do nt h e t h e o r yt h a tb o t hs a m p l es i z ea n dd i m e n s i o na p p r o a c hi n f i n i t e ,t h e yh a v er o b u s t n e s s o nt h ed i m e n s i o npa n da r ef e a s i b l ei np r a c t i c e k e yw o r d s :h i g h - d i m e n s i o n a ld a t aa n a l y s i s ;m a r 芒e n k o - p a s t r u rl a w ;l i k e l i h o o dr a t i ot e s t ;l a r g er e g r e s s i o na n a l y s i s i i i 一 - , 目录 中文摘要i 英文摘要i i 第一章绪论 1 1 1 大维数据分析 1 1 2 随机矩阵理论 3 1 3 本文的主要工作和结构安排 4 第二章大维随机矩阵理论的一些主要结果6 2 1 大维样本协方差矩阵和f 矩阵的极限谱分布 6 2 2 大维随机矩阵的线性谱统计量的中心极限定理9 第三章大维协方差矩阵的修正似然比检验1 5 3 1 单个总体大维协方差矩阵的修正似然比检验 1 5 3 1 1 修正似然比检验的定理i 1 6 3 1 2 模拟比较i 1 8 3 1 3 定理i 中涉及的推导和计算2 0 3 2 双总体大维协方差矩阵的修正似然比检验 2 2 3 2 1 修正似然比检验的定理i i 2 3 3 2 2 模拟比较i i 2 6 3 2 3 定理i i 中涉及的推导和计算2 8 3 2 4 大维非正态数据的广义修正似然比检验3 0 3 3 小结3 4 第四章大维均值变量的统计分析3 5 i v 4 1 大回归分析 3 5 4 1 1 回归系数的修正似然比检验 3 8 4 1 2 回归系数的另两种渐近正态检验4 0 4 1 3 回归系数的四种检验方法的模拟比较 4 2 4 1 4 回归系数的修正似然比检验涉及的计算4 9 4 2 大维多总体均值的修正似然比检验 5 1 第五章总结与展望5 4 参考文献5 9 在学期间公开发表( 投稿) 论文情况 6 2 致谢6 3 东北师范大学博士学位论文 第一章绪论 1 1 大维数据分析 本文主要介绍当变量维数很高时,应用大维随机矩阵谱分析理论对多元统计 分析中一些经典问题的修正众所周知,多元统计分析的问题主要依赖于经典的中 心极限定理,而经典的中心极限定理是以假定维数很小为前提的当维数升高时, 中心极限定理会发生怎样的变化? 维数的高与低又会使多元统计问题产生怎样不 同的结果? 等等一系列问题都是本文所要探究的然而首当其冲的是为什么要研 究高维数的情况? 这与大维数据分析的发展密不可分 随着现代科学技术的飞速发展,计算机科学成为二十世纪最快发展领域之一, 并且广泛应用于各个领域计算速度的提升和海量数据的储存促进了更多领域的 深层发展大维数据出现在了诸如农业科学的高分辨率图像,生物学的微阵列数 据,金融业的股票市场分析,以及无线电通讯信号网络等等各个领域比如在无线 通讯的研究中,一个很重要的通过随机矩阵来描述大维数据的模型就是直接序列 码分多址的模型( d s c d m a ) : q y = s t h + w ( 1 1 ) i = l 其中y 接收到的信号,s l 是第i 个用户的原始输入信号,h i c p 是第i 个用户的 展频数码,而w c ( 0 ,仃2 i ) 是传输过程中附加的复正态白噪声序列我们假设 随机变量8 1 ,8 2 ,8 口是独立的,且e ( s i ) = 0 ,e ( 蚓2 = 1 ) ,上述模型就可以写成 y = h s + w ( 1 2 ) 其中h = ( h i ,h 口) 是个p q 的矩阵,s = ( s 1 ,s 口) 7 ,( ) 7 表示矩阵的转置 通过观察接收到的信号y 来估计原始输出信号的的信息具体的应用和分析,可 】 东北师范大学博士学位论文 参见【5 】在解决这一类实际问题中,我们透过计算机窗口可以收集、储存并分析 大量数据,过去难以企及的海量计算也得以实现 尽管计算机为统计分析带来诸多好处,但由此产生的问题也纷至沓来其中最 重要的问题就是经典的统计分析工具面临大维数据的挑战,是否依然行之有效? 如 果答案是否定的,又将如何对其进行修正和创新? 事实上,在多元统计分析中,存 在两种截然不同的极限结果一种是在假定维数很小,样本量远远大于维数的前提 条件下成立的经典极限理论;另一种是大维极限理论大维极限理论的出现是由于 当维数很高时,统计量的极限行为发生质的改变,使得经典极限理论所描述的结果 或者表现很差,或者完全失效( 趋于无穷) 下面用b a i 和s i l v e r s t e i n ( 2 0 0 6 ,p 3 ) 1 0 中的一个例子,来解释这个问题: 例子1 1 假设x 玎,i = 1 ,p ;j = 1 ,扎是标准正态随机变量,构成了一 个来自于p 维标准正态分布的样本,样本量为n ,均值为p 维d 向量,协方差矩 阵为单位阵如记样本协方差矩阵为 & = ( 去喜x 巧x ) i 。:。, ( 1 3 ) 多元统计分析中一个重要的统计量为 r = l o g 矧= l o g ( a ) , 其中入,i = 1 ,p 是样本协方差矩阵& 的特征根 当维数p 固定时,令n _ 。,有入,_ 1 ,n 8 ,故统计量t _ 0 ,a 8 进一步, 利用函数l o g ( 1 + x ) 的泰勒展开,可以得至, 1 4 9 分布收敛 、n 屈t _ n ( 0 ,2 ) 当然,这个结果是在假设维数p 相对于样本量很小的前提下才成立的 然而,当p n _ y ( 0 ,1 ) 且n _ 。时,利用定理2 1 中的极限谱分布 的结果晤2 1 ,依概率1 有, 言丁- - - 4 州;b 掣( y ) 丽l o g x y ( b ( y ) - x ) ( x - a ( y ) ) d x = 了y - 11 0 9 ( 1 刊- 1 - - d ( 小。 ( 1 4 ) 东北师范大学博士学位论文 其中n = ( 1 一厢) 2 ,b = ( 1 + v q ) 2 那么, 何;t d ( y ) 厕一一0 0 这说明当p ,礼一o 。时,用任意一个正态分布作为统计量t 的极限分布,都会是 完全错误的 为了解决这个问题,人们曾提出了降维的方法,通过降低变量维数,保留主要 影响因素,以求达到经典统计方法对维数的要求相对于经典统计方法,降维方法 的可行性和优点显而易见,所以直到今天它仍然被广泛应用但是,假设现在需要 对1 0 个变量进行分析,若保留其中3 个变量,信息量尚可如果是对3 0 0 个变量 进行分析,仍旧保留3 个变量,保留的信息量仅有1 左右信息量的大量流失 导致降维方法的不稳定如果想提高信息量保留率,比如提高到1 0 ,那么还剩下 3 0 个变量需要分析,仍然属于大维问题所以人们仍旧孜孜不倦地追求大维数据 分析更完善的方法直到二十世纪四十年代,随机矩阵理论的发展和完善为解决 大维数据分析问题开辟了更广阔的研究领域因此,随机矩阵理论也在多个研究 领域中得到进一步发展 1 2 随机矩阵理论 随机矩阵理论起源于量子物理的发展和研究,发展到二十世纪五十年代,大 维随机矩阵极限谱分析的研究已经受到世界许多数学家和统计学家的关注其中 一个较为世人瞩目的工作就是,w i g n e r ( 1 9 5 5 ,1 9 5 8 ) 首次将随机矩阵与量子物 理结合起来,证明了随机w i g n e r 矩阵标准化以后的经验谱分布的期望收敛到半 圆律,这就是著名的高斯( w i g n e r ) 矩阵的半圆律后又由g r e n a n d e r ( 1 9 6 3 ) 和 a r n o l d ( 1 9 6 7 ,1 9 7 1 ) 等人在多方面推广了这一结果b a i ( 1 9 9 9 ) 给出了几乎处处收 敛的推广结果 除了w i g n e r 矩阵以外,大维样本协方差矩阵同样备受关注这方面具有开创 性的工作就是m a r 6 e n k o 和p a s t u r ( 1 9 6 7 ) 发现了大维样本协方差矩阵的极限谱分 布,这就是著名的m p 律随后关于大维样本协方差矩阵的谱分布的一些工作相 3 东北师范大学博士学位论文 继出现,如g r e n a n d e r 和s i l v e r s t e i n ( 1 9 7 7 ) ,w a c h t e r ( 1 9 7 8 ) ,j o n s s o n ( 1 9 8 2 ) ,y i n 和k r i s h n a i a h ( 1 9 8 5 ) ,y i n ( 1 9 8 6 ) ,b a i 和y i n ( 1 9 8 8 ) 以及s i l v e r s t e i n ( 1 9 9 5 ) 等另 外,大维随机f 矩阵的极限谱分布的研究,也在w a c h t e r ( 1 9 8 0 ) ,s i l v e r s t e i n ( 1 9 8 5 ) y i n ( 1 9 8 6 ) ,b a i ,y i n 和k r i s h n a i a h ( 1 9 8 6 ,1 9 8 7 ) 等工作中得到发展 八十年代后期,随机矩阵理论的研究重心开始由某一族随机矩阵的极限谱分 布的存在性及具体表达形式等转移到大维随机矩阵的二阶极限定理,如线性谱统计 量的中心极限定理,特征极值的极限分布等。在这方面的工作有b a i 和s i l v e r s t e i n ( 2 0 0 4 ) 给出了大维样本方差矩阵的线性谱统计量的中心极限定理z h e n g ( 2 0 0 8 ) 在 此基础上进一步研究了的大维f 矩阵的线性谱统计量的中心极限定理本文正是 基于这些极限理论将大维随机矩阵谱理论应用于多元统计分析问题,修正经典的 似然比检验 1 3 本文的主要工作和结构安排 通过绪论前两节的介绍,我们了解了大维数据分析在现代科学领域中的重要 性,以及亟待新的统计工具、新的极限理论来解决大维问题的研究形势。阐述了随 机矩阵的起源和发展,介绍了有关大维随机矩阵谱分析的主要文献,从而全面认 识了大维随机矩阵谱分析的研究现状和发展方向 第二章中主要介绍大维随机矩阵理论的一些基本概念和主要理论结果,包括 经验谱分布,线性谱统计量等概念,大维样本协方差矩阵和f 矩阵的极限谱分布, 以及它们的线性谱统计量的中心极限定理 第三章中重新考虑了关于协方差矩阵的检验问题,首先从理论上解释为什么 经典的似然比检验不再适用于大维情况,然后利用第二章的结果提出新的修正似 然比检验,最后通过模拟试验来说明修正方法的优越性讨论包括以下几个方面; ( 一) 、单个总体大维协方差矩阵的修正似然比检验; ( 二) 、双总体大维协方差矩阵的修正似然比检验,并讨论了其适用于大维非 正态数据的广义情况,并与 2 2 中s c h o t t 的方法进行了对比; ( 三) 、讨论了多个总体大维协方差矩阵检验的问题 第四章中考虑大维均值变量的统计分析,归纳为一般情况,提出了高维数,多 4 东北师范大学博士学位论文 变量的大回归分析的修正似然比检验,同时作为其特例,给出了大维多总体的均 值检验的修正方法另外又提出了两种关于回归系数的渐近正态检验,并通过模 拟试验对提出的这几种新方法和经典的似然比检验进行了比较 第五章中总结了本文的主要工作,并对未来工作做了一些设想和展望 5 东北师范大学博士学位论文 第二章大维随机矩阵理论的一些主要结果 这一章主要介绍后文工作中涉及到的一些大维随机矩阵理论中的基本概念和 结果随机矩阵理论起源于量子物理的研究,而量子的能级是通过一些物理观测 值组成的矩阵的特征根来间接反映的,这就决定了大维随机矩阵的谱分析在大维 随机矩阵理论中占有很重要的位置下面给出的是经验谱分布的定义: 定义2 1 ( 经验谱分布) 设p p 的方阵m 有实特征根入y ,i = 1 ,p ,则可以定义一维的分布函数 硝为矩阵m 的经验谱分布( e s d ) : 肌) = 刍喜帆p x er , 其中五 代表示性函数 通常情况下,我们所考虑的随机矩阵在一定条件下其经验谱分布碍彳收敛到 其极限谱分布( l s d ) f m 为了估计参数秒= ff ( x ) d f m ( z ) ,一般采用统计量 歹= l m 肼( 一喜m y ) 来估计参数9 ,这里的万称为随机矩阵m 的线性谱统计量( l s s ) 2 1 大维样本协方差矩阵和f 矩阵的极限谱分布 在多元统计分析中,很多重要的统计量都可以表示成样本协方差矩阵的经验 谱分布的函数,对这些统计量极限行为的研究就等价于研究样本协方差矩阵极 6 东北师范大学博士学位论文 限谱分布,因此样本协方差矩阵的极限谱分布在多元统计推断中尤为重要假 设x = ( x l ,) 是来自某个p 维高斯分布( 如,p ) 的一个样本,其中 筠= ( z l 一,z 砸) 7 样本协方差矩阵定义为 1 p s = j :( 强一又) ( 强一艾) 7 , + i = 1 其中一x = 。1 x i 通常情况下,在大维随机矩阵谱分析中样本协方差矩阵也可简 化定义为 s n2 去k x 净! 扎x x 7 , ( 2 1 ) no。扎 这是由于夏灵是个秩为1 的矩阵,因此又的存在与否并不影响协方差矩阵的极限 谱分布在大维随机矩阵谱分析的研究中,样本协方差矩阵的极限谱分布函数的 研究由来已久。1 9 6 7 年,m a x 6 e n k o 和p a s t u r 首次成功地研究了样本协方差矩阵 的极限谱分布,也就是著名的m p 律后续的工作在第一章中有所介绍,在这方面 最新的理论成果是b a i ( 1 9 9 9 ) 4 考虑了复随机变量的大维样本协方差矩阵的极限 谱分布,该工作是y i n ( 1 9 8 6 ) 3 1 结果的由实向复的一个推广下面给出这个定理 的表述: 定理2 1 ( b a i ,1 9 9 9 ) 假设x = z 莳,1 i p ,1 j n ) 是由均值为0 ,方差为盯2 的独立同分布 的复随机变量组成的二维阵列,则当p n _ y ( 0 ,1 ) 时,样本协方差矩阵s 。的 经验谱分布依概率1 收敛到极限谱分布b ( z ) ,其密度函数为 舯 丽1 丽阳9 9 ( 2 2 ) 【 o , 其他 且当y 1 时,在原点有点测度1 一石1 ,其中n = o - 2 ( 1 一伽) 2 ,b = 盯2 ( 1 + 咖) 2 定理2 1 就是参数为y 和盯2 的m p 律当参数口2 = 1 时,称其为标准的m p 律b a i 和s i l v e r s t e i n 将上述定理的结果推广到样本协方差矩阵元素独立但不同分 布的情况,在拥有共同均值和方差的假设下,添加了条件:对任意的e 0 , 丽1 驴蚓2 蚓蚓侗叽 7 东北师范大学博士学位论文 使得定理2 1 的m p 律依然成立,证明详见b a i 和s i l v e r s t e i n ( 2 0 0 6 ,p 4 6 ) 在多元统计分析中,另一个很重要的矩阵就是f 矩阵设 c ,i ,k = 1 ,2 ,) 和 , t k j c ,j ,k = 1 ,2 ,) 是两组分别由均值为0 方差为1 的独 立同分布的复随机变量组成的二维阵列,记已= ( 1 f ,已一,知) 以及仍= ( 叩1 j ,锄,锄) 7 对任意的整数n l ,n 2 ,变量( f 1 ,厶。) 和变量( 7 1 ,。) 可以看做是分别来自于某个p 维多元分布的两组独立的样本,样本量分别为n 1 和 n 2 两组样本的协方差矩阵分别记作& 和,即 那么 和 岛= 去妻仍嘭 j = l k = s z s l( 2 3 ) 就是所谓的f 矩阵为了使有逆矩阵存在,要求n 2 p ,这里的佗= ( 礼,n 2 ) 最初在s 1 和& 是两个相互独立的w i s h a r t 矩阵的条件下,由w a c h t e r ( 1 9 8 0 ) 给出了的f 矩阵的极限谱分布。其具体表达形式可在b a i ,y i n 和k r i s h n a i a h ( 1 9 8 7 ) , s i l v e r s t e i n ( 1 9 8 5 ) 以及y i n ,b a i 和k r i s h n a i a h ( 1 9 8 3 ) 等工作中找到若除去对毋 和岛的w i s h a r t 假设,依赖b a i 和y i n ( 1 9 9 3 ) 对样本协方差矩阵最小特征值的 强极限的研究以及y i n ( 1 9 8 6 ) 的结果,采用b a i ,y i n 和k r i s l m a i a h ( 1 9 8 7 ) 中的方 法,可以证明在研和适当的矩条件下,f 矩阵的极限谱分布与在w i s h a r t 假 设下得到的相同这方面的工作有y i n 和k r i s h n a i a h ( 1 9 8 3 ) ,b a i ,y i n 和k r i s h n a - i a h ( 1 9 8 6 ) ,s i l v e r s t e i n ( 1 9 9 5 ) ,s i l v e r s t e i n 和b a i ( 1 9 9 5 ) ,以及y i n ( 1 9 8 6 ) 下面我们 给出的f 矩阵的极限谱分布的表述定理,是依据b a i 和s i l v e r s t e i n ( 2 0 0 6 ,p 7 2 ) 1 0 给出的: 定理2 2 ( b a i 和s i l v e r s t e i n ,2 0 0 6 ) 假设 舡c ,i ,七= 1 ,2 ,) 和 c ,j ,忌= 1 ,2 ,) 是两组分别由均值为0 方差为1 的独立同分布的复随机变量组成的二维阵列,且对任意固定的e 0 , 志驴矧4 蚓蚓阔训, ( ) 满足类似的条件,则当y n 。= 着_ y z ( o ,1 ) ,y n 。= 盖一y 2 ( 0 ,1 ) 时,多 r 东北师范大学博士学位论文 粤c z ,= 一:7 z 6 ,c 2 4 , 其中n 7 = ( 1 一眈) 一2 ( 1 一v y l + y 2 - y l y 2 、。) ,b 7 = ( 1 一驰) 一2 ( 1 + v y 1 + y 2 - y l y 2 ) 2 2 2 大维随机矩阵的线性谱统计量的中心极限定理 通过大维随机矩阵的经验谱以及极限谱分布,b a i 和s i l v e r s t e i n ( 2 0 0 4 ) 提出了 大维样本协方差矩阵的线性谱统计量的中心极限定理 设 靠i c ,i ,k = 1 ,2 ,) 是一个是由均值为0 ,方差为1 的独立同分布的 复随机变量组成的二维阵列,令& = ( 1 i ,已一,知) ,则变量( 1 ,厶) 是来自 于某个均值为0 p ,协方差矩阵为厶的p 元分布的一个样本。样本协方差矩阵记为。 = 砉瓣 ( 2 5 ) 钆u 。 8 1 立 令 鲰:= p _ y ( 0 ,1 ) 鲰2 元_ ( u ,1 ) f v ,f 鲰表示参数分别为y 和的& 的m a x 芒e n k o - p a s t u r 律定义甜是复平 面上的一个开集合,包含区域【i ( o ,) ( y ) ( 1 一伽) 2 ,( 1 + 伽) 2 】,定义a 是解析函数 ,:甜hc 的集合考虑随集合4 中,变化的随机过程g 。:= g 。( ,) ) : f + o o g 。( ,) = p ,( z ) r f 跏 ( c b ) ,a , ( 2 6 ) j 一 其中r 是样本协方差矩阵& 的经验谱分布,下面给出b a i 和s i l v e r s t e i n ( 2 0 0 4 ) 中的定理1 1 的特殊形式,这个定理在后文证明推导中起到关键作用 定理2 3 ( b a i 和s i l v e r s t e i n ,2 0 0 4 ) 假设? , a , 白 是i i d 随机变量,且e f l l = 0 ,e i 1 1 1 2 = 1 ,e i 1 1 1 4 9 东北师范大学博士学位论文 。当n ,p 一。时,有罢_ y ( 0 ,1 ) ,那么 俐实变量情况设 岛) 是实随机变量且e ( 1 ) = 3 那么随机变量 ( g 住( ) ,g 。( ) ) 弱收敛于一个k 维的高斯变量,其均值元素为 m ( 办) = 互丞旦鱼立掣一互1 ,j f n 。b 们c y 了蕴歹三d z ,歹= 1 ,尼 ( 2 7 ) 其中o ( 秒) = ( 1 一循) 2 ,6 白) = ( 1 + v g ) 2 ,其协方差矩阵元素为 u ( 乃删= 一嘉歹歹高等兰近( 剐妞( 矾 1 埘 ( 2 8 ) 其中堡( z ) 兰m f ( z ) 是f 三( 1 一y ) i o ,。) - b 可p 的s t i e l 巧e s 变换( 2 8 ) 中的积分 曲线互不重叠且都包含p 的支撑集 _ 砂复变量情况 设 岛) 是复随机变量,且e e l l = 0 ,e ( 1 f 1 1 1 4 ) = 2 那么 俐中的结论依然成立,只是均值是0 ,协方差矩阵元素是( 2 8 ) 中所述的一半 在上述定理以及f 矩阵的极限谱分布的基础上,z h e n g ( 2 0 0 8 ) 3 6 又给出了大 维f 矩阵的线性谱统计量的中心极限定理 在定理2 2 的假设下,f 矩阵k 的经验谱分布砭。收敛到它的极限谱分布 毛。,抛类似地,定义历复平面上的一个开集合,包含区域 卜灿- ,导筹,孚筹 , 并且五是解析函数,:历hc 的集合定义过程否:【瓦( ,) 如下: g 。( ,) = p ,( z ) 殆一毛。,可。: ( 如) , ,五 ( 2 9 ) 其中凡。胁。是将f 矩阵k 的极限谱密度( 2 4 ) 中的参数鲰替换成。,k = 1 ,2 之后得到的分布下面给出的定理是 3 6 中构建的f 矩阵的线性谱统计量的中,c - 极限定理简化版,这个定理为后面的工作打下坚实基础 1 0 东北师范大学博士学位论文 定理2 4 ( z h e n g ,2 0 0 8 ) 令 , 彳,假设? 对任意维数p ,变量( 白。) 和( 。) 是i i d 的复随机变量,1 i p ,1 j 1 n l ,1 如n 2 e 1 l = 勖1 1 = 0 ,e 1 6 1 1 4 = e l 7 1 4 。o , 1 = 。2 - 1 _ y i ( 0 ,1 ) ,:= 老一y 2 ( 0 ,1 ) ,那么 f 买变量惰况 设( 巧) 和( r i j ) 郡是买随机变量,e l a nl 。= e r n 1 2 = 1 ,则 随机变量( 瓦( ) ,瓦( ) ) 弱收敛于一个七维高斯变量,其均值元素为 m ( 乃) 2 占巴 ( 2 1 0 ) + ( 2 1 1 ) + ( 2 1 2 ) 土4 r i 轧燃) “南+ 再1 一研2 d ( ( 2 1 0 ) +尝札fj(27ri h 2 冰) ) 南3 d ( ( 2 1 1 ) 万,l 一1 “、77 ( ( + 罂) 一、 。, + 掣札燃) ) 赫妃 ( 2 1 2 ) 其中z k ) = ( 1 - - y 2 ) 一2 【l + h 2 + 2 冗( ) ,h = 、百f f 甄= 面, 口= e k l l l 4 _ 3 。 当1 7 - 1 r 2 【1 时,其协方差矩阵的元素为 u ( 乃,五) 21 ,。毫鼻1 + ( 2 1 3 ) + ( 2 1 4 ) ) 】 一去札轧地麓挚蝣虼 偿埘 p ( y 1 + y 2 ) ( 1 一y 2 ) 2 4 r :h : 轧襻心札器衅 j ,粤 1 ,七) “砂复变量情况设( 白) 和( ) 都是复随机变量,e ( 1 ) = e ( ? 7 ,) = 0 ,则情 况俐的结论依然成立,只是其均值元素r n 恐 ( 2 i i ) + ( 2 1 2 ) ,而其协方差元素为 1l 1 n l i m 伊1 + 伊( 2 1 3 ) + ( 2 1 4 ) i ,其中卢= e 1 4 2 根据定理2 4 ,通过一些推导和计算,我们可以给出下边形式更为简单的引理, 便于在后文中的应用 1 1 东北师范大学博士学位论文 引理2 5 ( b a i ,j i a n g ,y a o 和z h e n g ,2 0 0 9 ) 对于函数,( z ) = l o g ( a + b x ) ,z 酞,其中a ,b 是任意大于0 的实数,令实数 组( c ,d ) 是方程 ic 2 + d 2 = o ( 1 一剪2 ) 2 + 6 ( 1 + h 2 ) , 甜= b h , 【o 0 所对应 的方程的唯一解那么,定理2 4 中的均值( 2 1 0 ) 和协方差( 2 1 3 ) 分别是 叫) = 三l 。g 两( c 2 _ d 2 ) h 2 , u ( ,9 ) = 2 l 。g 未与 址明待z 茯兀:z2l 上一y 2 j l l 十凡一2 h c 0 5 j ,共甲h2v y l + 可2 一y l y 2 当 c ,d 满足c 2 + c f 2 = a ( 1 一y 2 ) 2 + 6 ( 1 + h 2 ) ,c d = b h ,0 d 1 但还充分接近于1 ,可以得到, 存在某个常数k ,使得 因此,若r 2 上1 ,则 9 ( z ( r z 已) ) 一9 ( z ( 已) ) i k ( r 2 1 ) , 兑谤,b ( 毋。刚_ 9 ( 始) ) (j i j 2 = 1 b h d 1 c - 1 1 3 一:b h d - 1 r 2 ) 鹅 c 一、二 _ 0 、lr_、 埏 、_1丝打 -l、-、叫 东北师范大学博士学位论文 这是依据ia r g ( 2 ) i 或la r g ( 已) 一7 r i 是否小于等于杉乏= 1 来估计的那么, v ( ,g ) =也北c 刚( b h d 。1 c 。1 一憋d c r 2 2 ) 蟛州r 2 ) + “。 1 “ 其中当训帅m 又因删球z 胪魄( 辉 对于任意7 ,叩满 足7 2 + 叩2 = 口c 1 一可:,2 + p c l + 2 ,7 卵= ,。 叼 lllll川i_1 东北师范大学博士学位论文 第三章大维协方差矩阵的修正似然比检验 多元统计分析中,假设检验的问题是很重要的一部分,而几乎所有的检验都 是基于极大似然比原理给出的经典似然比检验在p 维正态总体p ( 如,p ) 的假 设下,对参数向量如和参数矩阵p 的检验涉及到一个总体、两个总体,乃至多 个总体的检验问题。常用于检验的统计量有:w i s h a r t 统计量,h o t e l l i n gt 2 统计 量,w i l k s 人统计量。然而,如绪论中所述,这些检验统计量的极限分布并不适用 于大维数据的分析,从而导致经典极限理论的完全失效。这是由于经典极限理论 严格建立于p 很小,而样本量乱远远大于维数p 的假定下在这方面,我们不得 不提到h o t e l l i n g 的严检验,早在1 9 5 8 年,d e m p s t e r 在文章 1 6 中就提到了,对 于大维数据严检验不能正确描述统计量的极限行为那么,寻求一种当p 和礼同 时趋于无穷时有效的极限理论,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论