Bootstrap及jackknife刀切法中文课件(PPT 56页)_第1页
Bootstrap及jackknife刀切法中文课件(PPT 56页)_第2页
Bootstrap及jackknife刀切法中文课件(PPT 56页)_第3页
Bootstrap及jackknife刀切法中文课件(PPT 56页)_第4页
Bootstrap及jackknife刀切法中文课件(PPT 56页)_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上节课内容总结统计推断基本概念统计模型:参数模型与非参数模型统计推断/模型估计:点估计、区间估计、假设检验估计的评价:无偏性、一致性、有效性、MSE偏差、方差、区间估计CDF估计:点估计、偏差、方差及区间估计统计函数估计点估计区间估计/标准误差影响函数BootstrapBootstrap也可用于偏差、置信区间和分布估计等计算1第1页,共56页。本节课内容重采样技术(resampling)Bootstrap刀切法(jackknife)2第2页,共56页。引言 是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道 的某些性质(如偏差、方差和置信区间)假设我们想知道 的方差如果

2、的形式比较简单,可以直接用上节课学习的嵌入式估计量 作为 的估计例: ,则 ,其中 ,其中问题:若 的形式很复杂(任意统计量),如何计算/估计?3第3页,共56页。Bootstrap简介Bootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出,用于计算任意估计的标准误差术语“Bootstrap”来自短语“to pull oneself up by ones bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)

3、计算机的引导程序boot也来源于此意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自举1980年代很流行,因为计算机被引入统计实践中来4第4页,共56页。Bootstrap简介Bootstrap:利用计算机手段进行重采样一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)无需标准误差的理论计算,因此不关心估计的数学形式有多复杂Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟5第5页,共56页。重采样通过从原始数据 进行n次有放

4、回采样n个数据,得到bootstrap样本对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样如:若原始样本为则bootstrap样本可能为6第6页,共56页。计算bootstrap样本重复B次,1. 随机选择整数 ,每个整数的取值范围为1, n,选择每个1, n之间的整数的概率相等,均为2. 计算bootstrap样本为:Web上有matlab代码:BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,.au/downloads/bootstrap_ toolbox.htmlMatlab函数:

5、bootstrp7第7页,共56页。Bootstrap样本在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本 的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括8第8页,共56页。模拟假设我们从 的分布 中抽取IID样本 ,当 时,根据大数定律,也就是说,如果我们从 中抽取大量样本,我们可以用样本均值 来近似当样本数目B足够大时,样本均值 与期望 之间的差别可以忽略不计9第9页,共56页。模拟更一般地,对任意均值有限的函数h,当 有则当 时,有

6、用模拟样本的方差来近似方差10第10页,共56页。模拟怎样得到 的分布?已知的只有X,但是我们可以讨论X的分布F如果我们可以从分布F中得到样本 ,我们可以计算怎样得到F?用 代替(嵌入式估计量)怎样从 中采样?因为 对每个数据点 的质量都为1/n 所以从 中抽取一个样本等价于从原始数据随机抽取一个样本也就是说:为了模拟 ,可以通过有放回地随机抽取n个样本(bootstrap 样本)来实现11第11页,共56页。Bootstrap:一个重采样过程重采样:通过从原始数据 进行有放回采样n个数据,得到bootstrap样本模拟:为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstra

7、p样本对应的统计量(bootstrap复制) 近似,其中12第12页,共56页。例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.7413第13页,共56页。Bootstrap方差估计方差: 其中注意:F为数据X的分布,G为统计量T的分布通过两步实现:第一步:用 估计 插入估计,

8、积分符号变成求和第二步:通过从 中采样来近似计算Bootstrap采样+大数定律近似14第14页,共56页。Bootstrap:方差估计Bootstrap的步骤:1.画出2.计算3.重复步骤1和2共B次,得到4.(大数定律)(计算boostrap样本)(计算boostrap复制)15第15页,共56页。例:混合高斯模型:假设真实分布为现有n=100个观测样本:直接用嵌入式估计结果:16第16页,共56页。例:混合高斯模型(续)用Bootstrap计算统计量 的方差:1. 得到B=1000个bootstrap样本 ,其中2. 计算B=1000个bootstrap样本对应的统计量的值 3. 与直接

9、用嵌入式估计得到的结果比较:17第17页,共56页。Bootstrap:方差估计真实世界:Bootstrap世界:发生了两个近似近似的程度与原始样本数目n及bootstrap样本的数目B有关18第18页,共56页。Bootstrap:方差估计在方差估计中, 可为任意统计函数如均值(混合高斯模型的例子)中值(伪代码参见教材)偏度(例子参见教材)极大值(见后续例子)除了用来计算方差外,还可以用作其他应用CDF近似、偏差估计、置信区间估计19第19页,共56页。CDF近似令 为 的CDF则 的bootstrap估计为20第20页,共56页。偏差估计偏差的bootstrap估计定义为:Bootstra

10、p偏差估计的步骤为:得到B个独立bootstrap样本计算每个bootstrap样本 对应的统计量的值计算bootstrap期望:计算bootstrap偏差:21第21页,共56页。例:混合高斯模型: 标准误差估计在标准误差估计中,B为50到200之间结果比较稳定偏差估计B1020501005001000100000.13860.21880.22450.21420.22480.22120.2187B1020501005001000100005.05874.95515.02444.98834.99455.00354.99960.0617-0.04170.0274-0.0087-0.00250.0

11、0640.002522第22页,共56页。Bootstrap置信区间正态区间:简单,但该估计不是很准确,除非 接近正态分布 百分位区间: ,对应 的样本分位数还有其他一些计算置信区间的方法如枢轴置信区间:23第23页,共56页。例:Bootstrap置信区间例8.6:Bootstrap方法的发明者Bradley Efron给出了下列用语解释Bootstrap方法的例子。这些数据是LAST分数(法学院的入学分数)和GPA。计算相关系数及其标准误差。LSAT (Y)576635558578666580555661651605653575545572594GPA (Z)3.393.302.813.0

12、33.443.073.003.433.363.133.122.742.762.882.9624第24页,共56页。例8.6 (续)相关系数的定义为:相关系数的嵌入式估计量为:Bootstrap得到的相关系数插入估计的标准误差为:标准误差趋向稳定于B2550100200400800160032000.1400.1420.1510.1430.1410.1370.1330.13225第25页,共56页。例8.6 (续)当B=1000时, 的直方图为下图,可近似为从 的分布采样95%的正态区间为:95%的百分点区间为:当大样本情况下,这两个区间趋近于相同26第26页,共56页。非参数bootstrap

13、过程总结对原始样本数据 进行重采样,得到B个bootstrap样本 ,其中b=1, , B 对每个bootstrap样本 ,计算其对应的统计量的值(bootstrap复制)根据bootstrap复制 ,计算其方差、偏差和置信区间等称为非参数bootstrap方法,因为没有对F的先验(即F的知识仅从样本数据中获得)27第27页,共56页。非参数bootstrap统计量/统计函数:没有对F的先验,F的知识仅从样本数据中获得(CDF估计),统计函数的估计变为嵌入式估计真实世界:Bootstrap世界:如方差计算中,发生了两个近似近似的程度与样本数目n及bootstrap样本的数目B有关28第28页,

14、共56页。Bootstrap的收敛性例:混合高斯模型: n=100个观测样本:4次试验得到不同B的偏差和方差的结果29第29页,共56页。Bootstrap的收敛性B的选择取决于计算机的可用性问题的类型:标准误差/偏差/置信区间/问题的复杂程度30第30页,共56页。Bootstrap失败的一个例子 ,我们感兴趣的统计量 为 的CDF用G表示则 的pdf为 31第31页,共56页。Bootstrap失败的一个例子(续)对非参数bootstrap,令则所以 ,非参数bootstrap不能很好地模拟真正的分布32第32页,共56页。Bootstrap失败的一个例子(续)假设样本数目n=10,样本为

15、 ,取参数 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) 非参数bootstrap复制的直方图B=1000,最高峰为理论结果:33第33页,共56页。Bootstrap失败的一个例子为什么失败?EDF 不是真正分布 的很好近似为了得到更好的结果,需要F的参数知识或者 的平滑性参数化的bootstrap表现很好,能很好模拟真正的分布34第34页,共56页。Bootstrap的收敛性给定n个IID数据 ,要求当 , 收敛于F 为 的嵌入式估计统计函数的平滑性平滑函数:均值、方差不平滑函数:数据

16、的一个小的变化会带来统计量的很大变化顺序统计量的极值(极大值、极小值)35第35页,共56页。参数化的bootstrap真实世界:Bootstrap世界:与非参数的bootstrap相比:F的先验用参数模型表示多了一个步骤:根据数据估计参数 (参数估计),从而得到 不是经验分布函数EDF重采样:从估计的分布 采样(产生随机数)F的先验36第36页,共56页。例: 非参数bootstrap失败的例子 ,取参数 ,假设样本数目n=10,样本为 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)在参数

17、bootstrap中:F的先验:根据数据估计F中的参数:得到F的估计:从分布 产生B=1000个样本 , 得到B个 , 直方图如右图的分布为真正的分布37第37页,共56页。参数化的bootstrap当F为参数模型时,参数化的bootstrap也可用于计算方差、偏差、置信区间等如计算方差:0. 根据数据 估计 f 的参数 ,得到 f 的估计1. 抽取样本2. 计算3. 重复步骤1和2 B次,得到4.38第38页,共56页。参数bootstrap Vs. 非参数的bootstrapF的先验参数bootstrap中利用了分布F的先验,表现为一个参数模型,因此多了一个步骤,估计F模型中的参数。当先验

18、模型正确时,参数bootstrap能得到更好的结果而非参数bootstrap不利用F的先验知识就能得到正确的标准误差(在大多数情况下)参数bootstrap能得到与Delta方法(计算变量的函数的方差)相当的结果,但更简单重采样参数bootstrap中,通过从分布 中产生随机数,得到bootstrap样本,得到的样本通常与原始样本不重合非参数bootstrap中,通过对原始样本进行有放回采样实现对 的采样,每个bootstrap样本都是原始样本集合的一部分二者相同的是模拟的思想39第39页,共56页。Bootstrap(参数/非参数)不适合的场合小样本(n太小)原始样本不能很好地代表总体分布B

19、ootstrap只能覆盖原始样本的一部分,带来更大的偏差结构间有关联如时间/空间序列信号因为bootstrap假设个样本间独立脏数据奇异点(outliers)给估计带来了变化40第40页,共56页。刀切法(jackknife)41第41页,共56页。引言Bootstrap方法并不总是最佳的。其中一个主要原因是bootstrap样本是从 产生而不是从F产生。问题:能完全从F采样或重采样吗?如果样本数目为n,答案是否定的!若样本数目为m (m n),则可以从F中找到数目为m的采样/重采样,通过从原始样本X得到不同的子集就可以!寻找原始样本的不同子集相当于从观测 进行无放回采样,得到数目为m的重采样

20、样本(在此称为子样本)这就是jackknife的基本思想。42第42页,共56页。刀切法(jackknife)Jackknife由Maurice Quenouille (1949)首先提出比bootstrap出现更早与bootstrap相比,Jackknife ( m=n-1) 对计算机不敏感。Jackknife为一种瑞士小折刀,很容易携带。通过类比, John W. Tukey (1958)在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法。43第43页,共56页。Jackknife样本Jackknife样本定义为:一次从原始样本 中留出一个样本 : Jackknife样本

21、中的样本数目为m=n-1共有n个不同的jackknife样本无需通过采样手段得到 jackknife样本BOOTSTRAP MATLAB TOOLBOX中也有该功能44第44页,共56页。Jackknife复制统计量为:Jackknife复制为:均值的jackknife复制为:45第45页,共56页。Jackknife方差估计 从原始样本X中计算n个jackknife样本计算n个jackknife复制:计算jackknife估计的方差: 46第46页,共56页。例:计算均值的方差 ,则所以方差的无偏估计47第47页,共56页。例:计算均值的方差因子 比bootstrap中的因子 大多了。直观上

22、,因为jackknife 方差 比bootstrap中的方差 小得多(相比bootstrap样本,jackknife样本与原始样本更相似事实上,因子 就是考虑特殊情况 得到的 (有点武断)48第48页,共56页。例:混合高斯模型: Bootstrap结果:Jacknife结果:B1020501005001000100000.13860.21880.22450.21420.22480.22120.21870.0617-0.04170.0274-0.0087-0.00250.00640.002549第49页,共56页。例:混合高斯模型: 复制的直方图1000个Bootstrap复制100个Jack

23、nife复制Jackknife复制之间的差异很小,每两个Jackknife样本中只有两个单个的原始样本不同50第50页,共56页。Jackknife Vs. bootstrap当n较小时,能更容易(更快)计算 n个 jackknife复制。但是,与bootstrap 相比,jackknife只利用了更少的信息(更少的样本) 。事实上, jackknife为bootstrap的一个近似(jackknife方差为bootstrap方差的一阶近似)!估计样本分位数时,jackknife计算的方差不是一致估计51第51页,共56页。Jackknife的其他应用Jackknife可用于类似bootstr

24、ap的应用,如偏差估计52第52页,共56页。Jackknife不适合的场合统计函数不是平滑函数:数据小的变化会带来统计量的一个大的变化如极值、中值如对数据 X=(10,27,31,40,46,50,52,104,146)的中值得到的结果为48,48,48,48,45,43,43,43,43偶数个数的中值为最中间两个数的平均值当函数不平滑时,可以用delete-d jackknife子采样来弥补每个delete-d jackknife样本中的样本的数目为n-d共有 个不同的delete-d jackknife样本d的取值:53第53页,共56页。参考文献BooksAn Introduction to Boo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论