版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 上节课内容总结 n统计推断基本概念 n统计模型:参数模型与非参数模型 n统计推断/模型估计:点估计、区间估计、假设检验 n估计的评价:无偏性、一致性、有效性、mse n偏差、方差、区间估计 ncdf估计: n点估计、偏差、方差及区间估计 n统计函数估计 n点估计 n区间估计/标准误差 n影响函数 nbootstrap nbootstrap也可用于偏差、置信区间和分布估计等计算 2 本节课内容 n重采样技术(resampling) nbootstrap n刀切法(jackknife) 3 引言 n 是一个统计量,或者是数据的某个函数, 数据来自某个未知的分布f,我们想知道 的某些性质 (如偏
2、差、方差和置信区间) n假设我们想知道 的方差 n如果 的形式比较简单,可以直接用上节课学习 的嵌入式估计量 作为 的估计 n例: ,则 n ,其中 n ,其中 n问题:若 的形式很复杂(任意统计量),如何 计算/估计? () 1,.,nn tg xx= n t n t ( ) fn tv ( ) fn tv ( ) fn tv( ) nn f tv 1 1 n ni i tnx - = = ( ) 2 fn tns=v ()( )( ) 2 2 ,xdf xxdf xsmm=-= 蝌 ( ) 2 n n f tns=v() 2 2 1 n n i i xxns = =- ( ) fn tv
3、4 bootstrap简介 nbootstrap是一个很通用的工具,用来估计标准误差、置 信区间和偏差。由bradley efron于1979年提出,用于计 算任意估计的标准误差 n术语“bootstrap”来自短语“to pull oneself up by ones bootstraps” (源自西方神话故事“ the adventures of baron munchausen”,男爵掉到了深湖底,没有工具, 所以他想到了拎着鞋带将自己提起来) n计算机的引导程序boot也来源于此 n意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ 自举 n1980年代很流行,因为计算机被引入统
4、计实践中来 5 bootstrap简介 nbootstrap:利用计算机手段进行重采样 n一种基于数据的模拟(simulation)方法,用于统计推断。 基本思想是:利用样本数据计算统计量和估计样本分布, 而不对模型做任何假设(非参数bootstrap) n无需标准误差的理论计算,因此不关心估计的数学形式有 多复杂 nbootstrap有两种形式:非参数bootstrap和参数化的 bootstrap,但基本思想都是模拟 6 重采样 n通过从原始数据 进行n次有放回采 样n个数据,得到bootstrap样本 n对原始数据进行有放回的随机采样,抽取的样本数目 同原始样本数目一样 n如:若原始样本
5、为 n则bootstrap样本可能为 () 1,.,n xxx= () 1 * ,., n b xxx= () 12345 ,xxxxxx= () * 123545 ,xxxxxx= () * 213145 ,xxxxxx= 7 计算bootstrap样本 n重复b次, n1. 随机选择整数 ,每个整数的取值范围为1, n, 选择每个1, n之间的整数的概率相等,均为 n2. 计算bootstrap样本为: nweb上有matlab代码: nbootstrap matlab toolbox, by abdelhak m. zoubir and d. robert iskander, nhttp
6、:/.au/downloads/bootstrap_ toolbox.html nmatlab函数:bootstrp 1 n 1,.,n ii () * 1,.,iin xxx= 8 bootstrap样本 n在一次bootstrap采样中,某些原始样本可能没被 采到,另外一些样本可能被采样多次 n在一个bootstrap样本集中不包含某个原始样本 的概率为 n一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括 () 1 1 ,1,.10.368 n ji xxjne n - 骣 =-换 桫 p i
7、 x 9 模拟 n假设我们从 的分布 中抽取iid样本 , 当 时,根据大数定律, n也就是说,如果我们从 中抽取大量样本,我们 可以用样本均值 来近似 n当样本数目b足够大时,样本均值 与期望 之间 的差别可以忽略不计 ()( ) , 1 1 b p nn bnn b tttdgtt b = = e n t ,1, ,., nn b tt n t( ) n te n t( ) n te n g n g b 10 模拟 n更一般地,对任意均值有限的函数h,当 有 n则当 时,有 n用模拟样本的方差来近似方差 ()()()( )() , 1 1 b p n bnn b h th t dgth t
8、 b = = e ()()()( ) 22 , 1 1 b p n bnnnn b ttttt b = -= ev ( ) n tv ()() 2 ,n bn bn h ttt=- b 11 模拟 n怎样得到 的分布? n已知的只有x,但是我们可以讨论x的分布f n如果我们可以从分布f中得到样本 ,我们可以计算 n怎样得到f?用 代替(嵌入式估计量) n怎样从 中采样? n因为 对每个数据点 的质量都为1/n n所以从 中抽取一个样本等价于从原始数据随机抽取一个样本 n也就是说:为了模拟 ,可以通过有放回地随机 抽取n个样本(bootstrap 样本)来实现 1 * ,., n xx () 1
9、 * ,., nn tg xx= 1 * ,., n n xxf n t n f n f n f n f 1,.,n xx 12 bootstrap:一个重采样过程 n重采样: n通过从原始数据 进行有放回采样n个 数据,得到bootstrap样本 n模拟: n为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstrap样本对应的统计量 (bootstrap复制) 近似,其 中 () 1,.,n xxx= ( )() 1,.,nn tgg xx=x ( ) * , 11 11 bb n bootn bb bb ttg bb = = 邋 x ( )() ,1, * ,., n bb
10、n b b tg xg xx= () 1, * ,., bn b b xxx= 1,.,bb= 13 例:中值 x = (3.12, 0, 1.57, 19.67, 0.22, 2.20) mean=4.46 x1=(1.57,0.22,19.67, 0,0,2.2,3.12) mean=4.13 x2=(0, 2.20, 2.20, 2.20, 19.67, 1.57) mean=4.64 x3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22) mean=1.74 () 1 4.134.641.743.50 3 boot mean=+= 14 n方差: n其中 n注意:
11、f为数据x的分布,g为统计量t的分布 n通过两步实现: n第一步:用 估计 n插入估计,积分符号变成求和 n第二步:通过从 中采样来近似计算 nbootstrap采样+大数定律近似 ()() 2 2 , ttn tdgtsm=- ( ) 2 fnt tns=v () tn tdgtm= ( )() 2 * , 11 11 , n bb nn bnnn b f bb ttttt bb = =-= 邋 v ( ) fn tv( ) nn f tv ( ) nn f tv n f 15 bootstrap:方差估计 nbootstrap的步骤: n1.画出 n2.计算 n3.重复步骤1和2共b次,得
12、到 n4. (大数定律) 2 * , 11 11 bn bootn bn r br vtt bb = 骣 =- 桫 邋 (计算boostrap样本) (计算boostrap复制) * 1 ,.,n n xxf: () * 1 ,., nn tg xx= * ,1, ,., nn b tt 16 例:混合高斯模型: n假设真实分布为 n现有n=100个观测样本: ( )()() 2 : 0.21,20.86,1ff xnn=+ 5,m= () 1100 ,.,xxx= 4.997, n x = ( )() 2 22 1 n nin i xxxns = =- v 直接用嵌入式估计结果: 0.048
13、4= 7.0411 4.8397 5.3156 6.7719 7.0616 5.2546 7.3937 4.3376 4.4010 5.1724 7.4199 5.3677 6.7028 6.2003 7.5707 4.1230 3.8914 5.2323 5.5942 7.1479 3.6790 0.3509 1.4197 1.7 x = 585 2.4476 -3.8635 2.5731 -0.7367 0.5627 1.6379 -0.1864 2.7004 2.1487 2.3513 1.4833 -1.0138 4.9794 0.1518 2.8683 1.6269 6.9523 5
14、.3073 4.7191 5.4374 4.6108 6.5975 6.3495 7.2762 5.9453 4.6993 6.1559 5.8950 5.7591 5.2173 4.9980 4.5010 4.7860 5.4382 4.8893 7.2940 5.5741 5.5139 5.8869 7.2756 5.8449 6.6439 4.5224 5.5028 4.5672 5.8718 6.0919 7.1912 6.4181 7.2248 8.4153 7.3199 5.1305 6.8719 5.2686 5.8055 5.3602 6.4120 6.0721 5.2740
15、7.2329 7.0912 7.0766 5.9750 6.6091 7.2135 4.9585 5.9042 5.9273 6.5762 5.3702 4.7654 6.4668 6.1983 4.3450 5.3261 轾 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 犏 臌 17 例:混合高斯模型(续) n用bootstrap计算统计量 的方差: n1. 得到b=1000个bootstrap样本 ,其中 n2. 计算b=1000个bootstrap样本对应的统计量的值 n 3.
16、() 1,100, * ,., 1, ., bb b xxxbb= * 11000 ,.,xx , * 1 1 n bn bi b n i txx n = = nn tx= () , 2 * , 11 11 , n bn bn bootnn r br vxxxx bb = =-= 邋 * 100 5.001,x= 0.0489, boot v= 与直接用嵌入式估计得到的结果比较: 4.997, n x = 2 0.0484,s= 0.221 boot boot sev= 2 0.22ses= 18 bootstrap:方差估计 n真实世界: nbootstrap世界: n发生了两个近似 n近似
17、的程度与原始样本数目n及bootstrap样本的数目b 有关 () 11 ,.,., nnnn fxxtg xx揶= () * 11 ,.,., nnnn fxxtg xx揶= ( ) () ( ) () 11 n onob fnnboot f ttv=vv 19 bootstrap:方差估计 n在方差估计中, 可为任意统计函数 n如均值(混合高斯模型的例子) n中值(伪代码参见教材) n偏度(例子参见教材) n极大值(见后续例子) n n除了用来计算方差外,还可以用作其他应用 ncdf近似、偏差估计、置信区间估计 n t 20 cdf近似 n令 为 的cdf n则 的bootstrap估计为
18、 ()() nn gttt=p n t n g ()() * , 1 1 b nn b b gti tt b = = 21 偏差估计 n偏差的bootstrap估计定义为: nbootstrap偏差估计的步骤为: n得到b个独立bootstrap样本 n计算每个bootstrap样本 对应的统计量的值 n计算bootstrap期望: n计算bootstrap偏差: ( )( ) * bootnfnn biasttt=-e * 1 ,., b xx ( )() ,1, * ,., n bbn b b tg xg xx= * , 1 1 n n n r r tt b = = ( ) * n boo
19、tnn biasttt=- * b x 22 例:混合高斯模型: n标准误差估计 n在标准误差估计中,b为50到200之间结果比较稳定 n偏差估计 4.997 n x = boot se boot bias ( ) * f xe 23 bootstrap置信区间 n正态区间: n简单,但该估计不是很准确,除非 接近正态分布 n 百分位区间: ,对应 的 样本分位数 n还有其他一些计算置信区间的方法 n如枢轴置信区间: () * 212 , n ctt aa- = 2n tzse a n t * ,1, ,., nn b tt () * 122 2,2, n ctttt aa- =- 24 例:
20、bootstrap置信区间 n例8.6:bootstrap方法的发明者bradley efron给出了下列用语解释bootstrap 方法的例子。这些数据是last分数(法学院的入学分数)和gpa。计算 相关系数及其标准误差。 lsat (y) 576635558578666580555661 651605653575545572594 gpa (z)3.393.302.813.033.443.073.003.43 3.342.762.882.96 25 例8.6 (续) n相关系数的定义为: n相关系数的嵌入式估计量为: nbootstrap得到的相关系数插入估计的标
21、准误差为: 0.132 bootse 标准误差趋向稳定于 ()()() ()( ) ()( ) 22 , yz yz yzdf y z ydf yzdf z mm q mm - = - 蝌 蝌 ()() ()() 22 0.776 ii i ii ii yyzz yyzz q - = - 邋 $ b5010020040080016003200 0.1410.1370.1330.132boot se 26 例8.6 (续) n当b=1000时, n 的直方图为下图,可近似为从 的分布采样 n95%的正态区间为: n95%的百分点区间为: n当大样本情况下,这两个区间趋近于相同 0.137 boo
22、tse * 1,.,bqq $ q $ ()0.7820.51, 1.00 se= ()0.46, 0.96 27 非参数bootstrap过程总结 n对原始样本数据 进行重采样,得到b个 bootstrap样本 ,其中b=1, , b n 对每个bootstrap样本 ,计算其对应的统计量 的值(bootstrap复制) n根据bootstrap复制 ,计算其方差、偏差和置 信区间等 n称为非参数bootstrap方法,因为没有对f的先验(即f的知 识仅从样本数据中获得) () 1,.,n xxx= () 1 * ,., n b xxx= ( )() ,1, * ,., n bbn b b
23、tg xg xx= *, 1,., b xbb= , * ,1,., n b tbb= 28 非参数bootstrap n统计量/统计函数: n没有对f的先验,f的知识仅从样本数据中获得 (cdf估计),统计函数的估计变为嵌入式估计 n真实世界: nbootstrap世界: n如方差计算中,发生了两个近似 n近似的程度与样本数目n及bootstrap样本的数目b有关 ( )tt f= ( )( )() 1 , ,., nnn tt ftt fg xx= () 11 ,.,., nnnn fxxtg xx揶= () * 11 ,.,., nnnn fxxtg xx揶= ( ) () ( ) ()
24、 11 n onob fnnboot f ttv=vv 29 bootstrap的收敛性 n例:混合高斯模型: n nn=100个观测样本: n4次试验得到不同b的偏差和方差的结果 ( )()(): 0.21,20.86,1ff xnn=+ () 1100 ,.,xx=x nn tx= boot se boot bias 30 bootstrap的收敛性 nb的选择取决于 n计算机的可用性 n问题的类型:标准误差/偏差/置信区间/ n问题的复杂程度 * , 1 1 b n bootn b b tt b = = 31 bootstrap失败的一个例子 n ,我们感兴趣的统计量 为 n 的cdf用
25、g表示 n则 的pdf为 () 1,., 0, n xxuniformq ( )( ) 1 n n gg q qq qq - 骣 骣 = 桫 桫 ( )()()() 1 max,., n gxxqqq=q =pp q () max1 max,., n xxxq= ()( )() 1 n n n i i xf q qq q = 骣 = 桫 p q 32 bootstrap失败的一个例子(续) n对非参数bootstrap,令 n则 n所以 ,非参数bootstrap不能很好地模拟 真正的分布 ( ) () 1 max,., nn xxx= ()()()() * 11 max,.,max,., n
26、n xxxxqq=pp () ( ) is in the bootstrap sample n x= p () ( ) 1 is not in the bootstrap sample n x=- p 1 11 n n 骣 =- 桫 () * 0.632qq=p 33 bootstrap失败的一个例子(续) n假设样本数目n=10,样本为 ,取参数 x = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) () 1,.,n xxx= () 1 max,., n xxq= * q非参数bootstrap
27、复制 的直方图 b=1000,最高峰为 ()() * 0.656011 10.6513 n nqq=-=p 理论结果: () 1 n n g q q qq - 骣 骣 = 桫 桫 g 1q= 0.8772q= 34 bootstrap失败的一个例子 n为什么失败? nedf 不是真正分布 的很好近似 n为了得到更好的结果,需要f的参数知识或者 的 平滑性 n参数化的bootstrap表现很好,能很好模拟真正的 分布 n f() 0,1funiform= n f 35 bootstrap的收敛性 n给定n个iid数据 ,要求 n当 , 收敛于f n 为 的嵌入式估计 n统计函数的平滑性 n平滑函
28、数: n均值、方差 n不平滑函数:数据的一个小的变化会带来统计量的很大变化 n顺序统计量的极值(极大值、极小值) n f ( )tt f=( ) nn tt f= 1,.,n xx n 36 参数化的bootstrap n真实世界: nbootstrap世界: n与非参数的bootstrap相比: nf的先验用参数模型表示 n多了一个步骤:根据数据估计参数 (参数估计),从而得到 不 是经验分布函数edf n重采样:从估计的分布 采样(产生随机数) ();fxq () ;f xq f的先验 n f q q () ;f xq () ;f xq () 11 ,.,., nnn xxtg xx揶=
29、() * 11 ,.,., nnn xxtg xx揶= 37 例: 非参数bootstrap失败的例子 n ,取参数 ,假设样本数目 n=10,样本为 x = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) n在参数bootstrap中: nf的先验: n根据数据估计f中的参数: n得到f的估计: n从分布 产生b=1000个样本 , 得到b个 , 直方图如右图 () 1 max,.,0.8722 n xxq= ()0,funiformq; () 1,., 0, n xxuniformq1q= ()
30、0,0.8722funiform; n f * b x ( ) * max b b xq= * q的分布为真正的分布() 1 n n gg q q qq - 骣 骣 = 桫 桫 38 参数化的bootstrap n当f为参数模型时,参数化的bootstrap也可用于计算方差、 偏差、置信区间等 n如计算方差: 2 * , 11 11 bn bootn bn r br vtt bb = 骣 =- 桫 邋 0. 根据数据 估计 f 的参数 ,得到 f 的估计 1. 抽取样本 2. 计算 3. 重复步骤1和2 b次,得到 4. () ;f xq q 1,.,n xx () * 1 ,.,; n xx
31、f xq: () * 1 ,., nn tg xx= * ,1, ,., nn b tt 39 参数bootstrap vs. 非参数的bootstrap nf的先验 n参数bootstrap中利用了分布f的先验,表现为一个参数模型,因 此多了一个步骤,估计f模型中的参数。当先验模型正确时,参 数bootstrap能得到更好的结果 n而非参数bootstrap不利用f的先验知识就能得到正确的标准误差 (在大多数情况下) n参数bootstrap能得到与delta方法(计算变量的函数的方差)相 当的结果,但更简单 n重采样 n参数bootstrap中,通过从分布 中产生随机数,得到 bootst
32、rap样本,得到的样本通常与原始样本不重合 n非参数bootstrap中,通过对原始样本进行有放回采样实现对 的采样,每个bootstrap样本都是原始样本集合的一部分 二者相同的是模拟的思想 () ;f xq n f 40 bootstrap(参数/非参数)不适合的场合 n小样本(n太小) n原始样本不能很好地代表总体分布 nbootstrap只能覆盖原始样本的一部分,带来更大的偏差 n结构间有关联 n如时间/空间序列信号 n因为bootstrap假设个样本间独立 n脏数据 n奇异点(outliers)给估计带来了变化 41 刀切法(jackknife) 42 引言 nbootstrap方法
33、并不总是最佳的。其中一个主要原因是 bootstrap样本是从 产生而不是从f产生。 n问题:能完全从f采样或重采样吗? n如果样本数目为n,答案是否定的! n若样本数目为m (m n),则可以从f中找到数目为m的采样/重采样, 通过从原始样本x得到不同的子集就可以! n寻找原始样本的不同子集相当于从观测 进行无 放回采样,得到数目为m的重采样样本(在此称为子样本) 这就是jackknife的基本思想。 n f 1,.,n xx 43 刀切法(jackknife) njackknife由maurice quenouille (1949)首先提出 n比bootstrap出现更早 n与bootst
34、rap相比,jackknife ( m=n-1) 对计算机不敏感。 njackknife为一种瑞士小折刀,很容易携带。通过类比, john w. tukey (1958)在统计学中创造了这个术语,作为 一种通用的假设检验和置信区间计算的方法。 44 jackknife样本 njackknife样本定义为:一次从原始样本 中留出一个样本 : n jackknife样本中的样本数目为m=n-1 n共有n个不同的jackknife样本 n无需通过采样手段得到 jackknife样本 () 1,.,n xxx= , 1,., i xin= () ()111 ,., ,., iiin xxxxx -+
35、= () 111 ,.,., iiin xxxxxx -+ = bootstrap matlab toolbox中也有该功能 45 jackknife复制 n统计量为: njackknife复制为: n均值的jackknife复制为: () ()() , nii tg x - = 1,.,in= () 1 11 ni nij ij nxx xx nn - - = - () 1,.,nn tg xx= 46 jackknife方差估计 n 从原始样本x中计算n个jackknife样本 n计算n个jackknife复制: n计算jackknife估计的方差: n (), 1,., i xin -
36、= () ()() , nii tg x - = 1,.,in= () 2 ()() ()() 11 11 , nn nini jacknini ii n vtttt nn - - = - =-= 邋 jack jack sev= 47 例:计算均值的方差 n ,则 n所以 nn tx= () 1 ni ni nxx t n - - = - ()() () 111 1111 11 nnn ni ni nini iii nxx ttnxx nnnnn - - = - =- - 邋 ()() 2 2 () 1 111 1 n jackninni i n vttxx nnn - = - =-=- - ( )( ) 2 2 , ni xx n s s=vv()( ) 2 222 1 , 1 ni sxxs n s=-= - e 方差的无偏估计 () 2 11 1 nnn n xnxx nn =-= - 48 例:计算均值的方差 n因子 比bootstrap中的因子 大多了。 n直观上,因为jackknife 方差 比bootstrap中 的方差 小得多(相比bootstrap样本,jackknife 样本与原始样本更相似 n事实上,因子 就是考虑特殊情况 得到的 (有点武断) 1n n -1 b () 2 ()nin tt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度供货合作模板协议文件版
- 2024吊车租赁协议范例
- 2024年度云计算服务合同with标的为云服务器租赁
- 2024年家装工程协议样本详解版B版
- 2024年度公司财务数据保护与保密合同书版B版
- 2024专业标识牌定制采购合同样本版B版
- 2024年劳动法下劳动协议终止流程版B版
- 2024年幼儿园专职保安服务协议版B版
- 2024专业企业数据分析咨询服务协议版
- 2024年企业人力资源管理与服务合同
- 科研伦理与学术规范-期末考试答案
- JGJ/T235-2011建筑外墙防水工程技术规程
- (正式版)HG∕T 21633-2024 玻璃钢管和管件选用规定
- 创新工程实践智慧树知到期末考试答案章节答案2024年北京大学等跨校共建
- 高等工程数学Ⅰ智慧树知到期末考试答案章节答案2024年南京理工大学
- MOOC 普通地质学-西南石油大学 中国大学慕课答案
- 2022年温州中学自主招生模拟考试英语试题
- GB/T 2007.6-1987散装矿产品取样、制样通则水分测定方法-热干燥法
- 水库水面蒸发、水温分析计算大纲
- 贵州茅台酒全国经销商信息汇总
- 文王六十四卦
评论
0/150
提交评论