版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BootStrap研究生《医学统计学2》课程主要内容Bootstrap简介参数和非参数Bootstrap不同资料的Bootstrap处理Bootstrap应用实例统计学的基本过程我们需要知道的是某些变量的平均和误差执行某些测量若干次误差随着测量次数的增加而减少中心极限定理
有时候……R2的分布?独立性假设被违背时,回归系数的分布?某些先进方法中的指标分布?随机森林分析中的重要性得分?预测模型的AUC?Bootstrapaloopedstrapsewedatthesideorthereartopofaboottohelpinpullingitonunaidedefforts—oftenusedinthephrasebyone'sownbootstraps
designedtofunctionindependentlyofoutsidedirection:capableofusingoneinternalfunctionorprocesstocontrolanother<abootstrapoperationtoloadacomputer>carriedoutwithminimumresourcesoradvantages<bootstrapefforts>topromoteordevelopbyinitiativeandeffortwithlittleornoassistance“Pullingoneselfupbyone’sbootstraps”
“Ifoundmyselfstunned,andinaholeninefathomsunderthegrass,whenIrecovered,hardlyknowinghowtogetoutagain.Lookingdown,IobservedthatIhadonapairofbootswithexceptionallysturdystraps.Graspingthemfirmly,Ipulledwithallmymight.SoonIhadhoistmyselftothetopandsteppedoutonterrafirmawithoutfurtherado."--CampaignsandAdventuresofBaronMunchausen,1786.吹牛大王历险记Bootstrap一种估计抽样误差和计算可信区间的方法。1979EfronBradleyEfronB(1979).Bootstrapmethods:Anotherlookatthejackknife.Ann.Statist.71–2620世纪70年代以来统计学上“唯一的伟大进展”。KotzandJohnson,1992EfronBradleyBradleyEfron博士现任斯坦福大学统计系MaxH.Stern讲席教授。Efron教授是公认的当今世界最有影响力的统计学领域的权威。他的主要贡献包括Bootstrap再抽样方法。经验贝叶斯方法,微分几何在统计推断中的应用,生存分析方法,生物芯片数据分析方法等。Efron教授是麦可阿瑟奖获得者,美国国家科学院院士,美国科学与艺术学院院士。他还获得过统计学领域几乎所有的著名奖项,包括著名的Wilks奖章,Parzen奖,Rao奖。2005年,Efron教授获得了美国国家科学奖章(美国自然科学最高奖)以表彰他在统计学领域所作出的杰出贡献。这一奖章在2007年7月27日在白宫举行的一个特别仪式上由时任美国总统乔治W.布什亲自颁发。Bootstrap的前身:Jack-knife(刀切法)一种特殊的Bootstrap每个Jackknife样本包括原样本-1个个体Bootstrap的基本流程从一个给定的数据中有放回地重复抽样若干次数,得到若干个样本;对于某个样本,计算相应的统计量;得到这个统计量的分布是其真实分布的估计;Bootstrap:resamplingwithreplacementD、E、A、C、E、B、A、D、A、……Bootstrap对资料的基本要求样本必须是总体的代表;照着苹果永远画不出一个桔子出来!一个最简单的小例子假设总体是均数为5,标准差为3的正态分布;现有样本包含100个个体;如何求中位数的方差及其95%CI?理论上手头样本>data[1]3410551061349[12]6653106-17424[23]23308529648[34]877754434112[45]92447565594[56]100756634226[67]658114-283384[78]16556474686[89]4887639312104[100]2从中有放回地抽取100个个体,重复20次>resamples[1][1]312653472-1-17045547347212881044011[30]731410844710546-124841212802689663[59]48645357871066316131041285421046[88]21059914864945r.median<-sapply(resamples,median)5.05.05.05.05.05.05.05.05.04.04.55.05.04.05.05.05.05.05.05.0sqrt(var(r.median))0.5250313mean(r.median)4.875求95%CI利用近似正态分布的原理利用百分位数区间(4,5)什么时候可以用Bootstrap法?当统计量的理论分布过于复杂或者难于获得时;样本含量偏小,不足以进行统计推断;当需要进行效能计算时,且手头有个小预实验时;需要一个快速的答案。Bootstrap的分类参数Bootstrap假设样本来自的总体分布已知;利用手头样本估计总体参数;按照估计出的总体分布产生样本;根据样本计算统计量的分布非参数Bootstrap将手头样本当成总体,从中抽样;参数和非参数Bootstrap出生体重和70-100体重间的关系非参数Bootstrap从所有的个体中有放回地抽取n个,eg.4,5,2,4,9,10,3,3,6,2,1,6,9,8计算感兴趣的统计量重复B次,得到统计量的分布参数Bootstrap先拟合回归方程,估计残差方差,σ2=14.1从N(0,σ2)中随机抽取n个残差根据第一步中回归方程估计,计算Y的Bootstrap样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。半参数Bootstrap先拟合回归方程,估计残差对残差进行Bootstrap抽样根据第一步中回归方程估计,计算Y的Bootstrap样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。仅当残差为独立同分布时适用。如何用Bootstrap进行估计令Yi,i=1,…,n为样本T(Y)为Y的函数{Y`b,1,…,Y`b,n}为第b个Bootstrap样本,b=1,..,B则Var(T)的Bootstrap估计值为T的95%CI可以根据Boostrap分布的百分位数得到。Bootstrap的可信区间估计非学生化枢轴法(non-studentizedpivotalmethod)Bootstrap-t法百分位数法偏倚校正法Bootstrapconfidenceintervals:when,which,what?Apracticalguideformedicalstatisticians.JCarpenterandJ.Bithell.StatisticsinMedicine,2000;19:1141-64.Bootstrap的可信区间估计Bootstrapt法优点:简单,一般较可靠缺点:计算较为复杂,耗时百分位数法优点:简单缺点:当分布不近似对称时,覆盖率可能较低偏移校正法校正因子Z校正因子ArA1及rA2作为百分位数区间的下限和上限。不同资料的Bootstrap处理单样本资料两样本资料回归分析Bootstrap假设检验单样本情形两样本情形两组分别Bootstrap合并组成BS样本;治疗组对照组945219710416146381099511413023402746回归与BootstrapY:应变量X:自变量β0、β1
:回归系数ε:残差两种Bootstrap方法针对数据对的Bootstrap针对残差的Bootstrap针对残差的Bootstrap先估计和:eg.最小二乘法求残差;对残差进行Bootstrap对于某一个残差Bootstrap样本,根据下式求Y的Bootstrap样本。注意X与实际样本完全相同!这是半参数Bootstrap两种Bootstrap选哪一个针对残差的Bootstrap:残差和自变量是独立的!自变量最好是指定的固定取值变量!针对对子的Bootstrap:X和Y都是随机变量也取决于我们有多么信任模型是否正确!回归的Bootstrap Dose Surv.Prop LogSurvProp1 1.175 0.44000 -0.82098062 1.175 0.55000 -0.59783703 2.350 0.16000 -1.83258154 2.350 0.13000 -2.04022085 4.700 0.04000 -3.21887586 4.700 0.01960 -3.93222577 4.700 0.06210 -2.77900938 7.050 0.00500 -5.29831749 7.050 0.00320 -5.744604510 9.400 0.00110 -6.812445111 9.400 0.00015 -8.804875312 9.400 0.00019 -8.568486513 14.100 0.00700 -4.961845114 14.100 0.00006 -9.7211660模型EstimateSEP模型1β1-0.67640.0560<0.0001模型2β1-1.04860.1589<0.0001β20.03430.01400.0303去除离群值EstimateSEP模型1β1-0.77670.0299<0.0001模型2β1-0.86130.0945<0.0001β20.00860.00910.3650最小中位二乘回归(LeastMedianSquareRegreession,LMS)LMS的估计结果:Doseβ1=-0.7515BootstrapSEofββ1:0.2308LMS的估计结果:Dose2β2=-0.0256BootstrapSEofβ2:0.0335复杂抽样复杂抽样时,方差的估计往往较为困难;Bootsrap法的一个吸引人之处便是其可用于复杂抽样时统计量方差的估计;分层抽样;整群抽样;多少次Bootstrap抽样较为合适?多少个Bootstrap样本合适?没有标准答案!1000~2000?先试100个,再试1000个,看看结果有没有巨大改变Bootstrap的优缺点优点简单!Simple!直接!straightforward!缺点过于乐观!有时候忽略了很多假设!应用实例:相加交互作用的假设检验传统基于logistic回归的模型相加交互作用步骤:在B=0时,估计A的单独效应在A=0时,估计B的单独效应估计A和B一起作用时的效应计算AB-A-BBootstrap求方差!相乘交互作用结果Coefficients: Estimate Std.Error Pr(>|z|)(Intercept) -2.4423 0.3686 3.45e-11***A 1.2340 0.4386 0.0049**B 1.0561 0.4454 0.0177*A:B 0.5162 0.5442 0.3428Bootstrap法估计结果MeanofOR:12.33VarianceofOR:59.3695%CIofOR:(3.65,32.16)等级资料的等效性检验了考察克林霉素磷酸酯阴道凝胶对细菌性阴道病的治疗效果;采用阳性对照;细菌学疗效评价如下:试验药与对照药是否等效?疗效痊愈显效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于夫妻双方离婚协议书
- 土地租赁合同双方协议书七篇
- 2025无财产离婚协议书
- 面神经炎病因介绍
- 错构瘤病因介绍
- 荨麻疹病因介绍
- 11化学中考真题汇编《氧气的性质》及答案
- (2024)乳制品加工项目可行性研究报告写作范本(一)
- 2024-2025学年人教版八年级英语上学期期末真题 专题01 单项选择(安徽专用)
- 2023年耐磨剂项目融资计划书
- 经理与领导人员管理制度
- 《西游记知识竞赛》题库及答案(单选题100道、多选题100道)
- 2024年行政执法人员执法资格考试必考题库及答案(共190题)
- QC-提高地铁车站直螺纹钢筋机械连接一次性合格率
- 《2025酒店预算的进与退》
- 《中国政治思想史》课程教学大纲
- 施工项目经理述职报告
- 2025年中国野生动物园行业市场现状、发展概况、未来前景分析报告
- DZT0203-2020矿产地质勘查规范稀有金属类
- 广东省广州市2023-2024学年七年级上学期语文期末试卷(含答案)
- 2024年湛江市农业发展集团有限公司招聘笔试冲刺题(带答案解析)
评论
0/150
提交评论