版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PermutationTest研究生《高级医学统计学》课程主要内容Permutation简介Permutation的基本步骤基本统计方法的Permutation实现Permutation应用实例文献阅读假设检验的基本原理假设检验通过选择一个随机样本,来告诉我们一个观察到的效应,如组间差异、两指标的相关,是否可以“合理地”被归为机会所致。步骤选择合适的统计量;构建零假设下的抽样分布;找到样本统计量在分布中的位置;秩和检验如果组间没有差异,秩次应当是随机散布,每组是从这些秩次中的一个随机抽样。那么在总样本含量为7,A组为2时,从总样本中随机选出2个,一共可以有
个子数据集。若忽略次序,则有21个。每一个子数据集对应于一个秩和,每个出现的频率约是0.05。其中最极端的两个,一个是1、2,另一个是6、7,且这两个秩和只会出现一次,故双侧0.10的界值为3-13。同样,我们也可以在所有子数据集中找到与现有样本相同的那个子集,以及比它具有更大差别的那些子集,累积他们的概率,作为P值!比如,对于共7个个体、A组有2个时,在H0成立时,A组各种秩和的频率图为若现A组实际秩和为5,做单侧检验,则P值为?Permutation数学上,一个Permutation是1到n数字的重排。例如,3个球有六种排列。7
简介R.A.Fisher(1935)
给出了很多Permutation的案例,强调了随机化的重要性。但是并没有提出Permutation的定义。E.J.G.Pitman(1937)第一个给出理论阐述。计算机的出现使PermutationTest得到极大发展。Permutation
Test的基本原理Permutation指数据的重新安排;在零假设下,假定所有排列出现的机会相同(数据分布是可交换的);形成所有或者若干个排列后,计算每个排列下的统计量且将每个排列出现的可能视为相同。若H0为真若H0为假11EPT若检验统计量的抽样分布是基于样本的所有可能的排列(或组合)条件下的分布,则称之为“ExactPermutationTest(EPT)”,即“确切排列(组合)检验”。简称“Permutationtest”。12RPT若检验统计量的分布,是借助MonteCarlo模拟抽样技术估计得到的近似分布,则称之为“RandomizedPermutationtest(RPT)”,即“随机排列(或组合)检验”。简称“RandomizationTest”!实际工作中,因难以得到检验统计量的确切抽样分布,采用RPT者较为常见!EPT:Let’sPermute!第一组:555860
第二组:122234对于原始数据,第一组的和为173;如果组间真是同质的,那么交换组间的个体应该对第一组之和不产生决定性影响;20种组合每个出现的概率都是0.05;出现大于等于现有样本173的只有样本本身。P=0.05。RPT:AComplicatedSample第一组:555860728032158754677234
第二组:122234253343251820244019多少种组合?穷举每种组合似乎太难。过程将这24个数字随机分入2组;计算第一组的和;重复k次;计算k次得到的和中大于等于现有和的个数。PermutationTest实施步骤建立假设,确定检验水准构造统计量求统计量的“PermutationDistribution”计算概率P结论StepsⅠ建立假设,确定检验水准H0
:
1=
2;H1
:
1≠
2;
=0.05(双侧检验)StepsⅡ构造统计量D,并计算现有样本统计量D(obs)检验统计量可以根据实际情况构造,无需考虑检验统计量的理论抽样分布,这是Permutationtest之特点。如两样本比较,可选两样本均数之差作为统计量D
StepsⅢ在H0假设条件下,通过MonteCarlo模拟得到统计量D的“PermutationDistribution”。在H0假设成立的条件下,两样本(设样本含量分别为n1,n2)来自同一个总体,均为总体的随机样本,那么从所有n1+n2个数据中抽取n1个数据(无放回抽样)作为第一组,则剩下的n2个数据作为第二组数据,并据此计算两组均数的差值D。重复以上步骤k次,即可得到D的“PermutationDistribution”。Steps
Ⅳ计算概率P
在H0假设成立的前提下,P值为统计量D的“PermutationDistribution”中D值大于等于(或小于等于)现有样本统计量D(obs)的概率,即:Steps
Ⅴ根据小概率原理,作出推断性结论当P≤
时,拒绝H0,接受H1
当P>
时,不拒绝H0
基本统计方法的Permutation实现成组设计两样本均数比较的t检验四格表资料的检验秩和检验例1:PermutationTest与t检验Permutation过程均数之差的Permutation分布检验结果在Null样本中,616个样本的差值大于等于现有样本;在ALT样本中,没有样本的差值大于现有样本。例2:成组设计的两样本均数的比较
软件模拟数据:n1=10n2=10例2:成组设计的两样本均数的比较构造两样本均数之差作为考察统计量D,则D(obs)=1.4612-(-0.0049)=1.4661,用RPT计算不同模拟次数(k)下的P值,P值随模拟次数的变化结果见表1:
29表1成组设计的两样本均数比较的RPT结果
kPkP10000.0060200000.009220000.0115500000.011030000.01071000000.010040000.01502000000.011150000.00925000000.011060000.011510000000.011070000.009080000.011390000.0113100000.010230100010000000.0050.0100.015kPt-test.ttestx1=x2,unpTwo-samplettestwithequalvariances------------------------------------------------------------------------------Variable|ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]---------+--------------------------------------------------------------------x1|10-.00491.35386071.119006-.8053984.7955784x2|101.4612.37892371.198262.60401522.318385---------+--------------------------------------------------------------------combined|20.728145.30322581.356067.09348611.362804---------+--------------------------------------------------------------------diff|-1.46611.5184597-2.555353-.3768665------------------------------------------------------------------------------Degreesoffreedom:18Ho:mean(x1)-mean(x2)=diff=0Ha:diff<0Ha:diff~=0Ha:diff>0t=-2.8278t=-2.8278t=-2.8278P<t=0.0056P>|t|=0.0112P>t=0.9944例3Verizon对于本公司用户(ILEC)和他公司用户(CLEC)的服务速度比较例4Permutation与配对设计满月能够影响情绪吗?15个痴呆患者12周每天记录攻击行为发生次数配对资料的Permutation检验对内Permute!例5:四格表资料的分析Fisher’sExactTest,FET.tabi133\76|colrow|12|Total-----------+----------------------+----------1|133|162|76|13-----------+----------------------+----------Total|209|29Fisher'sexact=0.2261-sidedFisher'sexact=0.119.dir(p_exact).22558721RPT以四格表实际频数A和理论频数T的差值作为统计量D,RPT(模拟100000次)的结果为:P=0.22576,绝对误差:0.22576-0.22559=0.00017,相对误差:0.00017/0.22559×100%=0.08%两者结果基本一致!a格子实际数的频率分布的比较
例6等级资料的分析有“相同秩次(tie)”的情形某实验室检测了两组各6人的尿蛋白,结果如下,问所得两组结果有无差异?A组:
、±、+、+、+、++B组:+、++、++、++、+++、+++
秩和A组:-、、+、+、+、++
秩次:124.54.54.58.5
TA=25
B组:+、++、++、++、+++、+++
秩次:
4.58.58.58.511.511.5
TB=53
TA+TB=N(N+1)/2=78例6等级资料的分析构造“第一组秩和TA与两组秩和之平均39的差值”作为检验统计量D,则D(obs)=25-39=-14。用RPT计算:表3-2等级资料分析的RPT结果(有相同秩次)
kPkP10000.0370200000.038120000.0405500000.037030000.02901000000.037240000.036550000.036060000.034870000.036680000.040890000.0368100000.03694310001000000.0250.0300.0350.0400.045kP两样本秩和检验T
界值
n1=6,n2-n1=0双侧单侧
28~500.100.05026~520.050.02524~540.020.01023~550.010.005
直接查“两样本比较用秩和检验T界值表”,得:0.02<P<0.05其对应的确切概率,可用EPT求得:此结果与RPT所得0.0370相差较大,原因何在?因为T界值表的编制未对相同秩次进行校正(事实上也很难一一罗列有相同秩次的情形),故直接查“两样本比较用秩和检T界值表”,所得结果偏离真值。一般而言,相同秩次越多,越复杂,查表所得结果偏离真值越远。此时,建议采用RPT!PermutationTest应用实例:最小P值法SNPsetAnalysis最小P值法对于每个SNP,分别检验其与结局的关联性;用所有SNP中最小的那个P值作为整个Gene的P值。存在的问题:未考虑多重比较越大的基因,出现小P的可能性越大!Let’s
PermutePermute表型和基因型;计算每个SNP与表型的logistic回归,获得检验统计量u选择其中最大一个u重复k次,得到u的分布计算其中小于等于样本u值的频率.讨论“Permutation”的含义EPT与RPT的区别模拟次数的选择“统计量”的构造Permutationtest的特点Permutationtest的应用进展“Permutation”的含义“Permutation”在数学上是“排列、置换”之意。当考虑顺序时,Permutation即为“排列”,不考虑顺序即为“组合”。PermutationTest中Permutation的理解需视具体情形而定:如原始资料为成组设计,取“组合”之意,如原始资料为配对设计,理解为“排列”更为贴切!EPT&RPTEPT是从手头样本的全排列(组合)中得到统计量的“经验抽样分布”,是一种“确切”算法;而RPT是通过大量模拟手头样本的随机排列(组合)得到统计量的“经验抽样分布”,是“确切”算法的一种近似,且模拟次数(k)越多,近似程度越高。EPT&RPT如果不考虑计算量,EPT适用于一切资料,但排列组合的数目随样本含量的增加呈阶乘级数上升,故建议对于小样本资料用EPT,而当样本含量相对较大时,用RPT更为合适。EPT&RPTEPT中全排列(组合)数(用K表示)的计算随资料设计形式的不同而异!成组设计两样本均数的比较,K为配对设计两样本均数的比较,K为2n(n为对子数)两个变量的相关分析,K则为n!。模拟次数k的选择RPT模拟次数究竟取多少合适?理论上讲,模拟的次数越多越好,但占用计算机资源。如果模拟1000次所得P值远离α(如0.05),从统计推断的角度而言,模拟1000次也就足够了;模拟次数k的选择但若需了解“确切”概率或所构造统计量的“确切”分布,考虑结果的相对稳定性,至少应模拟50000次,建议模拟100000次以上。当然,样本含量越大,对模拟次数的要求也越高!统计量的构造在假设检验中,“统计量”形成的理论以及所得结果的稳定性是导致不同方法和效率的关键。传统的假设检验必须明确检验统计量的理论抽样分布,而Permutation检验中的检验统计量可以根据实际情况构造,无需考虑其理论分布。Permutationtest的特点distributionfree.很多情况下能提供更有把握度的统计量(如,极端不平衡的资料)Permutationtest仅依据样本的排列组合,特别适用于小样本资料。另外,对于一些复杂设计难以用常规方法解决的问题,本法不失为一种较好的选择。Permutation&RanksumTestPermutationtest是一种不依赖于原始数据分布(Distribution-free)的检验方法,和传统的秩和检验相比:可充分利用样本数据的信息,从而提高检验效能!对离群值较秩和检验敏感!对有无相同秩次是稳健的(robust)!PermutationTest&Bootstrap均为基于样本,依赖计算机大量运算的(Computer-intensiv
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江宇翔职业技术学院《公路工程定额原理与计价》2023-2024学年第一学期期末试卷
- 浙江工业职业技术学院《采购过程演练》2023-2024学年第一学期期末试卷
- 反谐振阻抗比较小的原因
- 中国传媒大学《计算机电子电路基础》2023-2024学年第一学期期末试卷
- 长治医学院《剧场品牌管理》2023-2024学年第一学期期末试卷
- 云南司法警官职业学院《体育-台球》2023-2024学年第一学期期末试卷
- 企业内部知识分享平台构建方案
- 保险行业数字营销模板
- 拿破仑历史名人人物介绍
- 中考誓师大会学生发言稿
- 集团公司垂直管理办法
- 小学外来人员出入校门登记表
- GB/T 25283-2023矿产资源综合勘查评价规范
- 《滑炒技法-尖椒炒肉丝》教学设计
- 【人生哲学与传统道德4200字(论文)】
- 116个公共信息图形通用符号
- 劳动仲裁证据目录清单
- DB11T 1832.11-2022建筑工程施工工艺规程 第11部分幕墙工程
- 怎样移动重物幻灯片
- GB/T 29529-2013泵的噪声测量与评价方法
- GB/T 29494-2013小型垂直轴风力发电机组
评论
0/150
提交评论