统计方法-生物统计学讲义课件_第1页
统计方法-生物统计学讲义课件_第2页
统计方法-生物统计学讲义课件_第3页
统计方法-生物统计学讲义课件_第4页
统计方法-生物统计学讲义课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PointsofSignificanceMartinKrzywinskiCanada’sMichaelSmithGenomeSciencesCentreNaomiAltmanPennsylvaniaStateUniversityNatureMethodsPointsofSignificance1引言Statisticsdoesnottelluswhetherweareright.Ittells

usthechancesofbeingwrong.统计不会告诉我们哪对哪错,但是它会告诉我们犯错的几率。

每次重复试验不会得到相同的结果,只是在一定范围内波动,这是由于生物的变异性和测量设备的精度限制的原因,但如果每次测出来的结果都不同,如何确定测量与假设相符的?“科学的最大悲剧是:用丑陋的事实扼杀了美丽的假说。”(英国生物学家T.H.Huxley),这句话中的“丑陋”,怎样来测量?

2统计能够回答上述问题,它是一种能从定量上描述不确定性的规律方法,并且数据是用含有误差的估计来表示的,而不是精确的测量。其理论框架是结合实验结果的不确定性和给观测值的推广附上置信水平。统计方法-生物统计学讲义课件3很多概念能够从直观上理解,但也有例外,“三门”问题MontyHallproblem:参赛者可以在三扇门当中选择一扇,其中三扇门中只有一扇门后有汽车,其它两扇门为山羊,当参赛者选择一扇门后,主持人会打开两外两扇门中有山羊的门,并问参赛者是否改变主意。问题是:参赛者换门是否会增加他得奖的几率?看法一:不换门与换门而中奖的概率为1/2看法二:换门得将的概率为2/3参赛者可以在三扇门当中选择一扇,其中三扇门中只有一扇门后有41.Importanceofbeing

uncertain统计分类:描述性统计和推断型统计

描述性统计:用一些样本特征如:均值和标准等描述数据推断型统计:用观测到的数据来详尽的概括真实世界。两者都是由抽样和估计为基础,抽样是收集数据的过程,估计是把随机的东西定量化的过程。Pointsofsignificance专栏有助于在工作中超越直觉上对统计的理解。目的是解决医学期刊中大概一半的文章对统计的误用。1.Importanceofbeinguncerta5Fig1a一个实验变量的所有可能值的频率直方图,称为总体分布。通常想推断总体的均值和标准差(1)抽样过程Fig1a一个实验变量的所有可能值的频率直方图,称为总体分6Fig1b.总体分布有两个特征参数均值μ和标准差σ,分别刻画总体的位置和形状。(1)抽样过程Fig1b.总体分布有两个特征参数均值μ和标准差σ,分别刻画7平均值会受到奇异值的影响。而中位数相对来说是总体位置参数的更稳定估计,更适合于偏态分布或者不规则形状的数据。而标准差σ刻画的是数据的分散程度,在直观上不是很好理解,“3σ原则”有助于理解它的作用。如:对正态分布,有平均值会受到奇异值的影响。而中位数相对来说是总体位置参数的更8(2)通过抽样估计总体的均值μ及标准差σ由于各种原因的限制,总体的均值μ和标准差σ不能直接观测到。最好的方法是用抽样所得的数据进行估计。(2)通过抽样估计总体的均值μ及标准差σ由于各种原因的限制,9Fig2a.总体在0~30之间的频率直方图Fig2b.从总体a中抽取的3个样本Fig2C.所有样本容量为5的样本均值的直方图,样本均值的分布Fig2a.总体在0~30之间的频率直方图Fig2b.从10样本必须是总体的代表,这就需要的样本是“简单随机样本”。一般,样本不同于总体,除非样本量n足够大。在抽样过程中,样本是否发生偏离,不总是那么显而易见的。如:问卷调查的样本是那些愿意参与调查的人得到的,但是那些拒绝参与调查的人的信息你是得不到的,但这两组可能有着显著的不同。样本必须是总体的代表,这就需要的样本是“简单随机样本”。11Fig2C,样本均值也有分布,其均值和标准差为像总体一样,抽样分布也是不能直接测出来的,因为我们并不可能得到所有可能样本。注意到,样本均值的分布Fig.2c与Fig.2a有着显著的不同,但是均值的分布与总体分布是相关的,这个关系由中心极限定理给出:随着n的增加,样本均值的分布逐渐接近于正态分布,无论总体的分布是什么形状的。是容易迷惑为样本均值的标准差,σ是总体的标准差,n越大,越小(表示越接近均值μ),而σ不变。Fig2C,样本均值也有分布,其均值和标准差为是容易迷惑12不同总体分布的中心极限定理不同分布的总体下的样本均值的分布随着n的增加近似服从正态分布。不同总体分布的中心极限定理不同分布的总体下的样本均值的分布随13虽然样本均值可以作为总体均值的估计,但是仍有可能某个样本均值落在总体均值很远的地方,特别是对于那些很小的n。如:从不规则总体中抽取了n=3的样本10000个,做了10次迭代,样本均值落在μ±σ之外的比例从7.6%到8.6%.

当样本容量很小时,解释均值的结果务必要小心。虽然样本均值可以作为总体均值的估计,但是仍有可能某个样本14要记住一点,测量出来的结果都是估计,你不应当把他当成精确和最终的结果。大量存在的不确定性都会确保每次的样本都不一样。总体均值的估计精度的提高速度慢于数据收集的速度,这是因为存在一个比例因子。精度提高2倍,数据量提高4倍多。要记住一点,测量出来的结果都是估计,你不应当把他当成15样本都是来自Fig2a的总体,随着n的增加,标准误差(s.e.m.)是样本均值的标准差的估计。样本都是来自Fig2a的总体,随着n的增加,标准误差(s.e162.Errorbars(误差线)估计的不确定性通常由误差线来表示。误差线的类型:(1)标准差s.d.:反映的数据的变异度(离散程度)(2)标准误s.e.m.:反映测量的精度,是的估计,或者说是用样本均值估计总体均值的精度的度量(3)95%置信区间(95%CI)Themeaningoferrorbarsisoftenmisinterpreted,asisthestatisticalsignificanceoftheiroverlap.误差线的意义常常被误读,就像有重叠的统计显著性一样。在科学出版物种常用误差线表示随机性,但是常常被误读。2.Errorbars(误差线)估计的不确定性通常由误差172.Errorbars(误差线)Fig.1a,三种不同类型的误差线,表面上一样,但是反映的意义不一样,两者均值的检验显著性有差异,本质是标准差不一样。Fig.1b,显著性相同,即s.d.是一样的,但是误差线出现重叠和有间隙的情形。一般而言,有间隙不一定有差异,重叠就无差异。2.Errorbars(误差线)Fig.1a,三种不同类18模拟和计算Fig.1a,相同长度为0.5,针对3种条件,可分别计算其p值(1)s.d.=0.5,可得|t0|=4.472136,其检验的p值为(2)s.d.m.=0.5,即sd=0.5*sqrt(10)可得|t0|==1.414214,其检验的p值为模拟和计算Fig.1a,相同长度为0.5,针对3种条件,可分19通过类似的计算可以得到如图Fig.1b上的长度数据Fig.1a,(3)95%CI=0.5,即,可得s.d.=0.6989518其检验的p值为Sd=1.06,s.e.m.=0.335,length(CI)=0.758通过类似的计算可以得到如图Fig.1b上的长度数据Fig.1202.Errorbars(误差线)避免三者的误用:弄清楚误差线所表达的对随机度量的含义。Only1figure95%CI2012NatureMethods,在所有平面图中有2/3使用了误差线s.d.45%VSs.e.m.49%5%notspecified置信区间是对不确定性的直观的度量,常用于医学文献2.Errorbars(误差线)避免三者的误用:弄清楚误21三种误差线的含义:(1)标准差s.d.误差线基于标准差的误差线可以知道总体数据的变异度,对于新样本值范围的预测是有用的。标准差只是反应的是数据的变异,不是直观上的测量的误差。来自两个不同总体的样本,其s.d.误差线可以重叠(2)标准误s.e.m.误差线基于标准误的误差线反映的是均值的随机性,并且依赖于样本量的大小。抽取样本越多,其值越小。“如果标准误差线不重叠,则这两者之间的差异不显著“这句话是不对的。三种误差线的含义:(1)标准差s.d.误差线基于标准差的误差22三种误差线的含义:(3)置信区间置信区间表示的是对测量可靠性的一种区间估计。置信区间表示以某种概率(置信水平)能捕获总体均值的信息。也即,所有这种区间的95%能够覆盖总体均值,如图Fig2.a三种误差线的含义:(3)置信区间置信区间表示的是对测量可靠性23Fig2a,20个样本容量为10的95%CI中有两个没有覆盖总体均值Fig2a,20个样本容量为10的95%CI中有两个没有覆盖24Fig2b,s.e.m.与95%CI的关系Fig2b,s.e.m.与95%CI的关系25一个常见错误是:把置信区间理解为一种平均或期望数,总体均值落在此区间的概率为1-α。错误的原因是置信区间的大小和位置是与每次取样有关的,出现相同的置信区间的概率是很小的,所以置信区间是一种随机区间。平均来说,100次取样,得到100个区间,平均上有95个区间能覆盖总体均值。一个常见错误是:把置信区间理解为一种平均或期望数,26Fig3对相同的P值,s.e.m.与95%CI误差线的长度与位置不能用误差线的相对位置来判断其显著性,如P=0.05,s.e.m有间隙,但95%CI超过50%的重叠;当95%CI刚好接触到,其P值为0.005,有极高的显著性。Fig3对相同的P值,s.e.m.与95%CI误差线的长度27一个建议:由于误差线的多样性,在使用误差线时,在图中标注出是哪种类型,并对其进行解释。不能仅从误差线的直观上理解来判断其显著性。一个建议:由于误差线的多样性,在使用误差线时,283.Significance,Pvaluesandt-testsThePvaluereportedbytestsisaprobabilisticsignificance,notabiologicalone.许多检验用P值来作为度量一个结果的差异是否由随机因素造成的。3.Significance,Pvaluesandt-29统计检验的思想Fig1a一个蛋白表达水平值x=12,参考值为μ=10,你认为它们之间差异是由随机性造成的吗?统计检验的思想Fig1a一个蛋白表达水平值x=12,参考值30统计检验的思想Fig1b假设样本取自正态总体,均值μ=10统计检验的目的是用观测值定位在这个分布上去识别它是否超出了一定范围。统计检验的思想Fig1b假设样本取自正态总体,均值μ=1031统计检验的思想Fig1c统计把这种范围进行了量化,观测值x的统计显著性,阴影部分的面积,这就是Pvalue。若是单侧的检验,就是dark部分的面积统计检验的思想Fig1c统计把这种范围进行了量化,32统计检验的思想P值经常误解为在计算P值的过程中,假设H0为真,x是从H0为真的分布下抽取的,P值如果比较小,如小于0.05,只是告诉我们,在这个假设下,一个不大可能发生的事件出现了,有理由拒绝H0,也就是接受备则的假设,认为样本不是来自均值为μ的总体。

但是统计显著性并不表明生物学的显著性。假定总体服从均值为μ的正态分布,为得到其精确的形状接下来需要对其标准差进行估计。再独立的测4次,就得到一个容量为5的样本,假设它的平均值为统计检验的思想P值经常误解为在计算P值的过程中,假设H0为真33Fig2a假设重复测量5次,均值为10.85,标准差sdx=0.96并且假定总体的标准差就是sdx=0.96Fig2a假设重复测量5次,均值为10.85,标准差sdx34Fig2b假设总体是正态分布,均值为μ=10,并且假定总体的标准差就是sdx=0.96,s.e.m=Fig2b假设总体是正态分布,均值为μ=10,35Fig2c假设H0是正态分布,则其样本均值的抽样分布也为正态分布可用(s.e.m.)估计其sd把标在分布图上,可得到其P值Fig2c假设H0是正态分布,则其样本均值的抽样分布可用36通过计算可以构造一个统计量t的分布形状与正态分布非常接近,但与正态分布不一样,称之为Student’st分布.分布形状上的差异在于,对大多数样本来说,样本方差S2往往小于总体的方差,或者说是低估了总体的方差,可以证明样本方差的分布是偏态分布。(下图为模拟实验)因为不对称性,n越小,得到的样本方差小于总体方差。也就出现t分布的尾部更高的现象。(Fig3a)通过计算可以构造一个统计量t的分布形状与正态分布非常接近,但37模拟实验,从N(0,1)中抽取容量为5的样本,抽取2000次得到的方差的直方图,易知是偏态的模拟实验,从N(0,1)中抽取容量为5的样本,38Fig3a不同的样本容量下,t分布的密度与正态分布密度的比较,t分布尾部更高。随着n的增加,t分布越来越像正态。n越大,S2越接近于总体方差σ2Fig3a不同的样本容量下,t分布的密度与正态分布密度的比39所以,如果不进行校正,不用t分布去做,而是用Fig2c中的正态分布计算的话,将会高估他的显著性。例如:在Fig2b中用样本量为5的样本,t值为1.98,得到的p值为0.119.若用正态分布计算,得到p值为0.048.若t值不变,增加样本容量n=50,得到的p值为0.054.结果就与正态分布下的P值比较接近了。所以,如果不进行校正,不用t分布去做,而是用Fig2c40Fig3b不同的样本量下,P值与t统计量值的变化,n越小,P值的改变越大。Fig3b不同的样本量下,P值与t统计量值的变化,414.PowerandsamplesizeTheabilitytodetectexperimentaleffectsisunderminedinstudiesthatlackpower.没有功效的研究中,检测实验效应的能力就被削弱了。分布之间的差异能够用实验效应来反映,效应的概率称为功效。4.PowerandsamplesizeTheabi42功效:不犯第二类错误的概率,也称敏感性(sensitivity)TypeIerror:H0为真,拒绝H0,也称假阳性,FalsepositiveTypeIIerror:H0为不真,接受H0,也称假阴性,Falsenegative功效:不犯第二类错误的概率,也称敏感性(sensitivit43功效对检验来说非常重要,但常常被忽视。当功效低,重要的效应可能检测不到,在一些有很多条件和结果的实验中,如组学实验,显著性结果中的一大部分结果可能是错的。Fig1有两组实验,一组50%有差异,另一组10%的差异若检验功效为0.2,说明会错过80%的真阳性结果,第一组实验阳性结果中的20%可能是错的,即阳性预测值(PPV)为0.8.(PPV=真阳性/检测为阳性)功效对检验来说非常重要,但常常被忽视。当功效低,重要的效应可44对于像基因表达研究实验中,有差异性的结果不到10%是很常见的。若power=0.2,得到PPV=0.31,即阳性结果中超过2/3的结果是错的.即使用最常用的最低功效0.8,也有超过1/3的结果是错的(PPV=0.64).对于像基因表达研究实验中,有差异性的结果不到10%45当检验那种真实阳性结果很少的假设时(差异性很少的假设,如第二组实验),低功效的大多数阳性结果都是错的当检验那种真实阳性结果很少的假设时(差异性很少的假46一个关于医学研究文献分析发现,在功效至少为80%,检测有阴性结果的试验中仅有36%的能够检测出50%有差异。近来有很多文献评论报导大多数研究是功效不足。在组学研究中,为降低假阳性率,做检验时就需要用很小的显著性水平,同时,功效很低和假阴性很高成为一个普遍的现象。当课题有潜在危害或很差的条件下时,不充足的功效的这种研究是一种对研究资源的浪费和认为不道德的。怎样选择样本容量确保足够的功效能检测到一个预先指定的效应量?怎样平衡一个实验的特异性和敏感性,以及如何增加样本容量能保证达到充分的功效?一个关于医学研究文献分析发现,在功效至少为80%,47a若一个蛋白表达水平值x超过临界值x*,说明有显著性,因为H0延伸到了x*,有可能错误的拒绝H0,其概率为α.即TypeIerror,假阳性。一个好的实验应该是控制α值的大小,一般设为α

=0.05,这是为了保持有更高的特异性(1-α),即真阴性率。a若一个蛋白表达水平值x超过临界值x*,说明有显著性,因为48b假设x>x*

即拒绝H0,若x不是抽自H0,N(10,sd),假设抽自其备则假设的分布HA,且分布为N(12,sd).一般两个分布分布间的差异来自于均值与方差的不同。称d为效应量(effectsize)b假设x>x*即拒绝H0,若x不是抽自H0,N(10,49C两类错误的概率都尽可能小,但是它们的关系为,α降低,β相应会增加。一般情形α<β,一般出现假阳性的后果更严重。C两类错误的概率都尽可能小,但是它们的关系为,α降低,50a设,当x>11.64,拒绝原假设,在HA中,超出临界值11.64的蓝色面积就是功效为0.64.增加α到0.12,cuttoff变为11.17,现在功效变为0.8,这种功效增加了25%是以增加假阳性率到0.12为代价的(增加了2倍多)a设,当x>1151bS型曲线为功效与α值的变化,当,它的最大功效为0.64.

不增加假阳性率,如何提高功效?bS型曲线为功效与α值的变化,当52如果Fig3a中的分布更窄,也就是方差越小,原假设与备则假设的重叠部分就会变小,功效会提高。由于σ很难改变,一种直接的做法是重复抽样,现在不用单个值,而用平均值来提出原假设和备则假设,因为如果Fig3a中的分布更窄,也就是方差越小,原假设与备则假设53Fig4a样本容量对功效的影响随着n的增加,拒绝域的临界值与s.e.m成比例减小,分布间的重叠部分也在减小。也就是说样本容量会影响功效。对给定的效应量d,选择不同的n,可以达到需要的功效与α。如:给定d=1,对n=22就达到了Power=0.99,α=0.01Fig4a样本容量对功效的影响随着n的增加,拒绝域的临界54Fig4b效应量对功效的影响随着d的增加,因为重叠部分减少,所以功效会随之增加。如:当n=3,α=0.05,我们能够分别的以功效0.53,0.83和0.97检测到Fig4b效应量对功效的影响随着d的增加,因为重叠部分减55以上的计算都是理想化的,因为我们并不知道原假设与备则假设的分布形状,我们是假定已知的,实际上我们是通过样本来估计标准差σ的,这样的功效是减小了的,为达到比较满意的功效,我们需要稍微大点的样本容量。对于一个好的研究设计来说,平衡好样本容量,效应量和功效之间的关系是非常关键的。通常设定α=0.05,1-β=0.8,然后基于最小效应确定样本容量n,如果需要的样本容量太大,为减小方差,可以重新评估目标或者更严格的控制实验条件。如果功效很低,只有很大的效应才能检测到,并且阴性结果得不到可靠的解释。为了检测到效应,保证足够的样本量是研究设计的基本条件。以上的计算都是理想化的,因为我们并不知道原假设与56PointsofSignificanceMartinKrzywinskiCanada’sMichaelSmithGenomeSciencesCentreNaomiAltmanPennsylvaniaStateUniversityNatureMethodsPointsofSignificance57引言Statisticsdoesnottelluswhetherweareright.Ittells

usthechancesofbeingwrong.统计不会告诉我们哪对哪错,但是它会告诉我们犯错的几率。

每次重复试验不会得到相同的结果,只是在一定范围内波动,这是由于生物的变异性和测量设备的精度限制的原因,但如果每次测出来的结果都不同,如何确定测量与假设相符的?“科学的最大悲剧是:用丑陋的事实扼杀了美丽的假说。”(英国生物学家T.H.Huxley),这句话中的“丑陋”,怎样来测量?

58统计能够回答上述问题,它是一种能从定量上描述不确定性的规律方法,并且数据是用含有误差的估计来表示的,而不是精确的测量。其理论框架是结合实验结果的不确定性和给观测值的推广附上置信水平。统计方法-生物统计学讲义课件59很多概念能够从直观上理解,但也有例外,“三门”问题MontyHallproblem:参赛者可以在三扇门当中选择一扇,其中三扇门中只有一扇门后有汽车,其它两扇门为山羊,当参赛者选择一扇门后,主持人会打开两外两扇门中有山羊的门,并问参赛者是否改变主意。问题是:参赛者换门是否会增加他得奖的几率?看法一:不换门与换门而中奖的概率为1/2看法二:换门得将的概率为2/3参赛者可以在三扇门当中选择一扇,其中三扇门中只有一扇门后有601.Importanceofbeing

uncertain统计分类:描述性统计和推断型统计

描述性统计:用一些样本特征如:均值和标准等描述数据推断型统计:用观测到的数据来详尽的概括真实世界。两者都是由抽样和估计为基础,抽样是收集数据的过程,估计是把随机的东西定量化的过程。Pointsofsignificance专栏有助于在工作中超越直觉上对统计的理解。目的是解决医学期刊中大概一半的文章对统计的误用。1.Importanceofbeinguncerta61Fig1a一个实验变量的所有可能值的频率直方图,称为总体分布。通常想推断总体的均值和标准差(1)抽样过程Fig1a一个实验变量的所有可能值的频率直方图,称为总体分62Fig1b.总体分布有两个特征参数均值μ和标准差σ,分别刻画总体的位置和形状。(1)抽样过程Fig1b.总体分布有两个特征参数均值μ和标准差σ,分别刻画63平均值会受到奇异值的影响。而中位数相对来说是总体位置参数的更稳定估计,更适合于偏态分布或者不规则形状的数据。而标准差σ刻画的是数据的分散程度,在直观上不是很好理解,“3σ原则”有助于理解它的作用。如:对正态分布,有平均值会受到奇异值的影响。而中位数相对来说是总体位置参数的更64(2)通过抽样估计总体的均值μ及标准差σ由于各种原因的限制,总体的均值μ和标准差σ不能直接观测到。最好的方法是用抽样所得的数据进行估计。(2)通过抽样估计总体的均值μ及标准差σ由于各种原因的限制,65Fig2a.总体在0~30之间的频率直方图Fig2b.从总体a中抽取的3个样本Fig2C.所有样本容量为5的样本均值的直方图,样本均值的分布Fig2a.总体在0~30之间的频率直方图Fig2b.从66样本必须是总体的代表,这就需要的样本是“简单随机样本”。一般,样本不同于总体,除非样本量n足够大。在抽样过程中,样本是否发生偏离,不总是那么显而易见的。如:问卷调查的样本是那些愿意参与调查的人得到的,但是那些拒绝参与调查的人的信息你是得不到的,但这两组可能有着显著的不同。样本必须是总体的代表,这就需要的样本是“简单随机样本”。67Fig2C,样本均值也有分布,其均值和标准差为像总体一样,抽样分布也是不能直接测出来的,因为我们并不可能得到所有可能样本。注意到,样本均值的分布Fig.2c与Fig.2a有着显著的不同,但是均值的分布与总体分布是相关的,这个关系由中心极限定理给出:随着n的增加,样本均值的分布逐渐接近于正态分布,无论总体的分布是什么形状的。是容易迷惑为样本均值的标准差,σ是总体的标准差,n越大,越小(表示越接近均值μ),而σ不变。Fig2C,样本均值也有分布,其均值和标准差为是容易迷惑68不同总体分布的中心极限定理不同分布的总体下的样本均值的分布随着n的增加近似服从正态分布。不同总体分布的中心极限定理不同分布的总体下的样本均值的分布随69虽然样本均值可以作为总体均值的估计,但是仍有可能某个样本均值落在总体均值很远的地方,特别是对于那些很小的n。如:从不规则总体中抽取了n=3的样本10000个,做了10次迭代,样本均值落在μ±σ之外的比例从7.6%到8.6%.

当样本容量很小时,解释均值的结果务必要小心。虽然样本均值可以作为总体均值的估计,但是仍有可能某个样本70要记住一点,测量出来的结果都是估计,你不应当把他当成精确和最终的结果。大量存在的不确定性都会确保每次的样本都不一样。总体均值的估计精度的提高速度慢于数据收集的速度,这是因为存在一个比例因子。精度提高2倍,数据量提高4倍多。要记住一点,测量出来的结果都是估计,你不应当把他当成71样本都是来自Fig2a的总体,随着n的增加,标准误差(s.e.m.)是样本均值的标准差的估计。样本都是来自Fig2a的总体,随着n的增加,标准误差(s.e722.Errorbars(误差线)估计的不确定性通常由误差线来表示。误差线的类型:(1)标准差s.d.:反映的数据的变异度(离散程度)(2)标准误s.e.m.:反映测量的精度,是的估计,或者说是用样本均值估计总体均值的精度的度量(3)95%置信区间(95%CI)Themeaningoferrorbarsisoftenmisinterpreted,asisthestatisticalsignificanceoftheiroverlap.误差线的意义常常被误读,就像有重叠的统计显著性一样。在科学出版物种常用误差线表示随机性,但是常常被误读。2.Errorbars(误差线)估计的不确定性通常由误差732.Errorbars(误差线)Fig.1a,三种不同类型的误差线,表面上一样,但是反映的意义不一样,两者均值的检验显著性有差异,本质是标准差不一样。Fig.1b,显著性相同,即s.d.是一样的,但是误差线出现重叠和有间隙的情形。一般而言,有间隙不一定有差异,重叠就无差异。2.Errorbars(误差线)Fig.1a,三种不同类74模拟和计算Fig.1a,相同长度为0.5,针对3种条件,可分别计算其p值(1)s.d.=0.5,可得|t0|=4.472136,其检验的p值为(2)s.d.m.=0.5,即sd=0.5*sqrt(10)可得|t0|==1.414214,其检验的p值为模拟和计算Fig.1a,相同长度为0.5,针对3种条件,可分75通过类似的计算可以得到如图Fig.1b上的长度数据Fig.1a,(3)95%CI=0.5,即,可得s.d.=0.6989518其检验的p值为Sd=1.06,s.e.m.=0.335,length(CI)=0.758通过类似的计算可以得到如图Fig.1b上的长度数据Fig.1762.Errorbars(误差线)避免三者的误用:弄清楚误差线所表达的对随机度量的含义。Only1figure95%CI2012NatureMethods,在所有平面图中有2/3使用了误差线s.d.45%VSs.e.m.49%5%notspecified置信区间是对不确定性的直观的度量,常用于医学文献2.Errorbars(误差线)避免三者的误用:弄清楚误77三种误差线的含义:(1)标准差s.d.误差线基于标准差的误差线可以知道总体数据的变异度,对于新样本值范围的预测是有用的。标准差只是反应的是数据的变异,不是直观上的测量的误差。来自两个不同总体的样本,其s.d.误差线可以重叠(2)标准误s.e.m.误差线基于标准误的误差线反映的是均值的随机性,并且依赖于样本量的大小。抽取样本越多,其值越小。“如果标准误差线不重叠,则这两者之间的差异不显著“这句话是不对的。三种误差线的含义:(1)标准差s.d.误差线基于标准差的误差78三种误差线的含义:(3)置信区间置信区间表示的是对测量可靠性的一种区间估计。置信区间表示以某种概率(置信水平)能捕获总体均值的信息。也即,所有这种区间的95%能够覆盖总体均值,如图Fig2.a三种误差线的含义:(3)置信区间置信区间表示的是对测量可靠性79Fig2a,20个样本容量为10的95%CI中有两个没有覆盖总体均值Fig2a,20个样本容量为10的95%CI中有两个没有覆盖80Fig2b,s.e.m.与95%CI的关系Fig2b,s.e.m.与95%CI的关系81一个常见错误是:把置信区间理解为一种平均或期望数,总体均值落在此区间的概率为1-α。错误的原因是置信区间的大小和位置是与每次取样有关的,出现相同的置信区间的概率是很小的,所以置信区间是一种随机区间。平均来说,100次取样,得到100个区间,平均上有95个区间能覆盖总体均值。一个常见错误是:把置信区间理解为一种平均或期望数,82Fig3对相同的P值,s.e.m.与95%CI误差线的长度与位置不能用误差线的相对位置来判断其显著性,如P=0.05,s.e.m有间隙,但95%CI超过50%的重叠;当95%CI刚好接触到,其P值为0.005,有极高的显著性。Fig3对相同的P值,s.e.m.与95%CI误差线的长度83一个建议:由于误差线的多样性,在使用误差线时,在图中标注出是哪种类型,并对其进行解释。不能仅从误差线的直观上理解来判断其显著性。一个建议:由于误差线的多样性,在使用误差线时,843.Significance,Pvaluesandt-testsThePvaluereportedbytestsisaprobabilisticsignificance,notabiologicalone.许多检验用P值来作为度量一个结果的差异是否由随机因素造成的。3.Significance,Pvaluesandt-85统计检验的思想Fig1a一个蛋白表达水平值x=12,参考值为μ=10,你认为它们之间差异是由随机性造成的吗?统计检验的思想Fig1a一个蛋白表达水平值x=12,参考值86统计检验的思想Fig1b假设样本取自正态总体,均值μ=10统计检验的目的是用观测值定位在这个分布上去识别它是否超出了一定范围。统计检验的思想Fig1b假设样本取自正态总体,均值μ=1087统计检验的思想Fig1c统计把这种范围进行了量化,观测值x的统计显著性,阴影部分的面积,这就是Pvalue。若是单侧的检验,就是dark部分的面积统计检验的思想Fig1c统计把这种范围进行了量化,88统计检验的思想P值经常误解为在计算P值的过程中,假设H0为真,x是从H0为真的分布下抽取的,P值如果比较小,如小于0.05,只是告诉我们,在这个假设下,一个不大可能发生的事件出现了,有理由拒绝H0,也就是接受备则的假设,认为样本不是来自均值为μ的总体。

但是统计显著性并不表明生物学的显著性。假定总体服从均值为μ的正态分布,为得到其精确的形状接下来需要对其标准差进行估计。再独立的测4次,就得到一个容量为5的样本,假设它的平均值为统计检验的思想P值经常误解为在计算P值的过程中,假设H0为真89Fig2a假设重复测量5次,均值为10.85,标准差sdx=0.96并且假定总体的标准差就是sdx=0.96Fig2a假设重复测量5次,均值为10.85,标准差sdx90Fig2b假设总体是正态分布,均值为μ=10,并且假定总体的标准差就是sdx=0.96,s.e.m=Fig2b假设总体是正态分布,均值为μ=10,91Fig2c假设H0是正态分布,则其样本均值的抽样分布也为正态分布可用(s.e.m.)估计其sd把标在分布图上,可得到其P值Fig2c假设H0是正态分布,则其样本均值的抽样分布可用92通过计算可以构造一个统计量t的分布形状与正态分布非常接近,但与正态分布不一样,称之为Student’st分布.分布形状上的差异在于,对大多数样本来说,样本方差S2往往小于总体的方差,或者说是低估了总体的方差,可以证明样本方差的分布是偏态分布。(下图为模拟实验)因为不对称性,n越小,得到的样本方差小于总体方差。也就出现t分布的尾部更高的现象。(Fig3a)通过计算可以构造一个统计量t的分布形状与正态分布非常接近,但93模拟实验,从N(0,1)中抽取容量为5的样本,抽取2000次得到的方差的直方图,易知是偏态的模拟实验,从N(0,1)中抽取容量为5的样本,94Fig3a不同的样本容量下,t分布的密度与正态分布密度的比较,t分布尾部更高。随着n的增加,t分布越来越像正态。n越大,S2越接近于总体方差σ2Fig3a不同的样本容量下,t分布的密度与正态分布密度的比95所以,如果不进行校正,不用t分布去做,而是用Fig2c中的正态分布计算的话,将会高估他的显著性。例如:在Fig2b中用样本量为5的样本,t值为1.98,得到的p值为0.119.若用正态分布计算,得到p值为0.048.若t值不变,增加样本容量n=50,得到的p值为0.054.结果就与正态分布下的P值比较接近了。所以,如果不进行校正,不用t分布去做,而是用Fig2c96Fig3b不同的样本量下,P值与t统计量值的变化,n越小,P值的改变越大。Fig3b不同的样本量下,P值与t统计量值的变化,974.PowerandsamplesizeTheabilitytodetectexperimentaleffectsisunderminedinstudiesthatlackpower.没有功效的研究中,检测实验效应的能力就被削弱了。分布之间的差异能够用实验效应来反映,效应的概率称为功效。4.PowerandsamplesizeTheabi98功效:不犯第二类错误的概率,也称敏感性(sensitivity)TypeIerror:H0为真,拒绝H0,也称假阳性,FalsepositiveTypeIIerror:H0为不真,接受H0,也称假阴性,Falsenegative功效:不犯第二类错误的概率,也称敏感性(sensitivit99功效对检验来说非常重要,但常常被忽视。当功效低,重要的效应可能检测不到,在一些有很多条件和结果的实验中,如组学实验,显著性结果中的一大部分结果可能是错的。Fig1有两组实验,一组50%有差异,另一组10%的差异若检验功效为0.2,说明会错过80%的真阳性结果,第一组实验阳性结果中的20%可能是错的,即阳性预测值(PPV)为0.8.(PPV=真阳性/检测为阳性)功效对检验来说非常重要,但常常被忽视。当功效低,重要的效应可100对于像基因表达研究实验中,有差异性的结果不到10%是很常见的。若power=0.2,得到PPV=0.31,即阳性结果中超过2/3的结果是错的.即使用最常用的最低功效0.8,也有超过1/3的结果是错的(PPV=0.64).对于像基因表达研究实验中,有差异性的结果不到10%101当检验那种真实阳性结果很少的假设时(差异性很少的假设,如第二组实验),低功效的大多数阳性结果都是错的当检验那种真实阳性结果很少的假设时(差异性很少的假102

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论