统计华科卫统课件方差分析_第1页
统计华科卫统课件方差分析_第2页
统计华科卫统课件方差分析_第3页
统计华科卫统课件方差分析_第4页
统计华科卫统课件方差分析_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析概念方差分析

Analysisofvariance,ANOVA又称变异数分析或F检验,适用于对多个平均值进行总体的假设检验,以检验实验所得的多个平均值是否来自相同总体。方差分析的基本思想方差分析的基本思想:是将出现在所有测量值上的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。单向方差分析单向方差分析(onewayanalysisofvariance)是指处理因素只有一个。这个处理因素包含有多个离散的水平,分析在不同处理水平上应变量的平均值是否来自相同总体。举例例8-1有3种解毒药:A、B及C,同时设一个空白对照D,共有4个组。即解毒药这个处理因素包含有4个水平,或4个处理组,用i表示处理组号,i=1,2,3,4分别代表A、B、C、D4个组。受试大白鼠共24只,故动物总数或样本含量N=24。按完全随机化方法将它们分成等数的4个组,每组有6只动物。用ni表示第i组受试动物数(当每组受试动物数相等时用n代替ni)。用j(j=1,2,…,6)表示每组受试动物号。应变量用Yij表示第组第号大白鼠的血中胆硷脂酶含量(μ/ml)。实验结果见表8-1。表8-1组号胆硷脂酶含量(Yij)123121816281422831232428343142417191622481221191415合计737979788685单向方差分析中变异来源在单向方差分析中,变异来源于两个方面:一方面是受试对象个体间的变异(称组内变异)

另一方面是实验因素各水平间的变异(称组间变异)因此,总变异可按其变异来源进行分解。离均差平方和的分解个体测定值与总平均值之差离均差平方和总离均差平方和分解公式用文字表达为:总离均差平方和=组内离均差平方和+组间离均差平方和F值与F分布每种来源的离均差平方和用相应的自由度去除,可得到平均的离均差平方和,简称均方(meansquare,MS)。各种均方表示为:组间均方:

组内均方:F值的计算组内均方表示各组内均方的平均值,它是随机误差项方差的综合估计值。由于组间均方包含由随机误差及处理因素引起的误差,故其值比组内均方大。F值的计算公式为:F分布F分布有两个自由度,组间自由度和组内自由度;F分布是一种偏态分布。方差分析的步骤整理和描述资料提出检验假设及规定Ⅰ类错误概率水准α的大小计算各种离均差平方和、自由度及均方计算F值确定P值并作出统计学推断举例(例8-1)整理和描述资料计算出每组的测定值之和、组平均值,测定值平方和以及总平均值等。组号胆硷脂酶含量(Yij)含量合计均数平方和1231218162814611118.52233.02283123242834616828.04790.03142417191622611218.72162.048122119141568914.81431.0合计7379797886852448020.010616.0举例(例8-1)提出检验假设及规定Ⅰ类错误概率水准α的大小各组所代表的总体平均值相等;至少有一个不等式成立。

α=0.05。举例(例8-1)计算各种离均差平方和、自由度及均方总离均差平方和总的自由度举例(例8-1)组间离均差平方和组间自由度组间均方举例(例8-1)组内离均差平方和组内自由度组内均方举例(例8-1)

计算F值

方差分析表变异来源SSνMSFP组间568.333189.448.46<0.05组内447.672022.38总1016.0023举例(例8-1)确定P值并作出统计学推断查附表5:F界值表,得F0.05(3,20)=3.10。由于F>F0.05(3,20),故有概率P<0.05,根据式(8-5)的推断规则拒绝无效假设,接受备择假设。处理因素的4个水平中至少有一个组的总体平均值不同于其他组。平均值之间的多重比较方差分析是对各观察组的平均值是否来自相同总体进行总的检验,不能对各组间的差别作深入分析。这一点却往往是研究者最关心的。对于一个实验,如果经方差分析后不拒绝无效假设,则表示各组平均值所代表的总体是相等的。分析工作即可终止。但若结果拒绝了无效假设,则需进行平均值之间的多重比较以进一步确定哪些组的平均值之间的差别具有统计学意义.这时就涉及到累积Ⅰ类错误概率的问题。累积Ⅰ类错误的概率对同一实验资料进行多次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积Ⅰ类错误概率:SNK法SNK(student-Newman-Keuls)法又称q检验,是根据q值的抽样分布作出统计推论。仍以例8-1为例介绍其检验过程。SNK法将各组的平均值按由小到大的顺序排列排列顺序(1)(2)(3)(4)平均值28.018.718.514.8原组号BCADSNK法两对比组之差的标准误Se及统计量q值计算:SNK法计算两个平均值之间的差值及组间跨度k-对比组两平均值之差组间跨度统计量Qα(20,k)临界值概率(i):(h)kqα=0.05α=0.01P(1)(2)(3)(4)(5)(6)(7)(1):(4)13.246.833.965.02<0.01(1):(3)9.534.923.584.64<0.01(1):(2)9.324.822.954.02<0.01(2):(4)12.832.023.584.64>0.05(2):(3)0.220.102.954.02>0.05(3):(4)3.721.922.954.02>0.05SNK法计算P值并作出统计推断根据不同组间跨度k查附表6:q界值表结论为解毒药B的效果显著优于其他各组。方差分析的假定条件和数据变换

方差分析的假定条件观察值Yij独立来自正态分布的总体如果样本含量较大,虽然总体分布偏离正态,由于有中心极限定理的保证,方差分析也是适用的。但是如果总体极度地偏离正态时,则须作数据转换,以改善其正态性。方差齐性(homogeneity)只有当各组内方差在总体上相等时,才能有效地分析各对比组平均值之间的差异。如果各对比组的观察例数不相等,则其影响程度会更大。方差齐性检验(1)计算步骤检验假设计算各组内个体观察值与中位观察值之差的绝对值dij用dij作单向方差分析方差齐性检验(2)当最大方差与最小方差之比值超过3时,由于增大了Ⅰ类错误的概率,就可能影响对方差分析结果的判断。用原始测定值Yij计算的各组内方差比较最大方差与最小方差比值不超过3时,表明方差基本齐性。数据变换对于一些明显偏离正态性和方差齐性条件的资料,可以通过数据变换的方法以改善其假定条件,使方差分析的结果趋于稳健。常用的数据变换方法有:平方根反正弦变换(arcsinesquareroottransformation)

平方根变换(squareroottransformation)对数变换(logarithmtransformation)

双向方差分析双向方差分析是从纵横两个方向分析,不仅分析处理因素的效应,还可根据不同设计分析区组效应、交互作用等,从而得到更多的信息。随机区组设计析因设计裂区设计随机区组设计的方差分析随机区组设计(randomizedblockdesign)是事先将全部受试对象按某种可能与实验因素有关的特征分为若干个区组(block),使每一区组内的受试对象例数与处理因素的分组数相等,使每个实验组从每一区组得到一例受试对象。设共有n个区组,处理因素有a个水平(a个实验组),受试对象总数为N=n×a随机区组设计方差分析的

基本思想随机区组设计的方差分析模型为:各种离均差平方和总离均差平方和

处理组间离均差平方和区组间离均差平方和随机误差离均差平方和各种自由度总自由度

处理组间自由度区组间自由度随机误差自由度方差分析步骤整理和描述资料提出检验假设及给定I类错误概率水准α计算各种离均差平方和与自由度计算相应的均方计算F值示例以窝作为区组标志,给断奶后的小鼠喂以三种不同的营养素A、B和C。四周后检查各种营养素组的小鼠所增体重(g)。三种营养素喂养四周后各小鼠所增体重(g)

资料的方差分析表变异来源离均差平方和自由度均方FP处理283.832141.922.88>0.05区组3990.317570.0411.56<0.01误差690.071449.29总和4964.2123处理因素在α=0.05水准上不拒绝无效假设,不同营养素对小鼠所增体重的差别无统计学意义。区组因素在α=0.05水准上拒绝无效假设,故窝别对小鼠所增体重的差别具有统计学意义。有时研究者只注重处理因素的效应而不大关心区组因素的效应。这时只要把区组效应从随机误差项中分离开来就达到了设计者的目的。两因素析因设计的方差分析凡同时配置两个或两个以上处理因素,这些因素的各水平又具有完全组合的实验,统称为析因设计(factorialdesign)实验。析因设计实验的方差分析可以同时分析这些处理因素的效应,以及因素间的交互作用(interaction)。它可节省受试对象、能够提供较多的信息以及缩小随机误差。两因素析因实验的方差分析模型

处理因素A及B分别有a及b个水平,总共有a×b种组合。在每一种组合下即每一个格子中配有n个受试对象。全部实验受试对象总数N=a×b

×n。用i(i=1,2…,a)表示因素A的水平号,j(j=1,2,…,b)表示因素B的水平号,k(k=1,2,…,n)表示在每一水平组合的受试对象号,yijk表示应变量的观察值。示例了解护士对患不同疾病的病人实行家庭访视时所花费的时间(分钟)。共有60名护士,按年龄分为3组,病人所患疾病种类分为4种。资料见表。研究者希望对下列问题取得答案:(1)不同年龄组护士进行家庭访视所花的时间是否不同?(2)病人所患疾病的病种是否对护士的家庭访视时间有显著影响?(3)护士的年龄与病人所患疾病的病种之间是否存在交互作用?方差分析的步骤

整理及描述资料提出检验假设计算离均差平方和及自由度计算各种均方及F值并列出方差分析表确定P值并作出统计推断方差分析表交互作用

经方差分析表明,护士年龄与病人所患疾病的病种之间存在有显著的交互作用,必须进一步探明这种交互作用的形式及其存在于哪些组合水平上。首先计算出每种组合水平的平均访视时间。分析从图9-1可见,在因素A的4个水平上,B的第1、3两组平均值的趋势比较一致,呈山峰型,对病种2和3所花的访视时间增加。但B的第2水平比较平坦,表明因素B的1、3、水平与因素A的2、3水平间存在较强的交互作用,这种交互作用使访视时间增加。青年护士及高年护士对肿瘤病人及脑血管意外病人访视的时间较长。两因素析因设计方差分析中的多重比较

当双向方差分析拒绝无效假设时,需要进一步确定哪些水平间的效应存在显著差异。当交互作用不显著时,可直接对处理因素各水平的平均值进行比较。当交互作用显著时,必须用两因素各水平组合下的平均值进行比较。在交互作用显著时两两比较的方法

交互作用不显著时的对比方法

裂区设计资料的方差分析裂区设计(split-plotdesign)又称嵌套设计(nesteddesign),也是一种两因素设计。这种设计最早应用于农业。在某些田间试验中,首先将选择好的田块分为几个大区。然后再将每一大区分为若干个小区。在大区水平上施加处理因素A,在小区水平上施加处理因素B。假如A有2个水平:a1、a2,B有3个水平:b1、b2、b3,就可将试验田块分为2个大区,分别配置a1、a2。将每个大区划分为三个小区,配置b1、b2、b3。从变异的角度分析,在这种设计中,因素B的变异性要小于因素A的变异性,因为因素A只是在大区上实施的,没有重复。故在配置因素时,应将主要因素作为B,配置在小区水平上,而重要性相对小一点的因素作为A,配置在大区水平上。设计框架裂区设计的方差分析模型

示例一项关于上呼吸道感染的流行病学调查。调查目的是想了解家庭居住情况和不同家庭成员肺炎双球菌阳性数目的差异。应变量Y是咽拭培养的肺炎双球菌阳性数目。因素A是家庭居住情况,分为过度拥挤、拥挤和不拥挤3类。在每一类中抽查了6户家庭,共18户。因素B是家庭成员,包含父亲、母亲和3个子女共5个水平。‘子女’项下的1、2、3是子女的出生序号,最小的子女必须是学前儿童。在本例中因素A是拥挤程度,分为3个水平,相当于3个大区。每个家庭的5名成员相当于5个小区。在每个大区内包含6个家庭,就是重复的次数,相当于6个区组。在这个调查中有两类变异。一类是家庭间的变异,另一类是家庭内各成员间的变异。拥挤度之间的比较是在家庭间的变异范围内进行。而家庭成员间的比较是在家庭内变异范围内进行。计算所需数据列于该表的边际部分。在每一种拥挤程度中按家庭成员的合计项列于每一大区的下部。方差分析的步骤

方差分析表第四节拉丁方设计资料的方差分析问题的提出设计方法研究目的非处理因素的控制完全随机分组处理因素随机化分组平衡随机区组处理因素区组(行方向)可控制一个主要的非处理因素拉丁方处理因素可控制二个主要的非处理因素

一、拉丁方设计

(Latin-squaredesign)

拉丁方是用拉丁字母排列安排为K×K(K=处理因素的水平数)方阵的实验设计。例:

1231ABC

行2BCA3CAB

处理水平数=3是随机区组设计的扩展,通过行和列两个方向的区组,控制两个已知影响实验结果变异的因素,缩小实验误差,提高统计检验效率。优点:

实验设计方法拉丁字母的个数代表处理因素的水平数行和列安排两个需控制的非处理因素特点:行数=列数=处理的水平数,处理的每个水平在行或列中只出现一次。使用时:在基本拉丁方基础上随机化重新分配处理(方法见讲义),也可使用基本拉丁方。列

1231ABC

行2BCA3CAB

处理水平数=3的基本拉丁方表拉丁方设计实例题目:比较不同剂量的重组人肿瘤坏死因子对伤口愈合的研究研究因素:肿瘤坏死因子因素的水平:5个剂量(0,25,50,100,200)单位实验对象:家兔5只实验效应指标:伤口愈合张力强度控制因素1:不同伤口的部位控制因素2:不同试验的对象(家兔)方法:取家兔5只,每只在5个不同部位做切口。采用5×5的拉丁方表,随机分配处理的剂量。5×5基本拉丁方排列表行区组

伤口部位(列区组)家兔编号123451ABCDE2BCDEA3CDEAB4DEABC5EABCD随机分配处理方法见讲义处理因素:用A,B,…E表示例:家兔伤口用不同剂量的rh-TNF后的张力强度

伤口编号家兔编号12345小计

1A9.83B6.34C7.03D4.40E9.1843.482B3.75C7.52D7.64E5.51A7.6036.953C6.27D8.34E8.80A9.91B2.5542.504D5.54E3.86A5.55B7.88C5.9439.185E5.73A3.22B3.63C7.12D8.9028.60列小计38.4638.1839.8139.2736.65随机化过程1.随机化方法调换行字母2.随机化方法调换列字母3.拉丁字母的随机分配处理水平方法:读6个随机数随机数355627092486序号453126字母DECABF处理药甲乙丙丁戊已(规定:按序号大小排列字母顺序,按字母前后出现顺序分配不同水平)二、拉丁方设计的方差分析数据变异分解:处理因素(不同剂量+误差)总变异行区组变异(单位组或家兔间+误差)列区组变异(不同部位+误差)误差变异(随机因素+未知因素)

如F处理>F0.05,再对处理组做均数的多重比较。

注射部位编号(列区组)

行区组合计

行区组)

1234561424271.73424471.75424671.7列区组合计

428417440431469467药物合计TkD428E467C439A459B420F439表4-11拉丁方与试验结果(皮肤疱疹大小)处理因素不同水平的结果例:表4-11D=77+60+64+71+69+87=428E=73+75+99+61+85+74=467同理:C=439A=459B=420F=439表4-13例4-5的方差分析表

变异来源SSMSFP总变异3036.0035

药物间268.67553.730.98>0.05家兔间383.33576.671.39>0.05部位间1283.335256.674.66<0.01误差1100.672055.03

表4-13例4-5的方差分析表

变异来源FP总变异

35

药物间0.985>0.05家兔间1.395>0.05部位间4.665<0.01误差20拉丁方设计的统计检验假设例4-4统计检验结果处理因素:按α=0.05水准,还不能认为处理(6种药物)不同水平的实验效应(皮肤疱疹)的结果不等(p>0.05)。非处理因素:药物对不同家兔的结果差别无统计意义(p>0.05)。对不同部位结果差别有统计意义(p<0.01)。结论:还不能认为皮肤疱疹的大小与6种药物有关,但注射在不同部位有差别。拉丁方设计的缺点(局限性)1.要求行数(水平数)=列数(水平数)=处理(水平数),条件不易满足。2.在处理数的水平数较少时,试验的重复数(n)较少(如3×3拉丁方设计,重复例数为3),检验效率较低。一、两阶段交叉设计问题的提出

完全随机分组试验(RCT)设计

例:比较两种药物(如:试验药、对照药)

甲组(n1)试验药N个对象随机分组乙组(n2)对照药特点:每个患者接受一种处理,然后结果在两组受试对象间做比较。

完全随机分组设计的缺点:1.完全随机分组设计组间非处理因素差别不可能完全一致(特别是例数较少时)。2.处理试验效应在患者间得到的,试验效应受到个体差异的影响。3.当影响因素作用大,处理的实验作用小,所需样本例数较多。消除(减少)个体变异的设计方法

1.试验前后设计特点:每个研究对象只接受一种处理。2.配对(配伍)设计特点:每个研究对象只接受一种处理。3.交叉设计特点:每个研究对象可接受两种或多种处理。

两阶段交叉设计(cross-overdesign)模式

随机试验阶段分组ⅠⅡ

甲组(n1)甲药乙药n.

乙组(n2)乙药甲药两阶段交叉设计交叉设计的优、缺点优点:1.每个试验对象先后接受两种处理,因此成倍使用实验对象,例数少于随机分组设计。2.患者的试验结果采用自身对照,减少个体变异对结果的影响,效果观察较准确,统计检验效率高于完全随机分组设计。缺点:1.两阶段间常安排洗脱阶段,比随机分组设计试验的时间长2两阶段间不能有延滞效应(carry-over).3.适用于反复发作的慢性病药物疗效比较(止痛、安眠、降血压等)延滞(carry-over)效应:是指前一时期处理的效应延续到后一时期的处理结果上。二、两阶段交叉试验设计方法设计的方法(见63页)可采用1.完全随机分组设计分配处理组的两阶段交叉设计。例4-6,两种闪烁液测定血浆中H-cGMP2.配对设计分配两阶段的处理两组比较完全随机化分组方法研究对象(n=10)编号(按入组顺序):编号12345678910随机数22191678039323155857

序号54391106287规定:序号双号处理顺序AB,单号处理顺序BA对象编号处理顺序阶段1阶段21BABA2ABAB3BABA4BABA5BABA表4-13两种闪烁液测定血浆中H-cGMP交叉试验结果受试者阶段1阶段2合计编号处理(GMP)处理(GMP)1A760B77015302B860A85517153A568B60211704A780B8801580

10B800A8031603阶段合计S1=7271S2=737014641处理合计A=7289B=7352三、两阶段交叉设计数据的

统计方法—方差分析数据变异来源和分解:处理间变异(A和B处理变异)受试者间的变异(行变异)阶段间变异(列变异)误差变异总变异两阶段交叉设计是拉丁方设计

处理水平=2的扩展

试验时间对象121AB2BA受试者(行间变异)阶段间(列间变异)处理间误差

变异分解计算方法与拉丁方设计资料相同表4-14方差分析方差来源DFSSMSFP受试者间9551111612341240<0.01阶段间1490.05490.059.92<0.05处理间1198.45198.454.02>0.05误差8395.0049.38总19552194.95F界值交叉设计的结论反映三部分作用1.反映处理间的否有作用(主要关心)2.反映试验对象(行区组变异)作用3.反映处理顺序(列区组变异)的影响

控制因素本例:实验误差中消除了个体和不同阶段顺序的影响后,两种闪烁液对测定结果无差别,但个体间和顺序有差别。单因素设计资料的方差分析小结设计方法总变异的分解完全随机分组设计处理间+实验误差随机区组设计处理+行间(个体)+误差拉丁方设计处理+行间+列间+误差交叉设计处理+行间+列间+误差不同设计的目的主要减少实验误差,显示处理的作用。第六节、多个均数差别的多重比较意义:方差分析结果(处理)有统计学意义时,如了解各水平间均数差别情况,做均数间的多重比较。研究者的目的常用多重比较方法1.处理组两两之间LSD-t检验的比较SNK-q检验2.各处理组仅与对照组做Dunnett-t检验比较注意:多个均数的组间比较不要采用t检验方法,而用多重比较统计方法。注意:多个组间均数的比较采用两组

t检验计算将增大犯1型误差的概率。

某次研究对三组数据比较,如用t检验两两比较比较次数:t检验整个实验犯1型误差概率A组与B组

=0.05A组与C组=0.05B组与C组=0.05

注:K=实验中比较的次数多重比较检验:控制增大犯1型误差的概率均数多重比较的检验方法一.LSD-t检验最小显著性差异的t检验(leastsignificantdifference)均数两两比较方法4-144-13两均数差值的标准误LSD-t检验和t检验的区别LSD-t检验t检验误差自由度方差分析的误差自由度查t界值表相同例:4-2降血脂新药2.4g组与安慰剂比较

2.4g组安慰剂组各实验组与对照组比较比较组均数LSD-t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论