




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二十五课 方差分析当影响观察结果的影响因素(原因变量或分组变量)的水平数大于2或原因变量的个数大于1个时,一元的常用F检验(也称一元方差分析),多元的用多元方差分析(最常用Wilks检验)。一、 方差分析概述方差分析(analysis of variance)又称变异数分析,可简记为ANOVA,主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。当欲比较几组均值时,理论上抽得的几个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。所谓的方差是离均差
2、平方和除以自由度,在方差分析中常简称为均方MS(mean square)。1. 方差分析的基本思想根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出各部分的均方,然后列出方差分析表算出值,作出统计推断。方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。方差分析表的一般形式如表25.1所示。表25.1方差分析表形式变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P效应S1SS1df1MS1= SS1/df
3、1F1(df1, dfe)= MS1/ MSeP1效应S2SS2df2MS2= SS2/df2F2(df2, dfe)= MS2/ MSeP2效应SmSSmdfmMSm= SSm/dfmFm(dfm, dfe)= MSm/ MSePm误差SeSSedfeMSe= SSe/dfe总变异STSST= SS1+ SS2+ SSm+ SSedfT=df1+ df2+ dfm + dfeMST= SST/dfTFT(dfT, dfe)= MST/ MSePT表中变异来源一栏,可分为总变异(total),误差(residual),各个效应(effect)相对应的项。效应项与试验设计或统计分析的目的有关,一
4、般有:主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。当分析和确定了各个效应项S后,根据原始观察资料可计算出各个离均差平方和SS,再根据相应的自由度df,由公式MS=SS/df,求出均方MS,最后由相应的均方,求出各个变异项的F值,F值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。根据F值的分子、分母均方的自由度f1和f2,在确定显著性水平为情况下,由临界值表查得单侧界限值。当时,则,不拒绝原假设,说明不拒绝这个效应项的效应为0的原假设,也即这个效应项是可能对总变异没有实质影响的;如果,则,拒绝原假设,说明拒绝这个效应项的效应为0的
5、原假设,也即这个效应项是很可能对总变异有实质影响的。2. 方差分析的试验设计为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中的各项。在试验设计阶段常需要作四个主要方面的考虑:(1) 研究的主要变量方差分析的主要变量,也称响应变量或因变量(dependent variable),它是我们试验所要观察的主要指标。一次试验时可以有多个观察指标,方差分析时也可以同时对多个因变量进行分析。(2) 因素和水平试验的因素(factor)可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(lever)。在每一个因
6、素下面可以分成若干水平。例如,某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?所要比较的地区就是因素,四个地区便是地区这一因素的四个水平。当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时,必要时可作两两水平间的比较,称为均值间的两两比较。(3) 因素间的交互影响多因素的试验设计,有时需要分析因素间的交互影响(interaction),2个因素间的交互影响称为一级交互影响,例如,因素A与因素B的一级交互影响可记为A×B,3个因素间的交互影响称为二级交互影响,例如,因素A与因素B与因素C的二级交互影响可记为A×B×C。当交互影响
7、项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。二、 单因素方差分析单因素方差分析(one factor ANOVA 或one-way ANOVA)或称为完全随机设计的方差分析(completely random design ANOVA)。试验设计时按受试对象的抽取或分组的随机程度不同可细分为以下两类:l 完全随机设计从符合条件的总体中完全随机地抽取所需数目的受试对象,再将全部受试对象完全随机地分配到k组中去。此时,受试对象与试验因素间无直接联系。l 组内完全随机设计按试验因素的k个水平将全部受试对象划分成k个子总体,再分别从
8、k个子总体中完全随机地抽取所需数目的受试对象。此时,试验因素的各水平决定了受试对象各自应该归属的组别。设因素有k个水平,在每一个水平下考察的指标可以看成一个总体,现有k个水平,故有k个总体,并假定: 每一总体均服从正态分布; 每一总体的方差相同; 从每一总体中抽取的样本相互独立。我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第i个总体的均值为,那么就是要检验如下原假设:其备选假设为:不全相同设从第i个总体获得容量为的样本观察值为,各样本间还是相互独立的。样本观察值可看成是来自均值为的总体,这样就是其均值与随机误差迭加而产生的。上面我们已经假定在水平下的服从分布,则有。因此
9、,我们有单因素方差分析的统计模型:(25.1)为了能更仔细地描述数据,常在方差分析模型中引入一般平均与效应的概念。称各个的加权平均:(25.2)为总平均,其中。称:(25.3)为因素在第i水平的主效应,也简称为的效应,同时也表明第i个总体的均值是一般平均与其效应的迭加。容易看出效应间有如下关系式:(25.4)此时,单因素方差分析的统计模型可改写成包含效应的形式:(25.5)所要检验的原假设也可改写成:现在,我们知道造成各间差异的原因可能有两个:一个可能是假设不真,即各水平下总体均值(或水平效应)不同,因此从各总体中获得的样本观察值也就有差异了;另一可能是为真,差异是由于随机误差引起的。为了进一
10、步定量分析这些差异,我们需要把这些差异表达出来。由式(25.1)可推导出:(25.6)其中,。即组内样本观察值的平均值等于组内总体均值加上组内随机误差的平均值。还可由式(25.5)推导出:(25.7)其中,。即所有样本观察值的平均值等于总平均(各组均值的加权平均)加上所有随机误差的平均值。这样,每一个观察值与总平均的偏差可以分解成两部分:(25.8)其中,称为组内偏差,由式(25.1)和式(25.6)代入得到:(25.9)说明组内偏差仅仅反映了随机误差。而称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:说明第i组间偏差除了反映随机误差外还反映了第i个水平的效应。各间总的差异大
11、小可用总偏差平方和表示:(25.10)由式(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也称误差偏差平方和:(25.11)由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异可以用组间偏差平方和表示,也称因素A的偏差平方和:(25.12)将表示总差异的平方和进行分解:(25.13)其中,。证明了:总的差异=组内差异+组间差异。由于:(25.14)又由分布的可加性可知:(25.15)还可证明,在为真时,即各组效应都为0:(25.16)因此可采用统计量:(25.17)来假设检验。三、 多重比较当k组均值比较时,如果经过检验拒绝原假设,表明因素是显著的,即k
12、个水平对应的指标均值不全相等,但不一定两两之间都有差异。在一些实际问题中,当方差分析的结论是因素显著时,还需要我们进一步去确认哪些水平间是确有差异的,哪些水平间无显著差异。同时比较任意两个水平均值间有无显著性差异的问题称为多重比较,即要以显著性水平,同时检验以下个假设:(25.18)均值间的多重比较的方法从形式上可分为几类:临界值相对固定的两两比较、临界值不固定的多级检验、全部处理组均值与一个对照组均值比较。每一种类型中,根据所控制误差的类型和大小不同,又有许多不同的具体方法。如T(成组比较t检验法)、Bon(Bonforroni t检验法)、Dunnett(与对照组均数比较)、SNK(Stu
13、dent-Newman-Keuls或称q检验法)、Tukey(学生化极差HSD或称最大显著差)、Duncan(新多极差检验法)、LSD(最小显著差)、SIDAK(Sidak不等式进行校正t检验法)、SCHEFFE(Scheffe的多重对比检验)、Waller-Duncan(k比率t检验)、GT2或SMM(学生化最大模数和Sidak不等式进行校正t检验法)、REGWF(多重F检验)、REGWQ(多重极差检验)。在多重比较时,选用什么样的检验方法,首先要注意每种方法适用的试验设计条件,其次要关心所要控制的误差类型和大小。例如,某因素有10个水平,若采用通常的t检验进行多重比较,共需要比较的次数为次
14、,即使每次比较时都把第一类错误控制在0.05水平上,但经过45次多重比较后,犯第一类错误的概率上升到:。从中我们可以看到选用t检验法进行多重比较,仅仅控制了每次比较的显著水平,但却大大增加了整体的显著水平。下面是所要控制的几种误差类型和选用的检验方法:l 第一类误差率即犯第一类错误的概率。l 比较误差率即每一次单独比较时,所犯第一类错误的概率。可使用T法、LSD法、DUNCAN法。l 试验误差率即完成全部比较后,整体所犯第一类错误的概率。l 完全无效假设下的试验误差率即在假设完全无效下的试验误差率。可使用SNK法。l 部分无效假设下的试验误差率即在假设部分无效下的试验误差率。l 最大试验误差率
15、即在假设完全或部分无效下,完成全部比较后所犯第一类错误的最大概率。可使用BON法、SIDAK法、SCHEFFE法、TUKEY法、GT2/SMM法、GABRIEL法、REGWQ法、REGWF法、DUNNETT法。(1) T检验和Bonforroni检验当因素有k个水平时,对任意两个水平均值间的差异的显著性检验,可用 t统计量:(25.19)两两比较的次数共有=,因此,共有个置信水平,每次比较的显著水平:T检验的方法取。完成所有比较后的整体显著水平等于:(25.21)比较次数越大,试验误差就越大。而Bonforroni检验的方法取。完成所有比较后的整体显著水平等于:(25.22)即最大试验误差率小
16、于。(2) LSD检验LSD检验既可以通过两两比较的显著水平的特定限制来控制最终的试验误差率,也可以通过两两比较的绝对差异界限来判别显著性。最容易想到的这个界限就是在两两比较中采用的t检验法而得到Fisher最小显著差(LSD):(25.23)当时,则。(3) SNK检验和Duncan检验SNK法和Duncan法都属于多级检验法中的一种,使用多级检验可以获得同时检验的更高效率。多级检验分为步长增加法和步长减少法,SAS系统采用步长减少法。当因素有k个水平时,即有k个均值需要比较,检验步骤为: 将均值由大到小排队,即。 比较与是否有显著差异。此时跨度。若两者之间无显著差异,说明其他均值之差比它小
17、的任何两个水平均值之间的差别也无显著性,所以停止一切比较;反之,则继续进行下一步。 比较与,与是否有显著差异。此时这2个比较的跨度。若两者之间的比较无显著差异,则停止一切比较。如果每一步都有不满足停止比较的对比组存在,最后应达到跨度为2的所有需要比较的相邻两水平均值间都作完比较时为止。多级检验在作每一级比较时,通过控制比较误差率的显著水平来实现其最终要控制的试验误差率。要注意的是在每一级比较时可能是不同的,它是跨度和整体试验误差率的函数,即。另外,要注意的是其实就是每一级比较时特定统计量分布的显著水平。常用的两种方法是SNK检验和Duncan检验。它们的检验统计量为q(也称学生化极差统计量):
18、(25.24)其中,是和之间的跨度值,q分布的自由度是和,显著水平为。SNK检验和Duncan检验的区别主要在于取值:l SNK检验:。注意,当比较次数很大时,最大试验误差率将趋向于1。l Duncan检验:。四、 随机单位组设计的方差分析随机单位组设计(randomized block design)又称随机区组设计或随机配伍组设计,它是两样本配对试验的扩大。欲比较因素A中的k个水平的各个均值,试验设计时,先将受试对象按性质相同或相近者组成单位组,每个单位组有k个受试对象,分别随机分配到因素A的k个水平上。这时每个水平的受试对象,不仅数量相同,而且性质也相同或相近,就能缩小误差,提高试验效率
19、。这样的设计可将单位组看作一个因素,就成为两个因素的设计(因素与单位组)。由于两个因素的各水平仅仅交叉1次,因此,重复数为1,在这样的意义下,随机单位组设计可看作为两因素重复数为1的设计,一般这种设计不考虑交互影响。设有因素A具有k个水平,受试对象按性质相同或相近者分成b个单位组,每个单位组有k个受试对象,分别随机分配到因素A的k个水平上。那么,随机单位组设计的方差分析表如表25.2所示。表25.2 方差分析表形式变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P因素ASSAk1MSA= SSA/( k1)FA= MSA/ MSePA单位组SS单b1MS单= SS单/(
20、b1)F单= MS单/ MSeP单误差SeSSebkkb+1MSe= SSe/( bkkb+1)总变异STSST= SSA+ SS单+SSebk1MST= SST/( bk1)FT= MST/ MSePT五、 析因设计的方差分析析因设计(factorial design)是一种多因的设计。各因素在试验中所处的地位基本平等,而且因素之间存在一级(即2个因素之间)、二级(即3个因素之间)乃至更复杂的交互作用。例如,两个因素时,第1个因素有3个水平,第2个因素有2个水平,全部水平组合共有3×2=6种组合,每种组合都作试验时就是析因试验设计,也可称为3×2析因试验设计。同样3
21、15;4×2析因试验设计,则代表3个因素,分别有3,4,2个水平,全部试验后的水平组合为3×4×2=24种。在每一种组合下,适当重复几次,称为重复数。重复数可以不相等,一般地说,重复数相等时,效率最高。析因设计能够检验每个因素的各水平间主要变量的平均值的统计差异,也能检验因素间的交互影响。当存在交互影响时,表示一个因素各水平间的差异会随着另一个因素的水平改变而不同;当不存在交互影响时,则各个因素独立,即一个因素的水平改变时不影响另一个因素的各个水平之效应。析因设计的方差分析因为能研究交互影响,所以能提供较多信息。但是,当有较高级(二级以上)的交互影响时,由于涉及多
22、个因素,各有多个水平,情况将错综复杂,可能会引起解释上的困难。析因设计的方差分析同样是从数据差异的总平方和开始分解。例如,对于A×B双因素方差分析,这个总差异能分解成:A因素的各个水平之间的差异,B因素的各个水平之间的差异,A与B的各种不同组合之间的差异,以及观察数据必然会产生的随机误差这四部分。方差分析的主要目的就是要将这四部分从总平方和中分离出来,再以各个平方和与误差平方和作比较。假设A因素有r个水平,B因素有c个水平,每一种水平下的重复数为m,那么总的观察数据有n=r×c×m个,方差分析表如表25.3所示。表25.3 双因素(r×c)重复数m的方差
23、分析表形式变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P因素ASSAr1MSA= SSA/( r1)FA= MSA/ MSePA因素BSSBc1MSB= SSB/( c1)FB= MSB/ MSePBA×BSSAB(r1)(c1)MSAB= SSAB/( r1)( c1)FAB= MSAB/ MSePAB误差SeSSer×c×(m1)MSe= SSe/( rc(m1)总变异STSST= SSA+ SSB+ SSAB +SSer×c×m1MST= SST/(rcm1)FT= MST/ MSePT六、 拉丁方设计的方差分析
24、若试验中涉及到3个因素,当它们之间不存在交互作用或交互作用可以忽略不计,且各因素均取相同水平时,适合于选择拉丁方设计。用K个拉丁字母排成K行K列的方阵,使每行每列中每个字母仅出现1次,这样的方阵称为拉丁方(latin square)。然后将3个因素分别放置到拉丁方的行、列及字母上面。例如,三个4×4的拉丁方为:ABCDABCDABCDBADCBADCDCBADCBACDABBADCCDABDCBACDAB四个5×5的拉丁方为:ABCDEABCDEABCDEABCDEBCDEACDEABDEABCEABCDCDEABEABCDEABCDDEABCDEABCBCDEABCDEA
25、CDEABEABCDDEABCCDEABBCDEA使用时可选择其中一个。拉丁方试验设计的关键是这3个因素之间不存在交互作用或者交互作用可以忽略不计,一般情况是仅涉及到1个试验因素,因此就不存在交互作用。试验因素有K个水平(如A、B、C、D、E),还有2个是非处理因素,或者说是2个区组因素,让这2个区组因素也正好取K个水平,同时把这2个区组因素放在K×K拉丁方阵的横向和纵向上,构成了K×K个区组水平组合,每种组合下伴有试验因素K个水平中的1个水平。七、 proc anova和proc glm过程SAS系统的STAT软件提供了anova过程和glm过程等几个过程进行方差分析。a
26、nova过程主要处理均衡数据,所谓均衡数据是指自变量(或称分类变量)的每种组合中的观察数是相等的,如果不相等则称为非均衡数据。虽然glm过程能够处理均衡和不均衡的两种数据,但是anova过程考虑到均衡设计的特殊构造,对于均衡数据使用anova比使用glm计算快且占用存储少,还可以处理拉丁方设计、若干不完全的均衡区组设计等等。因此,无论何时作方差分析,一旦可能都应该用anova过程来完成。如果试验设计不均衡,也不是上述的几种特殊情况之一,那么应该使用glm过程。1. anova过程的语句格式anova过程的主要控制语句如下:proc anova输入数据集名<选项列表>class 变量
27、列表 ;model因变量列表=自变量列表 </选项列表>means效应列表 </选项列表> ;test<H=效应列表> E=效应列表;run ;其中class语句、model语句是必需的,而且class语句必须出现在model语句之前。test语句必须放在model语句之后。(1) proc means 语句中的<选项列表>。l manova按多元方式删除那些含有丢失值的观察,即在因变量中有丢失值就从这次分析中删除这个观察。l outstat=输出数据集名生成一个输出数据集,它包含模型中每个效应的平方和、F统计量和概率水平。(2) class语句
28、。在anova过程中要使用的分类变量、区组变量必须首先在class语句的变量列表中说明。Class语句是必需的,且必须放在model语句前面。Class变量可以是数值型,也可以是字符型。(3) model语句。该语句用来规定因变量和自变量效应。如果没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为0。Model语句的主要形式有四种: 主效应模型Model y=a b c; 含有交叉因素的模型Model y=a b c a*b a*c b*c a*b*c; 嵌套模型Model y=a b c(a b); 包含嵌套、交叉和主效应的模型Model y=a b(a) c(a) b*c(a
29、);Model语句的选项列表有:int打印与截距有关的假设检验结果。anova过程总是把截距作为模型的一个效应进行处理,缺省时,不打印结果。l nouni不打印单变量分析结果。(4) means语句。该语句是用来计算在means语句后列出的每个效应所对应的因变量均值。Anova过程可以对出现在model语句等号右边的任一效应计算因变量的均值。不过这些均值没有针对模型中的效应进行修正。如果需要修正的均值,应该调用glm过程,使用其中的lsmenas语句。在anova过程里可以使用任意多个means语句,它们放在model语句后面。Means语句的选项列表主要有两个内容,一是选择多重比较的检验方法
30、,二是规定这些检验的细节,注意这些细节选项只能用于主效应。 多重比较的检验方法l bon对所有主效应均值之差进行Bonferroni的t检验。l duncan对所有主效应均值进行Duncan的多重极差检验。l dunnett<(格式化对照值)>进行Dunnett的双尾t检验。用以检验对所有主效应均值的某个水平作为对照,处理有无显著差异。为了规定这个对照效应的水平,在括号内用单引号把这个水平的格式化值括起来。缺省时,效应的第一个水平作为对照。l dunnettl<(格式化对照值)>进行Dunnett的单尾t检验。它检验是否任一个处理显著地小于这个对照。l dunnettu
31、<(格式化对照值)>进行Dunnett的单尾t检验。它检验是否任一个处理显著地大于这个对照。l gabriel对所有主效应均值进行Gabriel的多重对比检验。l regwf对所有主效应均值进行Ryan-Einot-Gabriel-Welsch的多重F检验。l regwq对所有主效应均值进行Ryan-Einot-Gabriel-Welsch的多重极差检验。l scheffe对所有主效应均值进行Scheffe的多重对比检验。l sidak对所有主效应均值水平依据Sidak不等式进行调整后,对其均值之差两两进行t检验。l Smm|gt2当样本量不等时,基于学生化最大模和Sidak不相关
32、t不等式,使用Hochberg的GT2方法,对主效应均值进行两两对比检验。l snk对所有主效应均值进行Student-Newman-Keuls的多重极差检验。l t|lsd对所有主效应均值进行两两t检验,它相当于在单元观察数相等时Fisher的最小显著差(Fishers least-significant-difference)检验。l tukey对所有主效应均值进行Tukey的学生化极差检验。l waller对所有主效应均值进行Waller-Duncan的k比率(k-ratio)检验。 多重比较的检验细节l alpha=p给出均值间对比检验的显著性水平。缺省值是0.05。l cldiff要
33、求把两两均值之差的结果用置信区间的形式输出。 l clm对变量的每个水平的均值按置信区间形式输出。l e=效应指定在多重对比检验中所使用的误差均方。如果缺省,使用残差均方(MS)。指定的效应必须是在model语句中出现过的效应。l kratio=值给出Waller-Duncan检验的类型1/类型2的误差限制比例。Kratio的合理值为50、100、500,大约相当于两水平时alpha值为0.1、0.05、0.01的情况。缺省值为100。l lines按下降次序列出所有检验方法产生的均值,并用一条线段在均值旁指出非显著的子集。l hovtest要求输出组间方差齐性的Levene检验。(5) te
34、st语句l 在分析中,如果这个语句缺省,仍然使用残差均方(MS)作为误差项对所有平方和(SS)计算F值。但用户可以使用本语句要求使用其他效应作为误差项,得到另外的F检验。可以使用多个test语句,把它们放在model语句后面。Test语句的选项为:l h=效应规定模型里哪些效应用来作为假设的效应。l e=效应规定一个而且只能是一个效应用来作为误差项,这个说明项是必需的。2. glm过程的语句格式proc glm是分析符合一般线性模型(General Linear Models)的数据,因此取名GLM。它能被用在许多不同的分析中,如简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、
35、偏相关分析、多元方差分析等。在glm过程中的大多数方差分析的语句和选项与anova过程中基本相同。用anova过程编写的程序几乎不用修改就可在glm过程中运行。glm过程仅仅附加了三条语句:contrast、estimate和lsmeans。contrast和estimate语句允许你测试和估计均值的某种功能。lsmeans语句允许你计算调整后的均值。glm过程的主要控制语句如下:proc glm输入数据集名<选项列表>class 变量列表 ;model因变量列表=自变量列表 </选项列表>contrast 标签 效应 值表 </选项列表>estimate
36、标签 效应 值表 </选项列表>lsmeans 效应列表 </选项列表> ;means效应列表 </选项列表> ;output <out=输出数据集名><统计量关键字=变量名列表>test<H=效应列表> E=效应列表;run ;其中,class语句、model语句是必需的,而且class语句必须出现在model语句之前。其他语句必须放在model语句之后。下面主要介绍与anova过程相比不同的语句和新增加的语句。(1) model语句。在glm过程的model语句中可以使用几种不同效应,下面是使用这些效应的几个例子,a、
37、b和c代表分类变量;y1、y2、x1和x2代表连续变量。Model y=x1; (简单回归)Model y=x1 x2; (多重回归)Model y=x1 x1*x1; (多项式回归)Model y1 y2=x1 x2; (多元回归)Model y=a; (单因素方差分析)Model y=a b c; (主效应模型)Model y=a b a*b; (因素模型)Model y=a b(a) c(b a); (嵌套模型)Model y1 y2=a b; (多元方差分析模型)Model y=a x1 (协方差分析模型)Model语句的主要选项有(与anova过程中的model语句选项相同不再列出)
38、:l solution打印正规方程的解,即参数估计值。e1/e2/e3/e4打印模型中每一效应的类型1/类型2/类型3/类型4的可估函数,并计算相应的平方和。ss1/ss2/ss3/ss4对每个效应,打印与类型1/类型2/类型3/类型4的可估函数相关的平方和。alpha=0.01/0.05/0.1指定置信区间的水平。缺省值为0.05。cli/clm打印每一观察的预测值/预测均值的置信限,两者不能同时使用。p打印自变量没有缺失值的每一观察值、预测值和残差值。同时还打印Durbin-Waston统计量。xpx打印叉积矩阵。i打印矩阵的逆矩阵或广义逆矩阵。(2) contrast语句。提供一种获得一
39、般假设检验的技巧。其中,效应可以是截距,用字符intercept表示。通过规定向量或矩阵来构造一元假设检验或多元假设检验。例如,当发现某两个因素的交互作用项有显著性时,我们可用本语句来实现一个因素被控制在某水平上,对另一个因素的各水平间进行两两比较的目的。设M因素有三个水平a、b、c,V因素有两个水平1、2,且有显著性。如果我们要比较的差异,那么有几种不同的比较方法: 在因素V的每一个水平上,分别比较因素M的三个水平a、b、c均值的之间的线性关系假设是否显著。也即:和 在因素V平均的所有水平上,比较因素M的三个水平a、b、c均值的之间的线性关系假设是否显著。也即: 在因素V平均的子集上,比较因
40、素M的三个水平a、b、c均值的之间的线性关系假设是否显著。也即:glm模型为双因素试验设计的方差分析指定了下面的效应公式:(25.25)其中,是因素水平与因素水平在单元上所有观察值的平均。为总平均。是因素在水平上的主效应,是因素在水平上的主效应,为因素和因素在水平上的交互效应。因此,对任一观察值有:(25.26)因此,根据单元均值给出的线性组合可以转换成效应模型的合并参数形式,即,如:同理:相应的glm过程的语句为:proc glm;class M V ;modelY=M V M*V;contrast a vs b,c in v1M 1 -0.5 -0.5 M*V 1 0 -0.5 0 -0.
41、5 0;contrast a vs b,c in v1M 1 -0.5 -0.5 M*V 0 1 0 -0.5 0 -0.5;run ;Contrast语句中的可选项:e打印整个向量。e=效应规定模型中的某个效应作为误差项。过程将把这一效应作为单变量F检验的分母。如果缺省,过程把均方误差(MSE)作为误差项。etype=n指明e=效应的类型(1、2、3、4)。如果指明e=而没有指明etype=,则使用最高类型。(3) Estimate语句可用来估计参数的线性函数,通过用参数的估计乘以向量来得到。其中,。Estimate语句的使用格式同contrast语句。estimate语句中的可选项:e打印
42、整个向量。divisor=数字为简便地输入效应的系数而规定的一个值,用该值除以所有系数使得分数系数可以作为整数输入。例如:estimate 1/3(a+b)2/3c M 1 1 -2 /divisor=3;可替代:estimate 1/3(a+b)2/3c M 0.33333 0.33333 -0.66667;(4) Lsmeans语句计算列在语句中的每一效应的最小二乘均值(LSM)。最小二乘均值估计是针对非均衡数据设计的,而类和子类的算术平均值是针对均衡数据设计的。lsmeans语句中的可选项:cov在选项out=指明的输出数据集中输出协方差。e打印用以计算最小二乘均值的可估函数。e=效应规
43、定模型中的某个效应作为误差项。etype=n指明e=效应的类型(1、2、3、4)。out=输出数据集名产生一个包含LSM值、标准差及协方差的输出数据集。pdiff打印假设检验的所有可能的概率值。stderr打印LSM的标准差和的概率值。tdiff打印假设检验的t值和相应的概率值。pdiff=all/control/conroll/controlu打印最小二乘均值之差的概率值。adjust=bon/dunnett/scheffe/sidak/smm/gt2/tukey/t要求多重比较对最小二乘均值之差的概率值和置信限进行调整。缺省值为t。slice=效应通过规定的这个效应来分开交叉的LSM效应。
44、例如,假定交叉项A*B是显著的,如果想对B的每个效应检验A的效应,使用下面语句:lsmeans A*B /slice=B;八、 实例分析1 单因素试验设计的均值比较例25.1 考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试,每种品牌的材料做四次试验,且都是采用的同一种磨损措施,所有的试验都是在完全随机的顺序下在相同的机器上完成的。程序如下:data study.veneer;input brand $ wear ;cards;ACME 2.3 ACME 2.1 ACME 2.4 ACME 2.5CHAMP 2.2 CHAMP 2.3 CHAMP 2.4 CHAMP 2.6AJAX 2
45、.2 AJAX 2.0 AJAX 1.9 AJAX 2.1TUFFY 2.4 TUFFY 2.7 TUFFY 2.6 TUFFY 2.7XTRA 2.3 XTRA 2.5 XTRA 2.3 XTRA 2.4; proc anova data=study.veneer;class brand;model wear=brand;means brand;means brand /hovtest;run;程序说明:因为数据仅仅是按照brand值分类,所以在class语句中这是仅有的一个变量。变量wear是被分析的因变量,故wear出现在model语句等号的左边。在方差分析表中,除了总方差和误差外,方差
46、的来源仅仅是由于各种不同brand值的变异造成的,因此brand出现在model语句等号的右边。Means语句计算主效应brand不同水平所对应的因变量均值,选项hovtest计算不同品牌组方差齐性的假设检验。输出的结果见表25.4。表25.4 单因素设计的方差分析结果The SAS System Analysis of Variance Procedure Class Level Information Class Levels Values BRAND 5 ACME AJAX CHAMP TUFFY XTRA Number of observations in data set = 20
47、Analysis of Variance ProcedureDependent Variable: WEARSource DF Sum of Squares Mean Square F Value Pr > FModel 4 0.61700000 0.15425000 7.40 0.0017Error 15 0.31250000 0.02083333Corrected Total 19 0.92950000 R-Square C.V. Root MSE WEAR Mean 0.663798 6.155120 0.14433757 2.34500000Source DF Anova SS
48、Mean Square F Value Pr > FBRAND 4 0.61700000 0.15425000 7.40 0.0017 Levene's Test for Equality of WEAR Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F BRAND 4 0.000659 0.000165 0.5310 0.7149 Error 15 0.00466 0.00031Analysis of Varia
49、nce Procedure Level of -WEAR- BRAND N Mean SD ACME 4 2.32500000 0.17078251 AJAX 4 2.05000000 0.12909944 CHAMP 4 2.37500000 0.17078251 TUFFY 4 2.60000000 0.14142136 XTRA 4 2.37500000 0.09574271结果分析:anova过程总是输出两个基本的方差分析表。一个是总体模型的方差分析表,一个是包含模型中各个变量的方差分析。首先输出class语句中规定的每个变量(brand)、分类变量的取值数(5)、具体取值(ACME
50、AJAX CHAMP TUFFY XTRA)以及数据集中的观察个数(20)。接着anova过程对model语句中每个因变量输出方差分析表。包括:因变量的总平方和(0.9295)、属于模型部分的平方和(0.6170)、属于误差部分的平方和(0.3125)、自由度DF(4、5、19)、模型的均方MS(0.15425=0.617/4)、误差的均方MSE(0.02083333=0.3125/15)、模型的F值(7.40=0.15425000/0.02083333)、分布大于7.40的概率(0.0017)、(0.663798=0.617/0.9295)、变异系数CV(6.155120=100×)、因变量的标准差(0.14433757=)、因变量均值(2.345)。对模型中的每个效应,anova过程还输出方差分析表。brand自由度DF(4)、平方和(0.617)、均方MS(0.15425=0.617/4)、F值(7.40=0.15425000/0.020833
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽宁省辽阳太子河区五校联考2024-2025学年初三月考试卷(二)物理试题含解析
- 永平县2024-2025学年三年级数学第二学期期末联考试题含解析
- 江苏省泰州市泰兴市黄桥教育联盟重点名校2024-2025学年初三年级五月份月考卷语文试题含解析
- 兴义市第八中学2025年高三接轨考试物理试题文试题含解析
- 劳务分包安全合同
- 抵押车借款合同二零二五年
- 美甲美睫店员工正式聘用合同书范例
- 婚恋中介合同书范例
- 场地租赁保证金合同书二零二五年
- 二零二五商铺转租租赁简单合同书范例
- 车间生产追溯管理制度
- 2025年4月12日衢州事业单位及市直遴选(选调)笔试真题及答案解析
- 2025年CFA特许金融分析师考试全真模拟试题与解析
- 非上市公司的期权激励方案两篇
- 福建省能源石化集团有限责任公司招聘笔试真题2024
- 专业税务顾问服务合同范本
- 第8课《集字练习》课件-【知识精研】六年级上册书法北师大版
- DB37-T 5312-2025 《建筑施工安全防护设施技术标准》
- 基于Scrum的软件产品自动化测试框架研究
- 2025年广东韶关南雄市卫生健康局下属事业单位招聘工作人员67人历年高频重点模拟试卷提升(共500题附带答案详解)
- 2025年度商铺租赁代理服务合同(含独家代理权)
评论
0/150
提交评论