版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章方差分析本章主要内容概述Anova过程(方差分析)Plan过程(试验设计)单因素完全随机设计的方差分析Glm过程(广义线性模型)单因素完全随机设计的非参数统计单因素随机区组设计的方差分析(相当于双因素)系统分组(巢式)设计的方差分析双因素无重复设计的方差分析析因设计的方差分析(完全随机、随机区组设计、多因素)拉丁方设计的方差分析裂区设计的方差分析重复度量设计的方差分析正交设计的方差分析概述在科学试验中,有很多研究多个处理(变量)之间差异显著性的问题。对多个变量均数采用两两比较的方法进行假设测验,分别作出统计推断,表面看是可行的。但实际上存在着三方面的缺陷:从统计上夸大了变量间的差异;割裂了变量间内在的联系(特别是对试验误差);加大了统计工作量。基于以上考虑,1923年英国著名统计学家费休(R.A.Fisher)提出了方差分析(ANOVA,ANalysisOfVariance)的统计方法。概述方差是一个表示变异的量,在一项试验或调查中往往存在着许多造成生物性状变异的因素,这些因素有较重要的,也有较次要的。方差分析就是将总变异分裂为各因素相应的变异,作出其数量估计,从而发现各因素在变异中所占的重要程度;而且除了可控因素引起的变异,剩余变异可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。因此,方差分析在统计分析中占有十分重要的地位,特别是在多因素试验中,它可以帮助我们发现起主要作用的变异因素,从而抓住主要矛盾或关键措施。概述SAS中常用的方差分析过程有ANOVA过程和GLM过程。ANOVA过程运算速度较快,但功能较为有限;GLM过程运算速度较慢,但功能强大,我们做协方差分析时也要用到GLM过程。概述方差分析的数据集至少应有一个依变量(反应变量、结果变量),用于记录不同处理因素水平下的观测值;至少有一个处理因素变量,用于记录处理因素的类型和水平数。以单因素方差分析为例,应有一个依变量和一个处理因素变量;两因素的方差分析应有一个依变量和两个处理因素变量。Anova过程anova过程的主要功能就是进行方差分析。anova过程用以对平衡实验设计资料进行分析,不能用于对非平衡实验设计资料的方差分析。平衡实验设计资料:各分组因素各水平的所有组合具有相同的样本量或观察值。Anova过程anova过程的一般格式如下:PROCANOVA<options>;
CLASS
variables;
MODEL
dependents=effects</options>;
ABSORB
variables;
BY
variables;
FREQ
variable;
MANOVA<test-options></detail-options>;
MEANS
effects</options>;
REPEATED
factor-specification</options>;
TEST<H=effects>E=effect;Run;Anova过程anova过程的Options:选项功能和用法Data=指定分析的数据集。ORDER=指定anova过程对分类变量(class语句指定的变量)各水平的排序方式,可选值:DATA——按照原始数据中的顺序;FORMATTED——输出格式值的顺序;FREQ——各水平观察值频数多少的顺序;INTERNAL——内部值的顺序。MANOVA在多变量分析时,去掉有缺失值的变量。MultiPass在必要时重新读入数据,而不是将数据写入某个中间文件,对大样本数据处理时非常有用。NoPrint禁止将分析结果输出到Output窗口。NameLen=指定效应名称字符串的长度(20-200的整数),默认值为20。OutStat=指定存储方差分析表的数据集。Anova过程Anova过程的Model语句:格式:MODEL
dependents=effects</options>;
dependents代表依变量(即分析变量、因变量),可以是输入数据集中的一个或多个数值型变量,多个变量间以空格相分隔。effects为方差分析模型的效应项,是由自变量(分组变量)以特定方式组合而成的表达式,一个模型表达式中可以同时包含多个效应项。Anova过程Anova过程的Model语句:如果没有指定任何自变量,则模型中仅包含常数项,此时检验的内容是依变量的均数是否为零。model语句中指定的自变量必须是class语句中声明过的分类变量,anova过程不允许自变量中有连续型变量(数值变量),而依变量则必须是数值型变量。Anova过程Anova过程的Model语句:自变量表达式可以有三种不同的效应模型,模型的表达方式如下(假定依变量为y,模型中包含三个自变量:a,b,c):(1)主效应(MainEffect)模型:y=abc;(2)交互效应(Crossedeffect或Interaction)模型:y=abca*ba*cb*ca*b*c;(3)嵌套效应(Nestedeffect)模型:y=abc(ab);
其中c因素为a、b两因素各种组合下的二级因素。效应(Effect):指用分类变量说明依变量的关系。Anova过程Anova过程的Model语句:model语句末尾的选项可以设置为“intercept”和“nouni”;intercept指定SAS进行关于常数项(截距)的假设检验。默认情况下,模型中包括截距,但并不显示有关截距项的假设检验结果。nouni在多变量方差分析(或重复测量资料方差分析)时禁止有关单变量统计结果的输出,但它不影响repeated语句所产生的有关单变量分析结果的显示。Anova过程Anova过程的absorb语句:对于仅发挥主效应的因素,absorb语句指定SAS消除此变量的作用,只对其余变量进行分析,起到大幅度减少计算机资源和时间消耗的作用。应用此功能时,须先对指定变量排序,且此变量不能再出现在class语句和model语句中,否则将导致离均差平方和计算错误。Anova过程Anova过程的manova语句:当有多个依变量时,此语句控制anova过程进入多元方差分析模式,其后的选项用以指定多元方差分析时的各项指标。Anova过程Anova过程的means语句:通过使用means语句,anova过程可对model语句所定义的效应计算各水平下依变量的均值、标准差Means语句通过选项的设置可以实现对指定主效应的组间多重比较(anova过程不能执行模型中交互效应的组间多重比较)。可用时使用多条means语句,但均必须位于model语句之后。Anova过程means语句的选项(部分):选项功能和用法Alpha=指定均数多重比较的显著性水平,默认为0.05。Bon对全部主效应执行组间多重比较的Bonferronit检验。Duncan对全部主效应执行组间多重比较的Duncan’s检验(新复极差法,又叫邓肯法,1955年由Duncan提出)。Dunnett对全部主效应执行各组与对照组间多重比较的双侧Dunnett’st检验。默认情况下,各效应的第一个水平将被作为对照组。Dunnettl对全部主效应执行各组与对照组间多重比较的单侧Dunnett’st检验。Gabriel对全部主效应执行Gabriel’s组间多重比较的过程。T在样本量相等的情况下,执行组间均数的两两t检验过程,等同于Fisher的最小显著差异(LSD,leastsignificantdifference)检验。Anova过程means语句的选项(部分):选项功能和用法E=指定在多重比较中用来作误差项的效应,所指定的效应必须为Model语句中所饮食的效应,否则以默认值替代。默认情况下残差均方作为误差项。Lsd同“T选项。(费歇尔LSD检验)Snk对全部主效应执行Student-Newman-Keuls组间多重比较过程。Tukey对全部主效应执行Tukey’sHSD组间多重比较过程。Scheffe对全部主效应执行Scheffe多重比较。Waller对全部主效应执行组间多重比较的Waller-Duncant检验过程。Welch执行Welch方差加权的单因素方差分析过程。在方差齐性的前提条件下,此方法比一般的方差分析方法更为稳健。设置Welch选项时,Model语句必须为单因素模型,否则将忽略该选项。Anova过程Anova过程的repeated语句:如果依变量为重复测量数据,此语句用以指定anova过程进入重复测量数据方差分析模式。其中的变量名代表重复测量因素(如测量时间等),其后水平数代表重复测量的次数,如果需指定重复测量各次的具体标识,可在其后按顺序列出,并用圆括号括起来。Anova过程Anova过程的test语句:用以进行其他类型的f检验,这种检验不同于通常方差分析中以误差均方为分母的f检验;选项“h=”用以指定作为分子的变量表达式(必须在model语句中出现过);选项“e=”用以指定一个作为分母的变量。Plan过程随机化(randomization)是将实验对象的实验顺序及分组进行随机分配。这是保证非处理因素均衡的一个重要手段。常用的随机化分组方法有抽签法和随机数字表法。SAS软件中用于试验设计的SAS过程称为试验设计(PLAN)。SAS的PLAN过程基本语法格式如下:ProcPlan<options>;
Factors
requirements/noprint;
Treatments
requirements;
OutputOut=Sas-dataset[DATA=Sas-dataset][试验因子值设定];Run;Plan过程PLAN语句有2个选项:Seed=n:用于设定种子数,n为一个5、6或7位的奇数,缺省时利用系统时钟时间作种子数。Ordered:要求因子组以1,2,…,m给出,与Factors语句联用。FACTORS语句指明试验处理因子的抽样方式,格式是:因子=m[OFn][抽样方式]m和n为数字,且m≤n。例如:unit=6,表示对试验因子unit产生1,2,3,4,5,6的一个排列。unit=6OF8,表示从8个中挑选出6个。抽样方式包括RANDOM、ORDERED和CYCLIC。缺省为RANDOM。Plan过程RANDOM为随机排列,从1,2,…,m中随机抽出;ORDERED为顺序排列,顺序产生1,2,…,m序列;CYCLIC为循环排列,格式:CYCLIC[(初始排列)][增量]。因子水平依1,2,…,m或原始区组循环排列。如GROUP=5CYCLIC,产生排列1,2,3,4,5;GROUP=5CYCLIC2,产生排列1,2,3,4,5,以后每次增量为2。TREATMENT语句与FACTOR语句类似。OUTPUT语句将结果存储至SAS数据集中,供其他过程调用。
单因素完全随机设计的方差分析单因素方差分析(One-WayANOVA)模型,只有1个分组自变量(因子),而且只有1个依变量。通过观察因子的不同水平值来分析对依变量的影响,比较这些影响是否具有显著性差异。方差分析的目的是分析或检验总体间的均值是否相同,而不是方差本身是否相同,但检验的手段则是通过方差加以分析比较的。类型:试验设计,示例09a00;分为均衡设计的方差分析,示例09a01;非均衡设计的方差分析,示例09a02。单因素完全随机设计的方差分析单因素完全随机试验设计示例09a00:2组(水平),每组6个样本。/*SasProg09a00.Sas*/dataD09a00;
dounit=1
to
12;
ifunit<=6
thengroup=1;
elsegroup=2;
output;
end;proc
plan
seed=27371;
factorsunit=12;
output
out=crddat
data=D09a00;proc
print;run;方法一结果:第1组:851462第2组:127391011单因素完全随机设计的方差分析方法二proc
plan
seed=27371;
factorsunit=12;
treatmentsgroup=12
cyclic(1
1
1
1
1
1
2
2
2
2
2
2);
output
out=outdata;proc
print;run;方法二结果:第1组:851462第2组:127391011单因素完全随机设计的方差分析示例09a01(李伟凯、蔡德利著《Foxpro数据库组织和统计分析》):研究小麦6种氮肥施用法效应,每种施肥法种小麦5盆,完全随机设计,最后测得含氮量(mg)如下表。试作方差分析。X1X2X3X4X5X612.9014.0012.6010.5014.6014.0012.3013.8013.2010.8014.6013.3012.2013.8013.4010.7014.4013.7012.5013.6013.4010.8014.4013.5012.7013.6013.0010.5014.4013.70单因素完全随机设计的方差分析/*SasProg09a01.Sas*/dataD09a01;
infile
'E:\Sas\SasData\SasData09a01.txt';
doi=1
to
5;
dogroup=1
to
6;
inputx@@;
output;
end;
end;proc
anova;
classgroup;
modelx=group;
meansgroup/duncan;run;因为数据位于不同的列中,每行包含各组的一个数据,用循环语句正好可以产生一个代表不同分组的自变量(group)。此处依变量为x,自变量(分组变量)为group,因而model语句中的效应表达式为x=group;means语句指定对变量group进行多重比较。单因素完全随机设计的方差分析非均衡设计(各组观测值不相等)的方差分析示例09a02(徐夕水.微机编程技术在生物统计中的应用.畜牧与兽医.1997,29(6):260-261):抽测5头不同品种的母猪窝产仔数(头)如表,试对不同品种母猪平均窝产仔数做F检验及利用SSR法进行多重比较。品种号观测数观察值Xij(头/窝)16813129992478107361314101112124513988105412111514单因素完全随机设计的方差分析/*SasProg09a02.SAS*/dataD09a02;
Infile
'e:\sas\sasdata\SasData09a02.txt';
inputs;
doa=1
tos;
inputn;
doi=1
ton;
inputx@@;
output;
end;
end;proc
glm;
Classa;
Modelx=a;
Meansa/Duncan
alpha=0.01;run;Glm过程Glm过程即广义线形模型(GeneralLinerModel)过程,存在于Stat模块中,执行以最小二乘法进行模型拟合的功能。Glm过程对数据的分析处理均在一般线性模型的框架下进行,依变量可以为一个或多个连续型变量,自变量可以是连续型也可以是离散型的。Glm过程Glm过程可实现的分析类型:简单回归多重回归方差分析,尤其针对非平衡设计的数据协方差分析响应面模型(Response-surfacemodel)加权回归分析多项式回归分析偏相关分析多元方差分析重复测量资料的方差分析Glm过程Glm过程的一般格式如下:PROCGlm<options>;
CLASS
variables;
MODEL
dependents=independents</options>;
ABSORB
variables;
BY
variables;
FREQ
variable;Idvariables;Weightvariable;Contrast’label’effectvalues<…effectvalues></options>;Estimate’label’effectvalues<…effectvalues></options>;
Lsmeans
effects</options>;
MANOVA<test-options></detail-options>;
MEANS
effects</options>;Output<Out=Sas-dataset>keyword=names<…></options>;Randomeffects</options>;
REPEATED
factor-specification</options>;
TEST<H=effects>E=effect</options>;Run;Glm过程Glm过程的选项列表比Anova过程多了“alpha=p”选项,此选项用来指定计算过程中所采用的显著性水平。其余选项的用法和含义与Anova过程的相同。Anova过程中涉及的所有语句都包含在Glm过程所涉及的语句中,其用法和功能也都是基本相同的。Glm过程Glm过程中的Contrast语句:Contrast语句可以用自定义的方式进行假设检验;Contrast语句必须出现在model语句之后;如果用到manova、repeated、random或test语句,contrast语句必须出现在这些语句之前。“标记”用来标识所进行的检验,作为标记的文字或符号需用单引号括起来。效应表达式用以指定假设检验的因素(组合),这些因素(组合)必须是model语句中出现过的。效应表达式后的常数向量用以指定相应因素(组合)各水平的值,在指定各水平的情况下进行相关因素的分析。Glm过程Estimate语句可实现对线性方程的估计,它也必须出现在model语句之后,使用的规则和contrast语句基本相同。Lsmeans语句用以指示SAS对指定的因素(组合)计算依变量的最小二乘均数并输出到结果中。Random语句用以指定哪些因素(组合)是随机变量,即相对于这些因素(组合),样本是来自于正态总体的随机样本,这样SAS可对相应因素(组合)作随机效应模型的分析。Glm过程四种类型的SS:SS即离差平方和(SumofSquares);在SAS的方差分析程序里(如:GLM、VARCOMP、ANOVA)每一种效应的SS都被归纳成第一型、第二型、第三型、第四型。这种分类是便于统计分析的检验,而非统计学上公认的分类方式。如果对这四种类型的SS有兴趣,可参考Freund,Littell
及Spector(1986)合著的SASSystemforLinearModels。单因素完全随机设计的非参数统计当方差分析的正态分布假定或方差相等假定不能满足时,对单因素问题,可以使用非参数方差分析的Kruskal-Wallis检验方法。这种检验:不要求观测来自正态分布总体;不要求各组的方差相等;甚至依变量(指标)可以是有序变量(变量取值只有大小之分而没有差距的概念,比如磨损量可以分为大、中、小三档,得病的程度可以分为重、轻、无,等等)。单因素完全随机设计的非参数统计NPAR1WAY过程的调用与ANOVA过程不同,因为它是单因素方差分析过程,所以要用CLASS语句给出分类变量(自变量,因素),用VAR语句给出依变量(因变量,指标)。一般格式为:PROCNPAR1WAYDATA=数据集WILCOXON;
CLASS
因素;
VAR
指标;RUN;单因素完全随机设计的非参数统计示例09b01:分析五个牌子的胶合板耐磨数据有无差异。数据集:Mylib.VeneerACMECHAMPAJAXTUFFYXTRA2.32.22.22.42.32.12.32.02.72.52.42.41.92.62.32.52.62.12.72.4单因素完全随机设计的非参数统计/*SasProg09b01.Sas*/proc
npar1way
data=mylib.veneerwilcoxon;
classbrand;
varwear;run;“Averagescoreswereusedforties.”是说当名次相同时(如两个第2)用名次的平均值((2+3)/2=2.5)Kruskal-Wallis检验的结果,包括近似的卡方
统计量、自由度、检验的p值(Prob>CHISQ)。现在p值0.0175小于预定的水平0.05所以结论是各种牌子的胶合板的耐磨性能有显著差异。注意,Kruskal-Wallis检验是非参数检验,在同等条件下非参数检验一般比参数检验的功效低,所以这里的p值比用ANOVA过程得到的p值要大。单因素完全随机设计的非参数统计示例09b02(王忠伟,徐英杰,李国栋.应用VBA语言实现完全随机设计多组差别的秩和检验.卫生毒理学杂志.2004,18(2):112-114):不同浓度的苯并芘[B(a)P]对昆明属小鼠睾丸细胞DNA损伤的体外单细胞凝胶电泳(SCGE)试验数据。试验组1试验组2试验组3试验组4试验组516411242342254657507292850435521123325103284120单因素完全随机设计的非参数统计/*SasProg09b02.Sas*/dataD09b02;
infile
'E:\Sas\SasData\SasData09b02.txt';
don=1
to
5;
dogroup=1
to
5;
inputx@@;
output;
end;
end;proc
npar1way
wilcoxon;
classgroup;
varx;run;单因素完全随机设计的非参数统计结果Kruskal-Wallis(克鲁斯-沃里斯)秩和检验(卡方近似)是针对多组数据的分析,Wilcoxon秩和检验只用于两组数据的比较。本例Kruskal-WallisTestChi-Square2.7503DF4Pr>Chi-Square0.6005单因素随机区组设计的方差分析随机区组设计(Therandomizedcomplete-blockdesign)比完全随机资料多了一个控制因素,即区组因素。SAS中无须对区组因素或其他因素进行特别的说明或标识,仅将它们作为效应因素来处理即可。类型:随机区组试验设计,示例09c00;多个实验组与对照组的均值比较,示例09c01;单因素随机区组设计的方差分析随机区组试验设计示例09c00:处理组8个,13个区组,请给出试验方案。/*SasProg09c00.Sas*/proc
plan
seed=33373;
treatmentsplots=8
of
52
cyclic(1
2
3
4
32
43
46
49)4;
factorsblock=13treats=8;
output
out=d09c001;run;排列方式:循环排列。依据原始排列,增量为4,从52个排列值中选择8个。
如果需要完全随机,可改为treatmentsplots=8;单因素随机区组设计的方差分析示例09c01(李伟凯、蔡德利著《Foxpro数据库组织和统计分析》):7个大麦品种进行比较试验,随机区组设计,3次重复,小区计产面积30m2,产量(kg)结果见表,试作方差分析。重复(区组)ABCDEFG(对照)Ⅰ12.010.011.59.011.010.010.0Ⅱ13.09.59.58.010.010.59.5Ⅲ11.510.510.09.511.510.510.5单因素随机区组设计的方差分析/*SasProg09c01.Sas*/dataD09c01;
infile
'E:\Sas\SasData\SasData09c01.txt';
doblock=1
to
3;
dogroup=1
to
7;
inputx@@;
output;
end;
end;proc
anova;
classblockgroup;
modelx=blockgroup;
meansgroup/duncan;
meansgroup/dunnett('7');run;Means语句dunnett指定各组与一个对照组进行比较,采用dunnettt检验,圆括号中的变量值用来指定对照组对应的水平值。Model语句中的效应表达式x=blockgroup,对区组(3次重复)和处理(7个品种)两个因素的主效应进行分析。单因素随机区组设计的方差分析结果分析F=5.37,p=0.0049<0.05,模型拟合度很好,各大麦品种产量差异显著。R2=0.781576,说明模型可以确定78%的变异。各组与对照组的平均数比较显示,只有A品种与对照的差异达到显著水平(标有***)。单因素随机区组设计的方差分析示例09c02:不同放置时间的血糖浓度有无变化。────────────────────────受试者编号放置时间(分)────────────────(即区组号)04590135────────────────────────15.275.274.944.6125.275.224.884.6635.885.835.385.0045.445.385.275.0055.665.445.384.8866.226.225.615.2275.835.725.384.8885.275.115.004.44────────────────────────单因素随机区组设计的方差分析/*SasProg09c02.Sas*/dataD09c02;
doa=1
to
10;/*处理因素*/
dob=1
to
8;/*区组因素*/
inputx@@;
output;
end;
end;cards;5.275.275.885.445.666.225.835.275.275.225.835.385.446.225.725.114.944.885.385.275.385.615.385.004.614.665.005.004.885.224.884.44;proc
anova;
classab;
modelx=ab;
meansa/snk;run;用SNK法进行两两比较(相当于q检验)
单因素随机区组设计的方差分析示例09c03(刘明启,孙建义,王成章.不同紫花苜蓿品种生产性能比较试验.中国饲料.2004,(13):18-20):10个紫花苜蓿品种,随机区组法设计田间试验,3次重复。第二年第一茬苜蓿鲜草(kg/hm2)数据SasData09c03.txt,试进行方差分析。单因素随机区组设计的方差分析/*SasProg09c03.Sas*/dataD09c03;
infile
'E:\sas\sasdata\sasdata09c03.txt';
dovariety=1
to
10;
inputalfalfa$@;
doblock=1
to
3;
inputx@@;
output;
end;
end;proc
anova;
classvarietyblock;
modelx=varietyblock;
meansvariety/duncan
alpha=0.05;run;10个试种苜蓿品种的鲜草产量最高的为“78”。其中“78”、中苜1号、内蒙古苜蓿3个品种与“意大利”之间差异显著。(原文有误:没有极显著差异)系统分组设计的方差分析单向分组设计,如果每组又分若干亚组,每个亚组内又有若干观察值,则为组内分亚组的单向分组设计,简称系统分组设计。系统分组设计可能组内分亚组,亚组内又分小组,如此分下去,形成巢式设计(Nesteddesign)试验。在这里,我们讨论二级分组且组内观察值数目相等资料的方差分析。
系统分组设计的方差分析二级系统分组试验设计示例09d00:组数为3,组内亚组数4,亚组内个体为3,试作试验设计。/*SasProg09d00.Sas*/proc
plan
seed=17431;
factorsgroup=3subgroup=4n=3;run;系统分组设计的方差分析示例09d01(南京农学院主编《田间试验和统计方法》102页):温室内以4种培养液培养某作物,每种3盆,每盆4株,1个月后测定其株高(mm),试作方差分析。培养液A1A2A3A4盆号A1B1A1B2A1B3A2B1A2B2A2B3A3B1A3B2A3B3A4B1A4B2A4B3生长量503545505555856570606065553540456045607070558565403040505065908070354585354050455055856570707575系统分组设计的方差分析/*SasProg09d01.sas*/datad09d01;
infile
'e:\sas\sasdata\sasdata09d01.txt';
doplant=1
to
4;
doa=1
to
4;
dob=1
to
3;
inputx@@;
output;
end;
end;
end;proc
anova;
classab;
modelx=ab(a);
test
h=ae=b(a);
meansa/duncan
e=b(a);run;Test语句指定以a变量为分子,b(a)为分母进行f检验。Means语句选项e=b(a)的作用也是指定多重比较时的误差效应项。SAS默认以残差(本例为盆内株间变异)均方作为误差项。系统分组设计的方差分析在进行组间F检验时,我国常用的方法和SAS默认方式公式不同,进而进行均数多数比较时,均数的标准误也不同。蒋忠民、张凤银在《SAS软件在生物统计应用中的问题探讨》(江汉大学学报.2000,17(6):87-89)一文指出:组间存在差异性的标准我国高于SAS,因此,对于一些重要事情的鉴定,最好采用我国的方法,但是如果组内亚组确定不是随机的,那么St2、Se12不是相互独立的,这时采用SAS软件的默认方法进行方差分析是比较确切的。系统分组设计的方差分析/*SasProg09d02.sas*/proc
glm
data=d09d01;
classab;
modelx=ab(a);
lsmeansa/pdiff
e=b(a)cl;run;Lsmeans语句执行最小二乘均数比较。选项pdiff,打印均数比较的显著性检验结果;选项e=,指定某一效应的均方作为t检验的分母。选项cl,打印最小二乘均数及其差数的置信区间。示例09d02:以Glm过程分析上例数据。系统分组设计的方差分析/*SasProg09d03.sas*/proc
mixed
data=d09d01;
classab;
modelx=ab(a)/ddfm=kr;
lsmeansa/pdiff;run;Model语句指明固定效应,而且依变量只能有一个。Random语句指定试验设计中的随机效应,可以是分类数据也可以是连续型数据,或者截距。其后可以用选项type=指明随机变量协方差矩阵的结构。示例09d03:以Mixed过程分析上例数据。系统分组设计的方差分析示例09d04(胡希远.不等重复系统分组试验设计分析.西北农林科技大学学报(自然科学版).2003,31(增刊):101-105):由于植株死亡或其他原因,出现数据缺失,形成非平衡资料,试进行方差分析。培养液A1A2A3A4盆号A1B1A1B2A1B3A2B1A2B2A2B3A3B1A3B2A3B3A4B1A4B2A4B3生长量503545505555856570606065553540456045607070558565403040506590703545854045505585707075系统分组设计的方差分析对重复数不等系统分组试验资料分析的最简单方法是采用每组平均值进行方差分析,这种分析方法就是所谓的普通最小二乘法(OLS)。由于每组重复数不同,每组均值的方差存在异质性,因此,这种方法仅是一种近似的方法。当数据不平衡性较小时,可以采用这种方法。另一个不同的分析方法就是采用加权最小二乘法(WLS),其权重因观测的方差和协方差而变化。对于组内有重复观测值的试验可以利用每组方差的倒数对其平均值予以权重处理。系统分组设计的方差分析/*SasProg09d04.sas*/datad09d04;
infile
'e:\sas\sasdata\sasdata09d04.txt';
inputplantabx@@;proc
mixed;
classab;
modelx=a/ddfm=kenwardroger;
randomb(a);
lsmeansa/pdiff
cl;run;双因素无重复设计的方差分析双因素方差分析(Two-wayANOVA)模型中,自变量有2个,依变量仍是1个。A因素有a个水平,B因素有b个水平,试验重复N次。N=1时,无重复观测值的两因素方差分析,不能分析因素间的交互作用(各因素具有独立性);N>1时,有重复观测值的两因素方差分析,可以考虑因素的交互作用。双因素无重复设计的方差分析示例09e01(李春喜,王文林等编著《生物统计学》93页):四川西部高山区林麝的种群密度在不同的海拔高度是不同的,推测影响其分布的因素可能是海拔高度或植被类型,调查林麝的种群数量(头/100km2)见下表。海拔(m)原生林次生乔木林次生灌木林人工林1000-15001259876561500-2000154139112672000-2500268225198942500-30001881058462双因素无重复设计的方差分析/*SasProg09e01.Sas*/DataD09e01;
infile
'E:\Sas\SasData\SasData09e01.txt';
dob=1
to
4;
doa=1
to
4;
inputx@@;
output;
end;
end;proc
anova;
classab;
modelx=ab;
meansab/duncan;run;双因素无重复设计的方差分析结果分析A因素代表植被间差异,F值15.31,p值0.0007,表明不同植被类型条件下林麝的种群数量差异极显著。B因素代表海拔间差异,F值14.93,p值0.0008,表明不同海拔条件下林麝的种群数量差异极显著。多重比较表明:林麝在不同植被类型间的分布有极显著的差异,按原生林、次生乔木林、次生灌木林、人工林顺序,种群极显著降低。在海拔高度上,明显集中分布于2000-2500m,其他海拔分布数量无显著差异。双因素无重复设计的方差分析示例09e02:一个随机抽样调查,得到四个工厂在四种改革方案中工人月收入状况。工厂方案1方案2方案3方案41146200148151215830328229034154614314134454452453415双因素无重复设计的方差分析/*SasProg09e02.Sas*/DataD09e02;
labela='改革方案'
b='工厂'
x='月收入';
inputabx@@;cards;11146212003114841151121582230332282422901341523461334314341314454244523445344415;proc
format;
valuebf1='工厂1'
2='工厂2'
3='工厂3'
4='工厂4';proc
anova;
classab;modelx=ab;meansab/duncan;
formatbbf.;run;双因素无重复设计的方差分析结果分析A因素代表改革方案,假设测验F值2.17,p值0.1616>0.05,说明各种改革方案,工人的月收没有差异。B因素代表不同工厂,假设测验F值63.98,p值<0.0001,表示不同工厂之间工人的月收不相等。析因设计的方差分析两因子之间的交互作用A×B,称为一级交互作用。今假定因子A分为a1、a2二个水平,因子B分为b1、b2、b3、b4四个水平。当A×B达显著时,表示a1下b1、b2、b3、b4之间的差异与a2下b1、b2、b3、b4之间的差异显著不同,这时须分别对a1、a2以下B之各水平差异显著性作出测验。当A×B不显著时,表示A、B彼此独立,即B之各水平差异的显著性,不会因A的水平变化而有异。析因设计的方差分析示例09f01(林德光.析因试验中交互作用分析的SAS技术.工科数学.2001,17(4):48-54):2×4析因设计以下是冯奇、万华于1998年所作华南热带农业大学英语教学方法的测评试验。因子、水平、测评人数如表。地区(A)专业(B)园林(b1)果树(b2)会计(b3)公关(b4)农村(a1)28282320城市(a2)9101418析因设计的方差分析/*SasProg09f01.Sas*/dataD09f01;
infile
'e:\sas\sasdata\sasdata09f01.txt';
inputabscore@@;proc
anova;
classab;
modelscore=aba*b;
meansaba*b/duncan
alpha=0.05;
meansaba*b/duncan
alpha=0.01;run;数据文件:SasData09f01.txt此处不仅要分析两个因素A、B各自的主效应,还分析两者的交互效应,因此Model语句的效应表达式为score=aba*b。也可以利用竖杠操作符“|”,将效应表达式写为score=a|b。析因设计的方差分析结果分析:主效应A不显著,表明四个专业,来自农村与来自城市学生的英语成绩,经过大学阶段的英语学习后,已不存在显著性的差异。主效应B极显著,表明不同专业之间的英语成绩存在极显著的差异。从均数多重比较可知,会计专业(b3)的成绩极显著低于其他三个专业的成绩,其他三个专业间的英语成绩差异不显著。这对深入探讨英语教学方法极有帮助。交互作用A×B显著,表明a1条件下b1、b2、b3、b4之间的成绩差异与a2条件下b1、b2、b3、b4之间的成绩差异显著不同。析因设计的方差分析示例09f02:将示例09f01资料SasData09f01.txt中城市学生的数据删去,建立SasData09f02,分析来自农村学生的英语成绩4个专业有无差异显著性。这是一个单因素方差分析问题,是前一个问题的分水平比较。这样做的原因是SAS没有提供对交互作用的多重比较。析因设计的方差分析/*SasProg09f02.Sas*/dataD09f02;
infile
'e:\sas\sasdata\sasdata09f02.txt';
inputabscore@@;proc
anova;
classb;
modelscore=b;
meansb/duncan
alpha=0.05;meansb/duncan
alpha=0.01;run;析因设计的方差分析结果分析来自农村学生的英语成绩,方差分析的F=6.99,P=0.0003,极显著。由均数的多重比较可知,b1与b2差异不显著,b3与b4也差异不显著,而b1、b2均显著高于b3、b4。这说明就农村学生而言,本科生英语成绩显著高于专科生英语成绩。同时还可见到,b3极显著低于b1、b2,即会计专科的英语成绩极显著低于两本科专业的英语成绩。析因设计的方差分析示例09f03:将示例09f01资料SasData09f01.txt中农村学生的数据删去,建立SasData09f03,分析来自城市学生的英语成绩4个专业有无差异显著性。这是也一个单因素方差分析问题,是前一个问题的分水平比较。析因设计的方差分析/*SasProg09f03.Sas*/dataD09f03;
infile
'e:\sas\sasdata\sasdata09f03.txt';
inputabscore@@;proc
anova;
classb;
modelscore=b;
meansb/duncan
alpha=0.05;
meansb/duncan
alpha=0.01;run;析因设计的方差分析结果分析由方差分析结果可知,F=3.88,P=0.0147,显著。由均数的多重比较可知,b1、b2、b3间差异不显著,而b4显著高于b2、b3,但与b1差异不显著。这说明,对城市学生而言,公关专科的英语成绩,比果树本科及会计专科的英语成绩均显著地高。析因设计的方差分析示例09f04:2×2析因设计(完全随机设计)20只神经损伤的家兔随机等分为5组,分别用2种神经缝合方法,在缝合后2个时间点观察神经的轴突通过率(%),试作统计分析。A(缝合方法)外膜缝合(a1)束膜缝合(a2)B(缝合后时间)1月(b1)2月(b2)1月(b1)2月(b2)1组103010502组103020503组407030704组506050605组10303030析因设计的方差分析/*SasProg09f04.Sas*/DataD09f04;
infile
'E:\Sas\SasData\SasData09f04.txt';
doa=1
to
2;
dob=1
to
2;
inputx@@;
output;
end;
end;proc
anova;
classab;
modelx=aba*b;run;析因设计的方差分析示例09f05:上例数据结构等同于下表。重新编程进行方差分析。重复a1a2b11101021020340304505051030b21305023050370704606053030析因设计的方差分析/*SasProg09f05.Sas*/DataD09f05;
infile
'E:\Sas\SasData\SasData09f05.txt';
dob=1
to
2;
doi=1
to
5;
doa=1
to
2;
inputx@@;
output;
end;
end;
end;proc
anova;
classab;
modelx=a|b;run;析因设计的方差分析示例09f06(西北农学院、华南农业大学主编《农业化学研究法》139页):2×2析因设计(随机区组设计)华北某地对玉米前期(拔节)、后期(抽雄)分别施氮素2.5kg和5kg以确定最经济有效的施肥时期与施肥量,产量结果(斤/小区)见下表。区组(重复)前期后期N2.5N5N2.5N5150605571259536065345585675452626278558654580析因设计的方差分析/*SasProg09f06.Sas*/DataD09f06;
doi=1
to
5;
doa=1
to
2;
dob=1
to
2;
inputx@@;
output;
end;
end;
end;cards;5060557159536065455856755262627858654580;proc
anova;
classabi;
modelx=aba*bi;
meansab/duncan;run;析因设计的方差分析结果分析施肥期因素(A)达到极显著差异。施肥量因素(B)达到极显著差异。施肥期与施肥量的交互作用差异不显著。区组(或重复)差异不显著。SAS无法进行交互项的多重比较。析因设计的方差分析示例09f07(林德光.析因试验中交互作用分析的SAS技术.工科数学.2001,17(4):48-54):
2×3×2析因设计马铃薯品种、栽期、栽量析因试验,采用重复三次的随机区组设计,小区面积为22.22m2。因子123品种(A)甲乙栽期(B)早中晚栽量(C)多少1甲早多7乙早多2甲早少8乙早少3甲中多9乙中多4甲中少10乙中少5甲晚多11乙晚多6甲晚少12乙晚少处理组合析因设计的方差分析重复处理组合123456789101112141342718139725039282917240322617127704929292414339302315105694327332611析因设计的方差分析/*SasProg09f07.Sas*/datad09f07;
infile
'e:\sas\sasdata\sasdata09f07.txt';
doblock=1
to
3;
doa=1
to
2;
dob=1
to
3;
doc=1
to
2;
inputy@@;
output;
end;
end;
end;
end;proc
anova;
classblockabc;
modely=blocka|b|c;
meansa|b|c/duncan
alpha=0.05;
meansa|b|c/duncan
alpha=0.01;run;析因设计的方差分析结果分析各主效应及交互作用均达极显著。如品种与栽期的交互作用(A×B),其处理组合为甲早(1)、甲中(2)、甲晚(3)、乙早(4)、乙中(5)、乙晚(6)共6个(必须注意,这里的处理1,等于原来12个处理组合的处理1与处理2之和;这里的处理2,等于原来12个处理组合的处理3与处理4之和,余类推)。需继续对A×B作分析。析因设计的方差分析/*SasProg09f08.Sas*/datad09f08;
infile
'e:\sas\sasdata\sasdata09f07.txt';
doblock=1
to
3;
dotreat=1
to
6;
doc=1
to
2;
inputy@@;
output;
end;
end;
end;proc
anova;
classblocktreat;
modely=blocktreat;
meanstreat/duncan
alpha=0.05;
meanstreat/duncan
alpha=0.01;run;结果表明:处理组合7(乙早多)最优,即“用品种乙、于早期播种、用栽量多”将获得最高产量。这与对各主效应及各一级交互作用的分析结果相合,因此可以断言,这也是最优处理组合。拉丁方设计的方差分析利用拉丁文安排试验的设计称为拉丁方设计(TheLatin-squaredesign)优点是可以大大减少试验次数,尤其适合动物实验和实验室研究。内容:拉丁方试验设计,示例09g00;拉丁方设计资料的方差分析,示例09g01。拉丁方设计的方差分析拉丁方试验设计示例09g00:试验处理数k=4,分别为0,100,200,300,在4个实验室(Lab),4天(Day)完成,试做拉丁方设计。拉丁方设计的方差分析/*SasProg09g00.Sas*/proc
plan
seed=33373;
factorsrows=4
orderedcols=4
ordered/noprint;
treatments
tmts=4
cyclic;
output
out=growscvals=('Day1'
'Day2'
'Day3'
'Day4')randomcolscvals=('Lab1'
'Lab2'
'Lab3'
'Lab4')random
tmts
nvals(0
100
200
300)random;run;PROC
TABULATE;
CLASSROWSCOLS;
VARTMTS;
TABLEROWSCOLS*(TMTS*F=6.)/RTS=8;RUN;拉丁方设计的方差分析示例09g01(李伟凯、蔡德利著《Foxpro数据库组织和统计分析》):有5个水稻品种作品种比较试验,设计5×5拉丁方试验,田间排列方式和产量结果见表,试作方差分析。123451D18.5A19.0C19.0B22.0E
19.02B24.0E20.0D18.0C16.0A17.53C13.5B16.0A
16.0E15.0D13.04E14.0D
18.5B21.5A19.0C20.55A17.0C15.0E13.5D15.0B20.5拉丁方设计的方差分析/*SasProg09g01.Sas*/DataD09g01;
infile
'E:\Sas\SasData\SasData09g01.txt';
dob=1
to
5;
doa=1
to
5;
inputscheme$x@@;
output;
end;
end;proc
anova;
classabscheme;
modelx=abscheme;
meansbscheme/duncan;run;拉丁方设计的方差分析结果分析横行区组间(B)达到极显著差异。处理间(Scheme)达到显著差异。纵行区组间(A)差异不显著。裂区设计的方差分析裂区试验(Thesplit-plotexperiment)的每个因素作用于不同级别的实验单位(或对象)。实验单位具有隶属关系,高级的实验单位包含低级实验单位。A因素的I个水平只作用于一级实验单位,B因素的J个水平作用于二级实验单位。裂区试验设计可根据一级实验单位是否可形成区组而采用完全随机设计或随机区组设计。裂区设计的方差分析裂区试验设计示例09h00:试作一裂区试验设计方案,区组数为3,因素A4水平,因素B2水平。
/*SasProg09h00.Sas*/proc
plan
seed=32767;
factorsblock=3
ordereda=4b=2;run;裂区设计的方差分析示例09h01:(南京农学院主编《田间试验和统计方法》176页):小麦中耕次数(A)与施肥量(B)试验,裂区设计,3次重复。小区计产(斤/300尺2),试作方差分析。主处理A副处理B区组I区组II区组IIIA1B1302832B2373231B3181417B4171615A2B1282925B2312829B3131310B4131212A3B1302726B2312831B3151411B4161513裂区设计的方差分析/*SasProg09h01.Sas*/dataD09h01;
infile
'e:\Sas\SasData\Sasdata09h01.txt';
doa=1
to
3;
dob=1
to
4;
doblock=1
to
3;
inputx@@;
output;
end;
end;
end;proc
anova;
classabblock;
modelx=blockabb(a)a*block;
test
h=ae=a*block;
test
h=blocke=a*block;
meansa/duncan
e=a*block;
meansb/duncan;run;本例主区部分a*block为误差项;副区部分a*b*block为误差项;误差方差相等是巧合。仍需对a、block作指定误差项的假设测验。裂区设计的方差分析三因素条裂区设计:设A,B,C三个因素,分别有a,b,c个水平,A,B两因素为主因素,C因素为副因素,重复q次。遵循重复、随机排列、局部控制3个基本原则,首先将试验地按肥力程度划分为等于重复次数的区组,将每一个区组划分为若干纵向小区,安排A因素的各个水平;再将每一区组划分为若干横向小区,安排B因素各个水平,然后在A因素的各个水平或B因素的各个水平中引进C因素,安排其各水平。这种试验设计方法叫三因素条裂区试验。这一新的试验设计既可全面实施三因素多水平构成的平衡处理组合,又能保证各因素有较大的试验面积,且便于试验实施的操作管理。裂区设计的方差分析示例09h02(李永慈,杨俊霞.三因素条裂区试验设计的统计分析和SAS实现.河北农业大学学报.1999,22(2):87-89):有一水稻栽培试验,设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北海货车上岗证理论模拟考试题库
- 2024年午托班学员心理健康辅导合同3篇
- 2025年汉中道路运输货运考试题库
- 《药品招商营销概论》课件
- 2024年版简易汽车租赁协议示例版
- 2024年度完成特定项目任务的员工劳动合同3篇
- 2024年版权许可合同模板:作品授权书
- 2024年土地流转合同书-土地复垦项目补充协议3篇
- 2024年度洗车店员工培训与晋升合同3篇
- 2024年型4000平方米厂房个人租赁合同3篇
- 中职学校专业建设指导委员会
- 培智信息技术教案
- 皖医大内科学习题及答案02呼吸系统疾病
- 2024年度医院内窥镜科述职报告课件
- 《关联翻译理论》课件
- 脱糖果汁的生产工艺优化
- 《非典型性心梗》课件
- 2024年中铁建公路运营有限公司招聘笔试参考题库含答案解析
- 奢侈品认知篇
- 2023年度武汉房地产市场报告2024.1.12
- dw网页设计知识点总结
评论
0/150
提交评论