![用SAS软件进行方差分析_第1页](http://file4.renrendoc.com/view/c2a28c0ce0b8ded1968a597409ca522a/c2a28c0ce0b8ded1968a597409ca522a1.gif)
![用SAS软件进行方差分析_第2页](http://file4.renrendoc.com/view/c2a28c0ce0b8ded1968a597409ca522a/c2a28c0ce0b8ded1968a597409ca522a2.gif)
![用SAS软件进行方差分析_第3页](http://file4.renrendoc.com/view/c2a28c0ce0b8ded1968a597409ca522a/c2a28c0ce0b8ded1968a597409ca522a3.gif)
![用SAS软件进行方差分析_第4页](http://file4.renrendoc.com/view/c2a28c0ce0b8ded1968a597409ca522a/c2a28c0ce0b8ded1968a597409ca522a4.gif)
![用SAS软件进行方差分析_第5页](http://file4.renrendoc.com/view/c2a28c0ce0b8ded1968a597409ca522a/c2a28c0ce0b8ded1968a597409ca522a5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
方差分析中的基本概念例5.1为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量。推断不同牌子的磨损量间有无显著性差异。牌子磨损量A2.22.12.42.5B2.22.32.42.6C2.22.01.92.1D2.42.72.62.7E2.32.52.32.4第1页/共189页第一页,共190页。方差分析中的基本概念(续1)方差分析研究分组变量对数值型变量的影响。分组变量称为因子,分组变量的每个取值称为因子的一个水平。只考虑一个因子的方差分析称单因子的方差分析,考虑两个因子的方差分析称两因子的方差分析。例题中牌子是分组变量,磨损量为数值型变量,牌子是因子,A、B、C、D和E是因子的五个水平,属于单因子的方差分析。研究牌子对磨损量的影响,即比较五种牌子的磨损量间有无显著性差异,将每个牌子的磨损量看做一个总体,本题比较五个独立总体的均值间有无显著性差异,是多总体均值相等的假设检验问题。第2页/共189页第二页,共190页。5.1.单因素方差分析1.数学模型设因子A有r个水平,在每个水平下进行m次试验,观测数据yij表示第i个水平下第j次试验的观测数据,i=1,2,…,r;j=1,2,…,m。
每个水平的数量指标是一个总体,如每个牌子的磨损量为一总体,每个水平下的所有试验数据构成来自该总体的一个样本,单因子的方差分析就是用r个样本来检验r个总体的均值是否相等。即H0:1=2=…=r,H1:1,2,…,r不全相等;第3页/共189页第三页,共190页。2.模型的假定条件单因子方差分析要求满足下面的假定条件:a)所有观测数据独立;(可直观判断)b)每个总体均服从正态分布;(需要正态性检验)c)所有总体的方差相等。(需要方差齐性检验)在以上假定条件下,可设第i个水平对应的总体服从正态分布,相应样本为。根据yij与总体同分布可设
yij=i+ij
,1≤i≤r
,1≤j≤m。其中i表示第i个总体的均值,ij为随机误差,服从正态分布。第4页/共189页第四页,共190页。3.方差分析表
方差分析将总波动分解成误差引起的波动和因子引起的波动,当因子引起的波动相对于误差引起的波动大时,说明因子是显著的,即因子对数量指标有显著性影响。总的偏差平方和,其中,它反映数据总的波动。因子A的偏差平方和其中。SST中第i个水平下的每个观测数据都用其样本均值替换得到SSM,因此SSM反映因子的不同引起的波动。误差的偏差平方和,它反映误差或其它随机因素引起的波动。第5页/共189页第五页,共190页。
在H0成立下可以证明:
SST=SSM+SSE,,为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子的均方和:误差的均方和:两均方和之比得检验统计量:
由检验统计量得概率p值,从而做出推断。第6页/共189页第六页,共190页。方差分析表来源平方自由度均方和F比因子SSMfA=r-1MSA=SSM/fA
F=(MSA/MSE)~F(fA,fe)误差SSEfe=n-rMSE=SSE/fe
总和SSTfT=n-1第7页/共189页第七页,共190页。4.方差分析的SAS编程第一步检验模型的假定条件条件1:观测数据的独立性可直观判断;条件2:各样本所来自总体的独立性用univariate过程+normal选项,并使用by语句来检验;程序如下:
procsortdata=数据集名;
by分组变量名;
run;procunivariatedata=数据集名normal;
by分组变量名;
var数值型变量名;
run;第8页/共189页第八页,共190页。
条件3:方差齐性,用anova过程中的means语句+hovest选项。程序如下:
procanovadata=数据集名;
class分组变量名;
model数值型变量名=分组变量名;
means分组变量名/hovest;/*或hovest=levene*/
run;第二步输出方差分析表上面的方差齐性程序就可产生方差分析表。根据表中的概率p值可作出推断。如果只需输出方差分析表,不要求检验方差相等,则上面的程序删去means过程,保留其它语句则可。
第9页/共189页第九页,共190页。5.多重t检验若方差分析的检验结果表明均值间有显著性差异,则可进一步检验哪些均值间有显著性差异,从而找到因子的最优水平。这就需要做多重t检验,它对其中任何两个总体均值都检验是否相等。实际上,多重t检验就是若干个两独立组的比较问题。多重t检验的程序如下:
procanovadata=数据集名;
class分组变量名;
model数值型变量名=分组变量名;
means分组变量名/t;/*对means语句+选项t*/
run;
第10页/共189页第十页,共190页。6.非参数检验当方差分析的正态性或方差齐性的假定条件不能满足时,使用kruskal-wallis非参数检验。程序如下:
procnpar1waydata=数据集名wilcoxon;
class分组变量名;
var数值型变量名;
run;程序和两独立组比较的一样,不过这时看kruskal-wallis检验,而不看wilcoxon秩和检验。第11页/共189页第十一页,共190页。7.单因子方差分析的应用举例例5.1为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量,数据如下,试用编程的方法推断不同牌子的磨损量间有无显著性差异。牌子磨损量A2.22.12.42.5B2.22.32.42.6C2.22.01.92.1D2.42.72.62.7E2.32.52.32.4第12页/共189页第十二页,共190页。5.2两因子方差分析
两因子的方差分析研究两个分类变量对一个数值型变量的影响。两因子的方差分析分为两类:无交互作用的和有交互作用的方差分析。设有两个分组变量即因子A和B,有一个数值型变量Y。
A:A1,
A2,…,Ar
,即A有r个水平
B:B1,B2,…,Bs
,即B有s个水平若Y仅受Ai和Bj各自的影响,与组合(Ai
,Bj
)无关,则称为无交互作用,否则称有交互作用。第13页/共189页第十三页,共190页。5.2.1无交互作用的方差分析(无重复试验的方差分析)1.模型的假定条件
设yij为组合(Ai
,Bj
)下的试验结果。模型的假定条件为
a)观测数据独立;
b)yij来自正态总体。含义:每种组合下的数量指标看成一个总体,假定总体均服从正态分布,且方差均相等。对每种组合下只做一次试验,故每个总体的样本容量都是1。由样本各分量均与总体同分布知:
从而可设yij=ij+ij
,ij
为总体均值,ij为随机误差,1≤i≤r
,1≤j≤s,ij服从正态分布。第14页/共189页第十四页,共190页。2.无交互作用的方差分析的数据模型为了便于描述引入一下定义:记
因子A的第i个水平效应因子B的第j个水平效应若,则称无交互作用;若,则称有交互作用。第15页/共189页第十五页,共190页。2.无交互作用的方差分析的数据模型下证:同理可证证:第16页/共189页第十六页,共190页。3.提假设方差分析的目的是检验所有总体均值是否相等,对于无交互作用的方差分析,有,故检验问题可转化为两个检验:H0A:1=2=…=r,H1A:1,2,…,r不全相等;H0B:β1=β2=…=βj,H1B:β1,β2,…,βj不全相等;第一个检验因子A对数量指标有无显著性影响,第二个检验因子B对数量指标有无显著性影响。而模型无显著效应(即接受原假设)是指以上两个假设的原假设同时成立。第17页/共189页第十七页,共190页。4.检验统计量平方和分解:总的偏差平方和
其中,它反映数据总的波动。因子A的偏差平方和其中。它反映因子A引起的波动。因子B的偏差平方和它反映因子B引起的波动。误差的偏差平方和,它反映误差或其它随机因素引起的波动。第18页/共189页第十八页,共190页。
在H0成立下可以证明:
SST=SSA+SSB+SSE,
为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子A的均方和:因子B的均方和:误差的均方和:
第19页/共189页第十九页,共190页。检验统计量
两均方和之比得检验统计量。因子A的检验统计量为
其中fA=r-1,fe=(r-1)(s-1).
因子B的检验统计量为
其中fB=s-1,fe=(r-1)(s-1).第20页/共189页第二十页,共190页。无交互作用的两因子方差分析表
来源平方自由度均方和F比
ASSAfA=r-1MSA=SSA/fAF=(MSA/MSE)~F(fA,fe)
BSSBfB=s-1MSA=SSB/fBF=(MSB/MSE)~F(fB,fe)
误差SSEfe=(r-1)(s-1)MSE=SSE/fe注:由方差分析表中的检验统计量计算出概率p值,由此作出推断。第21页/共189页第二十一页,共190页。5编程做无交互作用的两因子方差分析首先检验模型的假定条件条件1:观测数据独立,可直观判断;条件2:数据来自正态总体,且方差相等。由于每个总体仅有一个容量为1的样本,故该条件无法检验。
用anova过程编程做方差分析的推断,程序如下:
procanovadata=数据集名;
class分组变量名列表;/*如ab;*/model数值型变量名=分组变量名列表;/*如y=ab*/[means分组变量名列表/t;]/*该句要求做多重t检验*/run;第22页/共189页第二十二页,共190页。5.2.2有交互作用的多因素方差分析(有重复试验)1.数据模型设观测数据yijk为(Ai,Bj)组合下的第k次试验所得数值型变量y的观测值,i=1,2,…,r;j=1,2,…,s;k=1,2,…,t。采用以下的数据模型:yijk=+i+βj+ij+ijk,1≤i≤r,1≤j≤s,1≤k≤t其中表示平均的效应,i和βj分别表示因素A的第i个水平和因素B的第j个水平的效应,ij表示因素A的第i个水平和因素B的第j个水平的交互效应。ijk为随机误差,这里也假定它是独立的并且服从等方差的正态分布。
第23页/共189页第二十三页,共190页。2.要检验的假设
H0(A*B):ij=0,Hl(A*B):ij不全为零
H0A:1=2=…=r,H1A:1,2,…,r不全相等
H0B:β
1=β
2=…=β
S,H1B:β
1=β
2=…=βs
不全相等;其中(1≤i≤r,1≤j≤s)。三个假设分别用于检验搭配对数值型变量有无显著性影响,因子A对数值型变量有无显著性影响,因子B对数值型变量有无显著性影响。
第24页/共189页第二十四页,共190页。3.检验统计量在H0成立下可以证明:
SST=SSA+SSB+SSAB+SSE,
其中fe=rs(t-1),fAB=(r-1)(s-1)
第25页/共189页第二十五页,共190页。
第26页/共189页第二十六页,共190页。4.有交互作用的方差分析表
第27页/共189页第二十七页,共190页。5.编程实现有交互作用的两因子方差分析程序如下:
procanovadata=数据集名;
classAB;/*A和B分别是两个分组变量名*/modelY=ABA*B;/*Y为数值型变量*/[meansaba*b/t;]/*模型显著时means该语句用于多重t检验*/run;
第28页/共189页第二十八页,共190页。6两因子方差分析的应用举例
1)单因子的2)两因子的第29页/共189页第二十九页,共190页。有交互作用的双因素方差分析表见表5-3。表5-3有交互作用的双因素方差分析表
其中MSA=SSMA/(l–1),MSB=SSMB/(m–1),MS(A*B)=SSM(A*B)/(l–1)(m–1),MSE=SSE/lm(n–l)。利用表中的信息,就可以对各个因素间交互作用是否显著和每个因素各水平间的差异是否显著做出判断。来源Source自由度DF平方和SunofSquare平均平方和MeanSquareF统计量Fvaluep值Pr>F因素Al–1SSMASSMA/(l–1)MSA/MSEpA因素Bm–1SSMBSSMB/(m–1)MSB/MSEpBA*B(l–1)(m–1)SSM(A*B)SSM(A*B)/(l–1)(m–1)MS(A*B)/MSEp(A*B)随机误差lm(n–1)SSESSE/lm(n–l)全部lmn–1SSMA+SSMB+SSM(A*B)+SSE第30页/共189页第三十页,共190页。5.1.3方差分析中的基本假定方差分析中常用的基本假定是:●正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。●方差齐性:各总体的方差相同。●独立性:从每一总体中抽取的样本是相互独立的。在SAS中,正态性可用第3章介绍的方法来验证,也可通过本章介绍的“残差的正态性检验”来验证,方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。第31页/共189页第三十一页,共190页。5.2单因素方差分析的SAS实现5.2.1用INSIGHT作单因素方差分析5.2.2用“分析家”作单因素方差分析5.2.3用过程进行单因素方差分析第32页/共189页第三十二页,共190页。5.2.1用INSIGHT作单因素方差分析1.实例【例5-1】消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业各抽取5家企业,所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对总共20家企业投诉的次数,结果如表5-4。第33页/共189页第三十三页,共190页。表5-4消费者对四个行业的投诉次数通常,受到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异,即在方差分析中检验原假设:四个行业被投诉次数的均值相等。零售业旅游业航空公司家电制造业5768314466394951492921654045347744564058第34页/共189页第三十四页,共190页。2.分析步骤
1)将表5-4中数据整理成如图左所示结构的数据集,存放在Mylib.xfzts中;
2)在INSIGHT模块中打开数据集Mylib.xfzts;
3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中按图(右)选择分析变量;
4)单击“OK”按钮,得到分析结果。
第35页/共189页第三十五页,共190页。3.结果分析第一张表提供拟合模型的一般信息:
第二张表为列名型变量信息,即HANGYE为列名型的,有4个水平;第三张表提供参数信息,并且约定,P_2、P_3、P_4、P_5分别为航空、家电、零售和旅游4个行业的标识变量(也称哑变量)。如下图所示。
第36页/共189页第三十六页,共190页。
第四张表给出响应变量均值关于自变量不同水平的模型方程,如图5-6所示。其中,标识变量取值:第37页/共189页第三十七页,共190页。
第五张表(图5-7)给出模型拟合的汇总信息,其中:R-Square(R2)是判定系数(coefficientofdetermination),阐明了自变量所能描述的变化(模型平方和)在全部变差平方和中的比例,它的值总在0和1之间,其值越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。AajR-Sq(校正R2)是类似于R2的,但它随模型中的参数的个数而修正。第38页/共189页第三十八页,共190页。
第六张为方差分析表,如图5-8所示,其中各项含义可参见表5-1的说明。从方差分析表可以看出,p值小于0.05(显著水平),所以拒绝原假设,即不同行业的消费者投诉次数有显著差异。第七张表提供III型检验,它是方差分析表的细化,给出了各因素的平方和及F统计量,因为本例是单因素的,所以这一行与图5-8的“Model”一行相同。如图5-9所示。第39页/共189页第三十九页,共190页。
第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验:
1)根据标识变量的定义,Intercept后的估计47.4是对应于旅游业投诉次数的均值,其后的t检验是检验这一均值是否为0。这里p值<0.0001<0.05=α,故显著非0。
2)航空后的估计-12.4是航空业与旅游业投诉次数均值之差的估计值,其后的t检验也是检验这两个投诉次数均值之差是否为0。由于p值的绝对值为0.1313>0.05,所以航空业与旅游业的被投诉次数没有显著差异的。其它分析类似。第40页/共189页第四十页,共190页。4.检验模型假定为了验证残差为正态分布的假定,回到数据窗口。可以看到R_TOUSU(残差)和P_TOUSU(预测值)已加到数据集之中,下面用Distribufion(Y)来验证残差的正态性。
1)选择菜单“Analyze”→“Distribution(Y)”;
2)在打开的“Distribution(Y)”对话框中选定分析变量:R_TOUSU;单击“OK”按钮;第41页/共189页第四十一页,共190页。3)选择菜单“Curves”→“TestforDistribution”;在打开的“TestforDistribution”对话框中直接单击“OK”按钮。在检验结果的“TestforDistribution”表中看到,p值大于0.05,不能拒绝原假设,表明可以认为残差是正态分布的(图5-12)。第42页/共189页第四十二页,共190页。5.2.2用“分析家”作单因素方差分析1.分析步骤
1)在“分析家”中,打开数据集Mylib.xfzts;
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“One-WayANOVA(单因素方差分析)”,打开“One-WayANOVA”对话框;第43页/共189页第四十三页,共190页。3)选中分类变量HANGYE,单击“Independent”按钮,将其移到“Independent(自变量)”框中;选中数值变量TOUSU,单击按钮“Dependent”,将其移到“Dependent(因变量)”框中,如图5-13所示;第44页/共189页第四十四页,共190页。4)为了检验方差分析中关于方差齐性的假定,单击“Tests”按钮,打开“One-WayANOVA:Tests”对话框,选中“Testsforequalvariance”栏下的“levene'stest”复选框(常用),如图左,单击“OK”按钮返回;
5)单击“Plots”按钮,打开“One-WayANOVA:Plots”对话框,可以选择图形类型,如选中“Typesofplots”栏下的“Box-&-whiskerplot”复选框,如图右,单击“OK”按钮返回;再次单击“OK”按钮。
第45页/共189页第四十五页,共190页。2.结果分析在显示的结果中,提供了自变量的各个水平和单因素方差分析表。
结果分为五个部分,第一部分(下图左)是因素水平的信息,可以看到只有一个因素HANGYE,它的4个水平分别是航空、家电、零售、旅游,共有20个观测。第46页/共189页第四十六页,共190页。
第二部分就是经典的方差分析表。由于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方R2,代表总变差中能被模型解释的比例,第二个是指标的变异系数,第三个是根均方误差,第四个是均值。第四部分是方差分析表的细化,给出了各因素的平方和及F统计量,因为是单因素所以这一行与上面的“Model(模型)”一行相同。第47页/共189页第四十七页,共190页。
第五部分是对方差齐性的假定检验的结果,如图5-16所示。结果表明使用Levene's检验法的p值为0.6357,所以不同水平下观测结果的方差无显著差异。第48页/共189页第四十八页,共190页。
在分析家窗口的项目管理器中双击“BoxplotofTOUSYbyHANGYE”选项,得到响应变量关于自变量各水平的盒形图如图5-17所示。图中从左到右依次为航空、家电、零售、旅游等水平的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。第49页/共189页第四十九页,共190页。5.2.3用过程进行单因素方差分析1.ANOVA过程和GLM过程的简介
(1)ANOVA过程
ANOVA过程的一般格式包含许多选项,其中最为常用的为如下格式:PROCANOVADATA=<数据集>;CLASS<自变量列表>;
MODEL<因变量名>=<自变量表达式>[/<选项列表>];
MEANS<自变量表达式>[/<选项>];RUN;第50页/共189页第五十页,共190页。
其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前;
MODEL语句给出模型表达式,可以用来表示三种不同的效应模型:
1)主效应模型:y=abc2)交互效应模型:y=abca*ba*cb*ca*b*c3)嵌套效应模型:y=abc(ab)
同一MODEL语句中三种效应可以混合使用。
MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值、标准差,并进行组间的多重比较。第51页/共189页第五十一页,共190页。(2)GLM过程PROCGLMDATA=<数据集>[ALPHA=<p>];CLASS<自变量列表>;
MODEL<因变量名>=<自变量表达式>[/<选项列表>];
MEANS<自变量表达式>[/<选项>];RUN;
一般地,ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中,其用法和功能也都是基本相同的。第52页/共189页第五十二页,共190页。2.使用ANOVA过程作单因素方差分析使用ANOVA过程对例5-1作方差分析的方法:procanovadata=Mylib.xfzts;
classhangye;modeltousu=hangye;run;
分析结果与“分析家”相同。第53页/共189页第五十三页,共190页。3.使用GLM过程作单因素方差分析使用GLM过程对例5-1作方差分析的方法:procGLMdata=Mylib.xfzts;classhangye;modeltousu=hangye;run;
分析结果与“分析家”相同。第54页/共189页第五十四页,共190页。5.3双因素方差分析5.3.1用INSIGHT作双因素方差分析5.3.2用“分析家”作双因素方差分析5.3.3用GLM过程进行双因素方差分析第55页/共189页第五十五页,共190页。5.3.1用INSIGHT作双因素方差分析1.不存在交互作用的双因素方差分析【例5-2】为了提高一种橡胶的定强,考虑三种不同的促进剂(因素A)、四种不同分量的氧化锌(因素B)对定强的影响,对配方的每种组合重复试验两次,总共试验了24次,得到表5-5的结果。表5-5橡胶配方试验数据A:促进剂B:氧化锌1234131,3334,3635,3639,38233,3436,3737,3938,41335,3737,3839,4042,44第56页/共189页第五十六页,共190页。要用方差分析将不同促进剂和不同份量氧化锌的影响区分开来。即检验:
H0A:不同促进剂对定强无影响,H1A:不同促进剂对定强有显著影响
H0B:氧化锌的不同分量对定强无影响,H1B:氧化剂的不同分量对定强有显著影响第57页/共189页第五十七页,共190页。(1)分析设置
1)将表5-5中数据整理成如图5-18左所示结构的数据集,存放在Mylib.xjpf中;
第58页/共189页第五十八页,共190页。2)在INSIGHT模块中打开数据集Mylib.xjpf。由于在Insight中,要求方差分析中的自变量必须是列名型的,故先把变量a和b的测量水平由区间型改为列名型;3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中选择数值型变量作因变量,分类型变量作自变量:选择变量stren,单击“Y”按钮,选择变量a和b,单击“X”按钮,分别将变量移到列表框中,如图5-18右所示;单击“OK”,得到分析结果。第59页/共189页第五十九页,共190页。(2)分析结果
1)第一张表提供了模型的一般信息;第二张表列举了作为分类变量的a和b的水平的信息;第三张参数信息表给出了标识变量P_i的定义;
其中,标识变量取值:
第60页/共189页第六十页,共190页。2)第四张表给出了方差分析模型,利用参数信息表中标识变量的定义可以推算出在各个因素不同水平下变量stren均值的信息;第五张拟合汇总表中给出变量stren的均值为37.0417,判定系数R2为0.8945等,如图5-20;图5-20多因素方差分析第4、5张表第61页/共189页第六十一页,共190页。3)在第六张方差分析表中,检验模型显著性的F统计量为30.53,相应的p值小于0.05=,所以拒绝a和b对分析变量stren无显著影响的假设,即模型是显著的;
在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的,这时就需要用到第七张表提供的信息。在III型检验表中,进一步将模型平方和分解为属于a和b的平方和。在这里两个因素的p值都小于0.05,再一次说明了这两个因素对分析变量stren都有显著影响,如图5-21。
第62页/共189页第六十二页,共190页。4)第八张是模型的参数估计表(图5-22),参数估计表也是根据标识变量的定义,对参数或对各因素不同水平下的参数之差进行估计和检验。可以根据t统计量的p值来检验不同水平下均值是否有显著差异。图5-22多因素方差分析第8张表第63页/共189页第六十三页,共190页。
模型方程提供了各个因素不同水平下变量stren均值的信息,利用参数信息表中标识变量P_j的定义可以推算出:参数估计表根据标识变量的定义,对参数或不同水平下参数之差进行估计和检验。如第一行是对a=3,b=4水平下均值的估计和检验,第二行是a=1,b=4水平下的均值与a=3,b=4水平下均值之差的估计与检验。结果表明两个因素的各水平下的均值都有显著差异。第64页/共189页第六十四页,共190页。5)考察模型假定:在显示窗的底部有一个残差和预测值的散点图(如图5-23所示),可以像单因素分析一样考察残差分布的正态性假定。第65页/共189页第六十五页,共190页。2.存在交互作用的双因素方差分析【例5-3】考虑合成纤维收缩率(因素A)和总拉伸倍数(因素B)对纤维弹性y的影响。收缩率取4个水平:A1=0,A2=4,A3=8,A4=12;因素B也取4个水平:B1=460,B2=520,B3=580,B4=640。在每个组合AiBj下重复做二次试验,弹性数据如表5-6所示。表5-6合成纤维收缩率和总拉伸倍数对纤维弹性的影响A:收缩率B:拉伸倍数460520580640071,7372,7375,7377,75473,7576,7478,7774,74876,7379,7774,7574,731275,7373,7270,7169,69第66页/共189页第六十六页,共190页。
考虑如下问题:
1)收缩率(因素A)、拉伸倍数(因素B)对弹性y有无显著性影响?2)因素A和因素B是否有交互作用?3)使纤维弹性达到最大的生产条件是什么?
要用方差分析将不同收缩率和不同拉伸倍数的影响区分开来。即检验:
H0A:不同收缩率对弹性无影响,H1A:不同收缩率对弹性有显著影响
H0B:不同拉伸倍数对弹性无影响,H1B:不同拉伸倍数对弹性有显著影响第67页/共189页第六十七页,共190页。(1)分析设置
1)将表5-6中数据整理成如图所示结构的数据集,存放在Mylib.xwtx中;
2)在INSIGHT模块中打开数据集Mylib.xwtx。由于在Insight中,要求方差分析中的自变量必须是列名型的,故先把变量a和b的测量水平由区间型改为列名型;第68页/共189页第六十八页,共190页。3)选择菜单“Analyze(分析)”→“Fit(拟合)”,在打开的“Fit(XY)”对话框中选择数值型变量作因变量,分类型变量作自变量,如图所示。
图5-24数据集xwtx与分析变量的选择为了考虑变量a和b的交互作用,同时选上a、b,然后单击“Cross”按钮,注意到在右框中多了a*b一行,如图5-24右所示。
4)单击“OK”按钮,得到分析结果。第69页/共189页第六十九页,共190页。(2)分析结果
1)在参数信息表中较无交互作用的情形多了表示两个因素各个水平组合下的标识变量,而在模型方程表中也就多了许多的参数,如图5-25所示;图5-25多因素方差分析的前5张表
第70页/共189页第七十页,共190页。2)在方差分析表中,检验模型显著性的F统计量为7.87,相应的p值为0.0001<0.05,所以模型的效应是显著的;
3)在Ⅲ型检验表中,将模型平方和分解为两个因素和它们的交互作用,表中看出,检验b变量效应的p值为0.1363>0.05,所以从总体上看b变量的效应不显著;检验a变量效应的p值为<0.0001<0.05,所以变量a的效应是显著的;检验两者交互作用的p值为0.0006<0.05,所以交互作用的影响也是显著的,如图5-27。第71页/共189页第七十一页,共190页。4)在模型方程(图5-25中)和参数估计表(图5-28)中也提供了双因素不同水平组合下因变量y均值的估计和比较的信息。因为这里是考虑存在交互作用的情形,所以较为复杂一些。第72页/共189页第七十二页,共190页。5.3.2用“分析家”作双因素方差分析1.不存在交互作用的双因素方差分析下面介绍在“分析家”中对例5-2作方差分析:
1)在“分析家”中,打开数据集Mylib.xjpf;
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“FactorialANOVA(因素方差分析)”,打开“FactorialANOVA”对话框(如图5-29);第73页/共189页第七十三页,共190页。
若要得到用图形表示的两个因素不同水平下均值和标准差的信息,可以单击“Plots”按钮,在打开的“FactorialANOVA:Plots”对话框中,选中“Meansplots”栏下的“PlotsDependentMeansforMainEffects(作主效应响应均值图)”。
第74页/共189页第七十四页,共190页。4)分析结果如图5-30所示,其中内容前面已讲,这里不再赘述。图5-30无交互作用的多因素方差分析第75页/共189页第七十五页,共190页。5)在分析家窗口的项目管理器中依次双击“MeansPlots”下的两个选项,得到响应变量关于自变量a、b的均值图如图5-31所示。
图5-31响应变量关于自变量a、b的均值图图中描述了变量a、b不同水平下的均值和标准差的图形,从中可以对不同水平下均值的差异有一个直观的了解。
第76页/共189页第七十六页,共190页。2.存在交互作用的双因素方差分析下面介绍在“分析家”中对例5-3合成纤维的试验数据作方差分析。分析步骤如下:
1)在“分析家”中,打开数据集Mylib.xwtx;
2)选择菜单“Statistics”→“ANOVA”→“FactorialANOVA”,打开“FactorialANOVA”对话框,按图选择参数与图形;第77页/共189页第七十七页,共190页。
输出的方差分析表给出双因素考虑交互作用的方差分析模型是显著的(F=7.87,p=0.0001),最下面一张表给出两个因素和交互作用的检验结果。由最后一列“Pr>F”的三个p值可以看出因素A及因素A与B的交互作用(A*B)对指标y的影响是高度显著的,而因素B在
=0.05的水平上对指标y的影响是不显著(p=0.1363>0.05)。第78页/共189页第七十八页,共190页。
在分析家窗口的项目管理器中依次双击选项“MeansPlotofybyaandb”,得到双因素不同水平下因变量均值差异的连线图如图5-35所示。直观地可以看出使纤维弹性达最大的最佳生产条件是A3和B2;其次是A2和B3。第79页/共189页第七十九页,共190页。5.3.3用GLM过程进行双因素方差分析1.不考虑交互作用过程GLM也可用于多因素方差分析,其用法与单因素方差分析是相同的,只需要在class语句和model语句中分别填入表示因素的多个自变量。以数据集Mylib.xjpf为例,为了比较变量a和b不同水平下因变量stren均值的差异,可使用以下程序:procglmdata=Mylib.xjpf;classab;modelstren=ab;run;第80页/共189页第八十页,共190页。
提交上述程序后得到与上一节使用“分析家”有相似的结果,如图5-36所示。有关的说明请参见上节的解释。第81页/共189页第八十一页,共190页。2.考虑交互作用使用过程GLM于多因素方差分析时,若要考虑交互作用只需要在model语句中增加相应的交互作用项即可。以数据集Mylib.xjpf为例,为了比较变量a和b不同水平组合下变量stren均值的差异,可使用以下的程序:procglmdata=Mylib.xjpf;classab;modelstren=aba*b;run;
这里model语句中a*b就是指明要考虑交互作用。第82页/共189页第八十二页,共190页。提交这一程序后的输出如图5-37所示。图5-37使用GLM过程作有交互作用的多因素方差分析第83页/共189页第八十三页,共190页。5.4均值估计与多重比较5.4.1概述5.4.2用“分析家”进行均值比较第84页/共189页第八十四页,共190页。5.4.1概述在方差分析中,不论是单因素或多因素的实验结果,都是检验关于参数的一个整体的假设。若原假设被拒绝,表明某个因素各个水平下的响应有显著差异或因素间存在交互影响,但并不了解某两个水平下响应是否有差异。所以在方差分析后,还常需要对各水平下响应变量的均值进行估计和比较。第85页/共189页第八十五页,共190页。5.4.2用“分析家”进行均值比较1.对于单因素方差分析的均值比较下面介绍在“分析家”中对例5-1作均值比较。(1)分析设置
1)在“分析家”中,打开数据集Mylib.xfzts;2)选择菜单“Statistics”→“ANOVA”→“One-WayANOVA”,打开“One-WayANOVA”对话框,按图所示设置;第86页/共189页第八十六页,共190页。3)单击“Means(均值)”按钮,在打开的“One-WayANOVA:Means”对话框中选中“Comparisons(比较)”选项卡。按图设置。第87页/共189页第八十七页,共190页。(2)分析结果
1)使用Tukey'sHSD检验法的结果,如图5-39所示。图5-39Duncan'sMultipleRange检验法它先提示这一检验法是控制整体的第一类错误的,但它的第二类错误一般比REGWQ方法要高。第88页/共189页第八十八页,共190页。
然后指出根据所用的方法,两个均值间显著差异最小值为20.362,即不同水平间均值之差超过20.362,就表明这两个水平下的均值是有显著差异的。最后,不同水平下响应变量的均值自大至小排成一列,无显著效应的水平在左侧用同一字母标出。例如,航空业与旅游业、零售业无显著差异,与家电制造业有显著差异,家电制造业与零售业、旅游业无显著差异,等等。第89页/共189页第八十九页,共190页。2)使用Dunnett'st-test检验法的结果,如图所示。图5-40Dunnett'st-test检验法用这一方法给出t的临界值为2.34654,两个均值间显著差异最小值为18.297。以下显示成组比较的结果,凡是达到0.08显著性水平的则在最右边一栏加标三个星号***。可以看出,家电制造业与航空业有显著差异。其他行业之间均无显著差异。第90页/共189页第九十页,共190页。3)使用Fisher最小显著差异(LSD)检验法的结果,如图所示。图5-41Fisher最小显著差异(LSD)检验法用这一方法给出t的临界值为1.86928,两个均值间显著差异最小值为14.576。以下显示成组比较的结果,可以看出,航空业与旅游业无显著差异,与其他行业均有显著差异。其他行业之间均无显著差异。第91页/共189页第九十一页,共190页。2.对于多因素方差分析的均值比较下面介绍在“分析家”中对例5-3合成纤维的试验数据作均值比较。(1)分析设置
1)在“分析家”中,打开数据集Mylib.xwtx;
2)选择菜单“Statistics(统计)”→“ANOVA(方差分析)”→“FactorialANOVA(因素方差分析)”,打开“FactorialANOVA”对话框;
3)选中变量a、b,单击“Independent(自变量)”按钮,将其移到“Independent”框中;选中变量y,单击按钮“Dependent(因变量)”,将其移到“Dependent”框中;第92页/共189页第九十二页,共190页。4)考虑因素间的交互作用:单击“Model”按钮,打开“FactorialANOVAModel”对话框。单击“StandardModels”按钮,在弹出的菜单中选择“Effectsupto2-wavinteractions”项,表示交互作用的a*b加入了模型效应栏,单击“OK”按钮返回;图5-42设置模型和均值参数第93页/共189页第九十三页,共190页。5)单击“Means(均值)”按钮,在打开的“One-WayANOVA:Means”对话框中选中“Comparisons(比较)”选项卡。在“Comparisonmethod”下拉列表中选择比较法Fisher'sLSD,在“Maineffects(主效应)”栏中选择变量a、b,单击“Add”按钮,加到主效应框中。再在“Comparisonmethod”下拉列表中选择比较法Tuck'sHSD,在“Maineffects(主效应)”栏中选择变量a,单击“Add”按钮,加到主效应框中,如图5-42;单击“OK”,返回,再单击“OK”得到分析结果。第94页/共189页第九十四页,共190页。(2)分析结果在显示方差分析结果的后面,有关于均值比较的三张表,如图5-43、4-44所示。用Fisher最小显著差异检验的结果表明(图5-43),收缩率为4和8之间无显著差异,而另两个收缩率有显著差异。拉伸倍数520和640之间有显著差异,其余无显著差异。第95页/共189页第九十五页,共190页。图5-43Fisher最小显著差异检验第96页/共189页第九十六页,共190页。
用Tucky诚实显著差异检验对收缩率的比较结果表明(图5-44),收缩率12与其他收缩率之间有显著差异。与Fisher最小显著差异法的区别在于临界点,前者为1.6583,后者为1.2287。第97页/共189页第九十七页,共190页。第六章主成分分析与因子分析6.1主成分分析6.2因子分析第98页/共189页第九十八页,共190页。6.1主成分分析6.1.1主成分分析的概念与步骤6.1.2使用INSIGHT模块作主成分分析6.1.3使用“分析家”作主成分分析6.1.4使用PRINCOMP过程进行主成分分析第99页/共189页第九十九页,共190页。6.1.1主成分分析的概念与步骤1.主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?第100页/共189页第一百页,共190页。
在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0。称F2为第二主成分,依此类推可以构造出第三、第四、…、第p个主成分。第101页/共189页第一百零一页,共190页。2.主成分分析的数学模型设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,…,Xp,得到原始数据资料阵:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。第102页/共189页第一百零二页,共190页。
用数据矩阵X的p个列向量(即p个指标向量)X1,X2,…,Xp作线性组合,得综合指标向量:简写成:Fi=a1iX1+ai2X2+…+apiXp
i=1,2,…,p第103页/共189页第一百零三页,共190页。
为了加以限制,对组合系数ai'=(a1i,a2i,…,api)作如下要求:即:ai为单位向量:ai'ai=1,且由下列原则决定:
1)Fi与Fj(ij,i,j=1,…,p)互不相关,即Cov(Fi,Fj)=ai'ai=0,其中Σ是X的协方差阵。
2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'
F2是与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。第104页/共189页第一百零四页,共190页。
满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai'=(a1i,a2i,…,api)就是相应特征值i所对应的单位特征向量ti。方差的贡献率为,i越大,说明相应的主成分反映综合信息的能力越强。第105页/共189页第一百零五页,共190页。3.主成分分析的步骤(1)计算协方差矩阵计算样品数据的协方差矩阵:Σ=(sij)pp,其中
i,j=1,2,…,p(2)求出Σ的特征值及相应的特征向量求出协方差矩阵Σ的特征值12…p>0及相应的正交化单位特征向量:则X的第i个主成分为Fi=ai'X
i=1,2,…,p。第106页/共189页第一百零六页,共190页。(3)选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。第107页/共189页第一百零七页,共190页。(4)计算主成分得分计算n个样品在m个主成分上的得分:
i=1,2,…,m(5)标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中,,j=1,2,…,p。标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。第108页/共189页第一百零八页,共190页。
标准化后变量的协方差矩阵(CovarianceMatrix)Σ=(sij)pp,即原变量的相关系数矩阵(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p
此时n个样品在m个主成分上的得分应为:Fj=a1jX1*+a2jX2*+...+apjXp*
j=1,2,…,m第109页/共189页第一百零九页,共190页。6.1.2使用INSIGHT模块作主成分分析【例6-1】全国沿海10个省市经济指标的主成分分析表6-1全国沿海10个省市经济综合指标假设表6-1中数据已经存放在数据集Mylib.jjzb中,试对各地区的经济发展水平进行主成分分析。地区GDPx1人均GDPx2工业增加值x3第三产业增加值x4固定资产投资x5基本建设投资x6社会消费品零售总额x7海关出口总额x8地方财政收入x9辽宁5458.2130001376.22258.41315.95292258.4123.7399.7山东10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江苏10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9广东11769.7150304224.64793.63022.91275.55013.61843.71201.6广西2455.45062367995.7542.2352.71025.515.1186.7第110页/共189页第一百一十页,共190页。1.使用INSIGHT模块做主成分分析的步骤使用INSIGHT模块做主成分分析的步骤如下:
1)在INSIGHT模块中打开数据集Mylib.jjzb;选择菜单“Analyze”“Multivariate(YX)(多元分析)”,打开“Multivariate(YX)”对话框;
2)将做主成分分析的变量x1~x9选为Y变量,将变量diqu选为Label变量,如图所示。第111页/共189页第一百一十一页,共190页。图6-1多元分析对话框
3)单击“Method”按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量,单击“OK”按钮返回。第112页/共189页第一百一十二页,共190页。4)单击“Output”按钮,在打开的对话框(图左)中包括“DescriptiveStatistics”选项、“BivariatePlots”选项以及各种多元分析的选项。选中“PrincipalComponentAnalysis”复选框,单击下面的“PrincipalComponentOptions”按钮,打开“PrincipalComponentOptions”对话框,选中“Eigenvectors”复选框,取消“Correlations(Structure)”复选框,如图右所示。
第113页/共189页第一百一十三页,共190页。2.主成分的结果分析输出的数字分析结果有4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。第114页/共189页第一百一十四页,共190页。3)图6-5给出相关系数矩阵的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以及累积贡献率(Cumulative)。
相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为80.11%,前两个主成分的累积贡献率已达92.33%,因此,只需用前面2个主成分就可以概括这组数据。
第115页/共189页第一百一十五页,共190页。4)图6-6给出相关系数矩阵的两个最大特征值的特征向量,据此可以写出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆大学《事故分析与应急技术》2023-2024学年第二学期期末试卷
- 浙江宇翔职业技术学院《虚拟专用网络》2023-2024学年第二学期期末试卷
- 新疆机电职业技术学院《单片机原理及应用》2023-2024学年第二学期期末试卷
- 山西警官职业学院《基础医学创新实验(1)》2023-2024学年第二学期期末试卷
- 秦皇岛工业职业技术学院《舞台语言技巧》2023-2024学年第二学期期末试卷
- 河南2025年河南职业技术学院招聘30人笔试历年参考题库附带答案详解
- 兰考三农职业学院《物理化学B(医学)》2023-2024学年第二学期期末试卷
- 国培研修工作要点计划月历表(31篇)
- 成都银杏酒店管理学院《机械制造基础》2023-2024学年第二学期期末试卷
- 人工智能+消费数据隐私与安全保障措施
- 现代通信原理与技术(第五版)PPT全套完整教学课件
- 社区获得性肺炎教学查房
- 病例展示(皮肤科)
- GB/T 39750-2021光伏发电系统直流电弧保护技术要求
- DB31T 685-2019 养老机构设施与服务要求
- 燕子山风电场项目安全预评价报告
- 高一英语课本必修1各单元重点短语
- 糖尿病运动指导课件
- 完整版金属学与热处理课件
- T∕CSTM 00640-2022 烤炉用耐高温粉末涂料
- 心脑血管病的危害教学课件
评论
0/150
提交评论