一般线性模型统计程序概述_第1页
一般线性模型统计程序概述_第2页
一般线性模型统计程序概述_第3页
一般线性模型统计程序概述_第4页
一般线性模型统计程序概述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第31章一般线性模型统计程序PROC PROCGLM程序概 统计模 如何撰写PROCGLM程 用PROCGLM执行回归分 用PROCGLM执行单变量变异数分 用PROCGLM程序执行多变量变异数分 注意事 第32章离差平方和(SS)的四种类型及其函 四类型的SS是什 在变异数分析里哪些线性函数是可估计 第六部一般线性模型与四型离差31章一般线性模型统计程序PROCPROCGLM程序GLM是一般线性模型(GeneralLinearModel)的简称其推算参数的理论基础是最小误差平方法(TheLeastSquaresMethod)最适用于不平衡的实验设计亦即各组(或各细格)的观察体个数不等若你的实验是一个平衡的实验设计则你应该用ANOVA程序(见第26章)来执行变异数分析以节省计算的时间与电脑的空间PROCGLM可以被应用在多种不同的统计分析上如共变量分析 ysisof重复观察的变异数分析(又称Split-PlotFactorial(Weighted本章的重点在于介绍PROCGLM内有关变异数分析的指令(亦即上述a到d的用法)至于GLM程序在回归分析上的应用上述e到j的用途则与PROCREG的基本语法类似请参阅第18章的内容或本章第31.4节2626.226.3节PROCGLM若以ABC等字母代表实验设计的自变量Y代表因变量 X1X2与X3代表连续变量则PROCGLM可处理的几种变异数分析之模型及其SAS指令如下 SAS指一因子的变异数分析MODELY MODELY=AB MODELY=AB MODELY=B(A)C(B极多变量变异数分析MODELY1Y2=A MODELY=A MODELY=A NODELY=AX1如何撰写PROCGLM程PROCGLM含十七道指令其中只有PROCGLM和MODEL是必要的不可省略其他十五道指令则可有可无但当实验设计内含一个以上的自变量时读者必须用CLASS指令标明下面请读者特别注意各指令出现的次序PROC 因变量串=PROC 因变量串=实验效果/选项串 效果名称串/选项串CONTRAST比较式的名字'各组效果的系数/选ESTIMATE'估计值的名字'各组效果的LSMEANS/选项串MANOVAH=效果名称E=效果名M=变量的转换PREFIX=新变量的名称代 效果名称串/选项串REPEATED重复变量的名称串组数(组名)/选项 H=效果名称E=效果名称/选项串 必须放在MODEL指令之后必须放在MODEL指令之后一处RUN指令之前PROCGLMPROC 界定一个输出资料文件使其包含预测值与预 检定某些实验效果时界定检定的分子 将资料文件分成几个部分分别对其执行统 与FREQ作用类似旨在标明数据的#1PROCGLM指明对那一个SAS资料文件执行分析若省略此选项则SAS会自动找出在此程序前最后形成的SAS资料文件并对它执行分析ORDER=FREQ或ORDER=DATA或ORDERINTERNAL或(界定自变量内组别的次序这个选项和CONTRAST及ESTIMATE指令是息息ORDER=FREQ时观察体个数最多的那一组就是第一组以下类推ORDER=DATA时组别是按照输入资料文件中各组第一次出现的次序而决当ORDER=INTERNAL时组别按其代号由小到大(如1 等)排列或按各组名称的英文字母顺序排列(如FEMALE在MALE之前)ORDER=FORMATTED时则组别的顺序以外部的格式(ExternalFormat)而决定这也是本选项的内设值5PROCGLM(InteractiveMode)要求PROCGLM在必要情况下重读输入资料文件内的数据由于这个选项会占用极多的空间同时耗时很多除非必要读者可以省略此选项)(SS)FMANOVA指令中的CANONICAL选项但未界定M=的选项则典型相关分析的结果也会纳入此输出要求PROCGLM抑止分析结果在报表上的打印除非读者只想制造某些输出资料文件而不太想看到分析的结果否则这个选项不太有用2CLASSCLASSES计模型的自变量这些自变量可以是数值的或文字的若是文字变量则其长度不可超过十指令#3MODEL因变量串实验效果选项删除号(/)之前的部分(因变量串实验效果)要求你必须先决定何种统计模型适用于你现在要分析的数据然后根据26章(ANOVA)第26.3节的原则将它写出(/) 与截距的界定有关有两个选GLM(常数)INTGLM 与报表的打印有关有三个选要求GLM程序印出常态公式的解(亦即一般线性模型中参数的估计 当省CLASS指令时GLM印出量其定义是1-R2在此R2=复相关系数的平方有关量的详细解释请见第17章第17.4节 与虚无假设的检定有关有九个选EGLM(EstimableFunctions)要求GLM程序只印出每一效果的第一型可估计函数值(Type 要求GLM程序只印出每一效果的第二型可估计函数值(Type 要求GLM程序只印出每一效果的第三型可估计函数值(Type 要求GLM程序只印出每一效果的第四型可估计函数值(Type 要求GLM程序只印出每一效果的第一型离差平方的总和(Type Sumof要求GLM程序只印出每一效果的第二型离差平方的总和(Type Sumof要求GLM程序只印出每一效果的第三型离差平方的总和(Type Sumof要求GLM程序只印出每一效果的第四型离差平方的总和(TypeSumofSquares)若读者已选用E1E2E3或E4则GLM会自动印出与其相对应的SS1SS2SS3SS4这一类选项的内设值是E1E3或SS1SS3 (X'X)INVERSE要求印出(X'X)的反矩阵或(X'X)之通用式反矩阵(GeneralizedInverse第五类选项可用来调整统计的精确性有一个选项ZETA=ZETA内设值是10的-8次方这个内设值足以应付大多数的模型检定7指令#4MEANS效果名称串选项(删除号之前)GLM(和其交互作用或镶嵌作用)中各组(各细格)的平均数比方说SEX表示(下分男女)RACE表示种族(下分黑白)则我们可用下列的SAS指令算出资料文件中女人白人男男白人女及女白人在因变量年薪(SALARY)上的平均PROCPROCCLASSSEXMODELSALARY=SEXMEANSSEXRACE(/)MEANS指令中所列的主效果执行不同的显著性考验以前例而言MEANS指令会比较男与女及与白人之间的年薪差异后十个选项则与统计检定的各项事宜有关执行显著性t检定其理论基础是班的不等律(Bonferroni这个选项界定唐那氏的两组平均数之双尾检定唐那氏(Dunnett)的检定依据t分配而且必须是实验组与控制组平均数的比较因此括号内必须指明控制组的组别MEANSMEANSA/DUNNETTACONTROL组就是控制组若控制组的组别是以数字来表示的(如2)则不必再加单引号如MEANSMEANSA/DUNNETT(内设值)若控制组不只一组时读者可同时在括号内提及如MEANSMEANSABC/DUNNETT('FIRST''SECOND'根据上述指令的语法A效果的控制组是第FIRSTB效果的控制组是第SECOND组CTHIRD这个选项界定唐那氏的两组平均数之单尾检定而且预期的差异必须是负值(亦 因此临界值定在t分配的下端(3)DUNNETT 而且预期的差异必须是正值( 因此临界值定在t分配的上端有关控制组的内设值以及撰写语法请参见上面(3)DUNNETT的说明Ryan-Einot-Gabriel-WelschFRyan-Einot-Gabriel-WelschtSidaktSMM(12)Sidakt检定当两组人数不等时此法也就是哈氏GT2执行纽曼-库尔 -Keuls)的两组样本平均数差的t检T(15)t检定因为GLM费契尔的最小显著差(LSD)的检定结果不一定完全相同HSDWaller-DuncanK-ratiot界定统计检定的显著程度内设值是.05 当此选项与前述选项(2)DUNCAN并用时ALPHA的值必须是.10 及.01三者之一将读者选用的显著性检定的分析结果(亦即各平均数)做由大到小的排列若某一对平均数之间无显著的差异则SAS将它们印在同一行上并以虚线将它们与其他有显著差异的平均数分开当读者选用DUNCANREGWFREGWQSNK或WALLER等显著性检定(或当实验设计是平衡或当实验设计只含两细格时)此选项会自动包括在分析过程内否则读者必须另外附加再者此选项最适用于平衡的实验设计若细格内的人数不等GLM程序会先计算出各细格人数的调和平均数(HarmonicMean) 然而若各细格内的人数差异太大时某些比较的显著结果会过于乐观将 GABRIEL SIDHK GT2TLSD或TUKEY 9CLDIFF选项会自动包括在分析过程内当读者选用DUNCAN SNK或WALLER时则必须另外附加此选项将MEANS指令中所提到的效果之各组平均数以信赖区间的方式表示此选项必须与BON T以及LSD等联用CLDIFFCLM此选项界定上述各显著性检定的分母)要求GLM程序只印出因变量的平均数若省略此选项则GLM程序会印出资料ETYPE=1(或 或 或界定F检定中分母矩阵的均方(MeanSquare)类型内设值是分析检定中最高HTYPE=1(或 或 或与前述WALLER选项并用此选规界定F检定中分子矩阵的平均方类型内与WALLER选项联用这个比例(第一类型错误第二类型错误)的值若订 100与 则大约与ALPHA值 .05与.01相对应这个选项的指令#5 比较式的名字各组效果的系数选项请读者仔细阅读下页几个示范的例子以便了解这个指令的格式首先我们假设有一个二因子的主效果实验设计A分为五组B分为两组MODELMODELY=ACONTRAST'ALINEAR&A-2-101A2-1-2-12;CONTRAST'CONTROLVSOTHERS'A-1.25.25.25CONTRAST'ONEVSTWO'B-1比较式的名字必须放在单引号内名字的长度以二十个字母为限命名的方式不拘但不可夹带分号( MODEL现过的如上例中我们不能比较A*B的交互效果因为MODEL指令中无此效果这些系数的总和必须是0而且只能是整数或小数(SAS不接受任何分数作为系数)各系数之间要以空格隔开若同一个CONTRAST指令内含一个以上的比较式则以逗号将系数串(/)E印出线性函数的向量E=ECONTRASTF检定的分母(MS 或 或E=SINGULAR=(这个选项用来检定CONTRAST指令所导出的线性函数是否为可估计的 iL线性函数之矩阵)H=(X'X)-如果下式成立LiSAS若Li= 而且ABS[Li-(LH)i]>极小的正实数(如或适当 而且ABS[Li-(LH)i]>ABS(Li)*极小的正实数(如10-4指令 估计值的名字各组效果的系数选项这个指令与上述的CONTRAST指令类似它们遵循同样的原则但除此之外ESTIMATE指令还可印出t检定的值t检定的分母(即平均误差的值) MODELMODELY=ESTIMATE'A1VSA2'A1-ESTIMATE'1/3(A1+A2)-2/3A3'A11-2/DIVISOR=ESTIMATE'1/3(A1+A2)-2/3A3'A.33333.33333-(/)DIVISOR=E印出线性函数的向量SINGULAR=以此数为标准检定ESTIMATE指令所导出的线性函数是否为可估计的(Estimable)其检定标准与前述CONTRAST指令中同一选项完全一致故不再赘述内设值也等于10的-4次方指令#7LSMEANS效果名称串选项LSMEANS是以最小误差平方法所估计之平均数的代称(英文称LeastSquares 下页示范LSMEANS的语法PROCPROCCLASSAMODELABLSMEANSA上面的程序指示SAS以最小误差平方法估计A及A*B两效果内各组(或各细格)的矫正平均数好似整个实验设计是一个平衡的设计请注意LSMEANS指令里所提的效果必须是MODEL指令里已经提过的效果(/)后的选项有十个分述如下E印出最小误差平方平均数计算过程中所用到的可估计函数值有关E的定义在下一章(第32章)内有详细的说明印出t检定 LSM=0)的分母与其显著程t(2)STDERRE=须与上述STDERRTDIFF及PDIFF等选项合用作用在于指定某一个效果的平均方做为t检定的分母若读者选用STDERRTDIFF及PDIFF选项但省略此选项则GLM自动以误差的平均方(MSError)为t检定的分母ETYPE=1(或 或 或E=以此数为标准检定LSMEANS指令所导出的线性函数是否为可估计的(Estimable)其检定标准与前述CONTRAST指令中同一选项完全一致故不再赘述内设值也等于10的-4次方OUT=界定一个输出资料文件内含LSMEANS指令所导出的矫正平均数平均数的标准误差以及平均数间的共变异数(如果读者同时界定下一个选项COV)要求将矫正平均数之间的共变异数纳入上述OUT=输出资料文件内此选项必须与OUT=选项联用而且LSMEANS的效果必须只有一个GLMLSMEANS指令的目的只是为了产生一个OUT=的输出资料文件则此选项会十分有用指令 MANOVAH效果名称E效果名MPREFIX新变量的名称代号MNAMES新变量的名称串选项此指令要求多变量变异数分析(MANOVA) 法下面分别介绍此指令的各部分H=(_ALL_界定多变量变异数分析所检验的假设矩阵H=的效果必须已被包含在MODEL指令里当读者有意通盘地对MODEL指令中所提到的所有效果执行多变量变异数分析时则可用H=_ALL_表示在GLM程序中这些效果将经由四种方法进行多变量变异数分析亦即Holing-LawleyTracePillai'sTraceWilks'Criterion和Roy's umRootCriterion这四种分析的结果仍依据F分配来判断其显著程度当H=INTERCEPT时表示读者有意对模型中的截距或总平均数(GrandMean)作统计的检定E=界定F检定的分母若省略此选项则余差的平均方(MSResidual)就自动成为分MODELY1-Y5=AMODELY1-Y5=AB(A);MANOVAH=AE=B(A)M=Y1-Y2,Y2-Y3,Y3-Y4,Y4-M=转换变量{±转换变 此处的转换变量可以是原始变量或常数乘以原因变量{}中的部分可有可无若含一个以上的转换式则以逗点()相隔在上面的例子中由于有PREFIX=DIEF这个选项因此新变量将被命名为DIFF1DIFF2DIFF3及DIFF4请注意这个名称代号必须是八个字母以内的名字数字12等分别与转换式12等对应PREFIXM=中转换12等相连名称之(/)后的选项F(即假设矩阵FHTYPE=1(或 或 或界定假设矩阵的变异数平方值的型态(可等于1234)内设值是分析过ETYPE=1(或 或 或界定F检定中分母矩阵的变异数平方值的型态(可等于123或4)内设要求转换式(在选项M=中所形成的新变量)先经过标准化正交(Orthonormali-zation)的处理对F检定中的分子与分母矩阵进行典型分 此分析的结果与另一统计程印出每一因变量的变异数分析表若曾选用选项M=则变异数分析表PROCCLASSPROCCLASSAMODELY1-Y5=AMANOVAH=AE=B(A)/PRINTHPRINTEHTYPE=1ETYPE=1;MANOVAH=AE=B(A)MODEL指令中我们看到有五个因变量(Y1Y5)故可采用多变量变异数分析MANOVA指令中FA效果矩阵B(A)效果矩MANOVAMANOVA指令中没有规定分母的矩阵GLM(MS E=的内设值)F第三个MANOVA指令请读者注意M=选项原因变量经过转换后由于未使用PREFIX=或MNAMES=选项因此GLM程序自动称这两个转换过的新变量为MVAR1及MVAR2这些新变量与A效果之间的关系是由这个MANOVA指令所检验的PROCCLASSPROCCLASSMODELDOSE1-DOSE4=GROUP;MANOVAH=GROUPMNAMES=LINEARQUADRATIC此例中原因变量经过选项M=做线性转换抛物线转换及三次方曲线转换然后新因变量经NNAMES=选项命名为线性抛物线性及三次曲线值选项PRINTE指示SAS印出F检定的分母矩阵(在此例中由于无E=选项故分母矩阵即是余差的矩阵)9OUTPUTOUT输出资料文件名称关键字本指令包括两个部分OUT=与关键字这个资料文件含原输入资料文件的所有变量以及本指令中所提到的关键字(如 RESIDUAL等)PREDICTEDP)=RESIDUALR)=L95M=95%U95M=95% 95% 95%STDP=KSTDR=STDI=STUDENT=COOKD=库格 Xi(X'X)-==指令#10RANDOM效果名称串选项这个指令可用来MODEL指令所含的各项效果中哪个(些)是随机效果从这个界定中GLM读者可在MODEL指令之后多次界定RANDOM指令若省略RANDOM指令则GLM程序视MODEL指令中所有的效果为固定效果(FixedEffects)(/)Q要求GLM程序对RANDOM指令中所提的各式随机效果执行适当的F检定并且F检定的分母完全根据各效果变异数均方的期望值(ExpectedMeanSquares) 唯一值得注意的是若A B两主效果被成随机效果这并不代表A*B一定被SAS视为随机效果因此下页两个RANDOM指令所得的F检定RANDOMRANDOMARANDOMAB指令 REPEATED重复变量的名称串组数(组名)变量的转换选项假设有三种实验各种控制在四个不同的时间进行则每一个被试有十二个分数假如这十二个分数分别以Y1 Y12表示则下面的指令可代表这十二个分数的统计分析REPEATEDREPEATEDTRIAL3(ABC),TIME4(T1T2T3Y1TRIAL的11122223333TIME上例中的TRIAL及 重复变量必须与因变量有关重复变量的名称不可界定上述重复变量的组数若该变量的组数为1则可以省略此选项从上面的例子中我们可看出重复变量TRIAL有三组而TIME有四组所以其排列组合共产生了十二个分数(以Y1Y12表示)这个选项的值必须包含在括号内括号内的值用来标明各分组其个数须与组数吻合如TRIAL这个重复变量有三组即AB与C组名与组名之间以空格分隔TIME变量则有四组分别以T1T2T3T4等表示下面的(1)(2)变量转换均属于正交的转换其余则属非正交的转换每一转换数的平均数比较(Contrast)有1度的自由度产生多项式的正交比较如直线式抛物线式TRIAL中比较A组平均数及BC两组平均数的平均读者先选定变量中的某一组为参考组然后其他各组依序与此参考组做比较如CONTRAST(A)A是参考组所以A与BA与C的平均数作比较参考组组别的内设值是最后一组这是内设的转换方法组平均数的平均参考组组别的内设值是最后一组如MEAN表示TRIAL变量中的C是参考组(因为C组是最后一组)因此比较A组平均数与BC两组平均数的平均但不比较C组平均数与AB两组平均数的平均请读者注意指令中若含一个以上的重复变量则以逗点分隔这些变量每一变量内的资料如名称组数据(组别)变量的转换应当以空格分隔若读者同时界定CONTRAST与TEST指令则REPEATED指令必须在这两个指令之后与上述选项相反不印出单变量变异数分析的结果只印出多变量变异数分析的结M矩阵的转置矩阵亦即M'行球形假设(Sphericity)的检定针对因变量所导出的H与E矩阵进行典型分析其分析结果应与PROCCANDISC程序的分析结果相似HTYPE=1(或 或 或界定F检定中分子矩阵的变异数平方值的型态(可等于1 3或4) 指令#12TESTH效果名称串E效果名称选项一般而言GLM程序以MODEL指令中的各项效果为分子以余差的平均方(MSResidual)为分母执行F检定但读者可利用TEST指令自行指定其他效果的平均方(MeanSquares或MS)为分母进行额外的F检定这种情形在重复观察的实验设计里最但是读者必须注意在不平衡的实验设计里各项效果的平均方不一定彼此独立所以即使虚无假设成立各效果平均方的期望值(ExpectedValue)不一定是各组(或各细格)在母群中的变异数(2)如此所形成的F检定则的F值SAS对读者所自选的H与E效果名称(即F检定的分子分母)不负任何责任因此读者事前应多参阅统计书籍或利用RANDOM指令来预测效果的期望值FMODEL界定F检定的分母个数只限一个同样的此效果必须是在MODEL指令中出(/)HTYPE=1(或 或 或界定被测效果(即F检定的分子)的MS型态这四种型态的定义在第32章ETYPE=1(或 或 或FMS型态同样地32PROCCLASSAPROCCLASSABCMODELY=AB(A)CA*CB*C(A);TESTH=AE=B(A)/HTYPE=1ETYPE=1;TESTH=CA*CE=B*C(A)/HTYPE=1#13ABSORB假若一个自变量下有许多组而且这个自变量与其他自变量之间没有任何交互作用若读者在此指令中提出一个以上的自变量则GLM程序自动假设右边的变量是镶另外有两点请读者在选用ABSORB—输入资料文件内的数据必须依照ABSORB指令中列举的变量做由小到大的重新排列这个步骤可藉PROCSORT达成二若选用ABSORB指令则OUTPUT指令无效GLM程序无法产生输出资料ABSORB31.8#14BYSAS依据此指令所列举的变量将资料文件分成几个小的资料文件然后对每一个小的资料文件分别执行GLM分析当读者选用此指令时资料文件内的数据必须先依照BY变量串的值做由小到大的重新排列这个步骤可藉PROCSORT达成#15FREQ1时这些观察体的数据便被排除在分析之外若这个值不是一个整数(如5.8)则SAS自动取其整数的部分(即5)#16ID#17WEIGHT这个指令的作用是将因变量做不等的调整调整的幅度视WEIGHT变量的值而数间的比较会受影响对参数的估计则由下式导出=(X'WX)-在此式中W代 值的大小亦即WEIGHT变量的有一种值会导致最佳线性不偏估计值英文简称B.L.U.E即BestLinearUnbiasedEstimates)这种值即等于各组内余差变异数的倒数PROCGLM执行回归分若读者想利用GLM程序执行(单/复)回归分析则你只需考虑PROCGLMMODELOUTPUTABSORBBYFREQIDWEIGHT等指令的撰写18PROCREGPROCGLM执行单变量变异数分若读者只想利用PROCGLM执行单变量的变异数分析则可省略MANOVA指令的撰写其余的指令仍然有效关于GLM程序在单变量变异数分析上的应用读者可PROCGLM程序执行多变量变异数GLM程序中所有的十七道指令所以是最复杂的分析方法关于GLM程序在多变量变异数上的应用读者可参考本章范例的例五 本资料文件(PLANTS)的数据来自Stenstrom(1940)的实验该实验的目的在比较草在七种土壤(TYPE)里生长的情形每一种土壤中种三盆草(BLOCK)这个实验是一个平衡的设计现在我们利用此资料文件来示范GLM程序在SAS程序里由于并没有在MODEL指令中指定变异数平方的类型故GLM程序按内设值自动印出第一和第三型的变异数平方因为这是一个平衡的设计故这两型变在第二个GLM程序中选用了ORDER=INPUT选项因此在CONTRAST指令串中平均数比较的顺序是根据输入资料文件内各组数据第一次出现的顺序而定的另外MODELSOLUTION选项要求GLM程序列出所有参数的估计值MEANS程DATADATAINPUTTYPE$;PROCGLMORDER=DATA;CLASSTYPEPROCGLMORDER=DATA;CLASSTYPEBLOCK;MODELSTEMLENG=TYPEBLOCK;MEANSTYPE/SNK; 'COMPOSTVS----6--1'RIVERSOILS----05-1-4--00-1'GLACIALVS-01100-1'CLARIONVS-000001'KNOXVS001-000DOBLOCK=1TODOBLOCK=1TOINPUTSTEMLENG@;OUTPUT; 分析的结果显 草的生长情形随七种土壤以及三种盆栽之不同而改 利用SNK的事后检定以及CONTRAST指令我们可以下结论说WABASH的土壤最优COMPOST的土壤最劣KNOX与O'NEILL两种不分轩轾CLARION与WEBSTER两种土壤间亦无显著的差异31.1平衡的块试验设计与平均数的比GeneralLinearModelsProcedureClassLevelInformation7CLARIONCLINTONKNOXO'NEILLCOMPOSTWABASH312Numberofobservationsindataset=DependentVariable:SumofMeanFPr>R-8RootSTEMLENGCorrectedTypeIMeanFPr>62TypeIIIMeanFPr>62Student--Keulstestforvariable:NOTE:ThistestcontrolsthetypeIexperimentwiseerrorrateunderthecompletenullhypothesisbutnotunderpartialnullAlpha=0.05df=12MSE=Numberof234567CriticalRangeMeanswiththesameletterarenotsignificantlySNKGrou AA3BA3BABAC3BCBDC3DCDC3DD3DD3DependentVariable: Contrast Mean F Pr>COMPOSTVS1RIVERSOILS2GLACIALVS1CLARIONVS1KNOXVS 例二非平衡型的实验设计(A)Kutner(1974)所提供其出处是AfifiAzen(1972)合著的书以电脑为工具的统计分析两个自变量分别是DRUG和DISEASE请读者注意在MODEL指令中程序要求四型变异数平方值的打印DATAINPUTDATAINPUTDRUGDISEASEDOI=1TOINPUTY;PROCCLASSDRUGMODELY=DRUGDISEASEDRUG*DISEASE/SS1SS2SS3112..3313-32521.4222.34.23326431.129.32.971-3321.934124922-2422712-512结由于本实验属非平衡型的实验设计因此第一与第二型离差平方和的结果不尽相同结论说DRUG的效果达显著水准(p<.0001) 然而DISEASE(p=.1709)或两者间的交互作用(p=.3764)均未达显著水准31.2非平衡型的实验设计二因子的单变量变异数分GeneralLinearModelsProcedureClassLevelInformation 123 12Numberofobservationsindataset=NOTE:Duetomissingvalues,only58observationscanbeusedin DependentVariable:SumofMeanFPr>R-RootYTypeIMeanFPr>326TypeIIMeanFPr>326DependentVariable:TypeIIIMeanFPr>326TypeIVMeanFPr>326例三共变量分析本资料文件(DRUGTEST)的数据由Snedecor与Cochran P.422)所提DRUG(AD)十位被分配到DRUG自变量下的各组癫疯病菌的数量是由每一身体上六个部位病菌的程度而定的治疗后的病菌数量(Y)是这个实验的因变量治疗前癫疯病菌的数量(X)则是Y的共变量PROCCLASSDRUG;MODELPROCCLASSDRUG;MODELY=DRUGX;LSMEANSDRUG/STDERRDATAINPUT$XA6A80AA64AA30D60D62DD84DD9FFFFF5F;结利用共变量分析法分析这组资料结果显示治疗后的癫疯病菌数量明显地受治疗前癫疯病菌的数量所影响(F=20.21P=0.0005)然而这两种抗生素的效果与控制组(未接受治疗)不分上下(F=0.84P=0.4516)请注意在共变量分析法中实验效果的检定是根31.3共变量分GeneralLinearModelsProcedureClassLevelInformation ADFSumofMeanFPr>SumofMeanFPr>R-3RootY TypeIMeanFPr>2X1TypeIIIMeanFPr>2X1StdErrPrA1D2F3Pr>|T|H0:1231.2.3.NOTE:Toensureoverallprotectionlevel,onlyprobabilitiesassociatedwithpre-plannedcomparisonsshouldbeused.本资料文件(ONE)的数据由Cochran与Cox(1957 P.176)所提供这个实验探讨电击对萎缩肌肉的影响各项效果的代号如下 电流通过的时间(一到四级时间单位) 电流的强度(一到四级) 每天受电击的次数(一到三次) 每一位受试者接受两次电击但电流通过肌肉的时间电流的强度与每天接受的次数则因人而异这个例子的程序主在示范CONTRAST指令的写法第一个CONTRAST指令是针对TIME的主效果(三度自由度因此三个平均数比较)CURRENT在每一TIME组内的简单主效果(SimpleMainEffect)而撰写的DATADOREP=1TO2;DOTIME=1TO4;DOCURRENT=1DATADOREP=1TO2;DOTIME=1TO4;DOCURRENT=1TODONUMBER=1TOINPUTINPUTY;100-00000000100-010-00000000010-001-00000000001-PROCCLASSREPCURRENTTIMEMODELPROCCLASSREPCURRENTTIMEMODELY=REPCURRENT|TIME|NUMBER;CONTRAST'TIMEINCURRENT3'CONTRAST'CURR1VS.CURR2'CURRENT1-结 CONTRASTTIME的主效果以及CURRENTTIME组内的简单主效果做平均数比较时其检定的结果均未达显著水准最后CONTRAST指令比较电流第一组与第二组的平均数差异结果显示这两组间的差异未达统计上显著的程度因此我们可以推测电流效果可能存在于一三四组间或二三四组间或三四组间31.4三因子的单变量变异数分析与平均数的比GeneralLinearModelsProcedureClassLevelInformation 2141234123312Numberofobservationsindataset=DependentVariable:SumR-FPr>RootYCorrectedTypeIMeanFPr>1339266TypeIIIMeanFPr>1339266ContrastMeanFPr>TIMEINCURRENT3CURR1VS.CURR1本资料文件(SKULL)由奥勒冈大学的教授A.Anderson提供旨在决定对四种反应 ZYGOMAT与POSTORB)的效 程DATAINPUTSEX$LENGTHBASILARZYGOMATPOSTORB@@;MMMMMMMMMMMMMMMMMMMMMMFFFFFFFFFFFFFFFFFF;PROCCLASSMODELLENGTHBASILARZYGOMATPOSTORB=SEX;MANOVAH=SEX/PRINTEPRINTH;TITLE YSISOF结F值后大小均完全一致(亦即F=0.8018P=0.5323)这个结果与单变量变异数分析的结果是完全相同的(F值介于0.00与1.02间)所以我们可下结论说男女在这四种反应上的结31.5极多变量变异MULTIVARIATEYSISOFGeneralLinearModelsProcedureClassLevelInformation FNumberofobservationsindataset=DependentVariable:SumofFPr>R-1RootLENGTHCorrectedTypeIMeanFPr>1TypeIIIMeanFPr>1DependentVariable:SumofFPr>R-1RootCorrectedlTypeIMeanFPr>1TypeIIIMeanFPr>1DependentVariable:SumofFPr>R-1RootZYGOMATCorrected

TypeI TypeIII

MeanSquare

FF

Pr>FPr>FDependentVariable:SumofFPr>R-1RootPOSTORBCorrectedTypeIMeanFPr>1TypeIIIMeanFPr>1E=ErrorSS&CP PartialCorrelationCoefficientsfromtheErrorSS&CPMatrix/Prob>DF=H=TypeIIISS&CPMatrixfor --------CharacteristicRootsandVectorsof:EInverse*H,whereH=TypeIIISS&CPMatrixforSEXE=ErrorSS&CPMatrix CharacteristicVector - - -- --ManovaTestCriteriaandExactFStatisticsfortheHypothesisofnoOverallSEXEffectH=TypeIIISS&CPMatrixforSEXE=ErrorSS&CPFNumDenPr>Wilks'4Pillai's4 ling-4Roy'sGreatest 本资料文件(DOGS)的数据由Cole与Grizzle(1966)所提供实验的目的在研究两个自变量(药物与狗身体内胺基酸的分泌作用)与一个因变量(狗血液中胺基酸的浓度)的关系第一个自变量药物(DRUG)下分两组 或C6H9NO3第二个自变量胺基酸的分泌作用(DEPL)下也分两组健康的与的十六对狗(有一对资料不全故分析时将其剔除)经历四次测量注射药物后0分钟1分钟3分钟及5分钟(分别以HIST0 HIST5代表) 这些数据经过对数的转换后成为此分析的GLM程序中选项NOUNI抑止了单变量变异数的分析这是因为重复观察值代表整体的数据若将它们分开则会失去彼此在时间上的关系另外指令REPEATED中POLYNOMIAL选项规定将重复观察值作多项式的正交转换DATAINPUTDATAINPUTDRUG$DEPL$HIST0HIST1HIST3HIST5;LHIST0=LOG(HIST0);LHIST1=LOG(HIST1);LHIST3=LOG(HIST3);LHIST5=LOG(HIST5);NNNNYY.YYNNNNYYYY;PROCCLASSDRUGMODELLHIST0LHIST1LHIST3LHIST5=DRUGDEPLDRUG*DEPL/NOUNI;REPEATEDTIME4(0135)POLYNOMIAL/SHORTSUMMARY;结经过对数转换后的时间效果达显著水准(F=24.0326P=0.0001)转换后的时间与药物间的交互效果亦达显著水准(F=5.7832P=0.0175)转换后的时间与分泌作用间的交互效果达显著水准(F=21.3112P=0.0002)最后时间药物与分泌作用的三因子交互效果也达到统计上的显著水准(F=12.4775P=0.0015)利用REPEATED指令检定对数转换的时间之函数(包括线性的抛物线的以及三次曲线的)结果显示药物分泌作用以及两者间的交互效果在时间的线性以及抛物线值上均达显著水准(P<0.05)然而时间经过三次曲线转换后只有分泌作用的效果达统计的显著水准(P<0.0001)31.6重复观察的变异GeneralLinearModelsProcedureClassLevelInformation2MORPHINE2NNumberofobservationsindataset=NOTE:ObservationswithmissingvalueswillnotbeincludedinthisThus,only11observationscanbeusedinthisRepeatedMeasuresysisofVarianceRepeatedMeasuresLevelInformationDependent LHIST0LHIST1LHIST3Levelof ManovaTestCriteriaandExactFStatisticsfortheHypothesisofnoTIMEEffectH=TypeIIISS&CPMatrixfor E=ErrorSS&CPFNumDenPr>Wilks'35Pillai's35 ling-Lawley35Roy'sGreatest35ManovaTestCriteriaandExactFStatisticsfortheHypothesisofnoTIME*DRUGEffectH=TypeIIISS&CPMatrixforTIME*DRUGE=ErrorSS&CPFNumDenPr>Wilks'35Pillai's35 ling-Lawley35Roy'sGreatest35ManovaTestCriteriaandExactFStatisticsfortheHypothesisofnoTIME*DEPLEffectH=TypeIIISS&CPMatrixforTIME*DEPLE=ErrorSS&CPFNumDenPr>Wilks'35Pillai's35 ling-Lawley35Roy'sGreatest35ManovaTestCriteriaandExactFStatisticsfortheHypothesisofnoTIME*DRUG*DEPLEffectH=TypeIIISS&CPMatrixforTIME*DRUG*DEPLE=ErrorSS&CP FNumDenPr>Wilks'35Pillai's35 ling-Lawley35Roy'sGreatest35TestsofHypothesesforBetweenSubjects DFTypeIIISSMeanSquareF Pr>1117UnivariateTestsofHypothesesforWithinSubjectSource:TypeIIISSFValuePr>FG-GH-Pr>FSource:Pr>TypeIIIMeanFPr>G-H-3Source:

Pr>F TypeIIISSMean F Pr> G- H-3Pr>TypeIIIMeanFPr>G-H-3Source:TypeIIIMeanGreenhouse-GeisserEpsilonHuynh-FeldtEpsilonTIME.NrepresentsthenthdegreepolynomialcontrastforContrastVariableTIME.1(线性TypeIIIMeanFPr>11117ContrastVariable:TIME.2(抛物线TypeIIIMeanFPr>11117ContrastVariable:TIME.3(三次曲线TypeIIIMeanFPr>11117ABSORB指令及其使用方法ABSORPTION验设计的变异数分析(BlockDesign)HERD1(ABSORB指令PROCPROCABSORBHERD;CLASSAB;MODELY=AB2ABSORB指令PROCPROCCLASSHERDAMODELY=HERDAB在例1中当ABSORB指令被用在块试变量HERD上时GLM程序只计算第一型的离差平方和因此节省了第二三及四型离差平方和的计算所以例的分析会比例更有效率另外读者也可在ABSORB指令中同时包含好几个效果请看下面的三个例子(例与例的统计模型事实上完全相同)3ABSORB指令PROCPROCCLASSHERDCOWABMODELY=HERDCOW(HERD)AB例4将ABSORB指令用在 COW变量串上PROCPROCABSORBHERDCOW;CLASSAB;MODELY=AB例5(将ABSORB指令用在 B变量串上PROCPROCABSORBAB;CLASSHERDCOW;MODELY=HERD例5的程序所导出的效果有四即A HERD与COW(HERD) 两项亦即HERD与COW(HERD)和ABSORB的变量AB或A*B完全无关ABSORB指令会节省计算的时间与空间?ABSORB的效果必从自变量的矩阵(亦即X'X)中剔除如此X'X的行列数减少其反矩阵的计下面的实例显示使用ABSORB指令后的益处这个实验总共有六千八百七十五个自由度第一种处理法不用ABSORB指令第二种处理法则使用了ABSORB指令ABSORB指令DATADATADOHERD=1TO40; DOCOW=1TON;DOTRTMENT=1TO3;DOREP=1TO2;DROPN;PROCCLASSHERDCOWMODELY=HERDCOW(HERD)这个分析将会占用6Megabytes的电脑空间而第二种处理法则会分析(ABSORB指令PROCPROCABSORBHERDCLASSMODELMODEL因为使用ABSORB指令因此可将自变量矩阵减至4*4的正方矩阵其所占用的电脑空间将大大减少分析的结果见报表31.731.7ABSORB令的示GeneralLinearModelsProcedureClassLevelInformation 123DependentVariable:

Numberofobservationsindataset=SumFPr>CorrectedR-RootYTypeIMeanFPr>2TypeIIIMeanFPr>2重复观察的实验设计所收集的数据可用单变量或多变量的变异数分析法处理此处讨论这两种方法在SAS程序里的异同首先让我们假设有一资料文件称作"OLD" 利用单变量变异数分析的SAS程PROCPROCGLMCLASSGROUPSUBJMODELY=GROUPSUBJ(GROUP)TIMETESTH=GROUP然而另有一种处理观察体的方法将更节省打字时间首先同样的数据以另一种排列方式呈现称此资料文件为NEW PROCGLMPROCGLMDATA=NEW;CLASSGROUP;MODELY1-REPEATED"OLD"资料文件PROCPROCSORTDATA=OLD;BYGROUPDATANEW(KEEP=Y1-Y3GROUP);ARRAYYY{3}Y1-Y3;DOI=1TO3;SETOLD;BYGROUPSUBJ;IFLAST.SUBJTHENPROCSORTDATA=OLD;BYGROUPSUBJ;PROCTRANSPOSEOUT=NEW(RENAME=(_1=Y1_2=Y2_3=Y3));BYGROUPSUBJ;IDPROCSORTDATA=OLD;BYGROUPSUBJ;PROCTRANSPOSEOUT=NEW(RENAME=(_1=Y1_2=Y2_3=Y3));BYGROUPSUBJ;ID以下介绍指令REPEATED里所包含的五种线性转换方式这些线性转换PROCMODELD1-REPEATEDDRUG5CONTRAST是这五种选项的内设值最适用于控制组与一个或一个以上实验组的比较比方说五组动物接受不同的药物治疗其中第一组是控制组接受糖水其他四组是实验组接受试验中的"PROCMODELD1-REPEATEDDRUG5CONTRAST-1100M -1010-1001-1000HELMERT这个线性转换适用于一组与其它组平均数的比较经此线性转换后读者就容易找出重复观察值中的临界点(亦即平均数开始稳定的点)下面的例子比较男女受试PROCPROCCLASSMODELRESP1-RESP4=SEX/NOUNI;REPEATEDTRTMENT4HELMERT/CANON;11M01001MEANMEAN选项的功用与CONTRAST选项十分类似唯一不同的是所谓的控制组在此(M)略有不同本例的数据与CONTRAST选项的例子相同五组动物接受不同的药PROCPROCMODELD1-REPEATEDDRUG5

M 若读者有意从比较中省略一组则可将其组别放在括号内置于MEAN选项之后如MEAN(5) 如此第五组将从平均数的比较中省略PROFILE这个线性转换最适用于不同性质的重复观察值假若有四种不同的教学法分别试用于几所公立学校由于教学法之间有质与量的差别PROFILE选项可提供两两教学法的比较请看下面的示范PROCPROCCLASSMODELT1-T4=SCHOOL/NOUNI;REPEATEDMETHOD4PROFILE;100M010001如此相邻两组(前后两种教学法)可做比较新的变量(即相邻两组的平均数差)将以METHOD.1METHOD.2 与METHOD.3来代表若欲找出平均数的临界点则读者需检验标准系数这些标准系数可由选项CANON得出当这些标准系数在某一个重复观察点之后突然变得极小则这个点就是所谓的临界点这类型的转换最适用于等量(或等值)的重复观察实验假使实验设计不符合此条件则读者必须将不等的值包含在括号里在一些使用药物的实验或时间序列的连续观察体这个选项十分有用本章第31.7节的例六与下面的示范就是很好的例子假如重复变量DOSE下分五组1 10和20公克这些不等的药量分别给不同的GROUP 则选项POLYNOMIAL的使用自动导出直线性抛物线性三次以及四次式曲线的趋势分析(Trend PROCPROCCLASSMODELR1-R5=GROUP/NOUNI;REPEATEDDOSE5(1251020)MDOSE.1DOSE.2DOSE.3DOSE.4代表如上所述其几何的意义分别是直线性抛物线性三次式或四次式曲线的分析在单变量变异数分析或者含MANOVA REPEATED指令的多变量变异数分析中若观察体在任何一个自变量或因变量上有遗漏数据则GLM程序会将此观察体排除在MANOVAREPEATED的因变量上有遗漏数据PROCGLM仍会将它包括在分析内32章离差平方和(SS)四类型的SS本章介绍SAS变异数分析程序中最的概念即四种类型的离差平方和(SumofSquares)其定义与统计的检定在SAS的变异数分析程序里(如GLM PANOVA)每一种实验效果的离差平方和都被归纳成第一型第二型第三型第四型这种分类是便于统计分析的检定而非统计学上公认的分类方式若读者对这四型的离差平方和有可参考FreundLitl及Spector1986合著的SASSystemforLinearModels在变异数分析里哪些线性函数是可估计Y= 由此导出E(Y)=X因为残差(或作余差即上式中的)之平均数等于0变异数分析的最终目的就是估计矩阵的元素或是这些元素的线性组合如L到底那一种线型组合(或线性函数)才是可估计的(Estimable)?这个问题的答案有其充份且必要的条件现简述如下 KY由于E(KY)=E(KX 因此L的导出是根据X矩阵中横列的线性组合而来的只要这个线性组合存在则L就是可估计的参数线性函数进一步说由于X=[X(X'X)-1(X'X)] 因此L也可以由(X'X)或(X'X)-1(X'X)等矩当L的可估计性被建立后则 的估计就十分简单了根据最小平方误差的理论可用下式估计=b=(X'X)-所以Lb也就是L 的最小平方误差的估计值若将Lb以统计检定的观念来处理则下列的虚无假设可用F检定来考验H0: F检定的分子是由Lb的离差平方和决定的亦即SS(Lb)=(Lb)'[L(X'X)-1L']-F一因子的变异数假一个一因子的变异数分析(自变量下分为三组)其线性模型如Y=+Ai+Ei=12另外假定此实验中有六名被试X与110011001010=101010011001根据这些定义X矩阵的每一横列都可演绎成一个可估计的线性函数L由于X的横列间有重复的现象我们可使之简化然后定义一个X*矩阵1101100101010011001010-001-X*XL1001010-001-到底这三个矩阵之间的关系如何?这个问题的答案可从它们各自对应的L函数看出首先让我们定义L1L2与L3为三个非零的实数(也就是说这三个值不可同时等于0)则它们所导出的可估计之L函数如下X*L=L1*(1100)+L2*(1010)+L3*(100 X** 从上面的例子中我们或许对所谓的L函数有一个粗浅的认识从X*和X**矩阵所导出的L函数其第一个元素是另外其他元素的总和这是因为在变异数分析里各实验效果(TreatmentEffects)加起来等于0 所以主效果的自由度是组数减1 一个函数若符合上述的条件则此函数就是一个L函数然而并非所有的L函数都是最简洁的那么到底那一种函数才是最好的呢?SAS的系统里最简洁的L(X'X)-1(X'X)L计其数学模型是 +Ai 这个模型的可估计函数 等于 于是L=(L1 而参数(见本节初的 矩阵)中只有A1 A3对我们最有意义由于L1=0(即 对应的系数必须是0) 其余L2与L3则可轮流以非零的实数代入鉴于L函数只有两个自由度因此首先可用L2=1 L3=0带入然后再以L2=0 L3=1带入如此L成了一个2*4的矩阵如下010-001-这个L矩阵 (从 所计算出来的平均方值(MS)则成为F检定的分 其自由度是2(与L010-01- L*与上述的L有两点雷同之处第一两个矩阵的横列都是彼此线性独立的第二第一直行的元素必须都是0(因我们不需要估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论