文库发布:sas课件_第1页
文库发布:sas课件_第2页
文库发布:sas课件_第3页
文库发布:sas课件_第4页
文库发布:sas课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析系统SAS软件实用教程Tel:6478593734205976anyuan@SAS概述SAS(StatisticalAnalysisSystem)是美国使用最为广泛的三大著名统计软件(SAS,SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型数据管理与数据统计分析处理的软件系统。该系统由美国NorthCarolina州立大学两位生物统计研究生于1966年编制,并于1976年成立SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,统计分析功能是它的重要组成部分和核心功能,同时系统的功能也扩展到线性与非线性规划,时间序列分析、运筹决策支持等。目前SAS已经发展成为一个功能齐全,应用范围广泛和使用灵活方便的数据管理、数据分析的标准软件系统。其应用范围涉及到金融、医药卫生、生产、运输、通讯、政府和教育科研领域,SAS系统被誉为国际上的标准软件系统。一SAS系统的主要模块及其功能SAS是一个用于数据管理和数据处理分析的组合软件系统,它包括多个大的功能模块,用户可以根据需要,选择部分或全部SAS功能模块来组成一个远行系统。主要功能模块包括:BASE,STAT,AF,FSP,IML,GRAPH,ETS,OR,QC等模块。SAS/BASE模块是SAS的核心部分,主要功能有信息存储与检索、程序和数据的编辑与修改、报告生成、简单统计计算等。SAS/STAT模块提供对数据进行统计分析的功能,包括:方差分析、相关分析、回归分析、判别分析、聚类分析、主成分分析和因子分析等多元统计分析方法。SAS/ETS(EconometricandTimeSeries)模块支持经济计量和时间序列分析研究,它是经济分析、预测、系统模型、金融等应用研究方面的工具。SAS/OR(OperationsResearch)模块是基于运筹学原理的一个程序包,主要功能有计划和管理大型项目、资源的调度分配、建立生产和网络流程模型等。SAS/QC(Qualitycontrol)模块是一个用于产品质量控制管理的子系统,本模块基于统计方法,用计算机图形显示技术来实现产品制造过程中的质量控制管理。SAS/GIS是集地理信息系统功能与空间数据的显示分析与一体,提供层次化的地理信息。SAS/GRAPH绘图模块,可以产生多种彩色的统计图形、地图、曲线图以及三维图形。SAS/CALC模块是一个功能完善的多维电子表格软件,具有财务计算分析、数值建模、数据整理、合并与管理的功能。SAS/ACCESSTOODBCSOFTWARE可以读取ODBC大型数据库资料的软件,(Oracle,PC机文件格式的软件,Sybase)SAS/ASSIST模块它为SAS提供面向任务的菜单驱动程序,免除了用户学习SAS语言的困扰,SAS/ASSIST生成的SAS程序既可以辅助有经验的用户快速编写SAS程序,还可以帮助用户学习SAS语言。二SAS的窗口操作SAS启动后,屏幕上出现三个窗口(即Output窗口、LOG窗口和ProgramEditor窗口),这三个窗口的功能依次是:结果输出窗口(Output):用于显示SAS程序运行产生的输出结果。在该窗内可以移动光标进行浏览、将窗口中的内容打印到纸上或存到磁盘文件中。运行记载窗口(LOG):用于显示SAS的运行过程,包括程序语句、注释、警告、错误显示(错误所在的行列、出错原因及可能的修改方法)等信息。程序编辑窗口(ProgramEditor):用于SAS系统程序的输入、修改、运行、打印和存放等操作。第一章:SAS语言基本概念(一)SAS的程序结构SAS程序由两类模块构成:数据准备模块类——数据步(DATAStep)数据分析处理模块类——过程步(PROCStep)。数据步的作用是把数据源中的数据作为输入,经过加工后输出到一个或多个SAS数据集(SASDataSet)的特殊文件中去。过程步是把由数据步建立和产生的数据集中的数据作为输入,经标准过程计算处理后,将结果输出到OUTPUT窗口。(二)SAS程序的一般书写格式1、每条语句最后必须有结束符“;”2、语句中的各项之间(不同的语法单位)至少有一个空格分隔。(三)几个常用的命令:在Edit菜单中的ClearAll命令,删除激活窗口中的内容或设置的显示。在Run菜单中的Recalllastsubmit命令,将已经提交给SAS系统的程序调回PGM窗口供修改与保存。Run菜单中的Submit命令,程序远行命令。第二章数据步与数据步语句2.1数据步基本语句DATA语句功能:表示数据步的开始,并给出要创建的数据集名称。格式:DATA数据集名选项;数据块与CARDS语句CARDS语句功能:数据块的开始,通知SAS其数据从下一行开始格式:CARDS;多行用空格分隔的数据(数据块);数据块功能:为INPUT语句提供数据。格式:由多行构成,每行由多个用空格间隔的数据构成;“;”是数据块的结束符号;INPUT语句功能:从数据源(文件或数据块)中读取数据并将数据赋给其尾随变量。格式1、自由型:也称变量列表格式。格式:INPUT变量1变量2$&变量3$&…;说明:变量可以是数值型和字符型数值型:如12456字符型:如ABnameage字符型变量后应加”$”,当字符变量中有空格存在时应加“&“,此时数据行输入允许字符变量数据中含有一个空格,而下一变量与该字符变量的数据之间至少应空两个空格,以表明字符变量的结束。字符型变量可以使用缩写的形式,主要有两种类型:如果在程序中定义了x1、x2、x3、x4和x5,则可以用记号x1-x5表示上述五个变量。●按数据输入的先后顺序列出变量名;●缺省数据用小数点“.”表示●字符变量一般长8个字节,除非在前面用attriblength或informat语句定义变量的长度。例:dataone;Attribnamelength=$11;Inputname$&age;Cards;Lihua29SunLi-ning25;procprint;run;四、行保持说明符:@@@@符允许在一个数据行中输入多条观察值,减少数据占行数。@@符写在INPUT语句的末尾。例:datacc;inputa$b@@;cards;a1b2c3d4e6;procprint;run;五、赋值语句1、格式:变量=表达式;功能:是先计算表达式值,而后将该值赋给左边的变量。表达式是一个或几个变量名、函数名和常数用运算符或括号连接起来的式子。如x=a+b;a=a+b常见的赋值语句位于input语句之后,并对input语句中定义的变量进行计算。例:DATAa;INPUTab@@;X=a*b;x=a+b;x=a/b;x=a-b;Y=LOG(X);CARDS;123456;PROCPRINT;RUN;六、循环语句常用的SAS循环语句有步长型和离散型两种形式。1>步长型循环语句格式:DO循环变量=初值TO终止值BY增量;Input变量@@;output;END;若无选项[BY增量],则系统默认增量为1。步长型循环语句的执行过程为:①将初值赋给循环变量。②判断循环变量是否超过终止值,若循环变量超过终止值则结束循环;否则执行③。③顺序执行SAS语句。④给循环变量增加一个“增量”,转向②。2>离散型循环语句格式:DO循环变量=“值1”,“值2”,…,“值n”;Input变量;output;其它语句;END;循环变量每取一个值,执行一遍循环体,一直到所有的值取完后,结束循环。例1:某厂医务室测定5名氟作业工人在工前、工中和工后4小时的尿氟浓度(umol/L)。问氟作业工人在这三个不同时间的尿氟浓度有无差别?工人编号工前(w1)工中(w2)工后(W3)N190.53142.1287.38N288.43163.1765.27N347.3763.1668.43N4175.08166.33210.54N5100.01144.75194.75Datanew;Don=“n1”,“n2”,“n3”,“n4”,“n5”;Dow=1to3;Inputy@@;output;End;end;Cards;90.53 142.12 87.3888.43 163.17 65.2747.37 63.16 68.43175.08 166.33 210.54100.01 144.75 194.75;procprint;run;Datanew;DoA=1to5;DoP=1to3;Inputy@@;Output;End;end;Cards;90.53142.1287.3888.43163.1765.2747.3763.1668.43175.08166.33210.54100.01144.75194.75;procprint;run;例2:研究叶面喷施赤霉素(GA)对盐胁迫小麦产量的影响,试验设叶面喷施100ppmGA和清水二个处理,试验重复5次,试分析GA对盐胁迫小麦生长的作用。籽实产量(kg/亩)籽粒数/穗株高(cm)GA50056061048054050596267606958对照(喷清水)48040050047051040485242485550Dataone;Dotrt=1to2;Dopar=1to3;Dorep=1to5;Inputy@@;output;end;end;end;Cards;500560610480540 50596267. 606958..480400500470510 40485242. 485550..;Procprint;Run;Datatwo;Dopar=1to3;Dotrt=1to2;Inputn;Dorep=1ton;Inputy@@;output;End;end;end;Cards;550056061048054054804005004705145059626744048524236069583485550;Procprint;Run;Datathree;Dopar=1to3;Inputn;Dorep=1ton;Inputnoy@@;output;End;end;Cards;10150015601610148015402480240025002470251081501591621672402482522426160169158248255250;Procprint;Run;第三章过程步与过程步语句1、形式:PROC过程名选项;[其它相关过程步语句]RUN;常用过程步语句VAR语句格式:VAR变量表;功能:指明分析变量(变量表列出的),指定将要被过程分析处理的变量,未出现在变量表中的数据将不参与计算。一个过程中无VAR语句时,数据集中的全体数值变量都参与运算。CLASS语句格式:CLASS变量表;功能:指明分类的依据变量名。BY语句格式:BY变量表;功能:指明分组变量,依BY变量分组进行处理,结果以分组形式输出。MODEL语句格式:MODEL依变量=自变量表(或效应)[/选项];功能:指明分析所用的模型,即给出模型包含的自变量和因变量的个数以及变量名。RUN语句格式:RUN;功能:使前面的过程被执行。常用过程步:PRINT过程读入数据集NEW中的数据,将变量排成易读的形式输出。sas数据集的排序(SORT)将sas数据集中的观测按一个或多个变量的数值大小进行排序,把结果存放在新的sas数据集里,或者代替原始数据集。SORT语句格式:PROCSORT;BY变量1变量2…;RUN;By语句中的Descending表示变量值按降序排列,缺省时表示按升序排列。第四章常用的生物统计分析第一节描述性统计1、MEANS过程的格式:PROCMEANS选项;[语句;]RUN;其中选项有下列几种:DATA=数据集名指定被分析的数据名,缺省时为当前数据集。MEAN计算平均值STD标准差VAR方差CV变异系数STDERR标准误RANGE极差MIN最小值MAX最大值SUM总和TT值,总体均值为零PRTT值的最大绝对值的概率。常用语句有下列几种:VAR变量表;用于指明分析变量。若该语句缺省,除去BY、CLASS语句中列出的变量以外,数据集中的所有其他数值变量将依次被分析(计算)。CLASS变量表;将数据集中的全体观测值以CLASS语句中变量定义观测组,分别计算各观测组的描述性统计量。计算结果以CLASS变量的不同取值,以表格的形式输出。功能:指明分类的依据变量名。BY变量名表;使用BY语句后,MEANS过程先按BY变量的取值形成多个观测组,然后按组别分别计算各组对应的描述性统计量,结果以观测组的形式输出。注意在使用BY语句前,要求对BY变量已排过序。功能:指明分组变量,依BY变量分组进行处理,结果以分组形式输出。例1:调查某植物种群密度(分蘖数/m2),共测定10个样地,得结果如下:23273121293537194124,试求该种群密度的平均值(mean)、平均数的标准误(stderr)、标准差(std)、变异系数(cv)。Dataone;Inputy@@;Cards;23273121293537194124;procmeansmeanstderrstdcv;vary;run;例2:某一植物种群在两个不同生境(甲、乙)下的生物量(g/m2),试求该植物种群在甲、乙两个生境中生物量的平均值和标准差。甲0.841.051.21.21.391.531.671.81.872.072.11乙0.540.640.640.750.760.811.161.21.341.351.481.581.87Dataone;Dotrt=1to2;Inputn;Dorep=1ton;Inputy@@;output;End;end;Cards;110.841.051.21.21.391.531.671.81.872.072.11130.540.640.640.750.760.811.161.21.341.351.481.581.87;Procmeansmeanstdstderr;Vary;Bytrt;Run;Datatwo;Doh=1to2;Dorep=1to13;Inputy@@;Output;End;end;Cards;0.841.051.21.21.391.531.671.81.872.072.11..0.540.640.640.750.760.811.161.21.341.351.481.581.87;Procmeansneanstd;Classh;Vary;Run;第二节TTEST测验一、假设检验的步骤:1、提出原假设和备择假设2、确定适当的检验统计量,并计算检验统计量的值(t检验和t值)3、确定显著性水平(α=0.05)(μ-1.96σ≤x≤μ+1.96σ)~95%4、做出统计决策(概率值:p值)-判别原理:小概率事件不可能发生(1-5%)1、两个样本平均数的成对比较(测验因实验设计不同而分成二组有对应关系的数据的平均数是否相同)2、成组数据均值比较过程TTEST过程(测验因实验设计不同而分成二组数据的平均数是否相同)DATANEW;INPUTXY@@;Z=X–Y;CARDS;XY值;PROCMEANSTPRT(其它选项);VARZ;[其它语句;]RUN;其中选项:TT值,总体均值为零。PRTT值的最大绝对值的概率。Datanew;INPUTNo$X;Cards;No$X值;ProcTtestoptions;VAR变量;Class变量;BY变量;Run;例1:为测定A、B两个病毒对烟草的致病力,取8株烟草,每一株皆半叶接种A病毒,半叶接种B病毒,以叶面出现的枯斑数作为致病力强弱的指标,试测验两种病毒的致病力的差异。AB91017113118181476872017105dataone;inputxy@@;z-x-y;cards;91017113118181476872017105;procmeansmeanstdtprt;varz;run;例2:为测定A、B两个病毒对烟草的致病力,取8株烟草,每一株皆半叶接种A病毒,半叶接种B病毒,以叶面出现的枯斑数作为致病力强弱的指标,分别在接种病毒后5d和10d测定叶面枯斑数,试测验两种病毒的致病力的差异。一二三四五六七八5dA9173118782010B101118146717510dA1425372215162818B1318212012142310Datatwo;Dotime=1to2;Dorep=1to8;Inputab@@;C=a–b;output;End;end;Cards;9101711311818147687201710514132518372122201512161428231810;Procmeansmeanstderr;Varab;Bytime;Procmenastprt;Varc;Bytime;Run;例3;调查A、B两个植物种群的密度和生物量,结果如下,试分析这两个植物种群密度和生物量之间的差异AB密度(株/m2)12191721232327353931生物量(g/m2)5048647278876558Dataone;Dop=1to2;Dorep=1to10;Inputgy@@;output;End;end;Cards;1121191171211232232272352392311501781641721.2782872652582.;Procttest;Classg;Vary;Byp;Run;Dataone;Dop=1to2;Inputn;Dorep=1ton;Inputgy@@;output;End;end;Cards;101121191171211232232272352392318150178164172278287265258;Procttest;Classg;Vary;Byp;Run;Dataone;Doi=1to2;Dop=“A”,“B”;Dorep=1to5;Inputy@@;output;End;end;end;Cards;1219172123 232735393150786472. 78876558.;Procttest;Classp;Vary;Byi;Run;Datatwo;Dopar=1to2;Dospe=1to2;Inputn;Dox=1ton;Inputy@@;output;End;end;end;Cards;5121917212352327353931450786472478876558;procttest;classspe;vary;bypar;run;第三节方差分析在一个因素不同水平下(三个水平以上)或是在多个因素不同水平组合下测量一个连续反应变量(因变量),这个反应变量的总变异可被解释为分类变量的效应(即主效应,如A,B分别表示由于分类变量A和B的不同水平引起的变异)或分类变量的组合产生的效应(即交互效应,如A*B表示A与B的交互作用),余下的变异为随机误差。方差分析的基本思想是将所有观察值的总变异分解成不同的变异来源,即对总变异的自由度和平方和进行分解,进而获得不同变异来源的总体方差的估值。通过构建适当的F值,进行F测验,完成多个样本平均数之间差异显著性测验。当处理效应为固定效应时,尚可对各个处理平均数进行多重比较。变异来源离均差平方和(SS)自由度(df)均方(MS)F值P值ABA*BSSA=QA-CSSB=QB-CSSAXB=QAB-C-SSA–SSBp-1q-1(p-1)(q-1)SSA/dfASSB/dfBSSAxB/dfAxBMSA/MSEMSB/MSEMSAB/MSE***误差SSE=SST-SSA-SSB-SSABPq(r-1)SSe/dfe(MSE)总计SST=W-Cpqr-1一、方差分析(ANOVA)过程过程格式:Procanova;Class分类变量名列表;Model依变量=自变量效应表/选项;Means自变量效应名列表/选项;TestH=效应变量名E=误差项;Run;Procanova;Class分类变量名列表;通常对主效应变量进行分类,如果是区组试验,需要同时对区组变量进行分类;Model依变量=自变量效应表/选项;列出希望计算出的效应变量,一般为主效应、互作效应、区组效应;给出主效应和互作效应的方差分析结果。Y=a单因素主效模型 Y=aba*b两因素带互作模型Y=abca*ba*cb*ca*b*c三因素带互作模型;Means自变量效应名列表/选项;进行多重比较分析,主要分析同一因素不同水平间的效应差异;一般只对主效应分析;选项用于设定多重比较方法等,常用的选项有LSD或t(最小显著差数法)DUNCAN(新复极差测验)TUKEY(固定极差测验法)。显著水平的设定ALPHA=α,缺省值为0.05。TestH=效应变量名E=误差项;TESTH=效应表E=效应:用以指定某效应作为误差项。缺省时,以残差MSE作为误差项。其中:H=效应变量名,用以指定MODEL语句中作为假设检验的效应,E=误差项,用以指定作为误差项的效应,常用主效应*区组效应。RUN;二、方差分析的类型1、试验设计类型:随机试验设计随机区组试验设计1)单因素试验①单项分组资料的方差分析(单因素完全随机试验)变异来源离均差平方和(SS)自由度(df)均方(MS)F值P值处理组间SSA=QA-Cp-1SS组间/df组间MS组间/MS组内误差SSE=SST-SSAN-PSS组内/df组内总计SST=W-CN-1Procanova;ClassA;ModelY=A;NEANSA/LSD;Run;②单因素完全随机区组试验变异来源离均差平方和(SS)自由度(df)均方(MS)F值P值处理组间区组间SSA=QA-CSSB=QB-Ca-1b-1SSA/dfASSB/dfBMSA/MSEMSB/MSE误差SSE=SST-SSA-SSBN-a-b+1SSE/dfE总计SST=W-CN-1Procanova;ClassAC;ModelY=AC;MeansA/lsd;Run;例1:有一个水稻施肥实验,设有5个处理(trt),分别为A(施氨水1),B(施氨水2),C(施碳氨),D(施尿素)和E(不施肥)。每个处理均种植4盆,随机排列,试分析各处理对水稻平均产量的影响。A:24302826B:27242126C:31282530D:32333328E:21221621Datatwo;Dotrt=1to5;Dorep=1to4;Inputy@@;output;End;end;Cards;2430282627242126312825303233332821221621;procanova;classtrt;modely=trt;meanstrt/t;run;2)二因素试验随机试验设计和随机区组试验设计:①两项分组资料的方差分析(二因素完全随机试验)变异来源离均差平方和(SS)自由度(df)均方(MS)F值P值ABA*BSSA=QA-CSSB=QB-CSSAXB=QAB-C-SSA–SSBp-1q-1(p-1)(q-1)SSA/dfASSB/dfBSSAxB/dfAxBMSA/MSEMSB/MSEMSAB/MSE误差SSE=SST-SSA-SSB-SSAxBPq(r-1)SSe/dfe总计SST=W-CPqr-1Procanova;ClassAB;ModelY=ABA*B;Meansab/lsd;Run;②二因素随机区组试验Y=μ+A处理效应+B处理效应+A*B互作+区组效应(C)+随机误差Procanova;ClassA、BC;ModelY=ABA*BC;Meansabc/lsd;Run;例2:研究水分和肥料两个因素与番茄产量之间的关系,其中水分设三个水平(W1-100%、W2-75%、W3-50%)、肥料设两个水平(F1-20kg、F2-40kg),组成6个水分-肥料试验组合,观察其对番茄的增产效果,每个组合5次重复,各个组合的产量(kg/m2)结果如下表,试进行方差分析。(随机试验设计和随机区组试验设计):表1:水分和肥料组合对番茄产量的影响水分(A)肥料水平(B)B1B2A133.423.531.839.218.227.533.531.641.027.8A220.224.622.318.524.528.215.223.420.919.5A325.233.127.429.122.220.227.831.329.624.2Dataone;doa=1to3;dob=1to2;dorep=1to5;InputM@@;output;end;end;end;cards;33.423.531.839.218.2 27.533.531.641.027.820.224.622.318.524.5 28.215.223.420.919.525.233.127.429.122.2 20.227.831.329.624.2;Procanova;classabrep;modelm=aba*brep;meansab/talpha=0.05;run;三、特殊试验设计的线性模型1、裂区试验设计:Y=μ+区组效应+主、副处理效应+主、副处理互作效应+随机误差Procanova;Class区组效应主处理效应副处理效应;ModelY=区组效应主处理效应副处理效应主*副处理互作效应主处理效应*区组互作效应;MEANS主、副处理效应/T;TESTH=主效应E=主效应*区组效应;RUN;例:研究践踏强度(T1、T2、T3)与施氮水平(N1、N2、N3)对草坪质量的影响,试验采用裂区设计,主区为践踏强度,副区为施氮水平,3次重复,试分析践踏强度和施氮水平对草坪密度(株,cm2)的影响。轻度践踏(T1)中度践踏(T2)重度践踏(T3)N2N1N3N3N2N1N2N1N3707090706060204040908095807060354550607080905070203030DATAturf;DoT=1to3;DoN=1to3;Dorep=1to3;Inputy@@;Output;End;end;end;Cards;708070709060909580606070607050708090404530203520405030;procanova;classTNREP;modely=TNT*NREPT*rep;meansTN/T;testH=TE=T*REP;RUN;3正交试验设计3.1无重复正交试验设计资料的方差分析例:研究5种蛋鸡育成期的配合饲料对鸡产蛋效果的影响。配合饲料中主要考察5种成分组成,各成分均取3个水平,试找出最优的配方方案。A(玉米):a1(61.5)a2(66.0)a3(70.6)B(麸皮):b1(6.5)b2(8.0)b3(14.0)C(豆饼)c1(6.0)c2(9.0)c3(15.0)D(鱼粉)d1(3.0)d2(5.0)d3(9.0)E(食盐)e1(0.0)e2(0.1)e3(0.25)同时需要考虑a*b、a*c、a*e的互作。选用L27(313)正交表,表头设计为:a、b、c、e、d依次放在第1、2、5、8、11列上,a*b、a*c、a*e分别放在(3、4)、(6、7)、(9、10)列上。Datazjfx;Inputabcedy@@;Cards;111115691122255411333637121235661223156512312648131325811321356813321535211115932122261521333620221235862223159722312617231325992321361323321580311115693122261531333591321235863223161632312630331325663321363833321573;Procanova;Classabcde;Modely=abcdea*ba*ca*e;Meansabcdea*ba*ca*e/t;Run;Meanswiththesameletterarenotsignificantlydifferent.tGroupingMeanNaA602.22292A598.22293B580.33391tGroupingMeanNbA601.22292BA595.88991B583.66793tGroupingMeanNcA603.44493A597.88992B579.44491tGroupingMeanNdA602.77892A600.55693B577.44491tGroupingMeanNeA605.00091A596.88993B578.88992LevelofLevelof--------------y--------------acNMeanStdDev113572.0000007.9372539123562.3333337.3711148133606.66666762.3083729213592.6666676.5064071223608.3333339.8657657233605.66666722.2785397313573.66666710.7857931323623.00000013.0000000333598.00000029.1376046最优组合为:a3、b2、c2、d2、e33.2有重复正交试验设计资料的方差分析例:有四种药物,每种药物有三水平:A药(A1=2%,A2=5%,A3=8%),B药(B1=0%,B2=1%,B3=2%),C药(C1=0%,C2=1%,C3=3%)及D药(D1=0%,D2=1%,D3=3%)。问四种药物对蚊子的50%击到时间有无差别?采用正交表L9(34)。相同试验条件下均做4次重复。试验号ABCD50%击到时间/S111119.417.1910.733.732122211.9111.8511.0011.723133310.6710.7010.9110.18421233.873.183.804.85522314.205.724.853.71623124.293.893.884.71731327.627.016.837.41832137.797.387.566.28933218.09Datatwo;Inputabcd@@;DoI=1to4;Inputy@@;output;End;Cards;11119.417.1910.733.73122211.9111.8511.0011.72133310.6710.7010.9110.1821233.873.183.804.8522314.205.724.583.7123124.293.893.884.7131327.627.016.387.4132137.797.387.566.2833218.098.178.147.49;procanova;classabcd;modely=abcda*b;meansabcda*b/t;run;第六章相关分析第一节相关分析(CORR)CORR过程的格式:PROCCORR选项;(HOEFFDING;KENDALL;SPEARMAN,缺省为PEARSON);PEARSON计算直线相关系数;SPEARMAN计算等级相关系数(%);VAR变量表;指明分析的变量WITH变量表;指明配对的变量名。与VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。PARTIAL变量表;指明偏相关变量即指定相对固定的那些变量,PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。BY变量表;RUN;例1:测定黑麦草种群特征,密度X1(株/m2)、植株高度X2(cm)、单株丛径X3(cm)及生物量Y(g/m2)数据如下:密度x1植株高度x2单株丛径x3生物量y3540404237454337444260746471726878667063.02.03.23.01600260021002650240022002750160027502500Dataone;Inputx1-x3y@@;Cards;35600.7160040742.5260040642.0210042713.0265037721.1240045681.5220043784.3275037662.0160044703.2275042653.02500;Proccorr;Proccorr;Partialx1;Varx2x3y;Run;SimpleStatisticsVariableNMeanStdDevSumMinimumMaximumx11040.500003.30824405.0000035.0000045.00000x21068.800005.28730688.0000060.0000078.00000x3102.330001.0873523.300000.700004.30000y102315434.005892315016002750PearsonCorrelationCoefficients,N=10Prob>|r|underH0:Rho=0x1x2x3yx11.000000.431950.640930.69454→相关系数0.21250.04580.0258→P值x20.431951.000000.629270.761650.21250.05130.0105x30.640930.629271.000000.728820.04580.05130.0168y0.694540.761650.728821.000000.02580.01050.01681PartialVariables:x13Variables:x2x3yPearsonPartialCorrelationCoefficients,N=10Prob>|r|underH0:PartialRho=0x2x3yx21.000000.509060.711460.16160.0316x30.509061.000000.513660.16160.1572y0.711460.513661.000000.03160.1572第二节回归分析一、线性回归分析回归方程在农业领域中的应用:1、描述某种现象与其影响因素的数量依存关系,如作物产量与施肥、浇水量的关系;2、预测。把预报因子(自变量)代入回归方程对预报量(因变量)及其波动范围进行估计;3、控制。根据回归方程进行逆运算,即要求因变量在一定范围内波动,可以通过控制自变量的取值来实现。1、REG过程(线性模型)PROCREG;MODEL依变量=自变量/选项;(指定回归模型中因变量和自变量、回归计算方法、估计值、预测值和残差等)RUN;语句说明:MODEL语句中的“选项”内容:模型选择方法(对多元(三个因素以上)线性回归而言),包括:STEPWISE(逐步回归)MODEL依变量=自变量/selection=stepwisesls=0.05sle=0.05;SLSTAY(SLS)=剔除时概率水平;SLENTRY(SLE)=选入时概率水平;FORWARD(逐个选入)MODEL依变量=自变量/selection=forwardsle=0.05;BACKWARD(逐个剔除)MODEL依变量=自变量/selection=backwardsls=0.05;STB:通径系数(计算标准回归系数);CLM:条件总体平均数的置信区间。即当x=m时,若实测100次,则其平均数落在该置信区间的次数为95次(95%的概率);CLI:观察值的预测区间。即当x=m时,若实测100次,则测定值落在该置信区间的次数为95次(95%的概率)。例1、取某水稻土(pH=5.5),加入HCl或Na2CO2改变pH值(x),在30℃下放置28天,然后中和之,测定每100g烘干土中NH4+-N的毫克数(y),试确定变量Y依x的回归方程。XY21339.246.654.76477.1813.2920Datatwo;Inputxy@@;X2=x*x;Cards;21339.246.654.76477.1813.2920;Procreg;Modely=x/clmcli;Modely=xx2/clmcli;Run;TheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel129.0002429.000241.000.3563Error6174.3347629.05579CorrectedTotal7203.33500RootMSE5.39034R-Square0.1426DependentMean9.72500AdjR-Sq-0.0003CoeffVar55.42769ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept15.154764.955711.040.3384x10.830950.831751.000.3563TheREGProcedureModel:MODEL2DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel2198.6040599.30202104.95<.0001Error54.730950.94619CorrectedTotal7203.33500RootMSE0.97272R-Square0.9767DependentMean9.72500AdjR-Sq0.9674CoeffVar10.00230ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept130.273812.0784214.57<.0001x1-10.221430.83905-12.18<.0001x111.004760.0750513.39<.0001OutputStatisticsDepVarPredictedStdErrorObsyValueMeanPredict95%CLMean95%CLPredictResidual113.000013.85000.818711.745515.954510.581817.1182-0.850029.20008.65240.51457.32989.97495.823711.48110.547636.60005.46430.46874.25956.66902.68878.23981.135744.70004.28570.51452.96325.60831.45707.11440.414354.00005.11670.51453.79416.43922.28807.9454-1.116767.10007.95710.46876.75249.16195.181610.7327-0.8571713.200012.80710.514511.484614.12979.978515.63580.3929820.000019.66670.818717.562221.771116.398522.93490.3333例2:测定某植物种群的密度(X1),每丛植株小穗数(X2),百粒重(X3,g),高度(X4,cm)和每m2生物量(y,g)的关系,得结果如下,试确定变量y依x的最优线性回归方程。10233.611315.79203.610614.510223.711117.513213.710922.510223.611015.510233.510316.98233.31008.610243.411417.010203.410413.710213.411013.410233.910420.38213.510910.26233.21147.48213.711311.69223.610512.3Datanew;Inputx1-x4y@@;Cards;10233.611315.79203.610614.510223.711117.513213.710922.510223.611015.510233.510316.98233.31008.610243.411417.010203.410413.710213.411013.410233.910420.38213.510910.26233.21147.48213.711311.69223.610512.3;procreg;modely=x1-x4/selection=stepwisesls=0.05sle=0.05stb;run;StepwiseSelection:Step2Variablex3Entered:R-Square=0.8818andC(p)=6.3911AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel2211.54256105.7712844.78<.0001Error1228.346772.362Model:MODEL1DependentVariable:yStepwiseSelection:Step2ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-30.012908.2612931.1775613.200.0034x11.969650.3063297.6688041.35<.0001x37.336592.6294218.390377.790.0163Boundsonconditionnumber:1.3346,5.3385-----------------------------------------------------------------------------------------------StepwiseSelection:Step3Variablex2Entered:R-Square=0.9205andC(p)=3.3585AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel3220.8114373.6038142.44<.0001Error1119.077901.73435CorrectedTotal14239.88933ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-46.9663610.1926236.8248021.230.0008x12.013140.26314101.5078258.53<.0001x20.674640.291839.268875.340.0412x37.830232.2631320.7619311.970.0053*******************************Allvariablesleftinthemodelaresignificantatthe0.0500level.Noothervariablemetthe0.0500significancelevelforentryintothemodelTheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel3220.8114373.6038142.44<.0001Error1119.077901.73435CorrectedTotal14239.88933

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论