已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS数据分析笔记1. SAS INSIGHT启动:方法1:SolutionAnalysisInteractive Date Analysis方法2:在命令栏内输入insight方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮;Proc insight;Run;1.1 一维数据分析用 sas insight做直方图、盒形图、马赛克图。直方图:AnalysisHistogram/Bar Chart盒形图:AnalysisBox plot马赛克图:AnalysisBox plot/Mosaic plot(Y)1.2 二维数据分析散点图:AnalysisScattery plot(Y X)曲线图:AnalysisLine plot( Y X)1.3 三维数据分析旋转图:AnalysisRotationg Plot曲面图:AnalysisRotationg Plot 设置 Fit Surface等高线图:AnalysisCountor plot1.4 分布分析包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。1.4. 1 AnalysisDistribution(Y)第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。1.4.2 添加密度估计A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;CurvesParametric DensityB:核估计:对密度函数没有做假设,曲线性状完全依赖于数据;CurvesKernel Density1.4.3 分布检验CurvesCDF confidence bandCurvesTest for Distribution1.5 曲线拟合AnalysisFit(Y X):分析两个变量之间的关系1.6 多变量回归AnalysisFit(Y X)1.7 方差分析AnalysisFit(Y X)1.8 相关系数计算AnalysisMultivariate1.9 主成分分析AnalysisMultivariate2.SAS ANALYST启动:方法1:SolutionAnalysisAnalyst方法2:在命令栏内输入analyst2.1 分类计算统计量:DataSummarize by group2.2 随机抽样:DataRandom Sample2.3 生成报表:ReportTables2.4 变量计算:DateTransform2.5 绘制统计图2.5.1 条形图:GraphBar ChartHorizontal2.5.2 饼图:GraphPie Chart2.5.3 直方图:GraphHistogram2.5.4 概率图:GraphProbality plot2.5.5 散点图:GraphScatter plot2.6 统计分析与计算2.6.1 计算描述性统计量Statistics DescriptiveSummart Statistics 只计算简单统计量Statistics DescriptiveDistribution 可计算一个变量的分布信息Statistics DescriptiveCorrelations可计算变量之间的相关关系Statistics DescriptiveFrequency counts 可计算频数2.6.2 列联表分析Statistics Table Analysis2.7假设检验2.7.1单样本均值Z检验: 检验单样本均值与某个给定的数值之间的关系Statistics Hypothesis tests One-Sample Z-test for a mean2.7.2单样本均值t检验:适用于不了解变量的方差情形推断该样本来自的总体均数与已知的某一总体均属0是否相等Statistics Hypothesis tests One-Sample t-test for a mean2.7.3单样本比例检验:检验取离散值的变量取某个值的比例Statistics Hypothesis tests One-Sample test for a proportion2.7.4单样本方差检验:检验样本方差是否等于给定的值。零假设方差等于某个给定的。Statistics Hypothesis testsOne-Sample test for a variance2.7.5两样本均值t检验:独立的两个总体的均值是否相等或者是否相差给定的值Statistics Hypothesis tests Two-Sample t-test for means2.7.6成对样本均值t检验:成对样本检验中总体是相关的。Statistics Hypothesis tests Two-Sample paired t-test for means2.7.7两样本比例检验:检验两个总体中某个比例的值是否相等。Statistics Hypothesis tests Two-Sample test for proportions2.7.8两样本方差检验Statistics Hypothesis testsTwo Sample test for variance2.8ANOVA过程2.8.1单因素ANOVA过程Statistics ANOVAOne-Way Anova2.8.2非参数的单因素方差分析:适用于正态分布假定或方差相等假设不能满足的单因素问题Statistics ANOVAnonparameter one-way Anova testWilcoxon法、Median法、Van der Waerden法、Savage法。2.8.2因素方差分析:实验结果是连续数值而分类变量是两个以上的离散型数值。Statistics ANOVAFactorial Anova2.8.3线性模型:用最小二乘法拟合一般线性模型Statistics ANOVALinear Model2.9回归分析:Statistics Regression2.9.1simple回归:简单一类回归分析,单一的自变量,单一的因变量,模型可以是一次、二次、三次。Statistics Regressionsimple2.9.2linear回归:线性回归,回归模型可以有多个因变量,多个自变量,但是对因变量分别进行回归Statistics Regressionlinear2.9.3logistic回归:用于解决因变量是一个二元变量Statistics Regressionlogistic3.报表以及图形输出3.1 print过程Proc print data = sasuser.score; /数据库.数据集Run;Proc print data = sasuser.score;Var name math Chinese; /变量Run;Proc print data = sasuser.score noobs; /去掉第一列(观测序号)Var name math Chinese;Run;Proc print data= sasuser.score;Where sex in(f); /通过where语句Run;Proc print data = sasuser.score noobs label;Title 女生成绩单;Label name =姓名 Sex =性别 Math = 数学 Chinese = 语文 English = 英语;Where sex in(f);Run;Title “the sas system”; /恢复系统标题Proc print data = sasuser.score;Footnote = 分数列表; /加分数列表的脚注Run;Proc sort data = sasuser.score;By sex;Run;Proc print data = sasuser.score; /使用by分组输出前用sort排序By sex;Run;Proc print data = sasuser.score;Sum math;Run;3.2 tabulate过程Proc tabulate data =数据集名称;Class 分类变量;Var 分析变量;Table 页面说明 行维说明 列维说明/选项;Run;3.3 sort过程Proc sort data = 数据集名称; /默认升序排列 By 变量名;Run;Proc sort data = 数据集名称; By descending 变量名; /降序排列Run;3.4 means过程:数量(N)、均值(Mean)、标准差(Std Dev)、最大值(Maximum)、最小值(Minimum)Proc means data = sasuser.stock; Var price;Run;3.5 univariate过程Proc univariate data =数据集;Var 分析变量;Run;结果:Moments:统计量的各阶矩,例如一阶矩就是均值,二阶矩就是方差等;Basic Statistical Measures:基本统计量;Tests for location:检验均值是否为零;Quantiles:分位数表;Extreme Observations:极端观测值。3.6 freq过程:离散变量的分布情况Proc freq data =数据集名;Tables 变量名;Run;结果:变量取值、频数、百分比、累计频数、;累计百分比3.7 corr过程:相关系数Proc corr data =数据集;Var 变量名 变量名;Run;结果:简单统计量相关系数及p值3.8 gplot过程:绘制散点图和曲线图,绘制回归曲线。Proc gplot data = 数据集名称;Symbol 曲线类型;Plot 竖轴变量*横轴变量;Run;Proc gplot data = sasuser.score;Symbol I = none v=star;Plot English*Chinese;Run;3.9 gchart过程:绘制直方图、饼图、三维直方图等。Proc gchart data = 数据集名称;Vbar/pie/block =变量;Run;3.10 G3D过程绘制三维曲面Proc g3d data =数据集;Plot 变量x*变量y=变量z;Run;gcontour过程:画出曲面的等高线Proc gcontour data =数据集名;Plot x*y=z;Run;4.基本统计分析4.1正态性检验:univariate过程Proc univariate data= sasuser.stock normal;Var eps;Run;Proc univariate data= sasuser.stock normal;Var eps;Histogram eps; /画出直方图Probplot eps; /画出概率分布图Run;4.2单变量均值检验4.2.1如果一个变量服从正态分布,那么可以用t检验来对变量进行均值检验Proc ttest data =数据集 ho = 均值;Var 检验变量;Run;4.2.2t检验还可以检验方差相同的两个独立样本均值是否相等Proc ttest data =数据集;Class 分类变量;Var 检验变量;Run;结果第一部分简单统计量第二部分t检验结果第三部分两者方差是否相等检验T检验要求两个独立样本都必须服从正态分布,如果不服从正态分布,则无法进行t检验。这时可用非参数的方法,常用的非参数方法是NPAR1WAY过程,它是 noparameter 1 way缩写。4.3成对总体均值检验4.4回归分析:reg(回归)过程、rsreg(二次响应面回归)过程、orthoreg(病态数据回归)过程、nlin(非线性回归)过程、transreg(变换回归)过程、calis(线性结果方程和路径分析)过程、glm(一般线性回归)过程、genmod(广义线性回归)过程4.4.1 REG过程Proc reg data = 输入数据集 选项;Var 变量列表;Model 因变量 = 自变量列表;Print 输出结果;Plot 诊断图形;Run;4.4.2 nlin过程指明模型的表达式并给定系数初值4.4.3glm过程:使用最小二乘法回归线性模型,还可以进行回归,分差,协方差,多变量方差、偏相关系数分析4.5方差分析4.5.1单因素方差分析Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Run;Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Means brand;Run;Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Means brand/t; /t检验Run;Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Means brand/bon; /bonferroni t检验 控制第一类错误的概率,但是具有较大第二类错误概率Run;Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Means brand/regwq; /regwq检验 控制第一类错误的概率Run;Proc anova data =数据集名称;Class 因素;Model 实验结果 =因素;Means brand/tukey; /tukey检验 控制第一类错误的概率,但是第二类错误概率通常高于regwq检验Run;4.5.2多因素方差分析4.5.3列联表检验Proc freq data = 数据集;Tables 因素a*因素b / chisq;Weight 实验结果;Run;5相关知识因变量Depender (Y)自变量Independent (X1 X2)1.用ANOVA过程进行单因素方差分析 单因素方差分析是4.1.2问题的一个自然延续。在4.1.2中,我们有一个分类变量把观测分为两组,我们要研究这两组的均值有没有显著差异。如果这个分类变量的取值不只两个,则这时4.1.2的检验方法不再适用,但我们同样要解决各组均值是否有显著差异的问题。如果各组之间有显著差异,说明这个因素(分类变量)对指标是有显著影响的,因素的不同取值(叫做水平)会影响到指标的取值。 注意,经典的方差分析只判断因素的各水平有无显著差异,而不管两个水平之间是否有差异。 方差分析把指标的方差分解为由因素的不同取值能够解释的部分,和剩余的不能解释的部分,然后比较两部分,当能用因素解释的部分明显大于剩余的部分时认为因素是显著的。方差分析假定观测是彼此独立的,观测为正态分布的样本,由因素各水平分成的各组的方差相等。在这些假定满足时,就可以用ANOVA过程来进行方差分析。其一般写法为: PROC ANOVA DATA=数据集; CLASS 因素; MODEL 指标=因素; RUN; 例1:为了分析SASUSER.VENEER中各种牌子的胶合板的耐磨性有无显著差别,首先我们假定假设检验使用的检验水平为0.05,可以使用如下程序进行方差分析: proc anova data=sasuser.veneer; class brand; model wear=brand; run; 结果可以分为四个部分,第一部分是因素水平的信息,第二部分就是经典的方差分析表,表前面指明了因变量(指标)为WEAR,第一列来源(Source)说明方差的来源,是模型(Model)的(可以用方差分析模型解释的),误差(Error)的(不能用模型解释的),还是总和(Corrected Total)。第三列为平方和,其大小代表了各方差来源作用的大小。第二列为自由度。第四列为均方,即平方和除以自由度。第五列F值是F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性,如果不显著说明模型对指标的变化没有解释能力。第六列是F统计量的p值。由于这里p值小于0.05(我们的检验水平),所以模型是显著的,因素对指标有显著影响。结果的第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方,与回归模型一样仍代表总变差中能被模型解释的比例,第二个是变异系数,第三个是根均方误差,第四个是指标的均值。结果的第四部分是方差分析表的细化,给出了各因素的平方和和F统计量,因为是单因素所以这一行与上面的模型一行相同。 2用NPARIWAY进行非参数单因素方差分析 当方差分析的正态分布假定或方差相等假定不能满足时,对单因素问题,可以使用称为Kruskal-Wallis检验的非参数方差分析方法。这种检验不要求观测来自正态分布总体,不要求各组的方差相等,甚至指标可以是有序变量(变量取值只有大小之分而没有差距的概念,比如磨损量可以分为大、中、小三档,得病的程度可以分为重、轻、无,等等)。 NPARIWAY过程的调用与ANOVA过程不同,因为它是单因素方差分析过程,所以只要用CLASS语句给出分类变量(因素),用VAR语句给出指标就可以了,一般格式为: PROC NPARIWAY DATA=数据集WILCOXON; CLASS因素: VAR指标: RUN; 3.多重比较 方差分析只检验各组是否没有任何两两之间的差异,但不检验到底是哪两组之间有显著差异。在三个或多个组之间进行两个或多个比较的检验叫做多重比较。多重比较在统计学中没有一个公认的解决方法,而是提供了若干种检验方法。因为多重比较要进行不只一次的比较,所以在多重比较的检验水平有两种:总错误率(experimentwise error rate)和单次比较错误率(compa,risonwise error rate)。总错误率是指所有比较(比如,五个组两两之间比较有10次)的总第一类错误概率,单次比较错误率是指每一次比较的第一类错误概率。显然,总错误率要比单次比较错误率高。 在ANOVA过程中使用MEANS语句可以进行多重比较。格式如下: MEANS因素选项; 如果不使用选项,则ANOVA过程内的MEANS语句只对因素的各水平计算指标的平均值和标准差,比如: proc anova data=sasuser.veneer; class brand; model wear=brand; means brand; run; 为了进行两两比较,可以在MEANS语句的选项中旨定检验方法。SAS提供了多种方法。 一、用重复t检验控制单次比较错误率 重复t检验的想法很简单:在适当的检验水平下用两样本t检验对所有组两两之间进行检验。控制的是每次比较的第一类错误概率。缺省使用0.05水平。注意这样检验的总错误率将大大高于每次比较的错误率。比如,在上面程序后加入(ANOVA是交互式过程)。 means brand/t; run; 结果如下: 下面给出了检验的一些指标,比如水平(Alpha)为0.05(控制单次比较的第一类错误概率),自由度(df)为15,误差的均方(MSE,是方差分析表中误差的均方1为0.020833,两样本t检验的t统计量的临界值(Critical Value of t)为2.13,如果两样本t检验的t统计量值绝对值超过临界值则认为两组有显著差异,或者等价地,如果两组的均值之差绝对值大于最小显著差别(Least Significant Difference)0.2175也是有显著差异。所以这个检验也叫LSD检验。下面列出了检验的结果,把因素各水平的指标平均值由大到小排列,然后把两两比较的结果用第一列的字母来表示,字母相同的水平没有显著差异,字母不同的水平有显著差异。所以我们看到,重复t检验的结果把五种牌子分成了A、B、C三个组,TUFFY单独是一组,它的磨损量最大;XTRA、CHAMP、ACME是一组,这三种两两之间没有显著差异;AJAX单独是一组, 其磨损量最小。 二、用Bonferroni t检验控制总错误率 Bonferroni t检验通过把每次比较的错误率取得很小来控制总误差率。比如,共有10次比较时,把每次比较的错误率控制在0.005就可以保证总错误率不超过0.05,但是,这样得到的实际总第一类错误率可能要比预定的水平小得多。在MEANS语句中使用BON语句可以执行Bonferroni t检验,缺省总错误率控制水平为0.05。对上面数据增加如下语句: means brand/bon; run; 结果先说明了检验类型和指标,然后说明了检验控制总第一类错误率,但一般比REGWQ方法的第二类错误概率高(检验功效较低)。下面给出了几个检验用的值。最后给出了Bonferroni t枪验的结果,有相同分组字母的因素水平间无显著差异,否则有显著差异。我们看到,TUFFY与XTRA、CHAMP、ACME没有显著差异,与AJAX有显著差异;XTRA、CHAMP、ACME两两之间没有显著差异,而且与其它两个也都没有显著差异;AJAX与TUFFY有显著差异,与其它三个没有显著差异。其分组是有交叉的。最后只发现了TUFFY和AJAX之间有显著差异。 三、用REGWQ检验控制总错误率 用Bonferroni t检验控制总错误率过于保守,功效较低,不易发现实际存在的显著差异。REGWQ方法可以控制总错误率并且一般比Bonferroni t检验要好。这种方法执行多阶段的检验,它对因素水平的各种子集进行检验。在MEANS语句中用REGWQ选项可以进行REGWQ检验。例如,在前面的例子后再运行: means brand/regwq; run; MEANS语句的选项可以同时使用。在MEANS语句中可以用ALPHA=水平值来指定检验的水平。ANOVA过程中还提供了其它的多重比较方法,请自己参考有关资料。 4. 多因素方差分析 SAS提供了若干个方差分析过程,可以考虑多个因素、有交互作用、有嵌套等情况的方差分析。用GLM过程还可以用一般线性模型来处理方差分析问题。在这里我们只介绍如何用ANOVA过程进行均衡设计的多因素方差分析。 例如:为了提高一种橡胶的定强,考虑三种不同的促进剂(因素A)、四种不同分量的氧化锌(因素B)对定强的影响,对配方的每种组合重复试验两次,总共试验了24次,得到表的结果。 B:氧化锌A:促进剂1234131, 3334, 3635, 3639, 38233, 3436, 3737, 3938, 41335, 3737, 3839, 4042, 44首先把数据输入为SAS数据集。输入的办法可以是直接输入各个观测,例如: data rubber; input a b stren; cards; 1 1 31 1 1 33 1 2 34 1 2 36 ; run; 为了研究两个因素的主效应和交互作用,使用如下ANOVA过程 : proc anova data=rubber; class a b; model stren=a b a*b; run; ANOVA也可以用来分析正交设计的结果。 5用Analyst作方差分析 Analyst的Statistics - ANOVA菜单提供了七种方差分析方法,我们这里只介绍前三种:单因素方差分析(One-Way ANOVA)、非参数单因素方差分析(Nonparametric One-Way ANOVA)、多因素方差分析(Factorial ANOVA)。 为了对SASUSER.VENEER进行方差分析,选Statistics - ANOVA - One-Way ANOVA),弹出对话框,我们要指定因变量(Dependent,即指标)和自变量(Independent,即因素)。用这里的Tests钮可以选择一些其他的检验,比如对各组方差相等假设的检验,稳健的Welch方差如权方差分析等。Means按钮用来进行多重比较,可以选择多种比较方法。这个菜单调用的是PROCANOVA,所以最后的结果与上面编程得到的结果一致。 用Statistics - ANOVA - Nonparametric One-WayANOVA可以作Kruskal-Wallis检验。它调用PROC NPARIWAY。 用Statistics - ANOVA - Fa,ctorial ANOVA可以进行多元方差分析。它调用PROC GLM,这个过程与ANOVA的差别在于它允许非均衡设计。对于均衡设计如上面的橡胶试验这里得到的结果与PROC ANOVA得到的结果是一致的。2.4 单因素方差分析的SAS程序在阅读以下内容之前,请先阅读第一章SAS软件基本操作。单因素实验设计又称为完全随机化实验设计。该实验设计要求实验条件或实验环境的同质性很高。例如,比较a个作物品种的产量,每一品种设置n个重复,全部实验共有an次。根据完全随机化实验设计的要求,试验田中的an个试验小区的土质、肥力、含水量、小气候、田间管理等条件必须完全一致。至于哪一个品种的哪一次重复安排在哪一个小区,完全是随机的,因此得到了“完全随机化实验设计”这一名称。例2.9 下面以课本中例8.1的数据为例,给出单因素方差分析的SAS程序。 解:先按以下输入方式建立一个称为a:2-5data.dat的外部数据文件。164.6165.3164.8166.0165.8264.5265.3264.6263.7263.9367.8366.3367.1366.8368.5471.8472.1470.0469.1471.0569.2568.2569.8568.3567.5SAS程序如下:options linesize=76;data wheat;infile a:2-5data.dat; input strain hight ;run;proc anova;class strain;model hight=strain;means strain / duncan;means strain / lsd cldiff;run;在PROC ANOVA过程中的CLASS语句(分类语句)是必须的,而且一定要放在MODEL语句之前。在方差分析中要使用的分类变量(因素),首先要在CLASS语句中说明。分类变量可以是数值型的,也可以是字符型的。MODEL语句用来规定因素对实验结果的效应,一般形式为,因变量因素效应。本例即为株高品系效应。MEANS语句应放在MODEL语句之后,MEANS语句后列出希望得到均值的那些变量。MEANS语句有很多选项,下面列出几个与本教材有关的选项,将选项写在MEANS语句的“/”之后。DUNCAN: 对MEANS语句列出的所有主效应均值进行DUNCAN检验。SNK: 对MEANS语句列出的所有主效应均值进行Student-Newman-Keuls检验。T | LSD: 对MEANS语句列出的所有主效应均值进行两两t检验,它相当于在样本含 量相同时的LSD检验。ALPHA 均值间对比检验的显著水平,缺省值是0.05。当用DUNCAN选项时只能取0.01、0.05和0.10,对于其它选项,可取0.0001到0.9999之间的任何值。CLDIFF: 在选项T和LSD时,过程将两个均值之差以置信区间的形式输出。CLM: 在选项T和LSD时,过程把变量的每一水平均值以置信区间的形式输出。执行上述程序,输出结果见表213。表 213: 例2.9方差分析输出结果 The SAS System Analysis of Variance Procedure Class Level InformationClassLevelsValuesSTRAIN51 2 3 4 5 Number of observations in data set = 25 The SAS System Analysis of Variance ProcedureDependent Variable: HIGHTSum ofMeanSourceDFSquaresSquareF ValuePr FModel4131.74000032.93500042.280.0001Error2015.5800000.779000Corrected Total24147.320000R-SquareC.V.Root MSEHIGHT Mean0.8942441.3118460.8826167.2800SourceDFAnova SSMean SquareF ValuePr FSTRAIN4131.74000032.93500042.280.0001 The SAS System Analysis of Variance Procedure Duncans Multiple Range Test for variable: HIGHT NOTE: This test controls the type I comparisonwise error ra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年大型数据中心建设和运营合同
- 2024年产品代理及销售合同
- 绿色能源推广以工代赈项目实施方案
- 城市基础设施安全生产三年计划方案
- 2024年国际货运代理与清关服务合同
- 江苏科技大学《当代西方政治制度》2021-2022学年第一学期期末试卷
- 病死畜禽无害化处理的法律法规方案
- 物流公司员工绩效考核及薪资分配方案
- 2024年卫星通信技术许可与服务合同
- 环保行业工人薪资支付应急方案
- 炉窑冬季施工方案
- 高等数学知识点
- 中建高大模板专家论证施工方案
- “互联网物流”课件
- 聚合物电解质简介
- 中国上市公司治理准则(修订稿)
- 粉丝见面会策划方案
- 主机改造方案图解
- 红外物理与技术(第2版)杨风暴课后习题解答
- 小说阅读的方法和技巧课件
- 入户申请审批表(正反面,可直接打印)
评论
0/150
提交评论