版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源统计分析系统SAS软件敖雁(扬州大学)Tel:7979358E-mail:ay@SAS概述SAS含义:StatisticalAnalysisSystemSAS是美国使用最为广泛的三大著名统计分析软件SASSPSS和SYSTAT)之一SAS的广泛应用电信(运用SAS软件产品进行网络运营分析和管理)金融(SAS帮我们发现有竞争力的商机)保险制造(SAS软件帮助日本富士通集团了解客户的需求,上海宝钢利用SAS软件改善产品质量和运输过程)证券公共事业(香港选择SAS来做2001年的人口普查)美国SAS软件研究所1966年开始研制1976年商品化1985年SASPC微机版本1987年DOS下的SAS6.03版(6.04版)推出WINDOWS下运行,SAS6.11版,SAS6.12版,SAS8.0版,SAS8.2版,SAS9.0版,SAS9.1版操作系统UNIXWINDOWSDOS适用人群具有不同水平与经验的用户初学者可以较快掌握其基本操作熟练者可用于完成各种复杂的数据处理(科研工作者和统计学家)统计分析常用生物统计分析多变数分析试验设计次数资料的测验非参数测验常用生物统计分析描述性统计统计推断方差分析线性相关和回归分析协方差分析非线性回归分析多变数分析多元方差分析主成份分析因子分析聚类分析典范相关分析第一章SAS系统的工作环境进入SAS系统SAS主窗口与发布命令浏览SAS常用子窗口的功能与提交程序进入帮助菜单浏览SAS主窗口与发布命令Sas主窗口
------应用工作空间
AWS:applicationWorkSpace------显示管理界面
DMS:DisplayManagementSystem
第二章SAS程序初步SAS系统对数据的管理
SAS数据集(数据文件)
SAS数据库(存数据集)文件夹(与数据库相对应)
使用Libname命令可以指定库标记。它的一般格式如下:Libname库标记’文件夹位置’
选项;如:libnamea’c:\user’;临时库1个名为WORK永久库多个SAS自动指定两个库标记
SASUSER:永久库c:\sas\sasuser
WORK:临时库在程序中引用该库中的数据集可以省略库标记,即它被认为是缺省的数据库。c:\sas\saswork
SAS数据集则对应文件,文件名为数据集名,而扩展名为.sd2的文件。数据集名
库标记.数据集名如:libnamea’c:\user’;Dataa.new
数据步创建和处理数据集的一些语句:1)DATA语句它的主要功能是:标志数据步的开始。命名将要创建的SAS数据集。DATA语句的一般形式如下:DATA
数据集名;Datanew;(work.new)INFILE语句2)INFILE语句用于从外部文件读入数据,必须出现在INPUT语句之前。它的主要功能是:确定一个包含原始数据的外部文本文件。INFILE语句的格式如下:INFILE
’外部文件的所在位置及名称’
选项;CARDS语句3)CARDS语句用于直接输入数据,标志着数据块的开始。格式如下:CARDS;
数据块;
INPUT语句4)INPUT语句用于向系统表明如何读入每一条记录。它的主要功能有:读入由语句指定的数据列。为相应的数据域定义变量名。确定变量的读入模式。INPUT语句的格式如下:INPUT
变量名[变量类型起止列数]...;方括号表示其中的内容为可选,如果不输入,系统会以默认值代替。数据的三种输入方式
【直接输入方式】【外部文件读入方式】【读入其他格式的数据文件】例子:datatemp;命名将要建立的数据集为work.tempinputxy@@;要输入的变量为x、y,并且连续输入cards;直接输入数据,数据块开始345678903567891023657745数据块;数据块结束【外部文件读入方式】
如果刚才的数据已经事先输好,在硬盘上的“C:\USER”文件夹内存为temp.dat文件,该文件内容如下(纯文本):345678903567891023657745程序datatemp;命名将要建立的数据集为work.tempInfile’c:\user\temp.dat’;指定外部数据文本文件名inputxy@@;要输入的变量为x、y,并且连续输入Run;数据步结束,以上语句可以执行了【读入其他格式的数据文件】
SAS可以利用FILE菜单上的import命令将其他格式的数据文件导入SAS系统,创建SAS自己的数据集。可以导入的数据文件格式有:dBase数据库,EXCEL工作表,LOTUS的数据库,纯文本的数据文件等1.选择导入的数据格式,从下拉式菜单上选择DBF格式,单击NEXT按钮。
2.给出数据文件的位置和文件名,在对话框中键入C:\USER\temp.DBF,或点BROWSE直接从上面选择文件,选好后单击NEXT按钮。
3.选择导入的目的地,即指定要创建的数据集的名字和存放的数据库名,先在左面的对话框选择数据库名WORK(临时库),在右面的对话框键入数据集的名字li1_1,此名可任意起,少于8个字符,选择完后,单击FINISH按钮,就完成了此次操作。SAS程序的程序步
PROC
过程名[DATA=数据集名][选项];
该过程的专用语句描述;
[VAR变量序列;][WHERE条件表达式...;]
[BY变量序列;]Run;方括号里的语句均可以省略,在这时该过程按最通常的情况来处理,即:处理最新建立的SAS数据集。处理所有的变量(或对一个计算过程来说处理全部数值变量)。一次处理整个数据集而不是某个子集。DATA参数、VAR语句但有时我们的要求超出了默认方式所提供的范围,这时就要动用方括号里的秘密武器了。DATA参数指明所需处理的数据集名,请注意在这里它是一个参数而不是语句。VAR语句如果只想分析某一个或几个特定的变量,则可用VAR语句指定它们。例如只想显示变量x的列表,则PRINT过程如下:Procprint;
Varx;Run;如果想显示x和y两个变量,则将VAR语句改为如下形式即可:varxy;
Where语句Where语句如果你想处理的不是整个数据集而只是其中符合某种条件的子集,那么WHERE语句将会非常有用,如上例中我们只想显示大于50的x变量的值,则在PRINT过程中加入where语句如下:Wherex>50;如果条件变为x、y两个变量的值都要大于50,则where语句改为:wherex>50andy>50;SAS语言中常用的逻辑表达符号有and(和)、or(或)、xor(异或)、ne(不等)等。By语句By语句如果你需要分组处理数据,例如要按性别分组输出统计结果,你有两种选择,一是用不同的where语句将同一个程序步反复写几遍;另一种显然更酷的方法就是采用by语句。如上例我们想按不同的y值输出x值,则加入by语句如下:Byy;PROCSORTDATA=数据集名;
BY变量名列;RUN;结构化语句简介分支(条件)语句循环语句分支(条件)语句
【语法格式】语法格式如下:IF
条件THEN
程序块;ELSE
程序块;【应用实例】
例3.1在产生数据集temp的同时为其增加变量class,当x>50时class=1,否则class=2。解:程序如下:datatemp;数据步开始,定义要建立的数据集为WORK.TEMP
inputxy@@;要输入的变量为X和Y,采用数据连续读入方式ifx>50thenclass=1;建立新变量,如果X>50,则CLASS=1
elseclass=2;否则,CLASS=2cards;数据块开始345678903567891023657745数据块;数据块结束procprint;列表输出数据集中的数据,检查有无错误run;程序结束,开始运行以上程序
循环语句
【语法格式】DO
起始条件TO
终止条件;
程序块;END;【应用实例】
例3.2在产生数据集temp的同时为其增加变量class,取值依次为1、2。解:程序如下:Datatemp;数据步开始,定义要建立的数据集为WORK库的TEMP
doclass=1to2;循环开始,循环控制变量为CLASS,取值从1到2
inputxy@@;输入的变量为X和Y,并且采用数据连续读入方式
output;用OUTPUT语句将循环控制变量写入数据集中
end;循环结束cards;数据块开始345678903567891023657745数据块;数据块结束run;程序结束,开始运行以上程序第三章统计图
两个专门用于绘图的程序步GCHART过程,用于绘制各种常用的统计图GPLOT过程,而后者则用于绘制散点图。§3.1GCHART过程
【绘图语句选项】
MISSING指定绘图时要将变量的缺失值也包括在内。
TYPE=做图类型关键字指定要做图的类型,即图中条块代表的含义:缺省值是频数(FREQ);如果指定了选择项SUMVAR,则缺省值为总和(SUM)。可选的关键字有:
FREQ要求按指定变量的频数做图。
PERCENT要求按在横轴刻度表示范围内出现的频数占总数的百分比做图。
CFREQ按累计频数做图。
CPERCENT按累计百分比做图。
SUM只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的总和。
MEAN只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的均数。
SUMVAR=求和变量指定使用TYPE=SUM或MEAN时,用于求总和、均值的变量。
LEVAL=n如果绘图变量是连续变量,用该选项产生有N个组段的图形。
GROUP=分组变量要求产生以分组变量的值分组的并排图。
SUBGROUP=亚组变量要求每个图形内部再按亚组变量的值分块。
CAXIS=颜色指定坐标轴的颜色。
CTEXT=颜色指定坐标轴文本的颜色。应用实例
§3.2GPLOT过程
【GPLOT过程的选项】
分层变量
表示所做的散点图按指定变量的取值分层,默认按不同颜色来区分。语句选项
OVERLAY同一语句做的图重叠在同一个坐标系中显示。
HAXIS=数值
定义横坐标的刻度。
VAXIS=数值
定义纵坐标的刻度。
CAXIS=颜色
定义坐标轴的颜色。
CTEXT=颜色定义坐标轴文本的颜色。【SYMBOL语句选项】
VALUE=符号可用的符号及相应名称有:+PLUS★STAR■SQUARE
◆DIAMOND▲TRIANGLEI=连线方式①JOIN用直线连接。②SPLINE用光滑的曲线连接。NEEDLE向横坐标画垂线。
RL添加回归直线。WIDTH=宽度定义数据点和连线的宽度。
COLOR=颜色定义
应用实例
程序第四章定量资料的统计描述和t、u检验
对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是:UNIVARIATE过程提供单个变量的详细描述和对其分布类型的检验。MEANS过程提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。TTEST过程对变量进行t/u检验。主要输出结果NNMISS(缺值个数)MINCVMAXKURTOSIS(峰度系数)RANGESKEWNESS(偏度系数)SUMT(t值)MEANPRT(t值概率)VAR(方差)MEDIUM(中位数)STD(标准差)MODE(众数)STDERR(平均数的标准误)MEANS过程格式Procmeans选项;Var变量表;By变量;Class变量表;Freq变量;WEIGHT变量;Outputout=SAS数据集统计数=变量表;Run;求基本统计数单个平均数的假设测验两个平均数的成对比较两个平均数的假设测验成组(组群)比较成对比较成对比较
UNIVARIATE过程
Univariate过程对数值变量给出比较详细的变量分布的描述,其中包括:变量的极端值。常用的百分位数,包括四分位数和中位数。用几个散点图描绘变量的分布。频数表。确定数据为正态分布的检验。Univariate过程常用的选项如下NOPRINT
禁止统计报告在OUTPUT视窗中输出PLOT
绘出茎叶图、箱式图和正态概率图FREQ
给出频数表NORMAL
对变量进行正态性检验【关键字】
SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:基本统计量NMEANSTD(标准误)CVSUMVAR(方差)RANG
百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX
与假设检验有关的统计量STDMEAN(标准误)T
TTEST过程
组群比较例
将钩体病人的血清分别用标准株和水生株做凝溶实验,测得稀释倍数如下。问两组的平均效价有无区别。标准株:1002004004004004008001600160016003200
水生株:100100100200200200200400400统计分析系统SAS软件
敖雁Tel:7979358E-mail:ay@第五章方差分析和协方差分析ANOVA过程
-----速度快,功能有限,平衡资料GLM过程
-----速度慢,但功能强大(非平衡资料协方差分析)其实,这里的速度快慢只是相对而言,SAS的处理速度是首屈一指的。举个例子,一个有6600条记录的,7因素的,交叉设计的方差分析(是不是已经有人喊头痛了?),我先是用SPSSFORWIN957.5来做,运行了大约10分钟才出结果。我又换用SASFORWIN956.12来做,结果用了――2.47秒!§5.1方差分析数据集的建立技巧
5.1.1方差分析的数据集格式统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的:-------数据集中应至少有一个结果变量,用于记录不同处理因素水平下观察值的大小;
-------至少有一个处理因素变量,用于记录处理因素的类型及其水平数。例5.1某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定,请给出数据集的结构。解:数据集中应有两个变量,x和group。x记录肺活量的大小;group取值为1、2或3,分别代表石棉肺患者、可疑患者及非患者。例5.2某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度,请给出数据集的结构。解:数据集中应有三个变量,x、group和worker。x记录尿氟浓度;group取值为1、2或3,分别代表工前、工中及工后;worker取值为1到10,分别代表10名工人。5.1.2方差分析数据集的建立技巧可见方差分析的数据集其变量取值有一定的规律,因此可以利用循环语句和判断语句来简化输入。例5.3请建立例5.1的数据集。
例5.4请建立例5.2的数据集。
§5.2引
例
例5.5请回答在例5.1中三组石棉矿工的用力肺活量有无差别?解:对于单因素的方差分析,在比较之前一般要考虑方差齐性的问题。这里可以用GLM过程中的HOVTEST选项实现,实际上这也是在SAS中做方差齐性检验的唯一途径。§5.3ANOVA过程
5.3.2语法说明
Means语句的选项主要用来指定两两比较的方法和检验水准,主要有:两两比较方法BON(Bonferroni检验)、DUNCAN(新复极差法)、DUNNETT、GABRIEL、LSD(最小显著差法T)、SCHEFFE、SIDAK、SNK(q检验)、TUKEY、WALLER
其它ALPHA=p值更改水准5.3.3结果解释
方差分析的统计结果部分
§5.4GLM过程
GLM过程:GeneralLinerModel过程,它使用最小二乘法对数据拟合广义线形模型。GLM过程中可以进行回归分析、方差分析、协方差分析、剂量――反应模型分析、多元方差分析和偏相关分析等等,其功能之强大可见一斑。5.4.1语法格式
这里我们只解释协方差分析的做法:由于协变量并非我们研究的处理因素,因此在CLASS语句中不能有它的位置;但是,另一方面协变量要影响结果变量的取值,因此必须在模型中引入,怎么办?只要在MODEL语句中将其写入即可(写在分析变量的首位)。5.4.2结果解释
GLM过程的结果和ANOVA过程是雷同的――注意是雷同而不是相同。在处理因素、协变量及交互作用的检验结果部分,GLM过程会给出两种结果(Ⅰ类和Ⅲ类结果)。在我们用到的范围里,两种结果是完全相同的,所以用哪一种都可以。5.4.3应用实例
方差分析基础常用试验设计的ANOVA缺省数据的方差分析方差分析基础单向分组资料的ANOVE1)样本容量相等(modely=trt)2)样本容量不相等(modely=trt)3)数据转换(modelyp=trt)
单一自由度的比较(modely=trt)两向分组资料的ANOVA(modely=mh)系统分组资料的ANOVA(modely=trtpot(trt))常用试验设计的ANOVA
完全随机化设计(单向分组资料…)随机区组设计
1)单因素(modely=blktrt)2)两因素(modely=blkaba*b)3)三因素(modely=blkaba*bca*cb*ca*b*c)(modely=blka|b|c)拉丁方设计(modely=rct)二裂式裂区设计(modely=blkaa*blkba*b)多点品种区域试验(modely=r(u)uvu*v)模型定义中可用|和@n简化表达方法协方差分析过程格式PROCGLM选项;CLASS变量表;MODEL依变量=效应/选项;MEANS效应/选项;LSMEANS效应/选项;PROCGLM语句选项可设定分析数据集等;CLASS指明分类变量,协方差分析时必须设定,必须在MODEL语句之前;MODEL定义协方差分析的线性数学模型,modely=at;一般的协方差分析模型
modely=tx(t);分离斜率模型
modely=txx*t;共斜率模型
model后SOLUTION的选项给出参数的估计值MEANS语句用于计算依变量的平均数,选项用于多重比较;LSMEANS语句计算效应的最小二乘估计的平均数(LSM)
选项E=效应,设定测验误差项,缺省为试验分析误差.STDERR给出LSM的标准误,TDIEF,PDIEF要求显示测验H0:LSM(i)=LSM(j)的t值和概率值.应用举例单向分组资料的协方差分析两向分组资料的协方差分析单因素试验的协方差分析第六章线性相关、回归分析与logistic回归相关分析(CORR)回归分析(REG)广义线型模型(GLM)REG过程
语法格式
语法说明
MODEL语句,必需语句,定义回归分析模型VAR语句为可选的,指定用于计算交叉积的变量PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。【过程选项】
OUTEST=数据集名指定统计量和参数估计输出的新数据集名。NOPRINT禁止统计结果在OUTPUT视窗中输出。SIMPLE输出REG过程中所用的每个变量的基本统计量。CORR输出MODEL语句或VAR语句中所列变量的相关矩阵。ALL等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。【MODEL语句】
MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。MODEL语句中常用的选项
NOINT在模型中不拟合常数项。STB输出标准化回归系数。CLI输出个体预测值的95%可信区间上下限。CLM输出因变量期望值(均值)的95%可信区间上下限。R输出个体预测值、残差及其标准误。P输出实际值Yi、预测值和残差等。如已选择了CLI、CLM和R,则无需选择P。【关键字】结果解释
如果在MODEL语句中使用CLI、CLM选项,则系统输出因变量均值以及个体预测值的95%可信区间上下限,输出如下
CORR过程
PROCCORR
[选项];
[VAR变量名列;[1]
WITH变量名列;[2]
WEIGHT变量名;
FREQ变量名;
BY变量名列;]语法说明
除了PROC语句为必需,其他语句都是可选的,如果省略所有的可选语句,则对所有变量作相关分析。VAR语句,可选的语句,定义相关分析的变量WITH语句,可选的语句,定义分析相关性的另一组变量PROCCORR;
VARAB;WITHXYZ;结果解释
例
下表给出了12名不同年龄(岁,X)妇女的收缩压测量值(mmHg,Y),试进行回归分析。
(1)制作散点图;(2)建立由X预报的回归方程,制作回归直线;(3)对回归方程及回归系数b进行假设检验;(4)绘制的95%可信区间;(5)建立单个Y值的预报方程;(6)计算积矩相关系数,并进行假设检验。多元线性回归
REG过程:只要把要分析的多个自变量名放在MODEL语句中应变量后即可。语法选项
(MODEL语句选项)SELECTION=method,规定变量筛选的方法,method可以是以下几种选项FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量MODEL语句选项NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型MODEL语句选项SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15标准化偏回归系数STB可用来比较各个自变量作用的大小COLLIN要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件数,来判断自变量之间有无多重共线性。
应用实例
现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中,试进行多元线性回归分析
程序如下databk4_1;inputidyx1x2@@;cards;…;procregdata=bk4_1;
modely=x1x2/stb;
modely=x1x2/selection=stepwisestb;run;程序运行的主要结果相关和偏相关分析REG过程
logistic回归
如果应变量为分类的变量,则不符合一般回归分析模型的要求,可用logistic回归来分析。Logistic回归按反应变量的类型分为:两分类的Logistic回归多分类有序反应变量的Logistic回归多分类无序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童学习能力障碍的健康宣教
- 《机械制造基础》课件-05篇 第八单元 超精密加工
- 《机械设计基础》课件-第5章
- 《计算机表格处理》课件
- 【培训课件】青果园 万名大学生创意创业园区项目介绍
- 《认识HS商品分类》课件
- 社区户外旅游组织计划
- 生物学课程的扩展与拓展计划
- 提升师生互动频率的计划
- 2024-2025学年年七年级数学人教版下册专题整合复习卷28.1 锐角三角函数(2)(含答案)-
- 出纳优秀员工理由
- 地下工程概论-课件汇总全套ppt完整版课件最全教学教程整套课件全书电子教案
- 酒店工程装饰装修施工方案参考模板范本
- 超市便利店缺货登记表
- [QC成果]高大模板支撑系统施工质量控制
- 煤矿区队安全风险管控日分析制度办法
- (完整版)霍夫斯塔德文化差异五个维度
- 《地形对聚落及交通线路分布的影响》教学设计
- 《中国旅游地理》新课程标准
- seagull船员英语STCW甲板操作级答案
- 脑出血后遗症临床路径
评论
0/150
提交评论