




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 SAS基本统计过程 各种统计分析方法在SAS中大都以“过程”的形式存放在SAS过程库中,当我们需要进行某种统计分析时,只需用PROC步去调用相应的过程,即可得到所需要的分析结果。 下面分别介绍统计资料的描述和常用的几种假设检验方法。1 计量资料的描述 SAS中可以对计量资料进行描述的过程有很多,我们介绍两个常用的过程:MEANS和UNIVARIATE过程。1. MEANS过程 MEANS过程用来对数据集中的数值变量计算简单描述统计量。该过程由下列语句控制:PROC MEANS options statistics-keywords; VAR variables; CLASS varia
2、bles;该过程除PROC语句(下划线部分)是必须的外,其它的语句都是可选的。 1).PROC MEANS语句 PROC MEANS options statistic-keywords; 这里的options可以有: DATA=SAS data set:用以说明过程分析处理的数据集的名字,若省略,则用最近产生的SAS数据集; ALPHA=value:设置计算概率可信区间的置信水平,这个ALPHA在0-1之间取值,默认为0.05。 关于statistic-keywords,在MEANS过程中可计算如下的一些统计量:描述统计量N:例数, MEAN:均数, STD:标准差, MIN:最小值,MAX
3、:最大值, SUM:和, CV:变异系数, STDERR:标准误, SKEW:偏度系数,KURT:峰度系数, CLM:可信区间,LCLM:可信区间下限,UCLM:可信区间上限分位数MEDIAN :中位数QRANGE :四分位数间距P1、P5、P10、 P25、P50、P75、P90、P95、P992).VAR语句 VAR variables; 规定要计算描述性统计量的数值变量及顺序。若省略该句,则对所有数值变量计算描述性统计量,除BY、CLASS语句中列出的变量之外。3).CLASS语句 CLASS variables; 该语句用CLASS变量定义的观测组分别计算其相应的描述统计量。例4-1现
4、有40名学生的相关信息,包括编号、性别、体重和身高。试计算:(1) 所有40名学生体重和身高的均数和标准差;(2) 分男女生分别计算其体重和身高的均数和标准差;(3) 结果保留2位小数。data student; input id sex $ height weight;cards;1女1605921男174702女1634622女158413女1635623女170564女1535024男170575男1806425男165556女1565226女160537女1555027女158458女1494128男160559女1605829男1806510女1585430男1846711女1645
5、631男1736512女1504032女1645213女1675233男1716214女1585034女1584615女1524335男1685516女1604536男1787217女1534537女1605118女1625438女1685119女1524339男1745820女1605440男16756;Run;Proc print;Run;首先建立SAS数据集并打印出来PROC MEANS DATA= student;VAR weight height ;Run;(1) 所有40名学生体重和身高的均数和标准差;调用MEANS过程计算常规描述性统计量, DATA= student选项指明分析
6、时数据所在的SAS数据;VAR语句指明要对哪些变量进行统计分析。计算结果如下: The MEANS Procedure Variable N Mean Std Dev Minimum Maximum - height 40 163.3750000 8.6815085 149.0000000 184.0000000 weight 40 53.6000000 7.9414524 40.0000000 72.0000000 -Variable:变量名 N:例数 Mean:均数 Std Dev:标准差 Minimum:最小值 Maximum:最大值 PROC MEANS data= student;V
7、AR weight height ;CLASS sex; /*添加此行语句*/RUN;(2) 分男女生分别计算其体重和身高的均数和标准差;Class 语句指明按SEX变量的取值(男、女)分别计算VAR语句中变量的统计量;结果如下: The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.6153846 6.7766568 160.0000000 184.0000000 weight 13 61.6153846 6.0074740 55.0000000 72.000000
8、0 女 27 height 27 158.9259259 5.3488024 149.0000000 170.0000000 weight 27 49.7407407 5.5093808 40.0000000 59.0000000 -(3) 结果保留2位小数PROC MEANS data= student maxdec=2;VAR weight height ;CLASS sex;RUN; The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.62 6.78 160.
9、00 184.00 weight 13 61.62 6.01 55.00 72.00 女 27 height 27 158.93 5.35 149.00 170.00 weight 27 49.74 5.51 40.00 59.00 -maxdec=2选项指明计算结果要保留的小数位数,注意该选项在PROC MEANS语句中;结果如下:添加此选项2. UNIVARIATE过程 该过程除可以完成类似MEANS过程的基本统计量的计算外,它还可以计算以下统计量: 描述变量极端值的情况; 计算分位数,如中位数; 生成若干个描述变量的分布图;对数据进行正态性检验;对数据进行配对t检验和配对秩和检验。 该过
10、程由下列语句控制:PROC UNIVARIATE options; VAR variables; CLASS variables; 其中,下划线的部分是必须的,其余语句都是可选的。下面介绍该过程使用的语句: CLASS语句和BY语句用法与MEANS过程相同,这里就省略了。1). PROC UNIVARIATE语句 PROC UNIVARIATE options; 用于UNIVARIATE过程语句的选项有(与MEANS过程相同用法的选项略去说明): DATA=SAS-data-set:指定分析的数据集。 NORMAL:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出
11、(即进行正态性检验)。 PLOT:要求生成一个茎叶图(或水平直方图),一个盒形图和一个正态概率图。PROC UNIVARIATE data= student;VAR height ;RUN;例4-2:我们利用前面例4-1建立的数据集student来看看univariate过程的输出结果。用univariate过程对身高变量进行分析 程序如下: Moments N 40 Sum Weights 40 Mean 163.375 Sum Observations 6535 Std Deviation 8.68150849 Variance 75.3685897 Skewness 0.54153667
12、 Kurtosis -0.263264 Uncorrected SS 1070595 Corrected SS 2939.375 Coeff Variation 5.31385371 Std Error Mean 1.37266702 Basic Statistical Measures Location Variability Mean 163.3750 Std Deviation 8.68151 Median 161.0000 Variance 75.36859 Mode 160.0000 Range 35.00000 Interquartile Range 11.00000Varianc
13、e:方差, Uncorrected SS:未校正平方和, Corrected SS:校正平方和 Sum Observations:总和,Coeff Variation:变异系数, Std Error Mean:标准误Mode:众数,Range:全距, Interquartile Range:四分位数间距 Extreme Observations -Lowest- -Highest- Value Obs Value Obs 149 15 174 38 150 23 178 32 152 37 180 9 152 29 180 18 153 33 184 20 Tests for Location
14、: Mu0=0 Test -Statistic- -p Value- Students t t 119.0201 Pr |t| = |M| = |S| .0001 Quantiles (Definition 5) Quantile Estimate 100% Max 184.0 99% 184.0 95% 180.0 90% 176.0 75% Q3 169.0 50% Median 161.0 25% Q1 158.0 10% 152.5 5% 151.0 1% 149.0 0% Min 149.0Students t:t检验,与总体均数0进行比较(配对t检验)Sign:符号检验Signed
15、 Rank:符号秩检验(配对秩和检验)左边表中是对应的百分位数;上面表中是极值情况,列出5个最大值和5个最小值.(2) 用univariate过程对身高变量进行正态性检验 程序如下:PROC UNIVARIATE data= student normal;VAR height ;RUN;在这PROC语句中添加选项“normal”即可。 Tests for NormalityTest -Statistic- -p Value-Shapiro-Wilk W 0.960959 Pr D 0.0211Cramer-von Mises W-Sq 0.094471 Pr W-Sq 0.1321Anders
16、on-Darling A-Sq 0.537864 Pr A-Sq 0.1635四种正态性检验,通常情况下只需看W统计量,此例W=0.960959,P=0.1806,大于0.05,因此,体重数据服从正态分布。注意:一般样本量小于2000时Shapiro-Wilk检验结果比较好;样本量大于2000时,可以看Kolmogorov-Smirnov的检验结果,在样本量小时其结果不可靠。绘制直方图程序语句:PROC UNIVARIATE data= student;Histogram height ;RUN;语句选项:1、拟合正态曲线Histogram height / normal ;2、指定直方图的组
17、中值Histogram height / midpoints=35 40 45 50 55 60 65 70;2 计量资料的统计推断 SAS统计分析过程提供了强大的分析模块。我们先介绍t检验、秩和检验及直线相关回归分析模块。1.两样本均数比较的t-检验 在SAS系统中,两组资料比较的t-检验是用TTEST过程来实现的。TTEST过程计算用CLASS变量的两个水平识别两个观测组中每一个的样本均值,并检验总体均值相等的假设。 .两组观测的方差相等; .在每个组内,各个观测独立且服从正态分布。 如果两组观测的方差不等,则计算近似的t统计量(t)一. t-检验语句格式:PROC TTEST optio
18、ns; CLASS variables; VAR variables; 下划线部分是必须的,其余语句是可选的。proc ttest options; 这里的选项常用的有:Data=SAS-data-set:指定TTEST过程所用的SAS数据集;如果缺省,则使用最近生成的SAS数据集。Alpha=p,p默认为0.05,设置可信区间水平:100(1-p)%h0=数值,默认为0,设置要检验的总体参数值。2) Class variables; 给出分类变量名(组别变量),这里的分类变量必须且只须有两个水平(变量只有两个取值)。 TTEST过程对按分类变量分成的两个观测组进行t检验。 Class变量可以
19、是数值型的,也可以是字符型的。3) Var variables; 指出要比较其均值的变量名。如果缺省,则对输入数据集中的所有数值型变量进行分析,除出现在Class语句中的数值变量以外。 下面是关于t检验的一个例子:例4-3(两样本均数比较的t检验):两组雌性大鼠分别以含高蛋白和低蛋白饲料喂养后,观察第28天到第84天之间,每只大鼠所增体重(g),结果见下表,试作两样本比较的t检验。高蛋白组1341461041241611078311312997123低蛋白组701181018510713294Data ex1;Input x grp;Cards;134 1 146 1 70 2 118 2 ;
20、PROC TTEST data=ex1;CLASS grp;VAR x;RUN;The TTEST ProcedureStatisticsVariablegrpNLower CLMeanMeanUpper CLMeanLower CLStd DevStdDevUpper CLStd DevStdErrMinimumMaximumx111105.02120.09135.1615.67222.4339.3636.762883161x2781.926101120.0713.2920.62445.4157.79570132xDiff (1-2)-3.22219.09141.40416.21421.77
21、33.13210.526variable::分析的变量Mean:均数,Std Dev:标准差,Ste Err:标准误Lower CL XX:95%可信区间下限 如 Lower CL Mean: 均数的95%可信区间下限 Lower CL Std Dev: 标准差的95%可信区间下限 Upper CL XX:95%可信区间上限分组变量T-TestsVariableMethodVariancesDFtValuePr|t|xPooledEqual161.810.0885xSatterthwaiteUnequal13.81.850.0859Equality of VariancesVariableMe
22、thodNumDFDenDFF ValuePrFxFolded F1061.180.8735方差齐性检验P=0.8735,两组资料总体方差齐同看此表之前应先看下面的方差齐性检验表,由于两组资料总体方差齐同( P=0.8735,两组资料总体方差齐同),故看“Equal”一行的结果 :t=1.81,p=0.0885;如果方差不齐,则看“Unequal”一行的结果。2.配对资料比较的t-检验 进行配对资料比较时,我们是利用各对子的差值d与零均数进行比较来实现的。此时,问题的实质已经转化为单变量(d)的统计分析问题了。 例4-4 (配对资料的t检验): 某医师用一种中药治疗高血压患者,观察患者治疗前后
23、舒张压(mmHg)的变化,数据如下表,试用配对t检验比较中药是否对高血压患者治疗前后舒张压的变化有影响。编号123456789101112治前110 115133133126108110110140104120120治后9011610113111088921041268688112注意在录入数据时一定要一对一对数据的录入!data ex2;input x1 x2; d=x1-x2;cards;110 90115 116133 101133 131126 110108 88110 92110 104 120 88120 112;run;proc means n mean std t prt; v
24、ar d;run; 方法1:(用MEANS或UNIVARIATE过程处理)proc univariate; var d;run; PROC TTEST data=ex2 ; PAIRED x1*x2 ;RUN;方法2: (用TTEST过程来处理)StatisticsDifferenceNLower CLMeanUpper CLLower CLStdDevUpper CLStdErrMinimumMaximumMeanMeanStd DevStd Devx1 - x2128.777915.41722.0557.401810.44917.7413.0163-132T-TestsDifferenceDFtValuePr|t|x1 - x2115.110.000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年CPBA商业分析师考生心理建设技巧试题及答案
- 2025年跨境电商产业园项目合作计划书
- 胸心外科复习思考题
- 幼儿园大班数学老师教育计划(3篇)
- 土建项目经理个人年终总结范文(5篇)
- 特殊教育的概念与意义
- 中学生演讲稿大全集(范文9篇)
- 信息技术与小学语文阅读教学融合的路径研究
- 生成式人工智能赋能学校教育创新的实践探索
- 水质净化装置行业跨境出海战略研究报告
- 2025年浙江宁波奉化区农商发展集团有限公司招聘笔试参考题库附带答案详解
- 2025年《宏观经济政策与发展规划》核心备考题库(含典型题、重点题)
- 【百强校】【黑吉辽卷】黑龙江省哈尔滨市第三中学2025年高三学年第一次模拟考试(哈三中一模)语文试卷
- 2025年高考物理一轮总复习:牛顿运动定律(原卷版)
- 2025年医院基建科面试题及答案
- 全国计算机等级考试一级试题及答案(5套)
- 公司安全事故隐患内部举报、报告奖励制度
- 外周灌注指数PI
- 《光伏发电工程预可行性研究报告编制规程》(NB/T32044-2018)中文版
- 小学生竞选班干部ppt
- 服装购销合同(完整版)
评论
0/150
提交评论