文库发布:sas应用基础_第1页
文库发布:sas应用基础_第2页
文库发布:sas应用基础_第3页
文库发布:sas应用基础_第4页
文库发布:sas应用基础_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS软件应用基础之六常用的统计分析过程1数据分析SAS系统提供了功能强大的数据分析工具。除了可以计算出一些常用的统计量(均值、总和、中值、方差、标准差、相关系数等等)之外,还可以进行大量的统计推断。2常用统计量名词表

N(未缺失的观测个数)、NMISS(缺失的观测个数)、MEAN(均值)、STD(标准差)、MIN(最小值)、MAX(最大值)、RANAGE(极差)、SUM(加权和)、VAR(方差)、USS(加权平方和)、CSS(关于均值偏差的加权平方和)、CV(变异系数的百分数)、STDERR(标准误)、T(t统计量)、PRT(t检验概率)、SUMWGT(权重之和)、SKEWNESS(偏度)、KURTOSIS(峰度)、CLM(计算置信区间)、LCLM(置信下限)、UCLM(置信上限)。3直方图对于数值型变量,常用直方图来展示变量取值的分布。直方图的宽度就是区间的宽度,高度可以是频数、百分数或比率。还有一种常用的密度直方图,它以密度(频数/区间宽度)为纵坐标,用以估计总体分布密度。在此,分组区间的宽度对直方图的形态有很大的影响,一个合适的分组是希望直方图的形态能接近总体的分布密度。SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,也提供了设定分组的方法。4盒型图 盒型图是用更为简洁的方法表现某一变量数据在数轴上的分布及其特点的图形。5盒型图说明盒型图上叠加的菱形中心直线表示均值位置,菱形左右顶点位置表示左右一倍标准差处。从盒型图上可以大体看出数据集中在什么范围,左右两侧是否对称(中位数和均值重合)等等。距上、下四分位数(矩形左右两边)1.5倍四分位极差(Q3-Q1)以外的数据点可能是例外数据点,提示我们去考察它在分析时是否需要剔除它。6描述性统计以SAS数据集CLASS为样本,进行分析演示。数据集CLASS为某校学生中抽取了一个容量为40的一个样本;对每个观测,分别记录了学生的姓名NAME、性别SEX、年龄AGE、身高HEIGHT和体重WEIGHT。7频数统计与柱状图频(个)数统计只是一个简单的过程,但通过它可以了解样本中变量取值的分布,并进一步估计总体的分布。此外,从样本取值的分布中也可发现一些明显不合理的例外记录,从而帮助我们剔除不合理的数据。因此,进行频数统计也是数据预处理中发现例外记录的一种重要的方法。8用INSIGHT

做频数统计和直方图首先用INSIGHT打开数据集CLASS。1)作直方图:选Analyze→Histogram/BarChart(Y)→

选定变量;(对数据集EXERCISE.CLASS作变量SEX和WEIGHT的直方图)2)作频数统计:选Analyze→Distribution(Y)→

选定变量→

Output→选FrequencyCount.(作.CLASS中SEX和AGE的频数和百分数)9用分析员应用做

频数统计和直方图用Analyst打开CLASS,选统计Statitistcs→描述Descriptive→频数计数FrequencyCounts在对话框中选定变量按Frequencies钮,若按Tables可选定统计内容;若按Plots钮可选定直方图类型;OK。(作CLASS中SEX和AGE的频数统计和直方图)

10用编程做频数统计编程实现频数统计的常用方法是:PROCFREQDATA=数据集名

[选项];

TABLES变量名[/选项]表;RUN;该过程的PROCFREQ语句表示对选项"DATA=数据集名"指定的数据集进行频数统计.

11PROCFREQ语句选项PROCFREQ语句的其它选项:ORDER=INTERNAL|FREQ|DATA|FORMATTED表示按变量的值排序、或按频数降序排列、或按数据集中值的出现次数排序、或按变量格式化的值排序。12频数统计过程的TABLES语句TABLES语句指明要分析的变量(默认情况下,统计频数、百分数、累计频数、累计百分数四个指标)。常用选项有:NOCUM不要累计的频数和百分数;NOPERCENT不要百分数和累计百分数。13频数统计示例对CLASS数据集的SEX、AGE两变量统计频数和百分数等procfreqdata=exercise.class;tablessexage;run;对CLASS统计年龄的频数、百分数(不要累计),并按频数降序排列procfreqdata=exercise.classorder=freq;tablesage/nocum;run;14分组统计频数示例分组统计体重的频数等指标,分组方式为从24公斤到80公斤,每8公斤一组procformat;valuewfmtlow-<32='24-32'32-<40='32-40'40-<48='40-48'48-<56='48-56'56-<64='56-64'64-<72='64-72'72-high='72-80';run;procfreqdata=sashelp.class;tablesweight;formatweightwfmt.;run;15常用描述统计量计算对于数值型变量,分布是最全面地描述其取值特性的,但是要确定一个分布需要较多的信息。所以常用变量取值的某一方面的特征来描述变量,例如:均值、方差等等。对于样本也是如此,也常使用描述它某一方面的特征的各种统计量来描述样本,同时也对总体特征进行估计和推断。16用INSIGHT计算

常用描述性统计量(在Insight环境中,只对区间型变量提供计算描述性统计量的功能)以CLASS为例,计算HEIGHT和WEIGHT的描述性统计量:1)选Analyze→Distribution,HEIGHT、WEIGHT→Y,OK;2)可以看到,对每个变量都有两张表,第一张为矩统计量(Moment)表,在表中,N表示有效记录数(从样本容量中扣除了缺失值个数),SumWgts表示权数之和,在此没有特别指定权数,故约定每个记录的权都是1。第一张为分位数(Quantile)表,列举了各种分位数、众数和由分位数导出的一些统计量。3)点击每个表左上角的尖头可弹出一个菜单,选Format可改变表中数据显示的格式;选Save可将该表输出到Output窗口供进一步处理。

17用分析员应用计算

常用描述性统计量1)方法一:(有选择地计算矩统计量或极值)选统计→描述→汇总统计量,HEIGHT、WEIGHT→Analysis;(点击Statistics可选定输出的统计量,点击Output可定义输出格式,还可以把某个变量选入Classification进行分组计算统计量)2)方法二:(提供详细的矩统计量和分位数)选统计→描述→分布,HEIGHT、WEIGHT→Analysis;(按Variables还可以把某个变量选入ByGroup进行分组计算统计量,例如性别)18汇总统计结果表信息结果表中每个变量的信息包含五部分:第一部分:矩统计量的数值;第二部分:基本统计测量;第三部分:位置参数检验的结果;第四部分:分位数;第五部分:极值,包括最大、最小的五个值及相应的观测。

19用编程计算

常用描述性统计量用UNIVARIATE过程和MEANS过程都能计算一些常用的统计量,调用它们的一般形式如下:PROCUNIVARIATE[选项表];[一些过程步辅助语句;]RUN;

PROCMEANS[选项表];[一些过程步辅助语句;]RUN;

20UNIVARIATE过程PROCUNIVARIATE语句可逐个计算单变量的描述性统计量,包括分位数及描绘分布图;并提供检验均值为零的t检验结果。

UNIVARIATE过程常用的辅助语句有:VAR语句、BY语句、FREQ语句、WEIGHT语句、ID语句和OUTPUT语句。21UNIVARIATE语句常用选项DATA=数据集名

指定要分析的数据集;NOPRINT

不产生报表输出;PLOT

表明要输出茎叶图、盒状图和正态概率图。FREQ

表示要输出由变量值、频数、百分数、累计百分数组成的频数表;NORMAL

指定假设输入数据来自正态分布总体,然后给出检验统计量,并输出检验统计量的计算值;PCDLDEF=1|2|3|4|5

指定计算百分位数的方法,缺省时默认PCDLDEF=4;VARDEF=DF|N|WGT|WDF

指定计算方差时的分母;DF表示自由度N-1为分母,N表示观测值数N为分母,WGT表示以权重之和为分母,WDF是以权重和减1为分母,默认选项是VARDEF=DF。22MEANS过程PROCMEANS语句可计算数值变量的均值等多项统计量,同时也可提供检验总体均值为零的t统计量值和对应的p值以及符号检验、符号秩检验的统计量值和相应p值。MEANS过程的常用辅助语句有:VAR、CLASS、FREQ、WEIGHT、ID、BY、OUTPUT语句。23PROCMEANS语句常用选项DATA=数据集名

指定要分析的数据集;NOPRINT

不产生报表输出;MAXDEC=数字

指定输出结果中小数部分的最大位数(0~8),缺省为2;FW=域宽

指定打印每个统计量的域宽,缺省为12;ORDER=FREQ|DATA|INTERANL|EXTERNAL|FORMATTED

规定CLASS变量按指定的次序排列;FREQ表示按频数值下降的次序,DATA表示按输入数据集里遇到的次序,INTERNAL(缺省值)表示按内部表示值的次序,最后两种为按外部(或格式化)值的次序;MISSING

要求把CLASS变量的缺失值作为有效分组值处理。VARDEF=DF|N|WGT|WDF

与UNIVARIATE过程中的含义相同;ALPHA=数值指定0~1间的数值作为置信水平

统计量名词表指定要算的统计量(约21种,见常用统计量名词表

)24univariate过程示例1对变量HEIGHT和WEIGHT按性别分组计算常用描述性统计量procsortdata=sashelp.classout=tmp;bysex;procunivariatedata=tmp;varheightweight;bysex;idname;run;

25univariate过程示例2对身高进行统计,并将结果存放到SAS数据集中。procunivariatedata=exercise.classnoprint;varheight;outputout=resultmean=hmstd=hstdq1=hq1range=hrpctlpts=2080pctlpre=hp; run; /*选项pctlpts=2080表示计算第20和80百分位数*//*选项pctlpre=hp表示百分位数存放在hp20、hp80中*/26means过程示例按变量AGE、SEX交叉分组计算变量HEIGHT、WEIGHT的均值、标准差。procmeansdata=exercise.classmeanstdmaxdec=2fw=8;varheightweight;classsexage;run;27分布拟合密度直方图可以作为样本对总体分布密度的一个估计量。但由于直方图本身构造的限制,它顶端的形态曲线只能是折线,而常用的一些分布密度曲线如正态分布等,都是一些有一定形态的光滑曲线,这就要用到分布拟合。参数分布拟合就是在限定的参数分布类(如正态分布)中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。28SAS提供的参数分布类型正态(Normal)分布;(最为常用的分布)对数正态(Lognormal)分布;指数分布;Gamma分布;Weibull

分布;除了参数分布拟合,SAS系统还提供了QQ图等几种非参数分布密度拟合的方法。

29QQ图

(Quantile–QuantilePlot)不论直方图或累计分布图,要从图上鉴别样本的分布是否近似于某种类型的分布是较困难的。QQ图可以帮助我们方便地鉴别样本的分布是否近似于某种类型的分布。QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值(作为样本分位数)为纵坐标的散点图;精确地说,它是以下点的散点图:其中,Φ是标准正态分布累计分布函数,Φ-1表示它的反函数。

30QQ图的鉴别要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值。用QQ图还可获得样本偏度和峰度的粗略信息。31用INSIGHT作分布图形

作直方图、盒型图选Analyze→Distribution(Y)→WEIGHT→Y;OK。点击直方图菜单中的Ticks可改变区间的分组,有时直方图的分组会改变它的形态(用“手”形工具拖放也行);点击菜单中的Value,可在每个柱上标出柱的高度。点击盒形图菜单中的Means可在盒形图上画一个菱形,其垂直的对角线表示均值的位置,左右两个顶点分别向左右延伸一倍标准差的距离;点击菜单中的Value可在图上标出中位数、四分位数等的数值。32用INSIGHT作分布图形

拟合分布密度曲线在制作了分布直方图(Distribution(Y))后往往还希望拟合一个参数分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论