SAS的描述统计法则应用_第1页
SAS的描述统计法则应用_第2页
SAS的描述统计法则应用_第3页
SAS的描述统计法则应用_第4页
SAS的描述统计法则应用_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS的描述统计法则应用1、MEANS过程(均值过程)Procmeans<选项><输出统计量关键字列表>;<Var分析变量名列

;><Class分类变量名列

;><Freq频数变量

;><by分类变量名列;

><Outputout=数据集名<输出统计量列表>;>Run;Procmeans主语句选项:1.DATA=SAS数据集:指出SAS数据集的名称,若省略,则使用最近产生的数据集。2.MAXDEC=数字指定该过程输出结果中小数部分的最大位数(0到8).默认是2。3.FW=域宽

给出该过程用来打印每个统计量的字符长。默认是12。4.

ALPHA=置信水平为1-.默认为=0.05.Means过程默认输出统计量只有五个:N,Mean,Std,Min,Max

(1)语法格式SAS的描述统计法则应用(2).应用举例例1:某单位对100名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。dataaa;inputx@@;cards;;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;SAS的描述统计法则应用MEANS过程分析变量:xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明SAS的描述统计法则应用procmeansnminmaxmeanstdstderrcvmaxdec=2;输出结果:MEANS过程分析变量:xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35SAS的描述统计法则应用例2.下表为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。

将下表中数据输入成Excel文件。4个变量名分别为:ID、R_ID、Income和Outgo,该四个变量分别表示“家庭编号”、“地区编号”、“家庭总收入”和“家庭总支出”。首先将其导入为SAS数据文件。SAS的描述统计法则应用IDR_IDIncomeOutgoIDR_IDIncomeOutgo121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316SAS的描述统计法则应用

对数据集中的Income变量计算简单统计量,用如下MEANS过程即可:procmeansdata=mylib.sryzc;varIncome;run;SAS运行结果:SAS的描述统计法则应用

在PROCMEANS语句中使用统计量关键字列表。输出数据集mylib.sryzc中收入(Income)的观测个数、均值、中位数、第一百分位数、第五百分位数、第九十五百分位数、第九十九百分位数、第一四分位数、第三四分位数、最大值、最小值。procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxminvarIncome;run;运行结果SAS的描述统计法则应用

可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数skewness偏度nmiss缺失数据记录数kurtosis峰度mean均值t分布位置假设检验之t统计量std标准差probt上述t统计量对应的概率值stderr标准误q1第一四分位数var方差q3第三四分位数median中位数qrange四分位数间距mode众数p1第一百分位数cv变异系数p5第五百分位数max最大值p10第十百分位数min最小值p90第九十百分位数sum总计p95第九十五百分位数sumwgt加权值总计p99第九十九百分位数css校正平方和CLM置信限uss未校正平方和LCLM置信下限range极差UCLM置信上限SAS的描述统计法则应用(3)使用CLASS语句或BY语句Class分类变量名列

;by分类变量名列;两个语句的区别是:●使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。●使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。SAS的描述统计法则应用例3.1)使用BY语句,将上例中的数据按地区(R_Id)分组计算统计量:Procsortdata=mylib.sryzc;byR_Id;run;procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;byR_Id;run;

SAS的描述统计法则应用R_ID=1TheMEANSProcedureAnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctlLowerUpperQuartileQuartileMaximumMinimumR_ID=2

AnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctlLowerUpperQuartileQuartileMaximumMinimum使用BY语句分区域输出统计量:SAS的描述统计法则应用

2)使用CLASS语句,按地区(R_Id)分组计算统计量:procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;CLASSR_Id;run;

SAS的描述统计法则应用使用CLASS语句输出结果:TheMEANSProcedureAnalysisVariable:INCOMEIncomeR_IDObsNMeanMedian1stPctl5thPtcl95thPctl

1

2LowerUpperR_IDObs99thPctlQuartileQuartileMaximumMinimum

1

2SAS的描述统计法则应用(4)使用Output语句(输出语句)Outputout=数据集名<输出统计量列表>;输出统计量列表形式:1)统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result2mean=;Run;Procprintdata=result2;run;例4(1)把数据集中变量height和weight的均值输出到新数据集result2.SAS的描述统计法则应用

(2)把变量height和weight的均值(新名分别取为hmean和wmean)

和标准差(新名字分别取为hstd和wstd)输出到新数据集result3.Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result3mean=hmeanwmeanstd=hstdwstd;Run;Procprintdata=result3;run;Output<选项><输出统计量列表>;输出统计量列表形式:1)统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表SAS的描述统计法则应用(3)把变量height的均值、变量height和weight的标准差(新名字

分别取为hstd和wstd)和变量weight的方差(新名字取为wvar)输出到新数据集result4.Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result4mean(height)=std=hstdwstdvar(weight)=wvar;Run;Procprintdata=result4;run;Output<选项><输出统计量列表>;输出统计量列表形式:1)统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表SAS的描述统计法则应用2.UNIVARIATE过程(单变量过程)UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能;MEANS过程默认输出统计量只有五个;

UNIVARIATE过程默认输出统计量不只一页。SAS的描述统计法则应用UNIVARIATE过程一般格式:Procunivariate<选项>;Var变量名列;/*分析所列变量*/<by变量名;>

<class变量名;>

<Id

变量名;><Outputout=数据集名<输出统计量列表>;><histogram变量名</<选项>;

>Run;Procunivariate主语句中可使用的选项:Data=

数据集名若省略,用最近建立的SAS数据集。Freq

:生成包括变量值、频数、百分数和累计频数的频率表Normal

:计算关于输入数据服从正态分布假设的检验统计量及P-值。Plot

:

生成一个茎叶图(或水平直方图),箱线图和正态概率图。Noprint:

在Output窗口不输出计算结果。Mu0=数值

若省略,检验的均值为0。SAS的描述统计法则应用例5:对数据集bclass中变量HEIGHT和

WEIGHT计算常用描述性统计量Procunivariatedata=mylib.bclass;Varheightweight

;Run;使极值部分显示更直接.对最大和最小的几个纪录不仅显示它们的观测序号,还显示相应的Id变量值(如姓名),使我们从输出结果就知道谁最高,谁最矮等等.利用Id语句的例子:Procunivariatedata=mylib.bclass;Varheightweight

;Idname;Run;Id语句:Id识别变量名;SAS的描述统计法则应用利用Id语句前、后输出(部分):

Variable:HEIGHT(身高(厘米))

ExtremeObservationsLowestHighest

ValueObsValueObs125316712127271672013525167211373016914142617222

Variable:HEIGHT(身高(厘米))

ExtremeObservationsLowestHighest

ValueNAMEObsValueNAMEObs125ROBERT3167EDWARD12127LILLIE27167PHILLIP20135JANE25167KIRK21137SUSAN30169JEFFERY14142MICHAEL6172LAWRENCE22SAS的描述统计法则应用不用画图语句时Univariate过程输出一般包括五个部分:第一部分是矩统计量;第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距;第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验;第四部分为各个重要的分位数;第五部分是观测数据的五个最低值和五个最高值。SAS的描述统计法则应用Histogram语句(画直方图语句),其一般格式:histogram变量名</<选项>>;选项:Midpoints=中点列Vscale=percent|count|proportion直方图高度。默认是percent。Cfill=颜色涂上直方图或拟合曲线下方的颜色Nocurvel隐藏不同曲线含义的图例SAS的描述统计法则应用Procunivariatedata=mylib.sryzcplot;Varincome

;histogramincome/cfill=red

;Run;例6计算家庭总收入的描述统计量,并绘制其直方图、盒形图及正态概率图。Univariate过程输出的直方图绘制盒形图及正态概率图选项画直方图语句SAS的描述统计法则应用茎叶图

茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。SAS的描述统计法则应用茎叶图的优缺点

1、用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。

2、茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。SAS的描述统计法则应用茎叶图的案例分析

茎叶图是将统计分组和次数分配一次完成,是探索性数据分析中对数据的初步形象描绘。其图形直观且保留原始信息,均值、中位数和众数均可依原始数据准确方便地算出。现以某班一次考试成绩为例,介绍茎叶图的作法。SAS的描述统计法则应用SAS的描述统计法则应用SAS的描述统计法则应用作图过程

先作“茎”后填“叶”,将分组标志(组距)视为茎,按数的大小从上到下(也可从下到上)排列。将每一个观察值视为一个树叶,每一个树叶按照树茎之要求长在应长的树茎上。对于百分制的考试分数,先将高位数字按顺序排成一列,后将每个分数的个位数为叶长在相应的茎上,最后将每茎上的叶按从小到大的排列。若人数较多,树叶较长,可将高位数重复两次,个位数分为0~5一枝,5~9一枝。为了便于分析,可将1/4、3/4分位数及中位数用符号标出。

SAS的描述统计法则应用利用茎叶图对考试成绩进行评估

1)将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个班级成绩带有数字的直方图,可以从中统计出次数,计算出各分数段的频率或百分比,从它可以看出班级成绩的分布是否与正态分布或单峰偏态分布逼近。2)若茎叶图成绩表扁而宽,说明该班整体成绩较集中,成绩差异不大;如果茎叶图长而窄,说明该班成绩较分散,标准差较大,高分低分差距大。这可使教师或校管理部门对学生成绩有所了解。SAS的描述统计法则应用2.盒形图盒形图(boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。左图是根据居民家庭的收入情况所绘的盒形图;右图是分地区居民家庭的收入情况所绘的盒形图。

SAS的描述统计法则应用

盒子的中间横线是数据的中位数,封闭盒子的上下两横线分别为上,下四分位数。盒子的长度就是分布的四分位间距,其作用类似于标准差,可以反映数据分布的分散程度。从盒子边线向外画的两条线叫做触须线,最长可以延伸到四分位间距的倍,但是如果已经到了数据的最小值或最大值处就不再延伸了。如果有些数据值超出了触须线的范围,则这些数据用触须线以外的点来画出,一般认为这样的点可能是异常点,在进一步进行数据分析时可以考虑是否需要剔除它。SAS的描述统计法则应用

StemLeaf#Boxplot43103323444|25557886++211*--+--*15788886++1122|++++MultiplyStem.Leafby10**+3NormalProbabilityPlot4250+*+|++++++++|*+*+*+*2750+++++***|+*****+****|**+*******1250+*++*+++++++++++++++-2-10+1+2UNIVARIATE过程输出的茎叶图、盒形图、正态概率图正态概率图中“*”代表观测值“+”代表参考直线。当观测数据来自正态分布时,“*”应与“+”较为接近或重合。本例中,两者较接近,数据可能来自正态分布。可进一步利用检验统计量进行正态性检验。SAS的描述统计法则应用FREQ过程(频数过程.可输出频数表)procfreq<选项>;

<by变量名;>

<tables

变量名列

</选项>>;<其他SAS语句;>run;

1)Data=

数据集名若省略,用最近建立的SAS数据集。

2)Order=Freq|Data|Internal|Formatted

规定变量水平的记录次序(排列次序)。

Order=

Freq表示按频数降序排列,因此最大频数的水平第一个出现;

Order=Data表示按输入数据集中值的出现次序排列;

Order=Internal表示按变量的值排序;

Order=Formatted表示按变量格式化值的次序。默认项。

procfreq主语句中可使用的选项:3)

Page要求Freq过程每页只输出一张表。SAS的描述统计法则应用Tables语句tables

变量名列

</选项>;变量名列:列出要输出频数表的变量名,变量名之间要留空格.

在PROCFREQ

的一次执行中可以包括任意多个tables语句。如果没有tables语句,FREQ过程对数据集中每个变量都生成一个单向频数表(如图1中两个变量的表分别为单向频数表)。

SAS的描述统计法则应用tables

变量名列

</选项>;

在tables语句的斜杠/后面能使用的选项有:

NOCUM—不输出单向频数表和列表格式下的累计频数和累计百分数;

SAS的描述统计法则应用Procfreqdata=sryzc

;tables

R_IdIncome;Run;输出变量R_Id(地区编号)和Income(家庭总收入)的单向频数表:由地区编号R_ID的频数表知,用1表示的地区样本容量为14,用2表示的地区样本容量为16,加起来30,即抽样调查的家庭为30家。由家庭总收入INCOME的频数表知,因为不是分类变量,是区间形变量,所以此频数表意义不大。图1SAS的描述统计法则应用例7输出bclass中体重的频数表Procfreqdata=bclass;tablesweight;Run;

对连续型变量(如weight),不同观测的变量值一般不同。因此直接作频数表意义不大。通常按变量取值范围分成若干组后,统计变量在各个组取值的频数等。例如,数据集bclass中的weight作如下分组后再观察:由46.5公斤至77.0(每组不包括左端点):

1.4公斤—50.0公斤;

2.5公斤—54.5公斤;

3.5公斤—59.0公斤;公斤—63.5公斤;

5.6公斤—68.0公斤;公斤—72.5公斤;公斤—公斤.SAS的描述统计法则应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论