第四讲SAS的描述统计

上传人：1*** IP属地：北京上传时间：2025-03-12 格式：PPT 页数：46 大小：457.51KB 积分：1.2 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SAS提供多个不同的过程步来实现统计量的计算，它们在功能范围上有许多的重复，本段介绍计算常用统计量的三个过程：1.

MEANS

常用来计算数值型变量的均值、标准差等统计量2.

UNIVARIATE

常用来计算数值型变量的均值、标准差等统计量、绘制一些统计图3.

FREQ

常用来计算分类变量取值的频数2.3编程实现描述性统计计算与绘图

1、MEANS过程(均值过程)Procmeans<选项><输出统计量关键字列表>;<Var分析变量名列

；><Class分类变量名列

；><Freq频数变量

；><by分类变量名列;

><Outputout=数据集名<输出统计量列表>;>Run;Procmeans主语句选项：1.DATA＝SAS数据集:指出SAS数据集的名称，若省略，则使用最近产生的数据集。2.MAXDEC=数字指定该过程输出结果中小数部分的最大位数(0到8).默认是2。3.FW=域宽

给出该过程用来打印每个统计量的字符长。默认是12。4.

ALPHA=置信水平为1-.默认为=0.05.Means过程默认输出统计量只有五个：

N,Mean,Std,Min,Max

(1)语法格式(2).应用举例例1：某单位对100名健康的女大学生测定了血清总蛋白含量（g/L）,试做单变量描述性统计分析。dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;MEANS过程分析变量：xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明procmeansnminmaxmeanstdstderrcv

maxdec=2;输出结果：MEANS过程分析变量：xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35

例2.下表为两个不同地区居民家庭收入和支出情况的抽样调查（单位：元），试分别统计收入和支出情况。

将下表中数据输入成Excel文件sryzc.xls。4个变量名分别为：ID、R_ID、Income和Outgo，该四个变量分别表示“家庭编号”、“地区编号”、“家庭总收入”和“家庭总支出”。首先将其导入为SAS数据文件mylib.sryzc。IDR_IDIncomeOutgoIDR_IDIncomeOutgo121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316

对数据集mylib.sryzc中的Income变量计算简单统计量，用如下MEANS过程即可：proc

means

data=mylib.sryzc;

var

Income;

run;SAS运行结果：

在PROCMEANS语句中使用统计量关键字列表。输出数据集mylib.sryzc中收入(Income)的观测个数、均值、中位数、第一百分位数、第五百分位数、第九十五百分位数、第九十九百分位数、第一四分位数、第三四分位数、最大值、最小值。proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin

var

Income;run;

运行结果

可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数skewness偏度nmiss缺失数据记录数kurtosis峰度mean均值t分布位置假设检验之t统计量std标准差probt上述t统计量对应的概率值stderr标准误q1第一四分位数var方差q3第三四分位数median中位数qrange四分位数间距mode众数p1第一百分位数cv变异系数p5第五百分位数max最大值p10第十百分位数min最小值p90第九十百分位数sum总计p95第九十五百分位数sumwgt加权值总计p99第九十九百分位数css校正平方和CLM置信限uss未校正平方和LCLM置信下限range极差UCLM置信上限(3)使用CLASS语句或BY语句Class分类变量名列

；by分类变量名列;两个语句的区别是：●使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。●使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。

例3.1)使用BY语句,将上例中的数据按地区(R_Id)分组计算统计量：Proc

sort

data=mylib.sryzc;

R_Id;run;proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

R_Id;run;

R_ID=1TheMEANSProcedureAnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl142803.712775.001760.001760.004275.004275.00LowerUpperQuartileQuartileMaximumMinimum2400.003305.004275.001760.00R_ID=2

AnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl161889.441983.001080.001080.002460.002460.00LowerUpperQuartileQuartileMaximumMinimum1740.502192.002460.001080.00使用BY语句分区域输出统计量：

2)使用CLASS语句,按地区(R_Id)分组计算统计量：proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

CLASS

R_Id;run;

使用CLASS语句输出结果：TheMEANSProcedure

AnalysisVariable:INCOMEIncomeR_ID

ObsNMeanMedian1stPctl5thPtcl95thPctl

14142803.712775.001760.001760.004275.00

16161889.441983.001080.001080.002460.00

LowerUpperR_ID

Obs99thPctlQuartileQuartileMaximumMinimum

144275.002400.003305.004275.001760.00

2162460.001740.502192.002460.001080.00(4)使用Output语句(输出语句)Outputout=数据集名<输出统计量列表>;输出统计量列表形式：1)

统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result2mean=;Run;Procprintdata=result2;run;例4(1)把数据集mylib.bclass中变量height和weight的均值输出到新数据集result2.

(2)把变量height和weight的均值(新名分别取为hmean和wmean)

和标准差(新名字分别取为hstd和wstd)输出到新数据集result3.Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result3mean=hmean

wmeanstd=hstd

wstd;Run;Procprintdata=result3;run;Output<选项><输出统计量列表>;输出统计量列表形式：1)

统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表(3)把变量height的均值、变量height和weight的标准差(新名字

分别取为hstd和wstd)和变量weight的方差(新名字取为wvar)输出到新数据集result4.Procmeansdata=mylib.bclassnoprint;varheightweight

;outputout=result4mean(height)=std=hstd

wstdvar(weight)=wvar;Run;Procprintdata=result4;run;Output<选项><输出统计量列表>;输出统计量列表形式：1)

统计量关键字=;新数据集中统计量用原变量名2)统计量关键字=新名字列表3)统计量关键字(变量列表)=新名字列表2.UNIVARIATE过程(单变量过程)UNIVARIATE过程和MEANS过程的格式非常相似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在UNIVARIATE过程中计算（如众数），而且UNIVARIATE过程中具有绘图功能;MEANS过程默认输出统计量只有五个；UNIVARIATE过程默认输出统计量不只一页。UNIVARIATE过程一般格式：Procunivariate<选项>;Var变量名列；/*分析所列变量*/

<by变量名;>

<class变量名;>

<Id

变量名；>

<Outputout=数据集名<输出统计量列表>;>

<histogram变量名</<选项>;

>Run;

Procunivariate主语句中可使用的选项:Data=

数据集名若省略，用最近建立的SAS数据集。Freq

:生成包括变量值、频数、百分数和累计频数的频率表Normal

:计算关于输入数据服从正态分布假设的检验统计量及P-值。Plot

生成一个茎叶图(或水平直方图),箱线图和正态概率图。Noprint:

在Output窗口不输出计算结果。Mu0=数值

若省略，检验的均值为0。例5：对数据集bclass中变量HEIGHT和

WEIGHT计算常用描述性统计量Proc

univariate

data=mylib.bclass;

Var

height

weight

；Run;使极值部分显示更直接.对最大和最小的几个纪录不仅显示它们的观测序号,还显示相应的Id变量值(如姓名),使我们从输出结果就知道谁最高,谁最矮等等.利用Id语句的例子:Procunivariatedata=mylib.bclass;Varheight

weight

；Idname;Run;Id语句:Id识别变量名;利用Id语句前、后输出(部分):

Variable:HEIGHT(身高（厘米）)

ExtremeObservationsLowestHighest

ValueObsValueObs125316712127271672013525167211373016914142617222

Variable:HEIGHT(身高（厘米）)

ExtremeObservationsLowestHighest

ValueNAMEObsValueNAMEObs125ROBERT3167EDWARD12127LILLIE27167PHILLIP20135JANE25167KIRK21137SUSAN30169JEFFERY14142MICHAEL6172LAWRENCE22不用画图语句时Univariate过程输出一般包括五个部分：第一部分是矩统计量；第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统计量包括标准差、方差、极差、四分位间距；第三部分为关于均值等于零的三种检验的结果，包括t检验、符号检验和符号秩检验；第四部分为各个重要的分位数；第五部分是观测数据的五个最低值和五个最高值。Histogram语句(画直方图语句)，其一般格式：histogram变量名</<选项>>;选项：Midpoints=中点列Vscale=percent|count|proportion直方图高度。默认是percent。Cfill=颜色

涂上直方图或拟合曲线下方的颜色Nocurvel

隐藏不同曲线含义的图例Procunivariatedata=mylib.sryzc

plot;Varincome

;histogramincome/cfill=red

;

Run;

例6计算家庭总收入的描述统计量，并绘制其直方图、盒形图及正态概率图。Univariate过程输出的直方图绘制盒形图及正态概率图选项画直方图语句茎叶图

茎叶图又称“枝叶图”，它的思路是将数组中的数按位数进行比较，将数的大小基本不变或变化不大的位作为一个主干（茎），将变化大的位数作为分枝（叶），列在主干的后面，这样就可以清楚地看到每个主干后面的几个数，每个数具体是多少。茎叶图是一个与直方图相类似的特殊工具，但又与直方图不同，茎叶图保留原始资料的资讯，直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转9O度，实际上就是一个直方图，可以从中统计出次数，计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。茎叶图的优缺点

1、用茎叶图表示数据有两个优点：一是从统计图上没有原始数据信息的损失，所有数据信息都可以从茎叶图中得到；二是茎叶图中的数据可以随时记录，随时添加，方便记录与表示。

2、茎叶图只便于表示两位有效数字的数据，而且茎叶图只方便记录两组的数据，两个以上的数据虽然能够记录，但是没有表示两个记录那么直观、清晰。茎叶图的案例分析

茎叶图是将统计分组和次数分配一次完成，是探索性数据分析中对数据的初步形象描绘。其图形直观且保留原始信息，均值、中位数和众数均可依原始数据准确方便地算出。现以某班一次考试成绩为例，介绍茎叶图的作法。作图过程

先作“茎”后填“叶”，将分组标志(组距)视为茎，按数的大小从上到下(也可从下到上)排列。将每一个观察值视为一个树叶，每一个树叶按照树茎之要求长在应长的树茎上。对于百分制的考试分数，先将高位数字按顺序排成一列，后将每个分数的个位数为叶长在相应的茎上，最后将每茎上的叶按从小到大的排列。若人数较多，树叶较长，可将高位数重复两次，个位数分为0～5一枝，5～9一枝。为了便于分析，可将1/4、3/4分位数及中位数用符号标出。

利用茎叶图对考试成绩进行评估

1）将茎叶图茎和叶逆时针方向旋转9O度，实际上就是一个班级成绩带有数字的直方图，可以从中统计出次数，计算出各分数段的频率或百分比，从它可以看出班级成绩的分布是否与正态分布或单峰偏态分布逼近。2）若茎叶图成绩表扁而宽，说明该班整体成绩较集中，成绩差异不大；如果茎叶图长而窄，说明该班成绩较分散，标准差较大，高分低分差距大。这可使教师或校管理部门对学生成绩有所了解。2.盒形图

盒形图（boxplot，又称箱图、箱线图、盒子图）是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。

左图是根据居民家庭的收入情况所绘的盒形图；右图是分地区居民家庭的收入情况所绘的盒形图。

盒子的中间横线是数据的中位数，封闭盒子的上下两横线分别为上，下四分位数。盒子的长度就是分布的四分位间距，其作用类似于标准差，可以反映数据分布的分散程度。从盒子边线向外画的两条线叫做触须线，最长可以延伸到四分位间距的1.5倍，但是如果已经到了数据的最小值或最大值处就不再延伸了。如果有些数据值超出了触须线的范围，则这些数据用触须线以外的点来画出，一般认为这样的点可能是异常点，在进一步进行数据分析时可以考虑是否需要剔除它。

StemLeaf#Boxplot43103323444|25557886++20000022222411*--+--*15788886++1122|++++MultiplyStem.Leafby10**+3NormalProbabilityPlot4250+*+|++++++++|*+*+*+*2750+++++***|+*****+****|**+*******1250+*++*+++++++++++++++-2-10+1+2UNIVARIATE过程输出的茎叶图、盒形图、正态概率图正态概率图中“*”代表观测值“+”代表参考直线。当观测数据来自正态分布时，“*”应与“+”较为接近或重合。本例中，两者较接近，数据可能来自正态分布。可进一步利用检验统计量进行正态性检验。FREQ过程(频数过程.可输出频数表)procfreq

<选项>;

<by变量名;

<tables

变量名列

</选项>>;

<其他SAS语句;>run;

1)Data=

数据集名若省略，用最近建立的SAS数据集。

2)Order=Freq|Data|Internal|Formatted

规定变量水平的记录次序（排列次序）。

Order=

Freq表示按频数降序排列，因此最大频数的水平第一个出现；

Order=Data表示按输入数据集中值的出现次序排列；

Order=Internal表示按变量的值排序；

Order=Formatted表示按变量格式化值的次序。默认项。

procfreq

主语句中可使用的选项:3)

Page

要求Freq过程每页只输出一张表。Tables

语句tables

变量名列

</选项>

；变量名列:列出要输出频数表的变量名，变量名之间要留空格.

在PROCFREQ

的一次执行中可以包括任意多个tables语句。如果没有tables语句，FREQ过程对数据集中每个变量都生成一个单向频数表(如图1中两个变量的表分别为单向频数表)。

tables

变量名列

</选项>；

在tables语句的斜杠/后面能使用的选项有：

NOCUM—不输出单向频数表和列表格式下的累计频数和累计百分数;

Procfreqdata=sryzc

;tables

R_IdIncome；Run;输出变量R_Id(地区编号)和Income(家庭总收入)的单向频数表：由地区编号R_ID的频数表知，用1表示的地区样本容量为14，用2表示的地区样本容量为16，加起来30，即抽样调查的家庭为30家。由家庭总收入INCOME的频数表知，因为不是分类变量，是区间形变量，所以此频数表意义不大。图1例7输出bclass中体重的频数表Procfreqdata=bclass;

tablesweight;Run;

对连续型变量(如weight)，不同观测的变量值一般不同。因此直接作频数表意义不大。通常按变量取值范围分成若干组后,统计变量在各个组取值的频数等。例如，数据集bclass中的weight作如下分组后再观察：由46.5公斤至77.0公斤，每4.5公斤为一组(每组不包括左端点)：

1.45.5公斤—50.0

公斤；

2.50.0公斤—54.5

公斤；

3.54.5公斤—59.0公斤；

4.59.0公斤—63.5

公斤；

5.63.5公斤—68.0

公斤；

6.68.0公斤—72.5

公斤；

7.72.5公斤—77.0

公斤.FORMAT过程（格式化过程）FORMAT过程可以设定变量值的输出格式，对变量的不同值或不同范围的值设定不同的“标签”来显示。其一般形式：PROCFORMAT

;VALUE格式名

变量值或范围1=标签1

变量值或范围2=标签2……………变量值或范围n=标签n;RUN;在DATA步或PROC步通过如下FORMAT语句声明要使用FORMAT过程定义的格式：FORMAT变量名格式名.

;

格式名：是对格式表指定的SAS名。如果变量是字符型的，此名字必须以$开头，包括$在内不能超过8个字符，以字母结尾，中间的字符可以是字母、下划线或数字;

如果变量值或标签中含有字母或空格，一定要用单引号‘

’括起来;在FORMAT语句中，在格式名后面必须紧跟一个点..格式表例8.(1)对数据集sryzc中区域变量值作如下定义标签：

1标签为‘第一地区’，2标签为‘第二地区’，并求出该变量的频数表。proc

format;

valuea

1='第一地区'

2='第二地区';run;procfreqdata=sryzc

;tables

R_Id

；formatR_Ida.;Run;(2)对收入变量值分组：

procformat

;valueincomeb

人人文库> 全部分类> 应用文书 > 产品手册

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四讲SAS的描述统计

文档简介

温馨提示

最新文档

评论

第四讲SAS的描述统计

文档简介

温馨提示

最新文档

评论

相关文档