第四讲的描述统计_第1页
第四讲的描述统计_第2页
第四讲的描述统计_第3页
第四讲的描述统计_第4页
第四讲的描述统计_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲的描述统计演示文稿现在是1页\一共有41页\编辑于星期五(优选)第四讲的描述统计现在是2页\一共有41页\编辑于星期五(2).应用举例例1:某单位对100名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;现在是3页\一共有41页\编辑于星期五

MEANS过程分析变量:xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明现在是4页\一共有41页\编辑于星期五procmeansnminmaxmeanstdstderrcv

maxdec=2;输出结果:MEANS过程分析变量:xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35现在是5页\一共有41页\编辑于星期五

例2.下表为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。

将下表中数据输入成Excel文件sryzc.xls。4个变量名分别为:ID、R_ID、Income和Outgo,该四个变量分别表示“家庭编号”、“地区编号”、“家庭总收入”和“家庭总支出”。首先将其导入为SAS数据文件mylib.sryzc。现在是6页\一共有41页\编辑于星期五IDR_IDIncomeOutgoIDR_IDIncomeOutgo121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316现在是7页\一共有41页\编辑于星期五

对数据集mylib.sryzc中的Income变量计算简单统计量,用如下MEANS过程即可:proc

means

data=mylib.sryzc;

var

Income;

run;SAS运行结果:现在是8页\一共有41页\编辑于星期五

在PROCMEANS语句中使用统计量关键字列表。输出数据集mylib.sryzc中收入(Income)的观测个数、均值、中位数、第一百分位数、第五百分位数、第九十五百分位数、第九十九百分位数、第一四分位数、第三四分位数、最大值、最小值。proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin

var

Income;run;

运行结果现在是9页\一共有41页\编辑于星期五

可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数skewness偏度nmiss缺失数据记录数kurtosis峰度mean均值t分布位置假设检验之t统计量std标准差probt上述t统计量对应的概率值stderr标准误q1第一四分位数var方差q3第三四分位数median中位数qrange四分位数间距mode众数p1第一百分位数cv变异系数p5第五百分位数max最大值p10第十百分位数min最小值p90第九十百分位数sum总计p95第九十五百分位数sumwgt加权值总计p99第九十九百分位数css校正平方和CLM置信限uss未校正平方和LCLM置信下限range极差UCLM置信上限现在是10页\一共有41页\编辑于星期五(3)使用CLASS语句或BY语句Class分类变量名列

;by分类变量名列;两个语句的区别是:●使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。●使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。现在是11页\一共有41页\编辑于星期五

例3.1)使用BY语句,将上例中的数据按地区(R_Id)分组计算统计量:Proc

sort

data=mylib.sryzc;

by

R_Id;run;proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

by

R_Id;run;

现在是12页\一共有41页\编辑于星期五R_ID=1TheMEANSProcedureAnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl142803.712775.001760.001760.004275.004275.00LowerUpperQuartileQuartileMaximumMinimum2400.003305.004275.001760.00R_ID=2

AnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl161889.441983.001080.001080.002460.002460.00LowerUpperQuartileQuartileMaximumMinimum1740.502192.002460.001080.00使用BY语句分区域输出统计量:现在是13页\一共有41页\编辑于星期五

2)使用CLASS语句,按地区(R_Id)分组计算统计量:proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

CLASS

R_Id;run;

现在是14页\一共有41页\编辑于星期五使用CLASS语句输出结果:TheMEANSProcedure

AnalysisVariable:INCOMEIncomeR_ID

ObsNMeanMedian1stPctl5thPtcl95thPctl

1

14142803.712775.001760.001760.004275.00

2

16161889.441983.001080.001080.002460.00

LowerUpperR_ID

Obs99thPctlQuartileQuartileMaximumMinimum

1

144275.002400.003305.004275.001760.00

2162460.001740.502192.002460.001080.00现在是15页\一共有41页\编辑于星期五(4)使用Output语句(输出语句)Outputout=数据集名<输出统计量列表>;输出统计量列表形式:1)

统计量关键字=;新数据集中统计量用原变量名2)

统计量关键字=新名字列表3)

统计量关键字(变量列表)=新名字列表Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result2mean=;Run;Procprintdata=result2;run;例4(1)把数据集mylib.bclass中变量height和weight的均值输出到新数据集result2.现在是16页\一共有41页\编辑于星期五

(2)把变量height和weight的均值(新名分别取为hmean和wmean)

和标准差(新名字分别取为hstd和wstd)输出到新数据集result3.Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result3mean=hmean

wmeanstd=hstd

wstd;Run;Procprintdata=result3;run;Output<选项><输出统计量列表>;输出统计量列表形式:1)

统计量关键字=;新数据集中统计量用原变量名2)

统计量关键字=新名字列表3)

统计量关键字(变量列表)=新名字列表现在是17页\一共有41页\编辑于星期五(3)把变量height的均值、变量height和weight的标准差(新名字

分别取为hstd和wstd)和变量weight的方差(新名字取为wvar)输出到新数据集result4.Procmeansdata=mylib.bclassnoprint;varheightweight

;outputout=result4mean(height)=std=hstd

wstdvar(weight)=wvar;Run;Procprintdata=result4;run;Output<选项><输出统计量列表>;输出统计量列表形式:1)

统计量关键字=;新数据集中统计量用原变量名2)

统计量关键字=新名字列表3)

统计量关键字(变量列表)=新名字列表现在是18页\一共有41页\编辑于星期五2.UNIVARIATE过程(单变量过程)

UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能;MEANS过程默认输出统计量只有五个;

UNIVARIATE过程默认输出统计量不只一页。现在是19页\一共有41页\编辑于星期五UNIVARIATE过程一般格式:Procunivariate<选项>;Var变量名列;/*分析所列变量*/

<by变量名;>

<class变量名;>

<Id

变量名;>

<Outputout=数据集名<输出统计量列表>;>

<histogram变量名</<选项>;

>Run;

Procunivariate主语句中可使用的选项:Data=

数据集名若省略,用最近建立的SAS数据集。Freq

:生成包括变量值、频数、百分数和累计频数的频率表Normal

:计算关于输入数据服从正态分布假设的检验统计量及P-值。Plot

:

生成一个茎叶图(或水平直方图),箱线图和正态概率图。Noprint:

在Output窗口不输出计算结果。Mu0=数值

若省略,检验的均值为0。现在是20页\一共有41页\编辑于星期五例5:对数据集bclass中变量HEIGHT和

WEIGHT计算常用描述性统计量Proc

univariate

data=mylib.bclass;

Var

height

weight

;Run;使极值部分显示更直接.对最大和最小的几个纪录不仅显示它们的观测序号,还显示相应的Id变量值(如姓名),使我们从输出结果就知道谁最高,谁最矮等等.利用Id语句的例子:Procunivariatedata=mylib.bclass;Varheight

weight

Idname;Run;Id语句:Id识别变量名;现在是21页\一共有41页\编辑于星期五利用Id语句前、后输出(部分):

Variable:HEIGHT(身高(厘米))

ExtremeObservationsLowestHighest

ValueObsValueObs125316712127271672013525167211373016914142617222

Variable:HEIGHT(身高(厘米))

ExtremeObservationsLowestHighest

ValueNAMEObsValueNAMEObs125ROBERT3167EDWARD12127LILLIE27167PHILLIP20135JANE25167KIRK21137SUSAN30169JEFFERY14142MICHAEL6172LAWRENCE22现在是22页\一共有41页\编辑于星期五不用画图语句时Univariate过程输出一般包括五个部分:第一部分是矩统计量;第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距;第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验;第四部分为各个重要的分位数;第五部分是观测数据的五个最低值和五个最高值。现在是23页\一共有41页\编辑于星期五Histogram语句(画直方图语句),其一般格式:histogram变量名</<选项>>;选项:Midpoints=中点列Vscale=percent|count|proportion

直方图高度。默认是percent。Cfill=颜色

涂上直方图或拟合曲线下方的颜色Nocurvel

隐藏不同曲线含义的图例现在是24页\一共有41页\编辑于星期五Procunivariatedata=mylib.sryzc

plot;Varincome

;histogramincome/cfill=red

;

Run;

例6计算家庭总收入的描述统计量,并绘制其直方图、盒形图及正态概率图。Univariate过程输出的直方图绘制盒形图及正态概率图选项画直方图语句现在是25页\一共有41页\编辑于星期五茎叶图

茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。现在是26页\一共有41页\编辑于星期五茎叶图的优缺点

1、用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。

2、茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。现在是27页\一共有41页\编辑于星期五茎叶图的案例分析

茎叶图是将统计分组和次数分配一次完成,是探索性数据分析中对数据的初步形象描绘。其图形直观且保留原始信息,均值、中位数和众数均可依原始数据准确方便地算出。现以某班一次考试成绩为例,介绍茎叶图的作法。现在是28页\一共有41页\编辑于星期五现在是29页\一共有41页\编辑于星期五现在是30页\一共有41页\编辑于星期五作图过程

先作“茎”后填“叶”,将分组标志(组距)视为茎,按数的大小从上到下(也可从下到上)排列。将每一个观察值视为一个树叶,每一个树叶按照树茎之要求长在应长的树茎上。对于百分制的考试分数,先将高位数字按顺序排成一列,后将每个分数的个位数为叶长在相应的茎上,最后将每茎上的叶按从小到大的排列。若人数较多,树叶较长,可将高位数重复两次,个位数分为0~5一枝,5~9一枝。为了便于分析,可将1/4、3/4分位数及中位数用符号标出。

现在是31页\一共有41页\编辑于星期五利用茎叶图对考试成绩进行评估

1)将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个班级成绩带有数字的直方图,可以从中统计出次数,计算出各分数段的频率或百分比,从它可以看出班级成绩的分布是否与正态分布或单峰偏态分布逼近。2)若茎叶图成绩表扁而宽,说明该班整体成绩较集中,成绩差异不大;如果茎叶图长而窄,说明该班成绩较分散,标准差较大,高分低分差距大。这可使教师或校管理部门对学生成绩有所了解。现在是32页\一共有41页\编辑于星期五2.盒形图盒形图(boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。左图是根据居民家庭的收入情况所绘的盒形图;右图是分地区居民家庭的收入情况所绘的盒形图。

现在是33页\一共有41页\编辑于星期五

盒子的中间横线是数据的中位数,封闭盒子的上下两横线分别为上,下四分位数。盒子的长度就是分布的四分位间距,其作用类似于标准差,可以反映数据分布的分散程度。从盒子边线向外画的两条线叫做触须线,最长可以延伸到四分位间距的1.5倍,但是如果已经到了数据的最小值或最大值处就不再延伸了。如果有些数据值超出了触须线的范围,则这些数据用触须线以外的点来画出,一般认为这样的点可能是异常点,在进一步进行数据分析时可以考虑是否需要剔除它。现在是34页\一共有41页\编辑于星期五

StemLeaf#Boxplot43103323444|25557886++20000022222411*--+--*15788886++1122|++++MultiplyStem.Leafby10**+3NormalProbabilityPlot4250+*+|++++++++|*+*+*+*2750+++++***|+*****+****|**+*******1250+*++*+++++++++++++++-2-10+1+2UNIVARIATE过程输出的茎叶图、盒形图、正态概率图正态概率图中“*”代表观测值“+”代表参考直线。当观测数据来自正态分布时,“*”应与“+”较为接近或重合。本例中,两者较接近,数据可能来自正态分布。可进一步利用检验统计量进行正态性检验。现在是35页\一共有41页\编辑于星期五FREQ过程(频数过程.可输出频数表)procfreq

<选项>;

<by变量名;

>

<tables

变量名列

</选项>>;

<其他SAS语句;>run;

1)Data=

数据集名若省略,用最近建立的SAS数据集。

2)Order=Freq|Data|Internal|Formatted

规定变量水平的记录次序(排列次序)。

Order=

Freq表示按频数降序排列,因此最大频数的水平第一个出现;

Order=Data表示按输入数据集中值的出现次序排列;

Order=Internal表示按变量的值排序;

Order=Formatted表示按变量格式化值的次序。默认项。

procfreq

主语句中可使用的选项:3)

Page

要求Freq过程每页只输出一张表。现在是36页\一共有41页\编辑于星期五Tables

语句tables

变量名列

</选项>

;变量名列:列出要输出频数表的变量名,变量名之间要留空格.

在PROCFREQ

的一次执行中可以包括任意多个tables语句。如果没有tables语句,FREQ过程对数据集中每个变量都生成一个单向频数表(如图1中两个变量的表分别为单向频数表)。

现在是37页\一共有41页\编辑于星期五tables

变量名列

</选项>;

在tables语句的斜杠/后面能使用的选项有:

NOCUM—不输出单向频数表和列表格式下的累计频数和累计百

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论