版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章数值资料的统计描述考察数值变量(定量指标)所获得的资料称数值资料。采用计算统计指标、绘制统计图和编制统计表来描述数值资料的统计特征称数值资料的统计描述。它是资料统计分析的主要步骤,是进一步开展统计推断的依据。BASESAS模块提供了对资料统计描述的多个过程语句,其中MEANS过程和UNIVARIATE过程可满足数值变量的全部各类统计指标的计算。数值资料常用统计指标1.位置度量(1)均数(Mean):是描述数值资料频数分布中心的一种度量,它是一组n个观察值累加和的平均。中位数(Median):是一组数据按其大小有序排列后,居于中间的数值。众数(Mode):是观察值中出现频率最高的数值。几何
2、均数(Geometricmean):是n个数值的乘积开n次方根。分位数(Quartiles):包括百分位数、四分位数和中位数。第X百分位数记为Px,表示在一组按大小顺序排列的数据中,有x%的观察值小于Px,有(100-x)%的观察值大于PxP50、P25、P75分别称为中位数、下四分位数、上四分位数。2.变异性度量(1)全距(Range):为一组观察值中最大值与最小值之差。四分位间距(Interquartilerange):为上、下四分位数之差。方差(Variance):是离均差平方和除以自由度的商。标准差(Standardvariance):方差的平方根。变异系数(Coefficientof
3、variation):是以百分比表示的标准差和均数的比率。3.分布形状度量偏度(Skewness):用于度量分布是否对称。样本偏度为n(n-1)(n-2)工(x-x)3s3。其中n为样本含量,x为样本均数,s为样本标准差。对称分布的偏度值为0,正偏态分布的偏度值大于0,负偏态分布的偏度值小于0。峰度(Kortosis):用于度量分布的长尾所占比重。偏离正态分布较远的分布可样本峰度为竺也工仪-I(n-1)(n-2)(n-3)s4(n-2)(n-3)能具有较大的正的或负的峰度值。正态分布的峰度值为0。MEANS过程MEANS过程用来对数据集中的数值变量计算简单的描述性统计量。该过程对数据集中有VA
4、R语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量。如果使用BY语句,可把数据按BY变量分为几个观测组,并对每个观测组计算数值变量的描述统计量。在BY组内还可以用CLASS语句进一步分组。另外MEANS过程可以将若干统计量的计算结果输出到指定的SAS数据集,供进一步分析计算时调用。最后,MEANS过程还可计算总体均数的可信区间及He=0的t检验。3.2.1MEANS过程的语句说明MEANS过程语句组成*PROCMEANS选择项(options)VAR变量名表BY变量名表CLASS变量名表FREQ变量名表OUTPUTOUT=SAS数据集统计量关键词=变量名表其中*标出的是不可缺少的语
5、句,其他语句为可选语句(下同)。MEANS过程的语句说明(1)PROCMEANS语句格式:PROCMEANSoptions;常用的options(选择项)有:DATA=SASDATASETS指明目标数据集名。缺省为最近建立的SAS数据集。NOPRINT:说明不打印任何描述性统计量。多用在将这些描述性统计量输出到SAS数据集时。MAXDEC=n:规定输出结果的小数部分的最大位数(n取值为08)。缺省n=2。FW=field-width(域宽):给出用来打印每个统计量的域宽。缺省值为12。VARdef=Dflweight/WGTINIWDF:在方差计算中规定除数。Df表示除数使用自由度(n-1),
6、为缺省值oWeight/WGT表示用权数和作为除数。n表示用观测个体数(样本含量)做除数。WDF表示用权数和减1做除数。ALPHA=value:设置计算置信区间的置信水平aoa值在01间。例如若规定ALPHA=0.05,则计算均值的95%置信区间。统计量关键词:缺省时,该过程将计算n、mean、std、min、max等5个统计量。统计量的选择项有:n,nmiss,mean,std,min,max,range,sum,var,uss,css,cv,stderr,t,prt,sumwgt,skewness,krutosis,clm,lclm,uclm。(2)VAR语句格式:VAR变量名表;规定要求
7、计算简单描述性统计量的数值变量及次序。若省略该语句,数据集中除去BY、CLASS、ID、FREQ和WEIGHT语句中列出的变量外,所有数值变量依次都被分别计算。(3)BY语句格式:BY变量名表;使用BY语句后,MEANS过程先按BY变量的取值形成多个观测组,然后按组别分别计算各组对应的描述性统计量,并可由每个观测组产生输出数据集中的一个观测。注意在使用BY语句前,要求对BY变量已排过序。CLASS语句格式:CLASS变量名表;同BY语句类似,用CLASS变量定义观测组,分别计算各观测组的描述性统计量。与BY不同的是CLASS语句不要求CLASS变量事前已排序,而且结果在输出时,按CLASS变量
8、的不同取值,以单表的形式输出。FREQ语句格式:FREQ变量;该语句指定一个数值型的FREQ变量,它的值表示输入数据集中相应观测出现的频数,该变量的值应为正整数。若FREQvl或缺失,相应的观测不参加计算统计量;若这个值不是正整数则取整数部分。FREQ语句仅当输入数据集系频数表资料时才使用。WEIGHT语句格式:WEIGHT变量名;该语句规定一个WEIGHT变量,它的值表示相应观测的权数,该变量的值应大于0,若该值小于0或缺失,则假定该值为0。WEIGHT语句仅当计算加权统计量时才使用。OUTPUT语句格式:OUTPUTOUT=SAS数据集统计量关键词=变量名表;该语句要求MEANS过程将指定
9、的统计量,以指定的名称输出到新的SAS数据集中。Out=SAS数据集命名输出数据集名。可用两级数据集名建立永久SAS数据集。统计量关键词=变量名表规定在新数据集中所包含的统计量,并规定存放这些统计量的变量名。规定统计量并命名的形式有:关键词=变量名1变量名2关键词(变量1变量2)=名1名23.2.2应用实例例31对已建立的三个班级(CLASS),不同性别(SEX)的年龄(AGE)、体重(WEIGHT)和身高(HEIGHT)的SAS数据集SASTEXTCHILD.SSD,按不同班级、不同性别计算身高、体重的均数、标准差及标准误,存入名为NEW的SAS数据集中,并打印该数据集的内容。程序为:LIB
10、NAMEJISASTEXT;PROCSORTDATA=JI.CHILD;BYCLASS;PROCMEANSDATA=JI.CHILDMAXDEC=3FW=10;VARHEIGHTWEIGHT;BYCLASS;CLASSSEX;OUTPUTOUT=NEWMEAN=HMEANWMEANSTD=HSDWSDSTDERR=HSEWSE;RUN;PROCPRINTDATA=NEW;TITLENEWDATASET;RUN;注意与MEANS过程具有类似功能的有SUMMARY过程。UNIVARIATE过程UNIVARIATE过程除能完成与MEANS过程类似的基本统计量的计算外,还具有如下功能:描述单变量极端值
11、的情况。计算分位数。如中位数,上四分位数及下四分位数等。生成若干个描述变量分布的图。如茎叶图、盒式图、正态概率图等。生成频数表。对资料进行正态性检验。对总体均数是否为零进行假设检验。可以作t检验、中位数检验及符号秩和检验。3.3.1UNIVARIATE过程的语句说明1.UNIVARIATE过程语句组成*PROCUNIVARIATE选择项(options)VAR变量名表BY变量名表FREQ变量名表ID变量名表OUTPUTOUT=SAS数据集统计量关键词=变量名表2.UNIVARIATE过程的语句说明PROCUNIVARIATE语句格式:PROCUNIVARIATEoptions;常用的optio
12、ns有:DATA=SAS数据集同MEANS过程。NOPRINT同MEANS过程。VARdef=DFIWeightlWGTINIWDF同MEANS过程。FREQ:要求生成包括变量值、频数、频率和累积频率的频数表。NORMAL:要求计算输入的变量是否服从正态分布的假设检验的统计量,并打印是比检验统计量更极端的概率。PLOT:要求生成一个茎叶图(或水平直方图)、盒式图和正态概率图。PCTLDEF=Value:规定计算百分位数的方法。取值为1,2,3,4和5。缺省值为5。OUTPUT语句格式:OUTPUTOUT=SAS数据集统计量关键词=变量名表;在一个UNIVARIATE过程中可使用多个OUTPUT
13、语句,每一个OUTPUT语句创建一个输出数据集。这里的统计量关键词除在MEANS过程中已介绍的21种外,还有:MSIGN:符号统计量PROBM:大于符号统计量的绝对值的概率SIGNRANK:符号秩统计量PROBS:大于符号秩统计量的概率NORMAL:正态性检验统计量PROBN:数据来自正态分布的概率值Q3:上四分位数或75%分位数Q1:下四分位数或75%分位数QRANGE:四分位数间距,即Q3-Q1P1:1%分位数P5:5%分位数P10:10%分位数P90:90%分位数P95:95%分位数P99:99%分位数若要计算任意的百分位数,可在OUTPUT中使用下列选择项。一般用来注明所要计算的是哪个
14、百分位数。PCTLPTS=百分位数指明要计算的百分位数。PCTLNAME=输出变量名的后缀PCTLPRE=输出变量名的前缀一般用来注明是计算哪个变量的百分位数。以上三项需一起结合使用。例如:PROCUNIVARIATE;VARtestatestbtestc;OUTPUTPCTLPTS=33.366.7PCTLPRE=abcPCTLNAME=p33_3p66_7;RUN;程序执行后将对VAR语句中所列的三个变量testa,testb,testc分别计算33.3%和66.7%的百分位数值。变量名依次为ap33_3,ap66_7(testa的33.3%和66.7%分位数)、bp33_3,bp66_7
15、(testb的33.3%和66.7%分位数)、cp33_3,cp66_7(testa的33.3%和66.7%分位数)。(3)打印输出的有关统计量介绍T:Mean=O,及ProbITI检验假设H。:总体均数为零检验方法:Studentt检验检验统计量:T=(X-O)/(s/、n)Prob=P(tITI)M(sign),及Prob|M|检验假设H。:总体中位数为零检验方法:总体中位数检验检验统计量:M=Min(小于0的观测个数,大于0的观测个数)一非零的观测个数/2Prob=P(m|M|)sgnRank及Prob|S|)检验假设H。:总体中位数为零检验方法:符号秩和检验检验统计量:S=T+-(n+
16、1)/2n/2Prob=P(s|S|)正态性检验的W检验(nW2000)检验假设H。:样本来自正态总体,或观测数据服从正态分布检验方法:Shapiro-Wilks的W检验检验统计量:W=Za.(X(.,-X.)2/!(X.-X)2i(x-i+1)ii其中a.为W检验系数,W值介于01之间。当W值愈接近于1,提示资料服从正态分布;反之,W偏离1愈远,则拒绝原假设,提示资料不服从正态分布。亦即对此检验而言,WvW,则pW,则pa。a,n丄a,nAKolmogorov-Smirnov正态性检验(n2000)检验假设H。:样本来自正态总体,或观测数据服从正态分布检验方法:Kolmogorov-Sm.r
17、nov频数分布拟合优度检验检验统计量:D=max|fn(X.)-F(X.)|,|fn(X.-1)-F(X.)|n.n.-1.1i|T|0.0001Num=0110Num0110M(Sign)55Pr=|M|0.0001SgnRank3052.5Pr=|S|0.0001W:Normal0.984798PrITI:在H0成立条件下,t统计量大于T绝对值的概率Num0:观测值0的观测个数ProbIMI,:是在H0成立条件下,出现大于M绝对值的概率SgnRank:检验总体中位数为0的假ProbISI:在H成立条件下,出现大于ISI设检验的符号秩和统计量值的概率W:Normal:正态性检验统计量Prob
18、W:正态性检验相应的显著性概率(P值)Quantiles(Def=5)100%Max132.599%130.875%Q3122.895%12850%Med119.990%125.725%Q1116.410%113.10%Min108.25%112.31%110.3TOC o 1-5 h zRange24.3Q3-Q16.4Mode114.3ExtremesLowestObsHighestObs108.2(8)129.1(56)110.3(97)129.3(38)110.8(6)130.5(45)111.5(100)130.8(110)112.2(64)132.5(108)以上为单变量分析。其中
19、包括正态性检验的W检验,检验结果为Pr(w)=0.7608,说明该资料服从正态分布。UnivariateProcedureVariable=XStemLeaf#Boxplot132510131130582|129132|12801|12711|1261263|1250122686|12411444|123012585|12209+-+121025585|1200007778816|1190810*-+-*118012344598|11701224797|116023334888+-+115411148|113002241122344751115111038210910821+茎叶图(StemLeaf):显示资料频数分布的特征。图中数据值分为茎和叶,以数据的整数部分表示茎,叶为相应的小数部分,实际数据是茎叶乘以尺度比例。盒状图(Boxplot):由上四分位数和下四分位数划出盒(Box)的顶线和底线,中间的横线表示中位数的位置。盒状图中的竖线称触须,表示数据散布的范围,它是1.5倍的四分位数间距。超过该范围的数据用“0”表示;若超过了3倍以上四分位数间距的数据,则用#号标记。UnivariateProcedureVariable=XNormalProbabilityPlot*+*+132.5+|*+|*+|*+|*|
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制作冰淇淋课件
- 第七讲 调用五官感受写一写(看图写话教学)-一年级语文上册(统编版·2024秋)
- 2024年黑龙江省龙东地区中考数学真题卷及答案解析
- 幼儿园小班音乐《狐狸和石头》教案
- 西京学院《影像信息学与使用》2021-2022学年第一学期期末试卷
- 西京学院《继电保护装置》2022-2023学年期末试卷
- 西京学院《儿科护理学》2023-2024学年第一学期期末试卷
- 西华师范大学《中国画基础》2022-2023学年第一学期期末试卷
- 西华师范大学《新闻修辞学》2021-2022学年第一学期期末试卷
- 西华师范大学《体育课程与教学论》2022-2023学年第一学期期末试卷
- 消防火灾自动报警主机更换(增加)施工方案
- 《加盟申请表》word版
- 钢丝绳的规格和意义
- profibus现场总线故障诊断与排除
- 高考数学立体几何中的翻折、轨迹及最值(范围)问题
- 大学生生涯决策平衡单样表
- 胶凝砂砾石施工方案
- 小学德育课程校本教材
- 金光修持法(含咒诀指印、步骤、利益说明)
- 一汽大众4S店标准组织结构图
- 小学英语作业设计PPT课件
评论
0/150
提交评论