03数值资料的统计描述new_第1页
03数值资料的统计描述new_第2页
03数值资料的统计描述new_第3页
03数值资料的统计描述new_第4页
03数值资料的统计描述new_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 数值资料的统计描述数值资料的统计描述 考察数值变量(定量指标)所获得的资料称数值资料。采用计算统计指标、绘制统 计图和编制统计表来描述数值资料的统计特征称数值资料的统计描述。它是资料统计分 析的主要步骤,是进一步开展统计推断的依据。BASE SAS 模块提供了对资料统计描述 的多个过程语句,其中 MEANS 过程和 UNIVARIATE 过程可满足数值变量的全部各类 统计指标的计算。 3.1 数值资料常用统计指标 1. 位置度量 (1) 均数(Mean):是描述数值资料频数分布中心的一种度量,它是一组 n 个观察值累 加和的平均。 (2) 中位数(Median):是一组数据按其大

2、小有序排列后,居于中间的数值。 (3) 众数(Mode):是观察值中出现频率最高的数值。 (4) 几何均数(Geometric mean):是 n 个数值的乘积开 n 次方根。 (5) 分位数(Quartiles):包括百分位数、四分位数和中位数。第 X 百分位数记为 Px,表示 在一组按大小顺序排列的数据中,有 x%的观察值小于 Px,有(100-x)%的观察值大于 Px。P50、P25、P75 分别称为中位数、下四分位数、上四分位数。 2. 变异性度量 (1) 全距(Range):为一组观察值中最大值与最小值之差。 (2) 四分位间距(Interquartile range):为上、下四分

3、位数之差。 (3) 方差(Variance):是离均差平方和除以自由度的商。 (4) 标准差(Standard variance):方差的平方根。 (5) 变异系数(Coefficient of variation):是以百分比表示的标准差和均数的比率。 3. 分布形状度量 偏度(Skewness): 用于度量分布是否对称。样本偏度为。其中 3 3 s )xx( )2n)(1n( n n 为样本含量,为样本均数,s 为样本标准差。对称分布的偏度值为 0,正偏态分布的x 偏度值大于 0,负偏态分布的偏度值小于 0。 峰度(Kortosis): 用于度量分布的长尾所占比重。 样本峰度为。偏离正态分

4、布较远的分布可 )3n)(2n( ) 1n(3 s )xx( )3n)(2n)(1n( ) 1n(n 2 4 4 2 能具有较大的正的或负的峰度值。正态分布的峰度值为 0。 3.2 MEANS 过程 MEANS 过程用来对数据集中的数值变量计算简单的描述性统计量。该过程对数据集中 有 VAR 语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量。如果使 用 BY 语句,可把数据按 BY 变量分为几个观测组,并对每个观测组计算数值变量的描 述统计量。在 BY 组内还可以用 CLASS 语句进一步分组。另外 MEANS 过程可以将若 干统计量的计算结果输出到指定的 SAS 数据集,供进一步

5、分析计算时调用。最后, MEANS 过程还可计算总体均数的可信区间及 H0:0 的 t 检验。 3.2.1 MEANS 过程的语句说明过程的语句说明 1.MEANS 过程语句组成 *PROC MEANS 选择项(options) VAR 变量名表 BY 变量名表 CLASS 变量名表 FREQ 变量名表 OUTPUT OUT=SAS 数据集 统计量关键词变量名表 其中*标出的是不可缺少的语句,其他语句为可选语句(下同) 。 2. MEANS 过程的语句说明 (1) PROC MEANS 语句 格式: PROC MEANS options; 常用的 options(选择项)有: DATA=SAS

6、DATASETS: 指明目标数据集名。缺省为最近建立的 SAS 数据 集。 NOPRINT: 说明不打印任何描述性统计量。多用在将这些描述性统计量输出 到 SAS 数据集时。 MAXDEC=n: 规定输出结果的小数部分的最大位数(n 取值为 08)。缺省 n2。 FW=field-width(域宽):给出用来打印每个统计量的域宽。缺省值为 12。 VARdef=Df|weight/WGT|N|WDF: 在方差计算中规定除数。Df 表示除数使用自 由度(n-1),为缺省值。Weight/WGT 表示用权数和作为除数。n 表示用观测个体 数(样本含量)做除数。WDF 表示用权数和减 1 做除数。

7、ALPHA=value: 设置计算置信区间的置信水平 。 值在 01 间。例如若规 定 ALPHA=0.05,则计算均值的 95%置信区间。 统计量关键词: 缺省时,该过程将计算 n、mean、std、min、max 等 5 个统计量。统计量的选 择项有:n,nmiss,mean,std,min,max,range,sum,var,uss,css,cv,stderr,t,prt,sumwgt, skewness,krutosis,clm,lclm,uclm。 (2)VAR 语句 格式: VAR 变量名表; 规定要求计算简单描述性统计量的数值变量及次序。若省略该语句,数据集中除去 BY、CLAS

8、S、ID、FREQ 和 WEIGHT 语句中列出的变量外,所有数值变量依次都被分 别计算。 (3)BY 语句 格式: BY 变量名表; 使用 BY 语句后,MEANS 过程先按 BY 变量的取值形成多个观测组,然后按组别 分别计算各组对应的描述性统计量,并可由每个观测组产生输出数据集中的一个观测。 注意在使用 BY 语句前,要求对 BY 变量已排过序。 (4) CLASS 语句 格式: CLASS 变量名表; 同 BY 语句类似,用 CLASS 变量定义观测组,分别计算各观测组的描述性统计量。 与 BY 不同的是 CLASS 语句不要求 CLASS 变量事前已排序,而且结果在输出时,按 CLA

9、SS 变量的不同取值,以单表的形式输出。 (5) FREQ 语句 格式: FREQ 变量; 该语句指定一个数值型的 FREQ 变量,它的值表示输入数据集中相应观测出现的频数, 该变量的值应为正整数。若 FREQ|T| 检验假设 H0:总体均数为零 检验方法:Student t 检验 检验统计量: T=(-0)/(s/)xn Prob=P(t|T|) M(sign), 及 Prob|M| 检验假设 H0:总体中位数为零 检验方法:总体中位数检验 检验统计量:M=Min(小于 0 的观测个数,大于 0 的观测个数)非零的观测个数/2 Prob=P(m|M|) sgn Rank 及 Prob|S|)

10、 检验假设 H0:总体中位数为零 检验方法:符号秩和检验 检验统计量:S=T+ - (n+1)/2n/2 Prob=P(s|S|) 正态性检验的 W 检验(n2000) 检验假设 H0:样本来自正态总体,或观测数据服从正态分布 检验方法:Shapiro-Wilks 的 W 检验 检验统计量: W=ai(X(x-i+1)-Xi)2/(Xi-)2X 其中 ai为 W 检验系数,W 值介于 01 之间。当 W 值愈接近于 1,提示资料服从正态分 布;反之,W 偏离 1 愈远,则拒绝原假设,提示资料不服从正态分布。亦即对此检验而 言,WW,n,则 pW,n,则 p。 Kolmogorov-Smirno

11、v 正态性检验(n2000) 检验假设 H0:样本来自正态总体,或观测数据服从正态分布 检验方法:Kolmogorov-Smirnov 频数分布拟合优度检验 检验统计量: D=|fn(Xi)-F(Xi)|, | fn(Xi-1)-F(Xi)| ni1 max D 值越大,P 值越小,提示资料不服从正态分布;反之,D 值越小,P 值越大,提示资 料服从正态分布。 3.3.2 UNIVARIATE 过程与过程与 MEANS 过程的不同过程的不同 由于 PROC UNIVARIATE 语句中增加选项 PLOT、NORMAL 和 FREQ,在 OUTPUT 语句中增加任意百分位数的计算功能,使其应用范

12、围大大增加。要注意在 PROC UNIVARIATE 过程中不使用 CLASS 语句,这与 PROC MEANS 过程不同。 3.4 实用程序精选 3.4.1 数值资料的统计描述过程数值资料的统计描述过程 例例 3.2 对 110 名 7 岁男童身高资料,试编制频数表、计算描述性统计量及进行正态 性检验。 SAS 程序为: /*THE FOLLOWING EXAMPLE IS UNIVARIATE ANALYSIS.*/; PROC FORMAT; VALUE YFMT 1=108- 2=110- 3=112- 4=114- 5=116- 6=118- 7=120- 8=122- 9=124-

13、 10=126- 11=128- 12=130- 13=132-134; (/*定义输出格式 YFMT*/) DATA P6; DO I=1 TO 110; INPUT X; Y=INT(X-108)/2)+1; FORMAT Y YFMT.;/*YFMT 后的点“.”不能少*/ OUTPUT; END; CARDS; 112.4 117.2 122.7 123.0 113.0 110.8 118.2 108.2 118.9 118.1 123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.7 116.8 119.8 1

14、22.5 119.7 120.7 114.3 122.0 117.0 122.5 119.8 122.9 128.0 121.5 126.1 117.7 124.1 129.3 121.8 112.7 120.2 120.8 126.6 120.0 130.5 120.0 121.5 114.3 124.1 117.2 124.4 116.4 119.0 117.1 114.9 129.1 118.4 113.2 116.0 120.4 112.3 114.9 124.4 112.2 125.2 116.3 125.8 121.0 115.4 121.2 117.9 120.1 118.4 1

15、22.8 120.1 112.4 118.5 113.0 120.8 114.8 123.8 119.1 122.8 120.7 117.4 126.2 122.1 125.2 118.0 120.7 116.3 125.1 120.5 114.3 123.1 122.4 110.3 119.3 125.0 111.5 116.8 125.6 123.2 119.5 120.5 127.1 120.6 132.5 116.3 130.8 ; PROC FREQ;列频数表 TABLE Y; RUN; PROC UNIVARIATE PLOT NORMAL;单变量分析(包括正态性检验) VAR X

16、; RUN; 运行结果: Cumulative Cumulative Y Frequency Percent Frequency Percent 108- 1 0.9 1 0.9 110- 3 2.7 4 3.6 112- 9 8.2 13 11.8 114- 9 8.2 22 20.0 116- 15 13.6 37 33.6 118- 18 16.4 55 50.0 120- 21 19.1 76 69.1 122- 14 12.7 90 81.8 124- 10 9.1 100 90.9 126- 4 3.6 104 94.5 128- 3 2.7 107 97.3 130- 2 1.8

17、 109 99.1 132-134 1 0.9 110 100.0 以上为频数表。Y表示各组段,Frequency为各组段频数,Percent为各组段频率, Cumulative Frequency为各组段累积频数,Cumulative Percent为各组段累积频率。 Univariate Procedure Variable=X Moments N 110Sum Wgts 110 Mean 119.7273Sum 13170 Std Dev 4.741325Variance 22.48017 Skewness 0.154611Kurtosis -0.02529 USS 1579259CSS

18、 2450.338 CV 3.960105Std Mean 0.452068 T:Mean=0 264.8437Pr|T| 0.0001 Num = 0 110Num 0 110 M(Sign) 55Pr=|M| 0.0001 Sgn Rank 3052.5Pr=|S| 0.0001 W:Normal 0.984798Pr|T|: 在 H0成立条件下,t 统计量 大于 T 绝对值的概率 Num=0 非零观测的个数Num0: 观测值0 的观测个数 M(sign): 检验总体中位数为 0 的假设 检验的符号统计量值 Prob|M|,: 是在 H0成立条件下,出现 大于 M 绝对值的概率 Sgn R

19、ank: 检验总体中位数为 0 的假 设检验的符号秩和统计量值 Prob|S|:在 H0成立条件下,出现大于 |S|的概率 W:Normal: 正态性检验统计量ProbW: 正态性检验相应的显著性概 率(p 值) Quantiles(Def=5) 100% Max 132.5 99% 130.8 75% Q3 122.8 95% 128 50% Med 119.9 90% 125.7 25% Q1 116.4 10% 113.1 0% Min 108.2 5% 112.3 1% 110.3 Range 24.3 Q3-Q1 6.4 Mode 114.3 Extremes Lowest Obs

20、Highest Obs 108.2( 8) 129.1( 56) 110.3( 97) 129.3( 38) 110.8( 6) 130.5( 45) 111.5( 100) 130.8( 110) 112.2( 64) 132.5( 108) 以上为单变量分析。其中包括正态性检验的W检验,检验结果为Pr(w)= 0.7608,说明该 资料服从正态分布。 Univariate Procedure Variable=X Stem Leaf # Boxplot 132 5 1 0 131 130 58 2 | 129 13 2 | 128 0 1 | 127 1 1 | 126 126 3 | 1

21、25 012268 6 | 124 1144 4 | 123 01258 5 | 122 014557889 9 +-+ 121 02558 5 | | 120 0001123455677788 16 | | 119 0135677788 10 *-+-* 118 01234459 8 | | 117 0122479 7 | | 116 02333488 8 +-+ 115 4 1 | 114 33378899 8 | 113 0022 4 | 112 23447 5 | 111 5 1 | 110 38 2 | 109 | 108 2 1 | -+-+-+-+ 茎叶图(Stem Leaf):

22、 显示资料频数分布的特征。图中数据值分为茎和叶,以数据的 整数部分表示茎,叶为相应的小数部分,实际数据是茎叶乘以尺度比例。 盒状图(Boxplot): 由上四分位数和下四分位数划出盒(Box)的顶线和底线,中间的 横线表示中位数的位置。盒状图中的竖线称触须,表示数据散布的范围,它是 1.5 倍的 四分位数间距。超过该范围的数据用“0”表示;若超过了 3 倍以上四分位数间距的数据, 则用#号标记。 Univariate Procedure Variable=X Normal Probability Plot 132.5+ * | + | * *+ | * + | * + | *+ | * | * | *+ | +* | * | +* 120.5+ * | * | * | * | * | *+ | * | * | *+* | *+ | * *+ | + 108.5+*+ +-+-+-+-+-+-+-+-+-+-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论