数据的统计描述_第1页
数据的统计描述_第2页
数据的统计描述_第3页
数据的统计描述_第4页
数据的统计描述_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据的统计描述1.1 统计描述及SAS过程1.1.1 描述性统计量1.1.1.1平均位置的度量1.1.1.2离散程度的度量1.1.1.3分布形状的度量1.1.2 MEANS过程1.1.2.1 MEANS过程的格式及语句说明1.1.2.2 SAS例子1.1.3 UNIVARIATE过程1.1.3.1格式及语句说明1.1.3.2 语句说明2.2 数据的图形概括2.2.1概率密度函数及分布函数的图形表示2.2.2探索性数据分析第2章 数据的统计描述目录返回作业思考题1统计描述是对观测数据进行概括、整理,使人们对其规律有个基本了解,也是进一步进行统计推断和分析的基础 第2章 数据的统计描述采用相应的统

2、计量和绘制统计图等方式对数据进行整理 SAS系统中的MEANS和UNIVARIATE过程可以实现对数据的统计描述,本章目录2描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 平均位置的度量1.均值本章目录3描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 平均位置的度量2.中位数其做法是先将这n个数按从小到大的顺序进行排列得到: ,中位数是位于中间位置的数。 本章目录4描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 平均位置的度量3.众数表示观测值中出现次数最多的数值,常用 表示 本章目录5描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 平均

3、位置的度量4.分位数其中 表示 整数部分,且 。 分位数表示有100 %个观测值不超过 分位数。故又称 分位数为第100 个百分位数,中位数即0.5分位数.0.25分位数和0.75分位数分别称为下四分位数和上四分位数,并记为 和 。 本章目录6描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 平均位置的度量以上几个统计量中,均值易受极端值的影响,而众数、中位数和分位数受极端值影响较小。因而这些量在实际应用中要区别对待 本章目录7描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 离散程度的度量 1.方差2.标准差3.标准误(均值的标准差)本章目录8描述性统计量1 描述性统

4、计及SAS相关过程设 是一组观测数据 离散程度的度量 4.极差5.四分位距(四分位极差)6.变异系数即:本章目录9描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 离散程度的度量 方差是度量观测值分散程度的常用统计量,但其量纲与观测值的量纲不同,而标准差、极差及标准误的单位与观测值的量纲相同,而变异系数无量纲,因而便于不同量纲数据的分散性比较 通常在正态分布的情况下,我们用统计量均值和方差来描述分布的平均位置和变异程度,而对分布未知或分布不规则的观测数据用统计量中位数和四分位距来度量其位置和变异 本章目录10描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 分布形状的度

5、量 1.偏度2.峰度其中 为标准差 本章目录11描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 分布形状的度量 一个分布是否对称,可通过计算偏度的值进行判断:若 ,可认为分布对称;若 ,则分布右偏(正偏),即均值右侧的数据更分散;若 ,则分布左偏(负偏),即均值左侧的数据更分散。峰度是以同方差正态分布为标准,比较两侧极端数据分布情况的指标。正态分布的 ;若均值两侧极端值数据较多,则峰度为正,此时分布有一厚重的尾巴,且 ;若均值两侧的极端值较少,则 。本章目录12MEANS过程1 描述性统计及SAS相关过程MEANS过程可用来对数值变量计算其描述性统计量,该过程除不能给出众数及分位

6、数外,其它描述性统计量均可给出。它可以通过VAR语句指定需要分析的变量,也可通过BY语句,将变量进行分组计算其统计量,在BY组内还可通过CLASS语句进一步分组。此外该过程还可进行T-检验(其检验假设为: )和总体均数的区间估计,同时还可方便地将所分析的结果保存到SAS数据集中,方便以后进一步使用。 本章目录13MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 1.格式PROC MEANS 选择项; VAR 变量表; BY 变量表; CLASS 变量表; FREQ 变量表; WEIGHT 变量; ID 变量表; OUTPUT OUT=SAS数据集 统计量关键词=变量名

7、表必需的语句可选择语句本章目录14MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 选择项 DATA=SAS数据集名,指明进行分析的数据集名,其缺省值为最近建立的SAS数据集。NOPRINT不打印任何描述性统计量。此选项多用在将描述性统计量输出到SAS数据集时。 缺省时的规定输出描述统计量,即PRINT选项。MAXDEC=n指定输出结果小数部分的最大位数,n的取值范围为08,缺省值为n=2ALPHA=值,指定显著性水平的值。VARDEF=除数 指定计算方差所用的除数。除数可以用以下关键字表示: 1. DF 用自由度(N-1)做除数,这是缺省设置。 2.

8、N 用观测数做除数。 3. WEIGHT | WGT 用权重和做除数。 4. WDF 用权重和减1做除数。本章目录15MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 选择项 统计量用关键词表示: N、mean、std、min、max、Nmiss、range、sum、var、uss、css、cv、stderr、t、prt、sumwgt、skewness、krutosis、clm、lclm、uclm等,其中前五个统计量为缺省时的值.要得到这些统计量,只需给出相关的关键词即可.这此关键词亦可用于OUTPUT语句中。clm是计算置信上限和下限;lclm计算置信

9、下限;uclm计算置信上限。本章目录16MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 VAR 变量表 规定要进行计算的数值变量及顺序。该语句缺省时,除由BY、CLASS、FREQ和WEIGHT指定的变量外,其余的数值变量均进行计算。 BY 变量表 根据BY后指定的变量表形成多个观测组,然后对每组分别计算相应的统计量,不过在使用该语句之前,应对BY后面指定的变量表进行过排序。 本章目录17MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 CLASS 变量表 此语句的作用与BY语句类似,其不同之处是它不要求事先对C

10、LASS的变量表进行排序,且在输出时,按CLASS变量的不同取值,以单页输出。 FREQ 变量 指定其后的变量代表的是频数,此语句当数据集是频数表资料时才使用。 用ID后面指定的变量表的值来标识输出的观测。 ID 变量表 本章目录18MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 指定其后的变量代表权重。该变量的值应大于零,若某值小于零或缺失,则取该值为0。 WEIGHT 变量 例如,设变量X,其一组观测值为 ,用WEIGHT语句规定权重变量为W,相应的值为 ,( ), 则加权均值 和加权方差 为: ,其中除数由任选项VARDEF=确定。 本章目录19

11、MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 该语句将结果输出到某SAS数据集,其中OUT=SAS数据集指明将结果保存的数据集,若要创建永久数据集则要用两级命名。统计量关键词见选择项中的说明 OUTPUT OUT=SAS数据集 统计量关键词=变量名表 本章目录20MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 规定统计量并命名的形式有以下三种: OUTPUT OUT=SAS数据集 统计量关键词=变量名表 关键词=;或关键词(变量表)=;表示输出的数据集中计算由关键词指定的 统计量,其名字仍为原变量名。前者要计

12、算的变量和顺序由VAR语句指 定,而后者则由关键词括号中的变量表指定。关键词=名字列表;表示输出的统计量的名字为等号右边的名字列表指定, 计算的变量和顺序也是由VAR语句指定。关键词(变量表)=名字列表;这结合前面两者的优点,既可控制要计算的 变量及顺序,也可按自已的要求给计算的统计量取名字。 本章目录21MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 3.例子 对120个炉钢中的SI含量进行检验,得数据如下:0.86 0.78 0.83 0.84 0.77 0.84 0.81 0.84 0.81 0.81 0.80 0.81 0.79 0.74 0.82 0.78

13、 0.82 0.78 0.81 0.80 0.81 0.74 0.87 0.780.82 0.75 0.78 0.79 0.80 0.85 0.81 0.78 0.87 0.74 0.81 0.710.77 0.88 0.78 0.82 0.77 0.76 0.78 0.85 0.77 0.73 0.77 0.780.77 0.81 0.71 0.79 0.95 0.77 0.78 0.78 0.81 0.81 0.79 0.870.80 0.83 0.77 0.65 0.76 0.64 0.82 0.78 0.80 0.75 0.82 0.820.84 0.80 0.79 0.80 0.90

14、 0.77 0.82 0.81 0.79 0.75 0.82 0.830.79 0.90 0.86 0.80 0.76 0.85 0.78 0.81 0.83 0.77 0.75 0.780.82 0.82 0.78 0.84 0.73 0.85 0.83 0.84 0.81 0.82 0.81 0.850.83 0.84 0.89 0.82 0.81 0.85 0.86 0.84 0.82 0.78 0.82 0.78给出这组数据的描述统计量,样本均值,样本方差,标准差,标准误差,极差,变异系数,偏度系数,峰度系数等 本章目录22MEANS过程1 描述性统计及SAS相关过程MEANS过程的格

15、式及语句说明 3.例子 data stat;input x;cards;0.86 0.78 0.83 0.84 0.77 0.84 0.81 0.84 0.81 0.81 0.80 0.810.79 0.74 0.82 0.78 0.82 0.78 0.81 0.80 0.81 0.74 0.87 0.780.82 0.75 0.78 0.79 0.80 0.85 0.81 0.78 0.87 0.74 0.81 0.710.77 0.88 0.78 0.82 0.77 0.76 0.78 0.85 0.77 0.73 0.77 0.780.77 0.81 0.71 0.79 0.95 0.7

16、7 0.78 0.78 0.81 0.81 0.79 0.870.80 0.83 0.77 0.65 0.76 0.64 0.82 0.78 0.80 0.75 0.82 0.820.84 0.80 0.79 0.80 0.90 0.77 0.82 0.81 0.79 0.75 0.82 0.830.79 0.90 0.86 0.80 0.76 0.85 0.78 0.81 0.83 0.77 0.75 0.780.82 0.82 0.78 0.84 0.73 0.85 0.83 0.84 0.81 0.82 0.81 0.850.83 0.84 0.89 0.82 0.81 0.85 0.8

17、6 0.84 0.82 0.78 0.82 0.78;proc means data=stat mean var std stderr range cv skewness kurtosis;var x;run;演示本章目录23univariate过程1 描述性统计及SAS相关过程UNIVARIATE过程与MEANS过程一样,能计算各种描述统计量,但它的功能比MEANS过程还要强大,除了可完成MEANS过程的基本统计量的计算外,还能计算众数和分位数,生成频率表,以及进行正态性检验和绘制正态概率图、茎叶图和盒形图等方面的功能(关于这部分的功能下章再说明)。 本章目录24univariate过程1

18、描述性统计及SAS相关过程Univariate过程的格式及语句说明1.格式PROC UNIVARIATE 选择项; VAR 变量表; BY 变量表; FREQ 变量; WEIGHT 变量; ID 变量表; OUTPUT OUT=输出数据集 统计量关键词=变量名表 必需的语句可选语句本章目录25univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明选择项常用的几个选项如下:DATA=数据集 给出要计算的目标数据集NOPRINT 要求不在OUTPUT窗中输出.PLOT 给出三种图形:茎叶图、盒式图、正态概率图。FREQ 给出频数分布表,表中包括变

19、量值、频数、百分数、累计百分数等项;NORMAL 进行正态性检验,检验的原假设是:数据来自正态总体。VARDEF=DF | WGT | N | WDF 规定计算方差的除数本章目录26univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 OUTPUT语句建立包括UNIVARIATE过程分析结果的输出数据集,其格式与MEANS过程的格式相同,但该语句必须与VAR语句联用。 本章目录27univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 下面列出其统计关键词

20、(1)系统给出的统计关键词 N、NOBS、NMISS、MEAN、STDERR、SUM、STD、VAR、CV、USS、CSS、MAX、MIN、RANGE、SKEWNESS、KURTOSIS、SUMWGT、MODE、T、PRT。 本章目录28univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 下面列出其统计关键词 (1)系统给出的统计关键词 百分位数关键字: Q3 上四分位数(第75百分位数) Q1 下四分位数(第25百分位数) QRANGE Q3-Q1四分位距 MEDIAN 中位数(第50百分位数) P1 第1百分位数 P5

21、 第5百分位数 P10 第10百分位数 P90 第90百分位数 P95 第95百分位数 P99 第99百分位数本章目录29univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 下面列出其统计关键词 (1)系统给出的统计关键词 其它:SIGNRANK 符号秩统计量PROBS 大于中心的符号统计量的绝对值的概率MSIGN 符号统计量PROBM 大于符号秩统计量的绝对值的概率NORMAL 正态检验统计量(W、ProbD)。PROBN 检验数据来自正态分布假设的概率值。 本章目录30univariate过程1 描述性统计及SAS相关

22、过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 下面列出其统计关键词 (2)自定义分位数的选项 PCTLPTS=百分位数值表 如PCTLPTS=55 66.7 即要求计算第55、和第66.7百分位数。若不指定这2个百分位数的变量名,则系统会自动地给出其变量名分别为55、和66_7。小数点用“_代替,若指定的百分位数有两位小数,给出的变量名截成一位 PCTLNAME=后缀名列表 给出要输出的百分位数变量名的后缀 PCTLPRE=前缀名列表 给出要输出的百分位数变量名的字头 本章目录31univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及

23、语句说明2.语句说明OUTPUT语句 下面列出其统计关键词 (2)自定义分位数的选项 自定义的百分位数的名字由定义的变量前缀和后缀确定或缺省名连接起来形成。以上三项常联合起来使用,其效果见下例:PROC UNIVARIATE; VAR X Y Z; OUTPUT OUT=TESTOUT PCTLPTS=55 66.7 PCTLPRE=A B C PCTLNAME=P55 P66_7; run;本章目录32univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句 下面列出其统计关键词 (2)自定义分位数的选项 此例中要求给出由VA

24、R语句中规定的三个变量X,Y,Z的第55%和66.7%百分位数,则在输出数据集中产生的变量AP55 AP66_7表示X的第55和66.7百分位数; 变量BP55,BP66_7表示Y的第55和66.7百分位数;变量CP55 CP66_7表示Z的第55 66.7百分位数。 本章目录33univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子例 数据同上例,下面我们用UNIVARIATE过程给出另外的几个描述性统计量,中位数,众数,上四分位数,下四分位数,四分位距 proc univariate data=stat;var x;run; 本章目录34un

25、ivariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子输出结果为:Univariate ProcedureVariable=X Moments (I)N120Sum Wgts120Mean0.80275Sum96.33Std Dev0.044777Variance0.002005Skewness-0.33182Kurtosis2.287141USS77.5675CSS0.238593CV5.57795Std Mean0.004088T:Mean=0196.3885Pr|T|0.0001Num =0120Num0120M(Sign)60Pr=|M|0.

26、0001Sgn Rank3630Pr=|S|0.0001本章目录35univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子输出结果为: Quantiles(Def=5) (II) 100% Max 0.95 99% 0.9 75% Q3 0.83 95% 0.87 50% Med 0.81 90% 0.85 25% Q1 0.78 10% 0.75 0% Min 0.64 5% 0.735 1% 0.65 极差 0.31 Q3-Q1 0.05 众数 0.78本章目录36univariate过程1 描述性统计及SAS相关过程Univariate过程

27、的格式及语句说明3.例子输出结果为: Extremes(III) Lowest Obs Highest Obs 0.64( 66) 0.88( 38) 0.65( 64) 0.89( 111) 0.71( 51) 0.9( 77) 0.71( 36) 0.9( 86) 0.73( 101) 0.95( 53) 本章目录37univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子N:观测的个数Sum Wgts:观测的加权和Mean:均值 Sum:观测值的总和Std Dev:标准差 Variance:方差Skewness:偏度 Kurtosis:峰度U

28、SS:观测值平方和 CSS:离均差平方和CV:变异系数 Std Mean:标准误差(即均值的标准差)T:Mean=0:均值为0的假设下的T值 Pr|T|:大于T绝对值的概率Num =0:非零观测的个数 Num0:观测值中大于零的个数M(Sign):中位数为0的假设下符号统计量M的值 Pr=|M|:不小于M绝对值的概率Sgn Rank:中位数为0的假设下符号秩和统计量S的值 Pr=|S|:不小于S绝对值的概率。*W:Normal:正态性检验统计量W的值 PrW:小于W值的概率。本章目录38univariate过程1 描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子上面的

29、程序利用UNIVARIATE过程的缺省输出,结果需要在输出项中寻找才行,下面的程序直接将结果保存到SAS数据集中。proc univariate data=stat noprint;var x;output out=result1 mode=xmod median=xmed Q3=xq3 Q1=xq1 QRANGE=xq31;proc print data=result1;run;结果为: XQ3 XMED XQ1 XQ31 XMOD 0.83 0.81 0.78 0.05 0.78 示范本章目录39图形具有形象直观的特点,因此用适当的图形将数据的特征展示出来,是非常有意义的。常用频率直方图和累计频率直方图来表示概率密度函数和分布函数;对数据用茎叶图和盒形图来进行探索分析等。 2 数据的图形概括本章目录401 概率密度函数及分布函数的图形表示(CHART、GCHART过程) 2 数据的图形概括 设 是取自总体 的样本,总体的概率密度函数为 ,将 的取值范围等分为 个区间,用 表示区间的长度,用 表示落入第 个区间的样品个数。另外由总体分布 及积分中值定理,有:用频率 近似估计概率 的值,则有: ,因此当区间很小且样本容量 很大时,则以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论