4.数据描述性分析_第1页
4.数据描述性分析_第2页
4.数据描述性分析_第3页
4.数据描述性分析_第4页
4.数据描述性分析_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北工程大学数学系第一章数据描述性分析数据描述性分析数据分析研究的对象是数据,它们是个观测值:如果这

个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:均值表示数据的集中位置。均值、方差等数字特征方差、标准差与变异系数方差是描述数据取值分散性的一个度量,其量纲是数据量纲的平方。标准差均值、方差等数字特征变异系数:刻画数据相对分散性的度量CV=校正平方和CSS=未校平方和USS

=均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩k阶中心矩均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。偏度频数频数频数偏向左<

0对

称=

0偏向右>

0均值、方差等数字特征峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。总体的数据特征设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:刻画。连及分布函数总体为连续分布时,总体的分布可由概率密度续分布中最重要的是正态分布,它的概率密度分别为总体的数据特征具有正态分布的总体成为正态总体。总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差

总体标准差总体变异系数总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度总体的数据特征偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体的数据特征总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有总体数字特征和样本数字特征

当观测数据

是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据

是等可能性的,即为

;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征--让数据本身说话。MEANS过程PROC

MEANS选择项(options)VAR变量名表;指定需求计算的数值变量及次序BY变量名表;按其取值形成多个观测组,然后计算对应的描述性统计量(要求对By变量已排序)CLASS变量名表;与By类似,但不要求事前排序,结果以单表形式输出FREQ变量名表;输入数据系频数表资料时才使用

OUTPUT

OUT=SAS数据集统计量关键词=变量名表;SAS中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义n有效数据记录数nmiss缺失数据记录数mean均值std标准差var方差median中位数mode众数CV变异系数max最大值SAS中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义min最小值css校正的离均差平方和uss未校正的离均差平方和skew偏度kurt峰度clm可信限(上下界值)lclm可信限下侧界值uclm可信限上侧界值qrange四分位数间距例从19个杆塔上的普通盘形绝缘子测得该层电导率的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。例例例例通过计算,得=8.487

,=3.046,=1.845,CV=21.745,=0.035,

=-0.852,

的绝对值比较小,可以认为是来自正态总体的数据。例

某厂的某种悬式绝缘子机电破坏负荷试验数据(单位:吨)分组表示如表,计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰度。组段组中值组频数5.5~6.05.7546.0~6.56.2536.5~7.06.75157.0~7.57.25427.5~8.07.75498.0~8.58.25788.5~9.08.75509.0~9.59.25319.5~10.09.755例例例某克山区病测得11例克山病患者与13名健康人的血磷值(nmol/L)如表,试求两组的平均血磷值和标准差。患者组0.84

1.05

1.20

1.20

1.39

1.53

1.67

1.80

1.87

2.072.11健康组0.54

0.64

0.64

0.75

0.76

0.81

1.16

1.20

1.34

1.351.48

1.58

1.87例SAS程序为data

p9;

do

g=1

to

2;input

n;

do

i=1

to

n;input

x@

@;output;end;end;Cards;110.84

1.05

1.20

1.20

1.39

1.53

1.67

1.80

1.87

2.07

2.11130.54

0.64

0.64

0.75

0.76

0.81

1.16

1.20

1.34

1.35

1.48

1.58

1.87;proc

means;var

x;by

g;run;例Proc

UNIVARIATE

统计程序univariate与统计程序means的功能大同小异,都可以计算数值变量的描述性统计值

但UNIVARIATE能够对变量的分配情形提供更多的信息:指出一个变量上的极端值;计算四分位数;绘制分配图;产生次数分配表;检定资料是否呈现常态分配;产生统计值输出文件,以供稍后的分析。univariate过程的一般格式proc

univariate选项列表;

by变量名称(分组变量);class变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)histogram变量名称/选项列表output

<out=数据集名><统计量关键字=自定义变量名>

var变量名称(待分析的数值变量);run;univariate过程的一般格式

在一个Univariate过程中,output指令可以多次使用,但是其他六道指令只能出现一次;这六道指令可以按任何顺序出现。proc

univariate选项列表Data=输入资料文件名称若省略此选项,SAS会找出在本程序之前最后形成的资料文件,并对它进行分析;Noprint若只要产生统计值的输出文件,而不想印出报表,可用此选项来抑制报表的产生;Plot产生三种图形:茎叶图或平行条状图、箱线图、常态概率图;proc

univariate选项列表FREQ产生一个次数分配表,这个表包括变量值的出现次数、百分比及累积百分比;NORMAL检定输入资料是否呈现常态分配,并且输出其检定的结果;

PCDLDEF={1/2/3/4/5}此选项来决定计算百分位数的方法,默认值为4;VARDEF指令VAR变量名称串列举需要进行描述性统计分析的变量名称;若省略此指令,将对输入文件中所有数值变量进行分析;若选用output指令,则不可省略var指令。指令BY变量名称;UNIVARIATE程序依据此指令所列举的变量,将文件分成几个小文件,然后就每个小文件,分别执行分析,选用此指令时,文件内的数据必须先按照BY变量串的值做由大到小的重新排列,这个步骤也可借由PROC

SORT达成。指令FREQ变量名称:这个变量必须是输入文件中的一个数值变量,其值代表观察体重复出现的次数。若此变量的值含小数,则取其整数部分。若其值小于1,则此观察体将被剔除在计算过程之外。中位数、分位数、三均值与极差

均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。次序统计量中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差的计算公式是它是描述数据分散性的数字特征。数据越分散,极差越大。例考虑下列样本:5

3

11

3

1

7

8写出次序计量,并求中位数、极差。分位数对和容量为的样本它的分位数是分位数分位数又称为第100百分数。大体上整个样本的100

%的观测值不超过

分位数.0.5分位数

(第50百分位数)就是中位数M。在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,

,例考虑下列样本:5

3

11

3

1

7

8计算上面数据的,,及

,

.例以此类推,我们可以得到其他的结果:均值

与中位数M皆是描述数据集中位置的数字特征。计算

时,用了样本

的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用

比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值作为数据集中位置的数字特征。三均值的计算公式是:例从19个杆塔上的普通盘形绝缘子测得该层电导率下:的数据如9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。例例例上、下截断点分别为1.29和15.05,故数据无异常值。二、数据的分布

数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。直方图、经验分布函数与QQ图

对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。

组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图直方图、经验分布函数与QQ图例例例例例例茎叶图、箱线图及五数总括与直方图相比较,茎叶图更能细致地看出数据分布的结构。例某班有31个学生,某门课程的考试成绩如下:25

45

50

54

55

61

64

68

72

75

75

78

79

81

83

84

8484

85

86

86

86

87

89

89

89

90

91

91

92

100做出其茎叶图。茎叶图、箱线图及五数总括茎叶图、箱线图及五数总括茎叶图的特点茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即深度=min(升秩,降秩)例铅压铸件硬度数据如下:53.0

70.2

84.3

55.3

78.5

63.5

71.4

53.4

82.5

67.3

69.573.0

55.7

85.8

95.4

51.1

74.4

54.1

77.8

52.4

69.1

53.5

64.382.7

55.7

70.5

87.5

50.7

72.3

59.5做出数据的茎叶图。例例箱线图

茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。例某班有31个学生,某门课程的考试成绩如下:25

45

50

54

55

61

64

68

72

75

75

78

79

81

83

84

84

8485

86

86

86

87

89

89

89

90

91

91

92

100做出以上数据的箱线图。例例给出以上两例的五数总括及字母值显示。正态性检验与分布拟合检验

上面介绍的茎叶图、箱线图等对随机型、确定型的数据都有用,其特点是图像生动直观。在直方图、经验分布函数的介绍中,

曾提到在总体存在某种类型的分布时,配一条合适的总体概率

密度曲线或总体分布函数曲线。然后,所配曲线是否合适,是

需要进行统计检验的。检验法:P值与α比较根据α查表,得,与统计量比较根据统计量计算P值,与α比较检验法:P值与α比较检验法:P值与α比较检验法:P值与α比较正态性检验与分布拟合检验正态性检验与分布拟合检验正态性检验与分布拟合检验正态性检验与分布拟合检验正态性检验与分布拟合检验正态性检验与分布拟合检验例对以下数据进行正态性W检验:9.89

8.00

6.40

6.17

5.39

7.27 9.08

10.40

11.208.75

6.45 11.90

10.30

9.58

9.24

7.75

6.20

8.958.33例例多元数据的数字特征与相关分析

以上我们分析的都是一元数据,但在实际中,人们更多的遇到的是多元数据

对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系二元数据的数字特征及相关系数设是二元总体,从中取得观测数据引进数据观测矩阵记二元数据的数字特征及相关系数则,称为二元观测数据的均值向量。记二元数据的数字特征及相关系数协方差矩阵有由Schwarz不等式所以S总是非负定的,一般是正定的。二元数据的数字特征及相关系数观测数据的相关系数(Pearson)计算公式是由Schwarz不等式,有即总有二元数据的数字特征及相关系数二元数据的数字特征及相关系数

设二元总体是

;的分布函数是

;总体协方差,

是X、Y的方差。由于观测数据的相关系数

是总体相关系数的相合估计,故当n充分大时,有二元数据的数字特征及相关系数由二元观测数据可以算得相关系数

,但当二元总体的两个分量不相关,时,相关系数是没有实际意义的。因此,需要做假设即检验:二元数据的数字特征及相关系数可以证明,当是二元正态总体,且

成立时,统计量:。设由实际观测,又按上述公式算得服从自由度为 的

分布数据算得的相关系数值为的

值是

,则

值为。二元数据的数字特征及相关系数对给定的显著水平

,当

,拒绝当拒绝

时,认为算得的相关系数,接受

。;而当有实际意义。Spearman相关系数秩设其次序统计量是若

,则称

在样本中的秩,记作例:-0.8,-3.1,1.1,-5.2,4.2次序统计量是

-5.2,-3.1,-0.8,1.1,4.2而秩统计量是

3,2,4,1,5当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定,通常对相同的观测值,其秩取为他们秩的平均值。Spearman相关系数Spearman相关系数例

某种矿石有两种有用成分A,B。取10个标本,分析每个标本中成分A的含量百分数x(%)及y(%)的数据如下:X(%)67547264392258434634Y(%)24152319161120161713PROCCORR预测两个变量之间的关系强度

针对预测变量的尺度不同,Proc

corr提供以下测量强度的方法:

1以等距尺度或比例尺度测量的参数统计方法,产生相关系数

矩阵;2以等级尺度测量的无参数方法,产生关联系数矩阵。PROCCORRPROC

CORR选项串;VAR变量名称串;WITH变量名称串;PARTIAL变量名称;WEIGHT变量名称;FREQ变量名称;BY变量名称串;PROC

CORR选项串第一类选项:界定输出输入文件的名称:DATA=输入文件名称

省略时如同其它过程OUTP=输出文件名称含有Pearson极差相关系数之矩阵、各变量的平均数、标准差、观察体个数;OUTS=输出文件名称含有Spearman极差相关系数之矩阵、各变量的平均数、标准差、观察体个数;OUTK=输出文件名称含有Kendall‘s

tau-b极差相关系数之矩阵、各变量的平均数、标准差、观察体个数;PROC

CORR选项串第一类选项:界定输出输入文件的名称:

5

OUTH=输出文件名称含有Hoeffding’s

D极差相关系数之矩阵、各变量的平均数、标准差、观察体个数;PROC

CORR选项串第二类选项:界定测量关系强度的方法,内置值是Pearson:1

PEARSON:要求计算积差相关系数,这也是这类的内置值;如要同时计算SPEARMAN、KENDALL、HOEFFDING等则必须选用PEARSON;SPEA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论