数学第一章数据描述性分析课件_第1页
数学第一章数据描述性分析课件_第2页
数学第一章数据描述性分析课件_第3页
数学第一章数据描述性分析课件_第4页
数学第一章数据描述性分析课件_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据描述性分析数字特征分布特征多元数据的数字特征与相关分析(位置特性、分散性、分布形状)(反映数据整体结构)1§1.1一维数据的数字特征设有n个一维数据:它们是从所研究的对象(总体)X中观测得到的,这n个值称为样本观测值,n称为样本容量。数据分析的任务:对样本观测值进行分析,提取数据中所包含的有用信息,进一步对总体的信息做出判断。数字特征:数据的集中位置、分散程度、数据分布的形状特征等2§1.1.1表示位置的数字特征均值即的平均数表示数据的集中位置缺点:缺乏抗扰性(稳健性)设是n个观测值,将它们从小到大记为称它们为次序统计量。显然,最小次序统计量x(1)与最大次序统计量x(n)分别为3§1.1.1表示位置的数字特征中位数表示数据的中心位置计算公式注意:1、对于对称分布的数据,均值和中位数较接近;而其它分布的数据,二者不同。2、具有稳健性4§1.1.1表示位置的数字特征分位数其中[np]为np的整数部分。当p=1时,定义M1=x(n).对0≤p<1,数据x1,x2,……,xn的p分位数是注意:1、大体上整个样本的100p%的观测值不超过p分位数。2、0.5分位数M0.5(第50百分位数)就是中位数M。p分位数又称为第100p百分数。5常用的分位数它们分别称为上、下四分位数,并分别简记为

0.75分位数M0.75(第75百分位数)

0.25分位数M0.25(第25百分位数)总结:1、均值计算用到了样本的全部信息;2、中位数M仅用到了数据分布中的部分信息;3、在正常情况下,均值比中位数描述数据的集中位置要优;4、当存在异常数据时,均值缺乏稳健性,而中位数具有很强的稳健性。6三均值计算公式§1.1.1表示位置的数字特征7例1.1考虑下列样本:

53113178计算均值、中位数、上、下四分位数,M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三均值。解:次序统计量133578118次序统计量13357811M0.95=11,M0.90=11,M0.10=1,M0.05=19例1.2某单位对100名女学生测定血清总蛋白含量(g/L),具体数据见课本P5例1.2计算均值、中位数、上、下四分位数,M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三均值。example1_210方差、标准差、变异系数§1.1.2表示分散性的数字特征方差:相对于均值的偏差平方的平均标准差:方差的算术平方根变异系数:刻画数据相对分散性11极差、四分位极差§1.1.2表示分散性的数字特征极差四分位极差注意:以上两种度量均具有抗扰性12判断异常值的方法称为数据的上、下截断点。大于上截断点的数据为特大值,小于下截断点的数据为特小值,两者皆为异常值。13例1.3考虑下列样本:

53113178方差、标准差、变异系数、极差、四分位极差,并分析是否由异常值。解:14次序统计量13357811上、下截断点结论:该样本数据中无异常值15例1.4求数据(见课本P5例1.1)的方差、标准差、变异系数、极差、四分位极差,并分析是否由异常值。解:通过计算得结论:无异常值16例1.5求数据(见课本P5例1.2)的方差、标准差、变异系数、极差、四分位极差,并分析是否由异常值。解:通过计算得结论:84.3为异常值17将84.3剔除,再进行计算得比较未剔除前结论:剔除异常值后,均值与中位数更为接近;上、下四分位数与四分位极差未发生改变,说明其抗扰性好;方差、标准差缺乏抗扰性。18偏度§1.1.3表示分布形状的数字特征计算公式k阶原点矩k阶中心矩显然,一阶原点矩ν1即均值其中s是标准差。偏度刻画数据的对称性。19注意:1、关于均值对称的数据其偏度为0;2、正的偏度表示位于均值右侧的数据较为分散;3、负的偏度说明位于均值左侧的数据较为分散。见课本P3图1.120峰度§1.1.3表示分布形状的数字特征计算公式峰度以正态分布为标准,比较两侧极端数据分布情况的指标。21若峰度大于零,则表示数据中含有较多远离均值的极端数值,此时分布有一个沉重的尾巴(或称粗尾);若峰度小于零,则表示均值两侧的极端数据较少;峰度可作为偏离正态分布的尺度。22例1.6求数据(见课本P5例1.2)的偏度、峰度。解:通过计算得从结果看来,偏度和峰度的绝对值均较小,可以看作数据取自正态总体。23设数据x1,x2,…,xn是由总体X中得到的样本观测值,总体的分布函数是F(x)§1.1.4由样本的数字特征推广到总体的特征当X为离散型时,总体的分布可由概率分布列描述:当X为连续型时,总体的分布可由概率函数f(x)刻画举例正态分布概率密度函数分布函数24设总体均值为μ=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计,即当n充分大,的ξp为总体分布F(x)的p分位数。设总体分布F(x)是连续型分布,0<p<1,称满足考虑总体p分位数ξp唯一的情况,在一定条件下,样本的p分位数Mp是总体p分位数ξp的相合估计,因此,当n充分大时§1.1.4由样本的数字特征推广到总体的特征25§1.1.4由样本的数字特征推广到总体的特征数据的方差s2、标准差s、变异系数CV分别是总体方差σ2=Var(X)、总体标准差σ=sqrt(Var(X))、总体变异系数r=σ/μ的相合估计:即当样本容量n充分大时,有正态总体N(μ,σ2)的上、下四分位数

总体四分位极差26§1.1.4由样本的数字特征推广到总体的特征

总体偏度是度量总体分布是否偏向某一侧的指标1、对称分布的偏度为0;2、总体分布向右侧扩展,偏度为正;3、总体分布向左侧扩展,偏度为负;见课本P4图1.2其中μ3=E(X-μ)3为总体X的3阶中心矩。27§1.1.4由样本的数字特征推广到总体的特征

总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标1、当总体分布是正态分布时,总体峰度G2=0;2、当G2>0,总体分布中极端数值分布范围较广;3、当G2<0,总体分布中极端数值分布范围较少;见课本P4图1.3其中μ4=E(X-μ)4为总体X的4阶中心矩。28例1.71952~1997年我国人均生产总值数据见课本P7表1.2(单位:元),计算这批数据的数字特征,并找出异常值。解:通过计算得1、s2、s较大,说明数据分散性较大;2、数据分布图像明显偏右,且右端出现很多极端值3、存在异常值:2287、2939、3923、4854、5576、607929设ξ1,ξ2,…是一列独立同分布的随机变量,且数学期望存在:

Eξi=a,i=1,2,…则对任意的ε>0,有

成立。辛钦大数定律30相合估计(一致估计)设对每个自然数n,是θ的估计量,若依概率收敛于θ,即对任意ε>0,有

则称为θ的相合估计。31§1.2数据的分布数据分布的描述方法直方图、茎叶图、理论分布分布拟合检验和正态性检验32§1.2.1直方图、经验分布函数与QQ图首先将数据取值的范围分成若干区间(一般是等间隔的),每个区间的长度称为组距。考察数据落入每个区间的频数或频率,在每个区间上画一矩形,相应宽度是组距,高度可以是频数、频率或频率/组距。

在高度是频率/组距的情况,每一矩形的面积恰是数据落入相应区间的频率,这种直方图可以估计总体的概率密度。直方图proccapability过程33例1.8利用课本P5例1.2

的数据,作直方图。作直方图的基本语句PROCCAPABILITYoptions;HISTOGRAMvariable/options;PROCCAPABILITYoptions,选项为①DATA=SASdataset:指定所分析的SAS数据集名称;②GRAPHICS:指明作高分辨率图形。缺省时将输出由字符构成的低分辨率图形;③NOPRINT:取消PROCUNIVARIATE过程统计量的输出。(2)HISTOGRAMvariable/options,关于变量variable作出直方图,其中选项为①MIDPOINTS=values:设置分组区间的中点值。(缺省自动设置)②VSCALE=scale:标注每个区间的高度,其中scale可选count、percent和proportion之一,缺省为percent。34直方图35§1.2.1直方图、经验分布函数与QQ图参数分布拟合在限定的参数分布类(如正态分布)中通过对参数的估计,用估计的参数所对应的密度曲线去拟合直方图顶部的形态。SAS系统提供的参数分布类型见课本P12,其中正态分布最为常见(2)HISTOGRAMvariable/options,关于变量variable作出直方图,其中选项为③NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一:在直方图上拟合指定分布的概率密度函数曲线36例1.8利用课本P5例1.2

的数据,拟合正态分布曲线。37§1.2.1直方图、经验分布函数与QQ图设来自总体分布F(x)的样本x1,x2,…,xn,其次序统计量是x(1),x(2),…,x(n).经验分布函数是经验分布函数注意:(1)Fn(x)是非降的阶梯函数,在x(i)处的跃度是1/n(若x(i)重复取值k次,则跃度为k/n);(2)Fn(x)是总体分布函数的相合估计,即当n充分大时,F(x)≈Fn(x).38例1.9利用课本P5例1.2

的数据,作经验分布函数图,并拟合正态分布函数曲线作经验分布曲线及拟合的分布曲线的基本语句PROCCAPABILITYoptions;CDFPLOTvariable/options;(2)CDFPLOTvariable/options,关于变量variable作出经验分布曲线,其中选项为NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA

之一。39经验分布函数及正态拟合曲线40§1.2.1直方图、经验分布函数与QQ图假定总体分布为正态分布N(μ,σ2),对于样本是x1,x2,…,xn,其次序统计量是x(1),x(2),…,x(n).设Φ(x)是标准正态分布N(0,1)的分布函数,Φ-1(x)是其反函数,对应正态分布的QQ图是由以下的点构成的散点图:QQ图41§1.2.1直方图、经验分布函数与QQ图若样本数据近似于正态分布,在QQ图上这些点近似在直线

y=σx+μ附近。这里σ、μ分别是正态分布的标准差和期望。QQ图42例1.10利用课本P5例1.2

的数据,作正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体;作QQ图的基本语句PROCCAPABILITYoptions;QQPLOTvariable/options;(2)QQPLOTvariable/options,关于变量variable作出QQ图,其中选项为NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA

之一。43QQ图44§1.2.1直方图、经验分布函数与QQ图从QQ图观察样本偏度和峰度45§1.2.2茎叶图解:第一个数25的十位数字为2,个位数字为5,中间用“|”分开,即

25--->2|5每个数都这样处理。茎叶图的制作步骤:将十位数字2,3,4,5,6,7,8,9,10按纵列从上到下排列,在纵列右侧从上到下画一竖线,再在竖线右侧由小到大依次写上具有相同十位数的原数据的相应个位数,在最后一列写出位于同一行的数据的频数。例1.11某班有31名学生,某门课程的考试成绩见课本P16例1.11,作出茎叶图。46§1.2.2茎叶图茎叶图中,竖线左边作为数据前导数位的串视为“茎”,每一行竖线右侧尾随的数字视为“叶”。频数2513451504536148372558958134445666799913901124100147§1.2.2茎叶图总结:(1)茎叶图与直方图均可以直观的反映数据的分布情况,在茎叶图中,可以看出数据是否接近对称、分散性如何、是否有异常数据、是否有间隙等;(2)利用茎叶图可以看出由原始数据得到的次序统计量。48§1.2.2茎叶图例1.12铅压铸件硬度数据见课本P16例1.12,作出数据的茎叶图。PROCUNIVARIATEoptions;其中选项为49§1.2.3正态性检验与分布拟合检验检验统计量为例1.13

设x1,x2,…,xn是来自正态总体N(μ,σ2)样本,假设检验:在H0成立时,t服从自由度为n-1的t分布t(n-1).正态性检验50§1.2.3正态性检验与分布拟合检验对给定的显著水平α,设tα/2(n-1)是t(n-1)的上侧α/2分位数,则当|t|>tα/2(n-1)时,拒绝H0;否则,接受H0。51§1.2.3正态性检验与分布拟合检验tα/2(n-1)满足

P{|t|>tα/2(n-1)}=α对于具体计算得到的t值t0,若|t0|>tα/2(n-1),拒绝H0;否则接受H0。对大量重复试验,t是随机变量,且服从t(n-1).当|t0|>tα/2(n-1)时,有

P{|t|≥|t0

|}<P{|t|>tα/2(n-1)}=α令p=P{|t|≥|t0

|}

称为上述检验问题的p值。52§1.2.3正态性检验与分布拟合检验注意到:“|t0|>tα/2(n-1)”与“p<α”等价假设检验的P值方法对给定的显著水平α,当p<α时,拒绝H0;否则接受H0。P值方法的优点:避免了查检验统计量的临界值表,由“p<α”或“p≥α”即可得到检验问题的结论。53§1.2.3正态性检验与分布拟合检验χ2统计量1.

χ2检验法其中n为样本容量,l是分组数,Oi=mi,Ei=npi为样本落入第i组的频数与样本在第i组的理论频数,pi是数据落入第i组的概率,其值可根据原假设指定的分布求得。分布拟合检验原理基于对数据按其取值范围进行分组后计算频数的基础上,考察每个区间的实际频数{mi}与理论频数{npi}的差异作出判断54设pi是原假设H0为真时,服从F0(x)的随机变量取值于第i个区间(ai-1,ai]的概率,即1.

χ2检验法假设检验问题为将实轴分为l个区间,分点满足得l个区间55设k是F0(x)中待估计参数的个数,例如,原假设是正态分布,其中均值μ与方差σ2待估计,此时k=2.1.

χ2检验法从而得到检验统计量χ256统计学研究表明:当样本容量n充分大且原假设H0为真时,χ2

统计量近似服从自由度为l-k-1的χ2

分布,即

χ2~χ2

(l-k-1)

1.

χ2检验法给定显著水平α,设由样本观测值计算得到的χ2

值是,令则当p<α时,拒绝H0;否则接受H0。一般来说,若H0为真,χ2

值较小,否则有偏大的趋势57§1.2.3正态性检验与分布拟合检验2.

经验分布拟合检验方法检验分布函数Fn(x)是总体分布函数F(x)的估计。假设检验问题为目的寻找Fn(x)与假设的总体分布函数F0(x)之间的差异582.

经验分布拟合检验常用统计量KolmogorovD统计量A-D统计量C-vonM统计量一般来说,若H0为真,上述统计量值均较小,否则有偏大的趋势592.

经验分布拟合检验P值方法

设由样本观测x1,x2,…,xn

求得的KolmogorovD统计量、A-D统计量、C-vonM统计量的值分别是.令则对给定显著水平α,(1)K-S检验:当p1<α时,拒绝H0;否则接受H0。(2)A-D检验:当p2<α时,拒绝H0;否则接受H0。(3)C-M检验:当p3<α时,拒绝H0;否则接受H0。60§1.2.3正态性检验与分布拟合检验3.

正态性W检验方法设样本观测值为x1,x2,…,xn,其次序统计量是x(1),x(2),…,x(n).计算校正平方和又计算一般的当n是偶数时,1≤i≤k=n/2;当n是奇数时,1≤i≤k=n-1/2613.

正态性W检验方法将di与系数ai(有表可查)相乘并求和,得计算注意W统计量总满足0<W≤1.当H0成立时,W值接近1,否则趋近0。给定显著水平α,设由样本观测值计算得到的W值是,令则当p<α时,拒绝H0;否则接受H0。62§1.2.3正态性检验与分布拟合检验4.

SAS实现(1)正态性W检验方法

procunivariate(2)χ2检验法

proccapability(3)经验分布拟合检验

proccapability63例1.14

对P5例1.2的数据作:(1)正态性W检验;(2)关于正态分布假设的χ2检验;(3)关于正态分布假设的几种经验分布拟合检验。64例1.15

对P16例1.11的数据作:(1)正态性W检验;(2)若不接受总体为正态分布,选取一种合适的分布类型,作经验分布拟合检验。65§1.3多维数据的数字特征与相关分析多元总体:§1.3.1

二元数据的数字特征及相关系数设(X,Y)T是二元总体,样本观测值为(x1,y1)T,(x2,y2)T,…,(xn,yn)T

,引进数据观测矩阵66§1.3.1二元数据的数字特征及相关系数记记则,称为二元观测数据的均值向量。称sxx为变量X的观测数据的方差,称syy为变量Y的观测数据的方差,称sxy为变量X,Y的观测数据的协方差。67§1.3.1二元数据的数字特征及相关系数称为观测数据的协方差矩阵。注意:(1)协方差矩阵总是对称的(2)协方差矩阵总是非负定的,一般是正定的由Schwarz不等式68相关系数计算公式(2)相关系数rxy是随机变量X,Y的观测数据的两个分量线性相关性密切程度的度量。§1.3.1二元数据的数字特征及相关系数注意:(1)当rxy=0(或rxy≈0)时,称X,Y的观测数据不相关(或近似不相关)当0<rxy<1时,称X,Y的观测数据线性正相关当-1<rxy<0时,称X,Y的观测数据线性负相关当|rxy|=1时,称X,Y的观测数据完全线性相关6970§1.3.1二元数据的数字特征及相关系数设二元总体(X,Y)T的分布函数是F(x,y),总体协方差是Cov(X,Y),Var(X),Var(Y)是X,Y的方差,总体的相关系数是ρxy由于观测数据的相关系数rxy是总体相关系数ρxy的相合估计,故当n充分大时,有

ρxy

≈rxy71§1.3.1二元数据的数字特征及相关系数假设检验可以证明,当(X,Y)T是二元正态总体,且H0成立时,统计量服从自由度为n-2的t分布t(n-2)72§1.3.1二元数据的数字特征及相关系数对给定的显著水平α,当p<α时,拒绝H0;否则接受H0。当拒绝H0时,认为算得的相关系数rxy有实际意义。

以上定义的观测数据的相关系数rxy称为Pearson相关系数。设由实际观测数据算得的相关系数值为,按上述公式算得的t值为t0,则p值为p=P{|t|≥|t0

|}73

Spearman相关系数§1.3.1二元数据的数字特征及相关系数设是从一元总体抽取的容量为n的样本,其次序统计量是若xi=x(k),则称k是xi在样本中的秩,记作Ri,对每一个i=1,2,…,n,称为Ri是第i个秩统计量,R1,R2,…,Rn总称为秩统计量。74

Spearman相关系数§1.3.1二元数据的数字特征及相关系数例如,对样本数据

-0.8-3.11.1-5.24.2次序统计量是

-5.2-3.1-0.81.14.2秩统计量是

32415注意:当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定。75§1.3.1二元数据的数字特征及相关系数例如,对样本数据

-0.8-3.1-0.8次序统计量是

-3.1-0.8-0.8秩统计量是

213或312注意:通常对相同的观测值,其秩取它们秩的平均值故上述样本的秩统计量是

2.512.576

Spearman相关系数§1.3.1二元数据的数字特征及相关系数对于二元总体(X,Y)T的样本观测数据(x1,y1)T,(x2,y2)T,…,(xn,yn)T

,可得各分量X,Y的一元样本数据x1,x2,…,xn与y1,y2,…,yn.设x1,x2,…,xn的秩统计量是

R1,R2,…,Rny1,y2,…,yn的秩统计量是

S1,S2,…,Sn

当X,Y联系比较紧密时,这两组秩统计量联系也紧密77

Spearman相关系数计算公式§1.3.1二元数据的数字特征及相关系数其中由秩的定义可知,78

Spearman相关系数§1.3.1二元数据的数字特征及相关系数同理,经过整理化简这里di=Ri-Si,i=1,2,…,n.假设检验79例1.16

对P37例1.22的数据作:(1)求二维观测数据的均值向量和协方差矩阵S;(2)计算Pearson相关系数并检验假设(3)计算Spearman相关系数并检验上述假设。PROCCORRoptions;选项为①DATA=SASdataset:指定所分析的SAS数据集名称;②PEARSON:输出Pearson相关系数(默认);③SPEARMAN:输出Spearman秩相关系数;④COV:计算协方差矩阵;⑤NOSIMPLE:不输出每个变量的简单描述统计量的值。80§1.3多维数据的数字特征与相关分析§1.3.2多元数据的数字特征及相关矩阵设是p元总体,样本观测数据第i个观测数据记为称为样品。81§1.3.2多元数据的数字特征及相关矩阵引进数据观测矩阵记有82(1)第j行x(j)的均值§1.3.2多元数据的数字特征及相关矩阵(2)第j行x(j)的方差注意:(3)x(j),x(k)的协方差83均值向量§1.3.2多元数据的数字特征及相关矩阵协方差矩阵有84§1.3.2多元数据的数字特征及相关矩阵注意:rjj=1,|rjk|≤1(4)x(j)与x(k)的相关系数相关矩阵85§1.3.2多元数据的数字特征及相关矩阵记注意:①相关矩阵R刻画了变量之间线性联系的密切程度;②S及R为非负定的,通常是正定的则86§1.3.2多元数据的数字特征及相关矩阵(5)Spearman相关矩阵注意:①Spearman相关矩阵Q适于研究具有一般分布的p元总体,且对有异常值的观测数据,具有稳健性;②Q为非负定的,通常是正定的87§1.3.3总体的数字特征及相关矩阵设是p元总体,其总体分布函数是F(x1,x2,…,xp)=F(x),其中x=(x1,x2,…,xp)T.在连续型总体存在概率密度f(x1,x2,…,xp)=f(x),其中x=(x1,x2,…,xp)T.总体均值令μi=E(Xi),i=1,2,…,pμ=(μ1,μ2,…,μp)T总体协方差矩阵其中特别的,当j=k时88Xj,Xk的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论