第5章描述性统计_第1页
第5章描述性统计_第2页
第5章描述性统计_第3页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章描述性统计采集到大量的样本数据以后,常常需要用一些统计量来描述数据的集中程度 和离散程度,并通过这些指标来对数据的总体特征进行归纳。描述样本数据集中趋势的统计量有算术平均值、中位数、众数、几何均值、 调和均值和截尾均值等。描述样本数据离中趋势的统计量包括极差、平均值、平均绝对差、方差和标准差等,此外还有峰度、偏差、分位数和相关系数等统计量,也能描述样本数据 的某些特征。5.1描述集中趋势的统计量几何均值样本数据,X2,L ,Xn的几何均值m可以根据下式求得1nnm xi 1Matlab中利用geomean函数计算样本的几何均值,其语法格式如下:m = geomean(X)函数计算样本的几

2、何均值。假设X是矢量,贝U geomean(X) 返回值为数据X中元素的几何均值。假设X为矩阵,那么geomean(X)返回值为一个 行矢量,包含每列数据的几何均值。假设X为N维数组,geomean函数沿X的第一 个非单一元素维度进行计算。m = geomean(X,dim)计算X的第dim维的几何均值。【例5-1】样本均值大于或等于样本的几何均值。x = exprnd(1,10,6);geometric = geomea n(x) geometric =0.7466 0.60610.6038 0.2569 0.75390.3478average = mean(!)average =1.350

3、91583 0.97410.5319 1.0088 0.8122调和均值样本数据, X2,L ,Xn的调和平均值m定义为i 1 XiMatlab中利用harmmean函数计算样本数据的调和平均值,其语法格式如下:m = harrmmean计算样本的调和平均值。假设 X为矢量,那么harmmean(X) 函数返回值为X中元素的调和平均值。假设X为矩阵,那么harmmean(X)函数返回值 为包含每列元素调和平均值的行矢量。假设 X为N维数组,harmmean函数沿X第 一个非单一元素维度进行计算。m = harmmean (X,dim)计算X的第dim维的几何均值。【例5-2】样本均值大于或等于

4、样本的调和平均值。x = exprnd(1,10,6);harm onic = harmmea n(x)harm onic =0.3382 0.3200 0.3710 0.0540 0.49360.0907average = mean(|)average =1.35091583 0.97410.5319 1.0088 0.8122算术平均值样本数据X1,X2 ,L ,禺的算术平均值可用下式定义Matlab中利用mean函数计算矢量和矩阵中元素的均值,其语法格式如下:m = mean(X),假设X为矢量,mean(X)返回值为X中元素的均值;假设 X 为矩阵,mean(X)返回值为包含X中每列元

5、素均值的行矢量;m = mean(X,dim)计算X的第dim维元素的均值。【例5-3】 下面的命令行生成5个包含100个服从正态分布的随机数的样 本,然后计算每个样本的算术平均值。x = normmd(0,1,100,5);xbar = mean(x)xbar =0.727 0.0264 0.035100424 0.0752中值median函数计算矢量和矩阵中元素的中值,其函数的调用格式为:m = median(X)计算样本数据的中值。中值是样本数据中心趋势的稳健估 计,因为异常值的影响较小。对于矢量,median(X)为矢量X中元素的中值。对于矩阵,media n(X)为包含每一列中元素中

6、值的行矢量。计算中值需要首先进行 排序,因此计算大型矩阵的中值矢量时比拟费时。【例5-4】xodd = 1:5;modd = media n( xodd)3meve n = media n( xeveN)meve n =2.5000以下演示中值对于异常值的稳健性。xoutlier = x,10000;moutlier = media n( xoutlier)moutlier =3截尾均值对样本数据进行排序以后,去掉两端的局部极值,然后对剩下的数据求算术 平均值,得到截尾均值。Matlab利用trimmean函数计算截尾均值,其语法格式如下:m = trimmean(X,percent)假设X为

7、矢量,贝U m为X中元素的截尾均值,即剔除测量值中最大和最小的k个数据以后,计算样本X的均值,k=n* (percent/100/2), n为X的维数;假设X为矩阵,那么m为行矢量,其元素为X 中各列元素的截尾均值;假设X为多维数组,那么m沿X中的第一个非单一元素维 度进行计算。Perce nt为0和100之间的数。m = trimmean(X,percent,dim)沿 X 的第dim 维计算截尾均值。m = trimmean(X,percent,flag)处理当k不是整数时如何截尾,flag取值及含义如下:'round'缺省值,对k就近取整。'floor'对

8、k向下取整'weight'假设k=i+f,其中i是整数局部,f是小数局部,以(1-f) 为第(i+1) 个和第(n-i )个元素权值,求两个元素之间所有元素的加权均值。m = trimmean(X,percent,flag,dim)计算X的第dim维元素的截尾平均。截尾均值为样本位置参数的稳健性估计。 假设数据中有异常值,截尾均值为数 据中心的一个更具代表性的估计。 假设所有数据取自服从同一分布的总体, 那么使用 样本均值比使用截尾均值更有效。【例5-5】下面用蒙特卡洛法模拟正态数据的10%截尾均值相对于样本均值 的有效性。值小于1。说明正态条件下截尾均值不如算术平均值有效。r

9、ng('default');x = n ormmd(0,1,100,100);m = mea n( x);trim = trimmea n(x,10);sm = std(m);strim = std(trim);efficie ncy = (sm/strim).A2输出为:efficie ncy =0.96635.2描述离中趋势的统计量描述离中趋势的统计量包括四分位差、均值绝对差、极差、方差和标准差等。四分位差四分位差指的是样本数据从小到大排序后75%与 25%位置处的值之差。IQR是数据极差的稳健性估计。因为上下25%的数据变化对其没有影响。Matlab中用iqr函数计算样本

10、的四分位差(IQR),其语法格式如下: y = iqr(X)计算X的四分位差。假设X为矢量,那么y为X的75%与25%位 置处的值之差;假设X为矩阵,那么y是行向量,其元素为对应X的各列的四分位差; 假设X为多维数组,iqr函数沿X的第一个非单一元素维进行计算。m = iqr(X,dim)计算X的第dim维元素的四分位差。假设数据中没有异常值,那么IQR用于衡量数据的极差比标准差更具代表性。 当数据取自正态分布总体时,标准差比IQR有效。常用IQR*0.7413来代替标准 差。【例5-6】下面用蒙特卡洛法模拟正态数据的IQR相对于样本标准差的有效 性。结果仅为0.33,说明正太条件下IQR不如

11、标准差有效。x = n ormmd(0,1,100,100);s = std(x)s_IQR = 0.7413*iqr(x);efficiency = (norm(s-1)./norm(s_IQR -1)42输出为:efficie ncy =0.32975.2.2 均值绝对差利用mad函数可以计算数据样本的均值或中值绝对差(MAD).y = mad(X)计算X中数据的均值绝对差。假设 X为矢量,那么y为mean(abs(X-mean(X);假设X为矩阵,那么y为包含X中每列数据均值绝对差的行 矢量;如果X为多维数组,那么mad函数计算第一个非单一元素维的均值绝对差。mad(X,0)与mad(X

12、)相同,使用均值。mad(X,1)基于中值计算 y,即卩 y=median(abs(X -median(X)。 mad(X,flag,dim)沿 X 的第 dim 维计算 MAD。该函数将NaN视为缺失值并删除。对于正态分布数据,可以用下式估计标准差:sigma = 1.253*mad(X,0);sigma = 1.4826*mad(X,1);【例5-7】对正态分布数据添加离群点后,比拟不同估计的鲁棒性。结果越 接近1,说明正态条件下,对应度量的更有鲁棒性。x = normrnd(0,1,1,50);xo = x 10; % 添加离群点r1 = std(xo)/std(x)r1 =1.7385

13、r2 = mad(xo,0)/mad(x,0)r2 =1.2306r3 = mad(xo,1)/mad(x,1)r3 =1.0602523极差极差指的是样本中最大值与最小值之间的差值。用range函数计算样本的极差,其语法格式如下:y = range(X)返回极差。假设X为矢量,range(X)为X中元素的极差;假设X 为矩阵,range(X)为行矢量,包含X中对应各列中元素的极差;假设X为多维数组, range函数沿X的第一个非单一元素维进行计算。m = range(X,dim)计算X的第dim维元素的极差。用极差估计样本数据的范围具有计算简便的优点;缺点是异常值对它的影响 较大,因此它是一

14、个不可靠的估计值。【例5-8】大样本标准正态分布随机数的极差近似为6。下面首先生成5个包含1000个服从正态分布的随机数的样本,然后进行求极差的运算。rv = n ormmd(0,1,1000,5);n ear6 = ran ge(rv)输出为:n ear6 =6.14516.4986 6.2909 5.8894 7.00025.2.4 方差用var函数计算样本的方差。其调用格式和描述如下。y = var(X)计算X中数据的方差。对矢量而言,var(X)为X中元素的方 差。对于矩阵而言,var(X)是包含X中每一列元素方差的行矢量,通过除以 n-1 来到达标称化,其中n为样本大小。对于正态分布

15、数据,这使var(x)成为2的最 小方差无偏估计量。y = var(X,1)通过处于n来标称化并生成样本数据的二级矩。y = var(X,w)使用权重矢量w计算方法。w中元素的个数必须等于矩阵 X的行数,对于矢量X,w和X必须在长度上匹配。W的每个元素必须为正。y = var(X,w,dim)计算X的第dim维元素的方差。w为0时,使用默认 的N-1进行标称化;w=1时,使用N进行标称化。注意:令SS为X矢量中元素与其均值之间的离差平安和,贝Uvar(X) = SS/(n-1) 为2的最小方差无偏估计量,var(X,1)=SS/n为2的最大似然估计量。【例5-9】x = -1 1;w = 1

16、3;v1 = var(x)v1 =2v2 = var(x,1)v2 =1v3 = var(x,w)v3 =0.7500525标准差%丄Xn有两种样本数据,为丄,Xn的标准差计算公式,分别为:式中,样本均值为用std函数计算样本的标准差。s = std(X),利用公式(1)计算X中数据样本的标准差。假设X为矢量,std(X) 为X中元素的标准差;假设X为矩阵,std(X)为包含X中各列元素标准差的行矢 量;假设X是N维数组,那么std(X)为X的第一个非单一元素维的标准差。s = std(X,flag),当 flag=0 时,等同于 std(X) ; 当 flag=1 时,std(X,1)返 回

17、返回(2)式计算的标准差,用n对X进行标称化,结果丫为样本关于其均值二 阶矩的平方根。s = std(X,flag,dim)计算X的第dim维元素的标准差。flag为0时,用 n-1进行标称化;falg为1时,用n进行标称化。【例5-10】下面首先生成6列服从标准正态分布的随机数,每列有 100个 数。每一列中,标准差y的期望值均为1。x = normmd(0,1,100,6);y = std(x)输出为:y =0.9536 1.0628 1.0860 0.9927 0.9605 1.0254y = std(x,1)5.3分组数据描述利用grpstats函数计算分组概括统计量。means=gr

18、pstats(X,group根据group参数,按照group分组的X中对应数 据的各列均值。如果是单一的分组变量,mea ns中对应每一个分组变量值给出一个行向量。 Grpstats函数按照字母序排序(当分组变量是字符串数组时)或按数字升序排序 (当分组变量时数值型时)。如果分组变量group是cell数组,那么对应于每一个分组变量的观测唯一组 合值,means中存在一行与之对应。Grpstats按照第一个分组变量对组排序,然后按照第二个分组变量对每一个具有相同第一分组变量值的数据进行排序,以此类推。如果X是矩阵,那么means是具有相同列数的矩阵。Means的每一列给出对应X相应列的分组均

19、值。grpstats (x,group,alpha)按照分组变量值对X中的数据计算分组均值的 置信区间,绘制每个均值100*( 1-alpha) %置信区间的图形,横轴是分组变量值如果X是矩阵,那么grpstats绘制X各列的均值及置信区间。如果group是cell 数组,贝U grpstats关于grpstats的其他调用格式,请参考 matlab帮助。【例5-11】Load('hospital')%载入数据,该数据具有100个观测,7个变量%创立只包含Sex, Age, Weight, and Smoker的数据数组。Sex是标称 数组,取值为 Male和Famale。Ag

20、e和 Weight是数值型变量,Smoker是逻辑型 变量。Statsrray = grpstats (ds, 'Sex')输出为:statarray =SexGroupCo untFemale Female53MaleMale47ds = hospital(:,'Sex','Age','Weight','Smoker');%按照Sex分组,计算数值型和逻辑型变量的均值mean_Agemea n_Weightmean _Smoker37.717130.470.2452838.915180.530.446815.4包

21、含缺失数据的样本描述MATLAB的统计工具箱中有一组名称以nan为前缀的函数,用于描述包含缺失数据的样本。表5-1示给了包含缺失数据的样本统计量的计算函数及其调用 格式,具体调用格式的解释可以参考matlab帮助。表5-1包含缺失数据的样本统计量函数名称功能调用格式nancov协方差,忽略缺失数据。Y = nan cov(X)Y = nan cov(X1,X2)Y = nan cov(.,1)Y = nan cov(.,'pairwise')nanmax求样本数据的最大值,忽略缺 失数据。y = nanm ax(X)Y = nanm ax(X1,X2) y = nanm ax(

22、X,dim)y,i ndices = nanm ax(.)nanmin求样本数据的最小值,忽略缺 失数据。y = nanmin(X)Y = nanmin (X1,X2) y = nan mi n(X,dim)y,i ndices = nanmin (.)nanmean求样本数据的均值,忽略缺失 数据。y = nanmean(X)y = nanmean( X,dim)nanm edia n求样本数据的中位数,忽略缺 失数据。y = nanm edia n(X)y = nanm edia n( X,dim)nanstd求样本数据的标准差,忽略缺 失数据。y = nan std(X)y = nan

23、std(X,1)y = nan std(X,flag,dim)nan sum求样本数据的和,忽略缺失数 据。y = nan sum(X)y = nan sum(X,dim)nanvar求样本数据的方差,忽略缺失 数据。y = nan var(X)y = nan var(X,1)y = nan var(X,w)y = nan var(X,w,dim)F面以nanmean函数为例介绍这一类函数的用法nanmax函数的运算包含缺失数据的样本数据的均值,其调用格式如下: m=nanmean(X),移除NaN值,返回有效数据的均值。NaN表示缺失值, 假设X为矢量,nanmean(X)表示X的剩余元素的

24、均值;假设 X为矩阵,nanmean(X) 为X中各列有效元素的均值构成的行向量。m=nanmean(X,dim),返回X的第dim维数据的均值。注意:1NaN表示缺失值,缺失值与零不同,它表示对应的位置上没有观 测值,不能简单的用零代替。如果X的某一维全是NaN那么当移除NaN后, 该列是空的,因此,剩余元素的和是 0。由于该列均值是0做除数得到的,因此 其输出结果是NaN但是并不表示NaN值。【例5-12】求带有缺失值数据的列均值。X = magic(3);X(1 6:9) = repmat(NaN,1,5)X =NaN 1 NaN3 5 NaN4 NaN NaNy = nanmean(X

25、)y =3.5000 0000 NaN5.5百分位数和图形描述Prctile函数计算样本的百分位数,该函数的调用格式如下。Y=prctileX, p计算大X中p%的值,p的值必须介于0至100之间, 对于矢量而言,prctileX,p为X中元素的p百分位数。假设p=50,那么丫为X的 中值,对于矩阵X和标量p,prctileX,p为包含每一列的p百分位数的行向量, 假设p为矢量。贝U 丫的第i行为X的pi。对于多维数组,prctile函数沿X的第1 个成对维计算。Y=prctileX ,p,dim沿X的第dim维进行计算,丫的第dim维长度为length p。【例5-13】x=(1:5)A*(

26、1:5)x=12345246810369121548121620510151025y= prctile(x,25 50 75)y=1.75003.50005.25007.00008.75003.00006.00009.000012.000015.00004.2500.5000 12.7500 17.000021.25005.6自助统计量用bootstrp函数计算数据重复取样的自助统计量。其调用格式和描述如下。bootstat=bootstrap(nboot,bootfun, d1,d2)从输入数据集 d1, d2等 中提取nboot个自助数据样本并传递给bootfun函数进行分析。bootfu

27、n是一个函 数句柄。nboot必须为正整数,并且每个输入数据集必须包含相同的行数 n,每 个自助样本包含n行,它们随机取自对应的输入数据集 d1, d2等。输出bootstat的每一行包括将bootfun函数应用于一个自助样本时生成的结 果。如果bootfun函数返回多个输出参数,只在bootstat中保存第1个。如果bootfun 函数的第1个输出为矩阵,那么该矩阵重塑为行矢量,以便保存到bootstat中。bootstat,bootsam=bootstrap ()返回一个nxn的自助编号导入矩阵 bootsam。bootsam中的每一列包含从原始数据集中提取出来组成对应自助样本的 值的编号

28、。例如,如果d1,d2等每个都包含了 16个值,nboot=4,那么bootsam 是一个16x4的矩阵。第一列包含从d1, d2等数据集中提取出来形成前 4个自助 样本的16个值的编号,第2列包含4个自助样本的16个值的编号,以此类推。【例5-14】计算15个学生的LSAT分数和法学院GPA之间的关系。通过对 这15个数据点进行重复采样,创立了 1000个不同的数据集,然后计算每个数据 集中这两个变量之间的相关关系。load lawdatabootstat,bootsam=bootstrp(1000,'corrcoef,lsat,gpa);bootstat(1:5,:)ans =10

29、.987430.98743110.491820.49182110.545870.54587110.845770.84577110.895870.895871bootsam(:,1:5)ans =1331181214717421451081412111111015212142 10135155 11111991351031515151511312813151215415612138 10 12133314hist(bootstat(:,2)生成直方图如图3-1所示。图3-1直方图该直方图显示了整个自助样本的相关系数的变化。样本最小值为正,表示LSAT和GPA之间是相关的5.7中心距K阶中心距可以

30、用下式定义mn E(X )k式中,E(x)为x的期望。mome nt函数计算所有阶次的中心距。m=moment(X,order)返回由正整数order指定阶次的X中心距。对于矢 量,moment(X,order)函数返回X的元素的指定阶次的中心距。对于矩阵, moment(X,order)返回每一列的指定阶次的中心距。对于多维数组,moment函数 沿X的第1个成对维进行计算。m=moment(X,order,dim) 沿 X 的第 dim 为进行计算。注意:一阶中心距为0,二阶中心距为用除数n(而非n-1)得到的方差,其中 n为矢量X的长度或是矩阵X的行数。【例5-15】X=ra ndn(

31、6,5)X =0.53767-0.433590.72541.4090.488891.83390.34262-0.0630551.41721.0347-2.25883.57840.714740.67150.726890.862172.7694-0.20497-1.2075-0.303440.31877-1.3499-0.124140.717240.29387-1.30773.03491.48971.6302-0.78728m=mome nt(X,3)m 111 -1.1143-0.997310.12339-1.1023-0.104555.8 相关函数用corrcoef函数计算样本数据的相关系数矩

32、阵。该函数的调用格式如下。R=corrcoef(X)返回输入矩阵X算的的相关系数矩阵R,输入矩阵的行 为观测量,列为变量。相关系数矩阵R中的第(i ,j)个元素与协方差矩阵C(=cov(X) 有关,即有R(i,j)C(i,j) C(i,i)C(j, j)R=corrcoef(x,y)与 corrcoef(x y) 样,x 和 y 为歹U矢量。R,P=corrcoef( 还返回矩阵P。P的值用于检验没有相关性的假设。如 果P(i,j)较小,小于0.05,那么相关性R(l,j)显著。R,P,RLO,RUP=corrcoef(还返回大小与 R相同的矩阵RLO和RUP,它们分别包含每个系数95%置信区

33、间的下届和上届。=corrcoef(,'paramjl'all ;'param2;val2,)指定其他参数和它们的 值。合法的值包括'alpha'和'rows'(或'all 7'complete'/'pairwise')。【例5-16】生成4列随机数,使第4列与其他列有相关性。x=randn(30,4);%不相关的数据x(;,4)=sum(x,2)堀 I入相关性r,p=corrcoef(x)%十算样本相关性和p值i,j=fi nd(p<0.05);酒找相关性比拟显著的数据i,j%显示它们(行或

34、列)的编号r=1.0000-0.35660.1929 0.3457-0.35661.0000-0.14290.44610.1929-0.14291.00000.51830.34570.44610.51831.00001.0000-0.05310.30720.0613-0.05311.00000.45110.01350.30720.45111.00000.00330.06130.01350.00331.0000ans=42431 42 45.9协方差矩阵用cov函数计算协方差矩阵。其语法格式为:C=cov(X)C=cov(X,Y)对于单一矢量,cov(X)返回一个包括方差的标量。对于行为观测量,

35、列为变 量的矩阵而言,cov(X)为协方差矩阵。计算方差的函数var(X)等价于diag(cov(X)。 计算标准差的函数 std(X)等价于 sqrt(diag(cov(X)。 cov(X,Y)等价于 cov(X,Y), 其中,X, 丫为长度相等的列矢量。cov函数的算法为:n ,p=size(X);X=X-o nes( n,1)*mea n(X);Y=X '*X/(n-1);5.10峰度和偏差峰度样本的峰度由下式定义4E(X )4式中,E(x)为x的期望。峰度用于度量样本数据偏离某分布的情况,正态分布的峰度为3。当样本数据的曲线峰值比正态分布的高时,峰度大于3;反之,比正态分布低时

36、,峰度小于3。用kurtosis函数计算样本的峰度。k=kurtosis(X)返回X的样本峰度。对于矢量而言,kurtosis(X)函数为矢 量X中元素的峰度。对于矩阵而言,kurtosis(X)函数为X的每一列返回一个样本 峰度。对于多维数组,kurtosis函数沿X的第1个成对维进行计算。k=kurtosis(X,flag)指定是否校正系统偏差。将flag指定为0时,进行校 正;指定1时,不校正。kurtosis(X,flag,dim)沿 X 的第 dim 维进行计算。注意:也有将峰度定义为计算值减3的,所以正态分布的峰度为0。【例5-17】X=ra ndn( 5,4)X =0.53767

37、-1.3077-1.3499-0.204971.8339-0.433593.0349-0.12414-2.25880.342620.72541.48970.862173.5784-0.0630551.4090.31877k=kurtosis(X)2.76940.714741.4172k =2.70671.40692.37831.1759偏度样本的偏度定义为yE(X)33式中,E(x)为x的期望。偏度用于衡量样本均值的对称性,假设偏度为负,那么数据均值左侧的离散性比右侧的强;假设偏度为正,那么数据均值右侧的离散性比左侧强。正态分布(或任何严格对称分布)的偏度为零。用skewness函数计算样本偏度。y skewnesqX)返回x的样本偏度。对于矢量,skewnesX)为x的元素的偏度。对于矩阵,skewnesSX)为包含每一列中样本偏度的行矢量,对于多维数组,skewness(X)函数沿X的第1个成对维进行计算。y skew ness(X,flag)校正;指定为1时,不校正。指疋是否校正系统偏差。将flag指疋为0时,进仃skew nes

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论