matlab中数据的统计描述与分析_第1页
matlab中数据的统计描述与分析_第2页
matlab中数据的统计描述与分析_第3页
matlab中数据的统计描述与分析_第4页
matlab中数据的统计描述与分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章数据的统计描述和分析数理统计研究的对象是受随机因素阻碍的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。数据样本少那么几个, 多那么成千上万,人们希望能用少数几个包括其最多相关信息的数值来表现数据样本整体的规律。描述性统计确实是搜集、整理、加工和分析统计数据,使之系统化、层次化,以显示出数据资料的趋势、特点和数量关系。它是统计推 断的基础,有效性较强,在统计工作中常常利用。面对一批数据如何进行描述与分析,需要把握参数估量和假设查验这两个数理统计的最大体方式。咱们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 1统计的大体

2、概念整体和样本整体是人们研究对象的全部,又称母体,如工厂一天生产的全数产品(按合格品及 废品分类),学校全部学生的身高。整体中的每一个大体单位称为个体,个体的特点用一个变量(如 x)来表示,如一 件产品是合格品记 x 0,是废品记x 1; 一个身高170 (cm)的学生记x 170。从整体中随机产生的假设干个个体的集合称为样本,或子样,如 n件产品,100名 学生的身高,或一根轴直径的10次测量。事实上这确实是从整体中随机取得的一批数据,不妨记作x1,x2, , xn, n称为样本容量。简单地说,统计的任务是由样本推断整体。频数表和直方图一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图

3、,能够看做是对这组数据的一个初步整理和直观描述。将数据的取值范围划分为假设干个区间,然后统计这组数据在每一个区间中显现的次数,称为频数,由此取得一个频数表。以数据的取值为横坐标,频数为纵坐标,画出 一个阶梯形的图,称为直方图,或频数散布图。假设样本容量不大,能够手工作出频数表和直方图,当样本容量较大时那么能够借助Matlab如此的软件了。让咱们以下面的例子为例,介绍频数表和直方图的作法。例1学生的身高和体重学校随机抽取100名学生,测量他们的身高和体重,所得数据如表身局体重身局体重身局体重身局体重身局体重172 75169 55169 64171 65167 47171 62168 67165

4、 52169 62168 65166 62168 65164 59170 58165 64160 55175 67173 74172 64168 57155 57176 64172 69169 58176 57173 58168 50169 52167 72170 57166 55161 49173 57175 76158 51170 63169 63173 61164 59165 62167 53171 61166 70166 63172 53173 60178 64163 57169 54169 66178 60177 66170 56167 54169 58173 73170 58160

5、 65179 62172 50163 47173 67165 58176 63162 52165 66172 59177 66182 69175 75170 60170 62169 63186 77174 66163 50172 59176 60166 76167 63172 57177 58177 67169 72166 50182 63176 68172 56173 59174 64171 59175 68165 56169 65168 62177 64184 70166 49171 71170 59(i )数据输入数据输入通常有两种方式,一种是在交互环境中直接输入,若是在统计中数据量比较

6、大,如此作不太方便;另一种方法是先把数据写入一个纯文本数据文件中,格式如例1的表格,有20行、10歹U,数据列之间用空格键或Tab键分割,该数据文件寄存在matlabwork 子目录下,在 Matlab顶用load命令读入数据,具体作法是:load如此在内存中成立了一个变量data,它是一个包括有 20 10个数据的矩阵。为了取得咱们需要的 100个身高和体重各为一列的矩阵,应做如下的改变:high=data(:,1:2:9);high=high(:)weight=data(:,2:2:10);weight=weight(:)(ii )作频数表及直方图用hist命令实现,其用法是:N,X =

7、hist(Y,M)数组(行、列都可) Y的频数表。它将区间min(Y),max(Y) 等分为M份(缺省时M设 定为10), N返回M个小区间白频数,X返回M个小区间的中点。hist(Y,M)数组Y的直方图。关于例1的数据,编写程序如下:load ;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);n1,x1=hist(high)%不面语句与hist命令等价%n1=length(find(high=&high=&high=&high=&high=&high=&high=&high=180&high=)n2

8、,x2=hist(weight)subplot(1,2,1)hist(high) subplot(1,2,2) hist(weight)计算结果略,直方图如以下图所示:从直方图上能够看出,身高的散布大致呈中间高、两头低的钟形;而体重那么看不 出什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特点的所谓“统 计量”。直方图所展现的身高的散布形状可看做正态散布,固然也能够用这组数据对散 布作假设查验。例2 统计以下五行字符串中字符 a、g、c、t显现的频数解把上述五行复制到一个纯文本数据文件中,放在matlabwork子目录下,编写如下程序:clcfid1=fopen( ,r);i=

9、1;while (feof(fid1)data=fgetl(fid1);a=length(find(data=97);b=length(find(data=99);c=length(find(data=103);d=length(find(data=116);e=length(find(data=97&data=122);f(i,:)=a b c d e a+b+c+d;i=i+1;endfhe=sum(f(:,1) sum(f(:,2) sum(f(:,3) sum(f(:,4)sum(f(:,5) sum(f(:,6)fid2=fopen( , w);fprintf(fid2,%8d %8

10、d %8d %8d %8d %8dn 力;fclose(fid1);fclose(fid2);咱们把统计结果最后写到一个纯文本文件中,在程序中多引进了几个变量,是为了查验字符串是不是只包括 a、g、c、t四个字符。统计量假设有一个容量为n的样本(即一组数据),记作x (x1,x2, ,xn),需要对它进行必然的加工,才能提出有效的信息,用作对整体(散布)参数的估量和查验。统计量 确实是加工出来的、反映样本数量特点的函数,它不含任何未知量。下面咱们介绍几种经常使用的统计量。(i )表示位置的统计量一算术平均值和中位数算术平均值(简称均值)描述数据取值的平均位置,记作 x ,(1)_ 1 nx x

11、in i 1中位数是将数据由小到大排序后位于中间位置的那个数值。Matlab中mean(x)返回x的均值,median(x)返回中位数。(ii )表示变异程度的统计量一标准差、方差和极差标准差s概念为1(2)2 x)2它是各个数据与均值偏离程度的气宇,这种偏离不妨称为变异。方差是标准差的平方s2。极差是x (x1 ,x2,xn)的最大值与最小值之差。Matlab中std(x)返回x的标准差,var(x)返回方差,range(x)返回极差。你可能注意到标准差 s的概念(2)中,对n个(xi x)的平方求和,却被(n 1)除, 这是出于无偏估量的要求。假设需要改成被n除,Matlab可用std(x

12、,1)和var(x,1)来实现。(iii )中心矩、表示散布形状的统计量一偏度和峰度随机变量x的r阶中心矩为E(x Ex)。随机变量x的偏度和峰度指的是 x的标准化变量(x Ex)/V Dx的三阶中心矩和四阶中心矩:x E(x).D(x)x E(x),D(x)_3E x E(x)、3/2-D(x)_4E x E(x)偏度反映散布的对称性,0称为右偏态,现在数据位于均值右边的比位于左D(x) 2侧的多;1 0称为左偏态,情形相反;而1接近0那么能够为散布是对称的。峰度是散布形状的另一种气宇,正态散布的峰度为 3,假设2比3大得多,表示散布有繁重的尾巴,说明样本中含有较多远离均值的数据,因此峰度能

13、够用作衡量偏离正态散布的尺度之一。Matlab中moment(x,order) 返回x的order阶中心矩,order为中心矩的阶数。skewness(x)返回x的偏度,kurtosis(x) 返回峰度。在以上用Matlab计算各个统计量的命令中,假设x为矩阵,那么作用于 x的列,返回一个行向量。对例1给出的学生身高和体重,用 Matlab计算这些统计量,程序如下: clc load ;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);shuju=high weight;jun_zhi=mean(hig

14、h weight)zhong_wei_shu=median(shuju)biao_zhun_cha=std(shuju)ji_cha=range(shuju)pian_du=skewness(shuju)feng_du=kurtosis(shuju)统计量中最重要、最经常使用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量,当用它们去推断整体时,有多大的靠得住性就与统计量 的概率散布有关,因此咱们需要明白几个重要散布的简单性质。统计中几个重要的概率散布散布函数、密度函数和分位数随机变量的特性完全由它的(概率)散布函数或(概率)密度函数来描述。设有随 机变量X ,其散布函

15、数概念为 X x的概率,即F (x) P X x。假设X是持续型 随机变量,那么其密度函数p(x)与F(x)的关系为xF (x)p(x)dx.分位数是下面经常使用的一个概念,其概念为:关于01,使某散布函数F(x) 的x,成为那个散布的分位数,记作x。咱们前面画过的直方图是频数散布图,频数除以样本容量 n,称为频率,n充分大时频率是概率的近似,因此直方图能够看做密度函数图形的(离散化)近似。统计中几个重要的概率散布(i )正态散布正态散布随机变量 X的密度函数曲线呈中间高两边低、对称的钟形,期望(均值)22、EX ,方差DX 2,记作X N( , 2), 称均方差或标准差,当 0,1时称为标准

16、正态散布,记作 X N(0,1)。正态散布完全由均值和方差 2决定,它的偏度为0,峰度为3。正态散布能够说是最多见的(持续型)概率散布,成批生产时零件的尺寸,射击中弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特点等,多数情形下都服从正态散布,这不仅是观看和体会的总结,而且有着深刻的理论依据,即在大量彼此独立的、作用差不多大的随机因素阻碍下形成的随机变量,其极限散布为正态散布。鉴于正态散布的随机变量在实际生活中如此地常见,记住下面3个数字是有效的:68%勺数值落在距均值左右1个标准差的范围内,即P X 0.68;95%勺数值落在距均值左右2个标准差的范围内,即P 2 X 2 0.95

17、;%勺数值落在距均值左右 3个标准差的范围内,即P 3 X 3 0.997.(ii )2 散布(Chi square)若Xi,X2, ,Xn为彼此独立的、服从标准正态散布 N (0,1)的随机变量,那么它们n的平方和YX:服从2散布,记作Y 2(n) , n称自由度,它的期望 EY n ,i 1方差DY 2n。(iii ) t散布X若X N (0,1) , Y 2(n),且彼此独立,那么 T = 服从t散布,记作 .Y/nT t(n) , n称自由度。t散布又称学生氏(Student)散布。t散布的密度函数曲线和N (0,1)曲线形状相似。理论上n 时,Tt(n) N(0,1),实际被骗n 3

18、0时它与N(0,1)就相差无几了。(iv ) F散布X/n若X 2(n。,Y 2(电),且彼此独立,那么 F 1服从F散布,记作Y/n2FF(n1,n2),奥)称自由度。Matlab 统计工具箱(ToolboxStats)中的概率散布Matlab统计工具箱中有 20种概率散布,那个地址只对上面所述 4种散布列出命令 的字符:norm 正态散布;chi2 2散布;F散布t t散布工具箱对每一种散布都提供5类函数,其命令的字符是:pdf概率密度;cdf 散布函数;inv散布函数的反函数;stat均值与方差;rnd 随机数生成当需要一种散布的某一类函数时,将以上所列的散布命令字符与函数命令字符接起来

19、,并输入自变量(能够是标量、数组或矩阵)和参数就好了,如:p=normpdf(x,mu,sigma) 均值mu标准差 sigma的正态散布在 x的密度函数 (mu=0, sigma=1 时可缺省)。p=tcdf(x,n) t散布(自由度n)在x的散布函数。x=chi2inv(p,n) 2散布(自由度n)使散布函数F(x)=p的x(即p分位数)。m,v=fstat(n1,n2) F散布(自由度 n1,n2)的均值 m和方差v。几个散布的密度函数图形就能够够用这些命令作出,如:x=-6:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z),gtext( N(0

20、,1), ),gtext( N(0,2A2),)散布函数的反函数的意义从下例看出:x=chi2inv,10)x =若是反过来计算,那么 P=chi2cdf,10)P =正态整体统计量的散布用样本来推断整体,需要明白样本统计量的散布,而样本又是一组与整体同散布的 随机变量,因此样本统计量的散布依托于整体的散布。当整体服从一样的散布时,求某个样本统计量的散布是很困难的,只有在整体服从正态散布时,一些重要的样本统计量(均值、标准差)的散布才有便于利用的结果。另一方面,现实生活中需要进行统计推断的整体,多数能够以为服从(或近似服从)正态散布,因此统计中人们在正态整体的 假定下研究统计量的散布,是必要的

21、与合理的。设整体X - N( , 2), x1,x2, ,xn为一容量n的样本,其均值 x和标准差s由式(1)、(2)确信,那么用 X和S构造的下面几个散布在统计中是超级有效的。2-,、 Xx - N (,)或一nN(0,1) /、n(3)(n 1)s222(n 1).Xt(n s/ . n1)(5)设有两个整体 XN( 1,;)和YN( 2,2、2),及由容量别离为n1,rb的两个样本确信的均值X, y和标准差S1,S2,那么其中S2关于(7)(X121) (y/ n12)N (0,1) ;/口2(X1) (y 2)2 ,2 ,s /n1 s /n2t(n1 n22)(6)22(n1 1内(

22、出1底nin2 2s;/s|/23 F(n1 1,叫 1)2(8)式,假定2,但它们未知,于是用S代替。在下面的统计推断中咱们要反复用到这些散布。 2参数估量利用样本对整体进行统计推断的一类问题是参数估量,即假定已知整体的散布,般是X N( , 2),估量参数的散布,如,2。参数估量分点估量和区间估量两种。点估量点估量是用样本统计量确信整体参数的一个数值。评判估量好坏的标准有无偏性、 最小方差性、有效性等,估量的方式有矩法、极大似然法等。最经常使用的是对整体均值和2方差(或标准差)作点估量。让咱们临时抛 开评判标准,当从一个样本依照式(1)、(2)算出样本均值X和方差S2后,对 和2(或 )一

23、个自然、合理的点估量显然是(在字母上加人表示它的估量值)? x, ?2 s2, ? s(9)区间估量点估量尽管给出了待估参数的一个数值,却没有告知咱们那个估量值的精度和可信程度。一样地,整体的待估参数记作(如,2),由样本算出的的估量量记作 ?,人们常希望给出一个区间?,?,使 以必然的概率落在此区间内。假设有P?2 1,01(10)则?, ?2称为 的置信区间,?,?2别离称为置信下限和置信上限,i 称为置信概率或置信水平,称为显著性水平。给出的置信水平为i 的置信区间?,?,称为 的区间估量。置信区间越小, 估量的精度越高;置信水平越大,估量的可信程度越高。可是这两个指标显然是矛盾的, 一

24、般是在必然的置信水平下使置信区间尽可能小。通俗地说,区间估量给出了点估量的误差范围。参数估量的Matlab实现Matlab统计工具箱中,有专门计算整体均值、标准差的点估量和区间估量的函数。关于正态整体,命令是mu,sigma,muci,sigmaci=normfit(x,alpha)其中x为样本(数组或矩阵),alpha为显著性水平(alpha缺省时设定为),返回整体均值 和标准差 的点估量mu和sigma ,及整体均值 和标准差 的区间估量muci 和sigmaci。当x为矩阵时返回行向量。Matlab统计工具箱中还提供了一些具有特定散布整体的区间估量的命令,如 expfit , poiss

25、fit , gamfit ,你能够从这些字头猜出它们用于哪个散布,具体用法参见 帮忙系统。 3假设查验统计推断的另一类重要问题是假设查验问题。在整体的散布函数完全未知或只知其形式但不知其参数的情形,为了推断整体的某些性质,提出某些关于整体的假设。例如, 提出整体服从泊松散布的假设,又如关于正态整体提出数学期望等于0的假设等。假设查验确实是依照样本对所提出的假设做出判定:是同意仍是拒绝。这确实是所谓的假设查验问题。单个整体N( , 2)均值 的查验原假设(或零假设)为: H0:备选假设有三种可能:111:0,111:0,111:0。2.已知,关于 的查验(u查验)在Matlab中u查验法由函数

26、ztest来实现,命令为h,p,ci=ztest(x,mu,sigma,alpha,tail)其中输入参数 x是样本,mu是H0中的0, sigma是整体标准差,alpha是显著性水平 (alpha缺省时设定为),tail是对备选假设 H选择:H1为 0时用tail=0(可缺省);也为 0时用tail=1 ; H1为 0时用tail=-1。输出参数h=0表示同意H0, h=1表示拒绝H0, p表示在假设Ho下样本均值显现的概率,p越小H o越值得疑心,ci是0的置信区间。例3某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正 态散布。当机械正常时,其均值为千克,标准差为千克。某

27、日动工后为查验包装机是不 是正常,随机地抽取它所包装的糖9袋,称得净重为(千克):问机械是不是正常?解 整体 已知,xN( ,0.0152), 未知。于是提出假设Ho :o 0.5和H1 :0.5。Matlab实现如下:x=.;h,p,ci=ztest(x,求得h=1, p=,说明在的水平下,可拒绝原假设,即以为此日包装机工作不正常。2未知,关于 的查验(t查验)在Matlab中t查验法由函数ttest来实现,命令为h,p,ci=ttest(x,mu,alpha,tail)例4某种电子元件的寿命 x(以小时计)服从正态散布,2均未知.现得16只元件的寿命如下159 280 101 212 22

28、4 379 179 264222 362 168 250 149 260 485 170问是不是有理由以为元件的平均寿命大于225(小时)?解按题意需查验H0 :0 225, H1 :225,取 0.05。Matlab实现如下:x=159 280 101 212 224 379 179 264.222 362 168 250 149 260 485 170;h,p,ci=ttest(x,225,1)求得h=0, p=,说明在显著水平为的情形下,不能拒绝原假设,以为元件的平均寿命不大于225小时。两个正态整体均彳1差的查验(t查验)还能够用t查验法查验具有相同方差的2个正态整体均值差的假设。在M

29、atlab中由函数ttest2 实现,命令为:h,p,ci=ttest2(x,y,alpha,tail)与上面的ttest相较,不同处只在于输入的是两个样本x,y (长度不必然相同),而不是一个样本和它的整体均值;tail的用法与ttest相似,可参看帮忙系统。例5在平炉上进行一项实验以确信改变操作方式的建议是不是会增加钢的得率,实验是在同一平炉上进行的。每炼一炉钢时除操作方式外,其它条件都可能做到相同。先用标准方式炼一炉,然后用建议的新方式炼一炉,以后互换进行,各炼了 10炉,其得率 别离为0标准方式2新方式设这两个样本彼此独立且别离来自正态整体N( 1, 2)和N( 2, 2), 1, 2

30、, 2均未知,问建议的新方式可否提高得率?(取0.05。)解 (i )需要查验假设20, Hi: i 20.(ii)Matlab 实现x=;y=;h,p,ci=ttest2(x,y,-1)求得h=1,p= x 10-4。说明在0.05的显著水平下,能够拒绝原假设,即以为建议的新操作方式较原方式优。散布拟合查验在实际问题中,有时不能预知整体服从什么类型的散布,这时就需要依照样本来查验关于散布的假设。下面介绍2查验法和专用于查验散布是不是为正态的“偏峰、峰度查验法”。 2 . 查验法H。:整体x的散布函数为F(x),Hi:整体x的散布函数不是 F(x).在用下述2查验法查验假设 Ho时,假设在假设

31、 Ho下F (x)的形式已知,但其参数值未知,这时需要先用极大似然估量法估量参数,然后作查验。.查验法的大体思想如下:将随机实验可能结果的全部分为k个互不相容的事k件 AAA,. (Ak,AAj ,i j,i,j 1,2,k)。于是在假设 Ho 下,1咱们能够计算piP(A)(或?i?(A), i 1,2,.,k。在n次实验中,事件A显现的频率fi/n与pi (色)往往有不同,但一样来讲,假设Ho为真,且实验的次数又甚多时 那么这种不同不该该专门大。基于这种方式,皮尔逊利用0k (f. np. )2 ok (f. n? )2(11)-J匕或 2ii 1 npii 1 n?j作为查验假设H0的统

32、计量。并证明了以下定理。定理 假设n充分大,那么当H。为真时(不论H。中的散布属什么散布 ),统计量(11)老是近似地服从自由度为 k r 1的2散布,其中r是被估量的参数的个数。于是,假设在假设H0下算彳导(11)有2222(k r 1),在显著性水平下拒绝H0,不然就同意。注意:在利用2查验法时,要求样本容量n不小于50,和每一个nR都不小于5,而且npi最好是在5以上。不然应适本地归并A ,以知足那个要求。 TOC o 1-5 h z 例6下面列出了 84个伊特拉斯坎(Etruscan )人男子的头颅的最大宽度(mm,试查验这些数据是不是来自正态整体(取0.1)。141148132138

33、154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145解编写Matlab程序如下:clcx=141 148 132 138 154 142 150 146 155 158.1

34、50 140147148144150149145149158.143 141144144126140144142141140.145 135147146141136140146142137.148 154137139143140131143141149.148 135148152143144141143147146.150 132142142143153149146149138.142 149142137134144146147140142.140 137152145;min(x),max(x) %求数据中的最小数和最大数hist(x,8) %画直方图fi=length(find(x=135&

35、x=138&x=142&x=146&x=150&x=154) %各区间上显现的频数mu=mean(x),sigma=std(x) %均值和标准差fendian=135,138,142,146,150,154 %区间的分点p0=normcdf(fendian,mu,sigma) %分点处散布函数的值p1=diff(p0) p=p0(1),p1,1-p0(6)chi=(fi-84*p).A2./(84*p) chisum=sum(chi) x_a=chi2inv,4) %chi2%散布的分位数中间各区间的概率所有区间的概率皮尔逊统计量的值2.1(4) 7.7794,故在水平下同意求得皮尔逊统计量 chisum=, 京(7 2 1)H0,即以为数据来自正态散布整体。偏度、峰度查验(留作习题 1)其它非参数查验Matlab还提供了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论