实验一、数据的统计分析基础_第1页
实验一、数据的统计分析基础_第2页
实验一、数据的统计分析基础_第3页
免费预览已结束,剩余15页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验一数据的统计分析基础一、实验目的在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数、窗口排队人数、 月用电量、灯泡寿命、测量误差、产品质量、月降雨量等数据),这些数据的产生一般都是 随机的这些随机数据乍看起来并没有什么规律,但通过数理统计的研究发现:这些随机 数还是符合着某种分布规律的,这种规律被称为统计规律.本实验旨在通过对概率密度函数曲线的直观认识、对数据分布的形态猜测、对某些概 率分布的密度函数的参数估计(以正态为例)以及进行简单的正态假设检验,来揭示生活 中的随机数据的一些统计规律.二、相关函数(命令)及简介For pers onal use only in study

2、and research; not for commercial use1. 概率密度函数pdf系列以normpdf()为例,调用格式:y=no rmpdf(x, mu,sigma),计算参数为mu和sigma的样本数据x的正态概率密度函数.参数sigma必须为正.其 中:mu为均值,sigma为标准差.For pers onal use only in study and research; not for commercial use2. 参数估计fit系列.以normfit()为例,调用格式:muhat, sigmahat, muci, sigmaci = no rmfit(x, alp

3、ha),对样本数据x进行参数估计,并计算置信度为100(1 alphaj)%的置信区间.如alpha=0.01 时,则给出置信度为99%的置信区间.不写明alpha,即表示alpha取0.05.For pers onal use only in study and research; not for commercial use3. load()函数.调用格式:S = load(数据文件')将纯数据文件(文本文件)中的数据导入Matlab,S是双精度的数组,其行数、列数与数据文件相一致.For pers onal use only in study and research; not

4、for commercial use4. hist(x, m)函数:画样本数据x的直方图,m为直方图的条数,缺省值为10.5. tabulate()函数:绘制频数表.返回table矩阵,第一列包含x的值,第二列包含该值出 现次数,最后一列包含每个值的百分比.6. ttest(x,m,alpha)函数:假设检验函数.此函数对样本数据 x进行显著性水平为alpha的t 假设检验,以检验正态分布样本 x (标准差未知)的均值是否为 m. h=1表示拒绝零假设, h=0表示不能拒绝零假设.For pers onal use only in study and research; not for com

5、mercial use7. normplot(x)或weibplot(x)函数:统计绘图函数,进行正态分布检验8 .累积分布函数cdf系列,如:normcdf().9. 逆累积分布函数inv系列,如:norminv().For pers onal use only in study and research; not for commercial use10 .随机数发生函数rnd系列,如:normrnd().11.均值与方差函数stat系列,如:normstat().三、实验内容1.常见的概率分布的密度函数及其图形常见概率分布的密度函数序号中文函数名英文函数名英文简写备注1 :二项分布Bi

6、no mialbi no2卡方分布Chisquarechi23指数分布Exp onen tialexp4F分布Ff5 tGamma分布Gammagam6几何分布Geometricgeo7正态分布Normaln orm8 :泊松分布Poiss onpoiss9瑞利分布Rayleighrayl10T分布Tt11均匀分布Un iformunif12离散均匀分布Discrete Uniformun id1.1常见连续分布的密度函数说明(1)正态分布若连续型随机变量X的密度函数为:1 y2f (x)e 2二,-::x ,二 02 二=0,;- - 1时的正态1 .一个非标准正态分布的密(Gauss在研究

7、误差理论时首 一个变量如果是由大量微 定是正态变量.比如测量误差、产品则称X为服从正态分布的随机变量,记作 X N('二2).特别地,称亠二 分布N(0,1)为标准正态分布,其概率分布的密度函数参见图 度函数参见图2中的虚线部分(亠=1,;二2 ).正态分布是概率论与数理统计中最重要的一个分布,高斯 先用正态分布来刻画误差的分布,所以正态分布又称高斯分布. 小的、独立的随机因素的叠加效果,那么这个变量 质量、月降雨量等都可用正态分布描述.x=-8:0.1:8;y=no rmpdf(x, 0, 1); y仁normpdf(x, 1,2); plot(x, y, x, y1,':&

8、#39;);0.40.350.30.250.20.150.10.050图2标准正态与非标准正态080.350.30.250.20.150.10.05-480.4图1标准正态分布(2)均匀分布(连续) 若随机变量X的密度函数为1 ,a _ x _ b f (x)-a10, 其他则称X服从区间a,b上的均匀分布(连续),记作X Ua,b,其概率分布的密度函数见参见图 3(a =0,b =2二).均匀分布在实际中经常使用,譬如一个半径为r的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置 X是服从0,2二r上的均匀分布,这只要看一看报废轮胎四周磨损程度几乎是相同的就可

9、明白均匀分布的含义了.x=-10:0.01:10;r=1;y=u nifpdf(x, 0, 2*pi*r);plot(x, y);0.160.140.120.080.060.040.020.250(0.20.150.10.05图4指数分布30图3均匀分布(连续)(3)指数分布 若连续型随机变量X的密度函数为:仙=严鼻X00, xW0其中0,则称X为服从参数为的指数分布的随机变量,记作 X Exp( ) 在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布如某些元 件的寿命;某人打一个电话持续的时间;随机服务系统中的服务时间;动物的寿命等都常 假定服从指数分布.指数分布的重要性还在于

10、它是具有无记忆性的连续型随机变量即:设随机变量X服从参数为的指数分布,则对任意的实数s 0,t 0,有PX s t|X s二 P X t, 其概率分布的密度函数参见见图4(' =4).x=0:0.1:30;y=exppdf(x, 4);plot(x, y)1.2常见离散分布的密度函数(1)几何分布在一个贝努里实验中,每次试验成功的概率为p,失败的概率为 q = 1 - p (0 : p : 1),设试验进行到第次才出现成功,则的分布列为:P(二 k)二 pqk',k =1,2,Q0容易看到pqk4(k =1,2j|l)是几何级数a pqk4的一般项,于是人们称它为几何分布,其概

11、率分布的心密度函数参见图5(p=0.5).x=0:30;y=geopdf(x, 0.5);plot(x, y)0.1500图5几何分布0.50.450.40.350.30.250.20.10.05r*1-0.08-0.07-0.06-1-0.0510.041-0.031 |-0.02-0.01-5T0(520250051511iF-H045500.09图6二项分布(2)二项分布如果随机变量X的分布列为:P(X 二 k)二k(1- p)n = k =0,1, ,n则这个分布称为二项分布,记为X b(n, p) 当n =1时的二项分布又称为0-1分布,分布律为X01P1 -pp一般的二项分布的密度

12、函数参见图 6(n二500, p = 0.05).x=0:50;y=bi no pdf(x, 500, 0.05);plot(x, y);(3)泊松(Poisson分布泊松分布是1837年由法国数学家泊松(Poisson,其概率分布列是:kP(X =k) e',k=0, 1, 2,川,0k!记为X P(),其概率分布的密度函数参见图 7( = 25).泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计 数过程相联系,譬如:单位时间内,电话总机接到用户呼唤次数;1平方米内,玻璃上的气泡数;一铸件上的砂眼数;在单位时间内,某种放射性物质分裂到某区域的质点数等等.x=

13、0:50;y=poisspdf(x, 25);plot(x, y);注:对比二项分布的概率密度函数图可以发现,当二项分布的np与泊松分布充分接近时,两图拟合程度非常高(图6与图7中的n 2 ),直观地验证了泊松定理(泊 松分布是二项分布的极限分布),请对比图6与图7.0.080.070.060.050.040.030.020.0100510154645501.5图8均匀分布(离散)图7泊松分布(4)均匀分布(离散)如果随机变量X的分布列为:1P(X = k) , k = 1, 2, 11(, nn则这个分布称为离散均匀分布,记为X U( 1,2J|,n),其概率分布的密度函数参见图8(n =2

14、0).n=20;x=1: n;y=uni dpdf(x, n);plot(x, y, 'o-');1.3三大抽样分布的密度函数(1) 2分布设随机变量X1,X2,,Xn相互独立,且同服从正态分布N(0,1),则称随机变量 2 =X12 Xf - x2服从自由度为n的2分布,记作2 2(n),亦称随机变量n为 2变量.其概率分布的密度函数参见图 9(n =4)、图10(n =10),2分布的密度函数解析式参见本章的附录表格.x=0:0.1:20;y=chi2pdf(x, 4);plot(x, y);x=0:0.1:20; y=chi2pdf(x, 10);plot(x, y)0.

15、10.20.180.160.140.120.10.080.060.040.020 24681012141618200.090.080.070.060.050.040.030.020.01002468101214161820图92分布(n =4)图102分布(n-10)仅供个人参考F分布设随机变量X 2(m) , Y 2( n),且X与Y相互独立,则称随机变量-X /mF =Y/n服从自由度为(m, n)的F分布,记作FF(m, n),其概率分布的密度函数参见图11,即F(4,10),F分布的密度函数解析式参见本章的附录表格.x=0.01:0.1:8.01;y=fpdf(x, 4, 10);pl

16、ot(x, y)0.70.60.50.40.30.20.1001234567890.400.350.30.250.20.150.10.05图12 t分布-6-4-20246图11 F分布(3) t分布设随机变量X N(0,1),Y2(n),且X与Y相互独立,则称随机变量X、Y/n服从于自由度为n的t分布,记作T t( n),其概率分布的密度函数参见图12,即t(4) . t分布的密度函数解析式参见本章的附录表格.值得说明的是,图12的t分布图与图1、图2的正态分布十分相似.可以证明:当n: 时,t分布趋于标准正态分布N(0,1).x=-6:0.01:6; y=tpdf(x, 4); plot(

17、x, y)2 对给定数据画频数直方图(Histogram)或频数表(Frequency Table假定有若干个给定的数据集,它们满足上述10种分布之一,我们现在的任务就是利用 画频数直方图等手段,确定它们到底服从哪一类分布.例1:某一次书面考试的分数罗列如下,试画频数直方图.鉴于数据的数量较大(包含有 120个数据),可以先在一个文本文件中输入,保存为 data1.txt.7569100807074785972736379698162878066867570858564786569677872605057837779787467837167717484748375737460916569806

18、386677380仅供个人参考746872809561778582718076836987767269668674875981887583717781886767767176797990628085817572579491837866747974827987768168x=load('data1.txt');x=x(:);hist(x)结果参见图13.从图形形态上来看,图13较为接近图2所示的正态分布.300252015105图13例1的频数直方图505560657075808590951001601412108642图14例2的频数直方图5055606570758085909

19、5100例2:某一次上机考试的分数罗列如下(data2.txt,包含有130个数据),试画频数直方图.517095917083839666617979578595836371717291606910067877250606387987174965583679278566277798455596193568261889798957379818756925357938977895692998668579157816580997995798674567061728157759889696171777278707367596286849382809094848980679773809469645151

20、926252866797x=load('data2.txt');x=x(:);hist(x)结果参见图14.图14看上去很接近图8所示的均匀分布(离散).例3:以下给出上海1998年来的月降雨量的数据(data3.txt,包含有98个数据):不得用于商业用途1184.41113.41203.91170.7975.41462.3947.81416.0709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51088.11288.71115.81217.513

21、20.71078.11203.41480.01269.91049.21318.41192.01016.01508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602.0951.41003.2840.41061.4958.01025.21265.01196.51120.71659.3942.71123.3910.21398.51208.61305.51242.31572.31416.91256.11285.9984.81390.31062.21287.31477.01011.91217.71197.11143.01018.81243.

22、7909.31030.31124.4811.4820.91184.11107.5991.4901.71176.51113.51272.91200.31508.7772.3813.01392.31006.2x=load('data3.txt'); x=x(:);hist(x)结果参见图15图15看上去很接近图10所示的2分布.2018161412108642012108642011.522.533.544.555.56图16例4的频数直方图70080090010001100120013001400150016001700图15例3的频数直方图在重复数据较多的情况下,我们也可以利用

23、Matlab自带的函数tabulate()产生频数表,并以频数表的形式来发掘数据分布的规律.例4:给出以下数据:(data4.txt,含有46个数据)23641512314231332316464 65436433334456212345654则:x=load('data4.txt');x=x(:);tabulate(x)hist(x, 6)Value Count Perce nt1 613.04%2 613.04%仅供个人参考31226.09%41021.74%5510.87%6715.22%结果参见图16图16看上去好象没有什么规律可循.例5:现累积有100次刀具故障记录,

24、当故障出现时该批刀具完成的零件数如下:(data5.txt)459362624542509584433748815505612452434982640742565706593680926653164487734608428115359384452755251378147438882453886265977585975549697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468799544645

25、764558378765666763217715310851x=load('data5.txt');x=x(:);hist(x)%结果参见图17,很象图2所示的正态分布figurehistfit(x)%结果参见图18,加入了较接近的正态分布的密度曲线2502015105020040060080010001200252015105图 18 例 5 的 histfit(x)0-2000200400600800100012001400图 17 例 5 的 hist(x)3. 参数估计当我们可以基本确定数据集X符合某种分布时,下一步我们就该确定这个分布的参数 了由于正态分布情况发生的比

26、较多,故一般我们首先考虑的分布将是正态分布考虑最 多的也是正态分布情况.对于未知参数的估计,可分两种情况:点估计与区间估计.(1) 点估计:构造样本X与某个统计量有关的一个函数,作为该统计量的一个估计, 称为点估计.Matlab统计工具箱中,一般采用最大似然估计法给出参数的点估计.可以证 明: 正态分布N(;2)中,最大似然估计是? = X,、二2的最大似然估计是:?2 二-(Xi X);n i 4 泊松分布P( )的最大似然估计是=X ; 指数分布Exp()的,最大似然估计是=丄,等等.X例6:已知上述例1的数据服从正态分布N(.L,二2),试求出和二2的值.解: x=load('d

27、ata1.txt');x=x(:);mu, sigma = no rmfit(x)mu =75.3417sigma =8.8768因此,=mu=75.3412,二2 =sigma2=8.87682=78.7982.(2) 区间估计:构造样本X与某个统计量有关的两个函数,作为该统计量的下限估计 与上限估计,下限与上限一般能够构成一个区间.这个区间作为该统计量的估计,称为区 间估计.Matlab统计工具箱中,一般也采用最大似然估计法给出参数的区间估计.例7:已知上述例1的数据集X服从正态分布NC,2),试求出和二的置信度为95%的 区间估计.解: x=load('data1.txt

28、');x=x(:);mu, sigma muci, sigmaci = no rmfit(x)mu =75.3417sigma =8.8768muci =73.737176.9462sigmaci =7.878110.1678因此,_,汀乞例8:从自动机床加工的同类零件中抽取 16件,测得长度值为(data6.txt):12.1512.1212.0112.0812.0912.1612.0612.1312.0712.1112.0812.0112.0312.0112.0312.06已知零件长度服从正态分布 NC;2),求零件长度的均值和标准差二的置信度为99%的 置信区间.不得用于商业用途

29、仅供个人参考解: x=load('data6.txt');x=x(:);mu, sigma, muci, sigmaci = no rmfit(x, 0.01)mu =12.0750sigma =0.0494 muci =12.038612.1114 sigmaci = 0.0334 0.0892其中muci(1)、muci(2)分别是平均值丄在99%置信度下的上下限;而sigmaci(1)、sigmaci(2) 分别是标准差在99%置信度下的上下限.4 .正态假设检验对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分 析方法,检验这种假设是否正确,从而

30、决定接受假设或拒绝假设,这就是假设检验问题.这 里仅以正态假设检验为例,来说明假设检验的基本过程.正态假设检验的一般过程是:(1) 对比正态分布的概率密度函数图,判断某统计量的分布可能服从正态分布;(2) 利用统计绘图函数normplot()或weibplot()进行正态分布检验.(3) 假设检验:利用Matlab统计工具箱给出的常用的假设检验方法的函数 ttest(x,m,alpha),进行显著性水平为alpha的t假设检验,以检验正态分布样本x (标准差未 知)的均值是否为m.运行结果中,当h=1时,表示拒绝零假设;当h=0时,表示不能拒 绝零假设.例9:试说明例5所示的刀具的使用寿命服从

31、正态分布,并且说明在方差未知的情况下其 均值m取为597是否合理?解:(1)对比正态分布的概率密度函数图(图17、图18)以及对正态分布的描述(一个变量如果是由大量微小的、独立的随机因素的叠加效果,那么这个变量一定是正态变 量.比如测量误差、产品质量等都可用正态分布描述),可得初步结论:该批刀具的使用寿命可能服从正态分布.(2)禾I用统计绘图函数normplot(x)进行分布的正态性检验.由于:x=load('data5.txt');x=x(:);no rmplot(x)Normal Probability Plot图19刀具寿命分布正态性检验结果如图19所示,经观察这100个

32、离散点非常靠近倾斜直线段,图形为线性的,因此 可得出结论:该批刀具的使用寿命近似服从正态分布.(3) 利用函数ttest(x,m,alpha)进行显著性水平为alpha的t假设检验.由于: x=load('data5.txt');x=x(:);h=ttest(x,597,0.05)得: h = 0检验结果:h=0,表示不拒绝零假设,说明所提出的假设“寿命均值为597”是合理的.读者可以验证:当执行h=ttest(x,555,0.05),将得到h = 1,表示拒绝零假设.四、实验要求1. 了解本实验中虽已提及但没有详细介绍的其余几种概率分布的密度函数,写出它们的概率分布的密度函数

33、表达式(本实验的附录中已经列出一部分),并画出相应的图形.2. 写出本实验所列出的10种概率累积分布函数表达式,并画出相应的概率累积分布 函数图形.3. 用tabulate()函数将例1、例2的分数数据按频数表的方式进行统计,每5分为一个 分数段(可参见例4),观察数据分布有什么规律.4. 用weibplot(x)函数进行例9的正态分布检验,比较与例 9的差别.5. 例3给出的上海1998年来的月降雨量的数据(data3.txt)看上去很接近图10所示的 2分布,但2分布好象没有直接进行参数估计的函数,试寻求对此数据进行参数估计的可能方法.6. 向例3给出的上海1998年来的月降雨量的数据(d

34、ata3.txt)中“补充”一些数据,使 其看上去很接近正态分布,并求此时的均值 和标准差二的点估计与置信度为97%的区间 估计.7. 在第6题基础上,说明在方差未知的情况下,其均值,取为1150是否合理?8. ttest()函数的完整用法是:h,sig,ci = ttest(x,m,alpha,tail)其中sig为观察值的概率,当sig为小概率时则对零假设提出质疑(这里的零假设为:H 0 :卩=m .也可以是其它形式,例如:H0:»Am、H0:»<m等);ci为真正均值卩的 1-alpha置信区间;不写tail,表示其取值为0.说明:若h=0,表示在显著性水平alpha下,不能拒绝零假设;若h=1,表示在显著性 水平alpha下,可以拒绝零假设.仅供个人参考若tail=O,表示备择(对立)假设为:HjZ = m (默认,双边检验);若tail=1,表示 备择(对立)假设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论