版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据的统计分析一、 问题背景与实验目的在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数、窗口排队人数、月用电量、灯泡寿命、测量误差、产品质量、月降雨量等数据),这些数据的产生一般都是随机的.这些随机数据乍看起来并没有什么规律,但通过数理统计的研究发现:这些随机数还是符合着某种分布规律的,这种规律被称为统计规律.本实验旨在通过对概率密度函数曲线的直观认识、对数据分布的形态猜测、对某些概率分布的密度函数的参数估计(以正态为例)以及进行简单的正态假设检验,来揭示生活中的随机数据的一些统计规律.二、 相关函数(命令)及简介概率密度函数pdf系列.以normpdf()为例,调用格式:y=normpdf(x,mu,sigma),计算参数为mu和sigma的样本数据x的正态概率密度函数.参数sigma必须为正.其中:mu为均值,sigma为标准差.参数估计fit系列.以normfit()为例,调用格式:[muhat,sigmahat,muci,sigmaci]=normfit(x,alpha),对样本数据x进行参数估计,并计算置信度为100(1—alpha)%的置信区间.如alpha=0.01时,则给出置信度为99%的置信区间.不写明alpha,即表示alpha取0.05.load()函数.调用格式:S=load('数据文件')将纯数据文件(文本文件)中的数据导入Matlab,S是双精度的数组,其行数、列数与数据文件相一致.hist(x,m)函数:画样本数据x的直方图,m为直方图的条数,缺省值为10.tabulate()函数:绘制频数表.返回table矩阵,第一列包含x的值,第二列包含该值出现次数,最后一列包含每个值的百分比.ttest(x,m,alpha)函数:假设检验函数.此函数对样本数据x进行显著性水平为alpha的t假设检验,以检验正态分布样本x(标准差未知)的均值是否为m.h=1表示拒绝零假设,h=0表示不能拒绝零假设.normplot(x)或weibplot(x)函数:统计绘图函数,进行正态分布检验.研究表明:如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态.完全类似地可探索以下一系列函数的用法与作用:8.累积分布函数cdf系列,如:normcdf().逆累积分布函数inv系列,如:norminv().随机数发生函数rnd系列,如:normrnd().均值与方差函数stat系列,如:normstat().
三、实验内容1.常见的概率分布的密度函数及其图形1)常见概率分布的密度函数(20个,打/的10个将在后面作介绍)序号中文函数名英文函数名英文简写备注1Beta分布Betabeta2二项分布BinomialbinoV3卡方分布Chisquarechi2/抽样4指数分布ExponentialexpV5F分布FfV抽样6Gamma分布Gammagam7几何分布GeometricgeoV8超几何分布Hypergeometrichyge9对数正态分布Lognormallogn10负二项式分布NegativeBinomialnbin11非中心F分布NoncentralFncf12非中心七分布Noncentraltnct13非中心卡方分布NoncentralChi-squarencx214正态分布NormalnormV15泊松分布PoissonpoissV16瑞利分布Rayleighrayl17T分布TtV抽样18均匀分布UniformunifV19离散均匀分布DiscreteUniformunidV20Weibull分布Weibullweib2)常见概率分布的密度函数文字说明与图形演示:常见连续分布的密度函数正态分布若连续型随机变量x的密度函数为:1 _(x-g)2f(X)=e2o2,一8<X<+8,b>0。\,2兀则称X为服从正态分布的随机变量,记作X~N(g,o2).特别地,称g=0,o=1时的正态分布N(0,1)为标准正态分布,其概率分布的密度函数参见图1.一个非标准正态分布的密度函数参见图2中的虚线部分(g=1,o=2).正态分布是概率论与数理统计中最重要的一个分布,高斯(Gauss)在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称高斯分布.一个变量如果是由大量微小的、独立的随机因素的叠加效果,那么这个变量一定是正态变量.比如测量误差、产品质量、月降雨量等都可用正态分布描述.x=-8:0.1:8;y=normpdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,':');图1标准正态分布图图1标准正态分布图2标准正态与非标准正态(2)均匀分布(连续)若随机变量x的密度函数为 ,a<x<b/(x)=\b-a0,其他则称x服从区间[a,b]上的均匀分布(连续),记作X-U[a,b],其概率分布的密度函数见参见图3(a=0,b=2兀).均匀分布在实际中经常使用,譬如一个半径为r的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置X是服从[0,2.r上的均匀分布,这只要看一看报废轮胎四周磨损程度几乎是相同的就可明白均匀分布的含义了.x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y);图3均匀分布(连续)0.250.20.150.10.05图4指数分布图3均匀分布(连续)0.250.20.150.10.05图4指数分布0 5 10 15 20 25 300(3)指数分布若连续型随机变量x的密度函数为:其中X>0,则称X为服从参数为X的指数分布的随机变量,记作X~Exp(X).在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布.如某些元件的寿命;某人打一个电话持续的时间;随机服务系统中的服务时间;动物的寿命等都常假定服从指数分布.指数分布的重要性还在于它是具有无记忆性的连续型随机变量.即:设随机变量X服从参数为X的指数分布,则对任意的实数s>0*>0,有P{X>s+tIX>s}=P{X>t},其概率分布的密度函数参见见图4(X=4)-x=0:0.1:30;y=exppdf(x,4);plot(x,y)常见离散分布的密度函数几何分布在一个贝努里实验中,每次试验成功的概率为p,失败的概率为g=1-〃(0<p<1),设试验进行到第&次才出现成功,则&的分布列为:P(&=k)=pqk-i,k=1,2,容易看到pqk-1(k=1,2,)是几何级数五pqk-1的一般项,于是人们称它为几何分k=1布,其概率分布的密度函数参见图5(p=0.5).x=0:30;y=geopdf(x,0.5);plot(x,y)图5图5几何分布图6二项分布二项分布如果随机变量X的分布列为:
X01P1—pp(n)(n)k
\k)则这个分布称为二项分布,记为X〜b(n,p)-布,分布律为Pk(1—P)-k,k=0,1, ,nn=1时的二项分布又称为0-1分一般的二项分布的密度函数参见图6(n=500,p=0.05)•x=0:50;y=binopdf(x,500,0.05);plot(x,y);(6)泊松(Poisson)分布泊松分布是1837年由法国数学家泊松(PoissonS.D.1781-1840)首次提出的,其概率分布列是:人〉0P(X=k)=U^顼,k=0,1,2,人〉0记为X〜P(人),其概率分布的密度函数参见图7(X=25).泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系,譬如:单位时间内,电话总机接到用户呼唤次数;1平方米内,玻璃上的气泡数;一铸件上的砂眼数;在单位时间内,某种放射性物质分裂到某区域的质点数等等.x=0:50;y=poisspdf(x,25);plot(x,y);图7泊松分布图图7泊松分布图8均匀分布(离散)注:对比二项分布的概率密度函数图可以发现,当二项分布的n-p与泊松分布人充分接近时,两图拟合程度非常高(图6与图7中的n•p=20=X),直观地验证了泊松定理(泊松分布是二项分布的极限分布),请对比图6与图7.(7)均匀分布(离散)如果随机变量X的分布列为:P(X=k)=1,k=1,2,…,nn则这个分布称为离散均匀分布,记为X~U([1,2,...,n]),其概率分布的密度函数参见图8(n=20). '''n=20;x=1:n;y=unidpdf(x,n);plot(x,y,'o-');三大抽样分布的密度函数(8)x2分布设随机变量X|X2...,X相互独立,且同服从正态分布N(0,1),则称随机变量X2=X2+X2+...+X2服从自由度为n的X2分布,记作X2~X2(n),亦称随机变量X21为X22变量.其概率分布的密度函数参见图9(n=4)、图10(n=10),X2- -n、一一一. . 一一-分布的密度函数解析式参见本章的附录表格.x=0:0.1:20;y=chi2pdf(x,x=0:0.1:20;y=chi2pdf(x,10);plot(x,y)y=chi2pdf(x,4);图10z2图10z2分布(n=10)图9穴2分布(n=4)(9)F分布设随机变量X~X2(m),Y~X2(n)且X与Y相互独立,则称随机变量X/m
F= Y/n服从自由度为(m,n)的F分布,记作F~F(m,n),其概率分布的密度函数参见图11,即F(4,10),F分布的密度函数解析式参见本章的附录表格.x=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)
图11F分布图12t分布(图11F分布图12t分布(10)t分布设随机变量x~N(0,1),Y-x2(n)X服从于自由度为n的t分布,记作T~t(n),其概率分布的密度函数参见图12,即t(4)-t分布的密度函数解析式参见本章的附录表格.细心的读者可能已经发现,图12的t分布图与图1、图2的正态分布十分相似.可以证明:当nts时,t分布趋于标准正态分布N(0,1).x=-6:0.01:6;y=tpdf(x,4);plot(x,y)2.对给定数据画频数直方图(Histogram)或频数表(FrequencyTable)假定有若十个给定的数据集,它们满足上述10种分布之一,我们现在的任务就是利用画频数直方图等手段,确定它们到底服从哪一类分布.例1:某一次书面考试的分数罗列如下,试画频数直方图.鉴于数据的数量较大(包含有120个数据),可以先在一个文本文件中输入,保存为data1.txt.7569100807074785972736379698162878066867570858564786569677872605057837779787467837167717484748375737460916569806386677380746872809561778582718076836987767269668674875981887583717781886767767176797990628085817572579491837866747974827987768168
x=load('data1.txt');x=x(:);hist(x)图13较为接近图2所示的正态分布.图14例图13较为接近图2所示的正态分布.图14例2的频数直方图图13例1的频数直方图例2:某一次上机考试的分数罗列如下(data2.txt,包含有130个数据),试画频数直方图.517095917083839666617979578595836371717291606910067877250606387987174965583679278566277798455596193568261889798957379818756925357938977895692998668579157816580997995798674567061728157759889696171777278707367596286849382809094848980679773809469645151926252866797x=load('data2.txt');x=x(:);hist(x)结果参见图14.图14看上去很接近图8所示的均匀分布(离散).例3:以下给出上海1998年来的月降雨量的数据(data3.txt,包含有98个数据):1184.41113.41203.91170.7975.41462.3947.81416.0709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51088.11288.71115.81217.5
1320.71078.11203.41480.01269.91049.21318.41192.01016.01508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602.0951.41003.2840.41061.4958.01025.21265.01196.51120.71659.3942.71123.3910.21398.51208.61305.51242.31572.31416.91256.11285.9984.81390.31062.21287.31477.01011.91217.71197.11143.01018.81243.7909.31030.31124.4811.4820.91184.11107.5991.4901.71176.51113.51272.91200.31508.7772.3813.01392.31006.2x=load('data3.txt');x=x(:);hist(x)结果参见图15.图15看上去很接近图10所示的2分布.图15例3图15例3的频数直方图图16例4的频数直方图在重复数据较多的情况下,我们也可以利用Matlab自带的函数tabulate()产生频数表,并以频数表的形式来发掘数据分布的规律.例4:给出以下数据:(data4.txt,含有46个数据)2364151231423133231646465436433334456212345654则:x=load('data4.txt');x=x(:);tabulate(x)hist(x,6)ValueCountPercent1613.04%2613.04%31226.09%41021.74%
5 10.87%7 15.22%结果参见图16.图16看上去好象没有什么规律可循.例5:现累积有100次刀具故障记录,当故障出现时该批刀具完成的零件数如下:(data5.txt)459362624542509584433748815505612452434982640742565706593680926653164487734608428115359384452755251378147438882453886265977585975549697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468799544645764558378765666763217715310851x=load('data5.txt');x=x(:);%%结果参见图17%%结果参见图17很象图2所示的正态分布figurehistfit(x) %%结果参见图18,加入了较接近的正态分布的密度曲线图17例5图17例5的hist(x)图18例5的histfit(x)参数估计当我们可以基本确定数据集x符合某种分布时,下一步我们就该确定这个分布的参数了.由于正态分布情况发生的比较多,故一般我们首先考虑的分布将是正态分布.考虑最多的也是正态分布情况.对于未知参数的估计,可分两种情况:点估计与区间估计.点估计:构造样本x与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计.Matlab统计工具箱中,一般采用最大似然估计法给出参数的点估计.可以证明:正态分布N(四Q2)中,H最大似然估计是H=X,a2的最大似然估计是c2=-U(X-X)2;"i=1泊松分布P(X)的入最大似然估计是X=X;指数分布Exp(X)的X最大似然估计是X=上,等等.X例6:已知上述例1的数据服从正态分布N(口,c2),试求出日和c2的值.解:x=load('data1.txt');x=x(:);[mu,sigma]=normfit(x)mu=75.3417sigma=8.8768因此,日=mu=75.3412,c2=sigma2=8.87682=78.7982.区间估计:构造样本x与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限一般能够构成一个区间.这个区间作为该统计量的估计,称为区间估计.Matlab统计工具箱中,一般也采用最大似然估计法给出参数的区间估计.例7:已知上述例1的数据集x服从正态分布N(口,c2),试求出日和c的置信度为95%的区间估计.解:x=load('data1.txt');x=x(:);[mu,sigmamuci,sigmaci]=normfit(x)mu=75.3417sigma=8.8768muci=73.737176.9462sigmaci=7.878110.1678因此,73.7371<h<76.9462,7.8781<a<10.1678.例8:从自动机床加工的同类零件中抽取16件,测得长度值为(data6.txt):12.1512.1212.0112.0812.0912.1612.0612.1312.0712.1112.0812.0112.0312.0112.0312.06已知零件长度服从正态分布N(^Q2),求零件长度的均值^和标准差b的置信度为99%的置信区间.解:x=load('data6.txt');x=x(:);[mu,sigma,muci,sigmaci]=normfit(x,0.01)mu=12.0750sigma=0.0494muci=12.038612.1114sigmaci=0.03340.0892其中muci(1)、muci(2)分别是平均值^在99%置信度下的上下限;而sigmaci(1)、sigmaci(2)分别是标准差b在99%置信度下的上下限.正态假设检验对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题.这里仅以正态假设检验为例,来说明假设检验的基本过程.正态假设检验的一般过程是:对比正态分布的概率密度函数图,判断某统计量的分布可能服从正态分布;利用统计绘图函数normplot()或weibplot()进行正态分布检验.假设检验:利用Matlab统计工具箱给出的常用的假设检验方法的函数ttest(x,m,alpha),进行显著性水平为alpha的t假设检验,以检验正态分布样本x(标准差未知)的均值是否为m.运行结果中,当h=1时,表示拒绝零假设;当h=0时,表示不能拒绝零假设.例9:试说明例5所示的刀具的使用寿命服从正态分布,并且说明在方差未知的情况下其均值m取为597是否合理?解:(1)对比正态分布的概率密度函数图(图17、图18)以及对正态分布的描述(一个变量如果是由大量微小的、独立的随机因素的叠加效果,那么这个变量一定是正态变量.比如测量误差、产品质量等都可用正态分布描述),可得初步结论:该批刀具的使用寿命可能服从正态分布.(2)利用统计绘图函数normplot(x)进行分布的正态性检验.由于:x=load('data5.txt');x=x(:);normplot(x)结果如图19所示,经观察这100个离散点非常靠近倾斜直线段,图形为线性的,因此可得出结论:该批刀具的使用寿命近似服从正态分布.(3)利用函数ttest(x,m,alpha)进行显著性水平为alpha的t假设检验.由于:x=load('data5.txt');x=x(:);h=ttest(x,597,0.05)得:h=0检验结果:h=0,表示不拒绝零假设,说明所提出的假设“寿命均值为597”是合理的.读者可以验证:当执行h=ttest(x,555,0.05),将得到h=1,表示拒绝零假设.请读者自行解释此结果的含义.四、自己动手了解本实验中虽已提及但没有详细介绍的其余10种概率分布的密度函数,如Beta分布、Gamma分布、Weibull分布等,写出它们的概率分布的密度函数表达式(本实验的附录中已经列出一部分),并画出相应的图形.写出本实验所列出的10种概率累积分布函数表达式,并画出相应的概率累积分布函数图形.用tabulate()函数将例1、例2的分数数据按频数表的方式进行统计,每5分为一个分数段(可参见例4),观察数据分布有什么规律.用weibplot(x)函数进行例9的正态分布检验,比较与例9的差别.例3给出的上海1998年来的月降雨量的数据(data3.txt)看上去很接近图10所示的Z2分布,但Z2分布好像没有直接进行参数估计的函数,试寻求对此数据进行参数估计的可能方法.向例3给出的上海1998年来的月降雨量的数据(data3.txt)中“补充”一些数据,使其看上去很接近正态分布,并求此时的均值日和标准差a的点估计与置信度为97%的区间估计.在第6题基础上,说明在方差未知的情况下,其均值日取为1150是否合理?ttest()函数的完整用法是:[h,sig,ci]=ttest(x,m,alpha,tail)其中sig为观察值的概率,当sig为小概率时则对零假设提出质疑(这里的零假设为:H:h=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度私营企业商务用车租赁及维护服务合同3篇
- 二零二五年度养猪场养殖废弃物资源化利用项目合作合同3篇
- 二零二五年度养牛产业链可持续发展合作协议3篇
- 2025年度智慧城市基础设施建设投资入股协议3篇
- 二零二五年度农村土地租赁与农业废弃物资源化利用及循环经济合作协议2篇
- 二零二五年度农村土地承包经营权流转与农业废弃物资源化利用及循环农业合作合同
- 2025年度农村房屋买卖合同及附属土地使用权转让协议2篇
- 2025年度新材料研发合伙人股权分配与市场推广合同3篇
- 二零二五年度农村墓地墓园祭祀活动策划与执行协议
- 2025年度养殖土地租赁及农业废弃物资源化利用协议3篇
- 期末试卷-2023-2024学年语文六年级上册统编版
- 2024年1月国开电大法律事务专科《法律咨询与调解》期末考试试题及答案
- 快速响应客户需求机制
- 环境影响评价技术方案
- 皖医大儿科学习题及答案
- 刘铁敏《金融专业英语》(第2版)-习题参考答案20
- 《公路工程建设监理》课件
- 2023-2024学年黑龙江省哈尔滨一中高一(上)期末数学试卷
- 2024年管理学理论考核试题及答案
- 地理信息系统试卷及答案
- 干部考察延伸谈话范围
评论
0/150
提交评论