第五讲数据统计分析以及概率模型_第1页
第五讲数据统计分析以及概率模型_第2页
第五讲数据统计分析以及概率模型_第3页
第五讲数据统计分析以及概率模型_第4页
第五讲数据统计分析以及概率模型_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五讲

数据统计分析以及概率模型1MATLAB中统计工具箱中的基本统计命令2概率模型2/3/20231一MATLAB中统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见的概率分布函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例返回2/3/20232一、数据的录入、保存和调用例1

上海市区社会商品零售总额和全民所有制职工工资总额的数据如下:统计工具箱中的基本统计命令2/3/202331.年份数据以1为增量,用产生向量的方法输入.

命令格式:x=a:h:b

t=78:87

2.分别以x和y代表变量职工工资总额和商品零售总额.

x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]

y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3.将变量t、x、y的数据保存在文件data中.savedatatxy

4.进行统计分析时,调用数据文件data中的数据.

loaddataToMATLAB(txy)方法12/3/202341.输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2.将矩阵data的数据保存在文件data1中:savedata1data3.进行统计分析时,先用命令:loaddata1

调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:

t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:

data(:,j)方法2ToMATLAB(data)返回2/3/20235基本统计量2/3/202362/3/20237二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)

方差:var(x)偏度:skewness(x)

峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量.ToMATLAB(tjl)返回2/3/20238三、常见概率分布的函数MATLAB工具箱对每一种分布都提供5类函数,其命令字符为:概率密度:pdf

概率分布:cdf逆概率分布:inv

均值与方差:stat随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)2/3/20239在MATLAB中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1.密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)ToMATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如下:2/3/202310ToMATLAB(liti3)2.概率分布:P=normcdf(x,mu,sigma)4.均值与方差:[m,v]=normstat(mu,sigma)例5求正态分布N(3,52)的均值与方差.

命令为:[m,v]=normstat(3,5)

结果为:m=3,v=25ToMATLAB(liti5)2/3/2023111.给出数组data的频数表的命令为:

[N,X]=hist(data,k)

此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2.描绘数组data的频数直方图的命令为:

hist(data,k)四、数直方图的描绘返回2/3/202312五、参数估计1.正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.2/3/2023132.其它分布的参数估计有两种处理办法:一、取容量充分大的样本(n>50),按中心极限定理,它近似地服从正态分布;二、使用MATLAB工具箱中具有特定分布总体的估计命令.(1)[muhat,muci]=expfit(X,alpha)──在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)[lambdahat,lambdaci]=poissfit(X,alpha)──在显著性水平alpha下,求泊松分布的数据X的参数的点估计及其区间估计.(3)[phat,pci]=weibfit(X,alpha)──在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计.返回2/3/202314六、假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.1.总体方差已知时,总体均值的检验使用z检验

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci

为均值的1-alpha置信区间.2/3/202315

例7MATLAB统计工具箱中的数据文件gas.mat.中提供了美国1993年1月份和2月份的汽油平均价格(price1,price2分别是1、2月份的油价,单位为美分),它是容量为20的双样本.假设1月份油价的标准偏差是每加仑4分币(=4),试检验1月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:

loadgas然后用以下命令检验

[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115

是合理的.2.sig值为0.8668,远超过0.5,不能拒绝零假设

3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..

ToMATLAB(liti7)2/3/2023162.总体方差未知时,总体均值的检验使用t检验

[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci

为均值的1-alpha置信区间.2/3/202317返回:h=1,sig=4.9517e-004,ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为[116.8120.2],它不包括

115,故不能接受假设.3.sig值为4.9517e-004,远小于0.5,不能接受零假设.

ToMATLAB(liti8)例8试检验例8中2月份油价price2的均值是否等于115.解作假设:m=115,price2为2月份的油价,不知其方差,故用以下命令检验[h,sig,ci]=ttest(price2,115)2/3/2023183.两总体均值的假设检验使用t

检验

[h,sig,ci]=ttest2(x,y,alpha,tail)检验数据x,y的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于y的均值”tail=1,检验假设“x的均值大于y的均值”tail=-1,检验假设“x的均值小于y的均值”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci

为与x与y均值差的的1-alpha置信区间.2/3/202319返回:h=1,sig=0.0083,ci=[-5.8,-0.9].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.3.sig-值为0.0083,远小于0.5,不能接受“油价均相同”假设.ToMATLAB(liti9)例9试检验例8中1月份油价price1与2月份的油价price2均值是否相同.解用以下命令检验[h,sig,ci]=ttest2(price1,price2)2/3/2023204.非参数检验:总体分布的检验MATLAB工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回2/3/202321分布函数的近似求法2/3/2023222/3/2023232/3/202324返回F(10,50)分布的密度函数曲线2/3/202325例10

一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:

459362624542509584433748815505612452434982640742565706593680926653164487734608428115359384452755251378147438882453886265977585975549697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851试观察该刀具出现故障时完成的零件数属于哪种分布.2/3/202326解1.数据输入ToMATLAB(liti101)2.作频数直方图

hist(x,10)

3.分布的正态性检验

normplot(x)4.参数估计:

[muhat,sigmahat,muci,sigmaci]=normfit(x)(看起来刀具寿命服从正态分布)(刀具寿命近似服从正态分布)估计出该刀具的均值为594,方差204,均值的0.95置信区间为[553.4962,634.5038],方差的0.95置信区间为[179.2276,237.1329].ToMATLAB(liti104)ToMATLAB(liti102)ToMATLAB(liti103)2/3/2023275.假设检验ToMATLAB(liti105)已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值m是否等于594.结果:h=0,sig=1,ci=[553.4962,634.5038].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设寿命均值594是合理的.2.95%的置信区间为[553.5,634.5],它完全包括594,且精度很高.3.sig值为1,远超过0.5,不能拒绝零假设.

返回2/3/202328第五讲

概率模型1轧钢中的浪费2随机存储策略2/3/202329确定性因素和随机性因素随机因素可以忽略随机因素影响可以简单地以平均值的作用出现随机因素影响必须考虑概率模型统计回归模型马氏链模型随机模型确定性模型随机性模型2/3/2023301轧钢中的浪费轧制钢材两道工序

粗轧(热轧)~形成钢材的雏形

精轧(冷轧)~得到钢材规定的长度粗轧钢材长度正态分布均值可以调整方差由设备精度确定粗轧钢材长度大于规定切掉多余部分粗轧钢材长度小于规定整根报废随机因素影响精轧问题:如何调整粗轧的均值,使精轧的浪费最小背景2/3/202331分析设已知精轧后钢材的规定长度为l,粗轧后钢材长度的均方差为记粗轧时可以调整的均值为m,则粗轧得到的钢材长度为正态随机变量,记作x~N(m,2)切掉多余部分的概率整根报废的概率存在最佳的m使总的浪费最小lP0p(概率密度)mxP´mPP´2/3/202332建模选择合适的目标函数切掉多余部分的浪费整根报废的浪费总浪费=+粗轧一根钢材平均浪费长度粗轧N根成品材

PN根成品材长度lPN总长度mN共浪费长度mN-lPN2/3/202333选择合适的目标函数粗轧一根钢材平均浪费长度得到一根成品材平均浪费长度更合适的目标函数优化模型:求m使J(m)最小(已知l,

)建模粗轧N根得成品材

PN根2/3/202334求解求z使J(z)最小(已知

)2/3/202335求解2/3/202336例设l=2(米),=20(厘米),求m使浪费最小。=l/=10z*=-1.78*=-z*=11.78m*=*=2.36(米)求解1.2530.8760.6560.5160.4200.3550227.0-3.00.556.79-2.51.018.10-2.01.57.206-1.52.02.53.4771.680-1.0-0.5zzF(z)F(z)1.02.00-1.0-2.0105F(z)z2/3/2023372随机存贮策略问题以周为时间单位;一周的商品销售量为随机;周末根据库存决定是否订货,供下周销售。(s,S)存贮策略制订下界s,上界S,当周末库存小于s时订货,使下周初的库存达到S;否则,不订货。考虑订货费、存贮费、缺货费、购进费,制订(s,S)存贮策略,使(平均意义下)总费用最小2/3/202338模型假设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论