数学建模概率统计建模的理论与方法_第1页
数学建模概率统计建模的理论与方法_第2页
数学建模概率统计建模的理论与方法_第3页
数学建模概率统计建模的理论与方法_第4页
数学建模概率统计建模的理论与方法_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率统计建模的基本原理及方法1数据的统计描述及分析参数估计假设检验主要内容随机变量及其分布2一、随机变量及其分布

1.二项分布例1.能量供应问题假定有

个工人间歇性地使用电力,估计所需要的总负荷。首先我们要知道,或者是假定,每个工人彼此独立工作,而每一时刻每个工人都以相同的概率p需要一个单位的电力。那么,同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。用X表示这个随机变量,记做,且

这是非常重要的一类概率分布。其中E(X)=np,D(X)=np(1-p)。

3

其次,要根据经验来估计出,p值是多少?例如,一个工人在一个小时里有12分钟在使用电力,那么应该有最后,利用公式我们求出随机变量X的概率分布表如下:X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累积概率0.1073740.375810.67780.8791260.9672070.9936310.9991360.9999220.99999611为直观计,我们给出如下概率分布图:4可以看出,

也就是说,如果供应6个单位的电力,则超负荷工作的概率只有0.000864,即每中,才可能有一分钟电力不够用。还可以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的1/11还要小。

问题:二项分布是一个重要的用来计数的分布。什么样的随机变量会服从二项分布?

进行n次独立观测,在每次观测中所关心的事件出现的概率都是p,那么在这n次观测中事件A出现的总次数是一个服从二项分布B(n,p)。5练习:用MATLAB计算本题binopdf(x,n,p)计算x中每个值对应的二项分布概率binocdf(x,n,p)

计算x中每个值对应的分布函数值

例如binopdf(0:10,10,0.2)62.Poisson分布例2.Rutherford对裂变物质的观测英国著名物理学家Rutherford(1871-1937)在其放射性物质试验中,观测在时间间隔ΔT内放射性物质放射出的α粒子数。实际试验时,取时间间隔为ΔT=7.5秒,观测了N=2608次,将每次观测到的粒子数记录下来,列在下表中第1,2行:粒子数X0123456789>=10频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.0065477我们用X表示ΔT=7.5秒内观测到的α粒子数,它是一个随机变量,服从什么分布呢?在2608次观测中,共观测到10094个α粒子数,平均每次观测到

λ=M÷N=10094÷2608≈3.87个α粒子数,用参数为λ=3.87的Poisson分布P计算一下:

将计算结果列在上表中最后一行,与列在第3行的实际频率比较,比较的图示在下图中。(Excel)8可以看出,认为X服从参数为3.87的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson-拟合检验法来证明这种合理性9问题:Poisson分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数

。什么样的随机变量会服从Poisson分布呢?练习:用MATLAB计算本题poisspdf(x,λ),计算poisson概率,例如,poisspdf(0:9,3.87)10在给定的观测范围内(例如给定时间内,给定区域内等等),事件会发生多少次?把观测范围分成n个小范围:给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小;2.在不同的小范围内发生多少事件相互独立;3.在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数X近似服从,

为给定范围内事件发生次数的近似平均值。令,则为给定范围内事件发生次数的准确平均值,这时这正是Poisson分布,其中参数

113.正态分布则称此随机变量服从参数为的正态分布,记做

,其中都是给定的参数,

。称为标准正态分布,用表示其分布函数,其密度函数为时,我们有随机变量X如果有密度函数12大量连续型随机变量服从正态分布,所以正态分布在处理数据时是非常有用处的。我们在统计部分会大量用到它。下面是正态分布的密度函数图像:134.指数分布

称随机变量X服从参数为1的指数分布或标准指数分布,若它有密度函数它的分布函数为14设是给定常数,则Y的分布函数为其密度函数为这是一般的指数分布。15b=0的指数分布的密度函数图像如下所示(指数密度):可见,随着的减小,随机变量取到较大值的概率增加事实上,随机变量的数学期望。

指数随机变量经常用来刻画寿命。

165.

多维随机变量我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设是n元随机变量,它的分布函数是一个n元函数:

利用这个分布函数就可以讨论这n个随机变量之间各种各样的关系。17(1)边际分布与独立性相互独立当且仅当(2)相关系数两个随机变量X,Y之间的相关系数定义为其中相关系数刻画了随机变量之间的线性相关程度,越接近于0,线性相关关系越弱。18

19综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:1.数据是哪个或哪些指标的取值?2.这个或这些指标是不是随机变量或随机向量?3.如果是,那么它服从什么分布?4.用统计方法确定分布?5.分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。20二、

数据的统计描述与分析1.经验分布函数和频率直方图当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做样本,而这个随机变量就叫做总体。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。21

在例2,我们确定所讨论的指标—在时间间隔ΔT秒内放射出的α粒子数X,是一个随机变量。且有该随机变量的n=2608个观测值,这就是一个容量为2608的样本。在没有其他信息的情况下,首先应该给出该样本的经验分布函数:例6.例2续(经验分布函数)在这里我们可求出这个经验分布函数如下:2223这个函数的图像如下(Poisson2):如果熟悉Poisson分布的分布函数图像的话,就可以从这个图像判断出,X可能服从参数为3.87的Poisson分布。从这个经验分布函数容易解决概率计算问题:24当然,由于是离散型的随机变量,我们可能更熟悉如下频率分布图像:也就是说,对于离散型随机变量,我们更常用的方法是绘制这种频率分布图。为了判断分布的类型,对于离散型随机变量,要绘制频率分布图!作业:用MATLAB计算本例。25例7、超市问题(频率直方图)随机抽取某大学超市137位顾客的购买金额的实际记录(单位:元),数据如下。请问购买金额服从什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33

4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.7626

用X表示顾客的购买金额,那么它应该是一个连续型的随机变量。对于连续型的随机变量,我们一般就不作它的经验分布函数了,而是改作它的频率直方图。一般认为,X应该服从正态分布,数学期望为其实不然,其频率直方图如下图所示:(超市)27它很像参数为的指数分布密度函数,如图中红色曲线所示。所以我们就认为X的分布是这样的一个指数分布。例如,给定可以求出表明该店顾客一次消费金额在20元以下的人数占到近七成。这是什么原因呢?原来这是一家小型社区超市,人们只来买日用品,不在这里买大件。这对超市的经营管理是一个重要信息。对于连续型随机变量,要绘制频率直方图!作业:1、用Excel完成本例;2、经验分布函数。28

经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。如果知道了这些参数,就可以把分布完全确定下来。那么,如何确定这未知参数呢?(参数估计)292.常用统计量及其分布30313.几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.4(1)正态分布),(2smN密度函数:222)(21)(smsp--=xexp分布函数:dyexFyx222)(21)(smsp--¥-ò=其中m为均值,2s为方差,+¥<<¥-x.标准正态分布:N(0,1)密度函数2221)(xex-=pjdyexyx2221)(-¥-ò=Fp

分布函数323334返回F分布F(10,50)的密度函数曲线35三、

参数估计361.点估计的求法(一)矩估计法37(二)极大似然估计法382.区间估计的求法391、已知DX,求EX的置信区间2.未知方差DX,求EX的置信区间(一)数学期望的置信区间(二)方差的区间估计返回401.参数检验:如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.

参数检验的目的往往是对总体的参数及其有关性质作出明确的判断.

对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验:如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型,这种检验叫非参数检验.

如要求判断总体分布类型的检验就是非参数检验.四、

假设检验41假设检验的一般步骤是:42(一)单个正态总体均值检验1、参数检验4344(二)单个正态总体方差检验45(三)两个正态总体均值检验46(四)两个正态总体方差检验47例9、续例2(离散型)例2中认为在时间间隔内放射性物质放射出的α粒子数X服从Poisson分布,是否合理?我们现在解决这个问题。这是一个非参数假设检验问题,原假设为

H0:X服从Poisson分布当然其对立假设就是X不服从Poisson分布。2.非参数检验48检验的第一步要解决的问题是,如果H0成立,那么它服从参数为多少的Poisson分布?要先估计未知参数。因为这时所以用点估计法有,可知如果H0成立,那么

检验的第二步要解决的问题是,观测数据是否支持原假设?如果原假设成立,那么X的分布如表中1、4行所示,我们可以计算出在总共N=2608次观测中X取每个值的理论频数Npk:粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理论概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理论频数Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.0748949505152(二)概率纸检验法概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.返回53五、MATLAB统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例返回541.数据的录入、保存和调用例1

上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令55(1)年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bt=78:87(2)分别以x和y代表变量职工工资总额和商品零售总额。

x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0](3)将变量t、x、y的数据保存在文件data中。

savedatatxy(4)进行统计分析时,调用数据文件data中的数据。

loaddataToMATLAB(txy)方法156(1)输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0](2)将矩阵data的数据保存在文件data1中:savedata1data(3)进行统计分析时,先用命令:loaddata1

调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:

t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:

data(:,j)方法2ToMATLAB(data)返回572.基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)

方差:var(x)偏度:skewness(x)

峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量。ToMATLAB(tjl)返回583.常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf

概率分布:cdf逆概率分布:inv均值与方差:stat随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)59在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)(1)密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)ToMATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如下:60ToMATLAB(liti3)(3)逆概率分布:x=norminv(P,mu,sigma).即求出x,使得P{X<x}=P.此命令可用来求分位数.(2)概率分布:P=normcdf(x,mu,sigma)ToMATLAB(liti4)61ToMATLAB(liti5)(4)均值与方差:[m,v]=normstat(mu,sigma)例5求正态分布N(3,52)的均值与方差.

命令为:[m,v]=normstat(3,5)

结果为:m=3,v=25(5)随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵.例6

命令:M=normrnd([123;456],0.1,2,3)

结果为:M=0.95672.01252.88543.83345.02886.1191ToMATLAB(liti6)此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32)返回62(1)给出数组data的频数表的命令为:

[N,X]=hist(data,k)

此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.(2)描绘数组data的频数直方图的命令为:

hist(data,k)4.频数直方图的描绘返回635.参数估计(1)正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.64(2)其它分布的参数估计有两种处理办法:a.取容量充分大的样本(n>50),按中心极限定理,它近似地服从正态分布;b.使用Matlab工具箱中具有特定分布总体的估计命令.(1)[muhat,muci]=expfit(X,alpha)-----

在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)[lambdahat,lambdaci]=poissfit(X,alpha)-----

在显著性水平alpha下,求泊松分布的数据X

的参数的点估计及其区间估计.(3)[phat,pci]=weibfit(X,alpha)-----

在显著性水平alpha下,求Weibull分布的数据X

的参数的点估计及其区间估计.返回656.假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.(1)总体方差sigma2已知时,总体均值的检验使用z-检验

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig

为假设成立的概率,ci

为均值的1-alpha置信区间.66

例7

Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:

loadgas然后用以下命令检验

[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115

是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设

3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..

ToMATLAB(liti7)67(2)总体方差sigma2未知时,总体均值的检验使用t-检验

[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig

为假设成立的概率,ci

为均值的1-alpha置信区间.68返回:h=1,sig=4.9517e-004,ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为[116.8120.2],它不包括

115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零假设.ToMATLAB(liti8)例8试检验例8中二月份油价Price2的均值是否等于115.解作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验[h,sig,ci]=ttest(price2,115)69(3)两总体均值的假设检验使用t-检验

[h,sig,ci]=ttest2(x,y,alpha,tail)检验数据x,y的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于y的均值”tail=1,检验假设“x的均值大于y的均值”tail=-1,检验假设“x的均值小于y的均值”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig

为假设成立的概率,ci

为与x与y均值差的的1-alpha置信区间.70返回:h=1,sig=0.0083,ci=[-5.8,-0.9].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.3.sig-值为0.0083,远小于0.5,不能接受“油价均相同”假设.ToMATLAB(liti9)例9试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.解用以下命令检验[h,sig,ci]=ttest2(price1,price2)71(4)非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回72例10

一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:

45936262454250958443374881550561245243498264074256570659368092665316448773460842811535938445275525137814743888245388626597758597554969751562895477160940296088561029283747367735863869963455557084416606106248412

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论