概率统计建模讲义_第1页
概率统计建模讲义_第2页
概率统计建模讲义_第3页
概率统计建模讲义_第4页
概率统计建模讲义_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计例举王晓谦wxqmath@263.net南京师范大学2014年4月主要内容HYPERLINK随机变量及其分布HYPERLINK经验分布函数和频率直方图HYPERLINK参数估计HYPERLINK假设检验HYPERLINK相关分析与回归分析简介HYPERLINKMATLAB例题HYPERLINK例4指数分布HYPERLINK例5多元随机变量HYPERLINK例6经验分布函数HYPERLINK例7超市问题HYPERLINK例9拟合检验1HYPERLINK例10拟合检验2HYPERLINK例11概率纸检验法HYPERLINK例12道德HYPERLINK例13肠癌HYPERLINK例14J效应HYPERLINKBackHYPERLINK随机变量及其分布HYPERLINK粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547我们用X表示ΔT=7.5秒内观测到的α粒子数,它是一个随机变量,服从什么分布呢?在2608次观测中,共观测到10094个α粒子数,平均每次观测到λ=M÷N=10094÷2608≈3.87个α粒子数,用参数为λ=3.87的Poisson分布P计算一下:将计算结果列在上表中HYPERLINK最后一行,与列在第3行的实际频率比较,比较的图示在下图中。(Excel)可以看出,认为X服从参数为3.87的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson-拟合检验法来证明这种合理性。HYPERLINKBackHYPERLINKNext在给定的观测范围内(例如给定时间内,给定区域内,等等),事件会发生多少次?把观测范围分成n个小范围:给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小;在不同的小范围内发生多少事件相互独立;在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数X近似服从,为给定范围内事件发生次数的近似平均值。令,则为给定范围内事件发生次数的准确平均值,这时这正是Poisson分布,其中参数。HYPERLINKBackHYPERLINKNextHYPERLINKNext综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:数据是哪个或哪些指标的取值?这个或这些指标是不是随机变量或随机向量?如果是,那么它服从什么分布?用统计方法确定分布;分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。HYPERLINK经验分布函数和频率直方图当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做样本,而这个随机变量就叫做总体。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。HYPERLINK红色曲线所示。所以我们就认为X的分布是这样的一个指数分布。例如,给定,可以求出表明该店顾客一次消费金额在20元以下的人数占到近七成。这是什么原因呢?原来这是一家小型社区超市,人们只来买日用品,不在这里买大件。这对超市的经营管理是一个重要信息。对于连续型随机变量,要绘制频率直方图!作业:1、用Excel完成本例;2、经验分布函数。经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。如果知道了这些参数,就可以把分布完全确定下来。那么,如何确定这未知参数呢?数字特征计算:+stat:计算均值和方差HYPERLINK参数估计设随机变量X的分布形式已经知道,而其中的一个或几个参数未知,我们记这个分布为。注意,在应用中,X可能是离散型随机变量,也可能是连续型随机变量,未知参数是具体的,要写出分布的具体形式,例如写出概率分布列或密度函数,而不要抽象地记为。我们有样本,这就是大家在实际问题中拿到的数据。(相对于这个样本,我们一般把X叫做总体)。怎样利用样本估计参数呢?有两套理论,即HYPERLINK点估计理论和HYPERLINK区间估计理论。点估计首先要掌握点估计方法。大家学过两种点估计方法——矩估计法和极大似然估计法。这里就不具体讲这两种求法了,我们只讲一下几个重要的结果。样本均值是总体均值的无偏估计,所以当总体的数学期望E(X)未知时,我们一般用样本均值作为E(X)的估计。在例2中,根据例6的结果看,应该用Poisson分布,而这时,所以我们用作为的估计,得到具体的一个Poisson分布。为什么恰好取3.87而非其它的值?这个为什么的问题是一个物理问题,我们无能为力。但是,从统计角度看,我们选用Poisson分布合理吗?后面我们再解决这个问题。再如例7,我们利用频率直方图得到X应该服从指数分布的判断,而对于参数为的指数分布,因为,是无偏估计,所以在那里取。那么,用这个指数分布从统计角度来说合理吗?这个问题也留到后面解决。HYPERLINKNext现在大家应该理解点估计的重要意义了吧,可以看出来,没有一个好的点估计量,就不可能得到一个至少是直观上合理的分布。下面我们再给出另一个重要的点估计量。修正样本方差是总体方差的无偏估计量,所以当总体方差D(X)未知时,我们一般用作为D(X)的估计量。例如在很多情况下,我们会用到正态分布,那时我们不但要用来估计,而且还要用来估计,从而得到一个具体的正态分布。(注意,当样本容量n较大时,与没有多大区别,所以在应用中有时会直接使用。)Matlab里计算样本统计量的函数:geomean几何平均,harmmean调和平均,iqr四分位间距,mean均值,median中位数,std标准差,var无偏样本方差区间估计在一个或两个正态总体情况下的参数的区间估计问题在任何一本数理统计学的教材中都可以找到标准的求法。可是关于非正态总体的情况在实际问题中也是常碰到的。下面就通过一个例子来体会一下它的求法。HYPERLINKNext我们知道利用关于二项分布的中心极限定理,当n较大时,近似地有从而近似地有由此不难求出p的置信区间:由,给定,,可得p的置信度为的置信区间约为。一般情况下,我们总会想到正态总体的区间估计方法。但是,对于非正态总体,如果需要,我们也要设法作区间估计,方法有两类:象正态总体那样,构造枢轴变元,利用已知分布求区间估计,可参见教材中P265第16题的方法(作为习题,请同学们做这道题);另一类方法就是在大样本情况下用正态分布的方法求近似区间估计,如本例所示。综上所述,点估计和区间估计的理论与方法在实践中有重要应用,而我们在数理统计中也学过这些方法,所以在建模时,要在需要的时候充分利用。这些内容在数理统计的任何一本教材中都可以容易地查到,所以在建模的时候,这些问题不应该成为大家的拦路虎。Matlab函数:normfit(r):样本r下正态总体参数的点估计和区间估计。例如先产生两列(每列100个)正态随机数(均值10,方差2*2=4):r=normrnd(10,2,100,2)。然后[a,b,c,d]=normfit(r,alpha)产生均值、标准差的点估计、区间估计,其中a,b放的是点估计,c,d放的是区间估计。HYPERLINK假设检验当然我们不会在这里讲数理统计课堂上作为重点学习过的那些正态总体未知参数的假设检验方法,这些应该是大家必须熟练掌握的基本内容。在这里,我们要介绍两个很有用的非参数检验方法,HYPERLINK一个方法用来解决前面提到的“总体服从某个分布是否合理”的问题,如例2及例6中认为X服从参数为3.87的Poisson分布,例7中认为X服从参数为的指数分布,这样作从统计角度看合理吗?也就是要检验总体分布是否为某给定分布。HYPERLINK另一个方法是用来检验两个随机变量是否独立的所谓独立性检验方法。注意要掌握思想,揣摩何时需要做这些检验,需要的时候,可以在任何一本统计学的教材中找到具体步骤。所以我不要求大家记住具体步骤,而要理解其重要性。HYPERLINKNext检验的第一步要解决的问题是,如果H0成立,那么它服从参数为多少的Poisson分布?要先估计未知参数。因为这时,所以用点估计法有,。可知如果H0成立,那么。检验的第二步要解决的问题是,观测数据是否支持原假设?如果原假设成立,,那么X的分布如表中1、4行所示,我们可以计算出在总共N=2608次观测中X取每个值的理论频数Npk:粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理论概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理论频数Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489直观上看,表中的理论频数和实际频数之间相差不大,但是我们必须构造统计量来刻画这个差别,而且要利用统计量的分布给出小概率事件,用实际推断原理来严格检验原假设。构造统计量如下:。其中k表示X的取值情况数,我们更喜欢称之为X的取值的分组个数。本例中k=11。这里要用到一个著名的定理,叫Pearson-Fisher定理:若H0成立,不论总体服从什么分布,当样本容量时,由上式定义的统计量的极限分布为。其中的r为计算理论频数时所估计的未知参数的个数。r是参数的个数所以,当样本容量较大时,近似地有.显然,H0成立时,值不应该太大。所以,取为HYPERLINK否定域,给定检验水平α,H0成立时,。很小时,是一个小概率事件。如果,则否定原假设,否则说明数据与原假设没有矛盾,接受原假设。检验的第三步,具体计算。本例中,N=2608很大,k=11,r=1,可计算得。我们取检验水平,可查表求得,,所以不否定原假设,认为X服从Poisson分布.事实上,H0成立时可以求得(利用MATLAB,=1-chi2cdf(12.8849381,9)),这个概率还是相当大的,一般来说远远大于所要求的检验水平。可以看出来,只要检验水平没有超过0.1679,就可以接受原假设。换句话说,除非检验水平大于0.1679,否则接受原假设。这是所谓p值判断法。作业:用MATLAB完成本例计算。这个例子讲述了离散总体情况下的总体分布的χ2拟合检验。那么,对于连续(注意没有要求是连续型的)总体该如何处理?我们还是用例子来说明。HYPERLINKNext再看看其Weibull分布概率图:h=weibplot(x)从此图看,用Weibull分布比较合理。实际上指数分布是威布尔分布的一个特例,威布尔分布有两个参数,记为W(m,η),其分布函数如下:其中m>0叫形状参数,η>0叫刻度参数。更一般的形式:将上面的x改为x-r,r叫位置参数。m=1时即为指数分布。参见现代数学手册随机数学卷。独立性检验HYPERLINKNext我们在这个例子里要为大家介绍独立性检验的概念。如果用X表示学习成绩,Y表示道德认识水平,都是量化的数量指标,那么(X,Y)是二元随机变量。我们要检验的是X与Y是否独立。所以原假设是。那么怎样检验呢?我们把X的取值范围分成四个部分,即所谓的优、良、中、差四个等级,分别用表示;将Y的取值范围也分为四个部分,即好、中上、中下、差四档,分别用表示。则原假设“”成立时,我们必有那么,表中调查数据支持上面的这些等式吗?HYPERLINKNext我们用表中数据将HYPERLINK上面等式中的各个概率一一估计出来,原假设成立的时候,HYPERLINK相关分析与回归分析简介在前面讨论了两个随机变量X与Y之间的独立性检验问题。我们要清楚,研究的对象是二元随机变量(X,Y),利用的是成对观测数据。如果数据否定了独立性假设,那么X与Y之间的关系应该怎样描述呢?这是一个非常复杂的问题。下面我们通过实例介绍一点处理这类问题思路。HYPERLINKNext1、原假设为对立假设为在原假设成立的情况下,可以证明下面的统计量服从自由度为n-2的t分布:.所以给定检验水平,可得原假设的否定域。(HYPERLINK图)本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间存在高显著相关性,而且是正相关。2、原假设为对立假设为英国统计学家Fisher提出了如下统计量,其中如果原假设成立,那么当n充分大时,Z近似服从N(0,1)分布。所以给定检验水平,原假设的否定域为。本例中n=41比较大,可用此统计量。我们检验一下原假设。计算统计量的值:查标准正态分布表易知,对于任给的一个检验水平,一般都有,所以否定原假设,认为。这个结果还提示我们,应该有那么是否会有呢?我们提出如下原假设,再做单边检验3、一般地,可以证明在成立的情况下,所以,成立时,给定检验水平,有,所以,还是用上面给的统计量Z,可得否定域本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间的相关系数比0.95还要大。那么,这个相关系数到底有多大呢?我们下面做一个区间估计。区间估计我们要对相关系数作区间估计,就要找一个枢轴变量。在n较大的时候,选用即可,这时近似地。所以给定置信水平,有所以的置信水平为的置信区间为.本例中,我们取,可得从而的置信水平为0.95的置信区间为[0.9898,0.9971],可见男女患肠癌人数之间的相关系数是非常高的。作业:完成计算!但是要注意,这不说明两者之间有因果关系。我们也不会找一个由X计算Y或由Y计算X的公式,因为一般情况下这两个数总是同时观测到的。此例表明,相关系数可以刻画两个量之间的线性关系的强弱,但是为什么有这种关系,则不是统计学可以解决的问题。注:上面用到的Z,只有当样本容量n较大时才近似服从标准正态分布。一般当时我们用它。当时,统计学家建议用用如下的HYPERLINKHotelling统计量代替Z:其中。在进行区间估计时,其中的换成即可。它还是近似服从标准正态分布。HYPERLINK\l"目录"例14、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论