版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主要内容HYPERLINK随机变量及其分布HYPERLINK经验分布函数和频率直方图HYPERLINK参数估计HYPERLINK假设检验HYPERLINK相关分析与回归分析简介HYPERLINKMATLAB例题HYPERLINK例4指数分布HYPERLINK例5多元随机变量HYPERLINK例6经验分布函数HYPERLINK例7超市问题HYPERLINK例9拟合检验1HYPERLINK例10拟合检验2HYPERLINK例11概率纸检验法HYPERLINK例12道德HYPERLINK例13肠癌HYPERLINK例14J效应HYPERLINKBackHYPERLINK随机变量及其分布HYPERLINKBackHYPERLINKNext其次,要根据经验来估计出,p值是多少?例如,一个工人在一个小时里有12分钟在使用电力,那么应该有。最后,利用公式我们求出随机变量X的概率分布表如下:X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累积概率0.1073740.375810.67780.8791260.9672070.9936310.9991360.9999220.99999611为直观计,我们给出如下概率分布图:HYPERLINKBackHYPERLINKBackHYPERLINKBackHYPERLINKNextHYPERLINK粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547HYPERLINKBackHYPERLINK最后一行,与列在第3行的实际频率比较,比较的图示在下图中。(Excel)可以看出,认为X服从参数为3.87的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson-拟合检验法来证明这种合理性。HYPERLINKBackHYPERLINKNext在给定的观测范围内(例如给定时间内,给定区域内,等等),事件会发生多少次?把观测范围分成n个小范围:给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小;在不同的小范围内发生多少事件相互独立;在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数X近似服从,为给定范围内事件发生次数的近似平均值。令,则为给定范围内事件发生次数的准确平均值,这时这正是Poisson分布,其中参数。HYPERLINKNextHYPERLINKBackHYPERLINKNextb=0的指数分布的密度函数图像如下所示(指数密度):可见,随着的减小,随机变量取到较大值的概率增加。事实上,是随机变量的数学期望。指数随机变量经常用来刻画寿命。HYPERLINKNextHYPERLINKBackHYPERLINKNext边际分布与独立性相互独立当且仅当相关系数两个随机变量之间的相关系数定义为其中相关系数刻画了随机变量之间的线性相关程度,越接近于0,线性相关关系越弱。HYPERLINKNextHYPERLINKNext 条件分布在已知其中某些随机变量的取值的情况下,可以进一步确定其他随机变量的条件分布。例如,在有密度函数的情况下,我们还可以求条件密度函数,甚至利用Bayes定理,解决许多重要问题。HYPERLINKNext综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:数据是哪个或哪些指标的取值?这个或这些指标是不是随机变量或随机向量?如果是,那么它服从什么分布?用统计方法确定分布;分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。HYPERLINK经验分布函数和频率直方图当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做样本,而这个随机变量就叫做总体。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。HYPERLINKNextHYPERLINK粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547这个函数的图像如下(Poisson2):如果熟悉Poisson分布的分布函数图像的话,就可以从这个图像判断出,X可能服从参数为3.87的Poisson分布。从这个经验分布函数容易解决概率计算问题:HYPERLINKNext用X表示顾客的购买金额,那么它应该是一个连续型的随机变量。对于连续型的随机变量,我们一般就不作它的经验分布函数了,而是改作它的频率直方图。一般认为,X应该服从正态分布,数学期望为。其实不然,其频率直方图如下图所示:(超市)HYPERLINKNext它很像参数为的指数分布密度函数,如图中HYPERLINK红色曲线所示。所以我们就认为X的分布是这样的一个指数分布。例如,给定,可以求出表明该店顾客一次消费金额在20元以下的人数占到近七成。这是什么原因呢?原来这是一家小型社区超市,人们只来买日用品,不在这里买大件。这对超市的经营管理是一个重要信息。对于连续型随机变量,要绘制频率直方图!作业:1、用Excel完成本例;2、经验分布函数。HYPERLINKNext经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。如果知道了这些参数,就可以把分布完全确定下来。那么,如何确定这未知参数呢?数字特征计算:+stat:计算均值和方差HYPERLINK参数估计设随机变量X的分布形式已经知道,而其中的一个或几个参数未知,我们记这个分布为。注意,在应用中,X可能是离散型随机变量,也可能是连续型随机变量,未知参数是具体的,要写出分布的具体形式,例如写出概率分布列或密度函数,而不要抽象地记为。我们有样本,这就是大家在实际问题中拿到的数据。(相对于这个样本,我们一般把X叫做总体)。怎样利用样本估计参数呢?有两套理论,即HYPERLINK点估计理论和HYPERLINK区间估计理论。HYPERLINKNext在例2中,根据例6的结果看,应该用Poisson分布,而这时,所以我们用作为的估计,得到具体的一个Poisson分布。为什么恰好取3.87而非其它的值?这个为什么的问题是一个物理问题,我们无能为力。但是,从统计角度看,我们选用Poisson分布合理吗?后面我们再解决这个问题。再如例7,我们利用频率直方图得到X应该服从指数分布的判断,而对于参数为的指数分布,因为,是无偏估计,所以在那里取。那么,用这个指数分布从统计角度来说合理吗?这个问题也留到后面解决。HYPERLINKNext现在大家应该理解点估计的重要意义了吧,可以看出来,没有一个好的点估计量,就不可能得到一个至少是直观上合理的分布。下面我们再给出另一个重要的点估计量。修正样本方差是总体方差的无偏估计量,所以当总体方差D(X)未知时,我们一般用作为D(X)的估计量。例如在很多情况下,我们会用到正态分布,那时我们不但要用来估计,而且还要用来估计,从而得到一个具体的正态分布。(注意,当样本容量n较大时,与没有多大区别,所以在应用中有时会直接使用。)Matlab里计算样本统计量的函数:geomean几何平均,harmmean调和平均,iqr四分位间距,mean均值,median中位数,std标准差,var无偏样本方差HYPERLINKNextHYPERLINKNext我们知道利用关于二项分布的中心极限定理,当n较大时,近似地有从而近似地有由此不难求出p的置信区间:由,给定,,可得p的置信度为的置信区间约为。HYPERLINKNext一般情况下,我们总会想到正态总体的区间估计方法。但是,对于非正态总体,如果需要,我们也要设法作区间估计,方法有两类:象正态总体那样,构造枢轴变元,利用已知分布求区间估计,可参见教材中P265第16题的方法(作为习题,请同学们做这道题);另一类方法就是在大样本情况下用正态分布的方法求近似区间估计,如本例所示。综上所述,点估计和区间估计的理论与方法在实践中有重要应用,而我们在数理统计中也学过这些方法,所以在建模时,要在需要的时候充分利用。这些内容在数理统计的任何一本教材中都可以容易地查到,所以在建模的时候,这些问题不应该成为大家的拦路虎。Matlab函数:normfit(r):样本r下正态总体参数的点估计和区间估计。例如先产生两列(每列100个)正态随机数(均值10,方差2*2=4):r=normrnd(10,2,100,2)。然后[a,b,c,d]=normfit(r,alpha)产生均值、标准差的点估计、区间估计,其中a,b放的是点估计,c,d放的是区间估计。HYPERLINK假设检验当然我们不会在这里讲数理统计课堂上作为重点学习过的那些正态总体未知参数的假设检验方法,这些应该是大家必须熟练掌握的基本内容。在这里,我们要介绍两个很有用的非参数检验方法,HYPERLINK一个方法用来解决前面提到的“总体服从某个分布是否合理”的问题,如例2及例6中认为X服从参数为3.87的Poisson分布,例7中认为X服从参数为的指数分布,这样作从统计角度看合理吗?也就是要检验总体分布是否为某给定分布。HYPERLINK另一个方法是用来检验两个随机变量是否独立的所谓独立性检验方法。注意要掌握思想,揣摩何时需要做这些检验,需要的时候,可以在任何一本统计学的教材中找到具体步骤。所以我不要求大家记住具体步骤,而要理解其重要性。HYPERLINKNext检验的第一步要解决的问题是,如果H0成立,那么它服从参数为多少的Poisson分布?要先估计未知参数。因为这时,所以用点估计法有,。可知如果H0成立,那么。检验的第二步要解决的问题是,观测数据是否支持原假设?如果原假设成立,,那么X的分布如表中1、4行所示,我们可以计算出在总共N=2608次观测中X取每个值的理论频数Npk:粒子数X012345678910频数n57203383525532408273139452716频率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理论概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理论频数Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489HYPERLINKNext直观上看,表中的理论频数和实际频数之间相差不大,但是我们必须构造统计量来刻画这个差别,而且要利用统计量的分布给出小概率事件,用实际推断原理来严格检验原假设。构造统计量如下:。其中k表示X的取值情况数,我们更喜欢称之为X的取值的分组个数。本例中k=11。这里要用到一个著名的定理,叫Pearson-Fisher定理:若H0成立,不论总体服从什么分布,当样本容量时,由上式定义的统计量的极限分布为。其中的r为计算理论频数时所估计的未知参数的个数。HYPERLINKNext所以,当样本容量较大时,近似地有.显然,H0成立时,值不应该太大。所以,取为HYPERLINK否定域,给定检验水平α,H0成立时,。很小时,是一个小概率事件。如果,则否定原假设,否则说明数据与原假设没有矛盾,接受原假设。HYPERLINKNext检验的第三步,具体计算。本例中,N=2608很大,k=11,r=1,可计算得。我们取检验水平,可查表求得,,所以不否定原假设,认为X服从Poisson分布.事实上,H0成立时可以求得(利用MATLAB,=1-chi2cdf(12.8849381,9)),这个概率还是相当大的,一般来说远远大于所要求的检验水平。可以看出来,只要检验水平没有超过0.1679,就可以接受原假设。换句话说,除非检验水平大于0.1679,否则接受原假设。这是所谓p值判断法。作业:用MATLAB完成本例计算。HYPERLINKNext这个例子讲述了离散总体情况下的总体分布的χ2拟合检验。那么,对于连续(注意没有要求是连续型的)总体该如何处理?我们还是用例子来说明。HYPERLINKNextHYPERLINKNext我们要借用离散型的思想,将这X的无穷多个取值分成k个不同的情况(k不能太大也不能太小,一般在4~20之间),即将全体正实数分解成k个区间。怎样分?保证样本中的观测值在每个区间中的个数一般不少于5个(大部分区间上这样就可以了,在数据的最大最小值附近的区间上一般不一定要这样)。这样就可以统计每个区间中的观测值的个数,同时,在原假设成立的情况下计算每个区间中的理论频数。这样就把问题简化为离散型的数据结构,那里用到的统计量仍可以使用,那里的定理还成立,所有后面的步骤不再变化。HYPERLINKNext现在解决本例中的问题。原假设为.注意这里的原假设与上一个例子不同,参数认为是已知的,不要再去估计了。如果认为参数未知,则如上一题那样还要在下面估计,这涉及到用到的自由度问题。HYPERLINKNext为了计算简便,再考虑到所有数据在0~100之间,我们把区间[0,72)分成9等分,把[72,100)作为一个区间,依次得到10个区间。统计各个区间上观测值的频数,填入下表。区间分割[0,8)[8,16)[16,24)[24,32)[32,40)[40,48)[48,56)[56,64)[64,72)[72,100)频数nk51292114862321理论概率pk0.3716210.2335190.1467380.0922070.0579410.0364090.0228790.0143760.0090340.012271理论频数Npk50.9120531.9920720.1031512.63247.9379394.9880353.1343771.9695781.2376411.68113在原假设成立的情况下,,计算如下概率:将计算结果也列在同一表中。利用所得概率可以计算出N=137次观测中各个区间上观测值的理论频数,计算结果也列在表中。HYPERLINKNext原假设成立时,。这里k=10,r=0。给定检验水平,可查表求得,否定域为。计算统计量的值,,所以不否定原假设,认为.通过这两个例子大家应该清楚总体分布的Pearson-拟合检验法了。这是一个几乎可以解决所有问题的通用方法。作业:还是自己完成计算。另一种检验方法:K-S检验法:H=kstest(x,cdf,alpha)其中x是样本列向量,cdf=(x,x的原假设分布函数值)是n行两列的矩阵。例如cdf=[y',expcdf(y',17.22)],y是超市数据。h=kstest(y,cdf)得到h=0,不否定原假设。HYPERLINKNextHYPERLINKNext用概率纸法检验例7中的数据,看总体是否服从正态分布。用MATLAB完成:h=normplot(x)可以看出总体显然不是正态分布的。HYPERLINKNext再看看其Weibull分布概率图:h=weibplot(x)从此图看,用Weibull分布比较合理。HYPERLINKNext实际上指数分布是威布尔分布的一个特例,威布尔分布有两个参数,记为W(m,η),其分布函数如下:其中m>0叫形状参数,η>0叫刻度参数。更一般的形式:将上面的x改为x-r,r叫位置参数。m=1时即为指数分布。参见现代数学手册随机数学卷。HYPERLINKNext我们在这个例子里要为大家介绍独立性检验的概念。如果用X表示学习成绩,Y表示道德认识水平,都是量化的数量指标,那么(X,Y)是二元随机变量。我们要检验的是X与Y是否独立。所以原假设是。那么怎样检验呢?我们把X的取值范围分成四个部分,即所谓的优、良、中、差四个等级,分别用表示;将Y的取值范围也分为四个部分,即好、中上、中下、差四档,分别用表示。则原假设“”成立时,我们必有那么,表中调查数据支持上面的这些等式吗?HYPERLINKNext我们用表中数据将HYPERLINK上面等式中的各个概率一一估计出来,原假设成立的时候,HYPERLINKNext至少在样本容量n较大的时候,我们可以近似地认为,从而构造否定域。事实上,当H0成立时,不应该太大,所以给定检验水平,否定域为。在本例中,r=s=4,我们取,查表得。统计量的观测值为因为所以否定原假设,认为道德认识水平与学习成绩有之间不独立,有显著的关系。作业:还是自己完成计算。HYPERLINK相关分析与回归分析简介在前面讨论了两个随机变量X与Y之间的独立性检验问题。我们要清楚,研究的对象是二元随机变量(X,Y),利用的是成对观测数据。如果数据否定了独立性假设,那么X与Y之间的关系应该怎样描述呢?这是一个非常复杂的问题。下面我们通过实例介绍一点处理这类问题思路。HYPERLINKNextHYPERLINKNext分别用X和Y表示男性与女性得肠癌的病例数。我们简单地用上面的数据绘制一张散点图,可以看出来X与Y之间有密切关系,二者显然不独立。它们是什么样的关系呢?回顾一下概率论里学过的一个重要概念——HYPERLINKNext首先引入如下样本相关系数的概念:对二元总体(X,Y)的样本,定义样本相关系数为其中分别为X和Y的样本方差,叫X与Y之间的样本协方差。这是第三个重要统计量,与总体相关系数相对应。例如,利用本例中的数据可求得样本相关系数为。那么,怎样充分发挥这个统计量的作用呢?下面我们讲讲如何利用它对总体相关系数作假设检验和区间估计。HYPERLINKNext1、原假设为对立假设为在原假设成立的情况下,可以证明下面的统计量服从自由度为n-2的t分布:.所以给定检验水平,可得原假设的否定域。(HYPERLINK图)本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间存在高显著相关性,而且是正相关。HYPERLINKNext 2、原假设为对立假设为英国统计学家Fisher提出了如下统计量,其中如果原假设成立,那么当n充分大时,Z近似服从N(0,1)分布。所以给定检验水平,原假设的否定域为。本例中n=41比较大,可用此统计量。我们检验一下原假设。计算统计量的值:HYPERLINKNext查标准正态分布表易知,对于任给的一个检验水平,一般都有,所以否定原假设,认为。这个结果还提示我们,应该有那么是否会有呢?我们提出如下原假设,再做单边检验HYPERLINKNext3、一般地,可以证明在成立的情况下,所以,成立时,给定检验水平,有,所以,还是用上面给的统计量Z,可得否定域本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间的相关系数比0.95还要大。那么,这个相关系数到底有多大呢?我们下面做一个区间估计。HYPERLINKNext区间估计我们要对相关系数作区间估计,就要找一个枢轴变量。在n较大的时候,选用即可,这时近似地。所以给定置信水平,有HYPERLINKNext所以的置信水平为的置信区间为.本例中,我们取,可得从而的置信水平为0.95的置信区间为[0.9898,0.9971],可见男女患肠癌人数之间的相关系数是非常高的。作业:完成计算!HYPERLINKNext但是要注意,这不说明两者之间有因果关系。我们也不会找一个由X计算Y或由Y计算X的公式,因为一般情况下这两个数总是同时观测到的。此例表明,相关系数可以刻画两个量之间的线性关系的强弱,但是为什么有这种关系,则不是统计学可以解决的问题。注:上面用到的Z,只有当样本容量n较大时才近似服从标准正态分布。一般当时我们用它。当时,统计学家建议用用如下的HYPERLINKHotelling统计量代替Z:其中。在进行区间估计时,其中的换成即可。它还是近似服从标准正态分布。HYPERLINKNextHYPERLINK\
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江警官职业学院《品牌形象专项设计一》2023-2024学年第一学期期末试卷
- 中国民用航空飞行学院《现代交换技术》2023-2024学年第一学期期末试卷
- 郑州旅游职业学院《当代资本主义》2023-2024学年第一学期期末试卷
- 小学预算编制收支审批制度
- 浙江传媒学院《应用程序设计实验》2023-2024学年第一学期期末试卷
- 漳州城市职业学院《长跑》2023-2024学年第一学期期末试卷
- 深度学习在元数据分析中的探索
- 双十二品牌提升策略模板
- 专业基础-房地产经纪人《专业基础》点睛提分卷3
- 2024-2025学年江苏省无锡市江阴市八年级(上)期末数学试卷
- 广东省惠州市2024-2025学年高一上学期期末考试英语试题(含答案)
- 医院骨科2025年带教计划(2篇)
- 2024-2025学年北京市东城区高一上学期期末考试数学试卷(含答案)
- 环境保护应急管理制度执行细则
- 2024-2030年中国通航飞行服务站(FSS)行业发展模式规划分析报告
- 机械制造企业风险分级管控手册
- 地系梁工程施工方案
- 藏文基础-教你轻轻松松学藏语(西藏大学)知到智慧树章节答案
- 2024电子商务平台用户隐私保护协议3篇
- 安徽省芜湖市2023-2024学年高一上学期期末考试 英语 含答案
- 医学教程 常见体表肿瘤与肿块课件
评论
0/150
提交评论