概率统计建模讲义_第1页
概率统计建模讲义_第2页
概率统计建模讲义_第3页
概率统计建模讲义_第4页
概率统计建模讲义_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容随机变量及其分布 经验分布函数和频率直方图 参数估计 假设检验 相关分析与回归分析简介 MATLAB例题例1能量供应问题 例2 放射性 例3正态分布 例4指数分布 例5 多元随机变量例6经验分布函数 例7超市问题 例8区间估计 例9 拟合检验1 例10拟合检验2 例11概率纸检验法 例12道德 例13肠癌 例14 J效应 Back Next 随机变量及其分布例1、能量供应问题(二项分布)假定有个工人间歇性地使用电力,估计所需要的总负荷。首先我们要知道,或者是假定,每个工人彼此独立工作,而每一时刻每个工人都以相同的概率p需要一个单位的电力。那么,同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。用X表示这个随机变量,记做,且有 这是非常重要的一类概率分布。其中E(X)np, D(X)=np(1-p)。 目录 Back Next其次,要根据经验来估计出,p值是多少?例如,一个工人在一个小时里有12分钟在使用电力,那么应该有。最后,利用公式我们求出随机变量X的概率分布表如下:X012345678910P0.0.0.301990.0.088080.0.0.0.0.0.累积概率0.0.375810.67780.0.0.0.0.0.11为直观计,我们给出如下概率分布图: 目录 Back Next可以看出,也就是说,如果供应6个单位的电力,则超负荷工作的概率只有0.,即每中,才可能有一分钟电力不够用。还可以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的还要小。问题:二项分布是一个重要的用来计数的分布。什么样的随机变量会服从二项分布? 目录 Back Next 进行n次独立观测,在每次观测中所关心的事件出现的概率都是p,那么在这n次观测中事件A出现的总次数是一个服从二项分布B(n,p)。作业:用MATLAB计算本题。binopdf(x,n,p) 计算x中每个值对应的二项分布概率binocdf(x,n,p) 计算x中每个值对应的分布函数值 binoinv(y,n,p) 计算使得分布函数值大于等于y的最小整数x:P(X=y binornd(n,p, mm, nn) 产生二项分布随机数,mm行nn列。再如,产生两行五列的随机数用binornd(10,0.2,2,5)例如binopdf(0:10,10,0.2), binoinv(0.9,10,0.2)=4,binoinv(0:10)/10,10,0.2)binornd(10,0.2,1,5)ans = 2 2 1 1 4目录 Back Next 例2、Rutherford 对裂变物质的观测 (Poisson分布)英国著名物理学家 Rutherford(18711937)在其放射性物质试验中,观测在时间间隔T内放射性物质放射出的粒子数。实际试验时,取时间间隔为T=7.5秒,观测了N2608次,将每次观测到的粒子数记录下来,列在下表中第1,2行:粒子数X012345678910频数n57203383525532408273139452716频率f0.0.0.0.0.0.0.0.0.0.0.概率p0.0.0.0.0.0.0.0.0.0.0. 目录 Back Next我们用X表示T=7.5秒内观测到的粒子数,它是一个随机变量,服从什么分布呢?在2608次观测中,共观测到10094个粒子数,平均每次观测到=MN1009426083.87个粒子数,用参数为=3.87的Poisson分布P计算一下: 将计算结果列在上表中最后一行,与列在第3行的实际频率比较,比较的图示在下图中。(Excel)可以看出,认为X服从参数为3.87的Poisson分布还是非常合理的。在后面统计部分,我们会用Pearson拟合检验法来证明这种合理性。 目录 Back Next作业:用MATLAB计算本题。poisspdf(x,),计算poisson概率,poisscdf, poissinv, poissrnd例如,poisspdf(0:9,3.87)问题:Poisson分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数。什么样的随机变量会服从Poisson分布呢? 目录 Back Next在给定的观测范围内(例如给定时间内,给定区域内,等等),事件会发生多少次?把观测范围分成n个小范围:1、 给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小;2、 在不同的小范围内发生多少事件相互独立;3、 在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数X近似服从,为给定范围内事件发生次数的近似平均值。令,则为给定范围内事件发生次数的准确平均值,这时这正是Poisson分布,其中参数。 目录 Back Next例3、正态分布随机变量X如果有密度函数则称此随机变量服从参数为的正态分布,记做,其中都是给定的参数,。称为标准正态分布,用表示其分布函数,其密度函数为时,我们有 目录 Back Next大量连续型随机变量服从正态分布,所以正态分布在处理数据时是非常有用处的。我们在统计部分会大量用到它。Matlab中用norm表示正态分布,参数是数学期望和标准差。下面是正态分布的密度函数图像:(正态密度图像) 目录 Back Next例4、指数分布称随机变量X服从参数为1的指数分布或标准指数分布,若它有密度函数它的分布函数为 设是给定常数,则Y的分布函数为其密度函数为这是一般的指数分布。 目录 Back Nextb0的指数分布的密度函数图像如下所示(指数密度):可见,随着的减小,随机变量取到较大值的概率增加。事实上,是随机变量的数学期望。 指数随机变量经常用来刻画寿命。 目录 Back Next 例5、 多元随机变量我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设是n元随机变量,它的分布函数是一个n元函数:利用这个分布函数就可以讨论这n个随机变量之间各种各样的关系。 目录 Back Next1、 边际分布与独立性相互独立当且仅当2、 相关系数两个随机变量之间的相关系数定义为其中相关系数刻画了随机变量之间的线性相关程度,越接近于0,线性相关关系越弱。 目录 Back Next定理:设二维随机变量(X,Y)的相关系数为,则(1)、(2)、在(X,Y)服从二元正态分布的条件下,X与Y独立的充要条件是;(3)、若,则几乎必然有其中是确定的常数;若,则几乎必然有其中是确定的常数。 目录 Back Next3、 条件分布在已知其中某些随机变量的取值的情况下,可以进一步确定其他随机变量的条件分布。例如,在有密度函数的情况下,我们还可以求条件密度函数,甚至利用Bayes定理,解决许多重要问题。目录 Back Next 综上所述,我们知道在概率论里学过许多分布,当然,还有许多分布我们没有学过。但是,在实践中我们可能会遇到各种各样的分布,甚至还有没被发现的分布。在处理数据的时候,我们要搞清楚:1、 数据是哪个或哪些指标的取值?2、 这个或这些指标是不是随机变量或随机向量? 3、 如果是,那么它服从什么分布?4、 用统计方法确定分布;5、 分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。目录 Back Next 经验分布函数和频率直方图当我们确定讨论的指标的确是随机变量后,剩下的关键任务就是确定它的分布。那么它的观测数据就是我们赖以解决问题的基本资料,叫做样本,而这个随机变量就叫做总体。这些数据反映了该随机变量分布的基本特征。我们可以利用这些数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。目录 Back Next 例6、例2续(经验分布函数)在例2,我们确定所讨论的指标在时间间隔T秒内放射出的粒子数X,是一个随机变量。且有该随机变量的n2608个观测值,这就是一个容量为2608的样本。在没有其他信息的情况下,首先应该给出该样本的经验分布函数:在这里我们可求出这个经验分布函数如下:目录 Back Next粒子数X012345678910频数n57203383525532408273139452716频率f0.0.0.0.0.0.0.0.0.0.0.概率p0.0.0.0.0.0.0.0.0.0.0.这个函数的图像如下(Poisson2):如果熟悉Poisson分布的分布函数图像的话,就可以从这个图像判断出,X可能服从参数为3.87的Poisson分布。从这个经验分布函数容易解决概率计算问题: 目录 Back Next当然,由于是离散型的随机变量,我们可能更熟悉如下频率分布图像:也就是说,对于离散型随机变量,我们更常用的方法是绘制这种频率分布图。为了判断分布的类型,对于离散型随机变量,要绘制频率分布图!作业:用MATLAB计算本例。目录 Back Next例7、超市问题(频率直方图)随机抽取某大学超市137位顾客的购买金额的实际记录(单位:元),数据如下。请问购买金额服从什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.76 目录 Back Next用X表示顾客的购买金额,那么它应该是一个连续型的随机变量。对于连续型的随机变量,我们一般就不作它的经验分布函数了,而是改作它的频率直方图。一般认为,X应该服从正态分布,数学期望为。其实不然,其频率直方图如下图所示:(超市)目录 Back Next它很像参数为的指数分布密度函数,如图中红色曲线所示。所以我们就认为X的分布是这样的一个指数分布。例如,给定,可以求出表明该店顾客一次消费金额在20元以下的人数占到近七成。这是什么原因呢?原来这是一家小型社区超市,人们只来买日用品,不在这里买大件。这对超市的经营管理是一个重要信息。对于连续型随机变量,要绘制频率直方图!作业:1、用Excel完成本例;2、经验分布函数。 目录 Back Next经验分布函数、频率分布图和频率直方图可以帮助我们了解随机变量的类型。当我们已经了解到随机变量的分布类型后,该随机变量的分布一般就取决于一个或几个参数了。如果知道了这些参数,就可以把分布完全确定下来。那么,如何确定这未知参数呢?数字特征计算:+ stat:计算均值和方差目录 Back Next 参数估计设随机变量X的分布形式已经知道,而其中的一个或几个参数未知,我们记这个分布为。注意,在应用中,X可能是离散型随机变量,也可能是连续型随机变量,未知参数是具体的,要写出分布的具体形式,例如写出概率分布列或密度函数,而不要抽象地记为。我们有样本,这就是大家在实际问题中拿到的数据。(相对于这个样本,我们一般把X叫做总体)。怎样利用样本估计参数呢?有两套理论,即点估计理论和区间估计理论。 目录 Back Next 点估计首先要掌握点估计方法。大家学过两种点估计方法矩估计法和极大似然估计法。这里就不具体讲这两种求法了,我们只讲一下几个重要的结果。1、 样本均值是总体均值的无偏估计,所以当总体的数学期望E(X)未知时,我们一般用样本均值作为E(X)的估计。目录 Back Next在例2中,根据例6的结果看,应该用Poisson分布,而这时,所以我们用作为的估计,得到具体的一个Poisson分布。为什么恰好取3.87而非其它的值?这个为什么的问题是一个物理问题,我们无能为力。但是,从统计角度看,我们选用Poisson分布合理吗?后面我们再解决这个问题。再如例7,我们利用频率直方图得到X应该服从指数分布的判断,而对于参数为的指数分布,因为,是无偏估计,所以在那里取。那么,用这个指数分布从统计角度来说合理吗?这个问题也留到后面解决。 目录 Back Next现在大家应该理解点估计的重要意义了吧,可以看出来,没有一个好的点估计量,就不可能得到一个至少是直观上合理的分布。下面我们再给出另一个重要的点估计量。2、 修正样本方差是总体方差的无偏估计量,所以当总体方差D(X)未知时,我们一般用作为D(X)的估计量。例如在很多情况下,我们会用到正态分布,那时我们不但要用来估计,而且还要用来估计,从而得到一个具体的正态分布。(注意,当样本容量n较大时, 与 没有多大区别,所以在应用中有时会直接使用。)Matlab里计算样本统计量的函数:geomean几何平均,harmmean调和平均,iqr四分位间距,mean均值,median中位数,std标准差,var无偏样本方差 目录 Back Next区间估计 区间估计 在一个或两个正态总体情况下的参数的区间估计问题在任何一本数理统计学的教材中都可以找到标准的求法。可是关于非正态总体的情况在实际问题中也是常碰到的。下面就通过一个例子来体会一下它的求法。目录 Back Next 例8、续例7(区间估计)我们讨论例7中的一个问题,求消费金额不超过20元的概率p的区间估计,置信水平为。 用Y表示消费金额不超过20元这个事件,对i1,2,137,记那么总体Y服从两点分布,。为其样本,而且由原始数据可得n137,还可得每个的取值即样本观测值。被估计量为,但是也未知。的样本方差为,用它来代替总体Y的方差。目录 Back Next我们知道利用关于二项分布的中心极限定理,当n较大时,近似地有 从而近似地有由此不难求出p的置信区间: 由,给定,可得p的置信度为的置信区间约为 。目录 Back Next一般情况下,我们总会想到正态总体的区间估计方法。但是,对于非正态总体,如果需要,我们也要设法作区间估计,方法有两类:象正态总体那样,构造枢轴变元,利用已知分布求区间估计,可参见教材中P265第16题的方法(作为习题,请同学们做这道题);另一类方法就是在大样本情况下用正态分布的方法求近似区间估计,如本例所示。综上所述,点估计和区间估计的理论与方法在实践中有重要应用,而我们在数理统计中也学过这些方法,所以在建模时,要在需要的时候充分利用。这些内容在数理统计的任何一本教材中都可以容易地查到,所以在建模的时候,这些问题不应该成为大家的拦路虎。Matlab函数:normfit(r): 样本r下正态总体参数的点估计和区间估计。例如先产生两列(每列100个)正态随机数(均值10,方差2*2=4):r=normrnd(10,2,100,2)。然后a,b,c,d=normfit(r,alpha)产生均值、标准差的点估计、区间估计,其中a,b放的是点估计,c,d放的是区间估计。 目录 Back Next假设检验 假设检验当然我们不会在这里讲数理统计课堂上作为重点学习过的那些正态总体未知参数的假设检验方法,这些应该是大家必须熟练掌握的基本内容。在这里,我们要介绍两个很有用的非参数检验方法,一个方法用来解决前面提到的“总体服从某个分布是否合理”的问题,如例2及例6中认为X服从参数为3.87的Poisson分布,例7中认为X服从参数为的指数分布,这样作从统计角度看合理吗?也就是要检验总体分布是否为某给定分布。另一个方法是用来检验两个随机变量是否独立的所谓独立性检验方法。注意要掌握思想,揣摩何时需要做这些检验,需要的时候,可以在任何一本统计学的教材中找到具体步骤。所以我不要求大家记住具体步骤,而要理解其重要性。目录 Back Next拟合检验例9、续例2(离散型)例2中认为在时间间隔内放射性物质放射出的粒子数X服从Poisson分布,是否合理?我们现在解决这个问题。这是一个非参数假设检验问题,原假设为H0:X服从Poisson分布当然其对立假设就是X不服从Poisson分布。目录 Back Next检验的第一步要解决的问题是,如果H0成立,那么它服从参数为多少的Poisson分布?要先估计未知参数。因为这时,所以用点估计法有,。可知如果H0成立,那么。 检验的第二步要解决的问题是,观测数据是否支持原假设?如果原假设成立,那么X的分布如表中1、4行所示,我们可以计算出在总共N2608次观测中X取每个值的理论频数Npk:粒子数X012345678910频数n57203383525532408273139452716频率f0.0.0.0.0.0.0.0.0.0.0.理论概率pk0.0.0.0.0.0.0.0.0.0.0.理论频数Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489 目录 Back Next直观上看,表中的理论频数和实际频数之间相差不大,但是我们必须构造统计量来刻画这个差别,而且要利用统计量的分布给出小概率事件,用实际推断原理来严格检验原假设。构造统计量如下:。其中k表示X的取值情况数,我们更喜欢称之为X的取值的分组个数。本例中k11。这里要用到一个著名的定理,叫Pearson-Fisher定理: 若H0成立,不论总体服从什么分布,当样本容量时,由上式定义的统计量的极限分布为。其中的r为计算理论频数时所估计的未知参数的个数。 目录 Back Next 所以,当样本容量较大时,近似地有.显然,H0成立时,值不应该太大。所以,取为否定域,给定检验水平,H0成立时, 。很小时,是一个小概率事件。如果,则否定原假设,否则说明数据与原假设没有矛盾,接受原假设。 目录 Back Next 检验的第三步,具体计算。本例中,N2608 很大,k11,r1,可计算得 。我们取检验水平,可查表求得,所以不否定原假设,认为X服从Poisson分布.事实上,H0成立时可以求得(利用MATLAB,1-chi2cdf(12.,9)),这个概率还是相当大的,一般来说远远大于所要求的检验水平。可以看出来,只要检验水平没有超过0.1679,就可以接受原假设。换句话说,除非检验水平大于0.1679, 否则接受原假设。这是所谓p值判断法。 作业:用MATLAB完成本例计算。 目录 Back Next这个例子讲述了离散总体情况下的总体分布的2拟合检验。那么,对于连续(注意没有要求是连续型的)总体该如何处理?我们还是用例子来说明。 目录 Back Next例10、续例7(连续型)解决例7超市问题中遗留下来的问题,认为顾客的购买金额X服从参数为的指数分布,合理吗? 上一个问题中,总体X是离散型随机变量,我们把它的所有可能的取值分成了11个不同的情况,比较每一种情况下的理论与观测结果,构造统计量解决问题。本问题中,总体X不再是离散型随机变量,所有可能取值为全体正实数。 目录 Back Next我们要借用离散型的思想,将这X的无穷多个取值分成k个不同的情况(k不能太大也不能太小,一般在420之间),即将全体正实数分解成k个区间。怎样分?保证样本中的观测值在每个区间中的个数一般不少于5个(大部分区间上这样就可以了,在数据的最大最小值附近的区间上一般不一定要这样)。这样就可以统计每个区间中的观测值的个数,同时,在原假设成立的情况下计算每个区间中的理论频数。这样就把问题简化为离散型的数据结构,那里用到的统计量仍可以使用,那里的定理还成立,所有后面的步骤不再变化。 目录 Back Next 现在解决本例中的问题。原假设为.注意这里的原假设与上一个例子不同,参数认为是已知的,不要再去估计了。如果认为参数未知,则如上一题那样还要在下面估计,这涉及到用到的自由度问题。 目录 Back Next为了计算简便,再考虑到所有数据在0100之间,我们把区间0,72)分成9等分,把72,100)作为一个区间,依次得到10个区间。统计各个区间上观测值的频数,填入下表。区间分割0,8)8,16)16,24)24,32)32,40)40,48)48,56)56,64)64,72)72,100)频数nk51292114862321理论概率pk0.0.0.0.0.0.0.0.0.0.理论频数Npk50.9120531.9920720.1031512.63247.4.3.1.1.1.68113在原假设成立的情况下,计算如下概率:将计算结果也列在同一表中。利用所得概率可以计算出N137次观测中各个区间上观测值的理论频数,计算结果也列在表中。 目录 Back Next原假设成立时,。这里k10,r0。给定检验水平,可查表求得,否定域为。计算统计量的值,所以不否定原假设,认为.通过这两个例子大家应该清楚总体分布的Pearson拟合检验法了。这是一个几乎可以解决所有问题的通用方法。作业:还是自己完成计算。 另一种检验方法:K-S检验法:H=kstest(x,cdf,alpha)其中x是样本列向量,cdf=(x,x的原假设分布函数值)是n行两列的矩阵。例如cdf=y,expcdf(y,17.22),y是超市数据。h=kstest(y,cdf)得到h = 0,不否定原假设。 目录 Back Next例11、概率纸检验法概率纸是一张坐标纸。每一个分布都对应一张概率纸,其横坐标与普通坐标系的横坐标没有区别,但是其纵坐标的刻度依赖于分布函数F(x)。如果总体X的分布函数为F(x),那么在这个分布函数对应的概率纸上,函数yF(x)是一条直线。所以将观测数据构成的点点在概率纸上,除了两端的点外(因为在数据的两个极端附近,数据必然较少,经验分布函数与总体分布函数会有较大差距),应该呈直线状。常用的概率纸有正态概率纸、对数正态概率纸、威布尔(Weibull)分布概率纸等。在MATLAB中有专门的命令来处理,极易。 目录 Back Next用概率纸法检验例7中的数据,看总体是否服从正态分布。用MATLAB完成:h=normplot(x)可以看出总体显然不是正态分布的。 目录 Back Next再看看其Weibull分布概率图:h=weibplot(x)从此图看,用Weibull分布比较合理。 目录 Back Next 实际上指数分布是威布尔分布的一个特例,威布尔分布有两个参数,记为W(m,),其分布函数如下:其中m0叫形状参数,0叫刻度参数。更一般的形式:将上面的x改为x-r,r叫位置参数。m=1时即为指数分布。参见现代数学手册随机数学卷。 目录 Back next独立性检验独立性检验例12、中央民族大学教育学研究室的课题“学习成绩与道德的认识水平之间的关系”要研究的问题是,学生的学习成绩与道德认识水平有关系吗?他们将学生的学习成绩分为优、良、中、差四个等级,将道德认识水平分为好、中上、中下、差四档,随机调查了150名同学,调查结果如下表: B道德A学习 nij20810295401416002186260111233525514430n150从调查数据看,道德认识水平与学习成绩有没有关系?目录 Back Next 我们在这个例子里要为大家介绍独立性检验的概念。如果用X表示学习成绩,Y表示道德认识水平,都是量化的数量指标,那么(X,Y)是二元随机变量。我们要检验的是X与Y是否独立。所以原假设是。那么怎样检验呢?我们把X的取值范围分成四个部分,即所谓的优、良、中、差四个等级,分别用表示;将Y的取值范围也分为四个部分,即好、中上、中下、差四档,分别用表示。则原假设“”成立时,我们必有那么,表中调查数据支持上面的这些等式吗? 目录 Back Next我们用表中数据将上面等式中的各个概率一一估计出来,原假设成立的时候,应该有或构造如下统计量:若H0成立,则当时,这个统计量的分布收敛到。 目录 Back Next至少在样本容量n较大的时候,我们可以近似地认为,从而构造否定域。事实上,当H0成立时,不应该太大,所以给定检验水平,否定域为。 在本例中,rs4,我们取,查表得。统计量的观测值为因为所以否定原假设,认为道德认识水平与学习成绩有之间不独立,有显著的关系。作业:还是自己完成计算。 目录 Back next相关分析 相关分析与回归分析简介 在前面讨论了两个随机变量X与Y之间的独立性检验问题。我们要清楚,研究的对象是二元随机变量(X,Y),利用的是成对观测数据。如果数据否定了独立性假设,那么X与Y之间的关系应该怎样描述呢?这是一个非常复杂的问题。下面我们通过实例介绍一点处理这类问题思路。 目录 Back Next例13、下表是德国1955年至1995年男性与女性得肠癌的逐年病例数记录。从常识上看,在同一国家,男性与女性的生活饮食环境类似,所以两者犯病的可能性也应该有一定的关系。从统计的角度刻画两者的关系。女性男性女性男性女性男性393643561058889211368410196413846231099590801362699674443476911228910613865102584594476911581947513821104105019519312012968014186107475439526012379101591396510690571053901277199661398210739655860871283510292144441115171226563132101030314286110217641678112612981613953110398125714212951998913882110418459756012781981887197451128379861102208602133159869104448540132099952 目录 Back Next 分别用X和Y表示男性与女性得肠癌的病例数。我们简单地用上面的数据绘制一张散点图,可以看出来X与Y之间有密切关系,二者显然不独立。它们是什么样的关系呢?回顾一下概率论里学过的一个重要概念相关系数。我们可以用相关系数来刻画这种关系。所以,我们要学会利用样本估计、检验总体相关系数的方法。 目录 Back Next首先引入如下样本相关系数的概念:对二元总体(X,Y)的样本,定义样本相关系数为其中分别为X和Y的样本方差,叫X与Y之间的样本协方差。这是第三个重要统计量,与总体相关系数相对应。例如,利用本例中的数据可求得样本相关系数为。那么,怎样充分发挥这个统计量的作用呢?下面我们讲讲如何利用它对总体相关系数作假设检验和区间估计。 目录 Back Next 1、原假设为对立假设为 在原假设成立的情况下,可以证明下面的统计量服从自由度为n-2的t分布: 所以给定检验水平,可得原假设的否定域。(图) 本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间存在高显著相关性,而且是正相关。 目录 Back Next2、原假设为对立假设为 英国统计学家Fisher提出了如下统计量,其中如果原假设成立,那么当n充分大时,Z近似服从N (0,1)分布。所以给定检验水平,原假设的否定域为。本例中n41比较大,可用此统计量。我们检验一下原假设。计算统计量的值: 目录 Back Next查标准正态分布表易知,对于任给的一个检验水平,一般都有,所以否定原假设,认为。这个结果还提示我们,应该有那么是否会有呢?我们提出如下原假设,再做单边检验 目录 Back Next3、一般地,可以证明在成立的情况下,所以,成立时,给定检验水平,有,所以,还是用上面给的统计量Z,可得否定域本例中我们取查表得,而,否定原假设,认为男女患肠癌人数之间的相关系数比0.95还要大。那么,这个相关系数到底有多大呢?我们下面做一个区间估计。 目录 Back Next3、 区间估计 我们要对相关系数作区间估计,就要找一个枢轴变量。在n较大的时候,选用 即可,这时近似地。所以给定置信水平,有 目录 Back

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论