第三节 常用连续型随机变量的理论分布_第1页
第三节 常用连续型随机变量的理论分布_第2页
第三节 常用连续型随机变量的理论分布_第3页
第三节 常用连续型随机变量的理论分布_第4页
第三节 常用连续型随机变量的理论分布_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节 事件与概率(一)概率的定义 n 研究随机试验,需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性。n 能够刻画事件发生可能性大小的数量指标称之为概率(probability)。事件A的概率记为P(A)。1概率的古典定义 (先验概率)n 随机试验具有以下特征,称为古典概型。1.试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;2.各试验的结果出现的可能性相等,即所有基本事件的发生是等可能的;3.试验的所有可能结果两两互不相容。对于古典概型,概率的定义:设样本空间由 n 个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(

2、A)=m/n 这样定义的概率称为古典概率2概率的统计定义(经验概率)n 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率;当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把 p称为随机事件A的概率(probability)。2概率的运算法则n 加法法则:互斥事件A和B的和事件的概率等于事件A和事件B的概率之和。即 P(A+B)=P(A)+P(B)。n 加法定理对于多个两两互斥的事件也成立。P(A+B+N)=P(A)+P(B)+P(N)P(A+B)=P(A)+P(B)-P(AB)乘法法则:n 如果A事件和 B事件为独立事件,则

3、事件A与B事件同时发生的概率等于两独立事件概率的乘积,即: P(AB)=P(A) P(B)n 乘法定理对于n个相互独立的事件也成立,即 P(A1A2 An)=P(A1) P(A2) P (An)书上例题第二节 常用离散变量的理论分布一、二项分布(一)贝努里试验及其概率函数:Ø 指只有两种可能结果的随机试验,我们将其中比较关注的结果称为“成功”,另一个结果称为“失败”。Ø 将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称n次试验是独立的对于n次独立的试验如果每次试验结果出现且只出现对立事件A与 之一, 在每次试验中出

4、现A的概率是常数p(0<p<1), 因而出现对立事件 的概率是1-p=q,则称这一串重复的独立试验为n重贝努里试验,简称贝努里试验Ø 在n重贝努里试验中,事件 A 可能发生0,1,2,n次,来求事件 A 恰好发生k(0kn)次的概率Pn(k)。Ø 例:抛掷4次硬币,正面朝上(A)出现2次的概率。先取n=4,k=2。在4次试验中,事件A发生2次的方式有以下C42种:一般,在n重贝努里试验中,事件A恰好发生k(0kn)次的概率为 k=0,1,2,n(二)二项分布的定义及性质1、二项分布的定义:Ø 设随机变量 x 所有可能取的值为零和正整数:0,1,2,,n

5、,且有:Ø k=0,1,2,nØ 其中p0,q0,p+q=1,则称随机变量x服从参数为n和p的二项分布 ,记为: B(x;n,p)。Ø 二项分布是一种离散型随机变量的概率分布。参数n称为正整数离散参数;p 是连续参数,它能取0与1之间的任何数值(q=1p)。2、二项分布的性质:容易验证,二项分布具有概率分布的一切性质,即:(1)P(x=k)= Pn(k) (k=0,1,,n)(2)二项分布的概率之和等于1,即(3)(4)(5)(m1<m2)3、二项分布的图形特征:二项分布的图形由n和p两个参数决定: (1)当p值较小且n不大时,分布是偏斜的。但随着n增大 ,

6、分布逐渐趋于对称; (2)当p值趋于0.5时,分布趋于对称;(3)对于固定n及p,当k增加时 ,概率P(X=k) 先是随之增加直至 达到最大值, 随后单调减少。Ø 此外,在n较大,np、nq较接近时 ,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。(n30,np5,nq5时,近似正态分布。)(三)二项分布概率计算及应用条件二项分布的应用条件有三:1.各观察单位只具有互相对立 的一种结果,属于二项分类资料;2.已知发生某一结果的概率为p,其对立结果的概率则为1p=q ,要求p是从大量观察中获得的稳定数值;3.n个观察单位的观察结果互相独立,即每个观察单位的结果不会影响到

7、其它观察单位的观察结果(四)二项分布的平均数与标准差Ø 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系:当试验结果以事件A发生次数k表示时 = np =三.几何分布(Geometry distribution) 在贝努里试验中,每次试验成功的概率为p,失败的概率为q=1-p, 设试验进行到第 次才出现成功。 (xi)的分布列为 P k=1.2 (k=1.2)是几何级数的 一般项。因此称它为几何分布记为 g(k;p)。四、超几何分布Ø 对于抽样调查,只有在大群体(即总体比样本相对大很多)的情况下,二项分布的独立试验要求才能够近似得到满足(

8、重复抽样)。但如果研究对象是小群体,这时总体单位不多,一般只有几十个。假定总体只有两类,其中K个成功类,(N-K)个为失败类,这时如果从总体中抽取一容量为n的样本,那么成功的概率将不再恒定,也就是二相分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种小群体的研究。形式:P(X=k)= , K=0,1,min(n,M)超几何概型,例:产品检验。有N个产品(其中有K个合格品)从N个产品中取n个检验,求n中有X个合格品的概率。(即X合格品个数) 不回置抽样!期望:E(X)=nK/N=np方差:D(X)=npq(N-n)/(N-1)当研究对象是小群体,并且采用不回置抽样时,成功的概率将不再

9、恒定,也就是二项分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种情况的研究。 当群体规模逐渐增大,以致不回置抽样可以作为回置抽样来处理,可用二项分布来近似超几何分布。一般当n/N0.1时,这种近似就是可以采用的。五、泊松分布Ø 泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量 n 必须很大 。Ø 例:盒子中装有999个黑棋子,一个白棋子,在一次抽样中,抽中白棋子的概率1/1000(一)泊松分布的定义与特征Ø 1、定义:若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为 x=0,1,(稀有事件出现的次数)Ø

10、 其中0;e 是自然对数的底数(e=2.71828) ,则称 x 服从参数为的泊松分布(Poissons distribution),记为P(x;)2、泊松分布重要的特征Ø 平均数和方差相等,都等于常数,即 =2=np 3、泊松分布的图形特征: 是泊松分布所依赖的唯一参数。 值愈小分布愈偏倚,随着的增大,分布趋于对称。 当= 20时分布接近于正态分布;当=50时,可以认为波松分布呈正态分布。 在实际工作中,当20时就可以用正态分布来近似地处理泊松分布的问题(二)泊松分布的概率计算Ø 泊松分布的概率计算依赖于参数,只要参数确定了,把k=0,1,2,代入公式即可求得各项的概率。

11、但是在大多数服从泊松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为的估计值,将其代替公式中的,计算出k = 0,1,2,时的各项概率。 例:一个合订本共100页,假定每页上印刷错误的,数目X服从泊松分布(=1),计算该合订本中各页的印刷错误都不超过4个的概率。解: 由题目P(x;1).P(X4)= P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4).查表求值 =?+?+?+?+?所求概率为 (?)100=0.0045。【例】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下经计算得每毫升水中平均细菌数

12、 =0.500,方差S2=0.496。两者很接近, 故可认为细菌数/ml(水) 服从泊松分布。以 =0.500代替公式中的,得 (k=0,1,2)计算结果如下表。 细菌数的泊松分布Ø 可见细菌数的频率分布与=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是适宜的。Ø 注意:泊松分布的应用条件与二项分布相似(三)泊松分布与二项分布泊松定理: 设随机变量B(x;n,p)。当 n很大时,p 很小。有以下近似式: 其中=np实际计算中,n10,p0.1,近似效果就较好,而n 100, np 10 时近似效果就很好。由泊松定理,n重贝努里试验中

13、稀有事件出现的次数近似地服从泊松分布。例见:P133,例(四)泊松分布与正态分布的关系Ø 当l较小时, Piosson分布呈偏态分布,随着l增大,迅速接近正态分布,当l ³20时,可以认为近似正态分布。第三节 常用连续型随机变量的理论分布一、正态分布正态分布是最重要的概率分布。因为: 第一,许多自然现象与社会现象,都可用正态分布加以叙述; 第二,许多概率分布以正态分布为其极限; 第三,许多统计量的抽样分布呈现正态分布。 因此,许多统计分析方法都是以正态分布为基础的(一)正态分布的概率函数若连续型随机变量x的概率分布密度函数为 其中为平均数,2为方差,则称随机变量x服从正态分

14、布(normal distribztion),记为xN(,2)。相应的概率分布函数为 标准正态分布的三个常用概率99.74%95.46%68.26%(二) 正态分布的特征1. 正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x =;2. f(x) 在x=处达到极大,极大值 ; 3. f(x)是非负函数,以x轴为渐近线,分布从-至+; 4. 曲线在x=±处各有一个拐点,即曲线在(-,-)和(+,+) 区间上是下凸的,在-,+区间内是上凸的;5. 正态分布有平均数和标准差两个参数。是位置参数,是变异度参数。6. 分布密度曲线与横轴所夹面积为1,即: (三)标准正态分布正态分布是依赖于参

15、数和的一簇分布。将一般的N(,2)转换为= 0,2=1的正态分布,应用就方便了。称=0,2=1的正态分布为标准正态分布标准正态分布的概率密度函数及分布函数分别记作(z)和(z),得:2221)(zez-=pjdzezzzò¥-=22121)(pf随机变量z服从标准正态分布,记作zN(0,1)。 v 对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换: z=(x-)将其变换为服从标准正态分布的随机变量z。z称为标准正态变量或标准正态离差(四)正态分布的概率计算标准正态分布的概率计算 设z服从标准正态分布,则z在z1,z2 )何内取值的概率为: (z2)(z1

16、)v 而(z1)与(z2)可由附表查得【例】 已知z-N(0,1),试求: (1) P(z-1.64)? (2) P (z2.58)=? (3) P (z2.56)=? (4) P(0.34z1.53) =? 关于标准正态分布,以下几种概率应当熟记: P(-1z1)=0.6826 P(-2z2)=0.9546 P(-3z3)=0.9974P(-1.96z1.96)=0.95 P (-2.58z2.58)=0.99 z在上述区间以外取值的概率分别为: P(z1)=2(-1)=1- P(-1z1) =1-0.6826=0.3174 P(z2)=2(-2) =1- P(-2z2)=1-0.9545=

17、0.0455 P(z3)=1-0.9973=0.0027 P(z1.96)=1-0.95=0.05 P(z2.58)=1-0.99=0.01 一般正态分布的概率计算v 正态分布密度曲线和横轴围成的区域,其面积为1,是一个必然事件。v 若随机变量x服从正态分布N(,2),则x的取值落在任意区间x1, x2)的概率,记作P(x1 xx2),等于这部分曲边梯形面积。即:对上式作变换z=(x-),得dx=dz,故有)()(122121221zzdzezzzF-F=ò-p其中,z1=(x1-),z2=(x2-))这表明服从正态分布N(,2)的随机变量x在x1,x2)内取值的概率,等于服从标准正

18、态分布的随机变量z在(x1-), (x2-))内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。 【例】设x服从=30.26,2=5.102的正态分布,试求P(21.64x32.98)。 令 则z服从标准正态分布,故 =P(-1.69z0.53) =(0.53)-(-1.69) =0.7019-0.04551=0.6564v 关于一般正态分布,以下几个概率是经常用到的。 P(-x+)=0.6826 P(-2x+2) =0.9546 P (-3x+3) =0.9974 P (-1.96x+1.96)=0.95 P

19、(-2.58x+2.58)=0.993、正态分布分位点计算正态分布的分位点的定义标准正态分布 密度函数图形为图中的点 称为标准正态分布的 的分位点,相当于已知 求其中的 4、单侧概率与双侧概率v 统计学中,把随机变量 x 落在区间(-k,+k)之外的概率称为双侧(两尾)概率,记作。v 对应于双侧概率可以求得随机变量x小于k或大于+k的概率,称为单侧概率,记作2。如,x落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率为0.025。即P(x-1.96)=P(x+1.96)=0.025v x落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 P(x-2.58)= P

20、(x +2.58)=0.005 (五)二项分布及泊松分布与正态分布的关系v 对于二项分布,在n,p0,且np=(较小常数)情况下,二项分布趋于泊松分布。在这种场合,泊松分布中的参数 用二项分布的np代之;在n,p0.5时,二项分布趋于正态分布。在这种场合,正态分布中的 、2用二项分布的np、npq代之。在实际计算中,当p0.1且n很大时 , 二项分布可由泊松分布近似;当p0.1且n很大时 ,二项分布可由正态分布近似。对于泊松分布,当时,泊松分布以正态分布为极限。在实际计算中,当20时,用泊松分布中的代替正态分布中的及2,即可由后者对前者进行近似计算。 二、抽样分布与中心极限定理v 研究总体与从

21、中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:v 一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; v 二是从样本到总体,这就是统计推断(statistical inference)问题(一)抽样分布的含义与无偏估计量1、抽样分布的含义:统计推断是以总体分布和样本抽样分布的理论关系为基础的。由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。2、无偏估计在统计学上,如果所有可能样本的某一统计数的平均

22、数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。设有一N=3的总体,具有变量3,4,5;求得=4,2=0.6667, =0.8165现以n=2作独立的回置抽样,总共得Nn=32=9个样本。抽样结果列入下表:N=3 n=2时抽样的平均数 方差 标准差样本编号样本值平均数方差标准差1234567893,33,43,54,34,44,55,35,45,53.03.54.03.54.04.54.04.55.00.00.52.00.50.00.52.00.50.00.00000.70711.41420.70710.00000.70711.41420.70710.0000 36.0

23、6.05.6567从上表的资料可以求出:样本平均数的平均数x=4样本方差的平均数S2=0.6667=2样本标准差的平均数S=0.62850.8165= 所以,惟有样本标准差s的平均数不是总体标准差的无偏差估计值。其余两个参数为无偏差估计值。(二)样本平均数的抽样分布v 1、样本平均数抽样分布的含义及其参数设有一个总体 ,总体平均数为,方差为2,总体中各变数为xi,将 此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为 。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到 个样本(所有可能的样本个

24、数)。 抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。 如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。 由平均数构成的新总体的分布,称为平均数的抽样分布。 随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。v 由这些样本算得的平均数与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(sampling error)。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为 和 。 是样本平均数抽样总体的标准差,简称标准误(stan

25、dard error),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:2、中心极限定理设有一个N=4的有限总体,变数为2,3,3,4。根据=xN和2=(x-)2N求得该总体的、2、为: =3,2=12,=1/21/2=0.707v 从有限总体作回置随机抽样,所有可能的样本数为Nn其中n为样本含量 。以上述总体而论,如果从中抽取n=2的样本,共可得 42=16 个样本;如果样本含量n为4,则一共可抽得44=256个样本。分别求这些样本的平均数 ,其次数分布如下表所示。v 在n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为 =4/16=1/4

26、=(1/2)/2= 2/n表 N=4, n=2和n=4时的次数分布同理,可得n=4时:验证了 的正确性。也可以将表中两个样本平均数的抽样总体作次数分布图。 由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。当n30时, 的分布就近似正态分布了。X变量与 变量概率分布间的关系可由下列两个定理说明: (1) 若随机变量x服从正态分布N(,2);x1、x2、xn,是由x 总体得来的随机样本,则统计量 =xn的概率分布也是正态分布,且有 , 即服从

27、正态分布N(,2n)。(2) 若随机变量x服从平均数是,方差是2的分布(不是正态分布); x1、x2、xn,是由此总体得来的随机样本,则统计量 =xn的概率分布,当n相当大时逼近正态分布N(,2n)。这就是中心极限定理。 中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n30,就可认为 的分布是正态分布。若x的分布不很偏斜,在n20时 , 的分布就近似于正态分布了由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其 的分布都可看作为正态分布,且具平均数 和方差 。在实际应用上,如n>30就可以应用这一定理。 平均数的标准化分布是将上述平均数 x

28、转换为z变数。nxxzxsmsm)()(-=-=、标准误v 标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。反之, 小,样本平均数的精确性高。 的大小与原总体的标准差成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。 在实际工作中,总体标准差往往是未知的,因而无法求得 。此时,可用样本标准差S估计。于是,以 估计 。记 为 , 称作样本标准误或均数标准误。样本标准误 是平均数抽样误差的估计值。若样本中各观测值为 x1、x

29、2、xn,则注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。二者的区别是样本标准差S是反映样本中各观测值的变异程度,它的大小说明了 对该样本代表性的强弱。样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。(二) 两个独立样本平均数差数的分布假定有两个正态总体各具有平均数和标准差为 , 和 , ,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体随时机抽取n2个观察值。这样计算出样本平均数和标准差 ,s1和 ,s2。从统计理论可以推导出其样本平均数的差数( )的抽样分布,具有以下特性(1) 如果两个总体各作正态分布,则其样本

30、平均数差数( )准确地遵循正态分布律,无论样本容量大或小,都有N( , )。 (2) 两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即 (3) 两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即 其差数标准差为: 这个分布也可标准化,获得z值nnyyz2221212121)()(ssmm+-=小结:l 若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:l 若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时(大于30)才逐渐接近于正态分布。l 若两个样本抽自于两个非正态总体,当n1

31、和n2相当大、而 与 相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。(三)二项总体的抽样分布、 二项总体的分布参数(成数)平均数: 方差: 标准差: 、 样本平均数(成数)的抽样分布 从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为:平均数: 方差: 标准误: (四)不重复抽样的修正系数前所讲的抽样分布和抽样平均误差的计算公式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为:可见,不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数 这个系数称为不重复抽样修正

32、系数。当N很大时, (其中:n/N为抽样比例)。 实际中,当抽样比例很小时,(一般认为小于5%),不重复抽样的抽样误差常采用重复抽样的公式计算。三、t 分布1、t 分布的定义: 若xN(, 2), 则 N(, 2/n)。 将随机变量 标准化得: ,则zN(0,1)。 当总体标准差未知时, 以样本标准差S代替所得到的统计量 记为t。在计算 时,由于采用S来代替,使得t 变量不再服从标准正态分布,而是服从t分布(tdistribztion)。它的概率分布密度函数如下: 式中,t的取值范围是(-,+); df=n-1为自由度。 - 函 数自由度df(degree of freedom )的含义 df=k=n-1T 分布密度曲线2、t 分布的图形特征t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。 (1)t 分布受自由度的制约,每一个自由度都有一条t分布密度曲线。(2)t分布密度曲线以纵轴为对称轴,左右对称,且在t0时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论