版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章三常用连续型随机变量的理论分布第一页,共七十九页,2022年,8月28日一、正态分布正态分布是最重要的概率分布。因为:第一,许多自然现象与社会现象,都可用正态分布加以叙述;第二,许多概率分布以正态分布为其极限;第三,许多统计量的抽样分布呈现正态分布。因此,许多统计分析方法都是以正态分布为基础的。第二页,共七十九页,2022年,8月28日(一)正态分布的概率函数若连续型随机变量x的概率分布密度函数为其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribztion),记为x~N(μ,σ2)。相应的概率分布函数为第三页,共七十九页,2022年,8月28日分布密度曲线99.74%68.26%95.46%第四页,共七十九页,2022年,8月28日(二)正态分布的特征1.正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ;2.f(x)在x=μ处达到极大,极大值;3.f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞;第五页,共七十九页,2022年,8月28日4.曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;5.正态分布有平均数μ和标准差σ两个参数。μ是位置参数,σ是变异度参数。第六页,共七十九页,2022年,8月28日图1
标准差相同(1)而平均数不同(=0、=1、=2)的三个正态分布曲线图2
平均数相同(0)而标准差不同(=1、=1.5、=2)的三个正态分布曲线第七页,共七十九页,2022年,8月28日6.分布密度曲线与横轴所夹面积为1,即:第八页,共七十九页,2022年,8月28日正态分布是依赖于参数μ和σ的一簇分布。将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布,应用就方便了。称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribztion)。(三)标准正态分布第九页,共七十九页,2022年,8月28日标准正态分布的概率密度函数及分布函数分别记作φ(z)和Φ(z),得:
随机变量z服从标准正态分布,记作z~N(0,1)。2221)(zez-=pjdzezzzò¥--=22121)(pf第十页,共七十九页,2022年,8月28日对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换:z=(x-μ)/σ将其变换为服从标准正态分布的随机变量z。z称为标准正态变量或标准正态离差(standardnormaldeviate)。第十一页,共七十九页,2022年,8月28日(四)正态分布的概率计算1.标准正态分布的概率计算设z服从标准正态分布,则z在[z1,z2)何内取值的概率为:=Φ(z2)-Φ(z1)而Φ(z1)与Φ(z2)可由附表查得。dzedzedzezzzPzzzzzzzòòò¥--¥----==<£122221221212121212121)(ppp第十二页,共七十九页,2022年,8月28日【例】已知z-N(0,1),试求:(1)P(z<-1.64)=?(2)P(z≥2.58)=?(3)P(|z|≥2.56)=?(4)P(0.34≤z<1.53)=?第十三页,共七十九页,2022年,8月28日关于标准正态分布,以下几种概率应当熟记:P(-1≤z<1)=0.6826P(-2≤z<2)=0.9546
P(-3≤z<3)=0.9974P(-1.96≤z<1.96)=0.95P(-2.58≤z<2.58)=0.99第十四页,共七十九页,2022年,8月28日标准正态分布的三个常用概率99.74%68.26%95.46%第十五页,共七十九页,2022年,8月28日z在上述区间以外取值的概率分别为:P(|z|≥1)=2Φ(-1)=1-P(-1≤z<1)=1-0.6826=0.3174P(|z|≥2)=2Φ(-2)=1-P(-2≤z<2)=1-0.9545=0.0455P(|z|≥3)=1-0.9973=0.0027P(|z|≥1.96)=1-0.95=0.05P(|z|≥2.58)=1-0.99=0.01第十六页,共七十九页,2022年,8月28日2.一般正态分布的概率计算正态分布密度曲线和横轴围成的区域,其面积为1,是一个必然事件。若随机变量x服从正态分布N(μ,σ2),则x的取值落在任意区间[x1,x2)的概率,记作P(x1≤x<x2),等于这部分曲边梯形面积。即:第十七页,共七十九页,2022年,8月28日对上式作变换z=(x-μ)/σ,得dx=σdz,故有其中,z1=(x1-μ)/σ,z2=(x2-μ)/σ))()(122121221zzdzezzzF-F==ò-p第十八页,共七十九页,2022年,8月28日这表明服从正态分布N(μ,σ2)的随机变量x在[x1,x2)内取值的概率,等于服从标准正态分布的随机变量z在[(x1-μ)/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。第十九页,共七十九页,2022年,8月28日xms一般正态分布
=1Z标准正态分布第二十页,共七十九页,2022年,8月28日【例】设x服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤x<32.98)。令则z服从标准正态分布,故=P(-1.69≤z<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.656410.526.30-=xz第二十一页,共七十九页,2022年,8月28日
关于一般正态分布,以下几个概率是经常用到的。P(μ-σ≤x<μ+σ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9546P(μ-3σ≤x<μ+3σ)=0.9974P(μ-1.96σ≤xμ+1.96σ)=0.95
P(μ-2.58σ≤xμ+2.58σ)=0.99第二十二页,共七十九页,2022年,8月28日
图中的点称为标准正态分布的的分位点,相当于已知标准正态分布密度函数图形为:3、正态分布分位点计算正态分布的分位点的定义:求其中的
第二十三页,共七十九页,2022年,8月28日4、单侧概率与双侧概率统计学中,把随机变量x落在区间(μ-kσ,μ+kσ)之外的概率称为双侧(两尾)概率,记作α。对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率,记作α/2。第二十四页,共七十九页,2022年,8月28日如,x落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即P(x<μ-1.96σ)=P(x>μ+1.96σ)=0.025x落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率P(x<μ-2.58σ)=
P(x>
μ+2.58σ)=0.005第二十五页,共七十九页,2022年,8月28日(五)二项分布及泊松分布与正态分布的关系对于二项分布,在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋于泊松分布。在这种场合,泊松分布中的参数λ用二项分布的np代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的np、npq代之。在实际计算中,当p<0.1且n很大时,二项分布可由泊松分布近似;第二十六页,共七十九页,2022年,8月28日当p>0.1且n很大时,二项分布可由正态分布近似。对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。第二十七页,共七十九页,2022年,8月28日二、抽样分布与中心极限定理研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:一是从总体到样本,这就是研究抽样分布(samplingdistribution)的问题;二是从样本到总体,这就是统计推断(statisticalinference)问题。第二十八页,共七十九页,2022年,8月28日(一)抽样分布的含义与无偏估计量1、抽样分布的含义:统计推断是以总体分布和样本抽样分布的理论关系为基础的。由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。第二十九页,共七十九页,2022年,8月28日2、无偏估计在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。第三十页,共七十九页,2022年,8月28日设有一N=3的总体,具有变量3,4,5;求得μ=4,σ2=0.6667,σ=0.8165现以n=2作独立的回置抽样,总共得Nn=32=9个样本。抽样结果列入下表:第三十一页,共七十九页,2022年,8月28日N=3n=2时抽样的平均数方差标准差样本编号样本值平均数方差标准差1234567893,33,43,54,34,44,55,35,45,53.03.54.03.54.04.54.04.55.00.00.52.00.50.00.52.00.50.00.00000.70711.41420.70710.00000.70711.41420.70710.0000∑36.06.05.6567第三十二页,共七十九页,2022年,8月28日从上表的资料可以求出:样本平均数的平均数μx=4样本方差的平均数μS2=0.6667=σ2样本标准差的平均数μS=0.6285≠0.8165=σ所以,惟有样本标准差s的平均数不是总体标准差σ的无偏差估计值。其余两个参数为无偏差估计值。第三十三页,共七十九页,2022年,8月28日(二)样本平均数的抽样分布1、样本平均数抽样分布的含义及其参数设有一个总体,总体平均数为μ,方差为σ2,总体中各变数为xi,将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。第三十四页,共七十九页,2022年,8月28日总体随机样本123
无穷个样本
……图总体和样本的关系如图从一个总体进行随机抽样可以得到许多样本,如果总体是无限总体,那么可以得到无限多个随机样本。第三十五页,共七十九页,2022年,8月28日如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到个样本(所有可能的样本个数)。抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由平均数构成的新总体的分布,称为平均数的抽样分布。随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。除平均数抽样分布外还有总和数、方差的抽样分布等。第三十六页,共七十九页,2022年,8月28日由这些样本算得的平均数与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(samplingerror)。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为和。第三十七页,共七十九页,2022年,8月28日是样本平均数抽样总体的标准差,简称标准误(standarderror),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x总体的两个参数有如下关系:
第三十八页,共七十九页,2022年,8月28日2、中心极限定理设有一个N=4的有限总体,变数为2,3,3,4。根据μ=Σx/N和σ2=Σ(x-μ)2/N求得该总体的μ、σ2、σ为:μ=3,σ2=1/2,σ=1/21/2=0.707第三十九页,共七十九页,2022年,8月28日从有限总体作回置随机抽样,所有可能的样本数为Nn其中n为样本含量。以上述总体而论,如果从中抽取n=2的样本,共可得42=16个样本;如果样本含量n为4,则一共可抽得44=256个样本。分别求这些样本的平均数,其次数分布如下表所示。在n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:第四十页,共七十九页,2022年,8月28日=4/16=1/4=(1/2)/2=σ2/n第四十一页,共七十九页,2022年,8月28日表
N=4,n=2和n=4时的次数分布第四十二页,共七十九页,2022年,8月28日同理,可得n=4时:验证了的正确性。也可以将表中两个样本平均数的抽样总体作次数分布图。第四十三页,共七十九页,2022年,8月28日由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量n的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。当n>30时,的分布就近似正态分布了。X变量与变量概率分布间的关系可由下列两个定理说明:第四十四页,共七十九页,2022年,8月28日(1)若随机变量x服从正态分布N(μ,σ2);x1、x2、…、xn,是由x总体得来的随机样本,则统计量=Σx/n的概率分布也是正态分布,且有,即服从正态分布N(μ,σ2/n)。(2)若随机变量x服从平均数是μ,方差是σ2的分布(不是正态分布);x1、x2、…、xn,是由此总体得来的随机样本,则统计量=Σx/n的概率分布,当n相当大时逼近正态分布N(μ,σ2/n)。这就是中心极限定理。第四十五页,共七十九页,2022年,8月28日中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n>30,就可认为的分布是正态分布。若x的分布不很偏斜,在n>20时,的分布就近似于正态分布了。第四十六页,共七十九页,2022年,8月28日由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其的分布都可看作为正态分布,且具平均数和方差。在实际应用上,如n>30就可以应用这一定理。平均数的标准化分布是将上述平均数转换为z变数。xxnxxzxsmsm)()(-=-=第四十七页,共七十九页,2022年,8月28日3、标准误标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。反之,小,样本平均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。第四十八页,共七十九页,2022年,8月28日在实际工作中,总体标准差σ往往是未知的,因而无法求得。此时,可用样本标准差S估计σ。于是,以估计。记为,称作样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值。若样本中各观测值为x1、x2、…、xn,则第四十九页,共七十九页,2022年,8月28日注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。二者的区别是样本标准差S是反映样本中各观测值的变异程度,它的大小说明了对该样本代表性的强弱。样本标准误是样本平均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。第五十页,共七十九页,2022年,8月28日(二)两个独立样本平均数差数的分布假定有两个正态总体各具有平均数和标准差为,和,,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体随时机抽取n2个观察值。这样计算出样本平均数和标准差,s1和,s2。从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:
(1)如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,都有N(,)。第五十一页,共七十九页,2022年,8月28日
(2)两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即
(3)两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即其差数标准差为:这个分布也可标准化,获得z值。nnyyz2221212121)()(ssmm+---=第五十二页,共七十九页,2022年,8月28日小结:若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时(大于30)才逐渐接近于正态分布。若两个样本抽自于两个非正态总体,当n1和n2相当大、而与相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。第五十三页,共七十九页,2022年,8月28日
[例]假定第一个总体包括3个观察值,2、4和6(N1=3,n1=2),所有样本数为Nn=32=9个,总体平均数和方差=4,=8/3。第二个总体包括2个观察值,3和6(N2=2),抽出的样本容量为3(n2=3),所以所有样本数为23=8个,总体平均数和方差=4.5,=2.25。现将上述两个总体的次数分布列于表1,并计算出其分布的参数。将第一总体的9个样本平均数和第二总体的8个样本平均数作所有可能的相互比较,这样共有9×8=72个比较或72个差数,这72个差数次数分布列于表2和表3。第五十四页,共七十九页,2022年,8月28日表1从两个总体抽出的样本平均数的次数分布表ff213132434353526161总和9总和8
第五十五页,共七十九页,2022年,8月28日表2样本平均数差数的次数分布表2,2,2,23,3,3,34,4,4,45,5,5,56,6,6,6总和3,4,5,63,4,5,63,4,5,63,4,5,63,4,5,6-1,-2,-3,-40,-1,-2,-3,1,0,-1,-22,1,0,-13,2,1,0f1,3,3,12,6,6,23,9,9,32,6,6,21,3,3,172表3样本平均数差数分布的平均数和方差计算表ff()()()2()2-4-3-2-10123151218181251-4-15-24-18012103-3.5-2.5-1.5-0.50.51.52.53.512.256.252.250.250.252.256.2512.2512.2531.2527.004.504.5027.0031.2512.25总72-36150.00第五十六页,共七十九页,2022年,8月28日由表3可算得而
这与均相同。第五十七页,共七十九页,2022年,8月28日(三)二项总体的抽样分布1、二项总体的分布参数(成数)标准差:方差:平均数:
第五十八页,共七十九页,2022年,8月28日2、样本平均数(成数)的抽样分布从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为:平均数:方差:标准误:第五十九页,共七十九页,2022年,8月28日(四)不重复抽样的修正系数前所讲的抽样分布和抽样平均误差的计算公式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为:
第六十页,共七十九页,2022年,8月28日可见,不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数这个系数称为不重复抽样修正系数。当N很大时,(其中:n/N为抽样比例)。实际中,当抽样比例很小时,(一般认为小于5%),不重复抽样的抽样误差常采用重复抽样的公式计算。第六十一页,共七十九页,2022年,8月28日三、t分布1、t分布的定义:
若x~N(μ,σ2),则~N(μ,σ2/n)。将随机变量标准化得:,则z~N(0,1)。当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量记为t。在计算时,由于采用S来代替σ,使得t变量不再服从标准正态分布,而是服从t分布(t-distribztion)。它的概率分布密度函数如下:
xxzsm/)(-=第六十二页,共七十九页,2022年,8月28日式中,t的取值范围是(-∞,+∞);
df=n-1为自由度。第六十三页,共七十九页,2022年,8月28日Γ-函数参考第六十四页,共七十九页,2022年,8月28日自由度df(degreeoffreedom)的含义
df=k=n-1第六十五页,共七十九页,2022年,8月28日T分布密度曲线第六十六页,共七十九页,2022年,8月28日2、t分布的图形特征
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。xt
分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z第六十七页,共七十九页,2022年,8月28日(1)t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。(2)t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。(3)与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。第六十八页,共七十九页,2022年,8月28日3、分布分位点计算在统计中经常对给定的分布求它的分位点而不是求其概率。其分位点的定义与标准正态分布相同。第六十九页,共七十九页,2022年,8月28日四、分布(卡方分布)分布是统计中经常用到的一个分布,通常是由n个相互独立的标准正态分布的平方和得到。它的概率密度函数为:第七十页,共七十九页,2022年,8月28日假设从正态总体中抽取k个独立样本z12、z22、z32、…、zk2,则定义它们的和为x2,
x2具有自由度df=n-1的连续型变量的分布,不同的自由度的x2分布曲线不同。附表7列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《湖湘文学教育论》课件
- 《竹與中國文化》课件
- 小学一年级10到20加减法练习题口算
- 防校园欺凌讲座心得体会
- 《病例神经内科》课件
- 服装行业前台服务要点
- 矿产行业人才培养总结
- 课堂氛围与学习积极性提升计划
- 家政服务行业客服工作总结
- 安徽省宿州市埇桥区教育集团2022-2023学年九年级上学期期末质量检化学试题
- 人教版三年级上册数学期末测试卷可打印
- 医疗高级职称评审论文答辩
- 设计服务保障措施方案
- 软件测试方案模板(完整版)
- 建筑幕墙工程(铝板、玻璃、石材)监理实施细则(全面版)
- 基于课程标准的学生创新素养培育的学科教学改进研究课题申报评审书
- 批判性思维技能测试题及答案
- 人工智能教学实验室建设方案
- 医疗人员廉洁从业九项准则
- 培训费收款收据模板
- 母公司与子公司之间的协同效应
评论
0/150
提交评论