




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章理论分布与抽样分布为了便于理解统计分析的基本原理,正确掌握和应用统计分析方法,本章在介绍概率论中最基本的两个概念-事件、概率的基础上,重点介绍科学研究中常用的几种随机变量的概率分布-正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。下一张
主页
退出
上一张
1事件与概率1.1事件1.1.1必然现象与随机现象
在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:下一张
主页
退出
上一张
必然现象:可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生的(或必然不发生)。这类现象称为必然现象(inevitablephenomena)或确定性现象(definitephenomena)。随机现象:另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(randomphenomena)或不确定性现象(indefinitephenomena)。下一张
主页
退出
上一张
随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的、特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。下一张
主页
退出
上一张
1.1.2随机试验与随机事件1随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。当一个试验如果满足下述三个特性,则称其为一个随机试验(randomtrial),简称试验。下一张
主页
退出
上一张
(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。下一张
主页
退出
上一张
2随机事件
随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。(1)基本事件
我们把不能再分的事件称为基本事件(elementaryevent),也称为样本点(samplepoint)。下一张
主页
退出
上一张
例如,从编号为1、2、3、…、10的十个篮球中随机抽取1个篮球,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compoundevent)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。下一张
主页
退出
上一张
(2)必然事件
把在一定条件下必然会发生的事件称为必然事件(certainevent),用Ω表示。例如,一个大气压下,水加热到100C,水会沸腾;种瓜得瓜、种豆得豆下一张
主页
退出
上一张
(3)不可能事件
在一定条件下不可能发生的事件称为不可能事件(impossibleevent),用ф表示。例如,在满足一定孵化条件下,从石头孵化出小鸡,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。1.2概率1.2.1概率统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这个指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。下一张
主页
退出
上一张
概率:刻划事件发生可能性大小的数量指标概率统统计定定义::在相同同条件件下进进行n次重复复试验验,如如果随随机事事件A发生的的次数数为m,那么么m/n称为随随机事事件A的频率((frequency);;当试试验重重复数数n逐渐增增大时时,随随机事事件A的频率率越来来越稳稳定地地接近近某一一数值值p,那那么就就把p称为随随机事事件A的概率。下一张张主页页退出出上一张张如此定定义的的概率率称为为统计计概率率(statisticsprobability),或或者称称后验验概率率(posteriorprobability)。。表3-1抛抛掷掷一枚枚硬币币发生生正面面朝上上的试试验记记录下一张张主页页退出出上一张张例如为为了了确定定抛掷掷一枚枚硬币币出现现正面面朝上上这个个事件件的概概率,,历历史上上有人人作过过成千千上万万次抛抛掷硬硬币的的试验验。在在表3—1中列列出了了他们们的试试验记记录。。从表3-1可看看出,,随着着实验验次数数的增增多,,正面面朝上上这个个事件件发生生的频频率越越来越越稳定定地接接近0.5,我我们就就把0.5作为为这个个事件件的概概率。。在一般般情况况下,,随机机事件件的概概率p是不可可能准准确得得到的的。通通常以以试验验次数数n充分大大时随随机事事件A的频率率作为为该随随机事事件概概率的的近似似值。。即P((A))=p≈≈m/n(n充分分大大))(3-1))下一一张张主页页退出出上一一张张1.2.2概概率率的的性性质质(1))对对于于任任何何事事件件A,有有0≤≤P((A))≤1;;(2))必必然然事事件件的的概概率率为为1,,即即P(Ω)=1;;(3))不不可可能能事事件件的的概概率率为为0,,即即P(фф))=0。。2概概率率分分布布事件件的的概概率率表表示示了了一一次次试试验验某某一一个个结结果果发发生生的的可可能能性性大大小小。。若若要要全全面面了了解解试试验验,,则则必必须须知知道道试试验验的的全全部部可可能能结结果果及及各各种种可可能能结结果果发发生生的的概概率率,,即即必必须须知知道道随随机机试试验验的的概概率率分分布布(probabilitydistribution)。。为为了了深深入入研研究究随随机机试试验验,,我我们们先先引引入入随随机机变变量量(randomvariable)的的概概念念。。下一一张张主页页退出出上一一张张2.1随随机机变变量量下一一张张主页页退出出上一一张张2004年年奶奶粉粉事事件件““大大头头娃娃””描述述随随机机事事件件的的变变量量称称为为随随机机变变量量。。随随机机变变量量的的取取值值在在一一次次试试验验前前不不能能确确定定,,具具有有随随机机性性。。作作一一次次试试验验,,其其结结果果有有多多种种可可能能。。每每一一种种可可能能结结果果都都可可用用一一个个数数来来表表示示,,把把这这些些数数作作为为变量x的取值,则试验验结果可可用变量量x来表示。。【例】对对10种品品牌袋装装奶粉进进行质量量检测,,其可能能结果是是“0种种合格””、““1种合合格”、、“2种种合格””、“……”、““10种种袋装奶奶粉都合合格”。。若用x表示袋装装奶粉合合格品牌牌数,则则x的取值为为0、1、2、、…、10。【例】食食品品加工中中高温杀杀菌可能能结果只只有两种种,即““全部杀杀死细菌菌”与““未能全全部杀死死细菌””。若若用变量量x表示试验验的两种种结果,,则可令令x=0表示示“未能能全部杀杀死细菌菌”,x=1表示示“全部部杀死细细菌”。。【例】测测定定关中地地区不同同小麦品品种的蛋蛋白质含含量,其其蛋白质质含量在在9.3-13.5%%之间,,如用x表示测测定结果果,那么么x值可以是是这个范范围内的的任何实实数。下一张主页页退出出上一张离散型型随随机变变量量:如果表示示试验结结果的变变量x,其可能能取值为为可列个个,且且以各各种确定定的概率率取这些些不同的的值,,则称称x为离散型型随随机变变量量(discreterandomvariable);;连续型型随机机变变量::如果表示示试验结结果的变变量x,其可能能取值为为某范围围内的任任何数值值,且且x在其取值值范围内内的任一一区间中中取值时时,其概概率是确确定的,,则称x为连续型型随机机变变量(continuousrandomvariable)。下一张主页页退出出上一张试验结果果和取此此结果的的概率可可以一一一列出。。不能列出出试验结结果和取取此结果果的概率率,只能能给出一一定范围围和在此此范围内内取值的的概率。。2.2离离散型型随机变变量的概概率分布布要了解离离散型随随机变量量x的统计规规律,就就必须知知道道它的一一切可能能值xi及取每种种可能值值的概率率pi。如果我们们将离散散型随机机变量x的一切切可能能取值值xi(i=1,2,……),及其其对应应的概概率pi,记作作P(x=xi)=pii=1,2,…(3——3)则称((3—3)式式为离散型型随机机变量量x的概率率分布布或分分布。常用用分布布列列(distributionseries)来表表示::下一张张主页页退出出上一张张x1x2…xn….p1p2…pn…从分布布列可可以一一目了了然看看出随随机变变量X的可可能取取值及及取这这些值值的概概率。。离散型型随机机变量量的概概率分分布具具有pi≥0和和Σpi=1这这两个个基本本性质质。2.3连连续型型随机机变量量的概概率分分布连续型型随机机变量量(如身身高、、体重重等)的概概率分分布不不能用用分布列列来表示示,因因为为其可可能取取值是是不可可数的的,不不能一一一列列出。。改用用随机机变量量x在在某个个区间间内取取值的的概率率P(a≤x<b)来表表示。。下下面通通过频频率分分布密密度曲曲线予予以说说明。。下一张张主页页退出出上一张张图4——1为为数据据资料料的频频率分分布直直方图图,,图中中纵座座标取取频率率与组组距的的比值值。。可以以设想想,,如果果样本本取得得越来来越大大(n→+∞∞),,组分分得越越来越越细(i→0),某某一范范围内内的频频率将将趋近近于一一个稳稳定值值--概率。这时时,,频频率分分布直直方图图各个个直方方上端端中点点的连连线--频率分分布折折线将逐渐渐趋向向于一一条曲曲线。。下一张张主页页退出出上一张张当n→+∞∞、i→0时时,频率分分布折折线的的极限限是一一条稳稳定的的函数数曲线线。对对于样样本是是取自自连续续型随随机变变量的的情况况,,这条条函数数曲线线将是是光滑滑的。。这这条曲曲线排排除了了抽样样和测测量的的误差差,,完完全全反反映了了数据据资资料的的变动动规律律。这这条条曲线线叫概率分分布密密度曲曲线,相应应的函函数叫叫概率分分布密密度函函数,,简简称分分布密密度。下一张张主页页退出出上一张张(3——4)式式为为连连续续型型随随机变变量x在区区间[a,b)上取取值概概率的的表达达式。。可见见,连连续型型随机机变量量的概概率由由概率分分布密密度函函数确定。。若变量量X概率分分布密密度函函数记为f(x),则x取值于于区间间[a,b)的概概率为为图中中阴影影部分分的面面积,,即P(a≤x<b)=(3-4)连续型型随机机变量量概率率分布布的性性质::1、分分布密密度函函数总总是大大于或或等于于0,,即f(x)≥0;;2、当当随机机变量量x取某一一特定定值时时,其其概率率等于于0;;即(c为任意意实数数)所以,,对于于连续续型随随机变变量,,仅研研究其其在某某一个个区间间内取取值的的概率率,而而不去去讨论论取某某一个个值((点))的概概率。。下一张张主页页退出出上一张张连续型型随机机变量量某一一点的的概率率为0。3、随随机机变量量x取值在在-∞<<x<<+∞∞范围内内,所所以下一张张主页页退出出上一张张(3-5)(3——5)式表表示分分布密密度曲曲线与与横轴轴所围围成的的区间间全部部面面积为为1。。P(a≤x<b)=4、随随机变变量X取〔〔a,,b))区间间值的的概率率为::3理理论论分布布3.1二二项分分布3.1.1贝贝努利利试验验及其其概率率公式式贝努利利试验验:对于n次独立立的试试验,,如如果果每次次试验验结果果出现现且只只出现现对立立事件件A与之之一,在在每次试试验中出现现A的概率是常常数p(0<p<1),,因而出出现对立事事件的的概率率是1-p=q,则称这这一串重重复的独立立试验为n重贝努利试试验,简称称贝努利试试验(Bernoullitrials)。下一张主页页退出上一张重要的离散散型分布只有两种可可能结果的的随机试验验称为贝努努利试验食品抽样中中,产品合合格或不合合格,种子发芽或或不发芽,,施药后害害虫死或活活等等。贝努利试验验的概率公公式在贝努利试试验中,事事件A可能能发生,也也可能不发发生,用随随机变量x表示贝努努利试验的的两种结果果,记A发发生时取1,A不发发生时取0。那么,,贝努利试试验的概率率公式可以以表示为::P(x=1)=pP(x=0)=q其中x=1,A事件发生,成功0,A事件未发生,失败也称为两点点分布(3-6))在n重贝努利试试验中,事事件A可能发生0,1,2,…,n次,现在我我们来求事事件A恰好发生k(0≤k≤n)次的概率率Pn(k)。事件A在在n次试验验中正好发发生k次共共有种种情况况。由贝努努利试验的的独立性可可知,A在在k次实验验中发生,,而在其余余n-k次次试验中不不发生的概概率为下一张主页页退出上一张3.1.2二项分分布的定义义及其特点点一般,在n重贝努利试试验中,事事件A恰好发生k(0≤k≤n)次的的概率为下一张主页页退出上一张k=0,1,2…,n(3-7)若把(3-7)式与与二项展开开式相比较就可可以发现,,在n重贝努利试试验中,事事件A发生k次的概率恰恰好等于展展开式中的的第k+1项,所所以也把(3-7)式称作二项概率公公式。1.二项项分布定义义设随机变量量x所有可能取取的值为零零和正整数数:0,1,2,……,n,且有=k=0,1,2…,n其中p>0,q>0,p+q=1,则称随机变量x服从参数数为n和p的二项分布布(binomialdistribution),记为x~B(n,p)。。下一张主页页退出上一张二项分分布是一种种离散型随随机变量的的概率分布布。参数n称为离散参参数,只只能取正正整数;p是连续参数数,它能取取0与1之之间的任何何数值(q由p确定,故不不是另一个个独立参数数)。下一张主页页退出上一张(3-10)(5)(3)(4)(3-8)(3-9)(m1<m2)2.二项分分布的特点具有概率分布布的一切性质质,即:(1)P(x=k)=Pn(k)≥≥0(k=0,1,…,n)(2)二项分分布的概率之之和等于1,,即图3-1n值不同的的二项分布比比较(2)当p值趋于0.5时时,分布布趋于对称称,如图所示;(3)对于固固定的n及p,当k增加时,Pn(k)先随之增加加并达到其极极大值,以后后又下降。(4)在n较大,np、nq较接近时,,二项分布接接近于正态分分布;当n→∞时,二项项分布的极限限分布是正态态分布。下一张主页退出上一张二项分布由n和p两个参数决定定,其特点是是:(1)当p值较小且n不大时,分分布是偏偏倚的。但随随着n的增大,分分布逐渐趋于于对称,如图所示;图3-2p值不同的二二项分布比较较3.1.3二二项分布布的概率计算算及应用条件件(1)已知随随机变量x~B(n,p),求x正好好有k次发生生的概率。【例p43】】有一批食品品,其合格率率为0.85,今在该批批食品中随机机抽取6份该该食品,求正正好有5份食食品合格的概概率?由题意可知,,食品抽检结结果有两种可可能,合格与与不合格,合合格率为0.85,即P(A)=0.85,相相应不合格率率为P())=1-0.85==0.15,,由概率公式式得,正好有有5个合格产产品的概率为为:下一张主页退出上一张(2)已知随机变量量x~B(n,p),求x最多多发生k次的的概率。例:同上例,,问最多有4个合格的概概率是多少??当产品最多有有k个合格时时,即可能的的合格数为0,1,2,,…,k,那那么为最多有k个个合格产品的的概率。在本例中,下一张主页退出上一张二项分布的应应用条件:(1)各观察察单位只具具有相互对立立的一种结结果,如合格格或不合格,,生存或死死亡等等,非非此即彼;(2)已知发发生某一结果果(如死亡亡)的概率率为p,其对立结果果的概率则为为1-P=q,实际中要求求p是从大量观察察中获得的比比较稳定的数数值;(3)n次观察结果互互相独立,即即每个观察单单位的观察结结果不会影响响到其它观察察单位的观察察结果。下一张主页退出上一张3.1.4二二项分布的的平均数与标标准差统计学证明,,服从二项分分布B(n,p)的随机变量量x的平均数数μ、标准差差σ与参数n、p有如下关系。。设x~B(n,p),那么,二项分分布的总体特特征数为:下一张主页退出上一张均值μμ=np标准差σ=方差σ2=npq当试验结果以以事件A发生的频率k/n表示时也称为总体百百分数的标准准误,当p未知时,常常以样本百分分数来来估计。此此时式式改写为:=称为样本百分分数标准误。。下一张主页退出上一张3.2波松松分布(Poisson)波松分布是一一种可以用用来描述和分分析随机地发发生在单位空空间或时间间里的稀有事件的概率分布。。要观察到这这类事件,样样本含量n必须很大。。所谓稀有事件件即是小概率率事件。在生物、医学学等研究中,,服从波松分分布的随机变变量也是常见见的。例如,,正常生产线线中单位事件件生产出不合合格产品个数数,单位事件件内机器出现现故障的次数数,每升饮水水中大肠杆菌菌数,计数器器小方格中血血球数,一一批香肠中含含有毛发的香香肠数,1000袋面粉粉中含有金属属物的袋数等等等,都是服服从或近似服服从波松分布布的。下一张主页退出上一张3.2.1波波松分布的的定义若随机变量x(x=k)所有可能取值值是非负整数数,且其概率率分布为其中λ>0;;e=2.7182…,,则称x服从参数数为λλ的波松松分布(Poisson‘sdistribution),,记为x~P(λ)。下一张主页退出上一张k=0,1,………λ是波松分布布所依赖的唯唯一参数。λλ值愈小小分布愈偏倚倚,随着λ的的增大,分分布趋于对对称(如图所示)。当λλ=20时时分布接近于于正态分布;;当λ=50时,可以以认为波松松分布呈正态态分布。所所以在实际工工作中,当λλ≥20时时就可以用正正态分布来近近似地处理波波松分布的问问题。3.2.2波波松松分布重要的的特征波松分布为离离散型随机变变量的概率分分布,其平均数和方差差相等,都等等于常数λ,即μμ=σ2=λ图3-3不不同λ的泊松分布3.2.3波波松分布的的概率计算由波松分布的的概率计算公公式可以看出出,依赖于参参数λ的确确定,只要参参数λ确定了了,把k=0,1,2,…代入入即可求得各各项的概率。。但是在大大多数服从波波松分布的实实例中,分布布参数λ往往往是未知的,,只能从所观观察的随机样样本中计算出出相应的样本本平均数作为为λ的估估计值,将将其代替计算算公式中的λλ,计算出k=0,1,,2,…时时的各项概率率。下一张主页退出上一张【例3-6】】为监测测饮用水的污污染情况,现现检验某社社区每毫升饮饮用水中细菌菌数,共共得400个个记录如下::试分析饮用水水中细菌数的的分布是否服服从波松分布布。若服从,,按波松分布布计算每毫升升水中细菌数数的概率及理理论次数并将将頻率分布与与波松分布作作直观比较。。下一张主页退出上一张经计算得每毫毫升水中平均均细菌数=0.500,方差S2=0.496。两者很接接近,故可可认为每毫升升水中细菌数数服从波松分分布。以=0.500代代替λ,得(k=0,1,2…)计算结果如表表所示。下一张主页退出上一张细菌数的波松松分布可见细菌数的的频率分布与与λ=0.5的波松分布布是相当吻合合的,进进一步说明用用波松分布描描述单位容积积(或面积)中细菌数的的分布是适宜宜的。下一张主页退出上一张注意,二项分分布的应用条条件也是波松松分布的应用条件。。比如二项分分布要求n次试验是相互互独立的,这这也是波松分分布的要求。。然而一些具有有传染性的罕罕见疾病的发发病数,因为为首例发生之之后可成为传传染源,会影影响到后续病病例的发生,,所以不符合合波松分布的的应用条件。。对于在单位时时间、单位面面积或单位容容积内,所观观察的稀有事事件由于某些些原因分布不不随机时,如如细菌在牛奶奶中成集落存存在时,不呈呈波松分布,,不能用波松松分布来描述述其发生规律律。下一一张张主页页退出出上一一张张3.3正正态态分分布布((normaldistribution))正态态分分布布是是一一种种很很重重要要的的连连续续型型随随机机变变量量的的概概率率分分布布。。自自然然现现象象中中有有许许多多变变量量是是服服从从或或近近似似服服从从正正态态分分布布的的。。如如食食品品中中各各种种成成分分的的含含量量、、有有害害物物质质残残留留量量、、瓶瓶装装食食品品的的重重量量、、分分析析测测定定过过程程中中的的随随机机误误差差等等等等。。许许多多统统计计分分析析方方法法都都是是以以正正态态分分布布为为基基础础的的。。此此外外,,还还有有不不少少随随机机变变量量的的概概率率分分布布在在一一定定条条件件下下以以正正态态分分布布为为其其极极限限分分布布。。因因此此在在统统计计学学中中,,正正态态分分布布无无论论在在理理论论研研究究上上还还是是实实际际应应用用中中,,均均占占有有十十分分重重要要的的地地位位。。下一一张张主页页退出出上一一张张3.3.1正正态态分分布布的的定定义义及及其其特特征征1.正正态态分分布布的的定定义义若连连续续型型随随机机变变量量x的概率率分分布布密密度度函函数数为其中中μμ为为平平均均数数,,σσ2为方方差差,,则则称称随随机机变变量量x服从从正正态态分分布布,,记记为为x~N(μμ,σσ2)。。相相应应的的概率率分分布布函函数数为下一一张张主页页退出出上一一张张(3-12)(3-11)分布布密密度度曲曲线线如如图图3-4所所示示。。图3-4正正态态分分布布密密度度((函函数数))曲曲线线2.正正态态分分布布的的特特征征(1))正正态态分分布布密密度度曲曲线线是是单单峰峰、、对对称称的的悬悬钟钟形形曲曲线线,,对对称称轴轴为为x=μμ;;(2))f(x)在x=μμ处处达达到到极极大大,,极极大大值值(3))f(x)是非非负负函函数数,,以以x轴为为渐渐近近线线,,分分布布从从-∞∞至至+∞∞;;下一一张张主页页退出出上一一张张;(4))曲曲线线在在x=μμ±±σσ处处各各有有一一个个拐拐点点,,即即曲曲线线在在(-∞∞,μμ-σσ)和和(μμ+σσ,+∞∞)区区间间上上是是下下凸凸的的,,在在[μμ-σσ,μμ+σσ]区区间间内内是是上上凸凸的的;;(5))正正态态分分布布有有两两个个参参数数,,即即平平均均数数μμ和和标标准准差差σσ。。μ是是位位置置参参数数,,如如图图3——5所所示示。。当当σσ恒恒定定时时,,μμ愈愈大大,,则则曲曲线线沿沿x轴愈愈向向右右移移动动;;反反之之,,μμ愈愈小小,,曲曲线线沿沿x轴愈愈向向左左移移动动。。σ是是形形状状参参数数,,如如图图3——6所所示示。。当当μμ恒恒定定时时,,σσ愈愈大大,,表表示示x的取取值值愈愈分分散散,,曲曲线线愈愈““胖胖””;;σσ愈愈小小,,x的取取值值愈愈集集中中在在μμ附附近近,,曲曲线线愈愈““瘦瘦””。。下一张张主页页退出出上一张张图3-5σ相同同而μμ不同同的3个正正态分分布比比较图3-6μ相同同而σσ不同同的3个正正态分分布比比较大大(6))分布布密度度曲线线与横横轴所所围成成的区区间面面积为为1,,即::下一张张主页页退出出上一张张(7))正正态分分布的的次数数多数数集中中在平平均数数μ的的附近近,离离均数数越远远,其其相应应次数数越少少,在在3σσ以外外的极极少,,这就就是食食品工工业控控制中中的3σ原原理理的基基础。。正态分分布是是依赖赖于参参数μμ和σσ2(或σσ)的的一一簇分分布布,正正态曲曲线的的位置置及形形态随随μ和和σ2的不同同而不不同。。这这就给给研究究具体体的正正态总总体带带来困困难,,通通常常将一一般的的N(μ,,σ2)转转换换为μμ=0,σσ2=1的的正态态分布布。3.3.2标标准正正态分分布μ=0,σσ2=1的的正态分分布为标准正正态分分布(standardnormaldistribution)。。标准正正态分分布的的概率率密度度函数数及分分布函函数分分别记记作ψ(u)和Φ(u),下一张张主页页退出出上一张张(3-14)μ=0σ=1(3-13)随机变变量u服从标标准正正态分分布,,记作作u~N(0,,1),分分布密密度曲曲线如如图3—7所示示。图3-7标标准准正态态分布布曲线线对于任任何一一个服服从正正态分分布N(μ,σ2)的随随机变变量x,都可可以通通过标标准化化变换换,u=(x-μ)/σ(3-15)将其变变换为为服从从标准准正态态分布布的随随机变变量u。u称为标标准正正态变变量或或标准准正态态离差差。下一张张主页页退出出上一张张x~N(μ,σ2)x~N(0,1)u=(x-μ)/σ3.3.3正正态分分布的的概率率计算算1.标标准准正态态分布布的概概率计计算设u服从标标准正正态分分布,,则u在[u1,u2)内取取值的的概率率为::=Φ(u2)-ΦΦ(u1)(3-16)Φ(u1)与ΦΦ(u2)可由由附表表1查查得。。下一张张主页页退出出上一张张例如,,u=1.75时,,由附附表1可以以查出出Φ(1.75)=0.95994有时会会遇到到给定定Φ(u)值,,例例如ΦΦ(u)=0.284,反反过来来查u值。这这时只只需在在附表表1中中找到到与0.284最最接接近的的值0.2843,,对应应查出出相应应的u值为为u=-0.57,,即Φ(-0.57)=0.284下一张张主页页退出出上一张张由标准准正态态分布布概率率计算算式及及正态态分布布的对对称性性可推推出下下列关关系式式:P(0≤≤u<u1)=P(u≥u1)=P(|u|≥u1)=P(|u|<u1)=P(u1≤u<u2)=下一张张主页页退出出上一张张Φ(u1)-0.5Φ(-u1)2Φ(-u1)(3-17)1-2Φ(-u1)Φ(u2)-ΦΦ(u1)【例3.7】已已知u~N(0,,1),试试求::(1)P(u<-1.64)=?(2)P(u≥2.58)=?(3)P(|u|≥2.56)=?(4)P(0.34≤u<1.53)=?下一张张主页页退出出上一张张(1)P(u<-1.64)=0.05050(2)P(u≥2.58)=Φ(-2.58)=0.024940(3)P(|u|≥2.56)=2ΦΦ(-2.56)=2××0.005234=0.010468(4)P(0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389下一张张主页页退出出上一张张对于标标准正正态分分布,,特殊殊区间间的概概率为为:P(-1≤u<1))=0.6826P(-2≤u<2)=0.9545P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99标准正态分分布的三个个常用概率率如图示下一张主页页退出上一张u变量在上述述区间以外外取值的概概率分别为为:P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.6826=0.3174P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01下一张主页页退出上一张统计检验中常用2.一般般正态分布的的概率计算若随机变量x服从正态分布布N(μ,σ2),则x的取值落在任任意区间[x1,x2)的概率,,记作P(x1≤x<x2),等于图3—8中阴阴影部分的面面积。即:下一张主页退出上一张图3-8正正态分布的概概率对(3-18)式作变变换u=(x-μ)/σ,,得dx=σdu,故有下一张主页退出上一张(3-18)其中,表明服从正态态分布N(μ,σ2)的随机变量量x在[x1,x2)内取值的概概率,等于于服从标准正正态分布的的随机变量u在[(x1-μ)/σ,(x2-μ)/σ))内取值的概概率。因此,计算一一般正态分布布的概率时,,只要将原原区间的上下下限作适当变变换(标准化),就可用用查标准正态态分布的概率率表的方法求求取某一区间间的概率。下一张主页退出上一张【例3-8】】P53已知x~N(100,22),试求P(100≤x<102)==?。=P(0≤u<1)=Φ(1)-Φ(0)=0.8413-0.5000=0.3413【例】设设x服从μ=30.26,σσ2=5.102的正态分布,,试求P(21.64≤x<32.98)。令则u服从标准正态态分布,故=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564下一张主页退出上一张关于一般正态态分布,以下下几个概率(即随机变量量x落在μ加减不不同倍数σ区区间的概率)是经常用到到的。P(μ-σ≤x<μ+σ)=P(μ-2σ≤≤x<μ+2σ)=P(μ-3σ≤≤x<μ+3σ)=P(μ-1.96σ≤x<μ+1.96σ)=P(μ-2.58σ≤x<μ+2.58σ)=0.68260.95450.99730.950.99在数理统计分分析中,不仅仅注意随机变变量x落在平均数加加减不同倍数数标准差区间间(μ-kσ,μ+kσ)之内的概概率,更关心的是x落在此区间之之外的概率。。把随机变量x落在平均数μμ加减不同倍倍数标准差σσ区间之外的的概率称为双侧概率(两两尾概率),,记作α。下一张主页退出上一张对应于双侧概概率,也可以以求得随机变变量x小于μ-kσ或大于μ+kσ的概率,称称为单侧概率(一一尾概率),记作α/2。。图3—9两两尾概率附表2给出了了满足P(|u|>)=αα的双侧分位位的的数值。。因此,只只要已知双侧侧概率α的值值,由附表2就可直接查查出对应的双双侧分位数。。例如,已知u~N(0,1)试试求:(1)P(u<-)+P(u≥)=0.10的(2)P(-≤≤u<﹚﹚=0.86的由于附表2中中的α值是::下一张主页退出上一张(1)P(u<-)+P(u≥)=0.10=α由附表2查得得:=1.644854(2)P(-≤≤u<)=0.86,α=1-P(-≤≤u<)=1-0.86=0.14由附表2查得得:=1.475791对于x~N(μ,σ2),只要将其其转换为u~N(0,1),即可求得相相应的双侧分分位数。下一张主页退出上一张【例3-9】】已知饮饮料灌装量x(ml)服从正态分布布N(250,1.582),若P(x<)=0.05,P(x≥)=0.05,求,。。P54由题意可知,,α/2=0.05,αα=0.10因为P(x≥)=故P(x<)+P(x≥)=P(u<-)+P(u≥)下一张主页退出上一张=1-P(-≤≤u<)=0.10=α由附表2查得得:=1.644854,所所以(-250)/1.58=-1.644854(-250)/1.58=1.644854即==247.40,==252.60。下一张张主页页退出出上一张张和分分别别为a=0.10((双侧侧)时时的下下侧分分位数数和上上侧分分位数数前面讨讨论的的三个个重要要的概概率分分布中中,前前两个个属离离散型型随机机变量量的概概率分分布,,后一一个属属连续续型随随机变变量的的概率率分布布。三三者者间的的关系系如下下:对于二二项分分布,,在n→∞,p→0,,且且np=λ(较小小常数数)情情况下下,,二项项分布布趋于于波松松分布布。在这这种场场合,,波松松分布布中的的参数数λ用用二项项分布布的np代之;;在n→∞,p→0.5时时,二二项分分布趋趋于正正态分分布。。在这种种场合合,,正态态分布布中的的μμ、σσ2用二项项分布布的np、npq代之。。在实际际计算算中,,当p<0.1且n很大时时,二二项分分布可可由波波松分分布近近似;;当p>0.1且且n很大时时,二二项分分布可可由正正态分分布近近似。。下一张张主页页退出出上一张张对于波波松分分布,,当λλ→∞∞时,,波波松分分布以以正态态分布布为极极限。。在实际际计算算中,,当当λλ≥≥20(也有有人认认为λλ≥6)时时,用用波松松分布布中的的λ代代替正正态分分布中中的μμ及σσ2,即可可由后后者对对前者者进行行近似似计算算。下一张张主页页退出出上一张张研究总总体与与所抽抽取的的样本本之间间的关关系是是统计计学的的中心心内容容。。对这种种关系系的研研究从从两方方面着着手::一是从从总体体到样样本,,这这就是是研究究抽样分分布(samplingdistribution)的问问题;;二是从从样本本到总总体,,这就就是统计推推断(statisticalinference)问题题。下一张张主页页退出出上一张张4抽抽样样分布布统计推推断是是以总总体分分布和和样本本抽样样分布布的理理论关关系为为基础础的。。为了了能正正确地地利用用样本本去推推断总总体,,并能能正确确地理理解统统计推推断的的结论论,必必须对对样本本的抽抽样分分布有有所了了解。。由总体体中随随机地地抽取取若干干个体体组成成样本本,即即使每每次抽抽取的的样本本含量量相等等,其其统计计量(如,,S)也也将随随着样样本的的不同同而有有所不不同,,因而而样本本统计计量也也是随随机变变量,,也有有其概概率分分布。。我们们把统计量量的概概率分分布称称为抽抽样分分布。下一张张主页页退出出上一一张张由总总体体随随机机抽抽样样(randomsampling)的的方方法法可可分分为为有返返置置抽抽样样和和不不返返置置抽抽样样两种种。。前前者者指指每每次次抽抽出出一一个个个个体体后后,,这这个个个个体体应应返返置置回回原原总总体体;;后后者者指指每每次次抽抽出出的的个个体体不不返返置置回回原原总总体体。。对对于于无无限限总总体体,,返返置置与与否否都都可可保保证证各各个个体体被被抽抽到到的的机机会会相相等等。。对对于于有有限限总总体体,,就就应应该该采采取取返返置置抽抽样样,,否否则则各各个个体体被被抽抽到到的的机机会会就就不不相相等等。。下一一张张主页页退出出上一一张张4.1样样本本平平均均数数的的抽抽样样分分布布设有有一一个个总总体体,,总总体体平平均均数数为为μμ,方方差差为为σσ2,总总体体中中各各变变数数为为x,将将此此总总体体称称为为原原总总体体。。现现从从这这个个总总体体中中随随机机抽抽取取含含量量为为n的样样本本,,样样本本平平均均数数记记为为。。可以以设设想想,,从从原原总总体体中中可可抽抽出出很很多多甚甚至至无无穷穷多多个个含含量量为为n的样样本本。。由由这这些些样样本本算算得得的的平平均均数数有有大大有有小小,,不不尽尽相相同同,,与与原原总总体体平平均均数数μμ相相比比往往往往表表现现出出不不同同程程度度的的差差异异。。这这种种差差异异是是由由随随机机抽抽样样造造成成的的,,称称为为抽样样误误差差(samplingerror)。。下一一张张主页页退出出上一一张张总体体样本本观测测前前样本本值值1样本本值值2…样本值n随抽机样…(x1,x2,…xn)(x1,x2,…xn)(x1,x2,…xn)样本值1样本值2样本值nX1,X2,…,Xn随抽机样样本总体X观测以后……………显然然,,样样本本平平均均数数也也是是一一个个随随机机变变量量,,其其概概率率分分布布叫叫做做样本本平平均均数数的的抽抽样样分分布布。由由样样本本平平均均数数构构成成的的总总体体称称为为样本本平平均均数数的的抽抽样样总总体体。其其平平均均数数和和标标准准差差分分别别记记为为和和。。是样本本平平均均数数抽抽样样总总体体的的标标准准差差,简简称称标准准误误(standarderror),,它它表示示平平均均数数抽抽样样误误差差的的大大小小。统统计计学学上上已已证证明明总总体体的的两两个个参参数数与与x总体体的的两两个个参参数数有有如如下下关关系系::下一一张张主页页退出出上一一张张(3-19)=μ,(1))若若随随机机变变量量x服从从正正态态分分布布N(μμσσ2),、、、……、是是由由x总体得来来的随机机样本,,则统计计量=Σx/n的概率分分布也是是正态分分布,且且有==μ,,,,即即~N(μ,σσ2/n)。(2)若若随机变变量x服从平均均数是μμ,方方差是σσ2的分布(不是正态态分布);,,,,…,是是由此此总体得得来的随随机样本本,则统统计计量=Σx/n的概率分分布,当当n相当大时时逼近正正态分布布N(μ,σσ2/n)。这就就是中心心极限定定理。下一张主页页退出出上一张X变量与变变量概率率分布间间的关系系可由下下列两个个定理说说明:由中心极极限定理理可知,,不论x变量是连连续型的的还是离离散型的的,也无无论x服从何种种分布,,一般只只要n>30,,就可认认为的的分布布是正态态的。若若x的分布不不很偏倚倚,在n>20时时,的的分分布就近近似于正正态分布布。下一张主页页退出出上一张均数标准准误标准误(平均数抽抽样总体体的标准准差)的的大大小,反反映样本本平均数数的的抽样误差差的大小,,即精确确性的高高低。。标准准误大,,说明各各样本平平均数间间差异异程度大大,样本本平均数数的精确确性低。。反之,,小小,说说明间的的差异程程度小,,样样本平均均数的精精确性高高。的的大小与与原总体体的标准准差σ成成正比,,与样本本含量n的平方根根成反比比。从特定总总体抽样样时,,因为σσ是一常常数,,所以只只有增大大样本含含量才能能降低样样本平均均数的的抽样样误差。。下一张主页页退出出上一张但在实际际工作中中,总体体标准差差σ往往往是未知知的,因因而无法法求得。。此时时,可用用样本标标准差S估计σ。。于是,,以估估计。。记为为,,称作作样本标准准误或均均数标准准误。样样本标准准误是是平均均数抽样样误差的的估计值值。若样本本中各观观测值为为,,,,…,,,,则则下一张主页页退出出上一张(3-20)注意,样样本标准准差与样样本标准准误是既既有联系系又有区区别的两两个统计计量,(3-20)式式已表表明了二二者的联联系。二二者的区区别在于于:样本标标准准差S是反映映样样本中中各观测测值,,,,……,变变异异程度度大小小的一个个指标,,它的大大小说明明了对对该该样本本代表性性的强弱弱。样本标准准误是样样本平均均数的的标准准差,它它是抽样样误差的的估计值值,其其大小说说明了样样本间变变异程度度的大小小及精精确确性的高高低。下一张主页页退出出上一张对于大样样本资料料,常将将样本标标准差S与样本平平均数配配合使使用,记为±±S,用以说明所所考察性状或或指标的优良良性与稳定性性。对于小样本资资料,常将样样本标准误与与样本平均数数配配合使用,记为±±,,用用以表示所所考察性状状或指标的优优良性与抽抽样误差的大大小。下一张主页退出上一张4.2两两样本均数差差数的抽样分分布设x1~,x2~,,且x1与x2相互独立立,由这两个个总体中抽样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省二级建造师b证考试试题及答案
- 过关法律考试题及答案
- 针对性计算机二级试题及答案攻略
- MySQL表结构修改注意事项试题及答案
- 广东省计算机ps二级试题及答案
- 多线程与Python并发编程试题及答案
- 法律咨询试题及答案大全
- 法律职业伦理试题及答案
- 考前冲刺计算机二级试题及答案解答
- 数据库安全性考试试题及答案
- 多源异构数据融合关键技术研究
- 护患沟通与护患纠纷防范课件
- 医院培训课件:《护患沟通技巧》
- 食品安全监督抽查与抽检培训
- 脐带脱垂护理病例讨论
- 空调风道改造技术方案
- 前悬挂整秆式甘蔗收割机双刀盘切割与喂入装置设计与试验的中期报告
- 《不朽的贝尼尼雕塑》课件
- 《如何阅读文献》课件
- 建筑工程抗浮技术标准JGJ476-2019
- 云计算标准体系研究报告
评论
0/150
提交评论