第四讲 概率和概率分布_第1页
第四讲 概率和概率分布_第2页
第四讲 概率和概率分布_第3页
第四讲 概率和概率分布_第4页
第四讲 概率和概率分布_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲概率和概率分布第1页,共122页,2023年,2月20日,星期三上一章内容回顾试验资料均具有集中性和离散性两种基本特征。平均数是反映集中性的特征数,变异数是反映离散性的特征数。平均数包括算术平均数、中位数、众数和几何平均数。算术平均数具有离均差之和等于零和离均差平方和为最小的性质。变异数包括极差、方差、标准差和变异系数。方差等于观测值离均差的平方和除以自由度,可以反映出资料中每一个观测值的变异。标准差是方差的平方根,其单位与平均数相符;用标准差除以平均数即为变异系数,可以进行单位不同资料间变异程度的比较。第2页,共122页,2023年,2月20日,星期三前面两章,我们介绍了如何搜集和整理样本资料。但是,我们研究一组样本数据的最终目的不在于研究样本本身,而是根据样本提供的信息对其来自的总体的特征和分布规律作出尽可能精确和可靠的推断,这称为统计推断。由于抽样误差的存在,统计推断的结论带有一定的不确定性,即它不可能是完全正确的。所以,我们在理解和运用统计推断的方法之前,必须熟悉不确定性的理论-概率和概率分布。第3页,共122页,2023年,2月20日,星期三第一节概率的基本概念一、概率论的一些基本术语1、试验:通常我们把根据某一研究目的,在一定条件对自然现象所进行的观察或试验统称为试验。例如,抛一枚硬币;掷一次骰子;观察随机挑选的6个新生婴儿中男婴的数目第4页,共122页,2023年,2月20日,星期三2、随机试验:试验之前无法预测出现哪一个结果的试验称为随机试验。例如,抛硬币;掷骰子;观察随机挑选的6个新生婴儿中男婴的数目;在一定条件下生长的小麦随机挑选出一株测株高。注意:生物统计学里是以随机试验为研究对象的。第5页,共122页,2023年,2月20日,星期三3、基本事件:试验的每一个最基本的结果。一般用小写字母a,b,c,…来表示4、事件:基本事件的集合。一般用大写字母A,B,C,…来表示6、不可能事件:任何一次试验中,一定不会出现的结果。其概率为0,用Φ表示。5、必然事件-----对于一类事件来说,在同一组条件的实现之下必然要发生的,称为必然事件;其概率为1。第6页,共122页,2023年,2月20日,星期三例一,在掷一次骰子的试验中,有如下的一些可能发生的事件:基本事件有6个:{1},{2},{3},{4},{5},{6}其它的事件有:事件A=得到一个奇数={1,3,5}事件D=得到一个不小于2的数={2,3,4,5,6}事件B=得到一个偶数={2,4,6}事件C=得到最大的数={6}事件E=得到数字0=Φ第7页,共122页,2023年,2月20日,星期三7、频率频率的定义:设事件A在n次重复试验中发生了m次,其比值m/n称为事件A发生的频率,记为W(A)=m/n显然事件A的频率是介于0和1之间的一个数0≤W(A)≤1第8页,共122页,2023年,2月20日,星期三8、概率一个事件A的概率,记为P(A),是事件A发生的可能性的定量计量。概率的三个性质: (1)任何事件概率均满足0≤P(A)≤1 (2)必然事件的概率为1 (3)不可能事件的概率为0,即P(Φ)=0注意:计算概率时,结果为5或-0.3时肯定是错误的。概率(probability)----每一个事件出现的可能性称为该事件的概率。第9页,共122页,2023年,2月20日,星期三概率的求法两种途径:(1)统计方法(适用于进行了大量试验时):假设试验共进行n次,事件A出现了m次,则事件A发生的频率是m/n。随着n的增大,频率m/n趋于一个常数p,那么p就是事件A发生的概率。例如:如何求一个人某年中被闪电击中的概率?中国1.3×109人中,在2008年被闪电击中的人数为3900人,则某人被闪电击中的概率为3900/1.3×109=3×10-6。第10页,共122页,2023年,2月20日,星期三(2)理论方法(适用于可以进行数学推算,在试验的每个基本事件等可能时):例如:A=掷骰子得到一个奇数={1,3,5}的概率为 P(A)=m/n=3/6=1/2第11页,共122页,2023年,2月20日,星期三解:事件A=孩子性别为两男={男男} 所有可能的基本事件有:{男男}{男女}{女男}{女女} 所以P(A)=m/n=1/4两个孩子的家庭里,孩子性别为两男的概率是多少?同理,孩子性别为一男一女的概率是2/4=1/2注意:在生物统计学里,我们着重于讨论理论方法。第12页,共122页,2023年,2月20日,星期三二、事件间的关系1、和事件2、积事件3、互斥事件4、对立事件5、完全事件系6、事件的独立性第13页,共122页,2023年,2月20日,星期三

1、和事件事件A和B至少有一个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或者A发生,或者B发生”。例如,有一批种子,包含有能发芽的和不能发芽的。若A为“取到能发芽种子”,B为“取到不能发芽种子”,则A+B为“或者取到能发芽种子或者取到不能发芽种子”。事件间的和事件可以推广到多个事件:事件A1、A2、…、An至少有一发生而构成的新事件称为事件A1、A2、…、An的和事件,记为A1+A2+…+An=第14页,共122页,2023年,2月20日,星期三2、积事件事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作AB,读作“A和B同时发生”。事件间的积事件也可以推广到多个事件:事件A1、A2、…、An同时发生所构成的新事件称为这n个事件的积事件,记作A1A2…An=第15页,共122页,2023年,2月20日,星期三3、互斥事件

事件A和B不可能同时发生,即AB为不可能事件,记作A·B=V,称事件A和B互斥或互不相容。例如,有一袋种子,按种皮分黄色和白色。若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。这一定义也可以推广到n个事件。事件A1、A2、…、An不可能同时发生所构成的新事件称为这n个事件互斥或互不相容,记作A1·A2…·An=V

第16页,共122页,2023年,2月20日,星期三4、对立事件事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为。例如,上面例子中A为“取到黄色”,B为“取到白色”,A与B不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此,A和B互为对立事件。第17页,共122页,2023年,2月20日,星期三5、完全事件系

若事件A1、A2、…、An两两互斥,且每次试验结果必发生其一,则称A1、A2、…、An为完全事件系。例如,仅有三类花色:黄色、白色和红色,则取一朵花,“取到黄色”、“取到白色”和“取到红色”就构成完全事件系。第18页,共122页,2023年,2月20日,星期三6、事件的独立性若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A与事件B相互独立。第19页,共122页,2023年,2月20日,星期三三、计算事件概率的法则1、互斥事件的加法2、独立事件的乘法3、对立事件的概率4、完全事件系的概率5、非独立事件的乘法第20页,共122页,2023年,2月20日,星期三1、互斥事件的加法

假定两互斥事件A和B的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。加法定理对于多个两两互斥的事件也成立:假定A1、A2、…、An

n个事件彼此间均是两两互斥的事件,其概率依次为P(A1),P(A2),…,P(An),则A1,A2到An和事件的概率P(A1+A2+…+An)等于P(A1),P(A2),…,P(An)之和,即P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)。第21页,共122页,2023年,2月20日,星期三例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。第22页,共122页,2023年,2月20日,星期三2、独立事件的乘法假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率等于两独立事件出现概率P(A)与P(B)的乘积,即P(AB)=P(A)P(B)乘法定理对于n个相互独立的事件也成立。假定P(A1),P(A2),…,P(An)是n个相互独立事件各自出现的概率,则该n个事件同时出现的概率P(A1A2…An)等于各自出现概率之乘积,即P(A1A2…An)=P(A1)P(A2)…P(An)。第23页,共122页,2023年,2月20日,星期三

现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列两事件的概率:(A)第一次抽到黄色、第二次抽到白色;(B)两次都抽到黄色。由于采用复置抽样(即每一次抽出观察结果后又放回再进行下一次抽样),所以第一次和第二次的抽样结果间是相互独立的。

第24页,共122页,2023年,2月20日,星期三采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为0.25。因此,有P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子)

=0.25×0.75=0.1875,P(B)=P(第一次黄色种子)P(第二次黄色种子)

=0.75×0.75=0.5625。第25页,共122页,2023年,2月20日,星期三3、对立事件的概率

若事件A的概率为P(A),那么其对立事件的概率为:第26页,共122页,2023年,2月20日,星期三4、完全事件系的概率完全事件系的概率为1。

例如“从10个数字中随机抽得任何一个数字都可以”这样一个事件是完全事件系,其概率为1。

第27页,共122页,2023年,2月20日,星期三5、非独立事件的乘法

如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),即:P(AB)=P(A)P(B|A)第28页,共122页,2023年,2月20日,星期三第二节概率分布一、随机变量1、随机变量:就是随机试验中被测的变量。例如:(1)测量一定条件下生长的小麦的株高。小麦株高是随机变量(2)从1000只动物(雌雄各半)的群体,放回式抽样,每次抽取10只,记录其中雄性的个数。设10只动物中雄性的个数为X,则X就是一个随机变量。随机变量的取值有随机性。随机变量所有可能值的分布规律称为概率分布。第29页,共122页,2023年,2月20日,星期三随机变量能帮助我们深入理解总体和样本的概念,使总体和样本的关系更加明确。随机变量的引入使统计学的深入研究成为可能。随机变量与总体和样本的关系总体:随机变量可能取值的全体样本:随机变量的n个独立观察值例如在研究一定条件下生长的小麦的株高时,总体是所有在这种条件下生长的小麦的株高的全体,也就是小麦株高这个随机变量的所有可能的取值。假如获得了200株小麦株高数据的样本,样本也就是小麦株高这个随机变量的200次独立观测值。第30页,共122页,2023年,2月20日,星期三随机变量一般用大写字母来表示,如X,Y,U等。变量的观测值一般用小写字母来表示,如xi,yi,ui等表示随机变量X,Y,U的第i次观测值。第31页,共122页,2023年,2月20日,星期三2、随机变量的类型(1)离散型变量:取值有限个或可数无穷个孤立的数值。譬如:a,掷一次骰子得到的数 b,一只母鸡一周里下的蛋数(2)连续型变量:可能取值为某范围(或某区间)内的任何值。可能取的值间不存在间隙。譬如:a,小麦株高 b,奶牛产奶量第32页,共122页,2023年,2月20日,星期三二、概率分布变量的概率分布是描述该变量的所有值的分布的规律,也就是变量对应的总体的分布。概率分布总体的值的分布频数分布样本的值的分布第33页,共122页,2023年,2月20日,星期三1、离散型随机变量的概率分布----当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:概率变量yiy1y2y3…ynP1P2P3…Pn也可用函数f(y)表述,称为概率函数。第34页,共122页,2023年,2月20日,星期三例:抛硬币试验,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数“1”表示“币值面向上”,用数“0”表示“国徽面向上”。把0,1作为变量y的取值。在讨论试验结果时,就可以简单地把抛硬币试验用取值为0,1的变量来表示。P(y=1)=0.5,P(y=0)=0.5

0.50.5概率10变量y)(iyyP=第35页,共122页,2023年,2月20日,星期三变量y01概率qp例:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然

p+q=1,则

P(y=1)=p,P(y=0)=q=1-p。第36页,共122页,2023年,2月20日,星期三2、连续型随机变量的概率分布----对于随机变量,若存在非负可积函数f(y)(-∞<y<+∞),对任意a和b(a<b)都有P(a≤y<b)=,则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity)。例如:第37页,共122页,2023年,2月20日,星期三例:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。则用变量y的取值范围来表示的试验结果为

P(y≤300)=0.10,P(300<y≤500)=0.65,P(y>500)=0.25。第38页,共122页,2023年,2月20日,星期三连续型变量的一个特征是取的值非常多(不可数),无法象离散型变量那样对每一个值赋予一个概率。所以,在研究连续型变量时,我们不研究它取每个值的概率,即P(X=x),而是研究它在一个区间中取值的概率。具体来说,有三种形式:P(a<X<b)P(X<c)P(X>d)另一方面原因:P(X=x)=0(对于任何x)第39页,共122页,2023年,2月20日,星期三在研究连续型变量概率时,“>”,“<”均可相应换成“≥”,“≤”,而概率数值不变。P(a<X<b)=P(a≤

X≤

b)P(X<c)=P(X≤

c)P(X>d)=P(X≥d)问题:怎样求这三种概率?答:借助于密度函数f(x)曲线(或称概率分布密度曲线)第40页,共122页,2023年,2月20日,星期三每个连续型变量都有它自己的密度函数曲线。f(x)的图形密度函数曲线总在x轴的上方,且曲线下的总面积等于1。第41页,共122页,2023年,2月20日,星期三第42页,共122页,2023年,2月20日,星期三一个术语:分布函数或称累积分布函数,是随机变量X取得小于x0的值的概率。F(x0)第43页,共122页,2023年,2月20日,星期三在分布函数已知的情况下,概率也可以通过分布函数来求。第44页,共122页,2023年,2月20日,星期三第45页,共122页,2023年,2月20日,星期三三、大数定理大数定律(lawoflargenumbers)是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。常用的有:1、贝努里大数定律(Bernoullitheorem)2、辛钦大数定律(Khinchinetheorem)第46页,共122页,2023年,2月20日,星期三一、二项总体与二项式分布二、二项式分布的概率计算方法三、二项式分布的形状和参数四、泊松分布五、正态分布第三节几种常见的理论分布第47页,共122页,2023年,2月20日,星期三一、二项总体与二项式分布有些总体的各个个体的某些性状,只能发生非此即彼的两种结果,“此”和“彼”是对立事件。例如种子的发芽与不发芽,施药后害虫的死或活,产品的合格与不合格。这种由非此及彼事件构成的总体,称之为二项总体(binomialpopulation)。第48页,共122页,2023年,2月20日,星期三为便于研究,通常给“此”事件以变量“1”,具概率p;给“彼”事件以变量“0”,具概率q其概率关系为:

p+q=11-q=p如果我们每次抽取0、1总体的n个个体,则所得变量y(表示n次试验中事件A出现的结果)将可能有0,1,…n,共n+1种。这n+1变量有它各自的概率而组成一个分布。这个分布叫做二项概率分布,简称二项分布(binomialdistribution)。第49页,共122页,2023年,2月20日,星期三例如,观察施用某种农药后蚜虫的死亡数,记“死”为0,“活”为1。如果每次观察5只,则观察的结果将有0(5只全死)、1(4死1活)、2(3死2活)、3(2死3活)、4(1死4活)、5(5只全活),共6种变量。由这6种变量的相应概率组成的分布,就是n=5时活虫数的二项分布。第50页,共122页,2023年,2月20日,星期三二、二项式分布的概率计算方法下面用一个例子来讲解这一问题。红花豌豆和白花豌豆杂交,F2代出现红花的概率为p=3/4,出现白花的概率为q=1/4。如果将F1代种子成行种植,每行种4粒。问一行全是红花、三株红花、二株红花、一株红花、0红花的概率各是多少。第51页,共122页,2023年,2月20日,星期三这实际上是以n=4,从p=3/4,q=1/4的二项总体中抽样构成二项分布的问题。为方便,以“1”代表出现红花的事件,“0”代表出现白花的事件。第52页,共122页,2023年,2月20日,星期三红花数组合数xF(x)4红3红2红1红0红(1,1,1,1)4P(x=4)=1p4=0.754=0.3164(1,1,1,0)(1,1,0,1)(1,0,1,1)(0,1,1,1)3P(x=3)=4p3q1=4×0.753×0.25=0.4219(1,1,0,0)(1,0,1,0)(1,0,0,1)(0,1,1,0)(0,1,0,1)(0,0,1,1)2P(x=2)=6p2q2=6×0.752×0.252=0.2109(1,0,0,0)(0,1,0,0)(0,0,1,0)(0,0,0,1)1P(x=1)=4p1q3=4×0.75×0.253=0.0409(0,0,0,0)0P(x=0)=1q4=0.254=0.0039第53页,共122页,2023年,2月20日,星期三上例各项的概率相当于(p+q)4的展开:(p+q)4=C40p4+C41p3q+C42p2q2+C43pq3+C44q4

=p4+4p3q+6p2q2+4pq3+q4同理,以样本容量为n进行的抽样,得到的概率分布为(p+q)n的展开。每一项的系数为:(0≤k≤n)第54页,共122页,2023年,2月20日,星期三计算二项分布任何一项概率的通式为:例4.2某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?第55页,共122页,2023年,2月20日,星期三8头愈好,2头死去的概率为:7头愈好,3头死去的概率为:第56页,共122页,2023年,2月20日,星期三9头愈好,1头死去的概率为:10头全部愈好的概率为:若计算10头中不超过2头死去的概率为多少?则应该应用累积概率,即:第57页,共122页,2023年,2月20日,星期三三、二项式分布的形状和参数一、形状P=0.35,n=5的概率分布图第58页,共122页,2023年,2月20日,星期三(p=0.5,n=5)的概率分布图第59页,共122页,2023年,2月20日,星期三当p=q时。二项分布呈对称形状,如p≠q,则表现偏斜形状。但从理论和实践检验,当n很大时即使p≠q,它也接近对称形状。所以这一理论分布是由n和p两个参数决定的。二、参数凡描述一个总体,平均数和方差(或标准差)两个参数是重要的。二项总体,其平均数μ、方差σ2和标准差σ为:

μ=np,σ2=npq第60页,共122页,2023年,2月20日,星期三四、泊松分布应用二项分布时,有时会遇到一个概率p或q很小的值,例如小于0.1,另一方面n又相当大,这时二项分布就变成另外一种特殊的分布,称为泊松概率分布,简称泊松分布(Poissondistribution)。

式中:λ=npx=0,1,2,…,∞第61页,共122页,2023年,2月20日,星期三凡在观察次数n(n相当大)中,某一事件出现的平均次数m(m是一个定值)很小,那么,这一事件出现的次数将符合泊松分布。泊松分布在生物学研究中是经常遇到的,例如,昆虫与植物种类在一定面积的分布,病菌侵害作物的分布,一个显微镜视野内的细菌计数以及原子衰变的规律等随机变数。泊松分布的平均数、方差和标准差为:第62页,共122页,2023年,2月20日,星期三泊松分布是一种用来描述一定的空间或时间里稀有事件发生次数的概率分布。服从泊松分布的变量的一些例子:

一定畜群中某中患病率很低的非传染性疾病患病数或死亡数。畜群中遗传的畸形怪胎数单位空间内某些野生动物或昆虫数每升饮水中的大肠杆菌数第63页,共122页,2023年,2月20日,星期三例:显微镜下观察一种悬浮液中的某种颗粒,据前人报告,平均每张样片可以观察到3个微粒,问在一次观察中看到3个微粒的概率是多大?少于3个微粒的概率是多少?若观察100张片子,大约有多少张片子看到的微粒数少于3个?第64页,共122页,2023年,2月20日,星期三(一)二项分布的极限—正态分布(二)正态分布曲线的特性(三)计算正态分布曲线区间概率的方法五、正态分布第65页,共122页,2023年,2月20日,星期三五、正态分布(一)二项分布的极限—正态分布(二)正态分布曲线的特性(三)计算正态分布曲线区间面积或概率的方法第66页,共122页,2023年,2月20日,星期三一、二项分布的极限—正态分布以二项分布棉株受害率为例,假定受害概率p=1/2,那么,p=q=1/2。现假定每个抽样单位包括20株,这样将有21个组,其受害株的概率函数为于是概率分布计算如下:第67页,共122页,2023年,2月20日,星期三现将这概率分布绘于图4.5。从图4.5看出它是对称的,分布的平均数和方差为:=npq=20(1/2)(1/2)=5(株)2。=np=20(1/2)=10(株),

第68页,共122页,2023年,2月20日,星期三图4.5棉株受害率(0.5+0.5)20分布图(实线表示二项式概率分布,虚线表示接近的正态分布曲线)如p=q,不论n值大或小,二项分布的多边形图必形成对称;如p≠q,而n很大时,这多边形仍趋对称。第69页,共122页,2023年,2月20日,星期三倘n或组数增加到无穷多时(n→∞),多边形的折线就表现为一个光滑曲线。这个光滑曲线在数学上的意义是一个二项分布的极限曲线,属于连续性变数分布曲线,一般称之为正态分布曲线或正态概率密度曲线。可以推导出正态分布的概率密度函数为:(4·9)

其中,y是所研究的变数;是概率密度函数;和为总体参数,表示所研究总体平均数,表示所研究总体标准差,不同正态分布可以有不同的和,但某一定总体的和是常数。

第70页,共122页,2023年,2月20日,星期三参数和有如下的数学表述(4·10)

令可将(4·9)式标准化为:

(4·11)

上式称为标准化正态分布方程,它是参数时的正态分布(图4.7)。记作N(0,1)。

第71页,共122页,2023年,2月20日,星期三正态分布的曲线图-3-2-10123图4.6正态分布曲线图(平均数为,标准差为)图4.7标准正态分布曲线图(平均数为0,标准差为1)

第72页,共122页,2023年,2月20日,星期三二、正态分布曲线的特性

1.正态分布曲线是以y=为对称轴,向左右两侧作对称分布,所以它是一个对称曲线。从所竖立的纵轴f(y=)是最大值,所以正态分布曲线的算术平均数、中数和众数是相等的,三者均合一位于点上。

2.正态分布曲线以参数和的不同而表现为一系列曲线,所以它是一个曲线簇而不仅是一个曲线。确定它在横轴上的位置,而确定它的变异度,不同和的正态总体具有不同的曲线和变异度,所以任何一个特定正态曲线必须在其和确定后才能确定。图4.8和4.9表示这个区别。第73页,共122页,2023年,2月20日,星期三图4.8标准差相同(1)而平均数不同(=0、=1、=2)的三个正态分布曲线图4.9平均数相同(0)而标准差不同(=1、=1.5、=2)的三个正态分布曲线第74页,共122页,2023年,2月20日,星期三

3.正态分布资料的次数分布表现为多数次数集中于算术平均数附近,离平均数越远,其相应的次数越少;且在左右相等||范围内具有相等次数;在||≥3以上其次数极少。4.正态曲线在||=1处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当y→±∞,分布曲线以y轴为渐近线,因之曲线全距从-∞到+∞。

5.正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从y=y1到y=y2之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于y落于这个区间内的概率。

第75页,共122页,2023年,2月20日,星期三正态曲线的任何两个y定值ya与yb之间的面积或概率乃完全以曲线的和而确定的。详细数值见附表1,下面为几对常见的区间与其相对应的面积或概率的数字:区间±1面积或概率=0.6827±2=0.9545±3=0.9973±1.960=0.9500±2.576=0.9900第76页,共122页,2023年,2月20日,星期三例如,上章水稻140行产量资料的样本分布表现出接近正态分布,其平均数()、标准差(s)以及离均差为1、2和3个标准差的区间所包括的次数列于表4.5。实验的结果与正态分布的理论结果很相近。±ks数值(g)区间(g)区间内包括的次数次数%±1s157.9±36.4121.5~194.59970.71±2s157.9±72.885.1~230.713495.71±3s157.9±109.248.7~267.1140100.00表4.5

140行水稻产量在±1s,±2s,±3s范围内所包括的次数表第77页,共122页,2023年,2月20日,星期三三、计算正态分布曲线区间面积或概率的方法在正态分布曲线下,y的定值从y=a到y=b间的概率可用曲线下区间的面积来表示,或者说,用其定积分的值表示,如图4.10所示的面积。(4·13)同样可以计算曲线下从-∞到y的面积,其公式如下:(4·14)这里FN(y)称为正态分布的累积函数,具有平均数和标准差。

第78页,共122页,2023年,2月20日,星期三A=P(a<y<b)fN(y)图4.10正态分布密度函数的积分说明图面积A=P(a<y<b)第79页,共122页,2023年,2月20日,星期三现如给予变数任何一定值,例如a,那么,可以计算y≤a的概率为FN(a),即(4·15)如果a与b(a<b)是y的两个定值,则其区间概率可从下式计算:(4·16)当y=-∞,,当y=+∞,正态分布的密度函数fN(y)是按y值将累积函数FN(y)求其导数得之。第80页,共122页,2023年,2月20日,星期三图4.11正态分布的累积函数FN(y)

长度A=P(a<y≤b)第81页,共122页,2023年,2月20日,星期三

[例4.4]假定y是一随机变数具有正态分布,平均数

=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。

所有正态分布都可以转换为标准化正态分布方程式首先计算:先将y转换为u值

然后查表计算概率。第82页,共122页,2023年,2月20日,星期三同理可得:

FN(40)=0.9773

所以:P(26<y≤40)=FN(40)-FN(26)=0.9773-0.2119=0.7654

P(y>40)=1-P(y≤40)=1-0.9773=0.0227查附表2,当u=-0.8时,FN(26)=0.2119,说明这一分布从-∞到26范围内的变量数占全部变量数的21.19%,或者说,y≤26概率为0.2119.第83页,共122页,2023年,2月20日,星期三图4.12概率计算图示第84页,共122页,2023年,2月20日,星期三[例4.5]在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1的概率为:也可以简写为

第85页,共122页,2023年,2月20日,星期三相应地,离均差绝对值等于小于2、等于大于2、等于小于3和等于大于3的概率值为:以上结果解释了正态分布曲线的概率特性,可参考图4.13。第86页,共122页,2023年,2月20日,星期三图4.13离均差的绝对值≤1,2和1.96的概率值第87页,共122页,2023年,2月20日,星期三[例4.6]计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?

因为正态分布是对称的,故在曲线左边从-∞到-

u的概率和在曲线右边从u到∞的概率都应等于1/2(1-0.99)=0.005。查表,u=-2.58时,fN(y)

=0.00494≈0.005。于是知,当±2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:第88页,共122页,2023年,2月20日,星期三同理可求得:以上

乃正态曲线下左边一尾y从-∞到

上的面积和右边一尾y从到∞上的面积之和,亦可写成:同理,亦可写成:第89页,共122页,2023年,2月20日,星期三以上两式等号右侧的前一项为左尾概率,后一项为右尾概率,其和概率称为两尾概率值。在附表2列出了两尾概率取某一值时的临界u值(正态离差u值),可供直接查用。例如,可查得P=0.01时u=2.5758,P=0.05时u=1.9599,即表示:

P(|u|≥2.5758)=0.01,P(|u|≥1.9599)=0.05如果仅计算一尾,则为一尾概率值。例如计算

P(u≥1.6448)=P(|u|≥1.6448)=(0.1)=0.05这个0.05称为y值大于的一尾概率值。当概率一定时,两尾概率的|u|总是大于一尾概率|u|。第90页,共122页,2023年,2月20日,星期三第四节抽样分布前面我们谈到总体的参数是无法得到的,需要用样本的统计数进行估计。用统计数估计总体的相应参数,首先必须知道统计数与参数的关系,即要弄清楚总体和样本的关系。通过本节抽样分布的讨论,目的就是要搞清楚从总体中抽出所有可能的样本统计量的分布与原总体之间的关系。第91页,共122页,2023年,2月20日,星期三总体随机样本总体和样本的关系示意图总体234……n无穷多个样本1从样本到总体方向从总体到样本方向第92页,共122页,2023年,2月20日,星期三一、抽样试验从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计数,统计数分布称为抽样分布。抽样

复置抽样,指将抽得的个体放回总体后再继续抽样不复置抽样,指将抽得的个体不放回总体而继续进行抽样第93页,共122页,2023年,2月20日,星期三如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。每个样本可以计算一个平均数,这样就得到许多平均数,如果将这些平均数集合起来便构成一个新总体。由于每次随机抽样所得的平均数可能会存在差异,所以由平均数构成的新总体也应该有其分布,这种分布称为平均数的抽样分布。二、样本平均数的抽样及其分布第94页,共122页,2023年,2月20日,星期三在统计上,如果所有可能样本的某一统计数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值(unbiasedestimate)1、是μ的无偏估计值。2、s2是σ2的无偏估计值3、以n为除数的样本方差不是σ2的无偏估计值。4、s不是σ的无偏估计值。第95页,共122页,2023年,2月20日,星期三下面用一个抽样实验进一步说明样本平均数的抽样分布及其分布的参数。例:设有一总体N=3(2,4,6)。分别以样本容量n=1、n=2、n=4及n=8,从总体中进行复置抽样,抽出全部样本于表4.6。表4.6中列出这些不同样本容量的抽样分布,并在图4.15用方柱形图表示其分布形状。由表中第一列当N=3,n=1的总体平均数和方差为:

当样本容量依次为2、4、8时,其相应为4、4、4;其相应为4/3、2/3、1/3。即,。第96页,共122页,2023年,2月20日,星期三n=1n=2n=4n=8yffff24611123456123212.02.53.03.54.04.55.05.56.0141016191610412.002.252.502.753.003.253.503.754.004.254.504.755.005.255.505.756.001836112266504784101611071016784504266112368139816561平均数4444方差8/34/32/31/3表4.6各种不同样本容量的样本平均数()的抽样分布

第97页,共122页,2023年,2月20日,星期三n=1n=2图4.15各种不同样本容量的

分布方柱形图第98页,共122页,2023年,2月20日,星期三图4.15各种不同样本容量的

分布方柱形图n=4n=8第99页,共122页,2023年,2月20日,星期三当n=2时样本平均数分布的平均数为:样本平均数分布的方差为:第100页,共122页,2023年,2月20日,星期三当n=4时:第101页,共122页,2023年,2月20日,星期三当n=8时:第102页,共122页,2023年,2月20日,星期三不同样本容量的平均数的抽样分布形状为:抽样误差的概念:称为标准误。抽样误差的度量:第103页,共122页,2023年,2月20日,星期三n=1fyfn=2yfn=4yfn=8y第104页,共122页,2023年,2月20日,星期三1、样本平均数分布的平均数等于总体平均数。2、样本平均数分布的方差等于总体方差除以样本容量3、如果从正态总体中进行抽样,其样本平均数的分布也服从正态分布4、若母总体不是正态分布,从中抽出的样本平均数分布不一定属于正态分布,但当样本容量n增大时,从这总体抽出样本平均数的抽样分布趋于正态分布,具有平均数μ和方差σ2/n。这称之为中心极限定理。样本平均数分布的基本性质第105页,共122页,2023年,2月20日,星期三三、样本平均数差数的抽样分布及其分布参数第106页,共122页,2023年,2月20日,星期三如果从一个总体随机地抽取一个样本容量为n1的样本,同时随机独立地从另一个总体抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个母总体间存在如下关系:(1)该抽样分布的平均数与母总体的平均数之差相等。(2)该抽样分布的方差与母总体方差间的关系为:

(4·21)(4·22)第107页,共122页,2023年,2月20日,星期三例:假定第一个总体包括3个观察值,2、4和6

(N1=3,n1=2),所有样本数为Nn=32=9个,总体平均数和方差=4,=8/3。第二个总体包括2个观察值,3和6

(N2=2),抽出的样本容量为3(n2=3),所以所有样本数为23=8个,总体平均数和方差=4.5,=2.25。现将上述两个总体的次数分布列于表4.7,并计算出其分布的参数。将第一总体的9个样本平均数和第二总体的8个样本平均数作所有可能的相互比较,这样共有9×8=72个比较或72个差数,这72个差数次数分布列于表4.8和表4.9。第108页,共122页,2023年,2月20日,星期三表4.7从两个总体抽出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论