理论分布和抽样分布_第1页
理论分布和抽样分布_第2页
理论分布和抽样分布_第3页
理论分布和抽样分布_第4页
理论分布和抽样分布_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 理论分布和抽样分布本章的二项式分布和正态分布在数学上已讲过,在本书中不作为重点内容。 自学内容:1、 事件:事件的概念、事件间的关系、事件的运算2、 概率:概率的概念、计算概率的法则3、 二项式分布:二项总体及二项式分布、二项式分布的概率计算方法、二项式分布的形状和参数。4、 正态分布:正态分布的意义、正态分布曲线的特征、标准化正态分布、正态分布的概率计算。第一节 概率一、事件及其类型事物发生某种情况或实验中获得的某种结果称为某一事件必然事件(U)在一定条件下必然会出现的不可能事件(V)在一定条件下必然不会出现的随机事件(A)在一定条件下必然可能出现也可能不出现事件关系:a 事件和:至

2、少发生一个事件。 b 事件积:同时发生事件。c 事件差:A发生而B不发生。d 互不相容事件: 不能同时发生的事件关系,如一胎生1只和生2只猪。e 对立事件: 严格的不相容事件,是一种非此即彼的事件关系。如男和女,生和死,A和非A。f 独立事件: 互不影响发生的事件关系,如张三生男孩和李四生女孩。二、频率与概率A正面向上aA出现的次数n总次数a/nA出现的频率P(A)A的概率,若实验或观察的次数n无限大,则A发生的频率a/n必稳定以某一定值p为中心上下做微小的摆动,那么这个p就称为随机事件A的概率 三、“小概率事件实际不可能”原理小概率事件如果一个事件的概率小于一个很小的数值,如5%或

3、者1%,则称其为小概率事件。小概率事件不可能原理小概率事件在一次试验中,实际上可以认为不可能发生。 四、概率的计算法则(一)加法定理P(A+B)=P(A)+P(B),A与B是互斥事件。(二)乘法定理P(AB)=P(A)P(B),A与B是相互独立的。五、随 机 变 量 随机变量:是指从随机变数中所取得的某一实数值。 随机变量:可分为离散型随机变量和连续型随机变量离散型随机变量:试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量所有可能取值及其对应概率一一列出所形成的分布称离散型随机变量的概率分布,

4、也可用函数f(y)表示,称为概率函数。连续型随机变量:变量y的取值仅是一个范围,且y在该范围内取值时,其概率是确定的。这时取y为一固定值是无意义的,因为在连续尺度上一点的概率几乎为0。这种类型的变量称为连续型随机变量。第二节 二项式分布一、二项总体及二项式分布1、 二项总体(binary population):由非此即彼的对立事件构成的总体。例如:小麦种子发芽和不发芽,硬币的正面与反面,调查棉田盲椿象为害分为受害株和不受害株等等。这类变数均属间断性随机变数。为便于研究,通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体

5、,其概率则显然有:p+q=1或q=1-p2、 二项分布:从二项总体抽取n个个体,将有n+1种取值,这n+1种取值各有其概率,这些概率构成的分布就是二项分布。例如观察施用某种农药后供试5只蚜虫的死亡数目,记“死”为0,记“活”为1,观察结果将出现6种事件,它们是5只全死、4死1活、3死2活、2死2活、1死4活、5只全活、这6种事件构成了一个完全事件系,但6个事件的概率不同,将完全事件系的总概率1分布到6个事件中去,就是所谓的概率分布。如果将活的虫数y来代表相应的事件,便得到了关于变量y的概率分布。下面将给出二项分布的概率计算方法。二、二项式分布的概率计算方法数学上的组合公式为:n相当于抽样单位数

6、,y相当于某种事件发生的次数。因此y的概率函数为:p(y)变量y发生的概率,p为此事件发生的概率,q为彼事件发生概率例4.1棉田盲椿象为害的统计概率乃从调查2000株后获得近似值p=0.35。现受害株事件为A,其概率为p=0.35,未受害株事件为对立事件,其概率q=(1-0.35)=0.65。这一试验是可以重复的。假定做了n次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应有多少?假定n=1,即抽出一株为一个抽样单位,那么,总体2000个单位中有多少株受害?多少株未受害?这里已知P(A)=0.35和P(A)=0.65,总体的理论次数分布则以n乘上述概率分布,即np和n(1

7、-p),所以有2000×0.35=700株受害和2000×0.65=1300株未受害。如调查5株为一个抽样单位,即n=5,则受害株数y=0,1,2,3,4和5的概率可以计算出来,如表4.2。棉株受害数乃一随机变数(y) ,可以计算变量y相应的概率函数P(y=i)=Cinpiqn-i和累计函数如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为:理论次数=400×P(2)=400×0.3364=134.56(次)对于任意y,其理论次数为:理论次数=Np(y)三、二项式分布的形状和参数1、形状:如果p=q,二项式分布呈对称形状,如果p&#

8、185;q,则表现为偏斜形状,但当n很大时,即使p¹q,它也呈接近对称形状。2、参数:凡描述一个总体分布,平均数和方差(或标准差)两个参数是重要的。例如抽取5株中受害标数的多少(y)作为统计指标的话,从总体中可以抽取的所有样本均有一个y, 这样所有的y构成了一个新总体,该总体也属于二项式总体,其平均数、方差2和标准差如下式=np, 2=npq, 该总体的概率计算方法同于前述的二项式总体,只是由于统计指标的变化,使平均数和标准差有所不同。第三节 正态分布(normal distribution)一、 正态分布的意义:正态分布是一种连续性随机变量的理论分布,它的分布状态是多数变量都围绕在

9、平均值附近,从平均值到分布的两侧,变量数减少。在理论和实践问题上都具有非常重要意义。客观世界中有许多现象的数据是服从正态分布的,因此我们可通过这些现象的样本分布从而发现这些现象的理论分布。在适当条件下,它可用来做二项分布及其它间断性或连续性变数分布的近似分布,这样就能用正态分布代替其它分布以计算概率和进行统计推论。虽然有些总体并不做正态分布,但从总体中抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍然趋近正态分布,因此可用它来研究这些统计数的抽样分布。二、正态分布正态分布是二项分布的极限分布,正态分布的概率密度函数为: y是所研究的变数;fN(y)是某一定值y出现的函数,一般称概率

10、密度函数;=3.1419;e=2.71828;为总体平均数;为总体标准差。这里y是从负无穷大到正无穷大的数值区间中的一个点,讨论变量处在这个点的概率是没有意义的,而且从正态总体抽取的变数资料的每一个观察值均是从具有一定概率的数值区间中抽取的,所以讨论正态变数在某一取值区间的概率才有意义。 因为不同总体具不同的值和值,因此每个总体就对应的一条正态曲线,这样我们研究某一变量所处的概率区间时就很不方便,为简化计算,一般以一个新变数u替代y变数 这里参数=0,2=1记作N(0,1)。各种不同平均数和标准差的正态分布均可以经过适当转换用标准化分布表示出来。二、正态分布曲线的特性1、正态分布曲线是一个对称

11、曲线,以为对称轴,相左右两侧对称分布。2、正态分布曲线以参数和的不同而表现为一系列曲线,所以它是一个曲线簇而不仅是一个曲线。3、正态分布在资料的次数分布表现为多数次数集中于算术平均数附近,离相应的次数越少;且在左右相等y-范围内具有相等次数;在y-3以上其次数极少。4、正态曲线在y-=1处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当y±,分布曲线以y 轴为渐近线,因之曲线全距从-到+。5、正态曲线与横轴之间的总面积等于1任两个变量u值之间概率结果均可通过查附表2计算得出,下面为几对常见的区间与其相对应的面积或概率的数字:区间±1 面积或概率=0.6827±

12、2 =0.9545±3 =0.9973±1.960 =0.9500±2.57 =0.9900 三、正态分布区间概率的计算方法1、 首先将变量y值转化成u值2、 查附表即可得出相应的区间概率下面我们以一个例题来说明求解方法假定y是一随机变数具有正态分布,平均数=30,标准差=5,试计算小于26,小于40的概率。介乎26和40区间的概率以及大于40的概率。首先计算:P(y26)=FN(26)计算FN(26)必须先将y转换为u值。查附表2,当u=-0.8时,FN(26)=0.2119,说明这一分布从-到26范围内的变量数占全部变量数的21.19%,或者说,y26概率为0

13、.2119.同样计算:P(y40)=FN(40)查附表2,当U=+0.2JF ,FN(40)=0.9773,这是指从-到40范围内的变量数占全部变量数的97.73%,或者说y40概率为 0.9773。计算:P(26y40=Fn(40)-FN(26)=0.9773-0.2119=0.7654,或者写为(26y40=P(-0.8u2.0)=0.9773-0.2119-0.7654.计算:P(y40)=1-P(y40)=1-0.9773=0.0227第四节 抽样分布(sampling distribution)生物统计学是研究样本与总体之间关系的科学。其方法是从总体中抽取一个含有若干个个体的样本加以

14、研究,这样的样本可以连续抽取几次,抽取样本的单位数就是试验的重复次数。本节重要内容是讨论衍生总体的参数与母总体参数之间的关系。 N() 体总样 本3样 本1样 本2总体与样本之间的关系可以从两方面进行研究统计推断抽 样总体 样本从总体到样本:即从一般到特殊的方向,目的是了解总体到样本的变异特点,研究样本分布的形状及其统计数。从样本到总体:即从特殊到一般的方向,目的是用样本的试验结果去推断总体的特征数,也就是统计推断问题。一、统计数的抽样及其分布参数抽样分布:从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计数,统计数的分布称为抽样分布。抽样分为复置抽样和不复置抽样,前者指将抽得的个体放

15、回总体后再继续抽样的方法,后者指将抽得的个体不放回总体而继续进行抽样的方法。讨论抽样分布时考虑的是复置抽样方法。一)样本平均数的抽样及其分布参数从一个总体里以一定的样本容量进行随机抽样,可以抽取许多个样本,如果总体容量为N,样本容量为n则能抽取Nn个样本,求出所抽样本的平均数,那么所有样本的平均数就组成了一个新的总体,这个新的总体称为衍生总体,被抽总体称为母总体。下面我们以一个实例讲解衍生总体的参数与母总体的参数之间的关系。样本平均数衍生总体的平均数用表示,方差用表示,标准差用表示。例:现有一总体,观察值为2、4、6,分别以样本容量n=1,n=2,n=3,从总体中进行复置抽样,试分析衍生总体参

16、数与母总体参数之间的关系。首先我们计算母总体的参数从母总体中以样本容量n=1进行抽样: 从母总体中以样本容量n=2进行抽样:得到样本9个:2,2 4,2 4,22,4 4,4 4,42,6 4,6 4,6 f2 13 24 35 26 1 从母总体中以样本容量n=3进行抽样:得到样本27个:2: 2,2,2 8/3: 2,4,2 2,2,4 4,2,210/3: 2,6,2 2,2,6 6,2,2 4,4,2 4,2,4 2,4,44: 2,4,6 2,6,4 4,2,6 4,6,2 6,2,4 6,4,2 4,4,4 14/3: 6,4,4 4,6,4 4,4,6 6,6,2 6,2,6 2

17、,6,2 16/3: 6,4,6 6,6,4 4,6,6 6:6,6,6 从上我们可以看出,衍生总体的平均数和方差与母总体的平均数和方差有如下关系: 由于总体的平均数和方差往往是未知的,因此我们一般用样本的平均数和方差来作为总体平均数和方差的估计值,因此可进一步推出: (二)两个独立随机样本平均数差数的抽样及其分布参数如果从一个总体随机地抽取一个样本容量为n1,同时随机独立地从另一个总体抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,这两个样本的平均数作和表示。设这两个样本所来自的两个总体的平均数分别为1和2,它们的方差分别为。和22。两个独立随机抽取的样本平均数间差数()的

18、抽样分布参数与两个母总体间存在如下关系:(1) 该抽样分布的平均数y1-y2与母总体的平均数之差相等。 (2) 该抽样分布的方差y12-y2与母总体方差的关系为 二、正态总体抽样的分布规律 前面介绍了统计数抽样分布的主要特征及其和母总体特征数间的关系,以下将讨论统计数抽样分布的规律。一)样本平均数的分布定理1:若母总体呈正态分布,从母总体中抽出的样本,不论其样本容量大小,由样本平均数构成的衍生总体,也呈正态分布。定理2:中心极限定理:母总体的分布不呈正态分布,但只要样本容量足够大(n>30),样本平均数的分布也趋近于正态分布。作用:这个定理很重要,因为我们往往不清楚抽样总体的性质,有了这个定理,就可通过增大样本容量的方法,使衍生总体呈正态分布,从而可以利用以正态分布为前题的统计方法进行抽样估计或假设测验,使问题简化。如已知 求=10-16的概率?首先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论