第二章spss生物统计学_第1页
第二章spss生物统计学_第2页
第二章spss生物统计学_第3页
第二章spss生物统计学_第4页
第二章spss生物统计学_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节事件与概率

第二节概率分布

第三节正态分布

第四节二项分布

第五节泊松分布

第六节样本平均数的抽样分布

第七节t分布

本文档共50页;当前第1页;编辑于星期三\11点20分第一节事件与概率

一、事件(一)必然现象与随机现象

1、必然现象指在某些条件下,一定会发生的现象。(可分为必然事件和不可能事件两类)

2、随机现象指在相同条件下重复进行试验,结果未必相同,这种现象称为随机现象。事实证明,当在相同条件下进行大量观察时,随机现象大都呈现某种规律。概率论与数理统计就是研究随机现象统计规律性的一门数学学科。。本文档共50页;当前第2页;编辑于星期三\11点20分(二)随机试验(randomtrial)与事件(randomevent)

我们把对自然现象的一次观察或进行的一次科学试验统称为一个试验。如果这个试验具有下述三个特性就称其为随机试验,简称试验。

可以在相同条件下重复进行;

每次试验的可能结果不止一个,并且事先能明确试验的所有可能结果;

试验前不能确定哪一个结果会出现。随机试验的每一个可能结果称为随机事件,简称事件,通常用字母A、B、C……等表示。本文档共50页;当前第3页;编辑于星期三\11点20分二、概率(probability)

(一)定义设在同一条件组S下进行了n次试验,事件A发生了m次。当随着n的增大,如果事件A发生的的频率m/n稳定地接近某一数值p,则称p为随机事件A在条件组S下发生的概率,记为P(A)=p。当n充分大时,P(A)=m/n。

(二)小概率事件与小概率原理当事件A的概率与0非常接近时,称此事件为小概率事件。小概率事件虽然不是不可能事件,但通常认为在一次试验中实际上是不可能发生的,称之为“小概率事件实际不可能性原理”。这是统计假设检验的基础。本文档共50页;当前第4页;编辑于星期三\11点20分第二节概率分布

(probabilitydistribution)

若要全面了解试验,则必须知道试验的全部可能结果及各种结果发生的概率,即试验结果的概率分布。

一、随机变量(randomvariable)(一)定义作一次试验或抽样观察,其结果有多种可能。每一种可能结果都可用一个数来表示。把这些数作为变量x的取值范围,则试验或观察结果可用变量x来表示。变量x就称为随机变量。随机变量可用x、y…等字母表示。本文档共50页;当前第5页;编辑于星期三\11点20分(二)分类

1、离散型随机变量

(discreterandomvariable)如果表示试验结果的随机变量x,其可能取值为有限个或至多可列个,并可以按一定顺序一一列举,则称x为离散型随机变量。

2、连续型随机变量

(continuousrandomvariable)如果表示试验结果的随机变量x,其可能取值为某范围内的任何数值,表现为不可列性和连续变异,则称x为连续型随机变量。本文档共50页;当前第6页;编辑于星期三\11点20分二、离散型随机变量的概率分布(一)研究离散型随机变量的概率分布要解决的两个问题:

要了解离散型随机变量x的统计规律,就必须知道它的一切可能取值;

取每种可能值的概率。亦即,要想了解只取整数值的某一总体的全面情况,只须知道其个体的一切可能值,以及取各种可能值的个体在总体中所占的比率。本文档共50页;当前第7页;编辑于星期三\11点20分(二)离散型随机变量的概率分布将离散型随机变量x的一切可能取值及其对应的概率,记作上式即称为离散型随机变量x的概率分布或分布。也可用分布列表示离散型随机变量x的概率分布,

离散型随机变量概率分布的基本性质:变量xx1x2…xn…概率Pp1p2…pn…本文档共50页;当前第8页;编辑于星期三\11点20分三、连续型随机变量的概率分布连续型随机变量的概率分布不能用分布列来表示,因为其可能取的值是不可数的。因此只能用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。(一)概率分布密度曲线和概率分布密度函数(参见P35)(二)连续型随机变量的概率由概率分布密度函数确定本文档共50页;当前第9页;编辑于星期三\11点20分(三)连续型随机变量概率分布的性质

分布密度函数大于或等于0,即

当随机变量x取某一特定值时,其概率为0,即

在一次试验中x取值必在范围内,为一必然事件。因此

c为任意实数本文档共50页;当前第10页;编辑于星期三\11点20分第三节正态分布

(normaldistribution)

正态分布是一种很重要的特殊的连续型随机变量的概率分布。生物现象中有许多变量是服从或接近正态分布的;许多统计分析方法都是以正态分布为基础的;

此外,还有不少随机变量在一定条件下以正态分布为其极限分布。因此,正态分布无论对理论研究还是实际应用,在统计学中均占有重要的地位。本文档共50页;当前第11页;编辑于星期三\11点20分

一、正态分布的定义及其特征

(一)定义若连续性随机变量x的概率分布密度函数为:其中,为平均数,为方差,则称随机变量x服从正态分布,记为相应的概率分布函数为本文档共50页;当前第12页;编辑于星期三\11点20分

二、正态分布的特征

f(x)是非负数,以x轴为渐进线;

曲线在处各有一个拐点;

正态分布密度函数曲线

正态分布密度曲线是以为对称轴的单峰、对称的悬钟形;

f(x)在处达到极大值,极大值为本文档共50页;当前第13页;编辑于星期三\11点20分正态分布有两个参数,即平均数和标准差。是位置参数,是变异度参数。

分布密度曲线与横轴所夹的面积为1,即:

μ相同而σ不同的三个正态总体

σ相同而μ不同的三个正态总体

本文档共50页;当前第14页;编辑于星期三\11点20分二、标准正态分布

(standardnormaldistribution)

(一)定义由于正态分布是依赖于参数和(或)的一簇分布,造成研究具体正态总体时的不便。因此将一般的转换为

的正态分布,则称的正态分布为标准正态分布。标准正态分布的概率密度函数及分布函数如下:本文档共50页;当前第15页;编辑于星期三\11点20分

若随机变量u服从标准正态分布,记作

(二)标准化的方法对于任何一个服从正态分布的随机变量x,都可以通过标准化变换:

即减平均数后再除以标准差,将其变换为服从标准正态分布的随机变量u。对不同的u值编成函数表,称为正态分布表,从中可以查到任意一个区间内曲线下的面积,即为概率。本文档共50页;当前第16页;编辑于星期三\11点20分三、正态分布的概率计算(一)标准正态分布的概率计算设u服从标准正态分布,则u落在u1,u2)内的概率本文档共50页;当前第17页;编辑于星期三\11点20分应熟记的几种标准正态分布概率本文档共50页;当前第18页;编辑于星期三\11点20分(二)一般正态分布的概率计算

将区间的上下限标准化,服从正态分布的随机变量x落在〔x1,x2〕内的概率,等于服从标准正态分布的随机变量u落在的概率。

然后查标准正态分布的概率表

[例]若x服从的正态分布,试求。令u=(x-30.26)/5.10,则u服从标准正态分布,故本文档共50页;当前第19页;编辑于星期三\11点20分(三)双侧概率(两尾概率)与单侧概率(一尾概率)

随机变量x落在平均数加减不同倍数标准差区间之外的概率称为双侧概率(两尾概率),记作对应于双侧概率可以求得随机变量x小于或大于的概率,称为单侧概率(一尾概率),记作。如x落在之外的双侧概率为0.05,而单侧概率为0.025。即本文档共50页;当前第20页;编辑于星期三\11点20分第四节二项分布(Binomialdistribution)

一、贝努利试验及其概率公式

(一)独立试验和贝努利试验

将随机试验重复进行n次,若各次试验结果互相不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是相互独立的。对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一;在每次试验中出现A的概率是常数p(0<p<1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验。本文档共50页;当前第21页;编辑于星期三\11点20分(二)二项分布的概率

在n重贝努利试验中,事件A发生k次的概率恰好等于(q+p)n二项展开式中的第k+1项,因此也将称作二项概率公式。

二、二项分布的意义及其性质

(一)定义设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有

(其中p>0,q>0,p+q=1),则称随机变量x服从参数为n和p的二项分布,记为本文档共50页;当前第22页;编辑于星期三\11点20分

(二)二项分布的性质二项分布是一种离散型随机变量的概率分布,由n和p两个参数决定,参数n称为离散参数,只能取正整数;p是连续参数,取值为0与1之间的任何数值。

二项分布具有概率分布的一切性质,即:

(k=0,1,2,…,n)

二项分布的概率之和等于1,即:

本文档共50页;当前第23页;编辑于星期三\11点20分

上面是二项分布概率的基本性质;是我们在运算中经常要根据题目要求运算时要应用到的,要注意理解。

本文档共50页;当前第24页;编辑于星期三\11点20分三、二项分布的概率计算及其应用条件

(一)概率计算二项分布的概率计算,可以直接利用二项概率公式进行。把时间A发生的次数k代入公式即可求得对应的概率。

[例]有一批种蛋,其孵化率为0.85,今在该批种蛋中任选6枚进行孵化,试给出孵化出小鸡的各种可能情况的概率。这个问题属于贝努里模型,其中,孵化6枚种蛋孵出的小鸡数x服从二项分布.其中x的可能取值为0,1,2,3,4,5,6。本文档共50页;当前第25页;编辑于星期三\11点20分其中思考:求至少孵出3只小鸡的概率是多少?孵出的小鸡数在2-5只之间的概率是多大?本文档共50页;当前第26页;编辑于星期三\11点20分

(二)应用条件(三个)二项分布的应用条件有三:

各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料。

已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-P=q,实际中要求p是从大量观察中获得的比较稳定的数值。

n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的结果。本文档共50页;当前第27页;编辑于星期三\11点20分

四、二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标准差σ与参数n、p有如下关系:

当试验结果以事件A发生次数k表示时

当试验结果以事件A发生的频率k/n表示时也称率的标准误。本文档共50页;当前第28页;编辑于星期三\11点20分第四节泊松分布

(Possiondistribution)

普阿松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的分布。所谓稀有事件即为小概率事件。要观察到这类事件,样本含量n必须很大。在生物、医学研究中,服从普阿松分布的随机变量是常见的。此外,由于普阿松分布是描述小概率事件的,因而二项分布中当p很小n很大时,可用普阿松分布逼近。本文档共50页;当前第29页;编辑于星期三\11点20分本文档共50页;当前第30页;编辑于星期三\11点20分一、泊松分布的意义

(一)定义若随机变量x(x=k)只取零和正整数值,且其概率分布为

其中k=0,1,…;λ>0;e=2.7182…是自然对数的底数,则称X服从参数为λ的普阿松分布记为x~P(λ)。

(二)特征普阿松分布作为一种离散型随机变量的概率分布有一个重要的特征。本文档共50页;当前第31页;编辑于星期三\11点20分这就是它的平均数和方差相等,都等于常数λ,即μ=σ2=λ。利用这一特征,可以初步判断一个随机变量是否服从普阿松分布。

[例]我们调查了200个奶牛场,统计各场某10年内出现的怪胎(如缺皮症,全身无毛等)的头数,然后以怪胎头数把200个奶牛场分类,统计每类中奶牛场数目,结果如下:试研究10年内母牛怪胎数的概率分布。10年内母牛产怪胎次数(m)01234总计奶牛场数(f)109652231200本文档共50页;当前第32页;编辑于星期三\11点20分每一奶牛场10年内母牛产怪胎是稀有事件,先假设母牛产怪胎数的概率分布为普阿松分布。根据观察结果计算每一奶牛场10年内母牛产怪胎的平均数,根据加权法可得用=0.61估计λ,代入计算当m=0,1,2,3,4时的概率和理论次数(见表)。怪胎数(m)01234总计实际次数(f)109652231200概率(理论)0.54340.33140.10110.02060.00310.9996理论次数108.6866.2820.224.120.62199.92本文档共50页;当前第33页;编辑于星期三\11点20分

由表中的结果可以看出,计算所得的理论次数与实际次数十分接近,说明各奶牛场10年内出现怪胎次数是服从普阿松分布的,我们事先的假设是正确的。下面我们再来证实我们所得的资料是否具有普阿松分布的特征。已经计算出=0.61,样本方差计算如下,S2与很接近,这正是普阿松分布所具有的特征。本文档共50页;当前第34页;编辑于星期三\11点20分二、波松分布的概率计算

λ是普阿松分布所依赖的唯一参数。普阿松分布的概率计算,只要参数λ确定了,问题就解决了。把k=0,1,2,…代入公式即可求得各项的概率。但是在大多数服从普阿松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值。本文档共50页;当前第35页;编辑于星期三\11点20分四、三种重要的概率分布之间的关系

前面讨论的三个重要的概率分布中,前两个概率分布属离散型的,后一个属连续型的。三者间的关系综述如下:

对于二项分布,在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋于普阿松分布。在这种场合,普阿松分布中的参数λ用二项分布的np代之;

在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的np、npq代之。本文档共50页;当前第36页;编辑于星期三\11点20分

在实际计算中,当p<0.1且n很大时,二项分布可由普阿松分布近似,当p>0.1且n很大时,二项分布可由正态分布近似。二项分布普阿松分布正态分布p>0.1n∞P<0.1n∞本文档共50页;当前第37页;编辑于星期三\11点20分第六节样本平均数的抽样分布

研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手:一是从总体到样本,这就是研究抽样分布的问题;二是从样本到总体,这就是统计推断问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。本文档共50页;当前第38页;编辑于星期三\11点20分总体与样本间的关系从总体到样本从样本到总体统计推断(目的)抽样分布(基础)本文档共50页;当前第39页;编辑于星期三\11点20分一、样本平均数的抽样分布

(一)基本概念

1、返置抽样与不返置抽样由总体随机抽样(randomsampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。

对于无限总体,返置与否关系不大,都可保证各个体被抽到的机会均等。对于有限总体,要保证随机抽样,就应该采取返置抽样,否则各个体被抽到的机会就不均等。本文档共50页;当前第40页;编辑于星期三\11点20分2、原始总体与样本平均数抽样总体

设有一个总体,总体均数为μ,方差为σ2,总体中各变数为x,将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为。由这些样本算得的平均数有大有小,不尽相同,与原总体均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(Samplingerror)。

显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。本文档共50页;当前第41页;编辑于星期三\11点20分由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为和。是样本平均数抽样总体的标准差,简称标准误(Standarderror),它表示平均数抽样误差的大小。

原总体(μ,σ)样本平均数的抽样总体(,)本文档共50页;当前第42页;编辑于星期三\11点20分3、原始总体与样本平均数抽样总体的两个参数间的关系统计学上已证明总体的两个参数与x总体的两个参数有如下关系:

为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,可进行模拟抽样试验(请同学们参考有关书籍)。(二)x变量与变量概率分布间的关系——中心极限定理本文档共50页;当前第43页;编辑于星期三\11点20分

若随机变量x服从正态分布N(μ,σ2),x1,x2,….,xn是由x总体得来的随机样本,则统计量=Σx/n的概率分布也是正态分布,且有即服从正态分布N(μ,σ2/n)。

若随机变量x服从平均数是μ,方差是σ2的分布(不是正态分布);x1,x2,….,xn是由此总体得来的随机样本,则统计量=Σx/n的概率分布,当n相当大时逼近正态分布N(μ,σ2/n)。这就是中心极限定理。上述两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。本文档共50页;当前第44页;编辑于星期三\11点20分二、标准误

(一)定义及其意义

标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本均数间差异程度大,样本平均数的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本均数的抽样误差。本文档共50页;当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论