【生物课件】高级生物统计-基本知识_第1页
【生物课件】高级生物统计-基本知识_第2页
【生物课件】高级生物统计-基本知识_第3页
【生物课件】高级生物统计-基本知识_第4页
【生物课件】高级生物统计-基本知识_第5页
已阅读5页,还剩170页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级生物统计学第三章多年多点试验结果的联合分析第一章单个自由度比较分析第二章裂区试验设计及其统计分析第四章曲线回归分析第五章多元回归分析第六章协方差分析第七章一次回归正交设计及其统计分析生物统计学基本知识回顾第八章二次回归正交设计及其统计分析第九章二次旋转设计及其统计分析主讲教师:詹克慧硕士研究生课程基本知识回顾第三节生物统计学的基本方法第一节生物统计学的基本概念第四节农业试验及设计方法第二节生物统计学的基本原理第五节方差分析第六节

直线回归分析生物统计学及其特点

生物统计学(BiometryorBio-statistics)是数学中的概率论与数理统计学在生物科学中的应用而形成的一门系统性学科。统计学理论统计学即数理统计学应用统计学社会科学领域的统计学自然科学领域的统计学1.逻辑性较强;2.假设较多,比较抽象;3.统计方法的分析过程复杂;4.规律性较强;5.分析方法的分析步骤不具灵活性。其特点:第一节生物统计学的基本概念

1.数据(data)——在科学试验或调查过程中,对研究对象的某些特征、特性进行观察记载得到的数字资料的总称。数据具有变异性和趋中性。

2.变数(variable)——生物个体具有变异性的特征、特性。变数的某一具体数值称为变量(variate)或观测值(observedvalue)。

连续性变数(continuousvariable)是指观测值在一定范围内可以取任何一个数值,这些观测值一般是通过测量或称量的方法获得的。

离散性变数(discontinuousordiscretevariable)是指观测值只能取0或正整数的变数,其观测值一般通过观察和计数的方法获得的。第一节生物统计学的基本概念3.总体(populationoruniverse)——根据研究目的而确定的,具有共同性质的个体所组成的集团,或者说是整个研究对象中每个个体某一变数所有观测值的总称。5.样本(sample)——从总体中抽出一部分有代表性的个体或观测值。4.总体的参数或参量(parameter)——根据总体全体观测值算出的总体特征数。常用希腊字母表示。如总体平均数,方差2,标准差等。6.统计数或统计量(statastic)——根据样本所有观测值计算出的样本特征数。常用英文字母表示。例如样本平均数

,方差S2,标准差S等。第一节生物统计学的基本概念

算术平均数:7.平均数(averageormean)是数据的代表值,表示资料中观测值的中心位置。

中(位)数(median):

众数(mode):

几何平均数(geometricmean):

所有观测值的总和除以观测值数目所得的商。

将资料所有观测值排序后,居于中间位置的那个观测值的值(或,当观测值数目为偶数时,那两个观测值的和之半)。

资料中最常见的一数,或次数分布表中次数最多的那组的组中值。

n个观测值的乘积的n次方根。其中以算术平均数最为常用。第一节生物统计学的基本概念极差(range)—一组数据的最大值与最小值之差。

8.变异数—表示数据资料变异大小的数值。

离均差平方和简称平方和(sumofsquares,SS)可较好地衡量资料的变异。定义公式:计算公式:其中C为矫正数,为资料中所有观测值总和的平方除以观测值的个数。第一节生物统计学的基本概念8.变异数—表示数据资料变异大小的数值。方差(variance)是平方和除以观测值的个数。总体方差(populationvariance):样本方差(samplevariance):

分类资料:分类资料:第一节生物统计学的基本概念8.变异数—表示数据资料变异大小的数值。标准差(standarddeviation)是方差的正根值。总体标准差(PopulationSD):样本标准差(SampleSD):变异系数(CoefficientofVariation,记为C.V.)是指资料的标准差与平均数之比。即:不可能事件自然界中每一件事物的每一种可能出现的情况。第二节生物统计学的基本原理随机事件事件概率每一个事件出现的可能性。必然事件在特定情况下必定发生的事件;在特定情况下不可能发生的事件;在特定情况下可能发生也可能不发生的事件;某事件出现的概率用P()表示;例如P(A)、P(B)等。概率的有效范围为0~1,即0≤P(A)≤1。必然事件记为,其概率为1,即P()=1。不可能事件记为,其概率为0,即P()=0。随机事件的概率在0~1之间,即0<P(A)<1。1.事件(event)与概率(probability)第二节生物统计学的基本原理事件间的关系事件A和B至少有一件发生的事件,记为A+B。

和事件事件A和B同时发生的事件,记为AB。

积事件

互斥事件两件不可能同时发生的事件,例如AB=。

对立事件两件不可能同时发生,两者中必定有一件发生的事件,例如AB=同时A+B=。事件系n个事件两两互斥,但其必定有一件发生,例如AiAj=同时A1+A2+…+An=。

事件的独立性

若事件A发生与否不影响事件B发生的概率则称事件A与事件B相互独立。

完全事件系完全互斥事件系几个相互有联系的事件放在一起。各事件的和事件为必然事件的事件系,记为A1+A2+…+An=

。第二节生物统计学的基本原理计算事件概率的法则假定两互斥事件A和B的概率分别为P(A)和P(B),则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和。

互斥事件的加法定律可以引伸到:n个两两互斥的事件的概率等于这n个事件的概率之和。即:如果AB=,则P(A+B)=P(A)+P(B)。即:如果AiAj=,则P(Ai)=[P(Ai)]。第二节生物统计学的基本原理计算事件概率的法则

互斥事件的加法定律假定P(A)和P(B)是两独立事件A和B各自出现的概率,则事件A与B同时出现的概率等于事件A的概率与事件B的概率之乘积。

独立事件的乘法定律可以引伸到:n个相互独立的事件同时发生概率等于这n个事件各自发生的概率之乘积。即:P(AB)=P(A)P(B)。对立事件的概率若事件A的概率为,则其对立事件的概率为。

完全互斥事件系的概率之和为1。即,如果AiAj=同时A1+A2+…+An=,则P(Ai)=1。第二节生物统计学的基本原理2.二项分布(binomialdistribution):由对立事件构成的总体称为二项总体(binomialpopulation),二项总体观测值的概率分布即为二项分布。若某事件出现的概率为p,其对立事件出现的概率为q=1-p,做n次重复独立试验,该事件出现X次的可能性(概率)有多大?现在是:n=2,p=3/4,q=1/4,X可以为0,1,2。P(X=0)=(1)(1/4)(1/4)=(1)(3/4)0(1/4)2=(1)p0q2-0P(X=1)=(2)(3/4)(1/4)=(2)(3/4)1(1/4)1=(2)p1q2-1P(X=2)=(1)(3/4)(3/4)=(1)(3/4)2(1/4)0=(1)p2q2-2其中系数为在n个中取X个进行组合的数目。所以,概率分布函数为:第二节生物统计学的基本原理比较下面两个概率分布图,会发现二项分布的形状是由n和p两个参数决定的。当p=q=时,分布是对称的;当p≠q时,分布就不对称;p和q差异越大,分布就越偏斜。p=0.35,q=0.65时:p=0.15,q=0.85时:第二节生物统计学的基本原理利用概率分布表,可以计算出随机变量X的总体平均数和总体方差2。对数列求和得X的总体均数为:同法求得X的总体方差为:将方差开平方得X的总体标准差为:第二节生物统计学的基本原理于是,随机变量X落在区间(X1,X2)内的概率为:3.正态分布(normaldistribution)连续性变数的概率分布,其概率密度函数为:记为其中为X的平均数,为X的方差。其概率分布函数为:第二节生物统计学的基本原理-2+2-3-++3f(x)x正态曲线的特性:⑴单峰,倒钟状,当X=

时,f(x)达最大值;⑵当X±时,f(x)0;⑶以X=为轴左右对称;⑷曲线与横轴间面积为1;⑸在X=

处有两个拐点;⑹若不变,改变使曲线左右平移,形状不变;=0时,对称轴与纵轴重合;说明代表了数据的中心位置;⑺当不变,改变使曲线形状改变,对称轴不变;当变小时,曲线变高瘦,中部的面积变大;当变大时,曲线变矮胖,中部的面积变小;说明

衡量了资料的变异程度。面积占68.27%面积占95.45%

X的某区间内曲线与横轴之间的面积就是随机变量X落在该区间的概率。这部分的面积是如何计算的呢?第二节生物统计学的基本原理,那么将有:如果将服从

分布的随机变量X进行变换:于是原变量X在区间(X1,X2)之间的概率就可以用u在区

间(u1,u2)之间的概率来计算。这个u称为正态离差

u的密度函数记为:并称为标准正态分布密度函数。相应地记标准正态分布的概率函数为:因为X的平均数为,方差为2,所以的平均数为:方差为:统计学家已经将标准正态分布的概率计算出来,我们只要学会查表就可以计算对应于不同的u的(u)值。第二节生物统计学的基本原理统计学一个主要任务是研究总体和样本之间的关系总体和样本之间的关系可以从两个方向进行研究:⑴从总体到样本:即研究从总体中抽出的所有可能样本的统计数的分布及其与原总体之间的关系。即抽样分布的情况。⑵从样本到总体:即研究从总体中抽出的一个随机样本,①用该样本的统计数来估计总体的参数,即参数估计;②对总体的参数作出推断,即统计假设测验。4.抽样分布(samplingdistribution)研究样本统计数的概率分布。第二节生物统计学的基本原理

研究样本的方法对于比较小的总体,可以将总体中所有可能的样本都抽出来进行研究样本统计数的分布。对于较大或无限总体,可以从中抽出比较多的样本来研究样本统计数的分布。抽样又分为复置抽样和不复置抽样复置抽样

将抽得的个体放回总体继续参加抽样。不复置抽样

抽得的个体不放回总体参加后续的抽样。大数定律:对客观事物进行足够多地观察,客观事物的规律性就会充分显现出来。大数定律保证了参数估计的可靠性。统计上

E()=,E(S2)=σ2,E(S)第二节生物统计学的基本原理样本平均数的抽样分布如果有一个总体,大小为N,平均数为,方差为2。从这总体中抽取一个大小为n的样本,可以算出样本平均数。这个不是常数,而是一个随机变量。因为你下次再从这总体中抽取一个大小为n的样本,这个的值就不同了。如果N是个有限大的数,将一共有m=Nn种可能的样本。如果N是个无限大的数,则m是个无限大的整数。这m个可以构成一个总体。称为样本平均数的衍生总体。统计学已经证明,样本平均数总体的平均数等于原总体的平均数,样本平均数总体的方差等于原总体方差的n分之一。即,两个独立样本平均数差数的总体分布如果从一个具有参数1,12的正态总体中抽取大小为

n1的样本,样本平均数为

;又从另一个具有参数2,

22的正态总体中抽取大小为n2的样本,样本平均数为。则两样本平均数之差数将服从总体平均数为,总体方差为

的正态分布。将转换为正态离差就可以计算出差数落在某区间的概率。如果两个独立样本来自同一非正态总体,即具有相同的参数和

2,则只有当n1n2都足够大时,两样本平均数之差数才服从上述的正态分布。如果两个独立样本来自不同的非正态总体,只有当

12≈22,且n1n2都足够大时,两样本平均数之差数才近似服从正态分布。否则分布很难确定。第二节生物统计学的基本原理请注意,上面讨论到的抽样总体,不论是

样本平均数总体还是

两样本平均数之差数的总体其平均数和方差与原总体的平均数和方差都有相应的关系,该关系与原总体的分布无关。

如果原总体的分布为已知,则相应的抽样总体的分布就更为清楚了。

以下讨论原总体的分布与相应的抽样总体的分布之间的关系。第二节生物统计学的基本原理实际应用中,当n>30时,就可以应用此定理。如果原总体服从正态分布,则无论样本容

量n是大是小,样本平均数将服从平均数为,方差为的正态分布。即

如果原总体不是正态分布的,但已知其总体均数为,方差为,则当从中抽取的样本容量n足够大时,中心极限定理指出,样本平均数将服从平均数为,方差为的正态分布。即将转换为正态离差u,就可以计算出落在某区间的概率。第二节生物统计学的基本原理在前面介绍了标准化正态分布即u分布的定义公式:

现在由此可以衍生出另外两个符合正态分布的样本平均数和样本平均数差数衍生总体的u值转换公式:样本平均数衍生总体:样本平均数差数衍生总体:正态总体中的数值正态总体的平均数正态总体的标准差第二节生物统计学的基本原理学生氏t分布t=若随机变量t的概率密度函数为:则称随机变量t服从自由度为n-1的t分布。

t分布曲线的特性:⑴单峰,倒钟状,以t=0为轴左右对称;⑵不同的df有不同的曲线,当df小时,曲线肥矮,当df大时,曲线高瘦,当df时,曲线与标准正态曲线重合;⑶曲线与横轴间面积为1。第二节生物统计学的基本原理f(t)tdf=5df=10df=30u分布第二节生物统计学的基本原理根据前面介绍了二项总体的理论分布,二项总体是由对立事件构成的总体,其总体的观测值是由抽样次数“n”来定义的,因此同一种二项总体因n值不同,其总体内的观测值种类多少也是不相同的,这给研究其抽样分布带来了困难。为此,可将出现此事件记为X=1,出现彼事件记为X=0,这样二项总体的观测值都转换为0和1的总体,这种总体称为“二项分布的两点总体”,以后统称二项总体。先计算出这样的总体的平均数和方差。若此事件出现的概率为p,彼事件出现的概率为q=1-p,可以计算出总体平均数=p和总体方差

2=pq。其实这就是前面所介绍的二项总体“n=1”的情况。

=(1p+0q)/(p+q)=p2

=(p(1-p)2+q(0-p)2)/(p+q)=(pq2+qp2)/(p+q)=pq第二节生物统计学的基本原理二项总体平均数的抽样分布根据前面所介绍的知识,当n比较大时,构成的分布可近似符合正态分布,可将其转换为u值或t值:从此总体中抽取大小为n的样本,样本平均数

X/n将服从平均数为p,方差为pq/n的二项分布。这里所说的样本平均数是指成数或百分数,也可用表示。

第二节生物统计学的基本原理从两个二项总体中抽出两个样本容量分别为n1和n2的样本,两个样本平均数差数d=将服从平均数为p1-p2,方差为的二项分布。二项总体平均数差数的抽样分布同样地,如果两个样本的容量都比较大,差数的分布也近似地符合正态分布,可以将其转换为u值或t值:第二节生物统计学的基本原理

2分布(卡平方分布)随机变量2的概率密度函数为:则称随机变量2服从自由度为n-1的2分布。从一正态总体N(,2)中抽出一个样本,这个样本的观测值转换为u值,所有u的平方之和定义为2。如果将所有样本容量为n的样本都抽出,得到很多的2值构成了卡平方分布。即第二节生物统计学的基本原理

2分布曲线的特性:⑴2≥0,图象都在第一象限;⑵不对称的曲线,随着自由度增加变得稍对称但顶峰变矮,并逐渐趋向正态分布。⑶df≥3时,曲线与横轴间面积为1;df<3时,曲线与纵横两轴间面积为1。df

=1df

=3df=5f(2)2第二节生物统计学的基本原理2分布总体虽然是从正态总体衍生来的,但是它解决的问题主要是离散型变数资料,尤其是计数资料。使用较多的不是它的定义公式而是它的计算公式

F分布随机变量F的概率密度函数为:则称随机变量F服从第一自由度为n1-1的、第二自由度为n2-1的F分布。第二节生物统计学的基本原理从一正态总体N(,2)中抽出样本容量分别为n1和n2的两个样本,两个样本方差的比值定义为F值。如果将该总体所有可能的样本都抽出,得到很多的F值构成了F分布。即F=S12/S22

F分布曲线的特性:⑴F≥0,图象都在第一象限;⑵曲线受两个自由度的影响,随着自由度的增加趋向对称;⑶不对称的单尾型曲线,曲线与横轴间面积为1。第二节生物统计学的基本原理df1=1,df2=5df1=2,df2=5df1=5,df2=4f(F)F第三节生物统计学的基本方法1.统计假设测验:通过对抽样调查得到的样本数据进行分析而对样本所来自的总体作出统计判断的方法。一些常见的例子:

(1)产品检验:某产品某个技术指标值为,现从一批该产品中抽取大小为

的样本,测得样本平均数为,标准差为,试测验该批产品的该技术指标平均数是否与已知的间有显著差异。

(2)品种比较:调查A品种株,平均产量为,标准差为;调查B品种株,平均产量为,标准差为;试测验两品种的真正产量与之间有无显著差异。*这种测验称为单个平均数的假设测验。*这种测验称为两个平均数相比较的假设测验。第三节生物统计学的基本方法统计假设针对研究的问题对总体参数提出一对统计假设。其中:*认为试验的处理没有效应的假设称为无效假设(H0-nullhypothesis);*当H0不能被接受时所采纳的假设称为备择假设

(HA-alternativehypothesis)。如果是对总体平均数提出假设,则一个总体

H0:

=0(C)对HA:

≠0H0:

0

对HA:

0H0:

0

对HA:

0两个总体

H0:1

=2

对HA:1

≠2H0:1

2

对HA:1

2H0:1

2

对HA:1

2如果是对总体方差提出假设,则一个总体

H0:2=02

(C)对HA:

2

≠02H0:

2

02

对HA:

2

02H0:

2

02

对HA:

2

02两个总体

H0:12

=2

2对HA:12

≠22H0:1

2

22

对HA:1

2

22H0:12

22

对HA:1

2

22第三节生物统计学的基本方法

统计测验的基本方法和一般步骤:2.利用试验数据计算一个统计量的值。再根据该样本统计量的抽样分布,计算出当H0为正确时出现这样一个值的概率。对不同资料进行测验时,由于统计量及其的分布不同,计算统计量和概率的公式有所不同。3.当此概率小于预先设定的水平,就根据“小概率事件实际上不可能发生”原理拒绝H0,接受HA。该水平称为显著水平(记为)。常用的为5%或1%。1.针对研究的问题提出一对统计假设。其中:*认为试验的处理没有效应的假设称为无效假设(H0-nullhypothesis);*当H0不能被接受时所采纳的假设称为备择假设

(HA-alternativehypothesis)。第三节生物统计学的基本方法

两尾测验:接受区域位于中间,否定区域位于两侧的.-1.9601.9695%接受区域否定区域

单尾测验:接受区域位于一侧,否定区域位于另一侧.-

01.64495%接受区域否定区域95%-

-4

-1.640接受区域否定区域第三节生物统计学的基本方法测验:(记施用这种肥料后的真正产量为)1.设假设H0:

=0=35gvsHA:

≠0=35g例题:某玉米品种正常单株产量为0=35g,标准差=5g。施用某种肥料后,调查n=100株,算得样本平均数=37g。问这种肥料是否对产量有显著影响。2.如果H0是正确的话,从上章可知:

因此有统计量服从标准正态分布。即u有95%的可能落在(-1.96,1.96)之间。3.现在,,落在(-1.96,1.96)以外,若要用=5%为显著水平,可断言:H0不正确。这里的否定区域是分布在曲线的两边的,我们称这样的测验为两尾测验。第三节生物统计学的基本方法例题:某玉米品种正常单株产量为0=35g,标准差=5g。施用某种肥料后,调查n=100株,算得样本平均数=37g。问这种肥料是否对产量有显著影响。问施用该肥料后,产量是否增加了。1.设假设H0:

0=35gvsHA:

0=35g2.如果H0是正确的话,从上章可知:

因此有统计量服从标准正态分布。即u有95%的可能落在(-,1.64)之间。3.现在,,落在(-,1.64)以外,若要用=5%为显著水平,可断言:H0不正确。这里的否定区域是分布在曲线的一边的,我们称这样的测验为一尾测验。第三节生物统计学的基本方法假设测验会出现两种不同类型的错误。假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的,有可能会犯错误。假设测验中犯这两类型错误的概率有多大?第一类错误是指:将一个正确的H0错判为不正确。例如,我们的例子中,H0:

=0vsHA:

≠0如果本来

=0,但却判断为

≠0,有多大可能?因为我们用1-的把握作推断,只有当算出的测验值落在接受区间以外,才会推翻H0,所以犯第一类错误的概率等于。-u0u1-α否定区域接受区域第三节生物统计学的基本方法假设测验会出现两种不同类型的错误。假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的,有可能会犯错误。假设测验中犯这两类型错误的概率有多大?第二类错误是指:将一个错误的H0错判为正确。例如,我们的例子中,H0:

=0vsHA:

≠0如果本来

≠0,但却判断为

=

0,有多大可能?我们称犯第二类错误的概率为,的计算比较复杂,它要求真正的为已知。01-α接受区域接受区域01-α接受区域353699%第三节生物统计学的基本方法犯这两类型错误的概率(与)之间的关系。接受区域353695%⑴如果样本容量n不变,减少,则增大。353795%接受区域即提供置信度(减小显著水平,或减少犯第一类错误的概率),将增大犯第二类错误的可能性;。⑵对于相同的n和,

0相距越远,则越小。⑶当n、、与0都相同时,越小则越小。353695%接受区域两个样本平均数相比较的假设测验单个样本平均数的假设测验⑴当总体方差2为已知时;⑵当总体方差2为未知时;成组数据的平均数比较;成对数据的平均数比较;⑴两总体方差12和22为已知时;⑵两总体方差12和22为未知但可以认为12=22时;⑶两总体方差12和22为未知但可认为12≠22时;第三节生物统计学的基本方法

—平均数的假设测验⑴当总体标准差为已知时的一般步骤:2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。

两尾测验时H0:

=0vsHA:

≠0计算统计量:(大端)一尾测验时H0:

≤0vsHA:

>0(小端)一尾测验时H0:

≥0vsHA:

<0

两尾测验时,|u|>u

则有(1-)的概率推翻H0;(大端)一尾测验时,u>u

则有(1-)的概率推翻H0;(小端)一尾测验时,u<-u

则有(1-)的概率推翻H0。用计算u,查

正态分布表。单个样本平均数的假设测验95%接受区域否定区域95%接受区域否定区域接受区域否定区域第三节生物统计学的基本方法第三节生物统计学的基本方法⑵当总体标准差为未知时的一般步骤:2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。

两尾测验时H0:

=0vsHA:

≠0计算统计量:(大端)一尾测验时H0:

≤0vsHA:

>0(小端)一尾测验时H0:

≥0vsHA:

<0

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。用s计算t,按自由度

df=n-1查t分布表。单个样本平均数的假设测验第三节生物统计学的基本方法⑴两总体方差12和22为已知时的一般步骤:2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:1

=2vsHA:1

≠2(大端)一尾测验时H0:1

≤2vsHA:1

>2(小端)一尾测验时H0:1

≥2vsHA:1

<2

两尾测验时,|u|>u

则有(1-)的概率推翻H0;(大端)一尾测验时,u>u

则有(1-)的概率推翻H0;(小端)一尾测验时,u<-u

则有(1-)的概率推翻H0。

用12和22计算u,

查正态分布表。两个样本平均数相比较的假设测验第三节生物统计学的基本方法⑵两总体方差12和22为未知但可以认为12=22时2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:1

=2vsHA:1

≠2(大端)一尾测验时H0:1

≤2vsHA:1

>2(小端)一尾测验时H0:1

≥2vsHA:1

<2

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。因为可以认为12=22=

2,所以变成但

2未知,用样本方差se2估计,变成如果第一样本的方差为第二样本的方差为,那么合并样本的方差将是

2的更好估计。于是公式变成用df=n1+n2-2

查t分布表。两个样本平均数相比较的假设测验第三节生物统计学的基本方法⑶两总体方差12和22为未知但可认为12≠22时2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:1

=2vsHA:1

≠2(大端)一尾测验时H0:1

≤2vsHA:1

>2(小端)一尾测验时H0:1

≥2vsHA:1

<2

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。查t分布表。但自由度要经过校正。因为不可以认为12=22,因此用s12估计12,用s22估计22,于是公式变成自由度的校正公式为:其中两个样本平均数相比较的假设测验第三节生物统计学的基本方法成对数据的平均数比较成对数据一般是通过配对设计获得的,该设计得到的数据结构为:序号样本1样本2差值12…nX11X12…X1nX21X22…X2nd1=X11–X21d2=X12–X22

…dn=X1n–X2n可以看作一个样本因此,可以按照单个样本平均数的假设测验的方法来分析第三节生物统计学的基本方法成对数据的平均数比较2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:1

=2vsHA:1

≠2(大端)一尾测验时H0:1

≤2vsHA:1

>2(小端)一尾测验时H0:1

≥2vsHA:1

<2

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。对于成对数据,应先算出各对数据的差数d,所以统计假设也可以记为H0:d

=0

vsHA:d

≠0

(小端)一尾测验时H0:d

≥0

vsHA:d

<0

(大端)一尾测验时H0:d

≤0

vsHA:d

>0

两尾测验时H0:d

=0

vsHA:d

≠0

各对数据的差数d的平均数所以统计量为但因为未知,用代替计算,测验统计量变为:按自由度df=n-1查t分布表。2.计算如果H0正确,20个卵中的正常孵化数大于等于19个的概率。对于二项资料百分数的假设测验,理论上应该按二项分布进行。例题:某品种家蚕的卵在某地区的自然孵化率为70%,即p=

0.7。现将这种卵放入某种孵化器进行孵化。抽取大小为n=20的样本,发现有19个卵能正常孵化。请用95%的置信度()测验用这种孵化器进行孵化是否(比自然孵化)能显著提高孵化率。,推翻H0,判断差异显著,即用这种孵化器能显著提高孵化率。1.提出统计假设H0:p≤vsHA:p>

但如果n很大时,用此方法计算概率就很困难。在上一章讨论二项总体的抽样分布时指出,当np和nq大于5时,可用正态分布来近似计算。

第三节生物统计学的基本方法两个样本百分数相比较的假设测验单个样本百分数的假设测验⑴用观察百分数进行计算的测验公式;⑵连续性矫正的计算公式;⑴用观察百分数进行计算的测验公式;⑵连续性矫正的计算公式;这是测验某一个样本百分数所来自的总体百分数p与已知的百分数p0之间是否有显著差异的方法。因为百分数又称为成数,所以这种测验又称为成数的假设测验。这是测验两个样本百分数和所来自的总体百分数p1和p2之间是否有显著差异的方法。对于这种测验,通常假设两总体的方差是相等的,即。第三节生物统计学的基本方法2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。

两尾测验时H0:p

=p0vsHA:p

≠p0计算统计量:(大端)一尾测验时H0:p

≤p0vsHA:p

>p0(小端)一尾测验时H0:p

≥p0vsHA:p

<p0

两尾测验时,|u|>u

则有(1-)的概率推翻H0;(大端)一尾测验时,u>u

则有(1-)的概率推翻H0;(小端)一尾测验时,u<-u

则有(1-)的概率推翻H0。查正态分布表⑴用观察百分数进行计算的测验公式;第三节生物统计学的基本方法单个样本百分数的假设测验95%接受区域否定区域95%接受区域否定区域接受区域否定区域2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:p

=p0vsHA:p

≠p0(大端)一尾测验时H0:p

≤p0vsHA:p

>p0(小端)一尾测验时H0:p

≥p0vsHA:p

<p0

两尾测验时,|u|>u

则有(1-)的概率推翻H0;(大端)一尾测验时,u>u

则有(1-)的概率推翻H0;(小端)一尾测验时,u<-u

则有(1-)的概率推翻H0。第三节生物统计学的基本方法⑵连续性矫正的计算公式;查正态分布表.精确地应该计算这区域内的面积。用正态近似后计算了这区域内的面积。单个样本百分数的假设测验2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:p1

=p2vsHA:p1

≠p2(大端)一尾测验时H0:p1

≤p2vsHA:p1

>p2(小端)一尾测验时H0:p1

≥p2vsHA:p1

<p2

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。第三节生物统计学的基本方法⑴用观察百分数进行计算的测验公式查正态分布表,或df=n1+n2-2的t分布表。其中两个样本百分数相比较的假设测验2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。计算统计量:

两尾测验时H0:p1

=p2vsHA:p1

≠p2(大端)一尾测验时H0:p1

≤p2vsHA:p1

>p2(小端)一尾测验时H0:p1

≥p2vsHA:p1

<p2

两尾测验时,|t|>t

则有(1-)的概率推翻H0;(大端)一尾测验时,t>t

则有(1-)的概率推翻H0;(小端)一尾测验时,t<-t

则有(1-)的概率推翻H0。第三节生物统计学的基本方法查正态分布表,或df=n1+n2-2的t分布表。⑵连续性矫正的计算公式;两个样本百分数相比较的假设测验第三节生物统计学的基本方法

-方差的同质性测验一个样本方差与已知总体方差的统计测验若从一个总体抽取一个大小为n的样本,算得样本方差为s2,想了解此总体方差2是否与已知方差02间有显著的差异。两个样本方差是否来自同一总体方差的统计测验多个样本方差是否来自同一总体方差的统计测验若样本方差s12来自总体方差12,样本方差s22来自总体方差22,想了解这两个总体方差之间是否有显著差异。若总共有k个样本,第i个样本的样本方差si2来自总体方差i2。想了解这k个总体方差之间是否有显著差异。第三节生物统计学的基本方法2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。

两尾测验时H0:2

=02vsHA:2

≠02

(大端)一尾测验时H0:2

≤02vsHA:2

>02

(小端)一尾测验时H0:2

≥02vsHA:2

<02

两尾测验时,2>2/2或2<

21-/2有(1-)概率推翻H0;(大端)一尾测验时,2>2

,则有(1-)概率推翻H0;(小端)一尾测验时,2<

21-,则有(1-)概率推翻H0。计算统计量:一个样本方差与已知总体方差的统计测验用df=n-1查2分布表。如果是大样本,计算出的2值可利用正态分布转为u值,直接与u比较,做出推断。即:第三节生物统计学的基本方法2.利用试验数据计算一个统计量的值。3.根据“小概率事件实际上不可能发生”原理作判断。1.针对研究的问题提出一对统计假设。

两尾测验时H0:12

=22vsHA:12

≠22

(大端)一尾测验时H0:12

≤22vsHA:12

>22

两尾测验时,F

>F/2或F

F1-/2有(1-)概率推翻H0;(大端)一尾测验时,F

F

,则有(1-)概率推翻H0;计算统计量:用df

1=n1-1,df

2=n2-1查

F分布表。两个样本方差是否来自同一总体方差的统计测验若大小为n1的样本方差s12来自总体方差12,大小为n2的样本方差s22来自总体方差22,想了解这两个总体方差

12之间是否有显著差异。第三节生物统计学的基本方法计算统计量:多个样本方差是否来自同一总体方差的统计测验若总共有k个样本,第i个样本的样本方差si2来自总体方差i2。想了解这k个总体方差之间是否有显著差异。

H0:12

=22

=…=k2

vsHA:并非都相等其中:2.利用试验数据计算一个统计量的值。1.针对研究的问题提出一对统计假设。3.根据“小概率事件实际上不可能发生”原理作判断。3.如果,2>2

,则有(1-)概率推翻H0。用df=k-1查2分布表第三节生物统计学的基本方法

-适合性测验先将数据列成上面的表。⑴测验假设

H0:比率为1:1vsHA:比率不是1:1⑵计算:⑶因为

2=

0.2927<

=

3.84,接受H0,认为实际比率与理论比率1:1相符。

例题:玉米花粉粒中形成淀粉粒或糊精是由一对等位基因控制的性状。淀粉粒加碘将变蓝色,而糊精加碘则不会变蓝。如果等位基因的复制是等量的,并且在配子中分配是随机的,F1代中的两种花粉粒的数目应该是1:1的。现调查了6919粒花粉,发现有3437粒会变蓝。问实际比率与理论比率1:1之间是否有显著差异。碘反映观察数(O)理论数(E)变蓝34373459.5不变蓝34823459.5共计69196919注意这里2的自由度为1。因为自由度=分组数-1。第三节生物统计学的基本方法

-独立性测验独立性测验是检查两个(对计数指标有)影响(的)因素是否相互独立(或有关)的方法。例如,“小麦种子是否经过灭菌处理”与“长出的麦穗是否发病”这两件事情是否有关。所以它的统计假设为:

H0:两个因素相互独立vsHA:两个因素相互有关根据各因素的水平数多少分为:2×2

相依表的独立性测验2×C

相依表的独立性测验

R×C

相依表的独立性测验2×2

相依表的独立性测验

例题:调查经过灭菌处理与未经过灭菌处理的两

类小麦种子长出的麦穗发生小麦散黑穗病的株数,得

下表,试分析种子灭菌与否和植株是否发病有无关系。用于处理有两行两列的计数资料,即两个因素各自可分为两种水平时的情况。发病穗数无病穗数合计种子经灭菌265076种子未灭菌184200384合计210250460第三节生物统计学的基本方法

-独立性测验H0:灭菌与否和发病无关

vsHA:发病与灭菌与否有关发病穗数无病穗数合计种子经灭菌265076种子未灭菌184200384合计210250460如果H0正确,灭不灭菌的发病率都应该等于210/460。经灭菌的种子调查了76株,理论上应有76(210/460)

=

株发病,统计推断:种子灭菌与否和发病不发病有显著关系。26(34.7)50(41.3)184(175.3)200(208.7)76-34.7=41.3株无病;未经灭菌的调查了384株,理论上有384(210/460)

=175.

3株发病,384-175.3株无病。

注意2的自由度df

=1

比较两种测

验的结果。

再看连续性

矫正公式。第三节生物统计学的基本方法

-独立性测验方差分析解决的问题:

研究一个或两个样本平均数的假设测验,可采用u测验或t测验的方法。但是对多个样本的差异显著性测验,采用u测验或t10=

0.5987<<0.95,这样犯第一类错误的概率就增加了。到底采用什么方法来解决这一问题呢?

多个样本平均数之间的差异大小可以用这些平均数计算出的方差St2来表示,方差大,差异大;方差小,差异小。但是必须要用一个比较的标准来判断,如何确定这个标准呢?如果我们从一个总体中抽出若干个样本,这些样本平均数之间也会有差异,但不是本质性的差异,这种差异叫抽样误差,也是随机误差的一种,可以计算出它们之间的方差Se2

。如果St2和Se2大小差不多,毫无疑问,这多个样本之间没有差异;如果St2比Se2大得多,那就说明它们之间有本质性的差异。很显然,要比较这两种方差的差异,可以用F测验来解决,即方差分析(analysisofvariance)的方法。因此,要达到这种目的,必须计算出这两种变异的平方和、自由度和方差。第四节方差分析第四节方差分析

线性可加数学模型是将数据中的每一个观测值划分为若干个线性可加部分的数学表达式。对于一个总体xi

=

+i一个样本xi=

+ei对于多个总体xij

=+i+ij

多个样本xij=

+ti+eij

固定模型(fixedmodel):

随机模型(randommodel)

试验因素的效应i是固定的,也称为模型Ⅰ。

试验因素的效应i是随机的,也称为模型Ⅱ。例:某课题组研制出了5个防治小麦纹枯病的新配方,通过试验来比较它们的防治效果,从中找出最好的配方。这5种配方和不喷药的处理效应与总平均效应的差值是常数,因此这些处理效应为固定模型。统计假设为:

H0:vsHA:并非所有i都相等或:

H0:vsHA:并非所有都相等例:某植保站为了搞清目前在小麦生产上使用的防治小麦纹枯病的农药品种情况,从中随机抽出20种来做试验。其目的是通过这20种的试验结果来反映目前使用农药的现状,而不是找出最好的农药种类,因此这些处理效应为随机模型。统计假设为:

H0:vsHA:方差分析的基本思路:

将试验数据的总变异分解为设置的若干可控因素引起的变异,扣除这些可控因素引起的变异后,把剩余的变异当作为由误差引起的。变异的分解主要是对平方和与自由度进行分解。分解后分别计算各自的方差,再将要试验因素引起的方差与误差引起的方差比较,如果试验因素引起的方差显著地大于误差引起的方差,便判定该因素对研究的变数有显著的效应,拒绝H0,,接受HA;否则,判定该因素对变数没有显著的效应,接受H0,拒绝HA

。第四节方差分析在方差分析中数据的变异用方差来衡量。

第四节方差分析xi.(Tt)x1.x2.…xk.1x11x21…xk12x12x22…xk2…nx1nx2n…xkn样本1样本2…样本k多样本的数据资料:第四节方差分析如果共有k

组数据,每组有n个观察值,各观察值分别记为xij。其中i

=1,

2,…,

k;j=1,

2,…,

n。试比较不同组的数据间有无显著差异。

H0:vsHA:并非所有都相等总变异分解为组间的变异和误差引起的变异。各组的值以各组的平均数为代表。总变异分解为组间的变异和误差引起的变异。误差引起的变异用组内方差衡量。容易证明:总平方和=组间平方和+组内平方和。这项等于0同样可以证明:总自由度=组间自由度+组内自由度。第四节方差分析来看一个简单数据的变异分解:利用定义公式计算:xij-4可以看出:SST=SSt+SSe第四节方差分析为方便起见,先计算出校正项:利用计算公式计算:把分解的结果列成方差分析表:变异来源自由度平方和均方F值F判别值F判别值组间k-1SStMSt=SSt/dftMST/MSeF0.05F0.01组内k(n-1)SSeMSe=SSe/dfe总变异nk-1SSTMSt是样本组间方差,估计了总体的组间差异和试验误差()。MSe是样本组内方差,估计了总体误差()。

F=MSt/MSe测验了统计假设H0:vsHA:如果F测验显著,说明组间有显著差异。第四节方差分析把各种平方和及自由度的计算结果抄入一张表内。称它为方差分析表。计算出类间均方(方差)和误差均方(方差)并将结果填入表中。162第四节方差分析样本类间均方(方差)16估计了总体类间均方的

倍(即16);样本误差均方(方差)2估计了总体误差均方:

(即2)。

F=16/2估计了。第四节方差分析从统计理论知:两个方差之比服从第1自由度为分子自由度,第2自由度为分母自由度的F分布。将上表中的类间方差除以误差方差,算出F值。若FF判断类间差异显著;若FF判断类间差异极显著。本例中,F=16/2=8F=4.26。第四节方差分析84.26多重比较(F测验显著基础上进行)如果方差分析表显示组间有显著差异,你就会想知道,在所有的k组之间,共有k(k-1)/2对比较,到底是哪组与哪组之间有显著差异,那些之间没有差异。多重比较就是做这项工作的方法。多重比较的方法有很多种,但常用的主要有以下两种:1.最小显著差数法(LeastSignificantdifference---LSD法或t测验法)2.最小显著极差法即新复极差法(LeastSignificantRange---SSR法或Duncan法)第四节方差分析最小显著差数法(LSD法)LSD法实质上是t测验法。其基本原理是:在样本间的F测验为显著的前提下,计算出显著水平为时的最小显著差数LSD;任何两个平均数的差数≥LSD

,即为在水平上差异显著;反之,则为在水平上差异不显著,这种方法又称为F测验保护下的最小显著差数法。已知:若∣t∣≥t,即为在水平上显著。因此,最小显著差数为:当两样本的容量n相等时,可用公共的方差Se2来计算样本平均数的标准误:用Se2的自由度查表F测验分母的方差比较的平均数包含的观测值个数该方法一般只适合两个平均数之间的比较,特别是当试验中有对照(Check,简称CK),每一个样本平均数与对照平均数进行比较时,或者在进行试验前已确定的样本平均数之间的比较,通常采用此方法。但是应用LSD法必须先做F测验,在F测验显著基础上进行。第四节方差分析最小显著极差法(LSR法)

在多重比较中,包括着多个样本,这多个样本中平均数最大的一个与平均数最小的一个比较,实际上已不再是一对独立随机样本的比较,用LSD法,必然增大I型错误的概率,容易接受不真实的备择假设,为此提出了新复极差法,又称最小显著极差法(shortestsignificantranges,SSR),这种多重比较测验方法是把多个样本中两个极端平均数的差数当作极差对待,如果极差不显著,则包括在这两个极端处理平均数间的各处理平均数的任何成对比较,其差异也是不显著的。极差是否显著用极差相当于样本平均数标准误的倍数来表示其中在一定自由度下,当平均数个数为2、3、k时,SR值已由统计学家求出,见附表7。这样只要计算出样本平均数的标准误,从附表7中查出SR,就可以计算出LSR:LSR法适合多个样本平均数间的相互比较,在比较时,根据比较的平均数个数的不同采用的标准是不一样的。该方法不需要F测验保护,但与F测验的结果也会出现一些较小的差异。第四节方差分析多重比较结果的表示方法

列梯形表法:下划线法:字母标记法:将全部平均数从大到小顺次排列,然后算出各平均数间的差数。凡达到水平的差数在右上角标一个“*”号,凡达到水平的差数在右上角标两个“**”号,凡未达到水平的差数则不予标记。

将平均数按大小顺序排列成一行,在不显著极差的平均数后面划一道横线,有连线的平均数间差异不显著,没有的表示差异显著。

该方法是最常用的多重比较结果的表示方法,在科技论文中一般采用此方法,但是比较过程较复杂。下面重点介绍其标记过程。=0.01乙甲丙丁32.1030.5824.28

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论