生物统计学(全套课件)_第1页
生物统计学(全套课件)_第2页
生物统计学(全套课件)_第3页
生物统计学(全套课件)_第4页
生物统计学(全套课件)_第5页
已阅读5页,还剩209页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学

Biostatistics绪论生物统计学是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。随着生物学研究的不断发展,生物统计学的应用也越来越广泛。一、生物统计学的概念生物统计的常用术语总体与样本

参数与统计数

变量与常数

因素与水平处理与重复效应与互作准确性与精确性

误差与错误

4

(一)总体与样本总体(population)

所研究的全部个体(数据)的集合,其中的每一个元素称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)

从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量(大样本,小样本)JJJJJJJ(二)参数与统计数参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数总体样本抽取部分观察单位

统计数

参数

推断inference统计数:样本的统计指标,如样本均数、标准差,采用英文字母分别记为。参数附近波动的随机变量。(三)变量与常数相同性质的事物表现出的差异性或特异性特征数据称之为变量或变数。它是表示在一个界限内变动着的性状数值。变量按其性质可以分为连续变量和非连续性变量。连续性变量表示在变量范围内可以抽出某一范围的所有值,这种变量之间是连续的、无限的。非连续性变量也称之为离散型变量,表示在变量数列中,仅能取得固定数值。常数是不能给予不同数值的变量,它是代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。如总体平均数、标准差、变异系数等。只有在事物的总体发生变动时,常数才随之变化。(四)因素与水平试验中所研究的影响试验指标的原因或原因组合称为试验因素或处理因素,简称为因素或因子。每个试验因素的不同状态(处理的某种特定状态或数量上的差别)称为因素水平,简称为水平。(五)处理与重复试验处理通常也称为处理,是指对受试对象给予的某种外部干预(或措施)。其中受试对象又称为试验单位或试验单元,是指在试验中能接受不同试验处理的独立的试验载体。植物个体、动物个体,以及不同的组织、器官等都可以作为试验单位。处理根据所涉及的因素数可以分为单因素处理和多因素处理。重复是指在试验中,将一个处理实施在两个或两个以上的试验单位上。处理实施的试验单位数即为处理的重复数。(六)效应与互作试验因素相对独立的作用称为该因素的主效应,简称为主效或效应。两个或两个以上处理因素间相互作用产生的效应称为互作效应。有正效应,也有负效应。互作效应为零则称因素间无交互作用。(七)准确性与精确性

准确性是指在调查或试验中某一试验指标或性状的观测值与真值接近的程度;精确性是指在调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。(八)误差与错误

误差是指试验中不可控因素所引起的观测值偏离真值的差异,它可分为随机误差和系统误差。随机误差是由于试验中许多无法控制的偶然因素所造成的差异,是不可避免的;系统误差是由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向的偏差。

错误是指在实验过程中,人为因素所引起的差错。如实验人员的粗心大意、使仪器校正不准、药品试剂配制不当、称量不准、计算有误等。这类因素在实验过程中是可以避免的。试验设计统计分析资料的收集和整理数据特征数的计算回归和相关分析方差分析协方差分析通径分析聚类分析

……对比设计随机区组设计裂区设计拉丁方设计正交设计……方案制定基本原则常用试验设计五、生物统计学的主要内容试验资料整理与特征数计算

一、资料的检查与核对目的在于确保原始资料的完整性和正确性。

完整性是指原始资料无遗缺。

正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。第一节试验资料的搜集与整理

二、资料的整理方法当观测值不多(n≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。

(一)计数资料的整理现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数资料的整理。

表2.150枚受精种蛋孵化出雏鸡的天数小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。用各个不同观察值进行分组,共分为6组,可得表2.2形式的次数分布表。表2.250枚受精种蛋出雏天数的次数分布表有些计数资料,观察值多,变异范围大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,进一步计算分析也较方便。例如观测100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200

299枚。这样的资料如以每个观察值为一组,则组数太多,如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明显,见表2.3。表2.3100只蛋鸡每年产蛋数的次数分布表

(二)计量资料的整理

计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。

【例】将126名初中生的体重资料(见表2.4)整理成次数分布表。表2.4126名初中生的体重资料单位:kg

1、求全距

全距是资料中最大值与最小值之差,又称为极差,用R表示,即

R=Max(x)-Min(x)

本例R=65.0-37.0=28.0(kg)

2、确定组数

组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当。分组越多所求得的统计量越精确,但增大了运算量;分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2.5。

表2.5样本含量与组数本例中,n=126,确定组数为10组。

3、确定组距

每组最大值与最小值之差称为组距(i)。分组时要求各组的组距相等。组距(i)=全距/组数本例i=28.0/10≈3.0

4、确定组限及组中值

各组的最大值与最小值称为组限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2

组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。表2.4中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以第一组的下限为:

37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为:

36.0+3.0=39.0;第二组的上限也就是第三组的下限为:

39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止。于是可分组为:

36.0

39.0,39.0

42.0,……。为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。第一组记为36.0

,第二组记为39.0

……

5、归组划线计数,作次数分布表分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。表2.6126名初中生体重的次数分布表在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等。在分组后所得实际组数,有时和最初确定的组数不同。如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。

(三)质量性状资料、半定量(等级)资料的整理可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。

表2.7F2代山羊的有角无角分离情况三常用统计表与统计图(一)统计表1、结构序号标题横标目纵标目线条数字脚注2、编制原则结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。3、编制要求标题:简明扼要、准确说明表的内容,有时须注明时间、地点。标目:横标目用以表示被说明事物的主要标志;纵标目用以说明横标目各统计指标内容,并注明计算单位。数字:以小数点对齐,小数位数一致。线条:左右边线可省去;左上角一般不用斜线。

(二)统计图1.统计图绘制的基本要求

(1)标题简明扼要,列于图的下方。

(2)纵、横两轴应有刻度,注明单位。

(3)轴上数值由小到大;图形长宽比例适宜。

(4)用不同颜色或线条代表不同事物时,应有说明。2.常用统计图及其绘制方法

(1)柱形图

它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。如果只涉及一项指标,则采用单式长条图;如果涉及两个以上的指标,则采用复式长条图。Fig.?XXXXXXX

在绘制长条图时,应注意以下几点:①纵轴尺度通常从“0”开始,间隔相等,标明所表示指标的尺度及单位。②横轴是长条图的共同基线,应标明各长条的内容。长条的宽度要相等,间隔相同。③在绘制复式长条图时,将同一属性种类、等级的两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明。

绘图

表2.350枚受精种蛋出雏天数的次数分布表表2.4100只蛋鸡每年产蛋数的次数分布表

(2)园形图

用于表示计数资料、质量性状资料或半定量(等级)资料的构成比(各类别、等级的观测值个数与观测值总个数的百分比)。图1图2(3)线形图

①单式线图:表示某一事物或现象的动态。②复式线图:表示两种以上事物或现象的动态。可用实线“

”、断线“---”、点线“····”

等,或用不同颜色线条来区分,并附图例加以说明。

平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:

算术平均数(arithmeticmean)

中位数(median)

众数(mode)

几何平均数(geometricmean)

调和平均数(harmonicmean)试验资料特征数的计算

平均数

(一)算术平均数

算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。

1直接法

主要用于样本含量n≤30以下、未经分组资料平均数的计算。

设某一资料包含n个观测值:x1、x2、…、xn,则样本平均数可通过下式计算:

其中,Σ为总和符号;表示从第一个观测值x1累加到第n个观测值xn。

2加权法对于样本含量n≥30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:

式中:—第i组的组中值;

—第i组的次数;

—分组数第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi

称为是xi的“权”,加权法也由此而得名。

3平均数的基本性质

①样本各观测值与平均数之差的和为零,即离均差之和等于零。或简写成

②样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。

(xi-)2<(xi-a)2

(常数a≠)或简写为:<

对于总体而言,通常用μ表示总体平均数,有限总体的平均数为:

式中,N表示总体所包含的个体数。当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。(二)中位数

将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。

当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。(三)几何平均数

n个观测值相乘之积开n次方所得的方根,称为几何平均数,记为G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:

为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即

(四)众数

资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。

(五)调和平均数

资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即

调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。二标准差

(一)标准差的意义用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。

全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。

为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差(),称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即Σ()=0,因而不能用离均差之和Σ()来表示资料中所有观测值的总偏离程度。

为了解决离均差有正、有负,离均差之和为零的问题,可先求离均差的绝对值并将各离均差绝对值之和除以观测值个数n求得平均绝对离差,即Σ||/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。

我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各个离均差平方,即()2

,再求离均差平方和,即,简称平方和,记为SS;由于离差平方和常随样本大小而改变,为了消除样本大小的影响,用平方和除以样本大小,即,求出离均差平方和的平均数;

为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度n-1,于是,我们采用统计量表示资料的变异程度。统计量称为均方(meansquare缩写为MS),又称样本方差,记为S2,即

S2=

相应的总体参数叫总体方差,记为σ2。对于有限总体而言,σ2的计算公式为:

由于样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做样本标准差,记为S,即:

由于所以

相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为:

在统计学中,常用样本标准差S估计总体标准差σ。

(二)标准差的计算方法

1直接法

对于未分组或小样本资料,可直接利用前面的公式来计算标准差。

2加权法

对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:

式中,f为各组次数;x为各组的组中值;Σf=n为总次数。

(三)标准差的特性

1标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。

2在计算标准差时,在各观测值加上或减去一个常数,其数值不变。

3当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。

4在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(±S)范围内;约有95.43%的观测值在平均数左右两倍标准差(±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(±3S)范围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。三变异系数

变异系数是衡量资料中各观测值变异程度的另一个统计量。标准差与平均数的比值称为变异系数,记为C·V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。

变异系数的计算公式为:

注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。

方差分析的基本假定和数据转换

(1)效应的可加性

方差分析模型均为线性可加模型。这个模型明确提出了处理效应与误差效应是“可加的”,正是由于这一“可加性”,才有了样本平方和的“可加性”,亦即有了试验观测值总平方和的“可剖分”性。如果试验资料不具备这一性质,那么变量的总变异依据变异原因的剖分将失去根据,方差分析不能正确进行。1方差分析的基本假定

(2)分布的正态性

是指所有试验误差是相互独立的,且都服从正态分布N(0,σ2)。只有在这样的条件下才能进行F检验。

(3)方差的同质性

即各个处理观测值总体误差方差σ2应是相等的。只有这样,才有理由以各个处理均方的合并均方作为检验各处理差异显著性的共同的误差均方。上述三点是进行方差分析的基本前提或基本假定

如果在方差分析前发现有某些异常的观测值、处理或单位组,只要不属于研究对象本身的原因,在不影响分析正确性的条件下应加以删除。有些资料就其性质来说就不符合方差分析的基本假定。其中最常见的一种情况是处理平均数和均方有一定关系(如二项分布资料,平均数,均方;泊松分布资料的平均数与方差相等)。

数据转换

对不能直接进行方差分析的资料应考虑采用非参数方法分析或进行适当数据转换后再作方差分析。常用的数据转换方法:①平方根转换(squareroottransformation)

此法适用于各组均方与其平均数之间有某种比例关系的资料,尤其适用于总体呈泊松分布的资料。转换的方法是求出原数据的平方根。若原观测值中有为0的数或多数观测值小于10,则把原数据变换成,对于稳定均方,使方差符合同质性的作用更加明显。变换也有利于满足效应可加性和正态性的要求。②对数转换(logarithmictransformation)

如果各组数据的标准差、全距与其平均数大体成比例或变异系数CV接近常数时,或者效应为相乘性或非相加性,则将原数据变换为对数(lgx或lnx)后,可以使方差变成比较一致而且使效应由相乘性变成相加性。如果原数据包括有0,可以采用lg(x+1)变换的方法。一般而言,对数转换对于削弱大变数的作用要比平方根转换更强。例如变数1、10、100作平方根转换是1、3.16、10,作对数转换则是0、1、2。对数变换能使服从对数正态分布的变量正态化。如环境中某些污染物的分布、人体中某些微量元素的分布,可用对数转换改善其正态性。③

反正弦转换(arcsinetransformation)

平方根反正弦转换适用于发病率、感染率、病死率、受胎率等服从二项分布的资料。转换的方法是求出每个原数据(用百分数或小数表示)的平方根反正弦。一般,若资料中的百分数介于30%—70%之间时,因资料的分布接近于正态分布,数据变换与否对分析的影响不大。部分统计学书后附有百分数反正弦转换表,可以直接查得x的平方根反正弦值。

应当注意的是,在对转换后的数据进行方差分析时,若经检验差异显著,则进行平均数的多重比较应用转换后的数据进行计算。但在解释分析最终结果时,应还原为原来的数值。

倒数转换(reciprocaltransformation)

当各处理标准差与其平均数的平方成比例时,可进行倒数转换。这种转换常用于以反应时间为指标的数据资料,也可用于数据两端波动较大的资料,可使极端值的影响减小。对于一些分布明显偏态的二项分布资料,有人通过以下转换,可使x呈良好的正态分布。

对于一般非连续性的数据,最好在方差分析前先检查各处理平均数与相应处理内均方是否存在相关性和各处理均方间的变异是否较大。如果存在相关性,或者变异较大,则应考虑对数据作出变换。有时要确定适当的转换方法并不容易,可事先在试验中选取几个其平均数为大、中、小的处理试验作转换。哪种方法能使处理平均数与其均方的相关性最小,哪种方法就是最合适的转换方法。作业

选用4种处理进行随机区组试验,对某个性状的方差分析表明,F值达到了极显著,拟进一步分析各处理间的差异显著性,已知甲、乙、丙和丁四个处理各自的平均值为1.9000、1.4567、2.4360和2.1175,测验级差的平均数个数(k)为2、3、4时的LSR0.05和LSR0.01的值分别是0.3442和0.4641、0.3608和0.4843、0.3715和0.4962,请采用字母法绘表标记出5%和1%水平下各处理差异的显著性。处理平均数差异显著性0.050.01丙丁甲乙2.43602.11751.90001.4567

秩次距k234LSR0.050.34420.36080.3715LSR0.010.46410.48430.4962附表1计算得到的LSR值附表24个处理的多重比较结果处理平均数差异显著性0.050.01丙丁甲乙2.43602.11751.90001.4567aA

ab

AB

bBCcC秩次距k234LSR0.050.34420.36080.3715LSR0.010.46410.48430.4962附表1计算得到的LSR值附表2四个处理的多重比较结果

将测量数据的总变异按照变异来源分解为处理效应和误差效应,并作出其数量估计,从而确定试验处理对研究结果影响力的大小。方差分析的基本步骤是:①将样本数据的平方和与总自由度分解为各变异因素的平方和与自由度;②列方差分析表进行F检验,分析各变异因素在总变异中的重要程度;③若F检验显著,对各处理平均数进行多重比较。方差分析(ANOVA)

(analysisofvariance)第一节单因素方差分析在方差分析中,根据所研究试验因素的多少,可分为单因素、两因素和多因素试验资料的方差分析。单因素试验资料的方差分析是其中最简单的一种,目的在于正确判断该试验因素各水平的优劣。根据各处理内重复数是否相等,单因素方差分析又分为重复数相等和重复数不等两种情况。

【例6.1】:以淀粉为原料生产葡萄糖过程中,残留的许多糖蜜可用于酱色生产。生产酱色之前应尽可能彻底除杂,以保证酱色质量。今选用5种除杂方法,每种方法做4次试验,结果见表6.1,试分析不同除杂方法的除杂效果有无差异?除杂方法(Ai)除杂量(xij)合计(xi.)平均方差Si2A125.624.425.025.9100.925.20.442A227.827.027.028.0109.827.50.277A327.027.727.525.9108.127.00.649A429.027.327.529.9113.728.41.543A520.621.222.021.285.021.30.330x..=517.5表6.1不同除杂方法的除杂量g/kg

一、各处理重复数相等的方差分析

单因素试验,处理数k=5,重复数n=4。各项偏差平方和及自由度计算如下:矫正数总偏差平方和处理间(不同除杂方法间)的偏差平方和处理内(误差)的偏差平方和+85.02

总自由度处理间自由度处理内自由度用SSt、SSe分别除以dft和dfe便可得到处理间均方MSt及处理内均方MSe。

假设各处理没有真实差异,那么和都是误差方差的估计量。以为分母,为分子,求其比值。统计学上把两个均方之比值称为F值。即1

构造F统计量,进行F检验(1)F统计量构造~F(df1,df2)(2)F检验

F值表是专门为检验代表的总体方差是否比代表的总体方差大而设计的。若实际计算的F值大于,则F值在α=0.05的水平上显著,我们以95%的可靠性(即冒5%的风险)推断代表的总体方差大于代表的总体方差。这种用F值出现概率的大小推断两个总体方差是否相等的方法称为F检验(F-test)。

在单因素试验结果的方差分析中,无效假设为H0:μ1=μ2=…=μk,备择假设为HA:各μi不全相等,或H0

:=0,HA:≠0;

F=MSt/MSe,也就是要判断处理间均方是否显著大于处理内(误差)均方。如果结论是肯定的,否定H0;反之,接受H0。

实际进行F检验时,是将由试验资料所算得的F值与根据df1=dft(大均方,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表所得的临界F值,相比较作出统计推断。若F<,即P>0.05,不能否定H0,统计学上,把这一检验结果表述为:各处理间差异不显著,在F值的右上方标记“ns”,或不标记符号;

若≤F<,即0.01<P≤0.05,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异显著,在F值的右上方标记“*”;若F≥,即P≤0.01,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异极显著,在F值的右上方标记“**”。

对于上例,因为F=MSt/MSe=32.12/0.65=49.42**;根据df1=dft=4,df2=dfe=15查F值表,得F0.01(4,15)=4.89;因为F>F0.01(4,15)=4.89,P<0.01

表明5种不同除杂方法间的除杂效果差异极显著,不同除杂方法的除杂效果不同。

在方差分析中,通常将变异来源、偏差平方和、自由度、均方和F值归纳成一张方差分析表,见表6.2。

表6.2表6.1资料的方差分析变异来源偏差平方和自由度方差F值F临界值显著性处理间128.475432.1249.42F0.05(4,15)=3.05F0.01(4,15)=4.89**处理内9.7225150.65总变异138.197519

F检验是整体检验。F值显著或极显著,否定了无效假设H0,只能表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。因而,有必要进行两两处理平均数间的比较,以具体判断各处理平均数间的差异显著性。统计上把多个平均数两两间的相互比较称为多重比较(multiplecomparisons)。常用的多重比较的方法有最小显著差数(LSD)法和最小显著极差(LSR)法,现分别介绍如下。2多重比较

(1)最小显著差数法(LSD法,leastsignificantdifference)

此法的基本作法是:在F检验显著的前提下,先计算出显著水平为α的最小显著差数,然后将任意两个处理平均数的差数的绝对值与其比较。LSD法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。(2)最小显著极差法(LSR法,Leastsignificantranges)

LSR法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)k的不同而采用不同的检验尺度,以克服LSD法的不足。这些在显著水平α上依秩次距k的不同而采用的不同的检验尺度叫做最小显著极差LSR。

例如有10个要相互比较,先将10个依其数值大小顺次排列,两极端平均数的差数(极差)的显著性,由其差数是否大于秩次距k=10时的最小显著极差决定(≥为显著,<为不显著);而后是秩次距k=9的平均数的极差的显著性,则由极差是否大于k=9时的最小显著极差决定;……直到任何两个相邻平均数的差数的显著性由这些差数是否大于秩次距k=2时的最小显著极差决定为止。因此,有k个平均数相互比较,就有k-1种秩次距(k,k-1,k-2,…,2),因而需求得k-1个最小显著极差(LSRα,k),分别作为判断具有相应秩次距的平均数的极差是否显著的标准。

此法还称新复极差法(newmultiplerangemethod),或称Duncan法。根据显著水平α、误差自由度dfe、秩次距k,由SSR表查得的临界SSR。α=0.05和α=0.01水平下的最小显著极差为:

对于【例6.1】分析,=(

/n)1/2=0.403,依dfe=15,k=2、3、4、5,由新复极差检验SSR值表查临界SSR0.05(15,k)和SSR0.01(15,k)值,乘以,求得各最小显著极差,所得结果列于表6.3。dfe秩次距kSSR0.05SSR0.01LSR0.05LSR0.011523.014.171.211.6833.164.371.271.7643.254.501.311.8153.314.581.331.85表6.3SSR值与LSR值

表6.45种除杂方法除杂效果多重比较结果(SSR法)除杂方法A428.47.1**3.2**1.4*0.9A227.56.2**2.3**0.5A327.05.7**1.8**A125.23.9**A521.3

多重比较结果的表示常用的表示方法有以下两种。

①三角形法此法是将多重比较结果直接标记在平均数多重比较表上,如表6.4所示。此法的优点是简便直观,缺点是占的篇幅较大。

标记字母法此法是先将各处理平均数由大到小自上而下排列;然后在最大平均数后标记字母a,并将该平均数与以下各平均数依次相比,凡差异不显著标记同一字母,直到某一个与其差异显著的平均数标记字母b;再以标有字母b的平均数为标准,与上方比它大的各个平均数比较,凡差异不显著一律再加标b,直至显著为止;再以标记有字母b的最大平均数为标准,与下面各未标记字母的平均数相比,凡差异不显著,继续标记字母b,直至某一个与其差异显著的平均数标记c;……;如此重复下去,直至最小一个平均数被标记比较完毕为止。这样,各平均数间凡有一个相同字母的即为差异不显著,凡无相同字母的即为差异显著。占篇幅小,在科技文献中常见。对于【例6.1】,多重比较结果用字母标记见表6.5。表6.55种除杂方法除杂效果多重比较结果(SSR法)除杂方法差异显著性0.050.01A428.4aAA227.5abAA327.0bAA125.2cBA521.3dC可见,在α=0.05水平下,A4与A2、A2与A3均数间差异不显著,其余均差异显著;在α=0.01水平下,A4、A2、A3三者均数间差异不显著,其余差异显著。各处理重复数不等的方差分析【例6.2】5个不同品种猪的育肥试验,后期30天增重(kg)如表6.6所示。试比较品种间增重有无差异。品种增重(kg) nixi.B121.519.520.022.018.020.06121.020.2B216.018.517.015.520.016.06103.017.2B319.017.520.018.017.0591.518.3B421.018.519.020.0478.519.6B515.518.017.016.0466.516.6合计25460.5表6.65个品种猪30天增重1、计算各项平方和与自由度2、列出方差分析表,进行F检验变异来源平方和自由度均方F值F临界值显著性品种间46.50411.635.99F0.05(4,20)=2.87F0.01(4,20)=4.43**品种内38.84201.94总变异85.34表6.75个品种育肥猪增重方差分析表3、多重比较因为各处理重复数不等,应先计算出平均重复次数n0根据dfe=20,秩次距k=2,3,4,5,从附表6中查出α=0.05与α=0.01的临界SSR值,乘以=0.63,即得各最小显著极差,所得结果列于表6.8。

表6.8SSR值及LSR值表将各平均数差数与表6.8中相应的最小显著极差比较,作出推断。检验结果标记于表6.9中。表6.95个品种育肥猪平均增重多重比较表(SSR法)多重比较结果表明B1、B4品种的平均增重极显著或显著高于B2、B5品种的平均增重,其余不同品种之间差异不显著。可以认为B1、B4品种增重最快,B2、B5品种增重较差,B3品种居中。表6.105个品种育肥猪平均增重多重比较表品种平均数差异显著性5%1%B120.2aAB419.6aABB318.3abABCB217.2bBCB516.6bC第二节二因素方差分析二因素试验中若因素A的每个水平与因素B的每个水平均衡相遇,则所得试验数据按两个因素交叉分组称为两向分组资料。例如选用几种温度和几种培养基培养某种真菌,研究其生长速度,其每一观察值都是某一温度和某一培养基组合同时作用的结果,故属两向分组资料。两向分组资料的方差分析按各组合内有、无重复观察值分为两种不同情况。一、无重复观测值的二因素方差分析[例6.2]采用5种生长素处理豌豆,未处理为对照,待种子发芽后,分别每盆中移植4株,每组为6盆,每盆一个处理,试验共有4组24盆,并按组排于温室中,使同组各盆的环境条件一致。当各盆见第一朵花时记录4株豌豆的总节间数,结果列于表6.11,试作方差分析。表6.11生长素处理豌豆的试验结果(1)自由度和平方和的分解根据表6.11将各项自由度直接填于表6.12。以下分解平方和,求得:表6.12表6.11资料的方差分析(2)F测验上表对组间有无不同效应作F测验,F=1.48/2.89<1对处理间有无不同效应作F测验,F=13.17/2.89=4.56>F0.05推断:组间环境条件无显著差异,不同生长素处理间有显著差异。(3)处理间比较此例有预先指定的对照,故用LSD法。求得:查得ν=15时,t0.05=2.131,t0.01=2.947,故:LSD0.05=1.202×2.131=2.56(节间),LSD0.01=1.202×2.947=3.54(节间)

以LSD测验各生长素处理与对照的差异显著性于表6.13。结果表明赤霉素的效应最强,吲哚乙酸次之,其余处理皆与对照无显著差异。表6.13豌豆生长素处理后始花时的节间数(4株总和)二、具有重复观测值的二因素方差分析[例6.3]施用A1、A2、A3三种肥料于B1、B2、B3三种土壤,以小麦为指示作物,每处理组合种3盆,得产量结果(g)于表6.14。试作方差分析。表6.143种肥料施于3种土壤的小麦产量(g)(1)自由度和平方和的分解根据上表,将各项变异来源的自由度填于表6.15。以下分解平方和,求得:(2)F测验将上述结果录于表6.15,求得肥类×土类间的F=4.81/0.928=5.18>F0.01;求得肥类间的F=89.69/0.928=96.65>F0.01;求得土类间的F=1.98/0.928=2.13<F0.05。所以该试验肥类×土类的互作和肥类的效应间差异都是极显著的,而土类间无显著差异。表6.15表6.14资料的方差分析(3)平均数的比较①各处理组合平均数的比较:肥类×土类的互作显著,说明各处理组合的效应不是各单因素效应的简单相加,而是肥类效应随土类而不同(或反之);所以宜进一步比较各处理组合的平均数。在此用新复极差测验,求得:根据ν=18,算得各LSR0.05和LSR0.01的值于表6.16。表6.16表6.15资料各处理组合平均数的LSR值(新复极差测验)表6.16表6.14资料各处理组合平均数的新复极差测验②各肥类平均数的比较:肥类间的F测验极显著。求得肥类平均数的标准误:故有各肥类平均数的LSR值表6.17,显著性测验结果表6.18。表6.17表6.14资料肥类平均数的LSR值表6.18表6.14资料各肥类平均数的新复极差测验

由表6.18可见,肥料A1与A3、A2均有极显著的差异;但A3与A2无显著差异。综上所述,表6.14试验结果的基本信息是:肥料A1对小麦的增产效果最好,土类间则无显著差异;但A1施于B1(A1B1)却比施于其他土壤上更有突出的增产效果。直线回归与相关分析

在试验研究中常常要研究两个变量间的关系。如:人的身高与体重、作物种植密度与产量、食品价格与需求量的关系等。两个关系依存关系:依变量Y随自变量X变化而变化。

——

回归分析互依关系:依变量Y与自变量X间的彼此关系.

——

相关分析一直线回归

(一)、直线回归方程的建立对于两个相关变量x和y,如果通过试验或调查获得它们的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。例如:某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)。估计尿肌酐含量(Y)对其年龄(X)的回归方程。

从散点图可以看出:①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;

②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);

散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。

回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来预测或控制另一变量。在x、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。

特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。二直线相关

进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。

(一)、决定系数和相关系数

x对y的决定系数(coefficientofdetermination),记为r2,

决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0≤r2≤1。

若求r2的平方根,并赋予相应的符号,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数(coefficientofcorrelation),记为r。(二)、相关系数的计算

【例】计算10只绵羊的胸围(cm)和体重(kg)的相关系数。表7.110只绵羊胸围和体重资料计算出胸围与体重的相关系数为0.8475。

上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r

进行显著性检验。此时无效假设、备择假设为HO:ρ=0,HA:ρ≠0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。

(三)、相关系数的显著性检验

统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。所以可以直接采用查表法对相关系数r进行显著性检验。先根据自由度n-2查临界r值(附表8),得,。若|r|<,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若≤|r|<,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。

对于【例】,因为df=n-2=10-2=8,查附表8得:=0.632,=0.765,而r=0.8475>,P<0.01,表明绵羊胸围与体重的相关系数极显著。

(四)、相关系数与回归系数的关系

直线相关分析与回归分析的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式——直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。两种分析所进行的显著性检验都是解决y与x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算出相关系数r并对其进行显著性检验,若检验结果r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用它来进行预测和控制。

(五)、应用直线回归与相关的注意事项直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:

1、变量间是否存在相关

直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。

2、其余变量尽量保持一致

由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。

3、观测值要尽可能的多

在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。

4、外推要谨慎

直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。XYXYX00000YXYXYXY

5、正确理解回归或相关显著与否的含义

一个不显著的相关系数并不意味着变量x和y之间没有关系,而只能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。

6、一个显著的回归方程并不一定具有实践上的预测意义

如一个资料x、y两个变量间的相关系数r=0.5,在df=24时,r0.01(24)=0.496,r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。试验设计及其统计分析

试验设计是数理统计学的一个分支,是进行科学研究的重要工具。由于它与生产实践和科学研究紧密结合,在理论和方法上不断地丰富和发展,因而广泛地应用于各个领域。一个实验如果设计的好就会事半功倍;反之,则会事倍功半,甚至劳而无功。第一节试验设计的基本原理

一、试验设计的基本概念

广义的理解是指试验研究课题设计,也就是整个试验计划的拟定。包括课题的名称、试验目的,研究依据、内容及预期达到的效果,试验方案,试验单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验结果的分析方法,效益分析,已具备的条件,需要购置的设备,研究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。狭义的理解是指试验单位的选取、重复数目的确定及试验单位的分组。

试验设计的目的是避免系统误差,控制、降低试验误差,无偏估计处理效应,从而对样本所在总体作出可靠、正确的推断。试验设计的任务是在研究工作进行之前,根据研究项目的需要,应用数理统计原理,作出周密安排,力求用较少的人力、物力和时间,最大限度地获得丰富而可靠的资料,通过分析得出正确的结论,明确回答研究项目所提出的问题。二、生物试验的任务

生物试验的主要任务在于研究、揭示和掌握生物生长发育规律及这些规律与外界环境条件等的关系。通过试验,探索新的培养、繁殖、管理方法和技术措施,找出其中的规律,并将这些规律应用到科研和生产实践中,以解决存在的问题;进一步提高产品的质量和数量,取得更大的经济效益和社会效益,从而推动相关行业的发展。三、生物试验的特点

1、试验干扰因素多①生物个体差异,它是试验中误差的重要来源;②环境条件的差异,温光湿等不能完全控制一致;③管理条件的差异,如在试验过程中的管理方法等不一致;④试验人员操作技术上的差异。

2、试验具有复杂性在生物试验中所研究的各种试验对象,它们都有自己的生长发育规律和遗传特性,并与环境、管理等条件密切相关,而且这些因素之间又相互影响,相互制约,共同作用于供试对象。所以在试验中,人们不可能做到对环境条件等一一加以控制,当然也就不易精确地分析出各个因素的单独作用。

3、试验周期长动植物完成一个生活世代的时间较长。因此,有的一年内不能进行多次试验,有的需用几年的时间才能完成整个试验。应尽量克服周期长、试验年度间差异的影响,以获得正确的结论。

四、生物试验的基本要求1、试验要有代表性包括生物学和环境条件两个方面的代表性。生物学的代表性是指作为主要研究对象的代表性,并要有足够的数量。环境条件的代表性是指代表将来计划推广此项试验结果的地区的自然条件和生产条件,如气候、管理水平及设备等。代表性决定了试验结果的可利用性。

2、试验要有正确性试验的正确性包括试验的准确性和试验的精确性。在进行试验的过程中,应严格执行各项试验要求,将非试验因素的干扰控制在最低水平,以避免系统误差,降低试验误差,提高试验的正确性。

3、试验要有重演性重演性是指在相同条件下,重复进行同一试验,能够获得与原试验相类似的结果,即试验结果必须经受得起再试验的检验。五、试验计划的内容及要求

进行任何一项科学研究,在试验前必须制定一个科学的、全面的试验计划,以便使该项研究工作能够顺利开展,从而保证试验任务的完成。试验计划的内容一般应包括以下几个方面:

(一)课题选择与试验目的

选题注意事项

1、实用性:要着眼于科研和生产中急需解决的问题,从发展的观点出发,适当照顾到长远或不久将来可能出现的问题。

2、先进性:在了解国内外该研究领域的进展、水平等基础上,选择前人未解决或未完全解决的问题,以求在理论、观点及方法等方面有所突破。

3、创新性:研究课题要有自己的新颖之处。

4、可行性:就是完成科研课题的可能性,无论是从主观条件还是客观条件方面,都要能保证研究课题的顺利进行。

(二)研究依据、内容及预期达到的经济技术指标

课题确定后,通过查阅国内外有关文献资料,明确项目的研究意义和应用前景,国内外在该领域的研究概况、水平和发展趋势,理论依据、特色与创新之处;明确项目的具体研究内容和重点解决的问题,以及取得成果后的应用推广计划,预期达到的经济技术指标及预期的技术水平等。/kns/brief/default_result.aspx;/UA_GeneralSearch_input.do?product=UA&search_mode=GeneralSearch&SID=1ExOrRT76wd7GQa6trX&preferencesSaved=/

(三)试验方案和试验设计方法

试验方案是全部试验工作的核心部分,主要包括研究的因素、水平的确定等。方案确定后,结合试验条件选择合适的试验设计方法。/htmlnews/2015/4/317517.shtm

(四)样本的数量及要求

应力求比较均匀一致。(五)试验记录的项目与要求

为了收集分析结果需要的各个方面资料,应事先以表格的形式列出需观测的指标与要求。(六)试验结果分析与效益估算

试验结束后,要整理、分析取得的资料,所以应明确采用统计分析的方法,如方差分析、回归与相关分析等。如果试验效果显著,同时应计算经济效益。

(七)已具备的条件和研究进度安排

包括研究工作基础或预试情况,现有的主要仪器设备,研究技术人员及协作条件,从其他渠道已得到的经费情况等。研究进度安排可根据试验的不同内容按日期、分阶段进行安排,定期写出总结报告。

(八)试验所需的条件

除已具备的条件外,本试验尚需的条件,如经费、仪器设备的数量和要求等。

(九)研究人员分工

适当考虑职称、年龄等,使年限较长的项目能够后继有人,保持试验的连续性、稳定性和完整性。(十)试验的时间、地点和工作人员

试验的时间,地点要安排合适,工作人员要固定,并参加一定培训,以保证试验正常进行。(十一)成果鉴定及撰写学术论文

一些重要的研究成果,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论