




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、方差分析方差分析第四章第四章第一节第一节 单因子试验的设计和方差分析单因子试验的设计和方差分析 英国统计学家费歇在英国统计学家费歇在2020年代首先把方差分析应用到农业年代首先把方差分析应用到农业试验中试验中,经过几十年的发展其内容已十分丰富经过几十年的发展其内容已十分丰富,方差分析是方差分析是数理统计中具有广泛应用的基础方法之一数理统计中具有广泛应用的基础方法之一是工农业生是工农业生产和科学试验中分析数据的一个重要工具产和科学试验中分析数据的一个重要工具。本章我们仅介绍本章我们仅介绍单因素和双因素的方差分析单因素和双因素的方差分析。 例例4.1.4.1. 为了研究用来处理水稻种子的四种不同药
2、剂为了研究用来处理水稻种子的四种不同药剂对水稻产量的影响对水稻产量的影响。选择一块各种条件(气候选择一块各种条件(气候、土质土质、管管理)基本相同的土地理)基本相同的土地,将其分成将其分成1616块作为试验田块作为试验田。在每四在每四块试验地里种下用同一种药剂处理过的水稻种子块试验地里种下用同一种药剂处理过的水稻种子。试验的试验的结果结果水稻产量(单位:水稻产量(单位:kgkg)。由下表给出由下表给出。一、一、试验例子与基本概念试验例子与基本概念表表4.14.1, 不同的药剂处理种子的水稻产量不同的药剂处理种子的水稻产量试验中有一可控制的条件(因素)试验中有一可控制的条件(因素)药剂药剂,用用
3、A表示表示。四种不同的药剂称为四种不同的药剂称为A 的四个不同的水平的四个不同的水平,分别记为分别记为4321,AAAAAi药剂处理过的种子的水稻产量药剂处理过的种子的水稻产量Xi是一个随机变量是一个随机变量,在该药剂下经试验所得的水稻产量可以认为是来自总体在该药剂下经试验所得的水稻产量可以认为是来自总体Xi的一个样本的一个样本。表中的四组数据可以看成是分别来自四个不同总体的样本。表中的四组数据可以看成是分别来自四个不同总体的样本。 Ai药剂下的第药剂下的第j 次试验结果记为次试验结果记为Xij 从表中数据可以看出从表中数据可以看出:不同药剂处理过的种子不同药剂处理过的种子,其平其平均产量是有
4、差异的均产量是有差异的。第二种药剂和第四种药剂处理过的水第二种药剂和第四种药剂处理过的水稻平均产量要明显高于另两种药剂处理过的水稻平均产量稻平均产量要明显高于另两种药剂处理过的水稻平均产量。此外此外,用同一种药剂处理的四块试验田中水稻产量之间也用同一种药剂处理的四块试验田中水稻产量之间也有差异有差异。 造成这些差异的原因有两方面造成这些差异的原因有两方面: 现在的问题是要通过试验所得的数据来判断产量之间现在的问题是要通过试验所得的数据来判断产量之间的差异主要是由试验误差造成的的差异主要是由试验误差造成的,还是由不同药剂的变化还是由不同药剂的变化造成的造成的。 一是由于因素一是由于因素A取不同水
5、平所引起的差异取不同水平所引起的差异。 另一方面另一方面,是由于随机而引起的差异是由于随机而引起的差异,是由于试验误是由于试验误差引起的这类差异差引起的这类差异。 单因子试验名词解释单因子试验名词解释指标指标 用于衡量试验结果好坏的特性值称为用于衡量试验结果好坏的特性值称为指标指标。在有些在有些设计中设计中,指标又称为指标又称为响应响应。 指标的分类指标的分类:定量指标和定性指标定量指标和定性指标。 定量指标定量指标:用测量结果表示的指标称为定量指标用测量结果表示的指标称为定量指标,如种子的苗高如种子的苗高,粮食的产量粮食的产量,橡胶件的强度等橡胶件的强度等。 定性指标定性指标:用等级评分等表
6、示的指标称为定性指标用等级评分等表示的指标称为定性指标,如药物的疗效如药物的疗效、物质的光谱度物质的光谱度、布料的柔软度等布料的柔软度等。 注意注意:由于测量数据含有的信息丰富由于测量数据含有的信息丰富,故在试验中故在试验中要尽量选用定量指标要尽量选用定量指标。 因子与水平因子与水平 不可控因子不可控因子:在实际操作中不能控制在实际操作中不能控制、或难以控或难以控制制、或要花费昂贵才能控制或要花费昂贵才能控制、或试验人员尚未意识到或试验人员尚未意识到对试验结果会有影响的因子对试验结果会有影响的因子,又称为噪声因子或误差又称为噪声因子或误差因子因子,如环境温度与湿度如环境温度与湿度、机器的老化等
7、。机器的老化等。 影响试验结果的因素称为影响试验结果的因素称为因子因子,因子所处的状态因子所处的状态(位级)称为(位级)称为水平水平。 可控因子可控因子:可用某种控制方式将其状态(即水平)可用某种控制方式将其状态(即水平)做审慎改变的因子做审慎改变的因子,简称因子简称因子,常用大写字母表示常用大写字母表示。如反应时间如反应时间、反应温度反应温度、原材料产地原材料产地、机器编号等机器编号等。 它是试验误差的源泉它是试验误差的源泉 注意注意:在试验中在试验中,噪声因子会对试验结果起干扰噪声因子会对试验结果起干扰作用作用,要消除这种干扰通常是不可能的要消除这种干扰通常是不可能的,只能尽量限只能尽量限
8、制它制它,使其减少干扰使其减少干扰 试验设计的任务试验设计的任务:是在尽量限制噪声因子的条件是在尽量限制噪声因子的条件下考察可控因子的变化对试验结果(指标值)的影响,下考察可控因子的变化对试验结果(指标值)的影响,从中寻找可控因子水平的最佳搭配,使产品的指标值从中寻找可控因子水平的最佳搭配,使产品的指标值接近目标值,且指标值的波动尽量小。接近目标值,且指标值的波动尽量小。 试验误差试验误差定义定义:试验结果常用指标的测量值(或评分值)试验结果常用指标的测量值(或评分值)y表示表示,测量值测量值y与指标真值与指标真值 之间的偏差之间的偏差 =y 称为试验误差称为试验误差,简简称误差称误差。 注意
9、注意:(1) 是一个随机变量是一个随机变量。 (2) 的分布的分布 根据中心极限定理根据中心极限定理,只要把每个不可控只要把每个不可控因子都限制在一定的范围内因子都限制在一定的范围内,随机误差随机误差 总可认为是总可认为是服从服从均值为均值为0 0,方差为方差为 2 的正态分布的随机变量的正态分布的随机变量。(3) 的意义的意义 标准差是衡量随机误差大小的尺度标准差是衡量随机误差大小的尺度。 越小试验误差越小试验误差就越小就越小,这说明试验的组织实施很好这说明试验的组织实施很好; 越大试验误差就越大越大试验误差就越大,这说明不可控因子干扰较这说明不可控因子干扰较大大,要努力改进试验的实施要努力
10、改进试验的实施。 过大会使试验误差淹没了可控因子变化而产生的过大会使试验误差淹没了可控因子变化而产生的影响影响,这将导致试验失败这将导致试验失败。 二、试验设计二、试验设计 定义定义:在明确所要考察的(可控)因子及其水平后在明确所要考察的(可控)因子及其水平后,对试验进行总体安排称为试验设计对试验进行总体安排称为试验设计。 有效试验设计的注意点有效试验设计的注意点: 要尽量减少试验误差要尽量减少试验误差。Fisher在进行农业田间试验发在进行农业田间试验发现现,在田间试验中在田间试验中,环境条件难以严格控制环境条件难以严格控制,试验误差不试验误差不可忽视可忽视,故提出对试验方案必须做合理安排故
11、提出对试验方案必须做合理安排,以减轻随机以减轻随机误差的影响误差的影响。 尽量减少试验次数尽量减少试验次数。 便于对试验结果(指标值)进行统计分析便于对试验结果(指标值)进行统计分析。由于在试由于在试验中存在随机误差验中存在随机误差,并体现在指标的测量值上并体现在指标的测量值上,所以对指所以对指标值的分析需用统计方法标值的分析需用统计方法。 试验基本原则试验基本原则 1. 重复重复 定义定义:在相同条件下进行若干次试验。在相同条件下进行若干次试验。 三个基本原则三个基本原则:重复、随机化和区组。重复、随机化和区组。这三个基本原则在每个试验中都必须考虑这三个基本原则在每个试验中都必须考虑 若重复
12、进行若重复进行n次试验,试验结果分别记为次试验,试验结果分别记为x1,xn,它就是一个样本。它就是一个样本。 通常假定通常假定:Xi= + i , i N(0, 2), i=1,2,n重复有两个作用重复有两个作用: 提供标准差提供标准差 的估计的估计2/112)(1 niiyyns )/,(2nNy niiyny11其中其中 提供均值提供均值 的更为精确的估计的更为精确的估计 2. 随机化随机化 定义定义:试验材料的分配和各试验点的试验次序都试验材料的分配和各试验点的试验次序都要随机确定要随机确定。 意义意义: 随机化常能使各次试验结果相互独立随机化常能使各次试验结果相互独立,这是试验这是试验
13、设计中正确使用统计方法分析试验结果的基石设计中正确使用统计方法分析试验结果的基石; 可以使不可控因子的影响部分可以使不可控因子的影响部分“抵消抵消”,不至于不至于积累成灾积累成灾;可使试验误差得到准确的估计可使试验误差得到准确的估计。 3. 区组区组 定义定义:把试验单元分为若干个小组把试验单元分为若干个小组,使每组内的使每组内的试验条件相同或近似相同试验条件相同或近似相同,而组与组之间在试验条件而组与组之间在试验条件上允许有较大差异上允许有较大差异,这样的小组在试验设计中被称为这样的小组在试验设计中被称为区组区组。 如如 农田试验中按地的肥沃农田试验中按地的肥沃、日照和水分等日照和水分等,将
14、试将试验田分成若干区组验田分成若干区组;工业试验中工业试验中,按操作时间(早按操作时间(早、晚晚、晚)把试验单元分成若干个区组晚)把试验单元分成若干个区组。 实施区组技术的意义实施区组技术的意义:把区组间的差异估计出来把区组间的差异估计出来,从而有可能把区组对试验结果的干扰排除或减少到最从而有可能把区组对试验结果的干扰排除或减少到最低程度低程度,保证统计分析结果的正确性保证统计分析结果的正确性。 历史回顾历史回顾 Ronald A. Fisher爵士是一位在试验设计中应用爵士是一位在试验设计中应用统计方法的创新者统计方法的创新者。 多年来多年来,他在英国伦敦的他在英国伦敦的Rothamsted
15、农业站担负起统计和数据分析的任务农业站担负起统计和数据分析的任务。Fisher开发了并首先应用了方差分析作为试验设计的开发了并首先应用了方差分析作为试验设计的统计分析的基本方法统计分析的基本方法。 于于1933年年,Fisher在伦敦大学在伦敦大学取得教授职位取得教授职位。随后随后,他在剑桥大学任教并成为世界他在剑桥大学任教并成为世界上很多大学的客座教授上很多大学的客座教授。除了开拓者除了开拓者Fisher外,许多外,许多学者也对试验设计文献做出了显著的贡献学者也对试验设计文献做出了显著的贡献。 在早期在早期,试验设计方法多数应用于农业和生物科试验设计方法多数应用于农业和生物科学学。在二十世纪
16、在二十世纪3030年代年代,试验设计开始应用工业试验设计开始应用工业,它它起始于英国的纺织业和毛纺工业起始于英国的纺织业和毛纺工业。第二次世界大战后第二次世界大战后,在美国和西欧的化工工业中引进了试验设计的方法在美国和西欧的化工工业中引进了试验设计的方法。其后,半导体工业和电子工业也使用了试验设计方法其后,半导体工业和电子工业也使用了试验设计方法,多年来取得了显著的成功多年来取得了显著的成功。 近年来,在美国对试验设计的兴趣又重新流行起近年来,在美国对试验设计的兴趣又重新流行起来来,因为很多工业界发现因为很多工业界发现,他们的海外竞争者已经应他们的海外竞争者已经应用设计的试验许多年用设计的试验
17、许多年,并且这是他们竞争成功的一个并且这是他们竞争成功的一个重要的因素重要的因素。Douglas C. MontgomeryDouglas C. Montgomery认为认为“所有的所有的工程师接受试验设计的正规训练作为他们大学教育的工程师接受试验设计的正规训练作为他们大学教育的一部分的日子已为期不远了一部分的日子已为期不远了。 试验设计在工程专业上的试验设计在工程专业上的成功积累是美国工业基础未来竞争的关键因素成功积累是美国工业基础未来竞争的关键因素”。 单因子试验是最常见和最简单的一种试验单因子试验是最常见和最简单的一种试验。它它的设计较为单纯的设计较为单纯,主要采用随机化技术主要采用随机
18、化技术,又称完全又称完全随机设计随机设计。 为了测定试验误差为了测定试验误差,需要重复需要重复。重复数相等的等重复数相等的等重复试验或设计称为平衡设计重复试验或设计称为平衡设计, 重复数不等的设计称重复数不等的设计称为不平衡设计为不平衡设计。 例如例如:茶是世界上最为广泛的一种饮料茶是世界上最为广泛的一种饮料,但很少人知但很少人知其营养价值其营养价值。任一种茶叶都含有叶酸任一种茶叶都含有叶酸,它是一种维他它是一种维他命命B 。如今已有测定茶叶中叶酸含量的方法如今已有测定茶叶中叶酸含量的方法。这里将这里将要研究各产地的绿茶的叶酸含量是否有显著差异要研究各产地的绿茶的叶酸含量是否有显著差异?设计设
19、计 在这个问题中在这个问题中,绿茶是一个因子绿茶是一个因子,用用A表示表示。它它的产地是水平的产地是水平, ,如今选了四个产地如今选了四个产地, ,分别记为分别记为 它就是因子它就是因子A的四个水平的四个水平。,4321AAAA 为了测定试验误差为了测定试验误差,需要重复需要重复。我们选用不平衡我们选用不平衡设计设计, ,即即A1 1制作了制作了7 7个样品个样品,A2 2制作了制作了5 5个样品,个样品,A3 3与与A4 4各制作了各制作了6 6个样品个样品,共有共有2424个样品等待测试个样品等待测试。 一次测试就是一次试验一次测试就是一次试验。试验次序要随机化试验次序要随机化,为此把这为
20、此把这2424个样品按序编号个样品按序编号,结果见下表结果见下表: 试验想法试验想法1 1:若试验就按样品号的顺序进行若试验就按样品号的顺序进行, ,如如1-81-8号在上午进行号在上午进行,9-169-16号在下午进行号在下午进行,17-2417-24号在晚间进行。号在晚间进行。 问题问题:一天从早到晚一天从早到晚,人的注意力的程度不同人的注意力的程度不同,光线不同光线不同,操作者的熟练程度和厌倦程度等都不同操作者的熟练程度和厌倦程度等都不同。 若若A4的叶酸含量较低的叶酸含量较低,这是由于第四个产地造成的这是由于第四个产地造成的,还是还是晚间进行试验引起的晚间进行试验引起的? 这种混杂现象
21、在设计中要尽量避免这种混杂现象在设计中要尽量避免,随机化是防止此种混随机化是防止此种混杂的一种有效办法杂的一种有效办法。 试验想法试验想法2 2:进行随机化进行随机化 方法之一方法之一,可以将可以将2424个样品中一个接一个地随个样品中一个接一个地随机抽取出来机抽取出来,如得到如下序列如得到如下序列:9 9,1313,2 2 ,2020,1818,1010,5 5,7 7,1414,1 1,6 6,1515,2323如此安排后如此安排后,若若A4 4的叶酸含量较低的叶酸含量较低,就不能责怪就不能责怪时间了时间了,只能说只能说 A4 4 的叶酸含量本身是较低的的叶酸含量本身是较低的。试验按照这个
22、序列逐一进行试验按照这个序列逐一进行,上午做上午做8 8个个,下午下午做做8 8个个,晚上做晚上做8 8个个。这样安排的单因子试验称为不平衡完全随机设计这样安排的单因子试验称为不平衡完全随机设计。数据数据:可以将数据对应样品一一记录成表可以将数据对应样品一一记录成表问题问题:由直观发现的差异由直观发现的差异,它们是本质的吗它们是本质的吗?这要在排除了试验误差后才能认清这要在排除了试验误差后才能认清,这就需要应这就需要应用统计方法用统计方法,如方差分析方法进一步分析数据如方差分析方法进一步分析数据。 单因子试验的一般概述单因子试验的一般概述 设在一个试验中只考察一个因子设在一个试验中只考察一个因
23、子,记为记为A, A有有k个水平个水平,分别记为分别记为A1, A2,, Ak。 又设在水平又设在水平Ai下重复进行下重复进行ri次试验次试验,i=1,2,k, 总试验次数为总试验次数为r1+ r1 +rk= n 。 先用平衡设计(等重复试验)即先用平衡设计(等重复试验)即r1=rk= r , 设设Xij是在第是在第i个水平下的第个水平下的第j 次重复试验的结果次重复试验的结果。这里这里 i 是水平号是水平号, j是试验号是试验号。 对于等重复试验对于等重复试验,将数据一般列表如下将数据一般列表如下: rjijixrX11其中其中 kXXXX321三、单因素等方差分析三、单因素等方差分析因素水
24、平因素水平kiAAAA21数量指标数量指标kiXXXX21112111kiXXXX222212kiXXXX2 2试验试验kjijjjXXXX21jkrirrrXXXX21r 1 1重复重复(一)数学模型与假设检验(一)数学模型与假设检验1 1. .数学模型(数学模型(I I)因素因素A 水平水平 kiAAAA21数量指标数量指标X kiXXXX21前提假设前提假设 ki,NXii 12 kXX,X21相互独立。相互独立。样本样本.2 , 1, ),(21kiXXXirii rjkiNXiij 1,1, ),(2 kH 210:iH :1不全相等不全相等, 2. 数学模型数学模型(II)), 0
25、(,2 NXijijiij 其中其中 i , 2为常数为常数,且且 ij , i=1,2,k; j=1,2,r 相互独立相互独立。 由于由于Xij 取自总体取自总体Xi,因而可以把因而可以把 Xij 表示表示 为为Xi 的均的均值值 i与随机误差与随机误差 ij 之和之和rjki, 2 , 1;, 2 , 1 3.3.模型(模型( )显然有显然有0)(11 kiikii 检验假设等价为检验假设等价为, 0:210 kH iH :1 不全为不全为0 00H 为了检验为了检验 ,考虑分解总变差考虑分解总变差,ijiijX ), 0(2 Nij,1 ki ,1 rj ij 互相独立互相独立。令令(称
26、为总平均)称为总平均) kik11 ii 称称 为水平为水平 的水平效应的水平效应,(主效应)(主效应)i iA., 2 , 1ki 则模型可改为则模型可改为(二)离差分析法(二)离差分析法总变差(总离差平方和)总变差(总离差平方和)211)(XXSkirjijT 其中其中 kirjijXkrX111引起总变差的原因有二个引起总变差的原因有二个:由随机波动引起变差(组内随机误差)由随机波动引起变差(组内随机误差);因素各水平效应引起的变差因素各水平效应引起的变差(组间不同的水平引起效应差)(组间不同的水平引起效应差)。所以它反映数据的波动程度。所以它反映数据的波动程度。TS是整批数据样本方差的
27、是整批数据样本方差的n-1 -1 倍倍,看出看出费歇发现费歇发现:对总变差的以上原因分开研究对总变差的以上原因分开研究,就得到一个检验方法就得到一个检验方法。1 1、分析总变差分析总变差211)(XXSkirjijT 211)()(XXXXiikirjij )( )(211XXXXikirjiij 211)( ikirjijXX kirjiXX112)(AESS 记记注意上式中间项注意上式中间项: rjiijkiiiikirjijXXXXXXXX1111)()()( )(1 rjiijiXrXXX0 其中其中 是是 的样本均值的样本均值,可反映可反映 水平的量水平的量。 rjijiXrX11i
28、AiAAS称为称为组间离差平方和组间离差平方和,反映了样本之间的差异反映了样本之间的差异,它是它是由由iA水平不同引起的变差。水平不同引起的变差。称为称为组内离差平方和组内离差平方和,反映组内随机波动反映组内随机波动;ES引入引入,111 rjijkikr )1(11.kirrjiji 若用模型若用模型IIIIII,P.135P.135,讨论看其实际含义讨论看其实际含义。只有随机误差只有随机误差 kirjiijES112)( kiiiArS12)( 除了除了 还有水平效应还有水平效应 。 i ,ijiijX ,.iiiX 代入得代入得 X211211)()(XXSXXSkirjiAikirji
29、jE 假设假设ijijN , ), 0(2独立独立,,1ki rj 1),0(121rNrrjiji kirjiijEEES112)( kirjiijE112)( kiirjijrE1212)( kirjrr1122 )0()0( )()1()1(2212knrkrki 2 2、考察、考察 、 、 的关系及分布。用总变差的关系及分布。用总变差 来检验来检验 ,此法叫方差分析。此法叫方差分析。 TSASESTS0H.)1(212 krkirkrEErrikiki2112)1()(2 kiiikiikirEErr12112)()(2 kiiiiirE122)()(2 kiiiArEES12)( 0
30、H当当 为真即为真即 时知时知:021 k 012 kiir 故故 为真时为真时,0H2)1( kESA)(102为为真真HkSEA 式即是式即是式即是式即是2)1( rkSEE。比值来表示两者的差异程度比值来表示两者的差异程度。)r(kSkSEA11 所以可以用所以可以用选其为选其为检验统计量检验统计量。理应这两个量相差不大理应这两个量相差不大,二者之比应近似二者之比应近似1 。可知当可知当 为真时为真时 都是都是 的无偏估计的无偏估计,0H11 kS,)r(kSAE2 ,) 1()(22 rkknESE为真时为真时0H2) 1( kESA 为真为真 比值比值 理应接近理应接近10H) 1(
31、1 rkSkSEA什么叫什么叫 显著地大于显著地大于 ?怎么找小概率事件怎么找小概率事件?需要有个需要有个界定界定,为此必须找有关的统计量及其分布为此必须找有关的统计量及其分布。ASES若比值比若比值比1 1显著小显著小,说明说明 ,这可反映这可反映 影响小影响小。AESS AS如果比值显著地比如果比值显著地比1 1大得多大得多,说明说明 这可反映组间差这可反映组间差异大异大,即即 有问题有问题;0HEASS ”是小概率事件是小概率事件。0H故当故当 为真时为真时,AS显著地大于显著地大于ES则则 “)1(1 rkSkSFEA拒绝域取为拒绝域取为: ,其中其中 CFW :0由费歇定理可知由费歇
32、定理可知当当 真时真时,0H)1()(21122 krXXSkirjijT 无论无论 是否为真是否为真,0H)1()(211222 rkXXSkirjiijE 为真为真)0H222 AETSSS (由由P.136P.136定理定理4.14.1柯赫伦分解定理知道柯赫伦分解定理知道)k(SA122 2 AS与与2 ES相互独立相互独立自由度满足自由度满足11 k)kkr()kr()r(kS)k(S)r(kS)k(SFEAEA111122 0H当当 为真时,由为真时,由F 分布的定义知分布的定义知)1(,1( rkkFSSEA记记选为检验统计量选为检验统计量为真为真0H222 AETSSS 用样本值
33、计算用样本值计算 时时,拒绝拒绝H0)1(, 1( rkkFSSFEA 所以拒绝域中的临界值满足所以拒绝域中的临界值满足:可知可知 H0 的拒绝域为的拒绝域为: .)1(, 1(:0 rkkFFW 即认为即认为 i 中至少有一个不等于零中至少有一个不等于零,因素因素A对试验结果对试验结果有显著影响有显著影响,也就是水平也就是水平Ai 不全相同不全相同。 ,0 HCFP于是于是 )1(, 1 rkkFC 表表4-3单因素等重复试验方差分析表单因素等重复试验方差分析表050. ,查表查表)1(, 1( rkkF ,计算计算0F的值的值。若若 FF 0,说明水平间有显著差异说明水平间有显著差异; F
34、F 0,水平相同水平相同总和总和TEATSSS 因素因素A kiiAXXrS12)(k-1AASkS 1EASS方差来源方差来源均方和均方和平方和平方和自由度自由度WF误差误差Ek(r-1)EESrkS )1( kirjiijEXXS112)(上述全过程就是单因子方差分析的全过程上述全过程就是单因子方差分析的全过程,它可总结在如它可总结在如下一张方差分析表中下一张方差分析表中作方差分析的步骤如下作方差分析的步骤如下:填写方差分析表填写方差分析表 计算各水平下数据和及其平均值计算各水平下数据和及其平均值 。XXi, 计算各类平方和计算各类平方和212112,XXXkiikirjij 按公式计算各
35、类平方和按公式计算各类平方和ATESSS,对给定的显著水平对给定的显著水平 ,查临界值查临界值 ,根据根据 与与 的关系的大小的关系的大小,做出是否拒绝原假设做出是否拒绝原假设 的结论。的结论。 )1(, 1( rkkF 0F F0HP150 例例4.1. 为了研究用来处理水稻种子的四种不同为了研究用来处理水稻种子的四种不同药剂对水稻产量的影响。选择一块各种条件(气候药剂对水稻产量的影响。选择一块各种条件(气候、土质、管理)基本相同的土地,将其分成、土质、管理)基本相同的土地,将其分成16块作块作为试验田。在每四块试验地里种下用同一种药剂处为试验田。在每四块试验地里种下用同一种药剂处理过的水稻
36、种子。试验的结果理过的水稻种子。试验的结果水稻产量(单位:水稻产量(单位:kg)。由表)。由表4.1给出。给出。表表4.1 不同的药制处理的水稻产量不同的药制处理的水稻产量例例4.1解:由表解:由表4.1可计算出可计算出 等值等值. 如下表如下表 XXi,将以上数值填入方差分析表将以上数值填入方差分析表给定给定=0.05, 查表知查表知 F0.05(3,12)=3.49。由于。由于F0=6.893.49,故拒绝,故拒绝H0。在显著水平。在显著水平=0.05下,下,认为不同药剂对水稻的产量有显著影响。认为不同药剂对水稻的产量有显著影响。例例:P.150 例例4.1表表4.4 在单因子方差分析中在
37、单因子方差分析中,若若 经经F 检验判定检验判定 H0 不真不真,则则说明说明 i , i=1, 2, ,k中至少有一个不为零中至少有一个不为零。等价地等价地,也就是判定假设也就是判定假设H0: 1= 2= k不成立不成立。这表这表明明A的的k个水平下的指标均值个水平下的指标均值 1, 2, k不全相同不全相同。但这不但这不一定两两之间都有差异一定两两之间都有差异。 故还要进一步研究故还要进一步研究:对各指标均值对各指标均值 i 之间的差异进行比较之间的差异进行比较 。要确认那些水平下的指标均值间确有显著差异要确认那些水平下的指标均值间确有显著差异,那些水平那些水平下的指标均值间无显著差异下的
38、指标均值间无显著差异。这就要进行多重比较这就要进行多重比较。同时比较任意两个水平下的指标均值间有无差异的问题称同时比较任意两个水平下的指标均值间有无差异的问题称为多重比较问题为多重比较问题 。各水平指标均值各水平指标均值 i 的点估计的点估计? i 多重比较多重比较介绍法(一)介绍法(一):最小显著差数法最小显著差数法(LSD法法)liH :0liH :1li kli2 , 1, , 1.检验检验选取有关统计量选取有关统计量rjkiNXiij 1,1),(2 点估计点估计iiXE iiX k,i21 ,且且 与与 独立,独立, iX lX),(, ),(22rNXrNXllii 有有于是于是)
39、,(22rrNXXlili ) 1 , 0(2)()(2NrXXulili 也即也即 当当为真时为真时,0H)1 , 0(22.NrXXuli 又又)r(kSvE122 且且u与与v独立独立,)1() 1(2) 1(. rktTrrkSXXrkvuEli记记构造的检验构造的检验统计量统计量由于由于 分别是分别是 i 和和 l 的无偏估计的无偏估计,所以所以 当当H0成立时成立时,T 的取值将会集中在零附近的取值将会集中在零附近,其绝对值较大的可能性较小其绝对值较大的可能性较小,于是我们采用如下形式的拒绝域于是我们采用如下形式的拒绝域:.liXX 和和给定显著水平给定显著水平 ,控制第一类错误控
40、制第一类错误 )|(|0成成立立HcTP)1(2/ rktc )1(:20 rktTW 故故 cTW kliliHHlili, 2 , 1,:,:10 ),1()1(/2)(. rktrkrSXXTEli)1(|2/ rktTW 为了方便比较,称为了方便比较,称判断判断:如果由样本计算如果由样本计算 的观测值的观测值|.liXX LSDxxli |.)1(/2)1(2/ rkrSrktLSDE 最小显著差数最小显著差数。则拒绝则拒绝H0,认为认为 。否则接受否则接受H0。li 根据前方差分析知根据前方差分析知:SE=76, k=r=4, 查表知查表知t0.025(12)=2.1788。可对各水
41、平间均值差进行比较列成表可对各水平间均值差进行比较列成表,均值由大到小排序均值由大到小排序。P.150 P.150 例例4.1 4.1 中各均值的比较表为中各均值的比较表为从表中可知从表中可知 均大于均大于, 4, 5, 6,732123414xxxxxxxx8772. 3 LSD8772. 3)14(442)12(025. 005. 0 EStLSD所以所以. iX均值均值水平水平差数差数A1A3A4A22523191875461 2 1XXi 3XXi 2XXi可见可见 与与 与与 与与 与与 间差异显著间差异显著。4A,1A4A,3A2A,1A3A2A多重比较一般均值比较表为多重比较一般
42、均值比较表为 显然显然LSD法实际上只适用于两个独立样本的均值差的法实际上只适用于两个独立样本的均值差的检验和比较检验和比较,只不过是找到一个公共的只不过是找到一个公共的LSD , 多次重复比多次重复比较而已较而已。 该方法不适用同时对多个样本的所有均值间的差异进该方法不适用同时对多个样本的所有均值间的差异进行比较行比较。为此为此,后面我们再介绍后面我们再介绍LSR法法,而且仅介绍由而且仅介绍由J.W.Tukey提出的提出的 q 法法。水平水平均值均值差数差数查表查表 iX* kiXX*1* kiXX LSD*A1*1 X*A2*kA*2 X* kX置信度置信度,使使给定给定 1 11rkt1
43、rkrS2XXP2Elili)()()()(._得到得到li 的置信度为的置信度为 1的置信区间是的置信区间是可讨论可讨论:02 若若,知知0 li ,即即li 若若01 0 li ,知知li ,即即2.li 的置信区间的置信区间),(21 aLSD._liXX ())()()()()(._1rkt1rkrS2XX1rkvuElili 已知已知 包含包含0,无法判断无法判断 21, 方法(二)最小显著极差法(方法(二)最小显著极差法(LSR法)。法)。(1 1)kjijiHHjiji, 2 , 1,:,:10 (2)选取有关统计量选取有关统计量)1(/. rkrSXXEji 当当 为真时为真时
44、0H ,)1(, rkpq服从的分布记为服从的分布记为), 2 , 1,(kji 其中其中,P 是将所有均值按大至小排序后是将所有均值按大至小排序后, 与与 之间之间(包含(包含 和和 在内)所含均值的个数,且设在内)所含均值的个数,且设. jX. iX. iX. jX.jiXX 对给定对给定 ,可有可有 )1(,(rkpqP)1(,( rkpq 查附表查附表可知可知0H的拒绝域的拒绝域 LSRXXwji .0: LSRrkrSrkpqE )1()1(,(称称.jiXX 为为 的最小显著极差的最小显著极差)1(,()1(/0. rkpqrkrSXXHEji为真为真 例例4.14.1 最小显著差
45、数法最小显著差数法.(LSR.(LSR法法) )p p. .163163如果给定显著水平如果给定显著水平=0.01,类似上述过程也可比较,类似上述过程也可比较A1,A2,A3与与 A4之间是否有显著差异。下面将例之间是否有显著差异。下面将例4.1中的中的q和和LSR值列表供讨论。值列表供讨论。表表4.5例例4.1中的中的q和和LSR值值四、单因素不等重复试验四、单因素不等重复试验 irjijiixrX1.1,且且nrkii 1其中其中 kiXXXX21kiAAAA21kiXXXX21112111kiXXXX222212kiXXXXkjijjjXXXX21kikrirrrXXXX2121irj2
46、1 kiiikirjiAXXrXXSi12112)()((自由度为自由度为 k-1)2112112)()(XnXXXSkirjijkirjijTii (自由度(自由度 )111 nrkii), 1()()1(knkFknSkSFEA ), 1(:0knkFFW 讨论方法完全同等重复试验讨论方法完全同等重复试验,不同处是不同处是j取值由取值由1到到 ,如如:ir kirjiijEiXXS112)( (自由度自由度 ) )kn p.146. 例例4.2注意注意:不等重复试验不等重复试验,在进行多重比较时在进行多重比较时, 所用公式中所用公式中 的自由度的自由度 要修改要修改。ESr kiihrk1
47、1 常用的方法之一是常用的方法之一是 以以 的调和值的调和值 代替代替 krrr,11r参见参见:刘光祖主编刘光祖主编概率论与数理统计概率论与数理统计书书第二节第二节 双因素方差分析双因素方差分析在实际问题中在实际问题中,影响试验结果的因素往往不只一个影响试验结果的因素往往不只一个,而而是有两个或更多个是有两个或更多个,这就要同时考察几个因素对试验指这就要同时考察几个因素对试验指标的影响标的影响,这就要讨论多因素方差分析这就要讨论多因素方差分析。我们仅讨论双我们仅讨论双因素方差分析因素方差分析。例例4.3. 要进行大豆品种和施肥的试验。某村在面积相同土质一要进行大豆品种和施肥的试验。某村在面积
48、相同土质一样等相同条件下的样等相同条件下的12块试验田上,将大豆的四个品种甲、乙、块试验田上,将大豆的四个品种甲、乙、丙、丁分别施用丙、丁分别施用,号不同的磷肥进行试验,其产量,号不同的磷肥进行试验,其产量如表如表4.9所示。试问大豆不同品种和施磷肥对产量是否有显著所示。试问大豆不同品种和施磷肥对产量是否有显著影响?(影响?(=0.05) 表表4.9品种和磷肥与产量品种和磷肥与产量p.166.p.166.例例4.3. 4.3. 二个因素二个因素 大豆品种大豆品种A,水平水平321,BBB4321,AAAA磷肥磷肥B ,水平水平在每组合水平在每组合水平 上作一次试验。上作一次试验。不考虑交互作用
49、得不考虑交互作用得表表4 -9。检验不同磷肥和大豆品种对农作物产量是否有显检验不同磷肥和大豆品种对农作物产量是否有显著影响著影响。 ),(jiBA表表4.9品种和磷肥与产量品种和磷肥与产量因素因素A有有k个水平个水平 kiAAAA21B有有m个水平个水平 mjBBBB21一、无交互作用的双因素方差分析一、无交互作用的双因素方差分析数学模型数学模型)(jiBA组合下的试验结果为组合下的试验结果为,ijx,1ki mj 1jB 与与 共有共有km 个水平组合个水平组合iA表表4-114-11jiij 0,0 ji ),(2 ijijNX,1ki mj 1假设假设 ijjiijaX ijkm 1mj
50、BBBB21A1A2AiAkA iX iXBjX mjXXXX 21imijiiXXXX21kmkjkkXXXX21mjXXXX222221mjXXXX111211 1X 2X kXX)1(1 mjijiiim 称为因素称为因素 在水平在水平 的的效应效应,表示表示 在总体均值上引起的偏差且知在总体均值上引起的偏差且知 ;iAiA0 i A 称为因素称为因素B B 在水平在水平 的效的效应应,表示表示 在总体均值上引起的偏差且知在总体均值上引起的偏差且知 。 jB0 j jB)1(1 kiijjjjk mjki 1,1其中其中 独立且独立且ij ), 0(2 NijijjiijX 提出假设提出
51、假设0:2101 kH iH :11不全为不全为0 0 ; ,0:2102 mH jH :12不全为不全为0 0 。 ,推导出检验方法与一元方差分析类似推导出检验方法与一元方差分析类似 kimjijXkmX111 mjijiXmX11 kiijjXkX11 kimjijkm111 mjijim11 kiijjk11 离差分析法离差分析法1.1.分析总变差分析总变差 kimjijTXXS112)(= = 三个因式平方和及各二项乘积三个因式平方和及各二项乘积 kimjjiijjiXXXXXXXX112)()()(2)( XXXXjiij(可证明各二项交叉乘积和为可证明各二项交叉乘积和为0 0) k
52、imjjkimjiXXXX112112)()(EmjjkiiSXXkXXm 2121)()(EBASSS 记记BATESSSS 是随机误差是随机误差。可反映可反映 A 水平引起的偏差水平引起的偏差;,)(12 kiiAXXmS,)(12 mjjBXXkS可反映可反映 B 水平引起的偏差水平引起的偏差;其理由见参考书其理由见参考书P.153P.153,将数学模型将数学模型代入代入,看看 EBASSS,各量的含义可知。各量的含义可知。2.2.可用可用ASES01H是否成立,是否成立,与与的比来检验的比来检验BS02H与与ES的比来检验的比来检验是否成立是否成立。可知可知02H01H当当成立成立,成
53、立成立。),(2 NXij,1ki mj 1),(2mNXi ),(2kNXj ),(2kmNX )km(ST122 )mkkm(SE122 )k(SA122 )m(SB122 满足柯赫伦分解定理满足柯赫伦分解定理)m()k()mkkm(km1111 且且EBASSS,互相独立互相独立。),(2mNXi ),(2kNXj ),(2kmNX kimjijTXXS112)(21)(XXmSkiiA 21)(XXkSmjjB 给定显著水平给定显著水平 ,有有 )1)(1(),1()1)(1()1(22 mkkFSSmkSkSFEAEAA )1)(1(),1() 1)(1() 1(22 mkmFSSm
54、kSmSFEBEBB )1)(1(),1(mkkFFPA和和 )1)(1(),1(mkmFFPB得到得到 的拒绝域为的拒绝域为:01H )1)(1(),1( mkkFFA 的拒绝域为的拒绝域为:02H )1)(1(),1( mkmFFB 表表4-124-12无交互作用的双因方差分析表无交互作用的双因方差分析表方差来源方差来源 均方和均方和平方和平方和自由度自由度比比F总和总和T 22XkmXkSijT1 km因素因素A kiiAXXmS12.)(1 kSSAAEAASSF kiiXkmXm1221 k 书书p.171. p.171. 解例解例4.34.3BATESSSS 误差误差E) 1)(1
55、( mk) 1)(1( mkSSEE因素因素B mjjBXXkS12)( mjjXkmXk1221 m1 mSSBBEBBSSF 二、有交互作用的两因素方差分析二、有交互作用的两因素方差分析因素因素A,kiAAAA21,有有k个水平个水平,mjBBBB21,有有m个水平个水平。因素因素B,书书P.172.P.172.双因素多水平等重复试验结果双因素多水平等重复试验结果。m1jA与与B共有共有km个不同的水平组合个不同的水平组合),(jiBAk1i设试验结果为设试验结果为,2 , 1(ki ,2 , 1mj ),2 , 1tl ijlX每个水平组合独立重复每个水平组合独立重复 次试验次试验。tt
56、lmjkiXijl, 2 , 1, 2 , 1, 2 , 1 样品样品AB1BtXX111111A2AkAtXX21211tkkXX1112BtXX12121tXX22221tkkXX221mBmtmXX111mtmXX212kmtkmXX1表表4 413 13 双因素多水平等重复试验的试验结果双因素多水平等重复试验的试验结果总体总体ijX,2 , 1(ki )2 , 1mj 。样本为样本为ijtijijXXX,21,,互相独立互相独立。ijl 互相独立互相独立,都服从正态分布都服从正态分布),(2o 。),(jiBAijX下的试验结果记为下的试验结果记为, 视为一个总体视为一个总体。组合组合假设假设ijl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度城市阳台草坪修剪与居民休闲合同
- 2025年新型二婚离婚补偿及子女抚养协议书模板
- 二零二五年度建筑工程质量反担保服务协议
- 2025年饮品连锁品牌区域独家经营加盟合同
- 二零二五年度电力工程电料采购及安装服务合同
- 二零二五年度全国连锁冰淇淋品牌代理经营合作协议
- 二零二五年度离婚夫妻共同财产分割及补偿协议书
- 2025版LED广告牌匾工程承揽合同
- 2025版二手房佣金佣金分成比例与责任划分承诺书
- 二零二五年度商业地产店面租赁合同
- 2025年中国医院创新转化报告
- 2025年广东省高考政治试卷真题(含答案)
- 局工作秘密管理制度
- 调解中心监督管理制度
- XX创新团队管理制度
- 人员招聘培训管理制度
- 静脉吸入复合麻醉临床应用
- 体育赛事的举办对当地社会文化的影响研究
- 特殊管理兽药管理制度
- 医院发展十五五规划
- 2025年高考数学全国二卷试题真题及答案详解(精校打印)
评论
0/150
提交评论