版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、试验设计与数据处理试验设计与数据处理笔记谷钟汝说明此文档为试验设计与数据处理的读书笔记,其中较为详细介绍了正交设计、均匀设计等内容,以及相关的SAS实现,方便同学学习。此文档仅为学习交流之用。谷钟汝试验设计与数据处理目录目录第一章试验设计概述 (3一、类型 (3二、基本概念 (3三、三要素和四原则 (4第二章比较试验与方差分析 (7一、两个处理的水平对比 (7二、方差分析 (8第三章单因素优化试验设计 (17一、均分法 (17二、对分法 (17三、黄金分割法 (17四、分数法 (17第四章多因素优化试验 (18一、因素轮换法 (18二、随机试验 (18三、拉丁方设计 (18第五章正交设计 (2
2、1一、原理 (21二、用正交表安排实验 (21三、一般的正交分析 (21四、有交互作用的正交设计 (28五、水平不等的正交设计 (31六、独立重复试验 (36七、筛选实验 (39八、正交设计与区组设计 (41第六章均匀设计 (47一、原理及简单介绍 (47二、均匀表的介绍 (47三、均匀设计的实验结果分析 (49第七章稳健性设计 (561E-mail :904374049 谷钟汝 河北大学生命科学学院 2一、 基本概念 (56试验设计与数据处理第一章试验设计概述3 试验设计与数据处理第一章试验设计概述试验设计(design of experiment, DOE:对试验进行科学合理的安排,以达到
3、最好的试验效果。一、类型1.演示实验就是我们中小学时做的那种实验。2.验证实验3.比较实验检验一种或多种处理的效果,比如对生产工艺效果的检验,对一种新药物疗效的检验,这种实验的设计需要结合专业设计和统计设计两方面的知识。4.优化实验按实验因素的数目不同可以分为单因素实验设计和多因素实验设计;按实验目的不同可以分为指标水平优化和稳健性优化(指标水平优化的目的是优化实验指标的平均水平,而稳健性优化的目的是减少产品指标的波动标准差;按形式不同可以分为实物实验和计算实验;按过程不同还可以分为序贯实验设计和整体实验设计(序贯实验就是从一个起点出发,称为“爬山法”,如0.618法、分数法、因素轮换法;整体
4、实验就是在实验之前就已经把实验的位置确定好了,如正交设计和均匀设计。5.探索实验二、基本概念1.实验因素因素或因子,是实验的设计者希望考察的实验条件。因素的具体取值就是水平(level。2.处理按照因素的给定水平对实验对象所做的操作称为处理。接受处理的实验对象称为实验单元。3.实验指标E-mail:904374049 谷钟汝河北大学生命科学学院 衡量实验结果好坏程度的指标称为实验指标,也成为响应变量(response variable。例题:大豆的产量实验,考察N对大豆产量的影响,每亩地的施肥量分别为0、1、2、3Kg。则N肥施加量就是实验因素,它有四个水平,按每一种N肥量的水平所做的施肥就是
5、一种处理,共有四中处理,其中施肥量为0的也可以称为空白处理。播种大豆的地就是实验单元,大豆的亩产量就是实验指标。这属于单因素实验,若同时考察N肥和P肥的施加量,就变成了双因素实验,若P肥也有四个水平,那么就会有16个处理三、三要素和四原则1.三要素试验设计的一项重要工作就是确定可能影响试验指标的实验因素,并根据专业知识初步确定因素水平的范围。实验的因素应该尽量选择为数量因素,少用或不用品质因素。实验效应用试验指标反映,也要尽量选择数量的试验指标。2.四原则随机化是指每个处理以概率均等的原则,随机地选择实验单元。统计学中的很多方法都是建立在独立样本的基础上的,用随机化原则设计和实施的实验就可以保
6、证实验数据的独立性。由于实验的个体差异、操作差异以及其他影响因素的存在,同一处理对不同的实验单元所产生的效果也是有差异的。通过一定数量的重复试验,该处理的真实效应就会比较确定的显现出来。独立重复实验在相同的处理条件下对不同的实验单元做多次实验,这是人们通常意义下的独立重复试验。在相同的处理条件下对同一个样品做多次重复试验,以排除操作方法产生的误差。例外:研究减肥效果的一个实验,对受试者每隔一周测量一次体重,连续测量五周作为一个实验周期,这样得到的五次测量数据不是在同一个实验条件下的五次独立实验数据,因为有关联性,但也属于重复试验,具体统计分析方法,见胡良平写的现代统计学与SAS应用一书。试验设
7、计与数据处理第一章试验设计概述 对照组不施加任何处理因素。对照组要采用一种无药理作用的安慰剂,因为精神心理因素也很重要。但要求采用双盲实验(受试者与实验者都不知道服用的是安慰剂还是药物。对照组不施加处理因素,但施加与处理组因素相同的实验条件。对照组在试验中是一种处理,在统计分析中作为实验因素的一个水平。例如N肥施肥量的四个水平,0就是空白对照组。人为划分的时间、空间、设备等实验条件称为区组(block。区组因素也是影响试验指标的因素,但并不是实验者所要考察的因素,也称为非处理因素。因为所有的实验条件都不是理想的,他们之间必然存在差异,最好的解决方法就是把区组因素也纳入实验中。例如施肥实验中,但
8、是地块土壤的状况对单产也有影响,有的地块土壤松软,有的地块比较坚硬。所以说这块土壤的状况就是试验中要考察的区组。四个原则之间的关系按照是否考察区组因素,随机设计可以分为两种方式:完全随机化设计每一个处理都随机的选取实验单元,适用于实验的例数较大或实验单元差异小的情况。还是施肥的例子(哈哈,全书就这一个例子,将实验地分为100块,每一个水平都随机的选择其中的25个块地。随机化区组设计如果上述例子中的实验块地只有16块,那么完全随机化的话,不同的处理所分配到的这块土壤的性状就会好坏不均,导致结果失真,则这个时候就要采用随机化区组设计,使好地和差地在几个处理中均衡分配。这个试验中的好坏就是区组因素,
9、选取的16个试验地块中要包括8个好地和8个差地。这种方式就是随机化区组设计,其目的就是把性状不同的实验单元均衡的非配给每个处理。试验中的各个处理和各区组内的实验次数都相同时称为平衡设计(balanced designE-mail:904374049 谷钟汝河北大学生命科学学院 之前的施肥实验中,如果不考虑区组因素,那么4种施肥量的处理中,每一个处理都分配到4块试验样地,重复4次;如果考虑好坏,那么每一个处理都分配都2个好地和2个差地,是重复次数为2次的实验。区组原则与对照原则的关系相同点就是,同属于费希尔提出的局部控制原则;差异就是统计分析中,对照组的比较实验属于单因素实验,而区组因素则是影响
10、实验指标的其他因素,与实验因素共同构成了多因素实验。试验设计与数据处理第二章比较试验与方差分析 第二章比较试验与方差分析比较试验的目的就是水平对比,两个处理之间的水平对比用t检验,多个处理之间的水平对比则要用方差分析。一些简单的例题可以用Excel的数据分析工具解决,但是复杂的则需要用SPSS或者SAS来解决,但是软件之间的算法不同。一、两个处理的水平对比案例:研究一种新安眠药的疗效,安慰组6人,服药组8人,原始数据如下图: 1.先做方差齐性检验 由结果可以看出双侧检验的p=2×0.013351=0.02670<0.05,说明两个处理下的方差有显著差异,所以要采用双样本异方差分
11、析。双样本异方差分析 由结果可以看出单侧检验p=0.041663<0.05,可以认为有显著差异,双侧则认为没有显著差异。选择单侧还是双侧,原则就是能否利用专业知识确定。比如本例中可以利用专业知识确定该安眠药至多是无效,则可以选择单侧检验。这里的P值表示判定该安眠药显著有效所犯错误的概率,这个错误是指该安眠药无效而判定它有效的错误(当该E-mail:904374049 谷钟汝河北大学生命科学学院 安眠药有效时而判定它有效时是正确判断,也即弃真错误关于方差齐性的问题:在试验的处理数目多于两个时,要使用方差分析比较多个处理间平均水平的差异,而方差分析的前提条件就是方差齐性,所以等方差的假设是普
12、遍的。等方差的检验效率要比异方差要高,当样本量较小时,两者相差较大,但是在大样本(每个处理的样本大于30时,两种检验相差不大,此时推荐用异方差,因为等方差的假设总是近似的,其检验结果就是一种“软结论”。两个处理的比例差异检验:例如要检验某种药物的有效性,有效的病例记为1,无效的记为0,然后用t检验即可,但是要注意,如果是检验两个比例是否相等,那么使用等方差t检验;如果检验两个比例的差异是否超出了一定的程度,就要使用异方差t 检验。不合格品率等问题也都可以做类似的处理。这种检验实际上就是医学统计中四个表的相关性检验,并且具有更强的检验功能,一方面可以做单侧检验,另一方面还可以检验两个比例的差异是
13、否达到某一个界限。二、方差分析1.单因素方差分析案例:四种炮弹结构对直射距离的影响。 1.4. 结果解释差异源:组间表示处理之间,反应因素各水平之间的差异;组内反映处理内的差异,也就是随机误差。离差平方和:SS 就是离差平方和,SSA 表示组间离差平方和,也就是因素A 的离差平方和 SSA =(yi y 2nij=1a i=1 组内平方和记为 SSE 也就是误差平方和 总离差平方和为 SST =SSA +SSE自由度:组间的自由度也就是因素的自由度,是因素水平数减1,总自由度是数据个数减1,本例是31,组内的自由度也就是误差的自由度,等于总自由度减因素的自由度,即31-3=28均方:也就是离差
14、平方和除以自由度:MSA =SSA/(a 1 MSE =SSE/(n a F 统计量:构造出来的F 统计量等于因素的均方除以误差的均方。 2. 双因素方差分析案例:加上区组因素的炮弹结构对直射举例的影响。 2.1. 数据准备 2.2. 方法 2.3. 输出结果 “样本”是指行因素,也就是区组因素火炮;列是指炮弹结构因素;内部是指误差项,另外还有一个交互项,指的是交互效应。可以看出P=0.058>0.05,略大于0.05,但是我们还不能就此说他们之间不存在显著差异。需要进一步的检验:方法有两种:一个是增大样本量,另一个就是做进一步的统计分析。第二种方法:由于三个因素都不显著,则可以把最不显
15、著的一项归入误差项,来增加误差项的自由度,提高检验的效率。可以看出交互项的P值最大,则把它划入误差项,即认为火炮与炮弹结构之间没有交互作用。这就属于重复试验无交互作用的情况了。然而此时Excel的不足之处就显示出来了,没有提供此项分析功能,可以借助SPSS或SAS 来解决。不过也可以手算:手算可以帮助理解其中的算法,但是过程太繁琐。误差平方和SSE=5290.5+546.5=5837.0误差自由度Df=19+6=25均方误差MSE=5837/25=223.48炮弹结构因素A(列FA=MSA/MSE=1010.11/223.48=4.326区组因素火炮B(样本FB=MSB/MSE=478.95/
16、223.48=2.051A因素的P值则可以用公式“=FDIST(4.326,3,25”B因素的P值公式“=FDIST(2.051,3,25”得出的结果为:A因素的P值为0.0138,B因素的P值为0.1323。则可以认为不同结构炮弹对直射距离有显著影响,不同火炮对其没有影响。关于误差项的合并:此例中涉及到了误差项的合并,把不显著的因素和交互作用合并到误差项中,使其他因素和交互作用的显著性增加,这是多因素方差分析的通用做法。一般是把均方小于误差项的均方或者P值大于0.20的项合并到误差项中,对于正交设计,由于合并误差项后其他因素的离差平方和不变,因此可以同时合并多项。附:单方差分析原理单因素方差
17、分析通过一个简单的例子,通俗的解释方差分析的思想。1、【案例】2004年雅典奥运会,要考察北京(第一组、上海(第二组和广州(第三组的三组居民在关于“国际奥委会全球合作伙伴”的态度上有没有显著的差异,即要检验从“态度”上看,这三组居民的样本是取自态度相同的同一总体还是取自态度不同的总体。2、方差分析思想介绍:组间的变差:假定将三个城市的居民按前面所述分成三个组,由于种种原因,每一组居民在“态度得分”上也是随机波动的。因此从每一组中个随机地抽取5位居民,测量了他们的“态度得分”如表1所示,表中还给出了每个样本的平均态度得分值。表1 表2第一组第二组第三组82 79 8381 80 8482 80
18、8382 81 8583 80 85 X1=82X2=80X3=84样本1 样本2 样本379 80 8182 84 8484 83 8480 80 8580 83 81 X1=81X2=82X3=83那么,现在的一个问题是:这三个组的态度真的是有差异的吗?换句话说,表格中样本均值 X的不同是由于潜在总体均值的不同产生的吗?(表示其中一个组的全体居民的平均态度分,如果不是,那么样本均值 X中的这些差异是否可以仅仅认为是由于随机波动造成的?为了说明这一点,假定我们从某一组(比如北京组中抽取三个样本,如表2所示。正如我们所预料的,尽管在这种情况下三个样本取自同一总体,因而其均值是相同的, 但抽样的
19、波动也引起了各个 X之间的微小差别。因此,我们可以将问题重新叙述如下:表1中 X间的差别和表2中 X间的差别大体上阶数相同呢(因此说明表1中的 X间的差别也是由于随机波动造成的,还是表1中X间的差别大得多,从而足以说明潜在总体的均值之间存在差异?由直观上看,似乎后一种解释更符合实际,那么怎样给出一个正确的检验呢?和通常那样,在总体均值中“无差异”的假设称为原假设,即:H0:1=2=3检验H0首先要求测量一下样本均值之间相差多少,为此要找到一个合适的、能描述各组之间变差的量,我们可以先求出这三个样本的总平均值X。X=1X=1(82+80+84=82其中c表示小组数或列数,然后计算样本均值 X相对
20、于其总均值 X的总方差S x2=1( XX2=1(82822+(80822+(84822=4由S x2的定义可知,它是一个描述组间(列间变差的量。对于表2中的数据,由于三个样本取自同一总体,那么应该样本间的变差较小,事实上,计算得到的结果为1。组内的变差:前面给出的各组均值之间的方差S x2还不能完全说明问题。例如,考虑表3中的数据,显然,它的总方差S x2和表1中的相同。但是,每一组的样本态度得分都是十分不稳定,每列都有很大的随机波动。比如图1与图2分别给出了潜在总体的可能形状。从图2中可以看到,表3对应的三个组的态度得分是十分不稳定的,因此三个样本都有可能是取自同一总体的,也就是说,样本均
21、值之间的差异可以解释为是随机波动产生的。但是对于表1,从图1中可以看到,样本均值之间的差异却很难用随机因素来解释,因为在这种情况下三个组内的态度得分并非那么不稳定。现在我们也就有了比较的标准。在图2中,我们的结论是:三个之间并不是完全相同的,因为样本均值的方差S x2相对于随机波动来说是比较大的,因此我们拒绝H0。那 么我们怎样才能够度量这些随机波动即组内的变差呢?从直观上看,应当是每个样本内观测值的变化程度或偏离其均值的程度。为此我们先计算表1中第一个样本内的偏差平方和:(X1X12=(82822+(81822+(82822+(82822+(83822=2表3样本1 样本2 样本380 79
22、 8185 84 8786 76 8078 83 8781 78 85X1=82X2=80X3=84 类似地计算第2个样本和第3个样本的内的偏差平方和,将它们向相加,然后用所有3个样本的总自由度(每个样本的自由度都为n-1=4去除,这样就得到了联合方差S p2。S p2=2+2+4=2联合方差的计算继续推广到C组(列数据,每组数据有n个观测值的情形:S p2=(X1X12+(X2X22+···+(X cX c2由S p2的定义可以知道,它是一个描述组内变差的量,对于表3中的数据,我们有理由猜测其联合方差一定比表1的大得多,事实上表3中数据的联合方差为343。F比值
23、: E-mail :904374049 谷钟汝 河北大学生命科学学院那么现在就可以给出检验统计量了,是否拒绝原假设,要看组间变差相对于组内变 差来说是否足够大,也就是说要考察比值S x 2/S p 2的大小。但是,我们习惯上是用一个稍微修改一下的比值:F =nS x 2S p 2 其中一个分子多乘上一个n 是为了使当H 0为真时分子的值平均上来说等于分母(试想为什么?如果H 0为真,那么F 比值将围绕着1波动;如果H 0不真,此时几个值是不相同的,那么nS x 2将相对地会大于S p 2,这时F 比值将倾向于比1大得多。因此,F 值越大,则原假设越不可信。为了从数量上来度量H 0的可信程度,就
24、像通常我们求H 0的概率值那样,这时,概率值就等于F 分布中超过实际观测值的尾部概率。除此之外,还需知道自由度,因为F 分布是取决于分子方差的自由度(c 1和分母方差的自由度c (n 1的。第一自由度(分子自由度df 1=c 1第二自由度(分母自由度df 2=c (n 1综上所述,那么解决此问题的具体方法归纳如下:对于表1中的数据,我们求出的三个样本间的总方差为S x 2=4以及三个样本的联合方差S p 2=23 F 的比值:F =nS x 2p 2=5×423=30 自由度:df 1=c 1=31=2df 2=c (n 1=3(51=12查表可知,F 大于临界值,也就是概值小于0.
25、001这就意味着如果H 0为真,那么抽取到如表1中的数据,有这么大差异的三个样本的机会小于千分之一,因此可以认为表1中的三个组的态度得分均值是不同的,即来自三试验设计与数据处理 第二章 比较试验与方差分析个城市的三个组的居民,其态度得分属于三个不同的总体。 最后,方差分析可以简洁的用一张表格来表示:表4方差分析表变差的来源 变差(平方和SS 自由度df 方差(平均平方和MSS F 比值组间变差(由于X 间的差异造成的 SS b =n ( X 1X 2+( X 2X 2+····+( X c X 2 c 1 MSS b =SSb (=nS x 2 F =M
26、SS bMSS w=nSx 2S p 2组内变差(由于随机波动造成的残差 SS w =(X 1X 12+(X 2X 22+···+(X c X c 2 c (n 1 MSS w=SS wc (n 1=S p 2总和 SS t =(X X 2nc 1用自由度去除对应变差,就得到了表4中的方差,根据各组可能属于不同的总体(态度有差异的总体这一事实,可以“解释”组间的方差。组内的方差是“不能解释的”,因为它们是无法系统地(用总体的差异来解释的随机或偶然的方差。因此F 比值有时也叫方差比,也就是F =可以解释的方差不能解释的方差样本量不相等的方差分析上文表1中,每一组所取
27、的观测数(n=5是相同的,一般来说,这是收集数据比较有效的办法,即让所有的样本有相同的样本量n 。但是,当样本量n 1,n 2,n 3,···不相同时,如何分析?方法如下:现在总观测数是n 1+n 2+···+n c =N ,而不再是nc 。表中所有数值的总平均为E-mail:904374049 谷钟汝河北大学生命科学学院 X=Xn1+n2+···+n c=XN或者,将总均值X清楚的表示成各组均值的一种加权平均的形式,即X=n1X1+n2X2+···+n c X c12c=n
28、X那么各组(列之间的变差也就相应的变成SS b=n1(X1X2+n2(X2X2+···自由度也做相应的变化,总自由度不再是nc1,而是df=n1+n2+···+n c1=N1组(列内自由度c(n1则变成列内自由度df=(n11+(n21+···+(n31=(n i1=Nc修改后的方差分析表变差的来源变差(平方和SS自由度df方差(平均平方和MSSF比值列间变差(由于列均值X i间的差异造成的SS列=( X iX2ci=1c1MSS列=SS列(=nS x2F=MSS列残=nS x2S p2(列内变差残差(由
29、于观测值X ij和列均值X i间的差异造成的SS残=(X ijn ij=1ci=1X i2(n i1ci=1=NcMSS残=SS残(n i1ci=1=S p2合计SS总=(X ijn ij=1ci=1X2n11ci=1=N1其中X=全部X ij的总平均X=X ijn i=n i X in i试验设计与数据处理第三章单因素优化试验设计 第三章单因素优化试验设计一、均分法均分法是单因素试验设计方法,它是在因素水平的试验范围a,b内按等间隔安排实验点,但是均分法适合于每一个处理费用都不高的简单实验。二、对分法对分法也就是等分发、平分法,应用的很广泛,比如地下输电线路发生故障,这种实验不是整体设计,而
30、是每一次试验后才能确定下一次实验位置,属于序贯实验,原理很简单。三、黄金分割法黄金分割法就是0.618法,由华罗庚教授提出来的,应用也很广泛,其实本质上跟对分法是没有区别的。当时华罗庚在基层发现,实际生活中有两类问题:一类关于组织管理,一类关于产品的质量。把生产组织好,尽量减少窝工现象,找出影响工期的原因,合理安排时间,统筹人力物力,使产品生产的观呢更好更快更多,在这一方面,统筹法大有可为。再就是优选法,它能以最少的实验次数,迅速找到生产的最优方案。黄金分割法适用于试验指标或目标函数是单峰函数的情况,要求实验的因素水平可以精确测量,但是试验指标只要能比较出好坏就行。四、分数法分数法也就是斐波那
31、契法,是用斐波那契数列安排实验的。和0.618法相似,也是适用于试验范围a,b内目标函数为单峰的情况,但是需要预先给出实验次数,尤其适用于因素水平仅取整数值或有限个值的情况。E-mail:904374049 谷钟汝河北大学生命科学学院 第四章多因素优化试验概述:日本在20世纪60年代开始推广正交设计的方法,10年间使用正交表超过100万次,丰田公司当时对正交设计方法的评价是:在为公司产品质量改进做出贡献的各种方法中,田口方法占50%。20世纪20年代以来,欧美国家也积极推广使用试验设计的方法,但是局限于数学方法奥秘的析因设计,从80年代开始,正交设计被引入美国,首先在福特公司开始使用,之后取得
32、了广泛应用,所以说,试验设计技术是过去50年日本工业快速增长的决定性因素。一、因素轮换法因素轮换法是一种简单的多因素优化方法,它的想法是每次试验中只变化一个因素的水平,其他因素的水平保持固定不变,希望逐一地把每一个因素对实指标的影响摸清,分别找到每个因素的最优水平。这个方法只适合于因素间没有交互作用的情况,当因素间有交互作用的时候,每次变动一个因素的做法不能反应因素间交互作用的效果。二、随机试验随机试验是按照随机化的原则选择试验点或者实验因素水平(随机布点,上边的因素轮换法是一种选择因素水平的试验方法,正交设计、均匀设计、析因设计都是合理的选择实验因素水平的方法,但是在一些特殊的情况下,可能这
33、些人为精心设计的实验条件难以实现,就要采用随机试验法,一种情况就是实验水平只能观测,不能严格控制(比如利用气象气球收集气象数据。另一种就是试验水平间有约束关系,比如有约束的配方设计(后期介绍。三、拉丁方设计1.定义拉丁方设计是正交设计、均匀设计、析因设计等试验设计方法的起源,所谓的拉丁方就是用字母或者数字排列的具有一定性质的方阵,每一个字母在每行和每列中恰好出现一次。方阵的行数或例数就是拉丁方的阶数二阶的拉丁方表A B a bB A b a三阶拉丁方表试验设计与数据处理第四章 多因素优化试验 A B C B C A C A B(标准拉丁方表:就是第一行和第一列的排列顺序是按字母排序 用途一般的
34、拉丁方设计,用于安排只有一个处理因素和两个区组因素时的水平比较。 案列考察四种催化剂(处理因素A 的效果,同时考虑反应温度(区组因素B 和原材料的批次(区组因素C 的影响。三个因素都取4个水平。如果此实验中只有一个区组因素B ,那么就可以直接用双因素方差分析,但是现在又多了一个C 因素,因此采用拉丁方设计。1.1. 4阶拉丁方设计表区组因素B区组因素C1 2 3 4 1 b a c d 2 d c a b 3 c d b a 4abdc表中的a 、b 、c 、d 分别表示因素A 的四个水平。上表可以进行转化,如下表。表格化的4阶拉丁方设计实验号 区组因素B区组因素C区组因素A1 1 12 2
35、1 2 13 1 3 34 1 4 45 2 1 46 2 2 37 2 3 18 2 4 29 3 1 3 10 3 2 4 11332E-mail:904374049 谷钟汝河北大学生命科学学院 12 3 4 113 4 1 114 4 2 215 4 3 416 4 4 3这个表格可以看出拉丁方设计具有的一个重要性质正交性。正交性可以保证每个因素的水平在统计学上是不相关的,具体表现在两个方面:(1均匀分散性。表的每一列中不同数字出现的次数相等。(2整齐可比性。表的任意两列所构成的有序数对出现的次数相等。拉丁方也被成为两向区组设计,也就是有一个处理因素和两个区组因素,是平衡设计,每种搭配下
36、都是做一次实验,因此也称为平衡双向区组设计。实际上,区组因素可以跟试验因素互换的,这并不影响正交性。所以,进一步来讲,拉丁方设计还可以用来安排两个处理因素和一个区组因素,或者三个处理因素没有区组因素的试验设计。其他形式的变化,试验中有一个实验因素,和三个区组因素的成为希腊拉丁方设计,只要再找一个与前三列正交的列就行。还有一中就是尤登方区组设计,是行数和列数不相等的“不完全”拉丁方区组设计,也就是缺少一行或几行的拉丁方设计,此时便不再有正交性。试验设计与数据处理第五章正交设计 第五章正交设计一、原理正交设计就是在全面实验的样本点中挑选出部分有代表性的样本点做实验,这些点具有正交性。是由日本学者田
37、口玄一于40年代提出来的,正交试验设计就是使用orthogonal array来安排实验。常见的正交表有L4(23,L8(27,L16(45以及混合水平L18(2×37等。用正交表安排实验就是把实验的因素(包括区组因素安排到正交表列,允许有空白列,把因素水平按安排到正交表的行。L n(a p表示最多可以安排P个水平数目为a的因素,需要做n次实验(含有n个处理性质:正交性。正交表的列之间具有正交性,正交性可以保证每两个因素的水平在统计学上是不相关的,具体表现在两个方面:均匀分散性。在正交表的每一列中,不同数字出现的次数相等。整齐可比性。对于正交表的任意两列,将同一行的两个数字看做有序数
38、对,每种数对出现的次数是相等的。例如L9(34表,有序数对一共有9个,(1,1(1,2(1,3 (2,1(2,2(2,3(3,1(3,2(3,3,它们各出现一次。二、用正交表安排实验选择合适的正交试验表,在实施过程中有一个问题需要强调,那就是做实验的顺序要依照随机化的原则,可以采用抽签的方式确定。按随机化顺序做实验的目的是尽量避免实验因素外的其他因素对实验的影响,避免实验受区组因素的影响。比如说假如实验员在实验过程中对这项实验逐渐熟悉,则实验的效果会越来越好,当然也可以把人也看成一个区组因素,3个人便是3个水平将其放到空白列上,那么该列的1、2、3水平便是三个不同的人,这样就避免了人为变动所造
39、成的误差。三、一般的正交分析案列1:某化工厂生产一种化工产品,采收率低并且不稳定,一般在60%-80%之间波动。现在希望通过试验设计,找到好的生产方案,提高采收率。分析:三个因素,每个因素三个水平,因此选择L9(34正交试验表。1.数据准备原始的因素与水平表水平因素E-mail:904374049 谷钟汝河北大学生命科学学院 A反应温度B加碱量C催化剂种类1 A1=80 B1=35 C1=甲种2 A2=85 B2=48 C2=乙种3 A3=90 B3=55 C3=丙种放到L9(34正交试验表中列号 1 2 3 4试验号 A B C D(空白列实验结果y1 1 1 1 1 512 1 2 2 2
40、 713 1 3 3 3 584 2 1 2 3 825 2 2 3 1 696 2 3 1 2 597 3 1 3 2 778 3 2 1 3 859 3 3 2 1 842.结果分析简便的一种方法,无需统计学知识。分为两种:一是直接看好的条件,比如8号试验的采收率最高,但是8号试验条件不一定就是最优方案。二就是通过计算得到。方法如下:试验号 A B C D(空白列实验结果y1 1 1 1 1 512 1 2 2 2 713 1 3 3 3 584 2 1 2 3 825 2 2 3 1 696 2 3 1 2 597 3 1 3 2 77试验设计与数据处理第五章正交设计 8 3 2 1 3
41、 859 3 3 2 1 84T1 180 210 195 204T2 210 225 237 207T3 246 201 204 225T1均60 70 65 68T2均70 75 79 69T3均82 67 68 75R 22 8 14 7用excel计算结果如上图,T1,T2,T3分别为各个因素1、2、3水平的结果之和TT1A=y1+y2+y3 T1B=y1+y4+y7Ti均=Ti/3 “T1均”行A因素下的值为60表示反应温度为80时的平均采收率为60%R=最大值-最小值,可以反应对试验的影响程度。需要说明的是,空白列的各个值也需要计算出来。从上表中可以看出最优的实验条件为:A3B2C
42、2分析极差:可以看出A因素的影响最大,B因素的影响最小。画趋势图: 、 从图中可以看出反应温度越高越好,因而有必要进一步判断实验的反应温度是否还可以提高。成本分析:比如B 因素对采收量没有多大的影响,那么就要在考虑到成本的基础上适当的对B 做出调整。综合分析与撒细网:得到最优的水平搭配后,还可以在该基础上微调,最后一步是对得出的最有搭配进行验证。以上的方法称为直观分析法,通过极差的大小来评价各因素对试验指标影响的程度,但是,极差的大小并没有一个客观的评价标准,而且不能估计试验过程及试验结果测定中必然存在的误差,因而不能区分某因素各水平所对应的试验结果的差异究竟是由于水平的改变所引起的,还是由试
43、验误差所引起的。这时候便要用到下边的方法了方差分析法。SST =(y i y 2ni=1因素A 的离差平方和:SSA =n i (T i y2a i=1 其中a=3是A 因素的水平数,i n 是在第i 水平下所做的实验的次数,也就是计算 T i 时所用到的数据个数。本例中i n =n/a=9/3=3,A 因素在每一个水平下都是做了3次实验。 Ti 是在前面的直观分析方法中计算出的A 因素的每一水平下的实验平均值。然后可以分别计算出SSB 和SSC 。这里有两种方法计算:方法一:空白列计算。本例中的第四列没有安排因素,是空白列,虽然空白列上没有因素,但是在数据的方差分析中也有自己的作用,actu
44、ally 空白列恰好反映了误差程度。同样按照上述的方式计算空白列的离差平方和,如果有多个空白列,那就要分别计算出相应的离差平方和相加,空白列的自由度之和就是误差平方和的自由度。方法二:公式:SSE=SSTSSASSBSSC这是一个通用的方法,如果不考虑交互作用的话,上述公式即为:误差平方和=总离差平方和-各因素离差平方和之和特例:有的时候方法一不适用,因为这时候列离差平方和只是误差平方和的一部分,空白列离差平方和的自由度小于误差平方和的自由度,用空白列做误差就会减少误差平方和的自由度,从而降低方差分析的效率,使得一些对试验指标有显著影响的因素被误认为没有显著影响。方差分析表因素A SSA a-
45、1 SSA/(a-1 MSA/MSE因素B SSB a-1 SSB/(a-1 MSB/MSE因素C SSC a-1 SSC/(a-1 MSC/MSE误差(空白列SSE a-1 SSE/(n-1总和SST n-1SPSS实现方差分析步骤在其他文章中写道,下边主要是用SAS实现的方差分析。SAS实现方法:DATA zhjiao1;input A B C y;output; cards;1 1 1 51 12 2 711 3 3 582 1 2 82 2 23 69 2 3 1 593 1 3 77 3 2 1 85 3 3 2 84 proc anova; class A B C; model y
46、=A B C; means A B C; run;解释:Proc anova 是调用方差分析命令其中的class A B C意思是指定A、B、C这三个变量为定类变量,Model y=A B C指明方差分析模型中的试验指标与因素,即因变量与自变量Means A B C语句用于计算因素各个水平的均值。其中切记数据后边不要输入“;”这个本人测试过,否则SAS可能会把数据块的一行或者几行作为程序语句处理。同样,本例中要注意,输入数据的时候,不要输入空白列的值 结果: 关于自由度的计算:各列的自由度是水平数减1,总自由度是试验次数减1,模型的自由度6是三个因素自由度之和。本列中的P值虽然都大于0.05,
47、但是还不能急于断定3各因素均不显著,这时要剔除一个最不显著的因素。观察到B的P值为0.4674,最不显著,踢出师门。然后重新做方差分析。只需将上述语句改为“model=A C”结果为: 关于剔除不显著因素的讨论:可以看出剔除B因素后A、C因素的离差平方和都没有改变,这是由于正交表的正交性决定的额,是正交表的一个优良性质,但是剔除B因素后SSE从86增加到了184,正好增加了98(B因素的离差平方和。所以有的书上也叫此种方法为合并误差项。Actually,剔除B因素后把B因素所在的第2列和空白列第4列都作为了误差项,这时候的SSE的自由度为4。关于为什么将其并入误差项,原因就是B因素太不显著了,
48、SSE就到了86,而SSB只有98。我们还可以发现,剔除B因素前F A=8,47大于剔除B因素后的7.91,但是显著性却提高了,为什么F值减小而显著性反而提高呢?这正是把B因素并入误差项的缘故,它使得误差项的自由度增大,提高了检验的功效。除了用SAS实现方差分析,还可以用EXCEL的函数计算得到,步骤有些繁琐,不过为了练习一下函数,还是试一下数据输入: 主要用了以下的函数:计算水平1均值:B11=SUMIF(B$2:B$10,$A2,$E$2:$E$10/3SUMIF函数的使用说明:SUMIF(range,criteria,sum_rangerange 为用于条件判断的单元格区域。criter
49、ia 为确定哪些单元格将被相加求和的条件,其形式可以为数字、表达式、文本或单元格内容。例如,条件可以表示为32、"32"、">32" 、"apples"或A1。条件还可以使用通配符:问号(? 和星号(*,如需要求和的条件为第二个数字为2的,可表示为"?2*",从而简化公式设置。问号匹配任意单个字符;星号匹配任意一串字符。如果要查找实际的问号或星号,请在该字符前键入波形符( sum_range 是需要求和的实际单元格。补充:SUMIF函数可对满足某一条件的单元格区域求和,该条件可以是数值、文本或表达式,可以应用
50、在人事、工资和成绩统计中。仍以上图为例,在工资表中需要分别计算各个科室的工资发放情况。要计算销售部2001年5月加班费情况。则在F15中输入公式为=SUMIF($C:$C,"销售部",$F:$F ,其中"$C:$C"为提供逻辑判断依据的单元格区域,"销售部"为判断条件即只统计$C:$C区域中部门为"销售部"的单元格,$F:$F为实际求和的单元格区域。多条件求平均数:A VERAGEIFS(计算数据区域,条件区域1,条件1,条件区域2,条件2,条件区域3,条件3,即求同时符合三个条件的数据记录平均数,例如: =A V
51、ERAGEIFS(G3:G16,B3:B16,"手机",G3:G16,">=4000" 。 SST=DEVSQ(E2:E10DEVSQ函数的使用说明:返回数据点与各自样本均值偏差的平方和F值的计算只是用了一下绝对引用:F A(B17=B16/$F16P值的计算:B18=FDIST(B17,B15,$F15FDIST函数使用说明:=FDIST(F值,因素的自由度,误差的自由度四、有交互作用的正交设计1.原理若因素间有交互作用,则需要考虑其交互作用。安排有交互作用的正交设计不仅要把实验因素安排在正交表的列上,同时还要把正交表所附带的交互作用表查出交互作
52、用所在的列,把因素与交互作用都安排在正交表上,这就是表头设计交互作用表列号 1 2 3 4 5 6 71 32 5 4 7 62 1 6 7 4 53 7 6 5 44 1 2 35 3 26 1第1列与第2列的交互作用列体现在第3列(A×B,然后第3个因素放在第4列,因为第3列已经放了交互作用,便不能再放置其他因素,这就是避免混杂原则。表头设计表头A B A×B C A×C D设计列号 1 2 3 4 5 6 72.案例在降低柴油机耗油率的研究中,根据专业技术人员的分析,影响耗油率的4个主要因素和水平见下表。(耗油率越小越好因素名称单位1水平2水平A 喷嘴器的喷
53、嘴形式类型B 喷油泵柱塞直径mm 16 14C 供油提前角度(° 30 33B 配气相位(°120 140实验号 A B A×B C A×C D 空白y1 2 3 4 5 6 71 1 1 1 1 1 1 1 228.62 1 1 1 2 2 2 2 225.83 1 2 2 1 1 2 2 230.24 1 2 2 2 2 1 1 218.05 2 1 2 1 2 1 2 220.86 2 1 2 2 1 2 1 215.87 2 2 1 1 2 2 1 228.5直接看好的条件是8号试验,水平搭配为A2B2C2D1直观分析法:T1-220 5.65
54、2.75 4.425 7.025 2.35 0.55 2.725T2-220 -0.025 2.875 1.2 -1.4 3.275 5.075 2.9R 5.675 0.125 3.225 8.425 0.925 4.525 0.175 从上表中可以看出:C因素对其影响最大,其次是A因素,最小的是B因素,但是不能说明B因素对耗油率没有影响,因为A×B的极差值为3.225并不小。说明A与B 之间可能存在交互作用。方差分析法:SAS实现过程:data zhjiao2;input A B C D y; output;cards;1 1 1 1 228.6 1 12 2 225.8 1 2
55、 1 2 230.21 2 2 1 218.02 1 1 1 220.8 2 1 2 2215.8 2 2 1 2 228.5 2 221214.8 proc anova ; class A B C D; model y=A B C D A*B A*C; means A B C D; run ;输出结果: 解释:B 因素的P 值最大,不显著;但是A 与C 的交互作用还要经一部考虑,把最不显著的B 因素剔除后重新做方差分析即可。然而任何统计软件都有规定,如果方差分析中包含某一个交互作用,那么就必须同时包含两个因素。此时有两个解决方案:一个是用EXCEL 计算,计算步骤省略,无非就是各个函数的应用;第二个解决方案就是把A×B ,A×C 作为两个因素AB ,AC 看待,将对应的列水平也同时输入到SAS 里。SAS 过程修改如下: data zhjiao3;input A AB C AC D y; output ; cards ; 1 1 1 1 1 228.6 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度版权质押合同:某出版社版权质押协议(04版)
- 《日常生活视角下马拉松运动的体验式研究》
- 2024年度网络安全合同
- 《蔡邕思想研究》
- 《基于GRADE系统对中医外治法治疗急性痛风性关节炎的网状Meta分析》
- 《甲磺酸奥希替尼治疗EGFR基因突变型非小细胞肺癌脑转移的预后因素分析》
- 《网球专项大学生对截击球落点的预判优势特征》
- 2024年快餐连锁羊肉供应商合同
- 《Ⅰ、Ⅱ期肺癌患者不同术式对比及对患者术后近期生活质量影响的临床分析研究》
- 2024房屋重建施工协议条款
- 2024-2025学年二年级上学期数学期中模拟试卷(苏教版)(含答案解析)
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
- (完整版)六年级下册体育教学计划与教案
- 北京地铁受电弓的维护与故障检修-毕业设计说明书
- 幼儿园教育和家庭教育的有效结合研究
- 集团公司两金管理评价办法
- 电影的声音分析PPT课件
- “三措一案”实施规范标准
- 【全面解读《国有建设用地使用权出让地价评估技术规范【2018】4号文》
- 案件移交清单模板
- 等差数列及其通项公式
评论
0/150
提交评论