版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、材料合成与制备第5章 实验设计与数值分析初步实验设计与数值分析初步 5.1 实验设计实验设计 5.1.1 引言引言 实验设计是研究如何通过合理地安排实验设计是研究如何通过合理地安排实验计划而充分获得有用信息的方法。它实验计划而充分获得有用信息的方法。它的主要内容是讨论如何科学地安排实验的主要内容是讨论如何科学地安排实验,以以尽可能少的实验次数、较短的实验时间、尽可能少的实验次数、较短的实验时间、较低的费用较低的费用,得到较满意的实验结果。在科得到较满意的实验结果。在科学分析的基础上学分析的基础上,获得最优实验方案获得最优实验方案,同时使同时使实验数据处理方便易行实验数据处理方便易行,结果更加可
2、靠。实结果更加可靠。实验设计是实验的最优化设计。验设计是实验的最优化设计。 一个好的实验方案应包括以下三个方面一个好的实验方案应包括以下三个方面:科学的实验设计科学的实验设计:明确实验目的明确实验目的,确定需要考确定需要考察的因素及其变动范围察的因素及其变动范围,制定出合理的实验方制定出合理的实验方案案;实验的实施实验的实施:按照设计的实验方案准确进行实按照设计的实验方案准确进行实验验,取得必要的实验数据取得必要的实验数据;实验结果分析实验结果分析:采用图表以及科学的数学方法采用图表以及科学的数学方法对实验数据进行分析对实验数据进行分析,分析实验数据的规律和分析实验数据的规律和可靠性可靠性,剔
3、除沉余信息剔除沉余信息,发掘二次信息发掘二次信息,判断所判断所考察因素的相对重要性考察因素的相对重要性,从而确定出最佳实验、从而确定出最佳实验、生产或经营方案生产或经营方案,也即最优方案。也即最优方案。 5.1.2 常用实验设计方法常用实验设计方法 5.1.2.1 因子设计因子设计 2k因子设计和因子设计和3k因子设计因子设计: k考察的因子考察的因子个数个数,2和和3代表因子水平。代表因子水平。 因子设计是一种有效的实验设计方法因子设计是一种有效的实验设计方法,但它只是在实验方案已设计好的情况下进但它只是在实验方案已设计好的情况下进行行,并未涉及到最佳实验方案问题并未涉及到最佳实验方案问题,
4、因此实验因此实验工作量可能很大工作量可能很大;虽然考虑了因子间的交互虽然考虑了因子间的交互作用作用,但把高等级的交互作用作为误差估计但把高等级的交互作用作为误差估计可能得出准确度很低的结论可能得出准确度很低的结论,特别是偏离线特别是偏离线性关系的过程性关系的过程;另外另外,对实验结果的分析也较对实验结果的分析也较复杂。复杂。 5.1.2.2 正交实验设计正交实验设计 与因子实验设计相比与因子实验设计相比,正交实验设计是优正交实验设计是优化设计方案的有效方法之一。它不必要对每化设计方案的有效方法之一。它不必要对每个因子的各个水平的所有组合进行全面实验个因子的各个水平的所有组合进行全面实验,只需要
5、利用正交表来安排实验只需要利用正交表来安排实验,因而可以较大因而可以较大幅度地减少实验工作量幅度地减少实验工作量,降低实验费用降低实验费用,节省时节省时间间,实验数据的分析更为方便实验数据的分析更为方便,结果也更加可靠。结果也更加可靠。具有整齐可比、均衡分散、简单易行的特点。具有整齐可比、均衡分散、简单易行的特点。 正交表正交表 符号符号: 。n:实验组数实验组数;m:因子水平因子水平;k:因因子个数。子个数。 knmL L4(23)正交表: 表5.1 L4(23)正交表 123111121-1(2)-1(2)3-1(2)1-1(2)4-1(2)-1(2)1 L9(34)正交表正交表: 表表5
6、.2 正交表正交表 1234111112122231333421235223162312731328321393321 正交实验设计的具体方正交实验设计的具体方法、方差分析、效应计算与法、方差分析、效应计算与指标值的预估计参阅指标值的预估计参阅: 陈陈 魁魁:实验设计与分析实验设计与分析 朱伟勇朱伟勇:最优设计的计算机最优设计的计算机证明与构造证明与构造 5.1.2.3 二次回归正交设计二次回归正交设计 回归正交设计将古典回归分析与正交回归正交设计将古典回归分析与正交实验设计的优点结合起来实验设计的优点结合起来,将实验安排、数将实验安排、数据处理和回归方程的精度统一成一个整体据处理和回归方程的
7、精度统一成一个整体来加以研究来加以研究,从而可用较少的实验次数得到从而可用较少的实验次数得到精度较高的回归方程。精度较高的回归方程。基本原理基本原理:二次回归正交设计得到的回归方二次回归正交设计得到的回归方程是二次的程是二次的,它包括常数项、一次项、交叉它包括常数项、一次项、交叉项和平方项。当变量个数为项和平方项。当变量个数为 时时,二次回归二次回归方程的一般形式为方程的一般形式为: n (5.1) 式中式中 、 、 与与 都是回归系数。上式都是回归系数。上式共有共有 项。为了求出项。为了求出 个回归系个回归系数数,实验次数不应小于实验次数不应小于 次。为了减少实次。为了减少实验次数验次数,且
8、每个因素能多取几个水平进行且每个因素能多取几个水平进行实验实验,故采用组合设计方法。故采用组合设计方法。 定义定义1 组合设计组合设计:在因子空间中选择几类在因子空间中选择几类具有不同特性的点具有不同特性的点,把它们适当地组合起把它们适当地组合起来而形成的设计为组合设计来而形成的设计为组合设计。 2110jnjjjjijiijjnjjxbxxbxbby0bjbijbjjb22nCCtCtCt 一般一般P个因子的组合设计由下列个因子的组合设计由下列N个点组成个点组成: 。其中。其中: :二水平全因子实验的实验点个数二水平全因子实验的实验点个数 或它部分实施时的实验点个数或它部分实施时的实验点个数
9、 , , ,等等。等等。 2P:分布在分布在P个坐标轴上的星号点个数。个坐标轴上的星号点个数。三因子的因子空间见下图。三因子的因子空间见下图。 :各因子都取零水平的中心点的重各因子都取零水平的中心点的重复实验次数。复实验次数。cmP212P22P0m02mPmNcP=3111-1-1-1zxy0 组合设计具体方法是选取组合设计具体方法是选取几类不同的点组成实验计划几类不同的点组成实验计划,这这几类点是几类点是: 每个变量只取每个变量只取+1和和-1水平水平,这类点共有这类点共有 个个,记为记为 ,列如当有三个变量时列如当有三个变量时,第一类点第一类点有下列有下列8个点个点: n2ncm2 1
10、1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11x3x2x 一个变量的值只取一个变量的值只取 ( 称为星号臂称为星号臂,取值法后叙取值法后叙),其余变量的值都取其余变量的值都取0水平。这水平。这类点共有类点共有 个。当个。当 =3时时,这类点共有这类点共有6个个: 0 0 0 0 0 0 0 0 0 0 0 0 nn1x3x2x 适当选取中心点适当选取中心点,即所有变量都取即所有变量都取0水平水平的点的点: 为中心点的实验次数为中心点的实验次数,与与 值有关。值有关。 可见可见,取这样一些点做实验取这样一些点做实验,可使变量在可使变量在5个水平上取值
11、个水平上取值,且实验次数较少。当适当选且实验次数较少。当适当选取取 值时值时,可使实验成为可使实验成为正交正交的。当变量个的。当变量个数为数为 时时,设计方案如下设计方案如下:0000003210 xxxm0mn00 .00 .0.0.00.000000.0000002111111111111112.0321行行行mnxxxxnn 前前 行可以按下述方法排列行可以按下述方法排列:第一列先第一列先取取 个个1,再取再取 个个1,第二列交替第二列交替取取 个个1和和1,依此类推依此类推,最后一列交最后一列交替取一个替取一个-1和一个和一个1。 上述点取好后上述点取好后,因为是二次设计因为是二次设计
12、,故还故还应有二次乘积项和平方项。以应有二次乘积项和平方项。以 为列为列,回归模型中共有回归模型中共有10项项(见下页见下页),这里这里取取 : 上列数表上列数表,排成矩阵后排成矩阵后,称为结构矩阵称为结构矩阵,记为记为X:n212n12n22n3n10m 000000000100000001000000010000000100000001000000010000000111111111111111111111111111111111111111111111111111111111111111111111111111111111151413121110987654321222222232221
13、3231213210 xxxxxxxxxxxxx 为使组合设计具有正交性为使组合设计具有正交性,应使相应使相关矩阵成关矩阵成(XX)1为对角矩阵。为了推为对角矩阵。为了推导方便导方便,将将X中的列重排一下中的列重排一下,将平方列将平方列移至移至 列之后列之后,即排成即排成: 再设再设: , 则则信息矩阵信息矩阵 为为:nnnnxxxxxxxxxxxxxx131212122322210,22cme42cmfXX0 x (5.2)ccccccccmmeefmmemfmemmfeeeeNXX0000000000000000000000000000000其逆矩阵具有相同形式其逆矩阵具有相同形式: (5
14、.3) 11111000ccmmeeFGGEGFGEGGFEEEENXX其中: (5.4) 02mnmNc2412neNmnNfHccmnfHK12142112enNmnNfHFc412eHEcNmeHG21 从从(5.3)式可见式可见,要使要使(XX)1为对角矩阵为对角矩阵,应使应使E和和G都等于零。因此都等于零。因此,欲使欲使 =0,使使 即可。将即可。将 及及N之值代入之值代入,有有: (5.5) 当当 时时(全因子实验全因子实验),有有: (5.6) 当当 时时(1/2因子实验因子实验),有有: (5.7) cNmeHG2102cNmee02202202402mnmmmmnmmcccc
15、cncm205 . 0220124mnnn12ncm05 . 02202214mnnn 给定了给定了 和和 后后,就可以用上述二式求就可以用上述二式求出出 。当。当 时时,一般用一般用1/2实施实施,计算计算 值值用用(5.7)式。为使式。为使E也为零也为零,采用中心化方采用中心化方法。具体做法是先求出平方列中每列的法。具体做法是先求出平方列中每列的和和 , 然 后 平 方 列 中 的 每 一 项 都 减然 后 平 方 列 中 的 每 一 项 都 减去去 ,即用即用 (5.8) 代替原来的代替原来的 ,这时这时:n0m5n2ixNixN121NijjxNxx12212jx 相关矩阵成为对角矩阵
16、。相关矩阵成为对角矩阵。 按上述做法按上述做法,在在 的情况下的情况下: , 根据实验结果根据实验结果,即可求得回归方程即可求得回归方程: (5.9) 将将 代入上式得回归方程代入上式得回归方程: (5.10)01NjxE1, 30mn215. 1730. 0952.1015/122jjjxxx110iniiijijiijiniixbxxbxbbyNijjxNxx12212110iniiijijiijiniixbxxbxbby 但这还不是最后所要求的回归方程。因为在但这还不是最后所要求的回归方程。因为在二次回归正交设计中二次回归正交设计中,设计矩阵中只有设计矩阵中只有5个数个数字字 出现出现,
17、故应对各因子变化范围进故应对各因子变化范围进行变换行变换,也即将各因子的实际变化范围变换也即将各因子的实际变化范围变换到到 这一范围内。此过程称为这一范围内。此过程称为编码编码。具。具体做法是设第体做法是设第 个因子个因子 的上下界限分别为的上下界限分别为 和和 ,并设并设 , (5.11) 其中其中 要根据要根据 和和 的值事先求出。然后的值事先求出。然后做变换做变换 (5.12) 可得因子编码公式可得因子编码公式,见表见表5.3:, 1 , 0 , 1,iixiz2iz12/120iiizzz212iiizzn0miiiizzx0 表5.3 因子编码公式表 ix1z 2znz21z 22z
18、nz2101z 202znnz001z02znz0101z 202znnz011z12znz1因 子 1 0 -1 - 这样回归方程实际上就是这样回归方程实际上就是: (5.13) 整理后得整理后得: (5.14) 这里得到的是关于原变量的回归系数及回这里得到的是关于原变量的回归系数及回归方程归方程,其中的其中的 已不同于已不同于(5.9)中的中的 。还是将还是将 的符号改为的符号改为 , 改为改为 ,最后得回最后得回归方程归方程: (5.15) 20100010iiiniiijjjiiijiijiiiniizzbzzzzbzzbby2110iniiijijiijiniizbzzbzbby0b
19、0bbbzx2110iniiijijiijiniixbxxbxbby 式式(5.15)中的变量中的变量 也不同于也不同于(5.10)中的变中的变量量 。后者是在。后者是在 内取值的标准化变内取值的标准化变量量;而前者是以而前者是以 为变化区间的变量。为变化区间的变量。显著性检验显著性检验: 回归方程的检验用统计量回归方程的检验用统计量: 回归系数显著性检验用统计量回归系数显著性检验用统计量: 一次效应一次效应: , 交互效应交互效应: , 二次效应二次效应: , ixix,iizz21,1 pNSpS剩回1 pNSQi剩n, 2 , 11 pNSQij剩ji 1 pNSQii剩n, 2 , 1
20、 如果在中心点有如果在中心点有 次重复实验次重复实验,且实验结且实验结果分别为果分别为 ,则可用由此产生的则可用由此产生的误差平方和误差平方和 对失拟平方和对失拟平方和 进行检验进行检验,然后再对回归方程和回归系数进行显著性然后再对回归方程和回归系数进行显著性检验。这里检验。这里: 二次回归正交设计主要用于寻求最佳二次回归正交设计主要用于寻求最佳配方和建立生产过程的数学模型。配方和建立生产过程的数学模型。 程序及说明参阅程序及说明参阅:朱伟勇朱伟勇:最优设计的最优设计的计算机证明与构造计算机证明与构造0m000201,myyy误SfLS.1,012000mfyySmii误误误剩误剩,fffSS
21、SfLfL. 5.1.2.6 具有边界效应混料模型的具有边界效应混料模型的 D-最优设计的构造最优设计的构造 混料模型混料模型:在试验设计中在试验设计中,有这样一类问题有这样一类问题,试试验指标仅与各种成分所占的百分比有关验指标仅与各种成分所占的百分比有关,与它与它们的总量无关们的总量无关,各种成分的百分比可在一定范各种成分的百分比可在一定范围内变化围内变化,且这些百分比的和是且这些百分比的和是1,这就是混料这就是混料设计问题。设设计问题。设 分别表示分别表示 个因个因子子 , 如 果 一 个 试 验 计 划 有 个 试 验如 果 一 个 试 验 计 划 有 个 试 验点点 ,且每个试验点且每
22、个试验点都满足条件都满足条件: , 则则 这种试验称为因子混料试验或这种试验称为因子混料试验或 因子混料试因子混料试验。验。pxxx,21pnnaxxxapaa, 2 , 1,21121apaaxxx1,021apaaxxxn 对于混料模型的对于混料模型的D-最优性问题最优性问题,直接构造直接构造带有边界效应的混料带有边界效应的混料D-最优设计是比较困难最优设计是比较困难的的,而用数值方法构造这类模型的而用数值方法构造这类模型的D-最优设计最优设计是很有效的方法。但用数值方法构造这类模是很有效的方法。但用数值方法构造这类模型的型的D-最优设计时最优设计时,迭带过程收敛较慢迭带过程收敛较慢,因而
23、只因而只要求设计的方差函数的最大值与参数个数要求设计的方差函数的最大值与参数个数 充分靠近即可。另外充分靠近即可。另外,对具有边界效应的混料对具有边界效应的混料模 型模 型 , 一 般 要 对 因 子 取 值 加 以 限 制一 般 要 对 因 子 取 值 加 以 限 制 , 即即设设: 。 的值常取为的值常取为0.05,即要求各因子都在即要求各因子都在0.05,1范围内取值。描述范围内取值。描述具有边界效应的混料模型的基本形式有具有边界效应的混料模型的基本形式有:mpixii, 2 , 1,i 线性倒数模型线性倒数模型: (5.16) 二次倒数模型二次倒数模型: (5.17) 线性对数模型线性
24、对数模型: (5.18) 二次对数模型二次对数模型: (5.19) 相应的实验计划参阅相应的实验计划参阅:朱伟勇朱伟勇:最优设计的最优设计的计算机证明与构造计算机证明与构造 pipiiiiixxyE111 pipiiijijiijiixxxxyE111 pipiiiiixxyE11ln pipiiijijiijiixxxxyE11ln表表5.4 模型模型(5.18)的测度设计的测度设计/近似近似D-最优测度设计最优测度设计1 410M,maxxdX支撑点集中的支撑点集中的代表点代表点集中的点数集中的点数(0.05,0.05,0.9)30.10021/10(0.05,0.225,0.725)60
25、.102391/10(1/3,1/3,1/3)10.08561/100.24320.24236.0036.06 图5.1 时模型(5.18)的近似D-最优测度设计谱点 (0.05,0.05,0.90) (0.225,0.05,0.725) (0.05,0.225,0.725) (0.725,0.05,0.225) (0.05,0.725,0.225)(0.90,0.05,0.05) (0.05,0.90,0.05) (0.725,0.225,0.05) (0.225,0.725,0.05) (1/3,1/3,1/3)3p 由图由图5.1可见可见,模型模型(5.18)的近似的近似D-最优测度设计
26、谱点几乎都在顶点附近最优测度设计谱点几乎都在顶点附近,仅除仅除(1/3,1/3,1/3)之外。这是因为之外。这是因为,只有只有在这个边界附近多放置几个设计点才在这个边界附近多放置几个设计点才能测定响应在边界附近的迅速变化。能测定响应在边界附近的迅速变化。 对于含倒数项的模型对于含倒数项的模型(5.16),Draper和和St.John算出了三分量近似算出了三分量近似D-最优测最优测度设计度设计,其谱点如图其谱点如图5.2所示。所示。 图5.2 时模型(5.16)的近似D-最优测度设计谱点 (0.05,0.05,0.90) (0.17,0.05 ,0.78) (0.05,0.17,0.78) (
27、0.2,0.2,0.6) (0.78,0.05 , 0.17) (0.6,0.2,0.2) (0.2,0.6,0.2) (0.05 ,0.78, 0.17)(0.09,0.05,0.05) (0.05,0.09,0.05) (0.78, 0.17,0.05) (0.17,0.78, 0.05)3p 比较图比较图5.1与图与图5.2可知可知,模型模型 (5.18)式的式的(0.05,0.225,0.725)这类谱点要比模这类谱点要比模型型(5.16)的的(0.05,0.17,0.78)这类点更远离这类点更远离顶点顶点,尽管它门相似。这是因为尽管它门相似。这是因为,当当 时时, 趋于无穷要比趋于无
28、穷要比 来得缓慢的缘故。来得缓慢的缘故。同时还可以看到同时还可以看到,模型模型(5.18)的近似的近似D-最最优设计谱点优设计谱点 要比模型要比模型(5.16)少少,即它没即它没有类似于有类似于(0.2,0.2,0.6)这样的点。似乎是这样的点。似乎是这类点退化成这类点退化成(1/3,1/3,1/3)这一点。这一点。 0ixixln1x 表表5.4中的设计中的设计 是一个靠近是一个靠近D-最最优设计的确切设计优设计的确切设计,它只含有它只含有10个点。个点。这个设计对于试验者是更为可取的。这个设计对于试验者是更为可取的。但是但是,由于近似由于近似D-最优设计最优设计 是所有其是所有其它确切设计
29、的参考设计它确切设计的参考设计,所以它是十分所以它是十分重要的重要的,当试验次数比较多时当试验次数比较多时,从它直接从它直接就可以产生相当有效的确切设计。就可以产生相当有效的确切设计。1 应当指出的是应当指出的是,正象模型正象模型(5.18)是是Scheffe一次典型多项式的推广一样一次典型多项式的推广一样,该该模型的近似模型的近似D-最优设计也是最优设计也是Scheffe一一次典型的次典型的D-最优设计的推广最优设计的推广,即后者即后者D-最优设计的谱点是前者近似最优设计的谱点是前者近似D-最优设最优设计的谱点的一个子集。当进行模型简计的谱点的一个子集。当进行模型简化时化时,为估计对数项所加
30、的谱点可用来为估计对数项所加的谱点可用来进行简化模型的拟合性检验。进行简化模型的拟合性检验。 表表5.5中列出的是模型中列出的是模型(5.19)的近似的近似D-最优设计最优设计 。这个设计同样是。这个设计同样是Scheffe二次典型多项式模型的二次典型多项式模型的D-最优最优设计再加上为估计参数项设计再加上为估计参数项 而增加的而增加的那些点组成的那些点组成的,同模型同模型(5.18)的情况一样的情况一样,这些增加的点出现在单纯形顶点附近这些增加的点出现在单纯形顶点附近,但比但比Draper和和St.John的二次倒数项模的二次倒数项模型型(5.17)的那些附加点更远离于顶点。的那些附加点更远
31、离于顶点。设计设计 的全部谱点如图的全部谱点如图5.3所示。所示。 ixln 表表5.5 模型模型(5.19)的测度设计的测度设计1 410M,maxxdX支撑点集中的代支撑点集中的代表点表点集中的点数集中的点数(0.05,0.05,0.9)30.10881/9(0.05,0.475,0.475)30.10811/9(0.16,0.16,0.68)30.105311/9(0.05,0.17,0.78)60.005560.254290.25375.025.25 图5.3 时模型(5.19)的近似D-最优测度设计谱点 (0.05,0.05,0.9) (0.17,0.05 ,0.78) (0.05,
32、0.17,0.78) (0.16,0.16,0.68) (0.475,0.05 ,0.475) (0.05, 0.475,0.475) (0.78,0.05 , 0.17) (0.68,0.16,0.16)(0.16,0.68,0.16) (0.05 ,0.78, 0.17) (0.475, 0.475, 0.05) (0.9,0.05,0.05) (0.05,0.9,0.05) (0.78, 0.17,0.05) (0.17,0.78, 0.05)3p 由图由图5.3可以看到可以看到,近似近似D-最最优设计优设计 的前三类点集中的谱的前三类点集中的谱点的测度都差不多相等且接近点的测度都差不多
33、相等且接近于于1/9,而最后一类点集中的谱点而最后一类点集中的谱点的测度相当小。因此的测度相当小。因此,取前三类取前三类点组成一个点组成一个9点确切设计点确切设计 , 则则 是一个相当有效的确切设计。是一个相当有效的确切设计。 11 5.2 数值分析数值分析 实验设计和数据处理的主要目的之一实验设计和数据处理的主要目的之一是建立一个能够描述研究对象基本规律的是建立一个能够描述研究对象基本规律的数学模型数学模型,并要求模型并要求模型具有要求的可靠性具有要求的可靠性,以以便用于指导便用于指导选择最佳实验方案选择最佳实验方案以及对研究以及对研究对象由于影响因素的变更而产生的响应指对象由于影响因素的变
34、更而产生的响应指标进行标进行预测预测,或可用于对系统的控制。因此或可用于对系统的控制。因此,在实践和系统科学知识的基础上在实践和系统科学知识的基础上,用科学的用科学的方法建立研究对象的响应与影响因素间的方法建立研究对象的响应与影响因素间的可靠数学模型可靠数学模型,无论对于科学研究还是工业无论对于科学研究还是工业生产生产,都具有重要的意义。下图给出了建立都具有重要的意义。下图给出了建立数学一般方法数学一般方法: 建立数学一般方法建立数学一般方法建立数学一般方法建立数学一般方法 设计产生新数据 经验与科学知识模型不适合实验模型可取模型是否显著,系数是否稳定未知系数估计数据模型 5.2.1 方差分析
35、和回归分析方差分析和回归分析 5.2.1.1 方差分析方差分析 (方差、标准差、极差方差、标准差、极差) 方差分析通常可以不需要进行严格的实方差分析通常可以不需要进行严格的实验设计验设计,一般是根据经验和可获得的相关知识一般是根据经验和可获得的相关知识,确定研究或考察对象所需要达到的主要指标确定研究或考察对象所需要达到的主要指标以及相关的影响因素以及相关的影响因素,通过对实验结果的方差通过对实验结果的方差分析分析,考察各因素对指标影响的重要程度考察各因素对指标影响的重要程度,进而进而找出影响指标的主要因素找出影响指标的主要因素,再通过对主要因素再通过对主要因素的调整和控制的调整和控制,获得优良
36、的指标值。方差分析获得优良的指标值。方差分析通常只判断所考察的因素对指标有无显著影通常只判断所考察的因素对指标有无显著影响或影响的程度响或影响的程度,而不给出它们间的相互关系而不给出它们间的相互关系或数学模型。或数学模型。 方差分析的具体方法参阅实验设计与分析(清华大学出版社,陈魁)、数学地质的方法与应用(冶金工业出版社,於崇文等)、经济统计分析方法及预测(清华大学出版社,罗积玉等)。 5.2.1. 2 回归分析回归分析 回归分析又称为因素分析回归分析又称为因素分析,回归分析不仅回归分析不仅判断因素对指标影响的重要程度判断因素对指标影响的重要程度,而且给出指而且给出指标与因素间的函数关系标与因
37、素间的函数关系(回归方程回归方程),因而可用因而可用于对指标的预测。回归分析一般也不要求严于对指标的预测。回归分析一般也不要求严格的实验设计。回归分析可以分为一元回归格的实验设计。回归分析可以分为一元回归分析和多元回归分析。分析和多元回归分析。 一元回归分析一元回归分析:一元线性回归分析、一元一元线性回归分析、一元非线性回归分析非线性回归分析;多元回归分析多元回归分析:多元线性回多元线性回归分析、多元逐步回归分析、多元岭回归分归分析、多元逐步回归分析、多元岭回归分析、多因变量多自变量线性回归分析、多元析、多因变量多自变量线性回归分析、多元非线性回归分析等。非线性回归分析等。 多元线性回归分析多
38、元线性回归分析 数学模型数学模型:在科学研究和生产实践在科学研究和生产实践,许多许多研究对象的响应指标研究对象的响应指标(因变量因变量)与影响因与影响因素素(自变量自变量)间存在线性关系。另一方面间存在线性关系。另一方面,即使是非线性问题即使是非线性问题,也经常可以通过简单也经常可以通过简单的数学处理将其转化为线性模型来处理的数学处理将其转化为线性模型来处理,例如对例如对 这样的对数模型这样的对数模型,可以简单地对等号两边取对数可以简单地对等号两边取对数,就可精确就可精确将其转化为线性模型。将其转化为线性模型。maxkyexp 对于非线性多项式对于非线性多项式,则可以用变量则可以用变量替换实现
39、线性化。对于不能简单线性化替换实现线性化。对于不能简单线性化的数学模型的数学模型,也还可以采用展开级数的形也还可以采用展开级数的形式式,用有限项多项式来近似描述。因此用有限项多项式来近似描述。因此,通过实验设计和数据处理建立描述研究通过实验设计和数据处理建立描述研究或考察对象的响应与影响因素间关系的或考察对象的响应与影响因素间关系的线性数学模型有重要意义。线性数学模型有重要意义。 设变量设变量y与变量与变量 , , , 存在线性回归关系存在线性回归关系: 1x2x3xPx 它的第它的第a次实验的次实验的数据是数据是 : (ya; , , , ),a=1,2,3,N 于是有:于是有: (5.20
40、)ppxxxy221101ax2ax3axapxNNppNNppppxxxxxxxxx22110N22222211021112211101yyy 其中其中 是是p1个待个待估参数估参数; 是是p个可以精个可以精确测量或控制的变量确测量或控制的变量; 是是N个相互独立且服从同一正态分个相互独立且服从同一正态分布布 的随机变量。的随机变量。(5.20)即是多即是多元线性回归的数学模型。其矩阵形元线性回归的数学模型。其矩阵形式如下式如下: Y=X (5.21) 其中:其中:P,210pxxx,21N,21, 0N X= Y= = = 参数参数的最小二乘估计的最小二乘估计: :设设 分别是分别是 的最
41、小二乘估计的最小二乘估计, ,NpNppxxxxxx1221111111Nyyy21p210N21pbbbb,210P,210 也即使也即使 , ,满足满足: : 也就是要求出也就是要求出 ,使得全部使得全部 观测值与回归值观测值与回归值: 的残差平方和的残差平方和Q Q达到最小。因达到最小。因Q Q是非负二次式是非负二次式, ,故最小值一定存在。由极值原理及对矩阵求故最小值一定存在。由极值原理及对矩阵求导法则导法则, ,当当Q Q取得最小值时取得最小值时,b,b满足满足: :pbbbbb2102122minNaaayyXYXbYQpbbbb,210ayappaaaxbxbxbby22110
42、即即 称称X为结构矩阵为结构矩阵, , 为信息矩阵为信息矩阵, 为相关矩阵。求解后得回归为相关矩阵。求解后得回归方程:方程: (5.22) 称称 为回归系数。为回归系数。YXbXXYXXXb1XX1XXappaaaxbxbxbby22110pbbbb,210回归方程及回归系数的显著性检验回归方程及回归系数的显著性检验: : 得到上述回归方程后得到上述回归方程后, ,还要对其还要对其进行显著性检验进行显著性检验, ,看看 与与 之间是之间是否存在所假设的线性关系。通常用否存在所假设的线性关系。通常用F检验来检验回归方程的显著性。检验来检验回归方程的显著性。根据回归方程根据回归方程(5.22)可以
43、写出可以写出: :xy (5.23) 设设 , ,总偏差平方和为总偏差平方和为: : (5.24)(5.24)NNpNNppNbbbbxxxxxxxxxyyyY21021222211121121111NaayNy11212121NaaNaaNaayyyyyyS总 我们称我们称 为剩余平方和为剩余平方和, , 记为记为S剩剩, , 为回归平方为回归平方和和, ,记为记为S回回, ,则则F检验式为检验式为: : (5.25) Naaayy12Naayy121pNSpSF剩回1, pNpFFa 在选定的显著性水平下在选定的显著性水平下, ,如如 , ,则认为线性则认为线性回归方程回归方程(5.22)
44、是有显著意义的是有显著意义的, 与与 之间存在线性关系之间存在线性关系,回归方程回归方程可以使用。否则可以使用。否则,认为回归方程没有认为回归方程没有显著意义显著意义, 与与 之间无线性关系之间无线性关系,这这时需要修改模型时需要修改模型,重新用最小二乘法重新用最小二乘法求回归系数求回归系数,得到新的回归系数。得到新的回归系数。1, pNpFFayixyix 回归方程通过显著性检验后还需要对回回归方程通过显著性检验后还需要对回归系数进行显著性检验归系数进行显著性检验,以判断每个因素以判断每个因素(自自变量变量 )对因变量对因变量 的影响程度的影响程度,剔除那些影剔除那些影响不明显的自变量响不明
45、显的自变量,重新建立更为简便的回归重新建立更为简便的回归方程。记方程。记 ,可用统计量可用统计量 (5.26) 检验回归系数检验回归系数 的显著性。在给定的显著的显著性。在给定的显著水平下水平下,如如 , ,则回归性数是显则回归性数是显著的著的, ,认为自变量认为自变量 对对 影响显著影响显著, ,反之则认反之则认为影响不显著为影响不显著, ,可以从回归方程中剔除。可以从回归方程中剔除。12pNScbFiii剩1 pNpF,CXX1xyib1, pNpFFaixy 得到最后的回归方程后得到最后的回归方程后, ,就可以对目标进行预报或确定就可以对目标进行预报或确定理想目标值的最佳条件。理想目标值
46、的最佳条件。 多元线性回归分析程序框多元线性回归分析程序框图及图及FORTRANFORTRAN程序说明程序说明: 见东北工学院出版社见东北工学院出版社最优最优设计的计算机证明与构造设计的计算机证明与构造P358P358382382。逐步回归分析逐步回归分析: :实际问题中实际问题中, ,选择合适的选择合适的变量来建立回归方程变量来建立回归方程, ,不是一件简单的不是一件简单的事情。因为对于一个确定的指标事情。因为对于一个确定的指标 (因因变量变量), ,影响它的因素影响它的因素(自变量自变量)通常很多通常很多, ,同时影响因素间还可能存在多重共线性同时影响因素间还可能存在多重共线性, ,即各因
47、素之间有高度的相互依赖性即各因素之间有高度的相互依赖性, ,或或各因素之间不是相互独立的各因素之间不是相互独立的, ,因此会给因此会给回归系数带来不合理的解释。回归系数带来不合理的解释。y 为了得到一个稳健、可靠的回归模为了得到一个稳健、可靠的回归模型型, ,需要给出一种方法需要给出一种方法, ,能够从众多的影能够从众多的影响的因素中挑选出对响的因素中挑选出对 贡献大贡献大(显著显著)的的自变量自变量, ,在观测数据的基础上建立简洁在观测数据的基础上建立简洁的的“最优最优”回归方程。回归方程。 逐步回归分析方法就是一种从大量逐步回归分析方法就是一种从大量的可供选择的变量中的可供选择的变量中,
48、,筛选出对建立回筛选出对建立回归方程重要归方程重要(对指标对指标/目标变量影响显著目标变量影响显著)的变量的方法的变量的方法, ,它是在多元线性回归基它是在多元线性回归基础上派生出来的一种算法技巧。础上派生出来的一种算法技巧。y “最优最优” 回归方程的选择回归方程的选择: :从多元从多元线性回归分析的方法可知线性回归分析的方法可知, ,采用的自变采用的自变量越多量越多, ,回归平方和越大回归平方和越大, ,残差平方和就残差平方和就越小。越小。然而然而,采用较多的变量来拟合回归采用较多的变量来拟合回归方程方程,一方面使回归方程变得复杂一方面使回归方程变得复杂,也会也会使方程的稳定性变差使方程的
49、稳定性变差,每个自变量的区间每个自变量的区间误差积累将影响总体误差误差积累将影响总体误差,使得回归方程使得回归方程的预报可靠性和精度降低。的预报可靠性和精度降低。 另一方面另一方面,如果采用了对目标影响如果采用了对目标影响甚小的变量而遗漏了重要变量甚小的变量而遗漏了重要变量,可导致可导致估计量产生偏倚性和不一致性。因此估计量产生偏倚性和不一致性。因此,我们希望在回归方程中能包含所有影我们希望在回归方程中能包含所有影响重要的变量而排除影响不重要的变响重要的变量而排除影响不重要的变量量,也就是得到也就是得到“最优最优”回归方程。对回归方程。对于线性方程于线性方程: 得到得到“最优最优”回归方程回归
50、方程,通常可采通常可采用下面几种不同的方法用下面几种不同的方法:ppxxxy22110 “逐步剔除逐步剔除”回归分析方法回归分析方法:此法是首先采此法是首先采用全部自变量与因变量用全部自变量与因变量 建立回归方程建立回归方程,然后然后对每一个自变量因子作显著性检验对每一个自变量因子作显著性检验,剔除不显剔除不显著的变量中偏回归平方和最小的变量著的变量中偏回归平方和最小的变量,然后再然后再用剩余的变量和用剩余的变量和 重新建立回归方程重新建立回归方程,再对方再对方程中各自变量进行显著性检验程中各自变量进行显著性检验,剔去其中偏回剔去其中偏回归平方和最小的不显著变量归平方和最小的不显著变量,不断重
51、复此过程不断重复此过程,直至回归方程中各因子均显著为止。这样最直至回归方程中各因子均显著为止。这样最后得到的就是后得到的就是“最优最优”回归方程。方程中所回归方程。方程中所保留的自变量数与显著性水平有关。保留的自变量数与显著性水平有关。 yy “逐步引入逐步引入”回归分析方法回归分析方法:这种方法的这种方法的基本点是从一个自变量开始基本点是从一个自变量开始,把自变量逐个把自变量逐个地引入回归方程。第一步是在所有自变量地引入回归方程。第一步是在所有自变量中选出其中的一个中选出其中的一个,使它和使它和 组成的一元回组成的一元回归方程比其他的变量与归方程比其他的变量与 组成的一元回归方组成的一元回归
52、方程具有更大的回归平方和程具有更大的回归平方和;第二步再在未选第二步再在未选入的变量中选择这样一个自变量入的变量中选择这样一个自变量,使它和已使它和已选入的那个变量组成的二元回归方程选入的那个变量组成的二元回归方程,比其比其他任意一个变量与已选入的那个变量组成他任意一个变量与已选入的那个变量组成的二元回归方程具有更大的回归平方和。的二元回归方程具有更大的回归平方和。 yy 此过程不断进行此过程不断进行,在每一步中在每一步中,都要对将都要对将要选入的自变量进行显著性检验要选入的自变量进行显著性检验,确认为显确认为显著时才引入并进行下一步著时才引入并进行下一步,直到无显著变量直到无显著变量可供引入
53、时可供引入时,过程结束过程结束,最后一个方程即为最后一个方程即为“最优最优”回归方程。回归方程。 “逐步剔除逐步剔除”和和“逐步引入逐步引入”的方法的方法都有各自不足之处都有各自不足之处,“逐步剔除逐步剔除”一开始就要一开始就要计算包括所有自变量的回归方程计算包括所有自变量的回归方程,如果原始如果原始自变量中包含较多个不显著因素自变量中包含较多个不显著因素,计算量将计算量将较大。较大。“逐步引入逐步引入”的方法则未考虑到由的方法则未考虑到由于新变量的逐步引入于新变量的逐步引入,使得原有引入的变量使得原有引入的变量有可能会失去重要性。有可能会失去重要性。 “有进有出有进有出”回归分析法回归分析法
54、:为了克服为了克服上述两种方法的不足上述两种方法的不足,发展了发展了“有进有有进有出出”回归分析法回归分析法,即逐步回归分析法。即逐步回归分析法。此方法类似于方法此方法类似于方法,从一个自变量开从一个自变量开始始,视自变量对视自变量对 影响的显著程度影响的显著程度,从大从大到小逐个引入回归方程。不同之处在于到小逐个引入回归方程。不同之处在于,当原引入变量由于后续变量的引入而变当原引入变量由于后续变量的引入而变得不再显著时得不再显著时,要将其剔除。引入一个要将其剔除。引入一个变量或从回归方程中剔除一个变量变量或从回归方程中剔除一个变量,为为逐步回归的一步。逐步回归的一步。y 每一步都要进行每一步
55、都要进行F检验检验,以确保每次以确保每次引入新的显著性变量之前回归方程中只引入新的显著性变量之前回归方程中只包含显著的变量。这个过程反复进行包含显著的变量。这个过程反复进行,直直至既无不显著变量从回归方程中剔除至既无不显著变量从回归方程中剔除,又又无显著变量选入回归方程时为止。无显著变量选入回归方程时为止。 引入变量与剔除变量的依据引入变量与剔除变量的依据: :逐步回归逐步回归分析是按各自变量对分析是按各自变量对 的作用显著程度的大的作用显著程度的大小来决定其是否引入或是否剔除。用以衡量小来决定其是否引入或是否剔除。用以衡量各自变量对各自变量对 的作用大小的量是它们对的作用大小的量是它们对 的
56、的“贡献贡献”, ,即回归平方和。即回归平方和。yyy 由多元线性回归分析知由多元线性回归分析知, , 个变量个变量回归方程的回归平方和为回归方程的回归平方和为 (5.27) 其中其中 为回归系数为回归系数, , 为正规方程右为正规方程右端常数项端常数项, , 为总偏差为总偏差(离差离差)平方和平方和, , 为剩余平方和为剩余平方和(残差平方和残差平方和)。 如果从这如果从这 个变量中剔除个变量中剔除 , ,则回则回归平方和将减少为归平方和将减少为 :剩总回SSSbSlijyi1ibiyS总S剩Slixl (5.28) 由于由于: : (5.29) 为一定数为一定数, ,故记故记: : 就是就
57、是 在这在这 个变量的回归方个变量的回归方程中的贡献程中的贡献, ,即偏回归平方和。即偏回归平方和。 剩总回SSS21NaayyS总剩剩回回SSSSViiVixl 可以证明可以证明: (5.30) 是正规方程的系数矩阵是正规方程的系数矩阵 的的逆矩阵逆矩阵 中主对角线上的第中主对角线上的第 个元个元素。一般记为素。一般记为: : (5.31)iiiicbV2iicijSijCi liililicbV2 显然显然, ,如果要在回归方程中剔除不如果要在回归方程中剔除不显著变量显著变量, ,则首先应从已引入变量中剔则首先应从已引入变量中剔除贡献最小的除贡献最小的, ,不妨设为第不妨设为第 个变量个变
58、量, ,即:即: 对对 作显著性检验作显著性检验: : k liilkVVmin为已引入变量序号 lkV llkSVkNF剩剔1 如果如果 , ,即在显著性水平即在显著性水平 意义下意义下, ,如果如果 检验值小于或等于临检验值小于或等于临界值界值 , ,则该变量应从回归方程中剔则该变量应从回归方程中剔除除, ,否则保留。类似地否则保留。类似地, ,如果变量如果变量 为为未引入变量未引入变量, ,并设它将作为第并设它将作为第 个个变量引入回归方程变量引入回归方程, ,则其贡献为则其贡献为: : (5.32) 2aFF剔2a剔F2aFix1l1211liililicbV 在回归计算的某一步引入的
59、变量在回归计算的某一步引入的变量应是此时所有未引入变量中对应是此时所有未引入变量中对 贡献贡献最大的一个最大的一个, ,不妨设其序号为不妨设其序号为 , ,即即: : 其对应的其对应的F检验值为检验值为: : (5.33)yk11maxliilkVV为未引入变量序号 11111111lkllkllkVSVlNSVlNF剩剩引 如果如果 , ,即在显著性水即在显著性水平平 意义下意义下, ,如果检验值如果检验值 大于大于临界值临界值 , ,则将该变量引入回归方则将该变量引入回归方程程, ,否则不予引入。否则不予引入。 逐步回归计算步骤及应用实逐步回归计算步骤及应用实例例: :(清华大学出版社清华
60、大学出版社经济统计分经济统计分析方法及预测析方法及预测P4864)1aFF剔1a引F1aF实例实例:矾土基矾土基-Sialon结合刚玉复合材料结合刚玉复合材料的制备工艺研究。的制备工艺研究。 实验目的实验目的:以电熔刚玉、高铝矾土、金属硅粉以电熔刚玉、高铝矾土、金属硅粉和高纯氮为原料和高纯氮为原料,采用反应烧结方法制备采用反应烧结方法制备-Sialon结合刚玉复合材料。用逐次线性回归结合刚玉复合材料。用逐次线性回归分析方法对得到的数据进行分析分析方法对得到的数据进行分析,并经过实验并经过实验验证验证,得到性能与颗粒配比间可信的数学模型得到性能与颗粒配比间可信的数学模型,进而根据模型进行性能预报
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024装修垃圾清运合同范本
- 2024年废弃物处理爆破合同
- 2024家庭保姆用工合同版
- 2024年商场室内LED广告屏购销合同
- 2024年工程项目质量保证与验收合同条款
- 二手房产买卖合同协议模板
- 2024年简化版购房合同协议
- 各类维修合同范文集成
- 合同诉讼时效问题
- 2024版店铺合租合同样本
- 建筑垃圾清运服务投标方案技术标
- 学校食品安全课件(最终版)
- 人工桡骨头置换手术
- 教育科学规划开题报告《基于生活化的幼儿数学教学活动研究》
- 《网络的运行和维护》课件
- 银行消保宣传培训课件
- 恶性心律失常识别与处理
- 消防安全记者采访手册
- 高效执行力通用课件
- 《28.2.2 利用仰俯角解直角三角形》教案、导学案
- 财务税务法务合规培训
评论
0/150
提交评论