洗衣粉效能预测最优模型_第1页
洗衣粉效能预测最优模型_第2页
洗衣粉效能预测最优模型_第3页
洗衣粉效能预测最优模型_第4页
洗衣粉效能预测最优模型_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、洗衣粉效能预测最优模型本文建立了基于洗衣粉属性来判定其去污效能的两种预测模型,一是主成分降维统计预测模型,二是灰色多变量预测模型。针对问题一,由于所缺失的值均是洗衣粉的属性值,缺失值都集中在PP2、PP3PP4PP5这几种属性中,即有缺失值的洗衣粉品种的属性数据缺失率为 9.52%或19.04%, 且其中PP2、PP3的缺失值占该两种属性数据总量的 5.75%,PP4 PP5的缺失值占该两 种属性数据总量的33.72%。经上述分析,本文选择用均值替代缺失值。针对问题二,本文基于主成分降维的思想,用SPSS统计软件,将从洗衣粉21种属 性中提取出5个主成分,再将每个主成分所对应的方差贡献率作为权

2、重,计算出属性主 成分综合模型。同理,从洗衣粉去除 18种污渍的效能中提取4个主成分,最终计算出 效能主成分综合模型。将上述两个模型求解得的86种洗衣粉的属性综合值及效能综合值进行相关性检验,得出找出其Pearson相关系数为0.36,该相关系数的显著性值为0.04, 小于0.1,即属性综合属性X和综合效能丫之间的线性关系显著。由此本文对其进行线 性拟合所得的模型如下:丫 =0.516X +0.09上述模型拟合的相对平均误差为1.03。针对问题三,本文采取以相对误差为评判标准来评判所建立的多个预测模型。关键词:主成分分析灰色多变量预测模型§1 问题的重述一、背景知识 洗衣粉是通过其中

3、的化学成分溶于水后改变水溶液的物理化学性质来实现去污的 作用的,因此通过测量洗衣产品溶于水后的溶液的一些属性就可以了解产品去污的功效。 如果能建立溶液属性和产品功效之间的模型, 就可以找出能够最大化产品功效的溶液的 属性,根据这些属性和化工技术知识我们就可以找出最优的配方。二、已有的数据:1. 现有 86 个产品的物理属性及功效数据, 从中随机选取了 10个产品作为验证模型 预测精度的数据,请用剩下的 76 组数据来建立模型2. 每一个产品的 21 个属性作为输入变量 (PP1 PP21)3. 产品在 18 种污渍上的功效作为输出变量 (O1 O18)三、要解决的问题1. 对此数据用多种不同的

4、方法进行分析,考虑所有输入变量的线性项,根据模型的 需要选择它们的平方项及交互作用项;2. 根据现有数据拟合出一个统计模型, 使得模型能够基于产品的属性数据对产品的 功效做出比较可靠的预测,并提供数据说明拟合出的模型的预测能力。3. 选择合适的能够反映模型预测能力的评价准则(可以根据需要提出新的准则) , 并根据准则选出最优的建模方法和最优模型;注意: 某些产品的某些属性有缺失数据,但用来验证模型的 10组数据里没有缺失值。1§2 问题的分析洗衣粉的效能确定问题是一类大样本多数据的计分析与预测类问题。 对本问题的处 理要分三个步骤进行:第一,对所给数据进行分析及恰当的处理;第二,在经

5、处理后的 数据的基础上,建立拟合出几个统计模型,使得模型能够基于产品的属性数据对产品的 功效做出比较可靠的预测,并提供数据说明拟合出的模型的预测能力;第三,选择合适 的能够反映模型预测能力的评价准则(可以根据需要提出新的准则) ,并根据准则选出 最优的建模方法和最优模型。要合理准确处理好本问题,关键必须弄清问题的相关知识 并对问题作出深入的分析。一、对问题的具体分析1、对问题一的分析: 问题要求对此数据用多种不同的方法进行分析,考虑所有输入变量的线性项,根据 模型的需要选择它们的平方项及交互作用项。 数据是 86 种洗衣粉的 21 个物理属性及在 18 污渍上的功效。以下是处理数据的原则。(1

6、)补充缺少属性的数据由于所缺失的值均是洗衣粉的属性值,缺失值都集中在PP2、PP3、PP4、 PP5 这几种属性中,即有缺失值的洗衣粉品种的属性数据缺失率为 9.52%或19.04%,且其中 PP2、 PP3的缺失值占该两种属性数据总量的 5.75%, PP4 PP5的缺失值占该两种属性数据总 量的 33.72%。基于上述分析,本文认为有两种数据处理方法。法一,忽略缺失值所带来的效应, 直接进行统计分析;法二,由于PP2、PP3的缺失值仅占该两种属性数据总量的 5.75%, 故可将PP2、PP3的缺失值用均值来替代;而 PP4 PP5的缺失值占该两种属性数据总 量的33.72%,其比重较大。本

7、文在判定PP4 PP5与各污渍的去污效果的相关程度,发 现PP4与016有显著性关系,PP5与013、014、016、018这几种去污效能都有显著性关 系,故虽缺失率较高,但不能剔除,故本文选择仍用均值替代缺失值。在上述数据处理 的基础上以均值为参照,即将小于各属性及性能均值的离群值再剔除,以提高模型预测 结果的准确性。(2)数据平方处理(3)数据交互作用处理2、对问题二的分析:问题要求在经处理后的数据的基础上,建立拟合出一个统计模型,使得模型能够基 于产品的属性数据对产品的功效做出比较可靠的预测, 并提供数据说明拟合出的模型的 预测能力。由于本问题的输入变量有 21 种,输出变量有 18种,

8、这种高维数多指标的问题会使 问题趋于复杂化,不易于解决。在实际中,指标之间经常具备一定的相关性。针对本题 来说,本文设想将洗衣粉的 21 种属性经降维处理成一个综合属性(或几个主要成分) , 将洗衣粉的 18 种污渍的去污效能综合成一个综合效能后,再来寻找这两个(或这些) 变量之间的关系,拟合出所对应的统计模型,使得模型能够基于产品的属性数据对产品 的功效做出比较可靠的预测。本文采取主成分分析法对该问题进行降维处理。本文在将洗衣粉的21种属性经降维处理成N个主要成分,将去18种污渍的效能降 维综合成一个综合效能的基础上,建立 GM( 0,N+1 )和GM(1,N+1),即表示模型是 0 (或

9、1)阶方程,包含有 N 个变量的灰色模型。3、对问题三的分析:问题要求选择合适的能够反映模型预测能力的评价准则(可以根据需要提出新的准则),并根据准则选出最优的建模方法和最优模型。本文以相对误差为评判标准来评判所建立的多个预测模型。§ 3模型的假设§4符号说明、符号说明序号符号符号说明1234567891011123§ 5模型的建立与求解、模型I数据拟合模型1、去污效能的综合函数指标 F本文首先分别对洗衣粉的各种属性及各个效能做相关分析,从属性相关系数矩阵表可看出,PP1 PP2 PP3 PP10等属性存在着极其显著的关系。可见许多变量之间直接 的相关性比较强,证

10、明他们存在信息上的重叠。同理,从性能相关系数矩阵可看出各效 能亦存在信息重叠。(相关系数矩阵表见附录)故本文首先对洗衣粉的18种效能做主成分分析,主成分个数提取原则为主成分对应 的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度 大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量 的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过表4(方差分解主 成分提取分析)可知,提取4个主成分,即m=4所提取出的4个主成分可反映所有效能 88.96%的信息。同理,从21种属性中提取5个主成分,所提取出的5个主成分可反映所有 属性76.83%

11、的信息。效能解释的总方差表4成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%19.69953.88553.8859.69953.88553.88524.10322.79576.6804.10322.79576.68031.1726.51183.1911.1726.51183.19141.0385.76988.960 |1.0385.76988.960提取方法:主成份分析属性解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%18.94542.59642.5968.94542.59642.59622.47511.78454.3802.47511.78454

12、.38031.9439.25363.6331.9439.25363.63341.4016.67370.3061.4016.67370.30651.3716.52876.8351.3716.52876.835提取方法:主成份分析。从表 5(成分矩阵)可知 02, 03,04, 05,07,08, 09,O10,011, 017, O18,012,013,014在第一主成分上有较高成分,说明第一主成分基本反映了这些指标的信息;01, 06 在第二主成分上有较高成分,说明第二主成分基本反映了 01和06两个指标的信息;016 在第三主成分上有较高成分,017在第四主成分上有较高成分,说明第三第四主成

13、分分 别基本反映了 016和017两个指标的信息。所以提取四个主成分是可以基本反映全部指 标的信息,所以决定用4个新变量来代替原来的18个变量。成分矩阵表见附录用表5(成分矩阵)中的数据即为特征向量A1。将得到的特征向量与标准化后的数据 相乘,就可以得出主成分表达式。设Ai表示第i种主成分的特征向量,则有:A=Al;A2;A3;A4;Ai=0.16,0.2,0.25,0.25,0.24,0.15,0.24,0.24,0.25,0.27,0.26,0.270.29,0.29,0.14,0.16,0.26,0.23A2=0.37,-0.23,-0.23,0.24,0.3,0.37,-0.26,-0

14、.26,0.25,0.17,0.19,0.19-0.12,-0.14,-0.14,-0.18,-0.19,-0.24;A3=0.1, -0.36,-0.31,0.14,0.04,-0.1,-0.24,-0.15,0.14,-0.16,-0.18-0.1,0.09,0.06,0.49,0.51,0.11,0.23A4=0.25,0.33,0.15,0.12,0.06,0.35,0.15,0.12,0.02,-0.25,-0.32-0.27,-0.1,-0.09,0.53,-0.2,-0.04,-0.26。设W表示去污功效标准化矩阵(数据见附件),即:a11am1a1n,n=1,2,,18; m=

15、1,2,,86amn其中amn表示第m种产品对第n种污渍的去污功效标准值。 设Fi表示第i种主成分的不同产品的标准值矩阵,则有:Fi =W AT , i=1,2,3,4设第i种主成分的贡献率为i,则有:二53.885%,22.795%,6.511%,5.769% , i=1,2,3,4设第m种产品的去污效能的综合函数指标为Fm,以每个主成分所对应的方差贡献率作为权重计算主成分综合模型,令F为不同产品的去污效能的综合函数指标矩阵,则有:4F 八 Fii,i=1,2,,4i £终上所述,可得去污效能的综合评定值一般模型为:F 二W A根据主成分综合模型即可计算综合主成分值,并对其按综合主

16、成分值进行排序, 即可对各种洗衣粉的效能进行综合评价比较,本文仅列出了排在前20名的洗衣粉及排 在后20种洗衣粉的综合效能值。具体所有排序结果见附录。排名12345678910Treatme nt442622732719103643综合效能6.47125.12494.89774.51614.11714.08363.7873.60243.59023.4543排名11121314151617181920Treatme nt2328478324129334249综合效能2.92122.84712.54852.51452.49492.49442.29832.18411.3681.2296排名67686

17、970717273747576Treatme nt203523055211651837综合效能-0.217-1.166-1.37-1.5-1.521-2.154-2.559-2.587-2.645-2.764排名77787980818283848586Treatme nt14342563115440538综合效能-3.463-4.687-6.09-6.606-6.665-6.927-7.656-7.947-8.128-12.262、产品溶液属性综合指标 Q:设Bk表示第k种属性的特征向量,则有:B=Bl;B2;B3;B4;B5;Bi=0.23,-0.09,-0.09,0.14,0.1,0.15

18、,0.18,0.21,0.22,0.18,0.24,0.250.13,0.26,0.26,0.24,0.25,0.28,0.24,0.31,0.3;B2=-0.18,0.44,-0.18,0.51,0.53,0.1,0.03,0.23,0.020,-0.05 0.05,0.040.05,0.1,-0.17,-0.18,-0.13,-0.18,0,-0.04;B3=-0.09,0.13,0.1,0.05,0.07,-0.25,-0.21,-0.26,-0.32,0.52,0.07,0.060.59,0.06,0.01,0.14,0.03,0,0.11,-0.08,-0.12;B4=-0.03,-

19、0.26,0.65,0.2,0.26,0.32,0.25,-0.01,-0.02,0.01,-0.28,-0.230.11,-0.13,-0.1,0.18,-0.13,0.03,0.16,-0.02,0.04;B5=-0.07,0.33,-0.35,-0.11,-0.13,0.38,-0.2,0.05,0.1,0.01,-0.3,0.040.08,-0.34,-0.23,0.38,-0.09,0.11,0.32,0.02,0.03设G表示产品溶液属性标准化矩阵(数据见附件),即:a11G =:iam1a1j-,j =1,2,,21; m =1,2,,86amj j其中amj表示第m种产品对第j

20、种溶液属性的标准值。 设Qk表示第k种主成分的不同产品的标准值矩阵,则有:Qk 二 G BkT,k=1,2,3,4,5设第k种主成分的贡献率为;,则有:二42.596%,11.784%,9.253%,6.673%,6.528% ,k=1,2,,5设第m种产品溶液属性的综合函数指标为Qm,令Q为不同产品的溶液属性的综合函数指标矩阵,则有:5Q =為 Qkk,k=1,2,,5k d终上所述,可得溶液属性的综合评定值一般模型为:Q=G Bt根据主成分综合模型即可计算综合主成分值,并对其按综合主成分值进行排序, 即可对各种洗衣粉的属性进行综合评价比较,本文仅列出了排在前20名的洗衣粉及排 在后20种洗

21、衣粉的综合属性值。具体所有排序结果见附录。一、相关性分析对上述主成分分析所得出的综合属性评定值和综合效能评定值进行相关性分析,以确定能够基于产品的综合属性数据对产品的综合功效做出比较可靠的预测。1、图示法10.00K"-200DC0-15.0000-10.0000-5.D000O.QODO练名属性5 000010.000010#上图是87种洗衣粉所对应的综合属性及综合效能。图示法直接反映出了 87仔细粉 的综合属性和综合效能值,从上图可以直观看出标签为31、38、85的这些品种洗衣粉的品质较差,而标签为23、51、60的这些品种的洗衣粉的品质较好。 再仔细分析上图, 发现综合属性及综

22、合效能之间有一定的线性关系。如标签为5、31、38的这些洗衣粉,其综合属性值较小,综合效能值也较小,再如标签为10、19、28的这些洗衣粉,其综合属性值较大,综合效能值也较大。基于上面的分析,本文猜想洗衣粉的综合属性及综 合效能存在线性关系。2、计算相关系数法由于图示法只能直观的体现出各品种洗衣粉的品质, 而不能量化洗衣粉的综合属性 和综合效能间的线性关系。故本文通过用 SPSS统计软件用计算相关系数法对两者的相 关性进行再次量化确认,的如下相关性表:相关性综合属性综合效能综合属性Pearson相关性显著性(双侧)N186.306 *.00486综合效能Pearson相关性显著性(双侧)N.3

23、06 *.00486186*.在.01水平(双侧)上显著相关。从上表中可以看出,属性综合属性和综合效能之间的Pearson相关系数为0.36,该相 关系数的显著性值为0.04,小于0.1,即属性综合属性和综合效能之间的线性关系显著。 即该结果证明了本文上述的猜想。3、线性回归分析由于属性综合属性和综合效能之间的Pears on相关系数比较大,且两者的线性关系显著,故接下来就是应用回归分析的方法来找出两者之间的关系。由SPSS统计软件回归分析得回归分析模型如下:Y =0.516X1 0.09由如下系数表可以看出,综合属性的显著性值为0.004,小于0.05,即说明该系数显著区别于零。常量的显著性

24、值大于 0.05,即该项不显著。上述模型拟合的相对平均误 差为1.03。系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量).090.549.164.870综合属性.516.175.3062.941.004a.因变量:综合效能从模型拟合优度检验An ova表中的F检验的显著性值为0.04,小于0.05,表明一元线 性回归模型显著。但从模型汇总表里所给出的线性回归决定系数, 氏=0.093,说明该线性 模型只能解释自变量9.3%的变差,拟合效果较差。详表见附录二、灰色理论GM(1,22)预测模型:1、模型二的建立:基于21种溶液属性对每种去污功效的影响,我们以21种溶液属性当变量,

25、每种去污功效单独当因变量,分别建立 GM(1,N)和GM(0,N)预测模型。设系统有22个行为因子,即原始数列为Xi =(xi (1),xi (2),xi (n), i=1,2,22记Xi(1)为Xi(0)的AGO数列,即:xi=(xi(1),xi (2),xi (n)=(xi(1),xi(1)+ Xi(0)(2),Xi(1)+ xi(0)(n), i=1,2,,22k且有 Xj(k) = ' x® (j), k =1,2/ , n。j #取xi(1)的均值数列:Z1(k)=0.5xi(k)+0.5 X1(k-1), k=2,3,n则Z1=(Z1(1),Z1(2),Z1(n)

26、。于是可得到GM(1,22)的灰色微分方程为:22Xi(0) (k) +aZ!(1)(k)=送 bXi(k), k = 2,3,,ni 2其中xi(0)(k)为灰导数,Zi(1)(k)为背景值,a, bi (i =2, 3,22 )为参数。 如果对于一切时刻k=2,3,,n,弓I入向量矩阵记号:Y=xi(0)(2),xi(0)(3),xi(0)(n)T, u=a,b2,b3,b22T则GM(1,22)的灰微分方程为:Y=Bu其中丫为已知数据向量,B为GM(1,22)已知数据矩阵,u为参数向量。用u?表示u的估 计值,令f Y- Bu ?表示估计值的残差,根据最小二乘法,求使:/"t八

27、 t/"J(u)二; =(Y -Bu)T(Y -Bu)达到最小值的估计值u?。综上所述则有,GM(1,22)预测模型的一般表达式为:A(1)(1 22''i1 22X1 (k+1)=用)(0) _丄迟 bx(k+1) ek+丄瓦 biXi(k+1),k=-1,0,,n (1)Vay丿 a im其中X1(0)取为X1(1)。对(1)式进行1-IAGO还原,则有:(0) X1(k) = X1(k)X1 (k1)2、模型求解:令所有产品在污渍编号为118的去污功效分别为X1,令所有产品的溶液属性值按 其编号为121的依次作为X2,X3,,X22,再代入模型二即可求得溶液属性

28、对应每种去污功 效的预测表达式。首先以所有产品在编号为1的污渍上的去污功效作为X1,经分析发现X1的有些值之 间相差甚大,所以我们假设所有产品在编号为1的污渍上的去污功效达到平均值大小的 60%以上视为正常,即需要考虑该产品在这种污渍上的去污功效,又由于需要选取10个产品进行验证,所以我们采用随机抽样的方法,在编号为1的污渍上的去污功效达到平均值大小的60%以上的产品里选取10个产品作为对模型进行验证的值,再结合模型 二运用matlab编程(程序见附录)求解即有:§ 6 模型的误差分析、检验和进一步讨论、误差分析 二、模型的检验§ 7 模型的评价与推广三、模型的进一步讨论:

29、一、模型的优缺点1、优点:2、缺点:二、模型的推广:13参考文献1 米子川,统计软件方法 M,2002 年 5月,中国统计出版社 .2 张文彤,阎洁,SPSS统计分析基础教程M,高等教育出版社,2004.9.3 茆诗松,周纪芗,概率论与数理统计 ,北京:中国统计出版社 ,2000.7 第二版;4 胡守信,李柏年,基于MATLAB勺数学实验,北京:科学出版社,2004.6第一版;任建标译,数据、模型与决策 , 北京:中国财政经济出版社 ,2004.1 第二版。14PP4PP5010203040506PP4 Pearson 相关性.953 *-.037.056-.018-.098-.030.230

30、显著性(双侧)56.00056.78556.68456.89556.47356.82956.08856PP5 Pearson 相关性显著性(双侧)01Pearson相关性显著性(双侧)02Pearson相关性显著性(双侧)03Pearson相关性显著性(双侧)04Pearson相关性显著性(双侧)05Pearson相关性显著性(双侧)06Pearson相关性显著性(双侧)07Pearson相关性显著性(双侧)08Pearson相关性显著性(双侧)09Pearson相关性显著性(双侧)010 Pearson 相关性.953 *.00056-.037.78556.056.68456-.018.89

31、556-.098.47356-.030.82956.230.08856.024.86256-.044.74856-.213.11556-.19756-.058.67256-.035.79956-.150.26956-.185.17356-.123.36556.171.20756-.125.35856-.196.14856-.299.02556-.299-.058.6725686.036.74386.076.48986.811.00086.824 *.00086.855 *.00086-.008.93986.019.85986.797 *.00086.588-.035.79956.036.743

32、8686.866 *.00086.257.01786.191.07986.073.50586.814*.00086.792.00086.198.06886.358-.150.26956.076.48986.866 *.0008686.351.00186.293 *.00686.109.31686.939 *.00086.883 *.00086.320 *.00386.508-.185.17356.811.00086.257.01786.351.0018686.878 *.00086.746 *.00086.287 *.00786.345 *.00186.903 *.00086.724 *-.1

33、23.36556.824 *.00086.191.07986.293 *.00686.878.0008686.807 *.00086.246.02386.231.03286.886 *.00086.779 *.171.20756.855 *.00086.073.50586.109.31686.746 *.00086.807 *.0008686.066.54886.031.77586.726 *.00086.592 *16显著性(双侧).146.025.000.001.000.000.000.000N5656868686868686011Pearson相关性-.232-.337 *.573 *.

34、295 *.461 *.697 *.786 *.578 *显著性(双侧).086.011.000.006.000.000.000.000N5656868686868686012Pearson相关性-.233-.332 *.629 *.283 *.464 *.759 *.806 *.597 *显著性(双侧).084.013.000.008.000.000.000.000N5656868686868686013Pearson相关性-.200-.346 *.225*.569 *.752 *.579 *.532 *.207显著性(双侧).139.009.037.000.000.000.000.055N5656868686868686014Pearson相关性-.203-.358 *.197.577 *.771 *.558 *.515*.195显著性(双侧).134.007.069.000.000.000.000.071N5656868686868

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论