数学建模论文-酿酒葡萄与葡萄酒的评价.doc_第1页
数学建模论文-酿酒葡萄与葡萄酒的评价.doc_第2页
数学建模论文-酿酒葡萄与葡萄酒的评价.doc_第3页
数学建模论文-酿酒葡萄与葡萄酒的评价.doc_第4页
数学建模论文-酿酒葡萄与葡萄酒的评价.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 3776 所属学校(请填写完整的全名): 广东商学院 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号): 酿酒葡萄与葡萄酒的评价摘要对葡萄酒和酿酒葡萄的指标、质量进行评价对于发展葡萄酒行业和消费者都具有重要意义,本文就葡萄酒和酿酒葡萄的指标、质量进行研究分析。对两组评酒员对酒质量的评价差异以及评价结果可信度进行分析,选用t检验和非参数检验结合总-分-总的分析思路进行分析,首先对两组数据分别对红、白葡萄酒进行t检验,得到两组总分均值评价均无显著差异的结果,然后对每一个酒样品的所得总分进行t检验和参数检验,发现红葡萄酒样品12、23号以及白葡萄酒样品12、27的评价结果有显著差异。因此,两组评酒员在所有酒的总体评价是没有明显差异的,个别酒样品评价存在差异。最后对总体均值和方差稳定性进行分析,可知第二组的评价结果比较稳定,具有较高的可靠性。 考虑根据葡萄的理化指标和葡萄酒的质量对葡萄进行分级,首先选用系统聚类的最短距离法、最长距离法、ward法分别对酿酒葡萄进行分类,根据组内组间区别度对三者的结果进行比较选取,进一步考虑每一类别的葡萄酒质量分数均值大小,均值越大则等级越高,比较结果可知ward法的分类较优,特等的有10个,一等的有12个,二等的就有1个,三等的则有4个。 研究葡萄酒和酿酒葡萄的理化指标联系,选用逐步回归模型分别建立每一个葡萄酒的理化指标和葡萄理化指标之间的线性关系,在建立线性方程的同时逐步筛选出显著性不强的自变量,最后得到的17条线性方程分别描述了红、白葡萄酒指标和葡萄指标的函数关系。 分析葡萄酒和葡萄的理化指标对葡萄酒质量的影响,首先利用主成分分析法简化理化指标和芳香物质指标,进一步,利用多元线性回归建立理化指标和芳香物质对葡萄酒的质量的一个线性方程,从各指标系数的大小分析各指标在评价中所占的权重,可以得出:理化指标对酒质有重要影响,但芳香物质的权重比较大,红、白葡萄酒和葡萄的芳香物质权重之和分别占33.3%和28.13%,因此,不能光凭理化指标评价酒质,还需考虑芳香物质的影响。关键词:t检验 理化指标 聚类分析 逐步回归 主成分分析模型 多元线性回归 一、 问题重述1.1. 背景资料与条件确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。1.2. 需要解决的问题结合附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据,建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、 问题分析对于问题一,分析两组评酒员的评价结果有无显著性差异,把各单项所得分数之和作为单个评价人员对葡萄酒的质量评价。采用总-分-总的模型结构对两组人员的评分差异进行分析。考虑到本文所涉及的分析对象属于小样本,而小样本的正态性检验尤为重要,故先在总体上把两组红酒样本的评分均值选用t检验或者非参数检验进行差异性分析,再进一步对红、白葡萄酒的每种酒样品分别选用t检验或非参数检验进行差异性分析,得出每种酒的两组评分差异分析结果,最后对两组评价结果在红、白葡萄酒的变异系数与方差稳定性关系进行分析,从而判定哪一组的结果是可信的。对于问题二,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。考虑到系统聚类分析就是将性质比较相近的两类合并为一类,并不断合并最终得到几个比较合理的类别。故本文先根据葡萄的理化指标选用聚类分析把葡萄进行分类,把多个按照不同分类原则(不同的距离计算的聚类方法以及度量标准)分类所得的结果进行比较,选取最切合实际情况的分类情况,再结合葡萄酒的质量对已分类的类别进行等级评定。对于问题三,分析酒和葡萄的理化指标的联系,首先考虑的是能否建立精确的线性关系,而逐步回归模型既能建立多变量的线性关系也能在建立过程不断对自变量进行检验筛选,故选择逐步线性回归模型分别对每一个葡萄酒的理化指标和所有的葡萄理化指标进行回归分析,建立线性关系,在建立的同时对显著性不大的葡萄指标进行淘汰。以上分析均对红葡萄酒和白葡萄酒分别进行。三、 基本假设1)假设问题一的评价分数只受评价人员和酒的差异影响;2)假定;3)评酒员在对葡萄酒进行品尝后对其分类指标打分并求和,所得的总分可视为葡萄酒的质量。四、 符号说明:第类葡萄酒第组评酒员打分的组数:第类葡萄酒第组评酒员打分总评的标准差:第类葡萄酒第组评酒员打分总评的均值:第类葡萄酒第组评酒员打分总评的样本方差:两样本均值差的抽样分布方差:第类葡萄酒第组评酒员打分的变异系数:最短或最长距离:回归平方和:加入第个变量的平方和:残差:总样本数:现有自变量数五、 模型的建立与求解5.1问题一先对红、白葡萄酒分别进行总的差异性分析(把各个酒样本的平均分作为个体),再局部到每一个酒样品的两组评价结果差异分析,最后再结合总体综合均值和方差稳定性来确定评分比较可靠的一组。根据这样的总-分-总形式构造以下两个模型对问题一求解。5.1.1 模型一:基于t检验和非参数检验的评分差异分析模型(一)模型建立及求解模型思想1:本文将每类葡萄酒两组评分分成两个总体,通过t检验对两个样本总体数据进行差异显著性分析,前提必须满足三个条件:两个样本要满足正态分布;两个样本的方差齐性;两个样本要相互独立,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响。从而提出原假设,构建一个t分布求得拒绝域,根据拒绝域判定原假设是否成立,得出两组评分有无显著性差异。1.正态性检验 正态性检验:根据表1,并且,选用建立在次序统计量基础上的夏皮洛-威尔克检验方法进行检验,可以选用spss软件计算出统计量W的值,最后根据求得的概率值与进行比较,如果比大则符合正态性分布,否则拒绝原假设。表1 正态性分布检验的方法比较检验方法适用情况Pearsons Chi-square检验所需数据量大Kolimgorov-Smirnov(K-S)不依赖分组,只适用大样本数据Shapiro-Wilk(S-W)对小样本比K-S更可靠2方差齐次性检验提出原假设:两总体方差相等即,并选择Levene检验方法,根据最终求得的P值与进行比较,若P0.05,则满足方差齐次性,否则不满足方差其次性。在不满足方差其次性的情况下则舍弃式选择式。3. 两独立样本t检验 (1)提出零假设两独立样本T检验的原假设为:两总体均值无显著差异。表述为: 分别为第类葡萄酒中第一组和第二组酒总评分的均值。(记第1类葡萄酒为红葡萄酒,第2类为白葡萄酒)(2)选择检验统计量对两总体均值差的推断是建立在来自两个总体样本均值差的基础之上的,也就是希望利用两组样本均值的差去估计量总体均值的差。因此,应关注两样本均值的抽样分布。当两总体分布分别为和时,两样本均值差的抽样分布仍为正态分布,该正态分布的均值为,方差为。在不同的情况下,有不同的计算方式。第一种情况:当两总体方差未知且相等,即时,采用合并的方差作为两个总体方差的估计,数学定义为 式中,分别为第类葡萄酒中第一组和第二组酒样本的方差;,分别为第类葡萄酒中第一组和第二组样本的样本数。此时两样本均值差的抽样分布的方差为 第二种情况:当两总体方差未知且不相等,即时,分别采用各自的方差,此时两样本均值差的抽样分布的方差为: 于是,两总体均值差检验的检验统计量为统计量,数学定义为: 在第一种情况下,统计量服从个自由度的分布;在第二种情况下,服从修正自由度的分布,修正的自由度定义为 由于各分类指标进行加总求均值之后消除了每种酒样品之间以及每种酒样品中每位评酒员评价总分之间的个体差异性可能导致两组不存在显著性差异。 表2 正态性检验Shapiro-Wilk统计量dfSig.红葡萄酒1.92527.053红葡萄酒2.98027.868白葡萄酒1.97927.537白葡萄酒2.95127.223表3 独立样本检验方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值标准误差值差分的 95% 置信区间下限上限红假设方差相等3.939.0521.59352.1172.566671.61079-.665615.79895假设方差不相等1.59339.983.1192.566671.61079-.688905.82223应用模型一将每类葡萄酒的每个评价员的两组评分分成两个总体,通过t检验对两个样本总体数据进行差异显著性分析,前提仍必须满足三个条件。 下边以红葡萄酒样品1为例进行t检验1.T检验的图片:对红葡萄酒样品1的第一组评价质量分数进行K-S正态性检验结果如表1-3. 从表1可知,在红葡萄酒1的第一组人员的评价中可以看到,在10个评价结果当中没有一个人的评价结果缺失率是0%,即没有人的评价结果是被排除的,就是说十个人的评价结果都是有效的。表4 红葡萄酒样品1的描述 统计量标准误红1均值62.703.048均值的 95% 置信区间下限55.81上限69.595% 修整均值62.67中值61.50方差92.900标准差9.638极小值49极大值77范围28四分位距19偏度.057.687峰度-1.1671.334 如果某分布的偏度和峰度均为0时,则该分布呈正态,若偏度0时,分布呈正偏态,偏度0曲线比较陡峭,峰度0,峰度0.05,所以可以说明该分布服从正态分布。通过正态性检验可以得到除表6不符正态性的样本外其他样本都符合正态性检验表6 不符正态性的样本正态性检验红14白3白21白28红二4红二11Sig.0.031 0.001 0.019 0.046 0.047 0.008 正态性检验白二2白二3白二9白二12白二21白二25Sig.0.040 0.008 0.005 0.032 0.001 0.001 对表 不符正态性的样本进行对数转换,设为不符正态性的每种酒样本每个评酒员的打分总评,对其进行对数转换,即将转换为后,对再一次进行正态性检验及t检验,正态性检验结果见表7 表7 正态性检验正态性检验红4红11红14白2白3Sig.0.350840.0985370.0517150.002410.001336161正态性检验白9白12白21白25白28Sig.0.0054840.0184248.93E-050.000390.228422586由表可知白2、白3、白9、白12、白21、白25的P值小于0.05,仍然不具有正态性则用非参数秩和检验判定显著性差异,见图1;通过判定可用t检验之后要进行方差齐次性检验,从而确定两组之间有无显著性差异。详细流程见图2。图1 非参数秩和检验判定Y建立2个独立总体开始结束建立假设NYN建立统计量t解出拒绝域是否具有显著性差异方差齐次性检验?服从正太分布?进行非参数秩和检验图2 T检验详细流程5.1.2模型二:基于均值和方差的评价结果可靠性分析模型(一)模型建立先对红葡萄酒中所有酒样品的10个评酒员总评求得第一组均值、标准差分别为、及第二组均值、标准差分别为、,这里引入变异系数即标准差与均值的比值(见式子),反映单位均值上的离散程度,即可通过比较红葡萄酒两组评酒员总评的变异系数,根据变异系数越小,则该组越稳定,进而表明其可信度越高原则,判定这两组的可信度;同理可解得白葡萄酒第一二组均值、标准差以及各组的变异系数并判断白葡萄酒两组中哪一组更可信。 (二)模型求解通过Excel软件处理数据,得红白葡萄酒各种酒样品的均值、标准差以及变异系数【附录3】,进而解得红白葡萄酒的变异系数,见表 ,从表中可以知道且,即不管是红葡萄酒还是白葡萄酒,第一组的变异系数明显大于第二组的,也就是说第二组明显比较稳定,可信度比较高。表8 红白葡萄酒的变异系数第一组第二组红葡萄变异系数2.802.17白葡萄变异系数4.052.635.3问题三5.3.1 基于逐步回归对指标间联系进行分析的模型模型思想:白葡萄酒和红葡萄酒的分析方法是一样的,所以以下建立的模型只是针对红葡萄酒而言的,白葡萄酒可以用一样的方法代进相应的数据进行分析。把附件2的数据分成两部分,一部分用来做逐步线性回归,一部分用于对求得的线性方程进行检验。用逐步回归模型建立起酒的理化指标和葡萄的理化指标线性关系,利用附件2的指标数据,选用逐步法进行如下循环:引进对因变量(酒的理化指标)影响最大的自变量(葡萄的理化指标),对变量进行检验,最小的则被移除。进行这个循环直至不能引入和移除变量为止。根据逐步回归建立起来的方程用附件2的数据进行检验,确定模型的可用性。引入第k个葡萄酒的理化指标作为因变量,进而进入自变量,其中对第k个因变量当引入第j个自变量时,需要进行选择决策,选择依据为:k=1,2,8 对尚未入选成为自变量的变量计算,若满足,则改变量可以进入线性方程的计算,成为自变量。在一个自变量入选后对线性方程里原有的自变量进行淘汰决策,选择依据和入选的过程相反,但检验过程一样。即选择依据为:k=1,2,8对在第j个自变量入选之前的自变量计算,若当中的其中一个自变量满足,则淘汰,此变量不再具有自变量(对于改因变量而言)的资格。在对自变量进行筛选后进行线性回归分析,选用最小二乘法进行系数求解。求解出具有以下形式的8个红葡萄酒理化指标与葡萄理化指标线性方程:k=1,2,8对式,如果在循环过程中被淘汰,则对应的系数为0。5.3.2 模型的求解先对数据进行预处理,把测试多次的数据进行均值处理,因为一级指标就把二级指标的特性概括了,所以二级指标不给予考虑,只考虑红葡萄酒和葡萄的一级指标的关系。对数据进行预处理后各符号代表的意义如表9和表10:其中x(i)表示,y(i)表示表9 预处理后的葡萄的指标指标氨基酸总量蛋白质VC含量花色苷酒石酸苹果酸符号(x(i)123456指标柠檬酸多酚氧化酶活力褐变度DPPH自由基总酚单宁符号(x(i)789101112指标葡萄总黄酮白藜芦醇黄酮醇总糖还原糖可溶性固形物符号(x(i)131415161718指标PH值可滴定酸固酸比干物质含量果穗质量百粒质量符号(x(i)192021222324指标果梗比出汁率果皮质量果皮颜色果皮颜色果皮颜色符号(x(i)252627282930 表10 预处理后的红葡萄酒的指标指标花色苷单宁总酚酒总黄酮白藜芦醇DPPH半抑制体积色泽L*(D65)色泽a*(D65)色泽b*(D65)符号(y(i)123456789根据逐步回归的原理,利用表9和表10的数据用matlab选用逐步回归的求解函数Stepwise(x,y,n,a)函数对逐步回归模型的线性方程进行求解,其中取置信水平为a=0.05,求解详细程序见【附录3】。初步求解的红酒花色苷指标对应葡萄的花色苷、苹果酸、国花质量指标的关系结果如下:(2)对于(2)式,在求解的过程中的F值是递增的,即说明在逐步回归过程中是逐步优化的,而不会出现因为引入了新变量或是剔除变量导致线性方程和实际有很大的出入。由于Stepwise函数并不给出常数项,可以通过数据估计求解。求解公式为:很据上述求解公式用excel进行数值统计求解,把求解所得的常量代回方程得最终红葡萄酒指标和葡萄指标线性关系见表11:表11 红葡萄酒指标和葡萄指标线性关系表i的取值线性方程组123456789 结果分析:红葡萄酒的指标和葡萄指标之间的各个线性方程可以看出,葡萄指标并不是所有指标都是对红葡萄酒的指标起作用的,所以建立起来的线性方程主要反映出葡萄理化指标里对葡萄酒理化指标影响比较显著的关系,关系不显著的指标,一部分被隐含在显著性强的指标里,一部分对葡萄酒指标几乎没影响的就被剔除了。对白葡萄酒和白葡萄的分析过程是类似的,分析结果见【附录4】5.3问题三5.3.1基于聚类分析的葡萄等级划分模型模型思想:结合题目附件2的葡萄理化指标数据,先选用不同分类原则的聚类分析对葡萄进行分类,其中分类原则考虑了聚类的方法和度量标准两个的影响而选取了6个分类原则的组合进行求解,把分类结果和实际情况进行按照定义的标准进行对比,得出一个比较符合实际情况的分类,再结合问题一的求解结果,把各个类别的葡萄品种对应的葡萄质量均值进行对比,根据数值大小进行等级划分。聚类分析对葡萄进行分类先对相似度量的方法(距离的类型)以及度量的标准进行选择。如果只是选用一个距离和度量的标准,则难以进行结果比较检验。本文选用了最常用的操作简单的最短距离法,最长距离法,以及分类效果比较好的ward法(离差平方和法)对葡萄进行分类,并根据三个聚类分析法的求解结果进行比较,最后选取一个比较合理的分类方案。而聚类分析的度量准则则选取比较有代表性和权威性的Euclidean距离和平方Euclidean距离。最短距离法聚类步骤如下:1,规定红葡萄酒的27个样本间的距离,计算样本两两之间的距离,得到对称矩开始每个葡萄酒样品自成一类。2,选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为: 其中pij3,将这两个样品归并成为一类,记为,计算与其他样品距离。重复以上过程直到所有样品合并为一类。最长距离法聚类分析和ward法聚类分析和最短距离法聚类分析的过程相差无几,只是对应的距离有所改变:最长距离法: 其中pijWard距离相对最短距离和最长距离的计算会比较复杂: 如果,则距离改为: 求得葡萄的各个分类方案之后,结果之间进行比较,因为组内距离小,组间距离大这样的特征就是好的分类所必须有的。所以定义一个指标,作为方案选择的评价指标:组内组间区别度=组内最小距离/组间最大距离距离指标越大则说明分类效果越好,反之则说明分类不是很好。通过题目附件1的数据和问题一的结论求解出比较具有可信度的红、白葡萄酒质量(以分数衡量)。按照葡萄的分类,分别把每个类别的葡萄样品所对应的葡萄酒样品的分数求均值,并以此作为分级的指标,均值越大者的级别越高。5.3.2 模型的求解对附件1数据结合问题一的结论对葡萄酒质量进行预处理,预处理结果如表1。表12 质量分析序号1234567891011121314红葡萄酒质量65.477.1577.569.972.769.2568.469.1579.8571.565.8568.371.772.8白葡萄酒质量79.957576.978.1576.2571.9575.8571.8576.6577.0571.8572.469.974.55序号1516171819202122232425262728红葡萄酒质量62.272.476.962.6575.677.5574.6574.477.174.7568.772.972.25/白葡萄酒质量75.470.6579.5574.974.377.277.875.276.6574.778.377.87780.45用聚类分析原理对葡萄分类,可以用SPSS软件结合聚类分析的原理按照以下操作求解:导入数据分析分类系统聚类方法区间分别选择平方Euclidean距离和Euclidean进行操作,比较结果。用SPSS求解出来的所有结果图2。图3 聚类树状图针对这三个聚类分析方法和度量标准的组合形成的五个结果进行比较,比较结果如表13,从表1可知,因为ward平方Euclidean距离方法的组内组间区别度明显比其他五个结果的要少,则说明ward平方Euclidean距离方法做出来的结果组内距离比较少,组间距离比较大,所以最终选择ward平方Euclidean距离方法的结果。根据ward平方Euclidean距离方法所得的结果进行等级划分,结果如表2,从表2可知,红葡萄的等级划分结果中,三等的只有4号葡萄样品,而特等的则有1,2,3等共计10个样品,一等则有12个样品,二等则有4个样品,从这些信息可以反映出大多数的酿酒葡萄的等级是比较高的,和第一问的葡萄酒的质量评定结果相吻合。5.4问题四5.4.1主成分分析模型模型思想:主成分分析(principal components analysis, PCA)是一种简化数据集的技术,也被称为主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,本文就是利用主成分分析降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。主成分分析法代数模型4假设用p个变量来描述研究对象,分别用X1,X2Xp来表示,这p个变量构成的p维随机向量为X=(X1,X2Xp)t。设随机向量X的均值为,协方差矩阵为。对X进行线性变化,考虑原始变量的线性组合:Z1=11X1+12X2+1pXpZ2=21X1+22X2+2pXp Zp=p1X1+p2X2+ppXp主成分是不相关的线性组合Z1,Z2Zp,并且Z1是X1,X2Xp的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,Zp是与Z1,Z2 Zp-1都不相关的线性组合中方差最大者。模型的求解: 在SPSS19.0软件中可以方便地实现主成分分析的方法。具体操作如下:以红葡萄的理化指标为展示,可以得到如表一的成份矩阵: 表13 红葡萄理化指标的成份矩阵成分1成分2成分3成分4成分5成分6成分7成分8成分9氨基酸总量0.3590.5440.0280.446-0.120.4060.027-0.0810.078蛋白质0.618-0.4920.1860.2480.2490.0950.084-0.1260.038VC含量-0.138-0.4070.0690.013-0.570.086-0.0560.1670.578花色苷0.853-0.085-0.08-0.2850.009-0.246-0.0290.0940.04酒石酸0.3690.1070.4110.3620.3360.0520.077-0.5440.087苹果酸0.3820.3320.193-0.646-0.093-0.394-0.030.154-0.008柠檬酸0.2970.1950.429-0.3930.304-0.0170.152-0.4810.226多酚氧化酶活力0.3190.085-0.254-0.6210.3330.227-0.0130.143-0.011褐变度0.601-0.0820.051-0.702-0.0550.018-0.1360.10.072DPPH自由基0.766-0.4420.0060.212-0.041-0.020.2780.077-0.186总酚0.871-0.144-0.1380.24-0.066-0.1530.0710.101-0.241单宁0.769-0.126-0.252-0.047-0.246-0.1230.263-0.0850.092葡萄总黄酮0.731-0.256-0.1490.301-0.052-0.2450.2330.053-0.272白藜芦醇0.042-0.0790.8110.043-0.2660.1160.340.2560.041黄酮醇0.5610.0230.011-0.115-0.0210.6620.2820.040.091总糖0.2430.793-0.1230.2460.1270.057-0.0090.3110.031还原糖0.0670.772-0.090.1220.1460.078-0.0750.0820.124可溶性固形物0.240.773-0.2860.1360.1360.0420.0170.257-0.03PH值0.261-0.3080.1840.6620.1580.091-0.2790.3020.189可滴定酸-0.2950.468-0.590.027-0.374-0.0690.296-0.1860.009固酸比0.387-0.0470.464-0.0320.514-0.107-0.2820.2720.037干物质含量0.3630.867-0.1570.0860.1010.0370.0560.0350.12果穗质量-0.318-0.45-0.2010.0430.554-0.1850.2830.0460.29百粒质量-0.506-0.346-0.4660.0740.217-0.1760.3110.1390.011果梗比0.571-0.2230.141-0.22-0.2760.496-0.107-0.051-0.075出汁率0.557-0.157-0.2230.213-0.106-0.401-0.0310.10.396果皮质量-0.083-0.227-0.552-0.240.3010.3680.4630.1740.125果皮颜色L-0.563-0.3550.26-0.0770.1490.3330.0410.284-0.165果皮颜色a-0.3580.2580.7380.019-0.117-0.0840.3690.203-0.044果皮颜色b-0.1620.4830.638-0.0480.014-0.3170.4280.0850.0285.4.2多元线性回归模型 模型思想:考虑葡萄酒质量的影响因素中,葡萄酒的质量不止受到一个变量的影响。例如,葡萄酒和酿酒葡萄的理化指标、葡萄酒和酿酒葡萄的感官指标等都会影响葡萄酒的质量。用多元线性回归模型恰能体现出各指标与葡萄酒质量的关系。模型的建立:按照题意,设置4个自变量:、分别代表标准化后的(红/白)各酒样本对应酿酒葡萄理化指标的主成分均值、标准化后的(红/白)各酒样本对应葡萄酒理化指标的主成分均值、标准化后的(红/白)各酒样本对应酿酒葡萄芳香物质的主成分均值、标准化后的(红/白)各酒样本对应葡萄酒芳香物质的主成分均值。因变量为Y,含义是对问题一求解出的(红/白)各酒样本的可靠性分数进行标准化后的向量。、分别是、的系数。常数项设为B。数学表达式为:Y=*+*+*+*+B模型二的求解:首先,要求出模型中的、向量。同样以红葡萄理化指标为例,不妨设表13中的数据为矩阵A,A反应了各主成分与指标(氨基酸总量、蛋白质、VC含量)之间的关系;数据处理后的矩阵设为B,则B反应了指标与各种酒样本的关系。因此B*A的转换体现出各主成分与各酒样品的关系。对B*A矩阵的酒样品求主成分均值,再对所得列向量进行标准化,即可得到红葡萄理化指标的向量。 同理,(红/白)葡萄的向量、皆可求出。具体计算结果可参照表3:表14:多元线性回归模型求得的样本值表红白X1X2X3X4YX1X2X3X4Y-0.2062.441-0.4562.520-1.406-0.844-0.348-0.321-0.5821.558-0.1081.336-0.4470.6701.132-0.178-0.628-0.420-0.855-0.2353.8690.961-0.338-0.5641.2082.9631.210-0.3941.6640.453-0.169-0.217-0.367-0.463-0.434-0.118-0.436-0.219-0.4480.906-0.3520.126-0.327-0.0500.1710.636-0.468-0.306-0.0410.2170.660-0.601-0.3320.346-0.574-0.206-0.6271.062-0.653-1.340-0.013-0.683-0.396-0.814-0.758-0.3781.282-0.019-0.9200.072-0.2622.374-0.366-0.189-0.596-0.820-0.471-0.441-0.306-1.376-0.0110.946-0.169-0.1951.716-0.230-0.893-0.1201.4690.362-0.723-0.903-0.304-1.103-0.0880.1990.301-0.759-0.5750.5070.010-1.463-0.343-1.165-1.308-0.3970.369-0.526-0.389-1.3760.126-0.6174.2412.257-0.779-0.3280.3433.348-0.846-1.177-0.578-0.3301.285-0.303-0.045-1.4820.582-0.433-1.551-2.083-0.6520.298-0.396-1.3390.193-0.0970.7042.8631.018-0.398-0.177-0.784-0.2480.403-2.0970.6550.209-0.6540.055-0.091-0.531-0.597-0.398-0.6810.106-1.171-0.066-0.043-1.949-1.811-0.389-0.041-0.4260.8511.078-0.986-0.590-0.616-0.3741.4130.001-0.885-0.247-0.603-2.000-0.7780.959-0.766-0.872-0.2720.048-0.289-0.316-0.4190.798-1.453-0.6211.2700.297-0.489-0.129-1.170-0.307-0.4831.219-0.0130.040-0.3790.8710.5612.4810.7451.887-0.4800.5920.750-0.679-0.3241.0650.7790.1080.059-0.2341.7850.538-0.800-0.742-0.1920.796-0.163-0.0101.178-0.4040.2101.1220.303-1.4100.2051.6030.362-0.476-0.095-0.4200.7150.6141.1931.732-0.7980.762-0.344-0.709-0.719-0.403-1.014-0.6930.415-0.003-0.070-0.0050.960-0.981-0.2840.162-0.6960.214-0.074-1.511-0.048-1.3530.779-0.828-0.7840.0690.8060.0741.5612.984-0.8061.4090.4891.677-1.220-0.0940.7111.739运用matlab软件中的regress函数求解出多元线性回归模型的表达式。代码为:B = regress(Y,ones(size(Y),X1,X2,X3,X4)所求系数为:红白0.16150.2502-0.0525-0.108700.3583-0.3534-0.24200.21940为了更好地对各系数进行比较和分析,对所求的系数取绝对值后再归一化,得到表3: 表3:绝对值、归一化处理后系数值表红白0.28190.43680.09150.189800.30540.30130.20630.20630从表3可以看出,由于、Y都是经过标准化处理的,他们之间的关系属于无量纲化。因此,Y的值和系数K关系很大。X的值稍微变化,K值越大,Y的变化就会越大。可得,系数K的值可以反映出、对Y的影响。经过分析可以得出以下结论:(1)由于归一化后各所占的比例都落入到0.2,0.4区间范围内,差异不大,所以酿酒葡萄的理化指标、葡萄酒的理化指标、酿酒葡萄的芳香物质(感官指标)、葡萄酒的芳香物质(感官指标)对葡萄酒的质量影响相当。(2)由于酿红酒葡萄的理化指标比例+红葡萄酒的理化指标比例=71.87%,酿白酒葡萄的理化指标比例+白葡萄酒的理化指标比例=60.67%.这反应了葡萄酒和酿酒葡萄的理化指标对葡萄酒的质量起着主要的影响。但是,不能仅仅依靠葡萄酒和酿酒葡萄的理化指标来评价葡萄酒的质量,这样会产生比较大的误差。如需更准确地判别葡萄酒的质量,还需要把芳香物质考虑进去。(3)由于对于白葡萄酒和红葡萄酒来说,常数项B都等于O,所以也验证了葡萄酒的质量是由理化指标和感官指标决定的。六、 模型的评价及优化1.1.1. 模型的优点对于第一问的模型从总体到局部细致分析再从总体的均值和方差分析稳定性,考虑的很周全。第二问的聚类分析进行多个方法对比得出的结果比较这一步做得很合理,第三问的逐步回归建立起来的线性方程既考虑到自变量的显著性,考虑得比较全面,第四问选用多元线性回归模型求解出来的结果具有精确性,减少了主观性带来的误差。1.1.2. 模型的缺点 第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论