版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模课程设计题目:学院:专业:班级:姓名:学号:指导教师:实验日期:摘要本文针对葡萄酒的质量分析与评价问题,以置信区间、优势矩阵、逐步回归分析等方法和方差分析理论为基础,首先分别构建了以评酒员和样酒为组别的方差数据序列,通过进行双向显著性检验,接着通过置信区间法处理的数据进行了方差分析,并确定可信的评价组别。然后以评酒员感官评价为主、葡萄酒的理化指标为辅,采用回归分析、聚类分析、判别分析法建立葡萄分级模型,继而使用相关系数矩阵确立葡萄酒与葡萄理化指标中具有较大相关性的指标,实现对葡萄理化指标的初步筛选,进行等级划分。再利用逐步回归的方法拟合酿葡萄酒理化指标与葡萄理化指标间一对多的函数关系得出二者之间的联系。最后通过上文函数关系,同时提取对香气与口感评分相关度较大的芳香物质,建立芳香物质与葡萄酒质量的函数关系,论证葡萄和葡萄酒的理化指标只在一定程度上对葡萄酒的质量有影响。关键字:双向显著性检验;方差分析;置信区间;聚类分析;标准化;一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的一级理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的一级理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的一级理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的一级理化指标来评价葡萄酒的质量? 附件1:葡萄酒品尝评分表(含4个表格)附件2:葡萄和葡萄酒的一级理化指标(含2个表格)附件3:葡萄和葡萄酒的芳香物质(含4个表格)二、问题分析问题一的分析根据题意,葡萄酒的质量评价是通过评酒员的品评进行评分从而得到评价的,考虑到评酒员之间可能存在个人评酒风格等主观差异因素,若不同评酒员之间的主观因素差异过大,可能导致不同评酒员对于同一葡萄酒样的评价差异悬殊,影响酒样的质量鉴定,因此,需要对主观因素的影响程度进行检验。可采用方差分析对数据序列进行处理,通过将方差分析中的检验量与显著性水平F的检验值相比较从而验证差异性是否显著。针对问题二首先我们结合问题一的结论(第二组的的的评价结果比较可靠),所以葡萄酒质量的评价结果就直接引用第二组,再结合酿酒葡萄的一级理化指标,进行主成分分析,得到十种主成分。然后通过聚类分析的原理,在SPSS实现对酿酒葡萄的分类。针对问题三首先,我们分析酿酒葡萄与葡萄酒一级理化指标的数据发现一级理化指标基本相同,于是把相同的一级理化指标挑选出来。由于酿酒葡萄的一级理化指标远和葡萄酒的一级理化指标的单位不一致,我们可以通过MATLAB对所选出的一级理化指标进行标准化。然后在excel中对选出的标准化的一级理化指标之间进行数据分析。从而得出葡萄酒一级理化指标与酿酒葡萄的一级理化指标图形,分析图形可得出葡萄酒一级理化指标与酿酒葡萄的一级理化指标的联系。针对问题四首先我们知道,葡萄酒的一级理化指标若理想,葡萄酒的质量就较高;但葡萄的一级理化指标理想,葡萄酒的质量不一定高。因此我们在MATLAB中,运用相关分析,分别计算出葡萄酒的一级理化指标与葡萄酒质量的相关系数、葡萄的一级理化指标与葡萄酒质量的相关系数。然后通过对相关系数的比较,分析葡萄和葡萄酒的一级理化指标对葡萄酒质量的影响。从而论证葡萄和葡萄酒的一级理化指标能否评价葡萄就的质量。三、符号的假设xij;表示评酒员对酒样的评价得分xi;表示第i位评酒员对全部酒样评分的σi:表示第i位评酒员对全部酒样评分的xj;表示编号为j的酒样得分的σj:表示编号为j的酒样得分的vij;表示评酒员对酒样的评分的标准化四、模型的建立与求解问题一的模型依据问题分折,考虑到评酒员间存在主观困素的差异,可能导致不同评酒员对于同一酒样的评价差异悬殊,影响酒样的质量鉴定,从而难以准确反映不同酒样间差异的显著性。基于此,首先对评价结果的原始数据进行方差分析,验证对主观因素的假设分析;再分别应用标准化处理法和置信区间法,对两组评酒员的评价结果进行数据处理,以真实反映酒样间质量的差异,并据此比较两种处理方法的优劣1、基于原始数据显著性差异分析分别对4组数据进行双向方差分析,以此减少误差方差,同时分析不同评酒员之间是否存在显著的主观性评分差异。利用Excel软件处理数据得到结果如表1所示表1:基于原始数据处理的葡萄酒评价方差分析差异源SSdfMSFP-valueFcrit第一组红葡萄酒行3172.549.00352.507.450.001.92列14017.6726.00539.1411.390.001.54差异源SSdfMSFP-valueFcrit第二组红葡萄酒行3060.779.00340.0915.450.001.92列4114.3426.00158.247.190.001.54差异源SSdfMSFP-valueFcrit第一组白葡萄酒行18023.939.002002.6633.490.001.92列7304.2727.00270.534.520.001.53差异源SSdfMSFP-valueFcrit第二组白葡萄酒行6725.109.00747.2324.560.001.92列2714.8127.00100.553.310.001.53表1中,SS表示误差平方和;df表示自由度;MS表示均方差;F表示显著性统计量;F-crit表示基于显著性水平为0.01的F统计量值。差异源中“行”表示以评酒员为“区组”,元素为单个酒样的评分方差数据序列;“列”表示以酒样为“区组”.元索为单个评酒员对全部酒样的评分方差数据序列。分析上表四组显著性检验数据,基于“行”与“列”的双向显著性差异检验中,八组数据序列的F统计量均大于基于显著性水平为0.01的F-crit,表示其差异性极显著。进一步比较数据大小可知,除第一组红葡萄酒评分的双向差异检验中“行区组”与“列区组”的差异性较为接近,另外三组的双向差异检验结果均表示“行区组”的差异性显著高于“列区组”,说明相较于各酒样之间质量造成的评价差异,评酒员之间因为主管因素在成的评价差异更显著。2、基于标准化处理的显著性差异分析公式:vij=利用Matlab软件对原始数据进行标准化处理,再对所得结果分别针对4组数据再次进行双向方差分析,所得结果如表2所示。表2:基于标准化处理的葡萄酒评价方差分析差异源SSdfMSFP-valueFcrit第一组红葡萄酒行0.209.000.020.051.001.92列152.3326.005.8612.730.001.54差异源SSdfMSFP-valueFcrit第二组红葡萄酒行0.009.000.000.001.001.92列118.3926.004.557.520.001.54差异源SSdfMSFP-valueFcrit第一组白葡萄酒行0.009.000.000.001.001.92列96.6827.003.585.020.001.53差异源SSdfMSFP-valueFcrit第二组白葡萄酒行0.009.000.000.001.001.92列76.1127.002.823.540.001.53分析表2数据得到,对于四组“行”序列评价的数据序列,其求解到的F统计量均接近于0,远小于基于显著性水平为0.01的F-crit,剩余四组“列”序列评价的数据序列的F统计量仍保持大于基于显著性水平为0.01的F-crit,表示差异性仍属于极显著。从数据层面上分析,相较于直接对原始数据进行方差分析得到的各序列的F统汁量,标准化处理后进行分析得到的“行”序列的F统计量显著减小另一方面“列”序列列应的F统计量数值上基本没有发生变化,数值上表示评酒员之间主观因素造成的评价差异已显著降低,而酒样之间质最差异的显著性则受影响不大。3、基于置信区间法的显著性差异分析置信区间法通过确定指标的置信区间,并对不隶属置信区间内的值进行逐步调整,进而使得同类别的数据最终均处于置信区间内。置信区间:m=xj公式:xij=x利用Matlab软件对数据进行处理。然后基于所得结果分别针对4组数据再次进行双向方差分析,所得结果如表3所示。表3:基于置信区间法的葡萄酒评价方差分析差异源SSdfMSFP-valueFcrit第一组红葡萄酒行1014.449.00112.727.740.001.92列14090.9626.00541.9637.220.001.54差异源SSdfMSFP-valueFcrit第二组红葡萄酒行775.689.0086.1910.230.001.92列3994.5626.00153.6418.230.001.54差异源SSdfMSFP-valueFcrit第一组白葡萄酒行6010.099.00667.7923.880.001.92列7464.8927.00276.489.890.001.53差异源SSdfMSFP-valueFcrit第二组白葡萄酒行1942.259.00215.8113.770.001.92列2581.9927.0095.636.100.001.53根据3结果可知,八组数据序列的F统计量均大于基于显著性水平为0.01的F-crit,表示其差异性极显著。相较于直接对原始数据进行方差分析得到的各序列的F统计量,基于置信区间法处理进行分析得到的“行”序列的F统计量整体上显著减小,同时“列”序列的F统计最整体上显著增大,数值上表示评酒员之间主观因素造成的评价差异已显著降低。同时酒样之间质量导致的评价差异则显著提高。相较于标准化处理后的个序列的F统计量,基于置信区法处理的各组数据序列的F统计量均通过了显著性检验,且数据处理上没有出现标准化处理导致的数值错误问题。4、结果的分析与讨论综合上述三种数据处理方法,结合方差分析的检验结果和分析,可得到基于置信区间法的数据处理方式载三种处理中最优,因此选取基于置信区间法处理的数据的方差分折结果作为评酒员的评价差异分析对象。考虑到显著性差异的比较中主要进行F统计量的比较,选取F及F-crit的数据整理得到表4。表4:F及F-crit的数据整理比较差异源FFcrit第一组红葡萄酒行7.741.92列37.221.54差异源FFcrit第二组红葡萄酒行10.231.92列18.231.54差异源FFcrit第一组白葡萄酒行23.881.92列9.891.53差异源FFcrit第二组白葡萄酒行13.771.92列6.101.53结论:基于表4的F统计量及F-crit进行数据比较,对于酒样为红葡萄酒的两组数据,由于酒样的数据序列一样,“行”区组和“列”区组的显著性水平位0.01的F-crit值一样。比较红葡萄酒评价结果的“行”区组F统计量,在F-crit相同的情况下,第一组的值为F=7.74196,小于第二组的值F=10.22737,则表示第二组评酒员因主观因素造成的酒样评价差异,相较于第一组评酒员更显著。再比较红葡萄酒评价结果的“列”区组F统计量,在F-crit相同的情况下,第一组的值为F=37.22496,大于第二组的值F=10.22737,则表示第一组评酒员因主观因素造成的酒样评价差异,相较于第二组评酒员更显著。综合两项差异比较结论,可得针对红葡萄酒的质量评价结果,第一组评酒员的评价结果更可信。同理,对于酒样为白葡萄酒的两组数据,比较白葡萄酒评价结果的“行”区组F统计量,在F-crit相同的情况下,第一组的值为F=23.87680,显著大于第二组的值F=13.77288,则表示第一组评酒员因主观因素造成的酒样评价差异,相较于第二组评酒员更显著。再比较白葡萄酒评价结果的“列”区组F统计量,在F-crit相同的情况下,第一组的值为F=9.88547,大于第二组的值F=6.10311,则表示第一组评酒员因主观因素造成的酒样评价差异,相较于第二组评酒员更显著。综合两项差异比较结论,可得针对白葡萄酒的质量评价结果,第二组评酒员的评价结果更可信。问题二的模型聚类分析的概念聚类分析是根据事物本身的特性研究个体分类的方法。在这里我们采用分层聚类中的凝聚法,即聚类开始把参与聚类的每个个体视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。模型的求解首先,对红葡萄进行分级。结合问题一的结论(第二组数据比较可信),所以葡萄酒质量的评价结果就直接引用第二组的评价结果,再对酿酒葡萄的一级理化指标进行主成分分析,得到十种主成分。再对十项主成分的系数求和。结合十项主成分的系数运用MATLAB中的聚类分析对酿酒葡萄进行分类,得到以下结果:等级优秀优良一般次品葡萄样品号5,17,24261,2,4,6,8,9,10,11,12,13,14,15,16,18,19,20,23,25,273,7同理可得到白葡萄酒的主成分系数及总和。对所得的主成分系数的总和进行聚类分析,得到下表:等级优秀优良一般次品葡萄样品号28211、2、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、22、23、24、25、26、273问题三模型模型的求解:按照问题一中数据标准化的处理方法,在excel中对葡萄酒和酿酒葡萄的理化指标相同的选项进行整理,然后在MATLAB中对这些数据标准化。在Excel中将以上数据绘制成图形:模型的评价与推广模型的评价模型的优点:本文首先依据数理统计的相关知识,在MATLAB中对两组数据进行单因子方差分析,快速而又直观地看出两组数据是否有显著差异性。其次,本文也利用多元回归分析、相关分析把较庞大的数据变得较直观、简洁,便于处理问题。模型的缺点:但是限于题目所给数据的不足和存在的误差,模型建立所假设的稳定条件以及现实中偶然因素的发生,在实际中需要进行合理的调整。假设酿造葡萄酒的环境是相同的;只考虑低醇、酯类、苯等芳香物质影响酒的香气,忽略了其他成分的影响。模型的推广本文主要应用数理统计、多元回归分析、相关分析、聚类分析以及判别分析等知识。根据数理统计知识,我们利用MATLAB进行数据处理研究,判断出两组评酒员的评酒结果有显著性差异,并选择出数据较为可靠的一组。根据聚类分析、判别分析对数据处理研究,基本得到需要的答案。该模型用于生活实践中,也可以解决很多实际问题,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么病;体育选材中根据运动员的体形、运动成绩、生理指标心理素质指标、遗传因素判断是否选入运动队继续培养,等等。它在生活中有广泛的适用性。参考文献汪晓银周保平,数学建模与数学实验,北京,科学出版社,2010.2李华刘曙东王华张予林,葡萄酒感官评价结果的统计分析方法研究,中国食品学报,第6卷第2期:1—1,2006.4。李华刘曙东王华张予林,葡萄酒感官评价结果的统计分析方法研究,中国食品学报,第6卷第2期:4—5,2006.4。姜启源谢金星叶俊,数学模型,北京,高等教育出版社,2008.3附录:Matlab程序:(1)数据标准化clearallfori=1:10forj=1:28Z=[857885758461847579757964827874698186758084657182867558668047677747458146694246424248484954446668494866568066407588868980778383818186857583848786908383828590807982827989615475656065665460606052496771657071687159586973697567697679787779787481708774676679817078727383767280677493598893917583625680595575716265646191717164818677825967915587838513688748080737383867776787987878580848376786877816685806879787467687781736256626867627464636270707178787674769573908579657785769188686581748492747387888087867790738879817986748482838571727069738277918177808474758581847790];a=[76.2956.7183.5064.3976.1172.6481.7170.6481.1179.50];%x(i)平均值b=[7.9113.693.856.997.1612.2312.026.758.385.80];%x(i)标准差v(i,j)=(Z(i,j)-a(i))./b(i)endendxlswrite('Book6.xlsx',v,'Sheet1')(2)置信区间调整clearallforj=1:27a=[62.780.380.468.673.372.271.572.381.574.270.153.974.67358.774.979.359.978.678.677.177.285.67869.273.873];%x(j)平均值b=[9.646.316.7710.397.877.7310.186.635.745.518.418.926.706.009.254.259.386.876.885.1010.777.115.708.658.045.597.06];%x(j)标准差m=a+b;n=a-b;endfori=1:10forj=1:27Z=[5171805274726364776773546970697270637678737383706073706681856474697076788260428477508079658484908385857880774986896572717665768372407970508091
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论