白葡萄酒的质量综合评价模型_第1页
白葡萄酒的质量综合评价模型_第2页
白葡萄酒的质量综合评价模型_第3页
白葡萄酒的质量综合评价模型_第4页
白葡萄酒的质量综合评价模型_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、白葡萄酒的质量综合评价模型摘要时代在进步,人类的对生活品味的追求不断增加,这使得葡萄酒的需求日益增加。在现今的大数据时代,人们运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。本文中主要研究了葡萄酒的品质以及与酿酒葡萄的理化指标的关系。合理运用葡萄酿出好酒。首先基于两组白葡萄酒的评分差异性做出判断,运用wilcoxon符号秩检验方法检验出两组白葡萄酒的评分存在显著性差异,再合理的运用两组评分的组内方差的波动性及其大小来评判出第二组的评分可靠性更高。接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将白葡萄酒

2、和酿酒葡萄各分成了5 类,然后对分好的葡萄类所酿造的葡萄酒进行统计,最后得到各类酿酒葡萄对应的级别关键字:假设检验、符号秩检验、聚类分析一、问题分析题目为我们提供了白葡萄酒的感官评价指标,白葡萄和葡萄酒的各种理化指标的信息。本文的关键就是通过分析处理已给的数据,建立数学模型来研究白葡萄酒质量的确立。为此,我们要依次达到题目给出的以下几个目标:1.1两组评价结果差异性和可信性研究问题一给出了两组评酒员对白葡萄酒的评价分数,本文采用假设检验中的t 检验法建立评估两组数据差异的模型,研究两组评价员的评价结果是否存在差异,判断是否能接受它们有显著性差异的假设。若判断的结果是这两组数据存在差异,我们就进

3、入第二步,可靠性研究。我们分别对两组数据求方差,方差小的那组说明波动比较小,评酒员的评定比较稳定,数据比较可靠。1.2 酿酒葡萄的分级首先,我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】李华等. 葡萄酒感官评价结果的统计分析方法研究. 中国食品学报. 第6 卷,第2期,2006 年4 月.;利用处理后的数据(总分)对葡萄酒进行分级;然后,用初步处理后的酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别;最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别

4、的模型帮助果农更好地利用好葡萄酿好酒。二、问题假设1、同种葡萄酒在一组评酒员下的得分成正态分布。2、一种葡萄对应酿制一种葡萄酒。3、葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其置为零。三、符号说明Xi第i个白葡萄酒样品评分Qij第i个白葡萄酒样品的第j个酿酒葡萄的理化指标四、模型的建立与求解4.1 模型一:基于wilcoxon符号秩检验【2】王星等.非参数统计.清华大学出版社2006年.第三章单一样本的推断问题.建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。然后用方差

5、分析两组评酒员组内数据的波动,认为较平稳的一组数据比较可靠。4.1.1 数据预处理我们在整理数据的时候发现几个比较显著的异常数据:1)第一组白酒数据样品3持久性品酒员7 号数据明显有问题,怀疑是多敲了一个7;2)第一组白酒数据样品8口感分析浓度品酒员2 号数据明显异常。因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。表格 1白葡萄酒的数据初步处理白葡萄酒样品1234567891011121314第一组评分8274.285.379.47168.477.571.472.974.372.363.365.972第二组评分77.975.875.676.981.575.574.27

6、2.380.479.871.472.473.977.1D4.1-1.69.72.5-10.5-7.13.3-0.9-7.5-5.50.9-9.1-8-5.1白葡萄酒样品1516171819202122232425262728第一组评分72.47478.873.172.277.876.47175.973.377.181.364.881.3第二组评分78.467.380.376.776.476.679.279.477.476.179.574.37779.6D-66.7-1.5-3.6-4.21.2-2.8-8.4-1.5-2.8-2.47-12.21.7图表 1差值的密度直方图及正态QQ图根据图1

7、白葡萄酒样品评分差值密度直方图,易知该分布是单峰对称分布,以及正态QQ图可知,差值近似服从正态分布。在对其进行检验时,可以选择符号检验和符号秩检验,但结合两种检验的优缺点,为了取得更好的检验效果应选择符号秩检验。4.1.2 基于成对数据的符号秩检验1)wilcoxon符号秩检验简介在wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。它适用于参数检验中t检验的成对比较,但并不要求成对数据之差服从正态分布,只要求服从对称分布即可。检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。2)模型的建立在白葡萄酒的

8、wilcoxon符号秩检验过程中。假设28个样本点Xi(i=1,2,28),来自连续对称总体分布,则总体的中位数等于均值。wilcoxon符号秩检验的步骤如下:(1)对i=1,2, ,28,计算| Xi-M0 |;它们表示这样样本点到M0的距离。(2)将上面28个绝对值排序,并找出它们的28个秩;如果有相同的样本点,每个点取平均秩。(3)令W1等于Xi-M0 0的|Xi-M0|的秩的和,W2等于Xi-M0 0的|Xi-M0|秩的和。(4)对双边检验H0 :M = M0 H1:M M0,在零假设下,W1和W2应差不多。因而,当其中之一很小时,应怀疑零假设。在此,取检验统计量W=min(W1,W2

9、)。(5)根据得到的W值,利用统计软件或查wilcoxon符号秩检验的分布表以得到在零假设下的P值。如果n很大要用正态近似:得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到P值。(6)如果P值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。如果P值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设。3)模型的求解数据经过sas软件处理得下图:图表 2差值的位置检验由图2白葡萄酒样品评分差值的位置检验,在符号秩检验的p值为0.0345,其小于显著性水平=0.05,因此得出拒绝原假设,接受备择假设的结论,即两组白葡萄酒样品评分存在显著性差异。4.1.3 可

10、信度定量分析1)模型的建立:记第一组10 位品酒员对白葡萄酒样品Xi(i=1,2,28)的 评 分 为Aij(j=1,2,10),Ai=110j=110Ai , S1i=110j=110(Aij-Ai),其中, Ai 表示第一组品酒员对白葡萄酒样品Xi的评分均值,S1i 表示Xi的评分方差;同样,第二组对白葡萄酒样品的评分均值和方差分别为Bi=110j=110Bi , S2i=110j=110(Bij-Bi)从而对每一组品酒员得到一个评分方差向量S12=(S122,S132S1282)S22=(S212,S222S2282)用方差和对比得到对于白葡萄两组不同的评价水平。方差和小的稳定性好,相对

11、来说比另一组的评价结果是更可信的。2)模型的求解:运用sas软件进行求解,容易得到S12,S22,具体附录一对白葡萄酒而言:S12元素的和为3297.7,S22元素的和为1577.2。第一组的方差和总是远远大于第二组。为了更直观的看到这个结果,下图即为两组评酒员对两种葡萄酒的方差图像,可以直观的看到第二组的波动程度比第一组的小,第二组更可信。图表 3两组评酒员对白葡萄酒的评分方差图4.2 模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种白葡萄酒样品的打分来确定白葡萄酒的质量;再用聚类分析对酿酒葡萄进行分类,对每类的葡萄酿造的白葡萄酒进行统计,对应地得到这类葡萄所对应的级别。4

12、.2.1 葡萄酒的分级1)置信区间法置信区间法能有效的降低评酒员之间的差异,提高酒样品之间的差异,虽然我们在第一问中分辨出第二组评酒员评判出的数据更可靠,但是我们不能排除第一组评酒员的专业性,为了最可靠的样本,我们应该综合两组评价的分数。所以本文先采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒的分数做一个平均。用白蒲萄酒的第一组数据做置信区间处理,计算评酒员对酒样品Xi(i=1,2,28)评价的置信区间为i-i,i+i,其中i 为酒样Xi的平均值;i为酒样Xi的标准差。如果评酒员j 对酒样Xi的评价ij在其置信区间范围内就可以直接使用; 如果其评价ij 不在置信区间范围内, 则做如

13、下变换:若ijij,则ij=ij-i若变换之后的ij仍不在置信区间范围内,再重复上面的变换,这样逐步调整,直至不同评酒员对同一酒样的评价值都处于ij-i,ij+i范围内。对第二组数据做同样处理,再对同种酒样Xi两组数据做平均。2)葡萄酒分级通过分析所有白葡萄酒样品的总分的平均分,我们借鉴罗伯特的分级【3】张哲,罗伯特帕克是如何评分的, 月8 日.标准制定本文的对葡萄酒的分级标准,以更好的体现酒样之间的差异。葡萄酒样品的分级标准:8085 分:高级葡萄酒7580 分:中上级葡萄酒7075 分:中级葡萄酒6570 分:中下级葡萄酒6065 分:下级葡萄酒以下是根据1)的数据求得的葡萄酒总分的平均分

14、表格 2白葡萄酒的评分结果(从高到底)1组2821125172610420239155781.1480.5780.5279.6278.7378.4778.277.8377.6576.9876.7776.7176.5676.142组23221814241981162716131276.0675.8275.7975.5375.0874.774.4773.7871.6571.3170.370.269.969.03白葡萄酒样品的分级:高级白葡萄酒:28、21、1中上级白葡萄酒:25、17、26、10、4、20、23、9、15、5、7、2、3、22、18、14中级白葡萄酒:24、19、8、11、6、27

15、、16中下级白葡萄酒:13、12下级白葡萄酒:无4.2.2 对酿酒葡萄的Q 型聚类分析【4】薛毅,陈立萍统计建模与R 软件(下册)清华大学出版社2006 年466页聚类分析方法是基于数值分类法的思想建立起来的,又称为系统聚类法。这里只基于酿酒葡萄样本进行聚类,成为Q 型聚类,其步骤为:步骤一:数据标准化以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄Xi(i=1,2,28) 的各理化指标Qij(j=1,2,30)使用了不同的量纲及数据的大小差距很大,对理化指标数据矩阵的处理采用标准化,处理方式为Qij=Qij-QjSj其中Qj,Sj是矩阵Xi=(Qij)28*30每一列的均值和标准差。步骤二:样本的相

16、似性度量在对酿酒红葡萄的理化指标进行聚类分析时,首先要确定理化指标样本的相似性度量,本文采用相关系数来衡量两个指标样本的相似性。记样本Qj 的取值(Q1j,Q2j,Q28j)TRn(j=1,2,30),则两个样本的相关系数Rjk=i=030Qij-Qj(Qik-Qk)i=030Qij-Qj2i=030(Qik-Qk)2相似性度量中Rjk越接近1,Qj与Qk越相关;Rjk越接近0,Qj与Qk的相关性越弱。步骤三:样本的距离定义在对酿酒葡萄的聚类分析中,定义两类理化指标样本的距离(类平均法)为:DG1,G2=1n1n2QjG1QjG2d(Qj,Qk)它等于G1,G2中两两样本点距离的平均,试中n1

17、,n2分别为G1,G2中的样本点个数其中dQj,Qk=1-Rjk或者 dQj,Qk=1-Rjk2。步骤四:Q 型聚类分析求解模型使用sas软件中的cluster函数(本文所有程序均用sas 软件处理),对数据进行处理,样本间相似性度量采用相关系数,类间距离的度量计算采用类平均法,对两种酿酒葡萄进行Q 型聚类分析,画出聚类图,对酿酒葡萄划分类别。1) 白葡萄的聚类分析图如下:图表 4白葡萄酒的聚类图2) 聚类结果分析白葡萄划分成6 类的结果如下:属于第1 类的样本有:葡萄样品1、13、6、18、7、15属于第2 类的样本有:葡萄样品2、25、19、8、11、16属于第3 类的样本有:葡萄样品3、5、20属于第4 类的样本有:葡萄样品4、14、21、9、28、23、26、17、22属于第5 类的样本有:葡萄样品10、24、12属于第6 类的样本有:葡萄样品27对于每类葡萄中的元素(单个葡萄样本),结合其酿造出的葡萄酒的品质,既该葡萄样本所酿造的葡萄酒的级别,来确定该葡萄的级别。然后再根据每类葡萄中葡萄样本级别的比例来确定该类葡萄的级别。对应葡萄酒的分级,我们也将葡萄分成高级,中上,中级,中下,下级。3) 根据以上聚类分的结果再综合葡萄酒的分级(葡萄酒的质量)我们得出如下结论:白葡萄分级结果高级白葡萄:2、2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论