数据挖掘之红酒鉴别_第1页
数据挖掘之红酒鉴别_第2页
数据挖掘之红酒鉴别_第3页
数据挖掘之红酒鉴别_第4页
数据挖掘之红酒鉴别_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据挖掘的葡萄酒质量识别我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来推断其质量的好坏,这就 必需要求品尝者是训练有素的品酒专家。但感官品尝结果简洁受各种因素的影 响。随着科学技术的进展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局 限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被 各国所采纳。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一 个简洁的分析与推断。,数据挖掘理论方法论述主成分回归在数据处理中,常常会遇到高维数据组,由于数据维数高,变量多,而且变 量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,争 论多变量问题是常常遇到的,

2、再加上变量指标之间有肯定的相关性,这势必增加 了问题的简单性,主成分分析就是设法将原来指标重新组合成一组新的相互无关 的较少的综合指标来代替原来的指标,同时依据实际需要从中可取几个较少的综 合指标尽可能多的反映原来指标的信息、。这种将多个变量化为少数相互无关的综 合指标的统计方法称为主成分分析。主成分分析就是设法将原来众多具有肯定相关性的变量重新组合成一组新 的相互无关的综合指标来代替,通常数学上的处理就是将原来P个变量作线性组 合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指 标记为片,自然盼望尽可能多的反映原来指标的信息,这里最经典的方法是 用耳的方差来表达,即乐(月

3、)越大,表示不包含的信息越。因此全部线性组合 中所选取的大应当是方差最大的,故将士称为第一主成分,假如耳缺乏以代表 原来p个指标的信息,在满意Cou(E,B) = o的条件下,再考虑选取尸2作为其次 个主成分,同理可以构造第三,四,第个主成分。月=QjX +a27X2 +. + apjX .要求:(1 ) 6Z3. + + CT1 1;(2)与与弓(iwj)不相关求得X的主成分为协房阵Z的特征向量为系数的线性组合。得到主成分,提取 所需要的前几个主要成分后,回归的过程与线性回归是全都的。只是自变量变成 了选取的主成分,因变量不变。分类回归树. 1分类回归树的构建alcohol节点口平均值10.

4、413 TOC o 1-5 h z 标准差优化1.053n1467%100.0预测10.507volatileacidityAdj.P =0.000=19,369, df1=2.df2=430 0,5500节点1平均值10.901标准差优化 1 .0 81n308%21 .0预测10.896节点1平均值10.901标准差优化 1 .0 81n308%21 .0预测10.896节点2平均值10.428标准差优化1.092n574%39.1预测10.495节点3平均值10.142标准差优化 口 395n585%39.9预测10.048sulphatesAdj,P 值二口.口04, F= 12.65

5、5, df1=1.df2=1890,650=0,650节点4平均值10.190标准差优化。.989n329%22.4预测10.221节点4平均值10.190标准差优化。.989n329%22.4预测10.221节点5平均值10.747标准差优化1.144n245%16.7预测10.778图7分类回归树节点的收益汇总增长方法:CHAID 因变量列表:alcohol节点N百分比均值130821.0%10. 901524516. 7%10. 747432922. 4%10. 190358539. 9%10. 142风险估量标准误 差1.003.041增长方法:CHAID 因变量列表:alcohol由

6、于分类的效果比回归的效果要好,所以这里建模采纳分类的方法。由上表 节点收益及风险数据看出分类树能识别大局部质量低劣的红酒,同时又不使得其 他质量等级的葡萄酒识别率下降太多。现成的葡萄酒成分检验技术依旧很有限,气相和液相并不能检测出全部的化 学成分,本文所采用的数据仅n个变量,包括9个化学成分和2个非化学成分变量, 某些重要变量的缺失影响了建模的猜想结果。盼望随着检测仪器的争论觉察,能 检测出更多的成分,为争论葡萄酒质量等级的识别供应更多的硬性基础,提高葡 萄酒质量等级的识别率,检测出更多低质量葡萄酒,维护消费者权益。分类回归树的构建是通过学习给定的训练样本,查找最正确的分支规章。分类 回归树的

7、分支规章是依据不纯度作为评估度量来实现的,以查找最正确的分支规 章。最常用的不纯度函数为基尼指数,其定义为其中P(i,)是指中第,类的频率,也就是说当基尼指数越小时,意味着该节点所 包含的样本集越集中,该节点越纯。树的构建大致可以这样表述为:全部的样本都属于树的根节点,查找第一 个节点的分支规章时,从第一个自变量开头,纪录样本数据该变量的每个取值作 为分支阈值时不纯度的下降值,直到全部变量的每个取值作为分支阈值的不纯度 下降值纪录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分 支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类回归树属 于贪心算法。在构建树的过程中,满

8、意以下条件之一,那么不再对叶节点进行分支操作:(1)叶节点中的样本数小于给定的值Nwn, 一般默认=5;(2)分支后的叶节点中的样本属于同一类;(3)无属性向量用于分支选择。经过此过程,最终得到一颗最大的树北”分类回归树的修剪为了解决所建立的最大树ax过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有关心的局部树,使得模型更简洁、更简 洁理解。常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采纳统计度 量,剪去最不行靠的分支,提高分类回归树独立于测试数据的测试力量。最小本钱简单度的后剪枝法较为常用,其统计度量为Ra(T) = R(T) + 用其中a表示简单度参

9、数,用于表示每个终止点简单度的代价,当a为0时,对应的最大树ax。RCO为ax的估量错分率,&G)为该树的估量错分类与对 简单度惩办值之和的本钱复合值。当a肯定时,(7)越大,其可取性也就越小。1.2. 3分类回归树的评估经过树的修剪,得到了一系列的子树,那么假如选择最优大小的树作为最终 构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本 评估和交互检验评估。文中采纳的是交互检验评估。K折交互检验是将样本集平均分为K个子集,每次用其中的(K-1)个子集进行建模,剩下的子集用来猜想,循环K次,计算平均的错分率。对所生成的一 系列子树小厚,7;分别进行K折交互检验,得到个平均错

10、分率,那么最小平均错分率对应的子树就是最优的构建树40,即(7;0)= min (不区) k=l,?i2.数据处理与基本分析数据说明与预处理葡萄酒数据来源于 :archive. ics. uci. edu/ml/datasets/Wine+Quality, 包含红酒和白酒两种。红酒1599个样本纪录,H个表示成分和含量的自变量以及 一个关于葡萄酒质量好坏的因变量。白酒那么有4898个样本纪录,也是11个表示成 分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。为简化问题,我主要 争论了红酒的质量识别,白酒的质量识别可以比照参考。本文数据分析所使用的 工具主要有SPSS和R语言。首先将葡萄酒质

11、量等级分为低等、中等以及高等三类 (质量为3和4的视为低等,5和6的视为中等,7和8的视为高等,见表1-1),对应 样本量分别为63、1319、217o表1-1葡萄酒质量等级分类quality频率百分比有效百分 比累积百分 比等级有效3100.60.60.6低4533.33.33.9568142.642.646.5中663839.939.986.4719912.412.498.9高8181. 11. 1100.0合计1599100.0100.0详细的H个自变量如表2所示o表1-2红酒质量自变量的简洁描述自变量N微小值极大值均值标准差Fixed acidity15994.615.98. 3201

12、. 7411Volatile acidity15990. 1201.5800. 527820. 179060Citric acid15990. 001.000.27100. 19480Residual sugar15990. 9015. 502. 53881.40993chlorides15990.0120.6110. 087470.047065Free sulfur dioxide159917215.8710. 460Total sulfur dioxide1599628946. 4732. 895density15990. 99011.00370.9967470. 0018873pH159

13、92. 744.013.31110. 15439sulphates15990. 332.000. 65810. 16951alcohol15998.414.910, 4231.0657有效的N (列表状 态)1599其中表达红酒的酸、甜、咸、苦的成分归纳如下:酸:Fixed acidity (酒石酸)、Volatile acidity (醋酸)、 Citric acid (柠檬酸)甜:Residual sugar (糖分)、alcohol (酒精)咸:chlorides (氯化钠)苦:Free sulfur dioxide (游离二氧化硫)、Total sulfur dioxide (总二氧

14、化硫)、sulphates (硫酸钾)表1-2显示的变量只是红酒主要的基本成分,并没有微量成分,由葡萄酒的 品尝原理我们知道,葡萄酒中的微量成分是香气和味道成分中最主要的局部,这 些成分数目极大而浓度微小。这可能对我们的分析会造成不利的影响,即表达红 酒质量的自变量缺失了,某些甚至可能是重要的变量。2. 2数据基本分析相关性分析首先对自变量之间进行相关性分析,图厂3给出了局部相关性相对较大的变 量两点之间的散点图。透过散点图我们可以观看到酸度与密度,酸度与PH值之间 的相关性程度较高。其他各个变量之间的相关系数详见表1-4.表1-3变量间相关性散点图 o15.0-O1.0025-1.0000-

15、.9975-.9950-.9925-.9900-5.07.510.0 12.5 15.0.00.20.40.60.801.00citricacidfixedacidity15.0-12.5-o10.0-7.5-5.0-.005.0010.0015.0020.0015.0-12.5-10.0-7.5-5.0-2.80 3.00 3.20 3.40 3.60 3.80 4.00 4.20residualsugarpH15.0-5.0-I .0001111.5001.0001.5002.00080-050100 150 200 250 300totalsulfurdioxide2040o-PXO-P

16、-n!=nsaat.005.0010.0015.00 20.00residualsuaar2.000-1.500-1 .ooo-.500-volatileacidity14.0-12.0-10.0-.000-J0025 A .0000 9975 9950 9925 19g。densityoqop从表1-4可以看出,除了酒石酸与密度,酒石酸与柠檬酸、酒石酸与PH、游离二 氧化硫与总二氧化硫的相关系数在0. 68左右,其他变量之间的相关程度并不高。 其中,酒石酸与PH、醋酸与酒石酸、酒精与密度之间存在负相关性。综上也说明白,在葡萄酒的成分里,酒石酸和很多化学成分存在相关性。表1-4红酒质量各自变量

17、之间的相关系数表相关性Fixed acidyVolatil e acidityCitricacidResidua1sugarchloride sFreeSulfur dioxideTotalSulfur dioxidedensitypHsulphatesalcoho1Fixedacidity1-0. 256*0. 672*0. 115*0. 094*-0. 154*-0. 113*0. 668*-0. 683*0. 183*-0. 062*Volatil e acidity-0. 256*1-0. 552*0.0020. 061*-0.0110. 076*0. 0220. 235*-0. 26

18、1*-0. 202Citric acid0. 672*-0. 552*10. 144*0. 204*-0. 061*0. 0360. 365*-0. 542*0.313*0. 110*Residua1sugar0. 115*0.0020. 144*10. 056*0. 187*0. 203*0. 355*-0. 086*0. 0060. 042chlorides0. 094*0.061*0. 204*0. 056*10. 0060. 0470. 20 r*-0. 265*0. 371*-0. 221*FreeSulfur dioxide-0. 154*-0.011-0. 061*0. 187*

19、0. 00610. 668*-0. 0220. 070*0. 052*-0. 069*TotalSulfur dioxide-0. 113*0. 076*0. 0360. 203*0. 0470. 668*10. 071*-0. 066*0. 043-0. 206*density0. 668*0.0220. 365*0. 355*0. 20 r*-0.0220. 07 r*1-0. 342*0. 149*-0. 496*pH-0. 683*0. 235*-0. 542*-0. 086* -0. 265*0. 070*-0. 066*-0. 342*1-0. 197*0. 206*sulphat

20、es0. 183*-0. 261*0. 313*0.0060. 371*0. 052*0. 0430. 149*-0. 197*10. 094*alcohol-0. 062*-0. 202*0. 110*0.042-0. 221*-0. 069*-0. 206*-0. 496*0. 206*0. 094*1*.在0 .01水平(双侧)上显著相关。*.在0. 05水平(双侧)上显著相关。由前面我们知道,变量很多且局部变量之间存在相关性,那么可以考虑用主 成分分析。到第五个主成分时累积方差已经到达了79.53%,所以选择五个主成分 进行回归分析。表-5主成分概况 解释的总方差成份初始特征值提取平方

21、和载入合计方差 的%累积%合计方差 的%累积%13. 09928. 17428. 1743.09928. 17428. 17421.92617. 50845. 6821.92617. 50845. 68231.55114. 09659.7781.55114. 09659. 77841.21311.02970, 8071.21311. 02970. 8075.9598. 72179. 5286.6605. 99685. 5257.5845. 30790. 8328.4233. 84594. 6779.3453. 13397.81010.1811.64899. 45911.060.541100.000提取方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论