数据挖掘方法在葡萄酒品质鉴定中的应用修改_第1页
数据挖掘方法在葡萄酒品质鉴定中的应用修改_第2页
数据挖掘方法在葡萄酒品质鉴定中的应用修改_第3页
数据挖掘方法在葡萄酒品质鉴定中的应用修改_第4页
数据挖掘方法在葡萄酒品质鉴定中的应用修改_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

整体准确率不低,但对于低品质葡萄酒的识别准确率却很低。而本文在运用Logistic多项模型,TanBPC5.0决策树四Thegrapewineis ingincreasinglypopularduetotherobusteconomicgrowth,however,theidentificationofwineincurrentsituationstilldependslargelyontheartificialtastingofwinetasters,whichhasbeendifficulttomeettoday'shugemarketdemands.Withthebigdataconceptdeeplyrootedinpeoples’mind,scientifictestingmeansconceningthephysicochemicalpropertiesofwineemergedaccordingly,whichprovidegreatsupporttotheapplicationofdatamininginwinequalityidentification.Thistexttriestoidentifythewinequalityundertheguidelineofdataminingmethod,basingonthephysicalandchemicalpropertiesdataofgrapewine.Atthisstage,theuseofdataminingtoidentifythequalityofthewineisstillrare,ofwhichthecommonproblemisthateventheseclassificationmodelsboasthighaccuracyrateonawhole,withregardtothelowqualitywine,itisrelativelylow.Whileinthispaper,theLogisticandmultinomialmodel,Tanneuralnetwork,BPneuralnetworkwiththeerrorterm,coupledwithC5.0decisiontreeserveasthetheoraticalframework.Meanwhile,thepapernotonlyfocusesonthepredictionaccuracyoftheoverallquality,butalsoysesindepththespecificaccuracyofeachcategory.Asaresult,theauthordrawsaconclusionthattheimbalancedataclassificationignoresafewcategoriesinspiteofthehighoverallaccuracyrate.Moreover,thepaperadoptsacombinationofSMOTEoversamplingandundersamplingtobalancethedataandselecttheoptimaldecisiontreeclassificationmodel.Andtofurtherimprovetheaccuracyofpredictionandbetterrelatetotheunequalmisclassificationcost,thisarticlewillcombineBoostingdecisiontreetechnologyandcost-sensitivelearning.Byngthis,itnotonlyimprovestheaccuracyofjudgmentcomparedtotheoriginalclassificationbutalsogreatlyimprovestheidentificationofthelowqualitywinewhilereducingthecostoffalsepositives.:WineQualityAppraisal;DataMining;SortingAlgorithms;ImbalancedData;Boosting;Cost-sensitiveLearning目中 英 1绪 总 展 参考文 致 绪研究是久远。而伴随着古代的人类迁移以及其他贸易活动,葡萄酒的酿制个世界葡萄酒市场已经发展成为十分成市场。而根据国际葡萄与葡萄酒245.2101.4亿升。,葡萄酒的历史也是十分的悠久,早在汉武帝建元,公元前138够数十年都不变质,于是从大宛带回了欧亚种葡萄以及酿酒的专业。这些以往未见的佳酿立刻就得到了的重视因此那时的葡萄种植和葡萄酒酿造很快萄酒已开始普及起来。而随着我国的开放与发展,中国的葡萄酒业也以及感官体会来评定葡萄酒的酒品质量但是无论发展十分成整个世界市场标准。以葡萄酒为例,无论是法国AOC,西班牙的DO,意大利类,当然随着技术的发展,也加上糖分,二氧化硫含量,浓度的测定。但是,要具体评价葡萄酒品质的高低,则往往依赖于品酒师的鉴定。对于这些葡萄酒的来说是以生产前的属性来判别的;而对于品酒师的品质评身的一个理化属性进行科学评定,而且依赖于品酒师的评鉴,不但带有一定的感受已经很难更进一步指导葡萄酒的生产,而且葡萄酒的数量众多,单靠,研究目的及意后于整个市场的发展,缺乏科学客观的葡萄酒品质鉴定。因此本文希望利用数据挖掘中的分类,通过对葡萄酒的理化指标分析,国内外研究现状以及发展趋国外研究现多的外国科学家已 葡萄酒的物理性质以及某些化学物质的含量会影的化学成分。1999年,Ebeler等率先开始了葡萄酒味道的化学测定,他认为葡理化评估通常是指葡萄酒性质当中的密度、浓度、pH值的测定,感官评价,但随着的进步,人类收集和处理大规模而高度复杂的数据已经成为了现实人们开始大规模数据集的价值里面所蕴含的趋势和模式,1991年,一个被名为“Wine”UCI178个样本,每个样本包含了13种性质属性(例如浓度等但是这个数据集的分类目标是对意大利中的三个牌子进行识别,而不是品质鉴定;1997年,L.Sun等人对一个17813个属性变量的数据集,通过神经网络的方式来预测100%2001年,则开始把研究范围延展到味觉感受,S.Vlaes等运用NNs最近邻分类器,通过葡萄成熟度6%的误差,但362007年,数据挖掘方法终于把物化属性及品质等级联系上来,Moreno利用红酒中的矿物质元素含量数据,成功利用神经网络模54个红酒样本分为两类;但是以上的所有运用都仅仅局限于小规模的数据2009年,Cortez等人首次将支持向量机方法运用到超过千个葡萄酒样本,国内研究现国内的关于葡萄酒品质鉴定的研究相比于国外仍有一定的尤其在早期09年开始,国内也开始2009分析,识别出影响葡萄酒品质高低的一些重要化学成分;2010年,高缓缓利用L.SunUCIWine数据集(178个数据样本,13个属性变量,使2010Cortez的工作上进上大多着重于整体模型的准确性,而忽视对个别类别的预测精确性,并且也发展趋内容葡萄酒品质鉴定的现状研主要介绍了:1.能够运用于葡萄酒品质分类中的分类模型算法,包括了树C5.0;2.针对不平衡数据的过抽样算法SMOTE以及随机删除欠抽样算法;3.Boosting以及代价敏感学习。数据挖掘方分类算法在葡萄酒品质鉴定中的是本文的重中之重对于葡萄酒品质鉴定的实证分析是基于UCI数据库中的“WineQualityDataSet”4898个样本数据,包含了11个表示该葡萄酒样本的物理及化学性质数据,以及一该葡萄酒样本Logistic多项模型、Tan贝叶斯分类模BPC5.0分类算法构建分类器对葡萄酒样本数据进行品质分类的,并比较各个分类器的优劣。Boosting以及代价敏感学习方法,结合实际应用情况来全面提升分类器效果,并选择出最佳分类模型,这部分对模型的改善提升是的主要创新在本文的结尾,对全文的主要工作以及研究成果进行了简要的概括,并数据挖掘算法理辅助人们进行决策却是一个巨大的。分类Logistic回归分归模型则是针对于此类问题而因为它可以非常有效地克服线性回归对于传统的线性函数进行分析。对于一个数据样本为xi,一个发生的条件概率记为P(yi=1|xi),通常条件概率P(yi=1|xi)与xi之间存在的非线性关系是一个单调函xi接近负无穷时将有E(yi)趋近于0,而在xi接近正无穷时将有E(yi)趋近于1,y与xiyP假设续因变量i=α1βiεii的大小表示某发生的可能性的大小。对于0-1,存在一个临界点E,当̂i的值超过这个临界点时,预测这个当i>E时,yi=1;否则,yi这里,yi是指样本的实际类别,yi=1表示发生,yi=0表示没有发P(yi=1|xi)=P(α1+βxi+εi>𝐸)=P(εi>−α1−E−βxi)=P(εi≤α1+d+εiLogisticεi数为F(x)= ,所以有P(y=1|x

LogisticS函数

=1|x)

01Logistic 01令α=α1+d,我们可以将重写为P(y=1|x

这里,εi被定义为一系列影响发生概率的因素的线性函数,εi=α+ =将发生的条件概率记为P(yi=1|xi)=pi,这样就可以得到下列Logistic回==1=

同理,也可以定义一个不发生的概率为=11−=1

=1=

上面两式中的条件概率pi与1−pi,都表示为由自变量xi构成的非线性函数,pi= 件的发生比简称odds可以看出,xi变动1个单位优势是原来的exp(β)倍。β的符号和大小影响发生比的增减变动方向和变动程度Odds值必为正值且无上限,因为0<pi<1odds取自然对数,则可化为线性函数: )=α+

当自变量类别的个数从2个扩展到k个时,也可以扩展为

ip=i

Logistic回归模型:ln(pi)=α+ β

k其中,pi=P(yi=1|x1i,x2i,⋯,xki)为在给定自变量x1i,x2i,⋯,xki的值时的+而对于存在J个因变(即j=1,2,…,J类的数据则需要采用多项LogisticJz(z1,J])作为参照类别,再把剩下的类别分别与类别z的概率之比构建共J-1j,+jln[P(y=j|x)]=j

对于上式的多项Logistic模型具体的第j类概率计算可以由以下得出

P(y=j|x)=

(其中j≠ j=1 分类。而且强大的有指导分类技术定理解决的是条件概率交换问题,因为在很多情况下,我们已知P(A|B)但是P(B|A)却不好获得,而通过定理,就可以P(A|B)P(B|A)。。有条件概率P(A|B)=

其中P(A|B)表示B发生的前提下,A发生的概率,叫做B发生下A的条件概率。

P(B|A)=

朴素分类 P(H|X)=

H为要检验的假设,X为与假设相关的数据样本,P(H|X)是事后概X(条件)之上的概率。假设数据样本是动物,描述动物的属性有体温和方式。假设X为恒温和胎生,H为X是哺乳类动物的假设,因此P(H|X)XXH假设成朴素分类器的算法如下所示n维特征向量,用x={a1a2am}表示,其中aix的一个特征属性,并假设各个特征属性间是相互独立的;n个不同类别,有类别集合C={y1y2XX的情况下,计算P(y1|x),P(y2|x),…,P(yn|x).如果P(yk|x)=max{P(y1|x)P(y2|x)P(yn|x)},xyk,其中类别yk3P(a1|y1)P(a2|y1)…,P(am|y1);…;P(a1|yn)P(a2|yn)…,根据定理有如下推导P(y|x)=

x来说,分母P(x)对于所有类别的估计均为常数,因此可以省略分母,直接考虑可以取得最大值的分子,又因为a1a2am各个P(x|yi)P(yi)=P(a1|yi)P(a2|yi)…P(am|yi)P(yi)=P(yi)

P(yi)=si/s(si为训练样本集合中类别yi的个数,s为整个训练样本集合的大TAN(Tree–augmendnaive)分类尽管朴素在大多数情况下是简单而有效的,但是朴素受到一个前提条件限制:各属性变量间必须相互独立。ABCD因此Friedman等提出了一种TAN分类器,适当放松朴素当中ABCD2-1TAN表2-1与无环图对应的条件概率表 结点B的概率A12 1 TAN分类器是由一个有向无环图和一个与无环图相对应条件概率表集合组1中的每一个节点都表示一个属性变量,而有向边则表示这些属性间的1ABAB的父结点;TAN分类器的一个重要性质是:每一个节点在其父母结点的值确定后,这1中,CAACBD。TANI=(X;X|C)= p(x,x,c)

p(xi,

2其中Xi和Xj为属性变量集合X中的元素(i≠j),C(n为包括属性变量的总变量个数)P(xi|Parent(xi))2.1.3神经网络分计算模型。类似于人脑中神经元的结构(多个神经元通过轴突,人工神经间的神经连接强度来进行学习的,而神经网络也是建立这么一个习能力识别出数据中的复杂模式。下图显示了一个与单输入实例[x1,x2….xi]2-2(ij,(jk个数学装置,计算各个隐藏层的和,作为最终这个对应样本的预测输出。神经网络。而反向神经网络——BP网络则是其中的经典算法,是一种按照输出误差反向断调整结点间的权值,已达到分类目的的算法BP个较小的随机数(比如-0.50.5)层中的一个结点j,其输入为Ij,计算如下所示Ij=∑i

其中,wijijOii隐藏层和输出层的每个结点接受一个输入Ijlogit评估函数对它进j的输出为:jO j

kERR(k)=(Tk− 其中,Ok为神经网络的输出层结点k的计算输出,Tk𝑓`(xk)logit的一阶导数,xkkj的误差,公ERR(j)=(∑k 其中,ERR(k)k的计算输出误差,wjkjk之间的连接权值,𝑓`(xj)logit的一阶导数,xj为评估函数在j的输入。通过计算误差,可以开始更新各结点连接的权值,如下所示∆wij=l× wij(new)=wij(old)+ l(常值),控制神经网络的收敛速度,0𝑙ij所获得的所有∆wij2.1.4决策树分类算是否是否2-3从上图也可以看出,决的生成,其实就是一系列逻辑语句组成,使得决相比于其他的分类器算法有着无与伦比强大的可读性,这也正是决算法使用如此广泛的原因之一。对于任何的决,由输入数据到最后的树生成,一般经历两个过程:树的事实上,面对一个存在多分类的训练集数据,决需要做的就是通过上述训练子集Dtt相匹配的样本记录集合,而y={y1y2yn}表示各t,与之相关联的训练子集Dt中所有的样本记录都属于同一类别yit为叶子结点,并用yi标记;子集称为Dt的结点,并根据逻辑结果,将Dt中的记录划分到个结点对应的子集当中,然后对于每个结点,递归调用该算法。对于定义2,不同的决算法将根据不同的度量方式选择最佳划分条件,而这种度量方法往往是根据该结点划分出的结点的“不纯”程度度量“不纯”程度越低代表划分效果越好。C5.0算法对于“不纯”程度是利用信息熵:熵(t)=− p(i|t)log2 其中p(i|t)ti的比例,n0log20=0而为了验证测试条件的效果,则需要比较父结点与结点间的不纯程度 =I(parent)−

N(vj)I(v

j=1 点相对应的样本记录个数,N(vj)是与结点相对应的样本记录个数另外,对于多于二分类的数据,利用信息增益的,多路划分(即分类数2)的熵将会更小,这是因为二分类的划分实际上就是把多路划分的一些C5.0算法采用增益率来评估划分:Gainratio=Split

其中,SplitInfo作为划分信息,修正由于多划分带来的偏差,SplitInfo−−

P(vilog2P(vi),k是经测试条件的划分总数,P(vi)i总体的由于EBP算法估计误差的基础也是基于训练集,而树的生长和修剪都基于而是通过计算训练误差上界作为判定条件,C5.0算法当中假定叶子节点的错误服从二项分布,因此父结点以及结点可以通过以下计算错误率e的上Nz2N

z2+Neupper(N,e,α)+N

e+α⁄2

1+N是该结点训练样本数目,e为训练误差,α0.25对于父结点,误差=N父)*eupper(父;对于父结点的子树误差,误差

Ni∗eupper(i)EBP算法的修剪原则是当结点的误差大于父结点的误差时用新的叶子结点替换该(结点形成的一系列;否则,不作修剪。不平衡数据处算法在现阶段已经的是出于计算时间以及内存上的优化而不是分类器本身2种办法:过采样和欠采样过采样方法是通过随机选择少数类别的样本然后通过来为小数类别增加额因此在2002一种基于过采样的SMOTE(syntheticminorityover-sampling数目,以此来避免简单带来过拟合的问题,具体算法过程如下:设过抽样比率为n(即最后形成的少数类数据集样本量为(n+1)*N那么对于每一个少数类别样本xikkx类别的最kn个样本,分别记为对于每一个少数类别样本xi和它的每一个最近邻zj数据生成,生成如下所示qj=xi+rand(0,1)×(xi−zj), 其中rand(0,1)01间的随机数,通过以上方式,最后的少数类别样提升分类器性能的方考虑一个二元分类器,假设这个二元分类器的分类误差ε=0.35,那么使用65%。25个具有同等分类误差ε=0.35的二元分类器,并且这35%规则是采用的方式来判定预测类别即最终的预测类别为多数类分类器的预测类别,这意味着只有当超过一半(超过12)的分类器都预测错误的时候,组合ε

=∑Ciεi(1−ε)25−i=值得注意的是,仅当ε<0.5时,组合分类器的误差率才低于单一分类器。Boosting技术(即提升技术组合的算法,在每次迭代的过程中,Boosting在训练样本总集进行放回抽样构建Boosting算法如下:ixiyii=1,2⋯kBoosting次数(k个基分类器t次迭代产生的基分类器记为Tt,而最终组合分类器记为T∗;引入权重wt,表示样本ii t1,设pt= ∑w ∑wi=1作为归一化权重;εtt个基分类器Tt的误差率,αtt个基分类器i的权重调整系数,它与误差率εt有关,并且有判别函数It(xi),当xiii类时,It(xi)=10i初始化每个样本的权重,令w1=1i 计算归一化权重pt= ,并把pt作为抽样权重赋予总训练集中的每个 ∑w ∑wi=1N个样本产生新的训练集构建基分类器利用训练集Dt构建基分类器Tt,并利用TtDt次分类后,计算基分类器Tt的误差率εt=∑NptIt(xi),如果εt>0.5i=1ik=t-1,k个基分类器;如果εt=0,则结束迭代过程,k=tk个基分类器;否则继续进行下一步;计算αt εtiwt+1={i

wtαt,如果样本xiiwt如果样本xi

kt=t+1,4,继续迭代结束,得到k个基分类器组成分类器组合T∗log(1/αt),最终的预测分类选取得分最高值作为预测类别代价敏感学被对待。1210121012102102-410,1221,代价均为02122110:1(2(3)在剪枝的时候,决定是否剪枝等等,而把决与成本矩阵相结合的方式被称之为代价敏感决。葡萄酒品质分类的初步分数据来2009PCortez,ACerdeira,FAlmeida,TMatosandJ.ReisUCI库中的“WineQualityDataSet”的数据,选取其中VinhoVerde4898个样本。489811个表示该葡萄酒样本的物理及化学性质数据,以及一该葡萄酒样本质量的标志数据,分为高等,中等,三1060(21.63、3655(74.62%)183(3.74%SPSSModeler16.0R2.15.3版数据样本的变量说非挥发性酸含量(Fixedacidity,g/L,连续变量:酸度赋予葡萄酒清新、清 柠檬酸含量(CitricAcid,g/L,连续变量:柠檬酸主要用于添加酸这个程序,用以抑制有害细菌的发育。但由于它的酸性太具挑逗性“咄咄,残余糖分含量(ResidualSugar,g/L,连续变量:葡萄酒主要由葡萄酿制,在发酵的过程中,葡萄中的糖分会被发酵酵母分解转化成二氧化碳和。游离二氧化硫含量(SulfurDioxide,mg/L,连续变量:游离二氧化硫一般浮游在葡萄酒的表面,在葡萄酒中有杀菌、澄清、抗氧化、增酸,使味,同时对也害作用。总二氧化硫含量(TotalSulfurDioxide,mg/L,连续变量:葡萄酒中的二氧酸碱度(p,连续变量:p际操作中,p值无论是对葡萄还是葡萄酒来说都是一个易于管理和控制的质量参数。12浓度(Alcohol,%,连续变量:能够为葡萄酒带来甜润感,浓数据基本分样本数据的整体分3-1变 平均挥发性 非挥发 酸柠檬 残余糖 氯化 游离二 总二氧 硫密 硫酸 品 -13--各等级样本的数据分布以及相关分由于本文主要是各个品质类别的分类问题因此为了进一步各等级3-2变 平均挥发性 非挥发 酸柠檬 残余糖 氯化 游离二 总二氧 硫密 硫酸 3-3变 平均挥发性 非挥发 酸柠檬 残余糖 氯化 游离二 总二氧 硫密 硫酸 表3-4葡萄酒样本的简单描变 平均挥发性 非挥发 酸柠檬 残余糖 氯化 游离二 总二氧 硫密 硫酸 品质的提升而减低,而硫酸钾含量以及浓度都随着品质的提升而提升。另是属于葡萄酒的。而为了进一步这一种相关关系,接下来我们进行相关分析3-5酸酸酸分钠硫1---1---111硫--1-------------------硫酸 -- ---- -- ---- --- --- -1 --1- ---1 ---- -- 1、(P=0.05从上表可以看出,残余糖分含量和密度浓度与密度、总二氧化硫含量和游、而残余糖分含量与浓度、总二氧化硫含量与浓度、pH值与非挥发性0.4.且以上的相关系数均通过显著性检验。葡萄酒品质分类模型构建及模型4898例,考虑到模型分类中可能出现的过拟合问75%(3655个样本)划分为训Logistic多项模Logistic多项模型,并采用逐步回归法建立。3-6LogisticModelFitting EffectSelection模型操 变 -2Log Step.Step202022020酸Step分2Step分20Step20Step 进入非挥

移 4055 ModelFitting EffectSelection模型操 变 -2Log Step20Step2Step 进入游离

3-7模 -2

Chi-

0。而根据上表的结果,可见最终模860.8接下来我们继续模型中各参数的估计及检验结3-8Logistic

Wald检

df 95%间常数 常数 10非挥 -1挥发 -10残余 10氯化 -1游离 1密 -1000 -1硫酸 1常数 10非挥 1挥发 -1000残余 10 氯化 -100游离 1密 -10000 1硫酸 10分Logistic31𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐𝑃(𝑦=𝑖)=𝑙𝑛𝑃(𝑦=𝑖|𝑥)=

++

Py

i类的概率;i=2,318𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐𝑃(𝑦=2)=

𝑃(𝑦=𝑃(𝑦=231.4-0.37*非挥发性酸-5.91*挥发性酸+0.187*残余糖分-0.59*𝑃(𝑦=𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐𝑃(𝑦=3)=

𝑃(𝑦==971+0.206*非挥发性酸-9.23*挥发性酸+0.518*残余糖分-13*氯化钠76.83%75.7%。3-9Logistic123136223-10Logistic1231412230 分类图3-1TAN分类器的结构3-11 表3-12非挥发性酸结点的条件概率 <=5.88~7.96~>120303-13pH父 pH的条件概<=2.94~3.16~3.38~><=100<=20<=305.88~15.88~25.88~37.96~1007.96~207.96~30>1000>2000根据Tan分类器,我们可以算出每个样本属于各个品质类别的概率,到最终的预测结果为训练集的准确率为78.08%,而测试集结果稍稍降低,为表3-14Tan分类器训练集预测结12314230表3-15Tan分类器测试集预测结1231412830神经网络分类为1实际上,当偏差单元取值为0时,即为普通神经网络,而偏差单元的权值BP3-2BPBP77.13%76.03%表 神经网络分类器训练集预测结2030表 神经网络分类器测试集预测结030决经过分类建模,共形成一系列判定规则,总体的决缩略图如下图3-3C5.0决缩略1:如果:1<=10.6;2游离二氧化硫>7;3挥发性酸<=0.2;4非挥发8.4;5112;6941(低100%。如果:1<=10.6;2游离二氧化硫>7;3挥发性酸>0.2;4挥发性0.545;52;60.0821(低,判定准确80%。如果:1<=10.6;2游离二氧化硫>7;3挥发性酸>0.2;4挥发性0.545;5pH3.34;6残余糖分5.35;7总二氧化硫190(低,判定准确率为53.8%。2:如果:1<=10.6;2游离二氧化硫>7;3挥发性酸<=0.2;4非挥发性酸<=8.4;5<=9;6残余糖分>12.7;7柠檬酸>0.3;8挥发性酸>0.172(中100%。如果:1>10.6;2游离二氧化硫>11.5;3<=11.75;4挥发性0.435;5<=158;6>7.82(中,判82.5%。如果:1>10.6;2游离二氧化硫>11.5;3<=11.75;4挥发性0.435;5158;67.8;70.22;8pH64.2%。如果:1<=10.6;2游离二氧化硫>7;3挥发性酸<=0.2;4非挥发性酸<=8.4;5<=9;6残余糖分>12;7柠檬酸>0.3;8挥发性酸<=0.173(高100%。如果:1<=10.6;2游离二氧化硫>7;3挥发性酸<=0.2;4非挥发性酸<=8.4;5>9;6氯化钠<=0.043;7>10.1;8密度>0.99335,3(高70%如果:1>10.6;2游离二氧化硫>11.5;3>11.75;4氯化钠<=0.046;5<=12.5;6残余糖分>1.2;7非挥发性酸<=7.9,则属于品质(高54.1%84.76%,而测试集结果稍稍76.51%。表3-18决C5.0训练集预测结真 预测类123132732表3-19决C5.0测试集预测结真 预测类1231702631各分类器模型效果总3-20训练集各类别预测精度 测试集各类别预测精度123整123整Logistic多模Tan分类神经网络类决 平均预测度3-21123数据原始分Logistic多项模型提升Tan分类器提升神经网络分类器提升决C5.0提升从训练集的整体来看准确率最高的决C5.0模型总准确率达到84.76%,要远高于接下来的Tan分类器的78.08%,神经网络分类器77.13%以Logistic76.83%。降到了76.51%,与接下来的神经网络分类器76.03%,Logistic多项模型的75.70%以及Tan分类器的74.18%都相差不远从各类别的预测精度来看,无论是训练集还是测试集,类别2(42.84%37.99%(42.84%37.99%(12.60%6.95%从各类别的预测效果来看,同样也是决C5.0的效果最优,类别3的预测精度分别为68.81%以及54.80%1的预测精度分别为26.36%以及16.96%,3个分类器。是要高于100%(除了神经网络分类器对于类别1的预测,这说明这些分类100%1,对于品质类别为差的葡346.6%分类器的优化与提不平衡数据处理及模型重据,在我们的4898个葡萄酒的样本数据中,高等,中等,三个质量等级样1060(21.63183(3.74%来一定的偏倚。以我们的决C5.0模型来说,对于其中的树生成,属于A在总体中所占的比例为95%,类别B则为5%。现有一个分类器,把所有的样A95%,但是很显“平衡”75%25%作为(21.31%等质量样本2747(75.16%)以及质量样本129个(3.53%训练集1:只使用SMOTE过抽样法,为了将数据集比例变为1:1:1,同高于质量葡萄酒数据分别取过抽样率

=[ 酒数据集变为2337以及

= ]−1=17,即质量葡萄酒数据集变2E111量葡萄酒数据的过抽样率1=1,即高等质量葡萄酒数据集变为1558;令质量葡萄酒数据的过抽样率

]−1=11,即质量葡萄酒数据集变15480.6BP神经网络模型以及决C5.0模型,预测结果如下表所示4-11训练集各类别预测精度 测试集各类别预测精度123整123整Logistic多项模Tan分类BP神经网络分类决平均预测精4-21123数据原始分Logistic多项模型提升Tan分类器提升BP神经网络分类器提升决C5.0提升 94.14%,要远高于接下来的BP神经网络分类器72.47%,Tan分类64.07%Logistic62.37%,而数据平衡前的模型相比,除了决C5.0模型的准确度有所提高外,其他模型的准确率均有一定的下降,但是BP神经网络分类器下降程度较低,这应该是为提高级葡萄酒以及模型的56.72%以及Tan分类器的54.22%,这个准确率对比与数据平衡前的模型相比也是略有下降,这同样也应该是为提高级葡萄酒以及中类别精度基本相差不大,可以看到品质葡萄酒的预测精度最高达到了从各个分类器的测试集提升度上看,可以看出各个分类器的级以及高等100%但是我们也可以发现对于中等级葡萄酒的预测来说除了决C5.0模型为综合上面各方面的对比决C5.0模型无论是从准确性还是稳定性的角度都要远优于其他模型,另外BP神经网络也在一定程度上优于Tan分Logistic多项模型。项的BP神经网络模型以及决C5.0模型,预测结果如下表所示:4-32训练集各类别预测精度(%)测试集各类别预测精度123整123整Logistic多项模Tan分类BP神经网络分类决平均预测精4-42123数据原始分Logistic多项模型提升Tan分类器提升BP神经网络分类器提升决C5.0提升 12器都没有明显太大的差别,只是相比较而言,训练集2比训练集1所构建的分类我们也可以发现,训练集1的数据量为7406,而训练集2的数据量为4776,数164.49%2是更实际上,综合现阶段的所有模型对比我们发现,决C5.0模型似乎是所优化,现在决C5.0模型已经解决了分类器对于少数样本的预测问题,但是决C5.0分类器的进一步优Boosting的决决作为典型的分类器通过Boosting算法而形成一个决组合将能大大提高决的预测精度。本文的Boosting次数定为20,分别对数据平衡后的训练集合1以及训练集2进行构建,即分别生成一个共有20棵决的组合Boosting表4-5Boosting决基分类器估计准确12决1决2决3决4决5决6决7决8决9决决决决决决决决12决决决1的准确性略高于训练集2.另外,Boosting所构建的第一棵决,正是我们前面平衡数据后的决。同时,也可以发现,无论是训练集1还是训练集2,所构建的决策准确率都比第一棵决略有下降,这是因为在构建过程中调节权重的原因,使得接下来的决都更加关注错分样本身上。表4-6决C5.0分类器的预测精度对训练集各类别预测精度

测试集各类别预测精123整123整训练集1决训练集1BoostingC5.0训练集2决训练集2BoostingC5.0表4-7C5.0分类器的提升度对123训练集1决训练集1Boosting训练集2决训练集2Boosting从上面的决C5.0分类器的预测精度对比可以看出,使用Boosting确实可以大大提高决的准确率而且这种提高不仅仅反映在训练集上还反映在测Boosting70.07%68.2%上升到78.9%以及76.4%,而且我们很显然可以发现经过Boosting的决,对于每100%12,但21,这等同于牺牲多数类结合代价敏感学习的C5.0决葡萄酒,把高等品质葡萄酒误判为品质葡萄酒所带来的代价显然要大;而不仅仅误判跨度,从误判的方向上看,相比于把高等品质葡萄酒误判为品质葡萄酒,把品质葡萄酒误判为高等品质葡萄酒所带来的代价显然也要更大。为了能够构建一个更具有适应性模型,考虑结合将Boosting决结合成等品质葡萄酒过分低估为品质葡萄酒所造成的损失比较大故构建成本矩阵表4-8Boosting决C5.0成本矩123102321032102代价敏感决如下:表4-9Boosting决基分类器估计准确代价成本均等决的估计准确

代价敏感决的估计准确决 决 决 决 决 决 决 决 决 决 决 决 决决代价成本均等 的估计准 代价敏感 的估计准性性决决决决决从上表可以看出两种决的准确性性差别不大,为了更具体,我们表4-10代价成本均等及代价敏感决C5.0分类器的预测精度对训练集各类别预测精度

测试集各类别预测精 整123整代价成本均等决价敏感决0.16%匀,品质葡萄酒的预测准确性从55.56%提升到了74.07%,中等品质葡萄酒的预测准确性从78.41%提高到80.07,而作为牺牲,高等品质葡萄酒的准确性测从74.02下降到64.41%之所以出现这样的原因是因为在我们的成本矩阵中于品质的错误成本是最高的,而高等品质葡萄酒的犯错成本则相对较低。成本的降低上,这一点可以从下面两个组合分类器的矩阵中看出:表4-11代价成本均等决矩12312310042003表4-12代价敏感决矩训练集预测 测试集预测12312310022703807从上面的矩阵我们可以发现对于分类成本较大的误判情况都普遍降造成的损失也大大降低。而对于中等品质葡萄酒来说,尽管准确率仅提高了合成本矩阵,我们可以得到代价成本均等决由于误判造成的损失是:393.562.5个单位,降低了15.88%。再次说明结合代价成本矩阵的Boosting决是模型优化小对于葡萄酒的品质识别得到了极大的提高从一开始原始分类器对品质近乎于0的识别率(最低识别率为0%,最高为12.96%,平均识别率为7.95%)到经过数据平衡后,数据平衡训练集1测试集的平均54.17%(最低为35.19,最高为74.07%)的识别率,从中选出了最优的决C5.0模型再结合Boosting技术,使C5.0模型从训练集1构建模型的测试集整体识别率70.07%(低品质识别率:35.19%,中等品质识别率73.35%,高等品质识别率69.82%,中等品质识别率64.06%,高等品质识别率68.22%)分别提升到测试集整体识别率78.92%(低品质识别率:37.04%,中等品质识别率84.47%,高等品质识别率69.04%)以及整体识别率76.43%(低品质识别率:55.56%,中等品质识别率78.41%,高等品质识别率74.02%并从中选择更加平稳的基于训练集2构建的Boosting决C5.0作为下一步的提升。76.27%(低品质识别率:74.07%,中等品质识别率80.07%,高等品质识别率64.41%使到原393.5331个单位。总结与展总本文在回顾葡萄酒的发展的历程当中发现葡萄酒品质鉴定发展已经严此能否找到一种更为快捷方便并且客观的则显得尤为重要。4898111个品质分类器的测试集平均准确率为75.61%但是仅从绝对量来看,对低品质葡萄酒预测精度最高的决C5.0模型的预测12.96%。通过对数据的再次本文发现主要是由于样本数据的不平衡问题从而使得这些分类器对于低品质及高品质质量的葡萄酒识别率却非常的低。事实上,过抽样算法以及过抽样算法与欠抽样算法相结合的两种方式对数据进行平衡处54.17%66,同时也发现了四种分类算法当中,表现最佳的仍然是决C5.0E过抽样以及随机欠抽样的数据平衡处理方法相比于单独使用E过抽样方法有较好的效果因此从中选择决C5.0模型对模型进一步优化。后的决C5.0模型,测试集各个类别的预测精度为:55.56%、78.41%以及105.58%342.22%100%预测误判的成本并不是均等的同时也为弥补过往仅仅分类器的整体准确率确率为76.27%的基础上,仅仅相比于Boosting决C5.0下降了0.16%,使得模型低品质葡萄酒的识别从55.05%提升到最后的74.07%。同时也引入损失成本作为评价,使得原有的误判成本从393.5个单位下降到331个单位,令到分展这无疑为模型直接应用带来一定的。葡萄酒品质鉴定的新更具价值。而随着这些技术的涌现基于数据挖掘的葡萄酒品质鉴定将能够进行的参考文HanJiawei,MichelineKamber.数据挖掘:概念与技术[M].3版.:机械工业,2012.SEbeler.FlavorChemistry——Thirtyyearsofprogress[M].Dordrecht:KluwerAcademicPublishers,1999:409-422.ALegin,ARudnitskaya,LLuvova,etal.EvaluationofItalianwinebythetongue:recognition,tativeysisandcorrelationwithhumansensoryperception[J].yticaChimicaActa,2003,484(1:33-34.PauloCortez,AntonioCerdeira,FernadoAlmeida

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论