聚类分析实例分析题_第1页
聚类分析实例分析题_第2页
聚类分析实例分析题_第3页
聚类分析实例分析题_第4页
聚类分析实例分析题_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2 酿 酒 葡 萄 的 等 级 划 分5.2.1 葡萄酒的质量分类由问题 1 中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过 第二组评酒员对于酒的评分做出处理。我们通过 excel 计算出每位评酒员对每支 酒的总分,然后计算出每支酒的 10 个分数的平均值,作为总的对于这支酒的等 级评价。通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表 5)0 0表 5:葡萄酒等级表等级特优优优良良及格不及格分数95-10090-9480-8970-7960-690-59在问题 2 的计算中,我们求出了各支酒的分数,考虑到所有分数在区间61.6, 81.5波动,以原等级

2、表分级,结果将会很模糊,不能分得比较清晰。为此我们 需要进一步细化等级。为此我们重新细化出 5 个等级,为了方便计算,我们还对 等级进行降序数字等级(见表 60 0 0 0表 6:细化后的葡萄酒等级表等级偏优偏优良良中及格分数80-8475-7970-7465-6960-64数字等级54321通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表70 0:表 7:各支葡萄酒的等级编号红酒原等级细化等级白酒原等级细化等级1 号68.12277.9342 号743375.8343 号74.63475.6344 号71.23376.9345 号72.13381.5456 号66.32275

3、.5347 号65.32274.2338 号662272.3339 号78.23480.44510 号68.82279.83411 号61.62171.43312 号68.32272.43313 号68.82273.93314 号72.63377.13415 号65.72278.43416 号69.92367.32217 号74.53380.345(522 )18 号65.42276.73419 号72.63376.43420 号75.83476.63421 号72.23279.23422 号71.63379.43423 号77.13477.43424 号71.53376.13425 号68.

4、22279.53426 号723374.33327 号71.533773428 号79.634经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对 于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类, 然后在 通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。5.2.2 建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的 ward 最小方差法,又叫做离差平方和法。聚类分析是研究分类问题的一种多元统计方法。 所谓类, 通俗地说, 就是指 相似元素的集合。为了将样品进行分类,就需要研究

5、样品之间关系。这里的最小 方差法的基本思想就是将一个样品看作P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。面对现在的问题,我 们不知道元素的分类,连要分成几类都不知道。现在我们将用SAS 系统里面的step disc 和 cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类 问题。建立数据阵,具体数学表示为:X11X .Xn1式中,行向量 Xi(Xii,.,Xm)表示第 i 个样品;列向量 Xj(Xij,., Xnj),表示第 j 项指标。(i=1,2,n;j=1,2,m)接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用

6、 了使用最广范的方法,ward 最小方差法。其中用到了类间距离来进行比较,定 义为:Dkl|XkXl心/nk1/n,)Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何 确定类的个数,这是一个十分困难但又必须解决的问题; 因为分类本身就没有一 定标准,人们可以从不同的角度给出不同的分类。 在实际应用中常使用下面几种Xim(521 )Xnm方法确定类的个数。由适当的阀值确定,此处阀值为 Dkl。根据样本的散点图直观的确定。当样本所含指标只有 2 个或 3 个时,可运用 散点图直观观察。如果指标超过 3 个时,可用主成份

7、法先综合指标。根据统计量确定分类个数。在 SAS 中,提供了一些来自方差分析思想的统计 量近似检验类个数如何选择更合适。1) R2统计量:其中,sA为分类数为 k 个数时的总类内离差平方和,s2为所有样品或变量 的总离差平方和。R2越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为 k 个类的效果越好。显然分类越多,每个类离差越小,R2越大,所 以我们只能取 k 使得 R2足够大,但 k 本身比较小,而且 R2不再大幅度增加。2)半偏 R2统计量:在把类 Ck和类 Cl合并为下一水平的类 Cm时,定义半偏相关:半偏R2Bkl/T其中 BklSm(SkSl)为合并类引起的类内离差平方

8、和的增量:ST为类CTR21SA/STSB/ST(523 )(524)的类内离差平方和。半偏R2用于评价单次合并效果,其值越大,说明上次合并效果越好。3)伪 F 统计量:伪=(T-Pk)/(k-1)Pk/( n k)(525)伪!I 统计量评价分为理。通常取伪 F 统计量较大而类数小的聚类水平。k 个类的效果。伪 F 统计量越大,表达分为 k 个类越合4)伪 t2统计量:2tBkl/ (SkSl)/(nkn 2)(526)用此统计量评价合并类 Ck和类 G 的效果,该值大说明合并的两个类 Ck和类G 是很分开的,这个合并不成功,而应该去合并前的水平。通过使用 sas 软件的 cluster 过

9、程和 tree 过程,可以求解分析出结果。523 模型的求解与分析首先,我们利用附件 2 中白葡萄酒中酿酒葡萄的 59 个理化指标,通过聚类 分析,把酿酒葡萄分成五类,得到初步的结果(见图3):从图中我们能够直观的看到把酿酒葡萄分为 5 大类,为了检验效果,我们通 过判别分析检验原本的 28 种葡萄分类的结果,得到表 8.表&误判概率表(具体表见附录)组号12345概率0.27270.12500.33330.40001.000在误差一栏我们看到,每一组的分类都存在或多或少的误差, 我们觉得这个 结果是不满意的。为了进一步优化方案以及简化分析过程, 我们利用逐步判别法 对参与分类的因素进行逐步剔

10、除,以达到减少噪声干扰的目的,让得到的结果更 加合理和完善。通过逐步判别法,我们剔除了原本 59 个数据中的 35 个相关不大,造成干扰 的因素,剩下了 24 个因素。经过剔除干扰项后,为了检验剔除后干扰项后的结 果是否更加合理,我们重新对剩余的 24 个因素进行了聚类分析,做谱系聚类图 和判别分析。得到了新的结果(见表 9):表 9:优化后的聚类分析部分结果(详细见附录)分类数样品数半偏 R2R2伪 F 统计量伪 t 统计量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.92

11、70.16480.53630.110.01280.5362030.1综合个数据检验,把葡萄分为 5 个类别是比较合理的一种方案,为了检验与 之前的差异我们得到了新的谱系聚类图(见图 4)通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动 之外,整体的分组是没有改变的。所以,我们第一步得到了优化结果的可靠。但图 3:谱系聚类图图 4:优化后的谱系聚类图仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结 果的可靠。表 10:优化后的判别分析表数据组号12345概率000.166701.000我们不难 W 发现,表中的错误只在第3 组出现了 0.1667 的误差,

12、其他组是没有存在误差的。这个结果是比较令人满意也令人信服的。 由此,我们得到的结果 是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。具体分类结果为:表 11:白葡萄酒酿酒葡萄分类分类/组数组别A/共组P1, P8,P13,P16,P17,P18,P19,P22B/共组P14, P21, P23C/共组P2,P 3, P4, P6,P 7, P9,P 11, P12D/共组P10, P20,P 25, P26E/共组P 3, P5, P15 ,P 24, P27,P 28通过该组的成功检验,我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的 分类。由于用到的算法与检验方法一样,所以这里不再

13、累赘,将直接输出最后分 组结果。部分详细内容见附录。表 12:红葡萄酒酿酒葡萄的分类分类/组数组别A/共组P1,P4,P5,P8,P15,P17,P24B/共组P 2, P7, P9, P11, P19 ,P 20, P22, P23C/共组P10, P13 ,P 14, P16 ,P 25, P26, P27D/共组P6,P12,P18E/共组P3,P21分类完毕,接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行 评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的 说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变 差,但好的酒由好的葡萄酿制出

14、来是毫无疑问的。 为此我们把对于酒的等级相当 于对葡萄打分。每种葡萄分别得到分数 Si,i 表示第 i 种葡萄。通过将每组的葡 萄总分除以组内总数得到的数据,对葡萄进行分类,分类指标=S/组内数通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:表 13:对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有:白葡萄酒酿酒葡萄得分等级E4.2特优B4优C,D3.75良好A3.62中红葡萄酒酿酒葡萄得分等级B,E3良好A,C2.57中等D2及格proc cluster data =wg outtree =tree methockward ccc pseudo print =15;var a1-

15、a59;id number;run;proc tree data =tree out =new nclusters =5 graphics;copy a1-a59;id number; run;procclassrun;proccrossvalidate ;class cluster;p riors prop orti onal ;var a1-a59;附录四:第二小题,优化后的数据运行程序proc cluster data =nwg outtree =tree method=ward ccc pseudo print =15 var b1-b24; | idnumben 丨 run;proc

16、 tree data =tree out =new nclusters =5 graphies; copy b1-b24;id number; run;procclassrun;proccrossvalidate ;class cluster;p riors prop orti onal ;var b1-b24;run;ste pdisc data= new;cluster;discrim data= new outstat =n ewstat methoc=normal poo I =yes listste pdisc data= new;cluster;discrim data= new

17、outstat =n ewstat methock no rmal poo I =yes list附录五:原判别分析表thOrlthOrl讷ttkr-Ffttkr-Ff I I HitHit口“訂|TJirtivirtiv WLSILWLSIL4 4 附录六:优化后的判别分析表CLiCIECLiCIE1 124F F_ _ToLilToLil1 1& &0i i 0 00 008 81DC.0Q1DC.0QO.DOO.DOO.DOO.DO0.001 10 00 0. .0 00 02 2Q Q1010flfl0 0Q1 10 0Ql.iDDQl.iDD110.DO110.DOO.DOO.DOO

18、 O. .D DD DQ.oa1 10 00 0. .0 00 01 1Q Q15 51 1D DR RCIJOUCIJOUle.GT阳.即Q.DQQ.DQ0,001 10 00 0. .0 00 04 4D D0 0flflS S00n ni ij jn no oD.fln(l.Dfl(l.Dfli in nn n, ,n nf fhiwi in nn n+ +o on ny y1 1u uflflD D01 1I ID DC CU UO OD D0.000.00O.DQO.DQ0 0血0.001 10 00 0. .0 00 0TotalTotal9 911G Ga a02 2e e仏1

19、11 1J3J3”2!)2!)V.StiV.Sti1 10 0. . 1 1UJOl lU UU U. .C CU UPr onn n”2 2 腹 7171n.357Un.357U0J140J14 紬Q.IOJIiQ.IOJIio.oaiTiErprErpr CcutlCcutlLstLst imalDaimalDa f f oror CLUSTEflCLUSTEfl1 13 34 45 5TulaTula 1 1RmlcRmlcQ+Q(mQ+Q(mD.COO)D.COO)ojee?ojee?Q.DtOOQ.DtOO1.O0COO O, ,0 0? ?1 14 4Pr lorsn.2B&in.

20、2B&iQ.SS/IU.3UJU.3UJ0 0. .1 11 1/ /1 10.03570.0357HunterHunter口f fOtsevatlcnOtsevatlcns sarid PercentClassifiedClassified htchtcC CU UJ JS ST TE EF FFronFronCUJIEFC C IkisterIkisterHistoryHistoryNCLNCL-tlbisle广5: Joi nedFFOFFOspnsQRSORSOERSOERSO1515CLCL 1 1CL17CL175 5oijQonoijQonMHi i1414p14p14p23p23 俪 6 6I I1313CL24CL24p2bp2b3 30,00330,0033価 3 3I I1212CL19CL19CLia501,10034.9IS101111CLIGCLIGCLMCLMe e0.00350.0035.97G.97G1010CLI4CLI4氐 1 13 30.00040.0004.970.9709 9CLI2CLI2CL15CL1510100 0.01095.01095.般 0 08 8P24P24P P 时2ojoinojo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论