聚类分析的案例分析和聚类分析实例分析题_第1页
聚类分析的案例分析和聚类分析实例分析题_第2页
聚类分析的案例分析和聚类分析实例分析题_第3页
聚类分析的案例分析和聚类分析实例分析题_第4页
聚类分析的案例分析和聚类分析实例分析题_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《应用多元统计分析》——报告班级:学号:姓名:聚类分析的案例分析摘要本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况,从而判断出这几个地区的污染程度。经过聚类分析可以得到,样本6这一地区的气体浓度值最高,污染程度是最严重的,样本3和样本4气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。关键词:SPSS软件聚类分析学生成绩数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性。可以根据这些相似性把相似程度较高的归为一类,从而对其总体进行分析和总结,判断其之间的差距。系统聚类法的基本思想是在这几个样本之间定义其之间的距离,在多个变量之间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。根据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中,这里我们用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。K均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。数据来源《应用多元统计分析》第一版164页第6题我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的8个大气取样点,在固定的时间点每日4次抽取6种大气样本,测定其中包含的8个取样点中每种气体的平均浓度,数据如下表。试用聚类分析方法对取样点及大气污染气体进行分类。建立数学模型运行过程(一)系统聚类分析在SPSS界面对上述数据进行系统聚类分析如图1和图2所示,进行最近距离分类。图1图2(二)K均值聚类分析对数据进行K均值聚类分析,如下图所示:图3图4图5运行结果聚类树形图图6由图可以看出,将数据进行聚类分析,根据设定的分为了二类到三类。若分为两类则样本6为一类,其他为一类;若分为三类则将样本四分离出来,其他分为一类。新变量图7该图显示将分类结果的新变量,分别为CLU3_1和CLU2_1。可以清楚的看到将数据聚为2类和3类的分类情况。新变量迭代过程中类中心的变化量迭代历史记录a迭代聚类中心内的更改12341.049.042.000.0742.000.000.000.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为2。初始中心间的最小距离为.230。图8从表中可以看出本次聚类过程共进行了两次迭代。由于我们在Iterate子对话框中设置最大迭代次数为10和收敛判据为0,所以在第二次迭代后,类中心的变化为0,从而迭代停止。各观测量所属类成员表聚类成员案例号聚类距离11.04921.07134.07444.07452.04263.00072.04281.060图9最终类中心表最终聚类中心聚类1234X1.0580.0660.0640.0360X2.0753.0775.0720.1125X3.0527.0455.1000.0685X4.0660.2900.2100.1650X5.0397.0250.0280.1290X6.0168.03851.3800.0360图10根据结果(五)和结果(六)可以看出,将8个样本聚为了4类。第一类包括样本1、样本2和样本8,根据图1中聚类1这一列可以看出,这一类为这四类中气体浓度值最低的一类,也就是说该类的环境污染不严重,属于优;第二类包括样本5和样本7,该类气体浓度也是比较低的一类,环境污染有些严重,属于良;第三类包括样本6,这一气体浓度最高,环境污染最严重,属于差;第四类包括样本3和样本4,环境污染较严重,属于中。新变量如图所示,QCL_1为分类情况,而QCL_2为所属类中心距离。结论通过在SPSS软件中对聚类分析案例的运用将不同的样本聚为不同的类,并算出其间的距离更加清楚方便的将多项不同的样本进行聚类分析,并对其的总体情况进行估计,最后能够得到各类别的气体浓度总体情况,从而判断出环境污染的严重情况。经过这次实验学到了很多东西,遇到的问题也一一得到解决。5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。表5:葡萄酒等级表等级特优优优良良及格不及格分数95-10090-9480-8970-7960-690-59在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。表6:细化后的葡萄酒等级表等级偏优偏优良良中及格分数80-8475-7970-7465-6960-64数字等级54321通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):表7:各支葡萄酒的等级编号红酒原等级细化等级白酒原等级细化等级1号68.12277.9342号743375.8343号74.63475.6344号71.23376.9345号72.13381.5456号66.32275.5347号65.32274.2338号662272.3339号78.23480.44510号68.82279.83411号61.62171.43312号68.32272.43313号68.82273.93314号72.63377.13415号65.72278.43416号69.92367.32217号74.53380.34518号65.42276.73419号72.63376.43420号75.83476.63421号72.23279.23422号71.63379.43423号77.13477.43424号71.53376.13425号68.22279.53426号723374.33327号71.533773428号79.634经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。5.2.2建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward最小方差法,又叫做离差平方和法。聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析,最终确定元素对象的分类问题。建立数据阵,具体数学表示为:QUOTEX=x11⋯x1m⋮⋱式中,行向量QUOTEXi=(xi1,…,x列向量QUOTEXj=x1j,…,xnj’接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用了使用最广范的方法,ward最小方差法。其中用到了类间距离来进行比较,定义为:QUOTEDkl=||Xk-XLWard方法并类时总是使得并类导致的类内离差平方和增量最小。系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定,此处阀值为。根据样本的散点图直观的确定。当样本所含指标只有2个或3个时,可运用散点图直观观察。如果指标超过3个时,可用主成份法先综合指标。根据统计量确定分类个数。在SAS中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。1)统计量:QUOTER2=1-SA2S其中,为分类数为k个数时的总类内离差平方和,为所有样品或变量的总离差平方和。QUOTER2越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。显然分类越多,每个类离差越小,越大,所以我们只能取k使得足够大,但k本身比较小,而且不再大幅度增加。2)半偏统计量:在把类和类合并为下一水平的类时,定义半偏相关:(5.2.4)其中为合并类引起的类内离差平方和的增量:QUOTEST为类的类内离差平方和。半偏用于评价单次合并效果,其值越大,说明上次合并效果越好。3)伪QUOTEF统计量:QUOTE伪F=(T-PK)/(k伪F统计量评价分为k个类的效果。伪统计量越大,表达分为k个类越合理。通常取伪F统计量较大而类数小的聚类水平。4)伪统计量:QUOTEt2=BkL/((S用此统计量评价合并类和类的效果,该值大说明合并的两个类和类是很分开的,这个合并不成功,而应该去合并前的水平。通过使用sas软件的cluster过程和tree过程,可以求解分析出结果。5.2.3模型的求解与分析首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表8.表8:误判概率表(具体表见附录)组号12345概率0.27270.12500.33330.40001.000在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。得到了新的结果(见表9):表9:优化后的聚类分析部分结果(详细见附录)分类数样品数半偏伪统计量伪统计量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.9270.16480.53630.110.01280.53620.30.1综合个数据检验,把葡萄分为5个类别是比较合理的一种方案,为了检验与之前的差异我们得到了新的谱系聚类图(见图4)图3:谱系聚类图图4:优化后的谱系聚类图通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动之外,整体的分组是没有改变的。所以,我们第一步得到了优化结果的可靠。但仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结果的可靠。表10:优化后的判别分析表数据组号12345概率000.166701.000我们不难发现,表中的错误只在第3组出现了0.1667的误差,其他组是没有存在误差的。这个结果是比较令人满意也令人信服的。由此,我们得到的结果是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。具体分类结果为:表11:白葡萄酒酿酒葡萄分类分类/组数组别A/共组P1,P8,P13,P16,P17,P18,P19,P22B/共组P14,P21,P23C/共组P2,P3,P4,P6,P7,P9,P11,P12D/共组P10,P20,P25,P26E/共组P3,P5,P15,P24,P27,P28通过该组的成功检验,我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。由于用到的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。部分详细内容见附录。表12:红葡萄酒酿酒葡萄的分类分类/组数组别A/共组P1,P4,P5,P8,P15,P17,P24B/共组P2,P7,P9,P11,P19,P20,P22,P23C/共组P10,P13,P14,P16,P25,P26,P27D/共组P6,P12,P18E/共组P3,P21分类完毕,接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变差,但好的酒由好的葡萄酿制出来是毫无疑问的。为此我们把对于酒的等级相当于对葡萄打分。每种葡萄分别得到分数,表示第种葡萄。通过将每组的葡萄总分除以组内总数得到的数据,对葡萄进行分类,通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:表13:对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有:白葡萄酒酿酒葡萄得分等级E4.2特优B4优C,D3.75良好A3.62中红葡萄酒酿酒葡萄得分等级B,E3良好A,C2.57中等D2及格procclusterdata=wgouttree=treemethod=wardcccpseudoprint=15;vara1-a59;idnumber;run;proctreedata=treeout=newnclusters=5graphics;copya1-a59;idnumber;run;procstepdiscdata=new;classcluster;run;procdiscrimdata=newoutstat=newstatmethod=normalpool=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论