聚类分析在汽车行业应用研究_第1页
聚类分析在汽车行业应用研究_第2页
聚类分析在汽车行业应用研究_第3页
聚类分析在汽车行业应用研究_第4页
聚类分析在汽车行业应用研究_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析在汽车行业的应用研究孔尕平(1306122421) 杨欢欢(1306122427)一、问题叙述近年来,随着人们生活水平的提高,汽车逐渐进入了人们的日常生活中,因而带动了汽车行业的飞速发展。与此同时,市场上汽车种类繁多,衡量汽车质量的性能指标又多种多样,因此,本研究将通过多元统计方法,探究汽车类型与其性能指标之间的存在的内在联系,并且根据这些指标对各种汽车进行聚类,例如分为质量优、中、良三个等级,可以为广大汽车购买者及销售商提供一定的指导作用。二、数据介绍本数据主要来源于19组数据及其说明,记录了几种车型性能指标的数据,其中包括23个样本,每个样本主要用8个变量指标来描述,分别为econ

2、omy,service,value,price,design,sport,safety,easyiness。三、数据处理在进行数据分析之前,首先通过描述统计分析方法,判断市场上汽车的性能指标的大体水平,主要从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。在本案例中,通过比较不同车型(如A100,BMW3,CiAX等)性能指标的均值、极大/小值,可以从总体上判断哪些车型的性能较好,哪些车型的较差。四、分析基本思路聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、

3、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。我们对数据进行了基本的描述统计之后,接下来需要对23种车型进行聚类分析,大致分为3-5类,性能从差到优良。在本案例中,我们将采用两种方法进行聚类:一种是系统聚类法,另一种是K-均值法(快速聚类法)。系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这

4、一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种:(1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;(2)最长距离法(Farthest Neighb

5、or),是指两类之间每个个体距离的最大值;(3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值; (4)组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内; (5)重心距离法(Centroid clustering),是指两个类中心点之间的距离; (6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作

6、为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。 快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。五、分析过程(一)描述性统计方法在数据编辑窗口的主菜单中选择“分析(A)” “描述统计” “描述性

7、分析”(如下图)打开如下对话框,将左侧框中的所有变量选入右侧框中,单击“选项”按钮,在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值等,如下图所示:点击“确定”按钮之后,得到分析结果。(二)聚类分析1.系统聚类法在数据编辑窗口的主菜单中选择“分析(A)” “分类(F)” “系统聚类(H)”,弹出“系统聚类分析”对话框,将“carmark”变量选入“标准个案(C)”中,将其他变量选入“变量框”中,如下图。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。 单击“统计量(S)”按钮,在“系统聚类分

8、析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如下图所示,表示输出结果将包括这两项内容。单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如下图所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图所示。2.K-均值聚类在数据编辑窗口的主菜单中选择“分析(A)”“分类(F)”“K-均值聚类(K)”,弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图下图所示。在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“3”,

9、表示聚类结果将分成3类。单击“迭代(I)”按钮,弹出“K均值聚类分析:迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如下图所示,表示设定的最大迭代次数为10。单击“选项(O)”按钮,在“K均值聚类分析:选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如下图所示,表示输出结果将包括这两项内容。单击“保存(S)”按钮,在“K均值聚类分析:保存”对话框中选择“聚类成员(C)”、“与聚类中心的距离(D)”,如下图所示,表示输出结果将包括这两项内容。六、分析结果(一)描述性统计分析输出结果分析:从分析描述统计量的输出结果可知,平均性能指标较高的有动力性(3.4652)、经济

10、性(3.293)、安全性(3.2870);平均性能指标最低的为舒适性(2.7870)。从极大值和极小值方面分析,在所有车型中,极大值最大的是价格(5.90)和安全性(5.90),极小值最小的是动力性(1.10)。指标性能波动较大的有价格(1.412)和安全性(1.259),舒适性(0.318)的稳定性最好。(二)聚类分析1.系统聚类下表显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。Proximity MatrixCaseUndefined error #14703 - Cannot open t

11、ex Squared Euclidean Distance 1:A1002:BMW33:CiAX4:Ferr5:FiUn6:FoFi7:Hyun8:Jagu9:Lada10:Mazd11:M20012:Mits13:NiSu14:OpCo15:OpVe16:P30617:Re1918:Rove19:ToCo20:Trab21:VWGo22:VWPa23:Wart1:A100.000.397.7591.0611.303.562.576.6241.203.579.253.160.781.551.117.442.360.064.3962.525.102.3482.5872:BMW3.397.0002

12、.111.8472.9681.6341.705.3402.7331.716.121.8582.0081.432.6151.4951.320.4861.3074.406.361.9504.4843:CiAX.7592.111.0002.710.137.231.2032.358.093.1831.641.347.101.435.693.114.212.671.291.6921.036.701.8804:Ferr1.061.8472.710.0003.7782.3072.570.2213.0962.1011.3841.6052.8742.7191.6192.2022.019.8902.0204.37

13、01.5762.4384.0135:FiUn1.3032.968.1373.778.000.376.3303.288.229.3652.295.679.193.5641.057.343.4471.229.495.8391.553.9251.1216:FoFi.5621.634.2312.307.376.000.0551.775.443.0601.213.161.094.134.337.082.049.450.0261.409.795.4771.5717:Hyun.5761.705.2032.570.330.055.0001.966.439.1401.222.181.067.155.324.06

14、5.063.522.0901.415.759.3911.6738:Jagu.624.3402.358.2213.2881.7751.966.0002.9101.780.6621.1192.3341.912.9411.7291.515.5391.4994.428.9041.5904.3489:Lada1.2032.733.0933.096.229.443.4392.910.000.3162.292.681.232.7721.173.337.4881.021.557.3471.5991.164.45810:Mazd.5791.716.1832.101.365.060.1401.780.316.00

15、01.370.195.147.310.466.115.095.458.0731.209.901.6521.20511:M200.253.1211.6411.3842.2951.2131.222.6622.2921.370.000.5781.504.897.3171.093.941.413.9393.978.104.4884.17812:Mits.160.858.3471.605.679.161.1811.119.681.195.578.000.274.212.092.110.063.136.0751.803.310.2591.96013:NiSu.7812.008.1012.874.193.0

16、94.0672.334.232.1471.504.274.000.214.542.076.130.667.156.978.992.5401.26514:OpCo.5511.432.4352.719.564.134.1551.912.772.310.897.212.214.000.247.212.159.547.1201.951.554.2322.24115:OpVe.117.615.6931.6191.057.337.324.9411.173.466.317.092.542.247.000.320.216.174.2152.586.147.1492.80416:P306.4421.495.11

17、42.202.343.082.0651.729.337.1151.093.110.076.212.320.000.024.373.0861.170.656.4581.38517:Re19.3601.320.2122.019.447.049.0631.515.488.095.941.063.130.159.216.024.000.304.0291.473.558.4001.64018:Rove.064.486.671.8901.229.450.522.5391.021.458.413.136.667.547.174.373.304.000.3222.160.282.4652.24119:ToCo

18、.3961.307.2912.020.495.026.0901.499.557.073.939.075.156.120.215.086.029.322.0001.632.589.3821.75520:Trab2.5254.406.6924.370.8391.4091.4154.428.3471.2093.9781.803.9781.9512.5861.1701.4732.1601.632.0003.1242.598.19721:VWGo.102.3611.0361.5761.553.795.759.9041.599.901.104.310.992.554.147.656.558.282.589

19、3.124.000.2453.28822:VWPa.348.950.7012.438.925.477.3911.5901.164.652.488.259.540.232.149.458.400.465.3822.598.245.0002.96523:Wart2.5874.484.8804.0131.1211.5711.6734.348.4581.2054.1781.9601.2652.2412.8041.3851.6402.2411.755.1973.2882.965.000This is a dissimilarity matrix下表显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示

20、的是“聚合系数”,第2列和第3列表示的是聚合的类。Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 211617.0240032619.0260033616.0622164118.06400115713.0670096610.08630971215.0920011839.0930012967.1026513101121.104001611112183801813614

21、.1869018142023.19700221548.221002116211.2410101917122.305110191836.3531213201912.4301716202013.85019182121141.832201522221202.21821140下图是冰柱图,是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。下图是用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为3类的话,如图所示,第1类包括A100、FoFi、Hyun、Mazd、Mits、NiSu、OpCo、OpVe、P306、Re19、Rove、ToCo、VWGo、V

22、WPa等14种车型,第2类包括BMW3、Ferr、Jagu、M200等4种车型,剩下的其他5种属于第3类。Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ P306 16 -+ Re19 17 -+ FoFi 6 -+ ToCo 19 -+-+ Mazd 10 -+ | Hyun 7 -+ +-+ NiSu 13 -+ | | OpCo 14 -+ +-+ CiAX 3 -+-+ | |

23、 Lada 9 -+ +-+ | FiUn 5 -+ +-+ M200 11 -+-+ | | VWGo 21 -+ +-+ | | BMW3 2 -+ | | | A100 1 -+-+ +-+ +-+ Rove 18 -+ +-+ | | | Mits 12 -+-+ +-+ | | OpVe 15 -+ | | | VWPa 22 -+ | | Ferr 4 -+-+ | Jagu 8 -+ | Trab 20 -+-+ Wart 23 -+2.K-均值聚类输出结果中,下表表示的是初始聚类的中心,也就是种子点。Initial Cluster CentersCluster123ECONOM

24、Y3.105.303.60SERVICE2.202.904.70VALUE2.102.205.50PRICE3.205.901.50DESIGN3.501.704.10SPORT3.501.105.80SAFETY2.803.305.90EASYINESS1.804.303.10下表是迭代历史记录。迭代历史记录a迭代聚类中心内的更改12311.4061.5081.5522.124.670.3933.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 5.304。下表表示的是最终聚类中心,可以看出

25、,第3类的平均性能最好,第1类居中,第2类平均性能最差。最终聚类中心聚类123ECONOMY2.954.703.12SERVICE2.912.154.20VALUE2.991.874.62PRICE3.135.252.10DESIGN3.181.854.34SPORT3.362.104.86SAFETY3.002.284.90EASYINESS2.593.282.96下表表示的是最终聚类中心间的距离,可以看出,第1类与第3类之间的距离(3.570)要比第1类与第2类之间的距离(3.707)大。最终聚类中心间的距离聚类12313.7073.57023.7076.70633.5706.706下表表

26、示的是每个聚类中的案例数,可以看出,第1类有14个样本,第2类中有4个样本,第3类有5个样本。每个聚类中的案例数聚类114.00024.00035.000有效23.000缺失.000下表是聚类表,表示的是每个个案的分类情况:第3列“聚类”表示的是该案例属于哪一类,第4列“距离”表示该案例与其所属类别重心之间的距离。聚类成员案例号CARMARK聚类距离111.7882BMW321.1133CiAX31.5734Ferr22.1395FiUn31.6826FoFi11.1457Hyun11.2198Jagu21.0709Lada3.61910Mazd11.42611M20022.00912Mits

27、1.57113NiSu11.79614OpCo11.25115OpVe11.25316P30611.02917Re191.64418Rove11.58219ToCo1.73320Trab31.89121VWGo12.34622VWPa11.45523Wart31.814分析上表可知,若采用“K-均值聚类法(快速聚类法)”,第1类包括A100、FoFi、Hyun、Mazd、Mits、NiSu、OpCo、OpVe、P306、Re19、Rove、ToCo、VWGo、VWPa等14种车型。第2类包括BMW3、Ferr、Jagu、M200等4种车型。剩下的其他5种属于第3类。对上表进行整理可得:ECONOMYSERVICEVALUEPRICEDESIGNSPORTSAFETYEASYINESS第1类A1003.92.82.24.233.12.42.8FoFi2.33.13.42.63.23.33.62.8Hyun2.53.43.22.23.33.33.32.4Mazd2.63.33.72.83.733.73.1Mits3.22.93.23.53.13.12.92.6NiSu2.63.33.92.13.53.93.82.4OpCo2.22.432

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论