版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用多元统计分析实验讲义实验项目五 聚类分析一、 实验内容、目标及要求(一) 实验内容聚类分析是一种研究事物分类的方法,其目的是把分类对象按一定的规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。通俗的讲,聚类分析法是用来对资料做简化的工作及分类,也就是把相似的个体(观察量)归于一群。例如汽车制造商可以通过聚类分析确定目前市场中竞争产品是哪些。下面从SPSS自带数据car_sales.sav(SPSS/tutorial/sample)中选择数据进行分析。(二)实验目标SPSS软件中系统聚类法和K均值聚类的计算机操作及结果分析。(三)实验要求要求学生能熟练应用计算机软件进行聚类分析
2、,并对结果进行分析,培养实际应用能力。二、实验准备(一)运行环境说明电脑操作系统为Windows XP,所需软件为SPSS 16.0。(二)基础数据设置说明将数据正确导入SPSS,设置相应的变量值。三、实验基本操作流程及说明(一)系统界面及说明同实验一。(二)操作步骤1. 选择菜单项AnalyzeClassifyHierachical Cluster,打开Hierachical Cluster Analysis对话框,如Error! Reference source not found.。将原始变量Price in thousands到Fuel efficiency移入Variables列表框
3、框中,将标志变量Model移入Label Case by列表框框中。图5-1 Hierachical Cluster Analysis对话框在Cluster栏中选择Cases单选按钮,对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。2. 点击Plots按钮,打开Plots子对话框,如图5-5。设置结果输出窗口中给出的聚类分析统计图。Dendrogram为聚类树形图,Icicle为冰柱图。图5-2 Plots子对话框这里我们选中Dendrogram复选框和Icic
4、le栏中的None单选按钮,只输出比较常用的聚类树形图,而不给出冰柱图。3. 点击Method按钮,打开Method子对话框,如图56,设置系统聚类的方法选项。图5-3 Method子对话框Cluster Method下拉列表用于指定类与类之间距离的测度方法,具体选项的含义参见教材。Measure栏用于设置不同数据类型下的个体与个体之间距离的测度方法,其中,Interval中的方法适用于连续型变量,Counts中的方法适用于计数变量,Binary中的方法适用于二值变量。 Transform Values选项栏用于当原始数据不是同一数量级别的时候选择对原始数据进行标准化的方法。单选按钮By va
5、riable表示针对变量进行标准化,适用于Q型聚类;By case表示针对观测进行标准化,适用于R型聚类。这里我们选择最为常用的Z分数标准化法对原始数据进行标准化,其余选项均保持默认。4. 点击Save按钮,打开 Save New Variables子对话框,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表
6、明将样品分为2类、3类和4类时的聚类结果。5. 在主对话框中点击OK按钮,运行系统聚类过程,结果如表51和图57所示。表5-1 聚类过程表图5-4 树状图BKmeans操作步骤及结果分析电信营销商对客户分类分析。telco_extra.sav 1. 选择菜单项AnalyzeClassifyK-Means Cluster,打开K-Means Cluster Analysis对话框,如Error! Reference source not found.。将原始变量x1x3移入Variables列表框框中,将标志变量Region移入Label Case by列表框框中。图5-5 K-Means Cl
7、uster Analysis对话框在Method选项栏中选择Iterate classify单选项,使用K-means算法不断计算新的类中心,并替换旧的类中心;若选择Classify only,则根据初始类中心进行聚类,在聚类过程中不改变类中心。在Number of Cluster后面的输入框中输入想要把样品聚成的类数,这里我们输入3,即将电信客户分为3类。至于Centers按钮,则用于设置迭代的初始类中心。如果不用手工设置,则系统会自动设置初始类中心,这里我们不作设置。2. 点击Iterate按钮,打开Iterate子对话框,对迭代参数进行设置。图5-6 Iterate子对话框Maximum
8、 Iterations输入框用于设定K-means算法迭代的最大次数;Convergence Criterion输入框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于0.02时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的某一个条件,则迭代过程就停止。另外,如果选择了Use running means复选框,则每当一个样品被分配到一类时便要立即重新计算新的类中心;如果不选该选项,则完成了所有样品的重新分配之后才要计算新的类中心,不选该选项会比较节省事件。这里我们保持该对话框的系统
9、默认选项。3. 点击Options按钮,打开Options子对话框,如Error! Reference source not found.。对话框中Statistics选项栏中各选项的含义如下:Initial cluster centers:在结果输出窗口中给出聚类的初始类中心;ANOVA table:给出以聚类结果为控制变量的针对每个原始变量的单因素方差分析表;Cluster information for each case:在结果输出窗口中给出每个样品的分类信息,包括分配到哪一类以及该观测量距所属类中心的距离。单击Continue返回主对话框。 图5-10 Options子对话框4. 在
10、主对话框中点击OK按钮,运行K均值聚类分析程序。表5-2给出了K均值迭代的初始类中心坐标,由SPSS自动给定。表 5-2 初始类中心表表5-3给出了K均值迭代的过程,表中每一行代表每次迭代导致的类中心的变化量。从表中看出,每次迭代导致的类中心变化量在逐渐减少,第18迭代导致的类中心的变化量已经为0,达到了收敛(我们在Iterate子对话框中设置的收敛条件为“最大迭代次数为20和收敛判据为0”)。表5-3迭代过程表5-4给出了分类变量的方差分析表,检验各分析变量的均值在不同类中是否存在显著差异,这也是对我们的分类效果是否显著的检验,检验的原假设是分析变量在不同类中不存在显著差异。从表的结果来看,针对分析变量的方差分析的值均小于0.05,需要拒绝原假设,说明所选的聚类变量对于分类具有显著作用。表5-4 ANOVA表5-5给出了最终的聚类中心结果。表5-5最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水泥生产线高效拆除方案
- 物流行业机械伤害应对方案
- 跨境检验检疫大数据
- 航空航天设备供货培训方案
- 挡土墙施工图纸审核方案
- 2024年马口铁印刷产品项目可行性研究报告
- 龙舟赛活动方案
- 2023年外贸项目评估分析报告
- 2023年工具油项目评价分析报告
- 2023年污物桶项目评价分析报告
- 商会各类岗位职责
- 高中政治部编版教材高考双向细目表
- 四年级上册英语课件- M3U2 Around my home (Period 3) 上海牛津版试用版(共18张PPT)
- 轮扣式模板支撑架安全专项施工方案
- 酒店装饰装修工程验收表
- 新北师大版六年级上册数学全册教案(教学设计)
- 呼吸科(呼吸与危重症医学科)出科理论试题及答案
- 调研报告:关于棚户区改造现状、存在问题及对策建议
- 技工学校教师工作规范
- 2022年医院关于缩短患者平均住院日的管理规定
- 清新个人工作述职报告PPT模板
评论
0/150
提交评论