版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章聚类分析5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于 哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我 们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗 来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道 类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想
2、是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类, 过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 ,、,P、,、, q、1/q(一)闵可夫斯基距离:dj(q) ( Xik Xjk )q取不同值,分为(1)绝对距离(q 1)(2)欧氏距离(q 2)(3)切比雪夫距离(q )(二)马氏距离(三)兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或
3、变化方向,因此用相关性进行衡量将变量看作p维空间的向量,一般用(一)夹角余弦(二)相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答:设dj表示样品X与X之间距离,用D表示类G与G之间的距离。(1) .最短距离法(2)最长距离法2 1 2Dkr八 Dkp12I - I 81 0 4122Dkq2D pq(3)中间距离法其中(4)重心法 (5)类平均法(6)可变类平均法Dkr (1)(npD2p nqDkq)Dpq其中?是可变的Fr? <1 nr(7)可变法_ 2 1_ 2 _ 2_ 2,. 一 Dkr .(Dkp Dkq)Dpq其中?是可变的且
4、? <1(8)离差平方和法通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。 样品间距离公式的选择是一个比较复杂且带 有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析 前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法
5、。5.5 试述K均值法与系统聚类法的异同答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品 为对象进行聚类,其结果作为 均值法确定类数的参考。5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不 同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行
6、聚类,其结果作为K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(i),X(2), ,X(n)表示n个有序的样品,则每一类必须是这样的形式,即 X(i),X(), ,X(j),其中1 i n,且j n, 简记为Gi i,i 1, , j。在同一类中的样品是次序相邻的。一般的步骤是(1)计算直径 D (i,j ) 。(2)计算最小分类损失函数Lp(l,k) 。(3)确定分类个数k。(4)最优分 类。5.7 检测某类产品的重量,抽了六个样品, 每个样品只测了一个指标,分别为1, 2, 3,6, 9, 11.试用最短距离法,重心法进行聚类分析。(1)用最短距离法进
7、行聚类分析。采用绝对值距离,计算样品间距离阵DylY1< 0羽10雷210315430487630男1098520Oj 2 " El = 1由上表易知Dyw中最小元素是于是将Gl , G2,G三聚为一类,记为S计算距离阵"Y.T再031 3 0瑞6 3 01-1. 8 5 20yiy中最小元素是必占=2于是将与,G6聚为一类,记为Ga计算样本距离阵二130Dy2Y中最小元素是于是将明,聚为一类,记为Gg因此,(2)用重心法进行聚类分析计算样品间平方距离阵易知D'¥0Y中最小元素是于是将Gr ,仃2,Gm聚为一类,记为计算距离阵J1J身01616049
8、499081812540注:计算方法,其他以此类推。口、门中最小元素是 吸*4于是将G.,优聚为一类,记为%计算样本距离阵-Y.Y再016 16064 64160公司每股总资流动每股净资产净利产周资产负负债净资净利润增总资产编号收益率润转单债率比率产长率增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382
9、.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.7713141595.79-5.216.5
10、50.5252.34 99.34 -5.420.350.9372.3184.052.14-24.18 -1.160.7956.2697.84.81-9816.52 -46.82115.95123.41-533.89-27.74解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负 债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司 聚类分析的步骤如下:a)系统聚类法:1 .在 SPSS®口中选择 Analyze-Classify -Hierachical Cluster ,调出系统聚类分 析主界面,并将变量X1-X
11、8移入Variables框中。在Cluster栏中选择Cases单 选按钮,即对样品进行聚类(若选择Variables ,则对变量进行聚类)。在Display 栏中选择Statistics 和Plots复选框,这样在结果输出窗口中可以同时得到聚类 结果统计量和统计图。图5.1系统分析法主界面2 .点击Statistics 按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择 Agglomeration schedule 与 Cluster Membership 中的 Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。(其中,Agglomera
12、tion schedule 表示在结果中给出聚类过程表,显示系统聚类 的详细步骤;Proximity matrix表示输出各个体之间的距离矩阵;ClusterMembership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Rangeof solution 2-4 即将所有个体分为2 至 4 类。)3 . 点击 Plots 按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle 栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue 按钮,返回主界面。图 5.2 Statistics 子对话框图 5.3 Pl
13、ots 子对话框4 .点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,这里选择Between-group inkage (组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance (欧氏距离);单击Continue 按钮,返回主界面。图5.4 Method子对话框图5.5 Save子对话框5 .点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Single solution 表示生成一个分类变量,在其后的矩形框中输入要分成的
14、类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions ,并在后面的两个矩形框中分别输入2 和 4,即生成三个新的分类变量,分别表明将样品分为2 类、 3 类和 4 类时的聚类结果, 如图 5.5。点击Continue ,返回主界面。6 .点击。骸钮,运行系统聚类过程。聚类结果分析:2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则 13独自为一类,其余的为一类;若分为 3类,则公司8分离出来,自成一类。以此类推。表 5.1 各样品所属类别表图 5.6 聚类树形图b) K均值法的步
15、骤如下:1. 在 SPSS®口中选择 AnalyzefClassify -K-Means Cluster ,调出 K均值聚类分析主界面,并将变量X1-X8 移入 Variables 框中。在Method 框中选择Iterateclassify ,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only ,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Numberof Cluster 后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将 15个公司分为3类。( Centers 按钮,则用于设置迭代的初始类中心。如果不手工设置,则系
16、统会自动设置初始类中心,这里我们不作设置。)图 5.7 K 均值聚类分析主界面2. 点击 Iterate 按钮,对迭代参数进行设置。Maximum Iterations 参数框用于设定K-means算法迭代的最大次数,输入 10, Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue ,返回主界面。5.8 Iterate 子对话框3. 点击 Save 按钮,设置保存在数据文件中的表明聚类结果的新变量。我们将两个复选框都选中,其中Cluster membership 选项用于建立一个代表聚类结
17、果的变量,默认变量名为qcl_1 ; Distance from cluster center 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue 按钮返回。图 5.9 Save 子对话框4. 点击 Options 按钮,指定要计算的统计量。选中Initial cluster centers 和Cluster information for each case 复选框。这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击Continue 返回。图 5.10 Options 子对话框5. 点击。骸钮,运行K均值
18、聚类分析程序。聚类结果分析:以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上表格可得公司13 与公司 8 各自成一类,其余的公司为一类。通过比较可知,两种聚类方法得到的聚类结果完全一致。5.9 下表是某年我国16 个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分 析,并比较何种方法与人们观察到的实际情况较接近。地区食品衣着燃料住房交通和通讯娱乐教育义化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1
19、636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25内蒙128.4127.638.9412.5823.992.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.09
20、15.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山东115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为 X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法 在第4个步骤的Method子对话框中选择不同的Cluster method 。1. Between-group inkage (组间平均数连接
21、距离)上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的 树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9 (上海)独自为一类,1 (北京)和11 (浙江)为一类,剩余地区为一类。2. Within-group linkage(组内平均连接距离)若用组内平均数连接距离将这些地区分为3类,则9 (上海)独自为一类,1 (北京)独自为一类,剩余地区为一类。3. Nearest neighbor (最短距离法)若用最短距离法将这些地区分为 3类,则9 (上海)独自为一类,1 (北京)独自为一类,剩余地区为一类。4. Furthest neighb
22、or (最远距离法)若用最远距离法将这些地区分为3 类,则 9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。5. Centroid cluster (重心法)若用重心法将这些地区分为3 类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。6. Median cluster (中位数距离)若用中位数距离法将这些地区分为3 类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。7. Ward method (离差平方和)若用离差平方和法将这些地区分为3 类,则9(上海), 1(北京)和11(浙江)为一类,2(天津) 、6(辽宁)、
23、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。5.10根据上题数据通过SPSSS计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。解:快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:苏)、11 (浙江)、13 (福建)和14 (江西)为一类,剩余地区为一类。5.11下表是2003年我国省会城市和计划单列市的主要经济指标:人均 GD氏(元)、 人均工业产值X2 (元)、客运总量X3 (万人)、货运总量X4 (万吨)、地方财政预算内收入X5 (亿元)、固定资产投资总额X6 (亿元)、在岗职工占总人口的比例X7 (%)、在岗职工人均 工
24、资额X8 (元)、城乡居民年底储蓄余额X9 (亿元)。试通过统计分析软件进行系统聚类分 析,并比较何种方法与人们观察到的实际情况较接近。城巾305230675920037.2531644北京3188633168013082134672018.1864182天津2643343732350795934885118410001230104石家庄151341315938494169.564152422.1267太原1575215831297583319789660呼和浩1899111257350841552118213.1411255特56146314.1496142沈阳232681544666126
25、81557813110021081114.1756131大连2914527615407111700108912.1387K春186302104569994629483125017.1245115哈尔滨148257561645895187642371463868922721.2730605上海46586770837212194055167914801315.2219113南京2754743853794056404213416811511.2466146杭州3266749823717950876249313791310.2369106宁波32543479045558799101390合肥10621
26、1171460344641362458.3359111.1505福州2228121310968082506737687683厦门5359093126444130557023838.61902439711.1391南昌142219205572844543121003483143513.1602济南2343722634581047642957758146630551214.1533青岛247053550663054855908107012.1353104郑州166741402397847663737881188166117.1373128武汉2127817083208062340610601063
27、10.1698长沙154468873916043407705297528852710825.2880372广州48220554041959157191833475110982969.3105219深圳8996793187563981763390701658933617013178.31451132816.1481海口16442145534330412995928458293245161181244189重庆7190507600276.5077279287911.1527149成都1791492893890788944185115.1218贵阳11046103501531840231813451
28、23314.1425昆明1621511601512686034265709114115.1350121西安131408913393926544695118.1348兰州144591713622095581212030946810.1462西宁706656052788203787619175若用最短距离法将这些地区分为2 类,则 24(深圳)独自为一类,剩余地区为一类。车艮川11787 11013 2146 2127 12 134 2“忙” 19397乌鲁木南宁海口22508 17137 2188 1275 41180 2。413052 3067 5931886 33168 013200 37.
29、0816504202531 644213467 2026433 43732 3507 9593418.1864 18285资料来源:中国统计年鉴2004解:用spss对37个地区聚类分析的步骤如 5.8题,不同的方法在第4个步骤的Method子 对话框中选择不同的Cluster method 。1.Between-group inkage (组间平均数连接距离)从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则24(深圳)独自为一类,10 (上海)和16 (厦门)为一类,剩余地区为一类。2 .Within-group linkage(组内平均连接距离)若用组内平均数连接距离将这些地区分为 3类,则24 (上海)独自为一类,27 (重庆)和28(成都)为一类,剩余地区为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 毕节工业职业技术学院《服装舒适性与工效》2023-2024学年第一学期期末试卷
- 北京中医药大学东方学院《卫浴产品设计》2023-2024学年第一学期期末试卷
- 二零二五年度二手房买卖纠纷调解服务合同3篇
- 2025版装配式建筑工长聘用及构件质量检验合同3篇
- 2025版江苏二手车买卖双方车辆过户手续代办合同2篇
- 2025年度XX污水处理厂环保达标技术服务规范合同3篇
- 外贸合同样本范本
- 军训心得下雨体会
- 房地产合作开发合同协议书新闻中心
- 2025版高端住宅开荒保洁项目验收标准合同3篇
- 小儿流感疾病演示课件
- 奔驰调研报告swot
- 中国教育史(第四版)全套教学课件
- 2024届广东省汕头市高一数学第一学期期末达标检测试题含解析
- 采购设备检验验收单
- 福建省泉州实验中学2024届物理高一第一学期期末质量检测试题含解析
- 公司领导班子设置方案
- 专业展览展示设计搭建公司
- 为铜制剂正名-冠菌铜® 产品课件-9-7
- 具有磁场保鲜装置的制冷设备的制作方法
- 2023年湖南省农村信用社(农村商业银行)招聘员工笔试参考题库附答案解析
评论
0/150
提交评论