版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、7 聚类分析与判别分析 7.1 聚类分析7.2 判别分析7.1 聚类分析7.1.1 基本原理和方法7.1.2 系统聚类法7.1.3 系统聚类的SPSS应用7.1.4 K均值聚类法7.1.5 K均值聚类法的SPSS应用7.1.1 基本原理和方法聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕例:对7种产品的销售情况进行检验。共有两个指标,销售额和销
2、售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。 现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。聚类分析的作用正是在于此,主要用于辨识具有相似性的事物,并根据彼此不同的特性加以“聚类”,即自动分类,使
3、同一类的事物具有高度的相似性,不同类的事物有较大的差异性。它是把事物按其相似程度进行分类,在分类过程中,人们无需自己先定义一个分类标准,聚类分析能够从现有的样本数据出发,按它们的亲疏程度分成若干类。 聚类分析例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为:每一个对象是p维空间中的一个点聚类问题,就是在p维空间中,对这n个点的聚类问题使用聚类分析的注意的问题变量(指标)不能太多,否则,难以判断聚类结果的实际意义指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究变量(指标)过多,则可对指标分类,把
4、有相近含义的指标聚到一起,把整个指标群分为若干类聚类分析的分类样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类聚类分析的步骤 选择描述事物对象的变量(指标) 形成数据文件,建立样品资料矩阵 确定数据是否需要标准化 确定表示对象距离或相似程度的统计量 计算对象间的距离(rij)和相似关系矩阵R(rij) 选择类与类之间的距离定义 聚类 分类度量样本之间相似程度的统计量 距离:将一个样品看作P维空间的一个点,并在空间
5、用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件dij0,对一切i和j成立dij0,当且仅当ij成立dijdji0,对一切i和j成立dijdikdkj,对于一切i和j成立相似系数:变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类常用距离的分类由于距离的类型不同,其定义式也稍有
6、差异,下面介绍聚类分析中对连续型变量常用的几种距离及其定义式。 (1)欧氏距离(Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和的平方根。 EUCLID(m个变量) (2)欧氏距离平方(Squared Euclidean Distance ):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。 (3)切比雪夫距离: (Chebychev)两样本 之间的距离是两个样本在每个变量上的相应值之差的绝对值的最大值。(4)马氏距离 (Block):也称广义欧氏距离,是两个样本在每个变量上的相应值之差的绝对值的总和。 (5)明可斯基距离(Mink
7、owski): 两样本 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求p次方根 (6)自定义距离(Customized): 两样本x,y 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求q次方根。 如果p=2,q=2是欧氏距离,p=2,q=1是欧式距离平方,p=1,q=1是马氏距离 。 相似系数相似系数的计算 (1)夹角余弦夹角余弦时从向量集合的角度所定义的一种测量变量之间亲疏程度的相似系数。它是受相似形的启发而来的,在形状相似而长度不是主要矛盾时用夹角余弦能反映出指标之间的关系。设在n维空间的向量: 定义夹角余弦为: 相似系数(2)相关系数相关系
8、数常用rij表示,这是大家较为熟悉的统计量之一。为了和其它相似系数的符号统一,这里将它记做cij(2)。设 和 是第i和第j个样品的观测值,则二者之间的相似测度为: 类间距离计算方法根据系统分类法,第一步将 n个样品看作n个类,然后合并距离最近的两类为一个种类。如何计算类与类的距离呢?用D(p,q)表示类p和类q之间的距离,常用的类间距离有以下几种: 类间距离计算方法1. 最短距离连接法(Nearest neighbor)用两类中所有样本对的距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类。 x21x12x22x11类间距离计算方法2. 最长距离连接法(Furthest neigh
9、bor)用两类中所有样本对的距离的最大值作为两类的距离,合并距离最近或相关系数最大的两类。 x22x12x21x11类间距离计算方法3. 类间平均距离连接法(Between-groups linkage ): 将两个类所有的样本对(样本对的两个成员分属于不同的类)的平均距离作为两类的距离,合并距离最近或相关系数最大的两类。此方法利用了两个类中所有的样本信息。 4231 类间距离计算方法4. 类内平均距离连接法(Within-groups linkage )与类间平均距离连接法类似,但此时的平均距离是指对两个类中所有样本的距离求平均值包括两个类之间的样本对以及两个类内的样本对。 4231 类间距
10、离计算方法5. 重心聚类法(Centroid clustering):将两类重心 和 间的距离作为两类的距离,合并距离最近或相关系数最大的两类。 每个类的重心是该类中所有样本在各个变量上的均值所在的点。 类间距离计算方法6. 离差平方和法(sum of squares method)该方法是在聚类过程中,将使得类内各样本的欧氏距离总平方和增加最小的两类合并成一类。利用离差平方和法分类的效果较好,但它要求样本之间的距离必须是欧式距离。7. 中位数法(median method)此方法是将两类的中位数间的距离作为两类之间的距离,优点是比较稳健。类间距离计算方法如何选择适当的方法聚类,需要依照实际问
11、题的背景,也需要经验。从数理统计角度看,重心法和中位数法距离法不具有单调性,随机模拟的结果表明,最长距离法不具有最优化性。很多实际工作者采用最短距离法进行聚类。 聚类分析的类型聚合法:每个样本自成一类计算各类之间相似程度统计量,把最相似的两类合并成一类重复上步,直到所有样本归为一类分解法:所有样本归为一类分为两类重复上步,一直到每个样本归为一类或不能再细分为止调优法:开始人为将样本初始分类判断该分类是否最优,如果不是则进行修改重复上述步骤,直到分类达到最优为止7.1.2 系统聚类法系统聚类法基本思想将所有样品看成一个类选择性质最接近(距离最小)的两类合并为一个新类计算新类与其他类的距离,将距离
12、最近的两类合并,这样直至所有的样品合并为一类系统聚类方法分类(待续)(1)最短距离法距离最近的样品归入一类计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变在每一步,两类之间的距离是它们两个最近点间的距离(2)最长距离法按两个最远成员间的距离进行类的归并最长距离法与最短距离法相比,类与类之间的距离定义和计算新类与其他类的距离所用的公式不同(3)重心法两类之间的距离为两类重心间的距离,对样品聚类的重心就是该类的均值缺陷是较后合并的类比较前合并的类更不相似(4)类平均法(Median clustering)两类之间的距离是以各自的中数加以度量的,这使两个
13、正被合并的类,在均值计算中被赋予相等的权力,而不管每一类中的样品数系统聚类方法分类(续)(5)类间平均连接法按各个团体中成员间的平均距离连类,两个类间的距离为所有样品偶对间的平均距离(6)类内平均连接法按各个团体中成员间的平均距离连类,且使产生类的所有样品之平均距离尽可能小,是取产生类的所有可能样品偶对间的平均距离(7)离差平方和法如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样品看成一类每次缩小一类,每缩小一类离差平方和就要增大,选择使S增加最小的两类合并直到所有的样品归为一类为止计算每一类所有变量的均值对每一个样品计算到类均值的距离平方,对所有样
14、品求这些距离之和合并的两类是使类内距离总平方和增加最少的类7.1.3 系统聚类的SPSS应用例7.1 有关研究机构通过2008年我国部分省市的土地利用情况(单位:万公顷)进行分析,试图依据给出的数据对土地利用结构进行分类地区园地牧草地居民点及工矿交通用地水利设施北 京12.00.227.93.32.6天 津3.5028.12.26.5河 北70.579.9154.512.012.9山 西29.565.877.36.33.3内蒙古7.36560.9123.916.09.3辽 宁59.634.9115.99.214.8吉 林11.5104.484.26.715.6黑龙江6.0220.8116.11
15、1.921.2上 海2.1023.02.10.2江 苏31.60.1161.013.119.3浙 江66.1081.79.513.8安 徽33.92.8133.410.122.7福 建62.90.350.77.96.1江 西27.80.467.57.520.5山 东100.73.4209.316.325.5(数据来源:中国统计年鉴 2009中国统计出版社)操作及其说明Analyze Classify Hierarchical Cluster Hierarchical Cluster AnalysisHierarchical Cluster Analysis从左侧选入参与聚类分析的变量 选入标签
16、变量选择聚类类型对观测量(样本)进行聚类,对应于样本聚类对变量(指标)进行聚类,对应于变量聚类选择输出结果统计分析统计图表Hierarchical Cluster Analysis:StatisticsStatistics Hierarchical Cluster Analysis:Statistics聚集状态表各项间的距离矩阵类成员栏不显示类成员表,为系统默认值要求列出聚为一定类数的各观测量所属的类某个范围中每步各观测量所属的类Hierarchical Cluster Analysis: MethodAgglomeration schedule continue Method Hierarc
17、hical Cluster Analysis:MethodCluster Method选择的聚类方法Between-groups linkage(组间连接):合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类,该方法中使用各对之间的距离Within-groups linkage(组内连接):若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方Nearest neighbor(最近邻法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离Furthest neighbor:
18、最远邻法/完全连接,用两类之间最远点的距离代表两类之间的距离Centroid clustering(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间短距离那样计算两类之间的距离,该距离随聚类的进行不断减小Median clustering(中间距离法):应与欧氏平方距离一起使用Wards method:离差平方和法,应与欧氏平方距离一起使用距离的测度方法选择(待续)在Measure栏中选择距离计算方法Interval:应用于等间隔测度的变量。单击矩形框右侧的下箭头展开下拉,选择连续变量距离测度的方法Eucidean distance:欧式距离,即两样本间距离为其对应指标值之差的平方
19、和的平方根Squrared Eucidean distance:欧式距离平方,即两样本间距离为其对应指标值之差的平方和;Cosine:变量矢量的余弦,这是模型相似性的度量Pearson Correalation:相关系数距离Chebychev:切比雪夫距离,即两样本间的距离为两样本对应指标值之差的绝对值中的最大值Block:City-Block或Manhattan距离,即两样本间的距离为两样本对应指标值之差的绝对值和Minkowski:两样本间的距离是一个绝对幂的度量,即两样本对应指标值之差的绝对值的p次幂之和的p次根,p由用户指定Customized:距离是一个绝对幂的度量,即两样本对应指标
20、值之差的绝对值的p次幂之和的r次根,p与r由用户指定距离的测度方法选择(续)Counts:应用于计数变量。单击其右侧的向下箭头,展开两种选择不相似性测度的方法:Chi-Square measure:卡方测度,用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验,测度产生的值是卡方值的平方根,这是系统默认的Phi-Square measure:两组频数之间的2 测度,试图考虑减少样本量对实际度值的实际预测频率减少的影响Binary:应用于二值变量。单击Binary右侧的向下箭头展开下拉来选择距离或不相似性测度的方法,首先应明确对二值变量,系统默认用1表示某特性出现,用0表示某特性不出现确
21、定标准化的方法Transform Values:确定标准化的方法。单击standardize右侧向下箭头选择标准化的方法:None:不进行标准化,是系统默认值Z scores:把数值标准化到Z分数。标准化后变量均值为0,标准差为1,系统将每个值减去被标准化的变量或观测量的均值,再处以其标准差,如果标准差为0,则将所有值置为0Range -1 to 1:将数值标准化到1到1范围内Maxinum mannitude:把数值标准化到最大值1。该方法是把标准化的变量或观测量的值用最大值去除,如果最大值为0,则用最小值的绝对值处再加1Range 0 to 1:将数值标准化到0到1范围内Mean of 1
22、:把数值标准化到一个均值的范围内Standard deviation of 1:把数值标准化到单位标准差测度的转换方法选择Transfrom Measure:测度的转换方法选择Absolute Values:把距离取绝对值,当数值符号表示相关方向,且只对负相关关系感兴趣时才采用此方法进行交换Change Sign:把相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒Rescale to 01:通过首先减去最小值,然后处以范围的方法使距离标准化Hierarchical Cluster Analysis:PlotsBetween-groups linkage squared Euclidea
23、n distance(其他为默认设置) “Conitnue” Plots Hierarchical Cluster Analysis:Plots输出树形图 冰柱图 查看聚类的全过程 指定显示的聚类范围 不生成冰柱 确定显示方向纵向显示 水平显示 Hierarchical Cluster Analysis:Save New VariablesDendrogram(树形图(其他设置采用系统默认值 Continue按钮主对话框 Save Hierarchical Cluster Analysis:Save New Variables 不建立新变量 单一结果 范围内的结果 样本处理表 Case Pro
24、cessing Summarya,bCasesValidMissingTotalNPercentNPercentNPercent15100.00.015100.0a. Squared Euclidean Distance used b. Average Linkage (Between Groups)Single solution 设置为3 Continue 主对话框 “OK” 生成聚类结果聚类过程表 Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageClust
25、er 1Cluster 2Cluster 1Cluster 212967.670002212109.00501831012794.900007411131033.180005511141719.6804086472013.020001176103062.44003981114446.49125119366479.9070710103159737.8659012111410213.6808612121316417.371111013131846321.4741201414154.258E71300聚类步骤类间的距离样本号聚类步序号下一步步序号冰柱图Vertical IcicleNumber of
26、 clustersCase5内蒙古8黑龙江15山东 12安徽 10江苏 6辽宁 3河北 7吉林 4山西 14江西 13福建 11浙江 9上海 2天津 1北京 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXX2XXXXXXXXXXXXXXXXXXXXXXXXXXXX3XXXXXXXXXXXXXXXXXXXXXXXXXXX4XXXXXXXXXXXXXXXXXXXXXXXXXX5XXXXXXXXXXXXXXXXXXXXXXXXX6XXXXXXXXXXXXXXXXXXXXXXXX7XXXXXXXXXXXXXXXXXXXXXXX8XXXXXXXXXXXXXXXXXXXXXX9XXXXXXXX
27、XXXXXXXXXXXXX10XXXXXXXXXXXXXXXXXXXX11XXXXXXXXXXXXXXXXXXX12XXXXXXXXXXXXXXXXXX13XXXXXXXXXXXXXXXXX14XXXXXXXXXXXXXXXX聚类的树形图系统聚类法在数据编辑窗口的输出7.1.4 K均值聚类法K均值聚类法(快速聚类法/逐步聚类法):需要用户指定类别数先把被聚对象进行初始分类,然后逐步调整,得到最终分类其特点是处理速度快占用计算机内存少快速样本聚类适用于大样本的聚类分析它能快速地把各观测量分到各类中去1. 快速聚类分析概述快速聚类也称动态聚类,其方法简单、占用内存少,适合大样本的聚类分析处理。快速
28、聚类的实质其实是分步聚类法,也就是先选定一批初始类中心点,然后让变量或样本向最近的类中心点靠拢,这样凝聚成类,形成初步的分类。然后会对类中心点的选点进行调整,一直调整到比较合理为止。一般快速聚类都要经过多次迭代才能形成比较理想的结果。 快速聚类分析具体分析步骤在SPSS中快速聚类由 K-Means Cluster过程实现,使用K均值分类法对样本进行聚类,K是用户指定的聚类数目。具体分析步骤如下:(1)认真选择所研究问题所需的分析变量(2)按照用户指定的希望聚类的数目(设聚为类,2K样本数),依据某种原则(或人为指定)确定K个类的初始类中心点。初始类中心点可以通过两种方法指定:一种是用户自行指定
29、组数据作为个类的初始类中心点,后面会介绍这种方法。另一种是 SPSS系统自动指定,系统会根据样本数据的具体情况选择有K个代表性的样本数据作为个类的初始类中心点。 快速聚类分析 (3)计算所有样本数据点到K个类中心点的欧氏距离,按照就近原则,把所有样本分派到各中心点所在的类中,形成一个分类方案,完成一次迭代,并计算出各类中变量的均值。(4)使用计算出的K个均值点作为个类的新的类中心点。(5)重复(3)和(4),直至达到指定的迭代次数或达到迭代收敛标准。 (6)输出聚类结果。7.1.5 K均值聚类法的SPSS应用Analyze Classify K-Means Cluster K-Means Cl
30、uster AnalysisK-Means Cluster Analysis从左侧选入参与聚类分析的变量 选入标签变量 仅按初始类别中心点分类 聚类方法栏 指定初始类别中心点,然后按K-Means算法做迭代分类 类中心数据的输入与输出设置 使用指定数据文件中的观测量作为初始类中心 把聚类结果中的各类中心数据保存早指定的文件中 K-Means Cluster Analysis:IterateIterate and classify “Iterate” K-Means Cluster Analysis:Iterate限定K-Means算法的迭代次数 限定K-Means算法的收敛条件 限定在每个观测
31、量被分配到一类后,即刻计算新的类中心 K-Means Cluster Analysis:Save New VariablesSave K-Means Cluster Analysis: Save New VariablesK-Means Cluster Analysis:Options初始类中心 选择要求计算和输出的统计量方差分析表 每个观测量的分类信息 选择处理带有缺失值观测量的方法 将出现在Variables变量表中变量带有缺失值的观测量从分析中剔除当一个观测量的全部聚类变量值均缺失时,将其剔除,否则,分配到最近的一类中去Cluster membership Continue主对话框 “Options” K-Means Cluster Analysis:Options初始类中心表(Initial Cluster Center)初始类中心表(Initial Cluster Center)Cluster1234园地7.302.10100.706.00牧草地6560.90.003.40220.80居民工矿123.9023.00209.30116.10交通用地16.002.1016.3011.90水利设施9.30.2025.5021.20Initial cluster centers ANOVA table Cluster information for eac
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计人员转正自我鉴定合集7篇
- 寒假个人实习工作总结范例
- 统编版语文二年级上册第三单元测试卷 单元测试(含答案)
- 临安春雨初霁课件
- 《法律你我他》课件
- 人的生活需要空气复习课件(济南版)
- 《产品测试操作指引》课件
- 南阳市方城县博望镇第一初级中学2024届中考一模地理试卷
- 停车区域规划方案
- 仓单质押协议模板
- 广东省六校联考2024-2025学年高二上学期12月月考试题 英语 含答案
- 山东省临沂市2023-2024学年高二上学期1月期末地理试题 附答案
- 博鳌机场控制区证件培训专项测试卷
- 《毛概》23版学习通超星期末考试答案章节答案2024年
- 第八单元测试-2024-2025学年统编版语文三年级上册
- 珠宝鉴赏智慧树知到期末考试答案章节答案2024年同济大学
- 国家开放大学《中文学科论文写作》形考任务1-4参考答案
- 《中国近现代史纲要(2023版)》课后习题答案合集汇编
- 国开2023春计算机组网技术形考任务一参考答案
- 浅谈窝工、停工、赶工索赔方式方法探讨
- 舞台灯光施工方案
评论
0/150
提交评论