IBM-SPSS培训:聚类与判别分析 完整版_第1页
IBM-SPSS培训:聚类与判别分析 完整版_第2页
IBM-SPSS培训:聚类与判别分析 完整版_第3页
IBM-SPSS培训:聚类与判别分析 完整版_第4页
IBM-SPSS培训:聚类与判别分析 完整版_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IBM-SPSS聚类与判别分析1.聚类分析的概念和目的

聚类分析是根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学,它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别,并探索产生这种类别的原因,进而提出合理、有效的处理该类事物的办法。比如,生物学家根据生物的特点,将它们按照界、门、纲、目、科、属、种进行分类;卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。另外,在多元统计分析中,通过聚类分析可以将众多的观测变量分类,确定各类中的典型变量以达到降维目的。2.聚类方法根据聚类的对象不同,聚类可以分为对样品聚类(Q-型聚类)和对变量聚类(R-型聚类);根据聚类方法的不同,聚类分析大致可以归为:系统聚类法、加入法、分解法、动态分类法等。Spss里提供了两种具体的聚类方法:K-中心聚类和系统聚类。3.距离和相似系数聚类分析的实质就是将性质相近的样品或变量聚在一起。在聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量,常用的聚类统计量有距离和相似系数。(1)距离:用于对样品的聚类。距离有绝对值距离,欧式距离,明氏距离,马氏距离等,常用的是欧氏距离,这里只介绍欧氏距离。对于任两个样品i和k可定义欧氏距离(Euclideandistance)其中,Xij和Xkj分别为第i个样品的第j个变量和第k个样品的第j个变量值。为消除各指标量纲不同的影响,在求样品间距离前常常需要把指标标准化,即把每一个观察值转换成标准值其中,

和Sj分别为第j个变量的样本均值和样本标准差,标化后的指标的均数为0,标准差为1。用标化值进行聚类分析。3.距离和相似系数(2)相似系数:常用于对变量的聚类。相似系数有夹角余弦、相关系数等。对于连续性资料常用的有Person相关系数;对于分类资料常用的有Person列联系数:Person相关系数:Person列联系数其中,

2

为RC分类资料的列联表的

2值。n为RC

分类资料样品总个数。K-中心聚类1.简介K-中心聚类用于对样品进行快速聚类,它的计算量很小,适合对大样本数据进行分析,可以有效减少计算时间;同时可以人为指定初始类中心的位置,这样就可以把已有的聚类分析结果作为初始位置引入分析,可以有效利用前期工作的结果。但是该方法也存在一定局限性:首先需要用户人为指定样品分为多少类,其次该方法只能对样品聚类而不能对变量聚类、所使用的变量必须都是连续性变量。K-中心聚类2.基本思想有n个数值型变量参与快速聚类,它们组成一个n维空间,每个样品是空间中的一个点,最后要求的分类数为K。首先选择K个点作为初始类中心凝聚点,然后根据距类中心最小欧氏距离原则将其余样品代表的点向类中心凝集,这样得到一个初始分类方案,并计算出各个初始分类的中心位置(均值);使用计算出的中心位置重新进行聚类直到凝聚点位置改变很小(达到收敛标准)为止。K-中心聚类3.实例详解例20.1:某研究员收集了20个生物样本的有关特征,根据有关知识,这些生物样本可以被分为4类,请根据x1、x2、x3三个变量将其分为4类。见数据文件例20-1.sav。系统聚类1.简介系统聚类是实际工作中使用的最多的一种聚类方法,它具有十分明显的优点:可以对样品聚类,也可以对变量聚类,变量可以是连续性或分类变量,提供的距离测量方法和结果表示方法也十分丰富。但是由于它要反复计算距离,当样本量太大或变量太多时,采用此法运算速度明显减慢。系统聚类2.基本思想将n个样品或变量看成不同的n类,然后将距离接近(针对样品聚类)或性质接近(针对变量聚类)的两类合并为一类;再从这n-1类中找到最接近的两个类合并,以此类推,直到所有的样品或变量被合为一类。整个过程可以绘成聚类图,按图和具体问题来决定分类。3.实例详解例20.2:有10名学生参加测试,测试10个指标,试对这十个指标进行聚类。见数据文件例20-2.sav。判别分析1.判别分析的概念和目的判别分析是一种对观察对象进行分类的统计学方法,它与聚类分析不同,它在分析之前就非常明确观察对象分为几个类别,该分析方法的目的就是从现有已知类别的观察对象中建立一个判别函数来,然后再用该判别函数去判别同质的未知类别的观察对象。比如医生根据胰腺炎的不同类型建立判别函数,就可以在病人入院时快速的判定其为何种类型,进而采取适宜的处理措施。判别分析通常要设法建立一个判别函数,利用此函数进行判断。判别函数的一般形式如下:其中,Y为判别指标,X1、X2为反应研究对象特征的变量,a1、a2为各变量的判别系数。2.判别分析方法判别分析的方法很多,常用的有Fisher判别分析、Bayes判别分析、距离判别分析、最大似然判别分析、逐步判别分析等。判别分析过程是基于对预测变量的线性组合,这些预测变量应能够充分体现各类别之间的差异。判别分析从已确定类别样本中拟合判别函数,再把判别函数应用于相同变量所记录的新数据集,以判断新样本的类别归属。3.判别分析基本思想Fisher判别:也称典型判别,该判别方法的基本思想是投影,将原来在R维空间的自变量组合投影到维度较低的S维空间,然后在S维空间中再分类。投影的原则是使每一类内的离差尽可能小,而不同类间投影的离差尽可能大。Bayes判别:该判别方法认为所有P个类别都是空间中互斥的子域,每个观测对象都是空间中的一个点。他首先计算某个观测对象的先验概率,然后利用Bayea公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该观测对象所属的类别。判别分析4.判别分析的前提条件(1)样本量应尽可能大;(2)对已知分类或分组(即:因变量)的标准要尽可能客观、准确和可靠,使建立起来的判别函数能起到准确的判别效果;(3)自变量(即:观察指标)和因变量之间要有重要的影响关系,选择自变量时应挑选既有区别性又有重要性的指标,这样可以用最少的变量达到较高的判别能力;(4)各观察指标变量尽可能服从正态分布;(5)各观察指标变量应是连续型变量,判断类别或组别变量应是分类变量;(6)所选择的各观察指标变量之间的相关性应较弱,也就是相关性检验不能达到显著水平,并且2个变量之间的相关性在不同的类别或组别中应一致。判别分析5.判别函数优劣的评价

对判别函数的优劣进行评价,常用的评价方法有回代考核、前瞻性考核、以及刀切法。回代考核是把训练样本带入新建的判别函数,根据判别结果和原始结果的符合率来评价判别函数的优劣,一般要求符合率高于80%,表示判别效果好。前瞻性考核对训练样本以外的样本(外考核样本)进行判别。前瞻性考核的结果更能说明判别函数的优劣。刀切法的基本思想是:每次搁置一个样品,用其余的n-1个样品建立判别函数,然后用判别函数对搁置的样品判别分类。从第一个样品和最后一个样品,每个都被判别分类一次,通过n次考核的结果评价判别效果。刀切法和前瞻性考核具有同样的评价能力。判别分析6.实例详解例20.3:为明确诊断出小儿肺炎三种类型,某研究单位测得30名结核性、12名化脓性和18细菌性肺炎患儿共60名的7项生理、生化指标,见例20-3.sav,试建立判别函数。

聚类分析(clusteranalysis)和判别分析(discriminantanalysis)都是分类学中的重要研究方法。两者区别在于聚类分析事先并不知道研究对象的类别,通过统计手段作出分类决策;而判别分析是事先已知研究对象的类别,通过观测各类别某些指标(变量)的类间差异,建立判别函数,通过判别函数判断新的未知研究对象应归属何种类别。主要内容距离和相似系数系统聚类(Hierarchicalclustering)最短距离法 最长距离法中间距离法 可变距离法重心法 类平均法可变类平均法Ward最小方差法快速聚类分析聚类分析方法在SPSS中的实现聚类分析的正确应用聚类方法从分析目的看,聚类分析有两种类型:对样品聚类(Q-型聚类)和对变量聚类(R-型聚类)。从分析的方法看,因变量类型不同,方法各异。一般讲,有关计量资料的方法较多,对分类资料和等级资料的处理方法不多。这些方法大致可归纳为:(1)

系统聚类法:n→(n-1)→(n-2)→(n-3)→┅→2→1;(2)

分解法:1→2→3→┅;(停止规则)(3)

加入法:类似于判别分析,由已知的一个分类系统对样品进行分类;(4)

动态聚类法:先进行粗分类,依据最优准则调整至不能调整时为止;还有其他几种类型的聚类:有序样品的聚类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法等。距离和相似系数在分类学中,一般是把某种性质相近的东西归于一类,把性质不近的东西归于不同的类。用数学方法进行分类,是客观实际分类的抽象,应和实际分类有类似之处,不同的只是数学方法的分类是建立在各样品关于其各指标的测量数据的基础上,即利用这些数据的内在联系和规律性来分类。因此,首先要有描述或刻划各样品之间的相近程度或变量间的相似程度的量或指标。这类指标就是距离及相似系数。设有n个样品,每个样品有p个变量,原始资料阵如下:

距离(每个样品看成P维空间中的一个点,N个样品构成N个点)(1)

绝对值距离(2)

欧氏距离(Euclidean)(3)

切比雪夫距离(Chebychev)(4)

明氏距离(Minkowski)可见前3种距离是明氏距离的特例:欧氏距离、绝对值距离是明氏距离q=2和q=1时的特例;当q—∞时,明氏距离就是切比雪夫距离。

当各个变量值相差悬殊时,采用上述距离反映样品间的接近程度并不合理,常要用对原始数据进行标化,然后标准化的数据计算距离明氏距离特别是欧氏距离是人们熟悉也是使用最多的距离。但该指标有两个缺陷:(1)与指标的量纲有关;(2)没有考虑指标之间的相关性;(5)

马氏距离(Mahalanobis)(6)兰氏距离(Lanberra)(仅用于所有指标大于0)(7)配合距离(对于分类变量,尤其是无序分类变量)

设有2个样品,5个指标的取值分为:

S1=(V,Q,S,T,K)

S2=(V,M,S,F,K)它们的第一个指标均取V,称为配合的;第二个指标S1取Q,而S2取M,称为不配合的。S1与S2中配合数为3,不配合数为2。则S1与S2的配合距离为3/5=0.60,更一般地,设两样品共有p个指标,其中配合者有m个,则两样品间的距离可定义为:距离的一般性质

(a)dAB≥0,对一切A,B;

(b)dAB=0,当且仅当A点与B点重叠,即A与B的各指标相等;

(c)dAB=dBA,对一切A,B;

(d)dAB≤dAC+dCB,对一切A,B,C;相似系数

研究样品间的关系常用距离,研究指标间的关系常用相似系数。顾名思义,相似系数是刻划指标间相似程度的一个量,常用的有夹角余弦,相关系数等。(1)夹角余弦(2)Pearson相关系数(3)指数相似系数列联系数(对于分类资料常用列联系数表示其相似程度)(1)点相关系数(2)Pearson列联系数系统聚类的基本思想相近的聚为一类(以距离表示,样品聚类)相似的聚为一类(以相似系数表示,变量聚类)

6个不同民族的标化死亡率与出生时的期望寿命

民族原始数据标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59朝鲜族7.4467.14蒙古族8.1165.48维吾尔族10.2158.88藏族9.5159.24哈萨克族9.8160.47均数8.480063.6333标准差1.68664.8167系统聚类(Hierarchicalclustering)最短距离法(singlelinkage)最长距离法(completelinkage)中间距离法(medianmethod)可变距离法(flexiblemedian)重心法(centroid)类平均法(average)可变类平均法(flexibleaverage)Ward最小方差法(Ward’sminimumvariance)系统聚类的基本思想物以类聚。相近的聚为一类(以距离表示,样品聚类)相似的聚为一类(以相似系数表示,变量聚类)系统聚类的基本步骤构造n个类,每个类包含且只包含一个样品。计算n个样品两两间的距离,构成距离矩阵,记作D0。合并距离最近的两类为一新类。计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。画聚类图。决定类的个数,及各类包含的样品数,并对类作出解释。类与类之间不同的定义产生不同的聚类方法类间距离S1S3S2S4S5最短距离(singlelinkage)过小估计类与类之间的距离最长距离(completelinkage)类间距离S1S3S4S5过高估计类与类之间的距离类间距离S1S3S2S4S5平均距离(average)定义类与类之间距离的平方为两类中各样品间距离平方之平均(充分应用所有点的信息)例9.16个不同民族的标化死亡率与出生时的期望寿命

民族原始数据标准化数据标化死亡率(‰)出生时期望寿命(岁)标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59-1.591.44朝鲜族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈萨克族9.8160.470.79-0.66均数8.480063.63330.000.00标准差1.68664.81671.001.00各民族之间的欧氏距离(标准化资料)D0

满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110采用最短距离法进行聚类D1

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060D2G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.1731.9731.4480D3G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2080G8={S4,S5,S6}3.1731.4480D4G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480例9.1资料的谱系聚类图(最短距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族资料的谱系聚类(最短聚类法)0.3110.4060.5261.2081.448图中横线的长度是并类时的类间长度各民族之间的欧氏距离(标准化资料)D0

满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110D1

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.2242.0481.5390.4220D2G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.5702.3741.8510D3G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.7320G8={S4,S5,S6}3.5702.3740D4G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}3.5700例9.1资料的谱系聚类图(最长距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4220.5261.7323.570资料的系谱聚类法(最长距离法)聚类分析在SPSS程序中的实现

聚类分析所用的方法大致可被分为两类:系统聚类法(HierarchicalClustering)和非系统聚类法(Non-hierarchicalClustering),SPSS为这两种方法各提供了一个过程,即:

K-meansCluster:对样品(cases)进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大于100,则有必要考虑是否使用快速聚类。

HierarchicalCluster:习惯上翻译成系统聚类法,该过程提供了全面而强大的聚类分析能力,可对样品或变量进行聚类。更为重要的是,参与系统聚类分析的变量不再像快速聚类一样限于连续性变量,他们可以是两分类或多分类变量。K类中心聚类(K-MeansCluster)是先将n个观察单位分为K类,并确定K个初始类中心,然后根据距类中心最小欧氏距离原则,采用迭代方法,对样品进行归类。具体做法如下:按照指定的希望分类的数量,按某种原则作为今后各类的初始核心;按就近原则将其余观测向凝聚点凝集,这样得到一个初始分类方案,并计算出各个初始分类的中心位置(均值);使用计算出的中心位置重新进行聚类直到凝聚点位置改变很小(达到收敛标准)为止。例题:对12个样品进行聚类分析根据3个指标对12个样品进行聚类

具体的操作过程:主要输出结果:1.初始类中心说明:给出了4个初始类中心的初始位置,每个类中心的3个变量值列为1列。由表中可见,4个类分别使用了1号、8号、4号和3号观测作为其初始位置。2.迭代过程中类中心的变化3.

样品分类结果样品1、5、6和12聚为第一类;样品8和9聚为第二类;样品3和11聚为第三类;样品2、4、7和10聚成第四类。Distance表示每个样品与其所属类中心的欧氏距离。医用多元统计分析方法4

单因素方差分析对数据进行了聚类,但是,所用的变量都对分类有贡献吗?引入了无关变量,则会降低聚类的效果,甚至会导致错误的分类结果。为此,可以使用Options子对话框中的ANOVATable复选框进行单因素方差分析,以考察三个变量在类间是否有差异。结果显示,x1、x2、x3在四类间的均数均有差异。5.

每一类的样品数系统聚类分析(HierarchicalCluster)包括样品聚类和变量聚类,是先将n个变量或样品看成n类,然后将性质最接近(或相似程度最大)的2类合并为1个新类,分为n-1类。再从中找到最接近的2类加以合并,分为n-2类,如此类推,最后所有的变量或样品全聚在一类之中。SPSS可输出垂直冰柱图,水平冰柱图或树状结构图等,用以表示分类结果例:现有6个不同民族的标化死亡率与出生时的期望寿命,

试做聚类分析。SPSS操作的具体过程:

主要结果:

上表给出的是聚类分析的详细步骤,可见第一步是变量4和5合并,第二步是变量4、5类和6合并,第三步为变量2、3合并,依次类推,直到全部合为一类。

上面输出的是垂直冰柱图,用于显示各样品依次在不同类别数时的分类归属情况。若分为2类,则满族、朝鲜族、蒙古族为一类;而维吾尔族、藏族、哈萨克族为一类。若分为3类,则满族为一类;朝鲜族、蒙古族为一类,而维吾尔族、藏族、哈萨克族为一类。DendrogramusingAverageLinkage(BetweenGroups)

RescaledDistanceClusterCombine

CASE0510152025LabelNum+---------+---------+---------+---------+---------+

weiwuer4òøzhang5òôòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøhasake6ò÷

óchaoxuan2òûòòòòòòòòòòòø

ómenggu3ò÷

ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷man1òòòòòòòòòòòòò÷上面为树状图,当要分类的变量/记录数较多时,该图比冰柱图要清楚得多,建议大家尽量多用。不过它的缺点是不能在图中显示变量名标签,只能使用变量名。在上图中横向距离表示差异的大小,树状结构则表示分类情况。从图中可见满族和朝鲜族、蒙古族的差距还是比较大的,如果希望细分,则可将其单独分为一类。

8种系统聚类法所得聚类图最短距离法最长距离法中间距离法可变法类平均法可变类平均法重心法Ward最小方差法指标的聚类上体长手臂长胸围颈围总肩宽前胸宽后背宽前腰节高后腰节高总体高身高下体长腰围臀围上体长1.000手臂长0.3701.000胸围0.2420.2351.000颈围0.2800.1960.5901.000总肩宽0.3600.3270.4760.4351.000前胸宽0.2810.2650.4830.4700.4521.000后背宽0.2450.2670.5400.4780.5340.6631.000前腰节高0.4480.3490.4520.4040.4310.3220.2661.000后腰节高0.4860.3710.3650.3570.4290.2830.2870.8201.000总体高0.6480.6680.2160.3160.4290.2830.2630.5270.5471.000身高0.6790.6880.2430.3130.4300.3020.2940.5200.5580.9571.000下体长0.4860

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论