spss第十六讲聚类分析与判别分析_第1页
spss第十六讲聚类分析与判别分析_第2页
spss第十六讲聚类分析与判别分析_第3页
spss第十六讲聚类分析与判别分析_第4页
spss第十六讲聚类分析与判别分析_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十六讲聚类分析与判别分析第一部分上一讲回顾第二部分聚类分析概念第三部分聚类分析的SPSS过程第四部分判别分析1、回归分析及模型2、线性回归3、线性回归SPSS过程4、曲线估计第一部分上一讲回顾第二部分聚类分析概念俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。结构一、分类二、什么是聚类分析三、如何度量远近四、两个距离概念分类聚类分析有1、系统聚类法2、有序样品聚类法3、动态聚类法4、模糊聚类法5、图论聚类法6、聚类预报法等(注:一般用的是系统聚类法。)什么是聚类分析1、聚类分析起源于分类学。在考古的分类学中,人们主要依靠经验和专业知识事项分类,形成数值分类学。

例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。(注:值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。)什么是聚类分析

2、聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,①、分为样品(观测量)聚类②、变量聚类两种样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。什么是聚类分析比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本部分主要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。如何度量远近?判断关系方法1、一种方法用相似系数2、另一种方法将一个样本看作是P维空间的一个点,并在空间定义距离,距离越近的点归为一类。变量类型:scale、nominal、0rdinal。问:聚类分析与相关分析和距离分析是否有关?两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。1、点间距离的计算方法主要有:欧氏距离(Euclideandistance)平方欧氏距离(SquaredEuclideandistance)Block距离(Blockdistance)Chebychev距离(Chebychevdistance)马氏距离(Minkovskidistance)最常用的是平方欧氏距离类和类之间的距离

由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离。类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。备注在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。另外还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。相似性的度量

(样本点间距离的计算方法)Euclidean距离SquaredEuclidean距离Block距离Chebychev距离Minkovski距离在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有相似性的度量

(变量相似系数的计算方法)夹角余弦

Pearson相关系数

类间距离的计算方法最短距离法(Nearestneighbor)

最长距离法(Furthestneighbor)

重心法(Centroidclustering)组间平均距离(Between-groupslinkage)离差平方和法(Ward’smethod)

Nearestneighbor(最短距离法)—用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离Furthestneighbor(最长距离法)—用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离

类间距离的计算方法Centroidclustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离between-groupslinkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离离差平方和法Ward‘smethod(离差平方和法)—使各类别中的离差平方和较小,而不同类别之间的离差平方和较大最短距离法举例设抽取五个样品,每个样品只测一个指标。它们是1、2、3.5、7、9、现采用最短距离法对五个样品进行分类。(1)定义样品间距离采用绝对距离,计算样品两两之间的距离,得距离矩阵D(0)表1G1={X1}G2={X2}G2={X2}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520最短距离法举例(2)找出中非对角线最小元素是1,即,则将并成一个新类,记为G6={X1,X2}。(3)计算新类G6与其它类之间的距离,按公式Di6=min(Di1,Di2)(i=3,4,5)取前两列较小的一列再计算样品两两之间的距离,得距离矩阵D(1)表2G6G3G4G5G6={X1,X2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520最短距离法举例(4)找出D(1)中非对角线最小元素是1.5,则将G3和G6并成一个新类,记为G7={X1,X2,X3}。(5)计算新类G7与其它类之间的距离,按公式Di7=min(Di1,Di2,Di3)(i=4,5)得距离矩阵D(2)表3G6G4G5G7={X1,X2,X3}0G4={X4}3.50G5={X5}5.520最短距离法举例(7)找出D(2)中非对角线最小元素是2,则将G4和G5并成一个新类,记为G8={X4,X5}。(8)计算新类G8与其它类之间的距离,再按公式计算,得距离矩阵D(3)

表4G6G8G7={X1,X2,X3}0G8={X4

,X5}3.50结果图01234x1x2x3x4x51.53.521G9G8G7G6由上图可以看出分成两类{X1,X2,X3}和{X4,X5}比较合适,在实际问题中有时回给出一个阀值T,要求类与类之间的距离小于T,因此有些样品可能归不到类中。第三部分聚类分析的SPSS过程在AnalyzeClassify下:1、快速聚类(K-MeansCluster):观测量快速聚类分析过程。2、分层聚类(HierarchicalCluster):分层聚类(进行观测量聚类和变量聚类的过程。快速聚类过程(QuickCluster)使用k均值分类法对观测量进行聚类。可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。AnalyzeClassifyK-MeansClusterK-均值聚类法基本原理

K-均值聚类分析K均值聚类法迭代终止条件两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的

倍到达迭代次数的上限K均值聚类的优缺点优点:占有内存少、计算量小、处理速度快,特别适合大样本的聚类分析缺点:1、应用范围有限,要求用户指定分类数目;2、只能对观测量聚类,而不能对变量聚类;3、所使用的聚类变量必须都是连续性变量。快速聚类过程中的选项使用快速聚类的选择项:类中心数据的输入与输出:Centers选项输出数据选择项:Save选项聚类方法选择项:Method选项聚类何时停止选择项:Iterate选项输出统计量选择项:Option选项举例下表反映我国16各地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的6个指标。利用聚类方法进行分类。地区食品衣着燃料住房生活用品文化生活北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94…………………步骤步骤一:录入数据,打开分析菜单,选择Classify——>K-MeansCluster(逐步聚类分析)步骤二:选择聚类变量聚类类数聚类个案标识步骤三:指定聚类过程中类是否调整类中心点给出聚类过程中两个调整类中心点:1、表示聚类过程中选择或指定初始类中心点,按照K-Means的迭代算法不断调整类中心点。2、聚类过程中只使用初始的类中心点而不作调整,迭代次数也进行一次步骤四:类中心数据的输入与输出。Readinitialfrom指定初始中心Writefinal保存结果中的各类中心数据Iterate(迭代)选项最大迭代次数收敛准则值在0~1之间,且不等于1.如果输入值为0.01,表示两次迭代计算的最小的类中心的变化距离小于初始类中心距离的1%时迭代停止是否在每个个案被分配到一类后立即计算新的类中心Save选项添加默认变量名为qcl-1的新变量,变量值表示聚类结果。添加默认变量名为qcl-2的新变量,变量值表示聚类终止后样本值距所属类中心的欧氏距离。初始类中心,输出初始类中心的数据。方差分析表,以聚类分析产生的类为控制变量的单因素方差分析,并输出个变量的值输出每个个案的分类信息,包括分配到哪一类和该个案距所属类中心的距离结果分析逐步聚类分析的初始类中心数据迭代记录下表给出了5个类中心点每次迭代时的变化。第一次迭代后,5类中心点中变化最大的是那个?第二次迭代后,5类中心点变化是否达到聚类结果的要求?(停止准则是什么?)逐步聚类分析的类成员其中第三列给出了每个个案所属的类,第四列给出个案和所属中心的距离。我省河南归到哪一类,与那几个省一类,且距所属中心距离多少?聚类结束时的类中心数据下表所示5个类的最终聚类中心。其中第几类各指数相对来讲较高?那个最低?作用:为后续分析以及解释分类结果提供依据最终聚类的类中心之间的距离哪两类之间距离最大,值为多少?对应的省份是那些?说明什么问题?逐步聚类分析的方差分析表各指数在不同类的均值比较情况。各项数据分别为:组间均方、组间自由度、组内均方、组内自由度。聚类小结显示5类成员情况,主要包括每一类的地区数例2:利用如下数据将以下城市按照空气指标分类在描述性统计分析中做标准化处理利用标准化处理后变量进行聚类分析结果解读初始聚类中心表迭代史表最终聚类中心表系统(分层)聚类

(HierarchicalCluster)过程分层聚类又称系统聚类:是指事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类分层聚类方法:分解法:先视为一大类,再分成几类凝聚法:先视每个为一类,再合并为几大类分层聚类法可用于观测量(样本)聚类(Q型)和变量聚类(R型)一般分为两步:Proximities:先对数据进行的预处理(标准化和计算距离等)Cluster:然后进行聚类分析两种统计图:树形图(Dendrogram)和冰柱图(Icicle)各类型数据的标准化、距离和相似性计算定距变量、分类变量、二值变量标准化方法p353:ZScores、Range-1to1、Range0to1等举例现有对07级本科生中5名不同学科的学生能力测试的结果,并进行聚类分析。个案学科抽象思维形象思维创新能力case1188783case2194632case3364891case4358911case5283882步骤步骤一:录入数据,打开分析菜单,选择Classify——>HierarchicalCluster(逐步聚类分析)步骤二:选择聚类变量,选择聚类个案标识步骤三:选择聚类类型和输出内容选择Q型聚类选择R型聚类输出聚类分析的相关图形输出聚类分析的相关统计量Method选项分层聚类的方法:组间平均连锁法组内平均连锁法最近相邻法最远相邻法重心聚类法中位数聚类法离差平方和法连续型定距变量的距离选择(欧氏距离、平方欧氏距离、夹角余弦距离、皮尔逊相关系数距离、契比雪夫距离、Block距离、闵可夫斯基距离、自定义距离)计数变量的距离选择(卡方测度、Phi方测度)二值变量的距离选项共26个选项转换值,给出变量值的标准化方法的选项距离计算完成后,对距离测度的转换距离值取绝对值改变距离符号距离与最小值之差,再除以极差得到距离标准化Save选项不建立新变量单一结果,利用新变量表示每个个案聚类后所属的类。可以选择指定的分类数量显示指定聚类数的范围内结果。自动生成若干个新变量,表示聚为若干个类时,每个个体聚类后所属的类。可指定最小、最大聚类数。输出凝聚状态表个案间的距离矩阵聚类成员不显示列出某一类数个案所属的类列出指定范围内的结果Plots选项树形图冰挂图输出聚类的每个阶段的冰挂图指定显示聚类数的范围不生成冰挂图设置作图方向1、显示纵向冰挂图;2、显示水平冰挂图结果分析摘要欧氏距离矩阵以矩阵的形式显示个案间的距离或相似测度的值,并显示处距离类型。凝聚状态表其中第一列表示聚类分析的第几步;二、三列表示本步骤中哪两个案或小类聚成一类;四列为个案距离或小类距离;五、六表示本步骤类中参与聚类的是个案还是小类,0表示个案;七列标识本步骤类结果将在以下第几步中用到。类成员聚类表从表中可知,类数从2至4时的个案所属类别。当聚成4类时,3、4个案聚成一类,其他个案自成一类冰挂图如何观察冰挂图:从最后一行开始,当聚成4类时,3、4个案聚成一类,其他个案自成一类;当聚成3类时,3、4个案,1、2个案聚成一类,个案五自成一类;当聚成2类时,1、2个案聚成一类,其余个案聚成一类树形图树形图以水平放置的树形结构呈现了聚类分析中每一次类合并的情况。SPSS自动将各类间的距离映射到0~25之间。如何看?那个更直观?例2:观测量聚类:按照交通情况对各地进行聚类标准化处理过程系统聚类结果龙骨图变量聚类:按照日照数对月份进行聚类

结果解读聚类进度表——垂直冰柱图从下往上看龙骨图小结除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStepCluster)无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定。聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已

。使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验。从数据要求上看1、参与分类的变量首先应符合要求2、各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,而后再进行聚类)3、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱从聚类方法的选择上1、看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100),两种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法2、要看分类的对象。如果是对样本分类,两种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样)注意对分类结果的检验分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较。一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。问题1、什么时候用快速聚类?2、什么时候用分层聚类?第四部分判别分析概念

有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分析(discriminantanalysis)这就是本次课要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是:在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别的思想判别分析:根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。判别函数(discriminantfunction):指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。判别准则(discriminantrule):对样本的判别函数值进行分类的法则。1、判别分析的一般步骤2、判别方法

SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费氏多类判别模型法。⑴马氏(Mahalamobis)距离判别法

马氏距离判别法的思想就是建立马氏距离,当被判断个案距离哪个总体中的马氏距离最小,该个案就隶属于这个总体。假定有A、B两个总体,则:X∈A若d(x,A)<d(x,B)X∈B若d(x,A)>d(x,B)待判若d(x,A)=d(x,B)⑵贝叶斯(Bayes)概率判别法

贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体或者归属于错判概率最小的总体的原则进行判别的。出现概率最大的总体指在全部N个个案中,属于各个不同总体的个案数分别为:n1、n2、n3…,则各自的概率可以简单计算为:

P(Gi)为先验概率。被判断的个案属于先验概率最大总体的概率应当高一些。先验概率反映了样本分布的总体趋向特性。当不能确定一个个案属于若干个总体中的哪一个时,归属大概率总体的概率显然会比归属小概率总体的概率高。另外,考虑到某些个案的特殊性,还应当具体分析各个个案的趋向特性。因为个案趋向于各个总体的概率可能不同。

例如:对儿童某行为应隶属于心理发展问题的概率远远超过隶属于生理发育问题的概率,即使样本数量很大时也基本如此,则将该行为判断为心理问题的正确性就大。当假定某个案归属某一个总体i时,由其判别函数得到的可能概率为P(D|Gi)。则该个案被判定属于总体i时的概率为:P(Gi|D)也称为后验概率,其对于不同总体的概率将决定判别的结果。⑶费氏(Fisher)多类判别模型法

费氏多类判别模型法的实质为一种通过坐标变换的方式将个案类别进行划分的方法。当个案数据点的分布在原有的变量空间无法通过变量的取值来区分时,坐标变换将数据点投影到另一个坐标系,在新的坐标系中个案的不同水平差异显著,用一元方差分析的检验手段就可以将不同种类区分开来了。即按照类间离差平方和最大同类内离差平方和最小的原则,使二者之比取最大来确定判别函数的系数。(4)逐步判别法逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。第三部分判别分析的SPSS过程在AnalyzeClassify下:判别分析(Discriminant):判别分析过程。使用判别分析的选择项:统计量选项:Statistics选项判别分类选项:Classify选项判别方法选择项:Method选项输出数据选择项:Save选项实例为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50~59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下所示。试做判别分析,建立判别分析,建立判别函数一边在临床中用于筛选惯性病人。冠心病人组

正常人组

编号舒张压胆固醇编号舒张压胆固醇19.865.18110.662.07213.333.73212.534.45314.663.89313.333.06………………步骤一:录入数据,打开分析菜单,选择AnalyzeClassifyDiscriminant(判别分析)步骤二:选择组别变量步骤三:选择变量1、当认为所有自变量都能对观测量特性提供丰富的信息时,使用该选项。不加选择地使用是所有自变量进行判别分析2、逐步分析方法。选择该选项“Method”将被激活Statistics选项矩阵选项1、类内相关矩阵2、合并类内协方差矩阵3、协方差矩阵4、总样本的协方差矩阵1、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论