版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八讲
聚类分析、判别分析聚类分析意义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析在统计分析的应用领域已经得到了极为广泛的应用。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部的个体在特征上具有相似性,不同类间个体特征的差异较大。方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空间距离的远近来划分类别方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体(Case)分类,也可以对变量(Variable)分类此时一般使用相似系数作为“距离”测量指标方法原理
例:根据年龄将人群分成适当的类,从右图可见,人群被分为两类是比较合适的。方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现聚类分析的特点聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。聚类分析的用途设计抽样方案分层抽样预分析过程先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或子集,然后再进行后续的多元分析。细分市场、个体消费行为划分先聚类,然后再利用判别分析进一步研究各个群体之间的差异。聚类分析的步骤步骤1:确定研究问题选择研究目的:分类描述;数据简化;揭示相互联系选择分类变量步骤2研究设计对个体聚类还是对变量聚类?分类变量是什么类型?选择用“距离”还是“相似系数”?是哪一种?数据是否需要标准化?是否需要删除奇异点?步骤3考虑是否满足基本假定样本对总体是否有代表性?聚类变量是否存在共线性?共线性是否足以影响结果?聚类分析步骤步骤4选择聚类方法采用谱系聚类法、非谱系聚类法、还是两者的结合?•采用哪种具体的聚类方法?•应该聚成几个类别?步骤5:解释聚类分析的结果考察类别的中心是否存在显著的差异?观察树形图和冰柱图是否可以根据分类变量给各个类别命名?步骤6:评价聚类分析结果的有效性利用适当的结果变量进行评价;利用其它描述性的变量描述各个类别的轮廓。评定聚类结果的标准一个好的聚类分析是:Efficient.尽可能少的分类数.Effective.寻找到无论在统计上还是在商业上都重要的分类.比如,一个类中含有5个客户,也许在统计上是有意义的,但是在商业上却没有利用价值TWOSTEPCLUSTER特点处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健步骤:建立ClusterFeatures(CF)Tree确定最佳聚类数分析实例:某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力。数据:car_sales.savcategoricalvariable:Vehicletypecontinuousvariables:Priceinthousands~FuelefficiencyTWOSTEPCLUSTERHIERARCHICALCLUSTER属于系统聚类法的一种其聚类过程可以用树形结构(treelikestructure)来描绘的方法方法原理先将所有n个变量/观测看成不同的n类然后将性质最接近(距离最近)的两类合并为一类再从这n-1类中找到最接近的两类加以合并依此类推,直到所有的变量/观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类即可进入HierarchicalCluster主菜单,或K-MeansCluster主菜单。下面对利用这两个过程进行聚类的步骤和主要选项加以介绍。1.HierarchicalCluster进行层次聚类有以下步骤:(1)指定参与聚类的变量将选定的变量放到“Variables”下的矩形框中。(2)指定聚类对象要进行变量聚类,在Cluster选项中选择“Variables”,要对案例进行聚类,选择“Cases”。HierarchicalCluster对话框(3)在“Method”子对话框中指定聚类方法、相似测度的方法和标准化数据的方法在“ClusterMethod”对话框中选择聚类方法,SPSS软件提供了本章前面介绍的七种聚类方法可供选择。在“Measure”子对话框中选择不同变量类型的相似性测度方法,对于间距测度变量在“Interval”对话框中选择,分类变量在“Counts”中选择,二分类变量在“Binary”中选择。在“Transform
Value”对话框中选择标准化数据的方法。(4)选择要输出的统计量在“Statistics”对话框中可以选择输出聚类进度表、距离距阵和聚类结果(即每个案例属于哪一类)。“SingleSolutions”输出指定类数的聚类结果,“Rangeofsolutions
”输出指定类数范围的聚类结果,比如指定类数范围从2到4,则分别输出聚为2、3。4类时的聚类结果。(5)选择要输出的统计图表在“Plots”对话框中可以选择输出树状结构图和冰柱图。输出冰柱图时,选择“Allclusters”显示整个聚类过程,选择“
Specifiedrangeofclusters”显示指定范围的聚类过程。(6)生成新变量在“Save”对话框中可以选择把聚类结果作为变量保存到数据文件中。HIERARCHICALCLUSTER实例应用根据购物环境、服务质量对5个商厦进行分类31省市自治区小康和现代化指数的层次聚类个体聚类采用平方欧式距离,组间距离采用平均组间连接距离实例应用:对变量进行聚类裁判打分的聚类分析HIERARCHICALCLUSTERK-MEANSCLUSTER属于非系统聚类法的一种方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止K-MEANSCLUSTER方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量K-MEANSCLUSTER分析实例31个省市自治区各类小康和现代化的数据注意类别数、分类结果的实际应用。聚类分析应注意的问题
距离测量方法使用默认值即可变量选择无关变量有时会引起严重的错分应当只引入在不同类间有显著差别的变量尽量只使用相同类型的变量进行分析使用连续变量,将分类变量用于结果解释新的聚类方法可以同时使用这些变量聚类分析应注意的问题共线性问题对记录聚类结果有较大的影响相当于某个变量在聚类中的权重大于其它变量最好先进行预处理变量的标准化变量量纲/变异程度相差非常大时需要进行数理统计算法上要求一律标准化标准化后会削弱有用变量的作用聚类分析应注意的问题异常值影响较大还没有比较好的解决办法尽力避免分类数从实用角度讲,2~8类比较合适专业意义一定要结合专业知识进行分析聚类分析应注意的问题其他方面聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解总结判别分析的基本原理判别分析也是一种分类的学科,和聚类分析一样,它已成为高级统计分析不可缺少的一部分。判别分析是根据观察或测量到的若干变量值判断研究对象如何分类的方法。这一点和聚类分析相似。但聚类分析和判别分析之间有存在一些差别。聚类分析是在未知类别数目的情况下对样本数据进行分类,判别分析则是在一直分类数目的情况下,根据判别函数对不知类别的样本进行分类,同时对已经分类的样本进行检验。判别分析判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。判别分析的概念判别分析是一种进行统计鉴别和分组的技术手段。它可以就一定数量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数(discriminantfunction)。然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行鉴别分组。沿用多元回归模型的称谓,在判别分析中称分组变量(groupingvariable)为因变量,而用以分组的其他特征变量称为判别变量(discriminantvariable)或自变量。判别分析技术曾经在许多领域得到成功的应用,包括对儿童心理测验。手术或药品效果、地理区划的经济差异、决策行为预测等结果的分类。判别分析判别分析与聚类分析有所不同。聚类分析是一种纯统计技术,只要有多种指标存在,它就能根据各案例的变量值近似程度排出顺序来,只是描述性的统计。但是判别分析则不同,在分析之前就根据理论或实际的要求对于分组的意义和分组类别数目加以确定。并且,判别分析要以此为标准来建立判别函数。最后,判别分析并不停留在描述分类类型与各鉴别指标之间的关系上,还能够对于未知分组类型的案例进行鉴别分组。因此,它带有“预测”的意义。判别分析包括两个阶段的工作:第一阶段是分析和解释各组的指标特征之间存在的差异,并建立判别函数。在这部分工作中,研究人员要处理的是已知分组属性的那些案例。这时需要确定是否能在特征变量数据的基础上鉴别出已知的分组来,以及分组能被鉴别的程度和哪些特征变量是最有用的鉴别因素。另一个用途是为了分组的目的推导一个或多个数学方程。这些方程称为“判别函数”,它们以某种数学形式将表示特征的判别变量与分组属性结合起来,使我们能辨识一个案例所最近似的分组。第二阶段所要处理的是未知分组属性的案例,以第一阶段的分析结果为根据将这些案例进行鉴别分组。这相当于根据以往经验来“预测”案例的分组属性。在分组属性能够成为一种明确结果时(如分组代表的是事物发展的不同结果),便可以作为事实来检验预测的准确性。而有的时候,分组的内在属性并不是显性的,如一个病人的病症到底是哪一类的,那么判别分析只是提供一种判断。1.判别分析的假设条件判别分析最基本的要求是:分组类型(Group,用g表示)在两种以上,即g≥2;在第一阶段工作时每组案例的规模必须至少在一个以上,即nj>1(下标j表示所在类型组);各判别变量的测度水平在间距测度等级以上;各分组的案例在各判别变量的数值上能够体现差别。判别分析的假设之二,是各组案例的协方差矩阵相等。判别分析的最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当这个假设条件破坏时,计算的概率将非常不准确。判别分析是用于研究两个或多个组之间在一套判别变量上的差别的方法。因为分组被定义为一个名义测度等级变量,所以在本质上判别分析是一种将一个名义变量与多个间距等级变量联系起来的方法。2.判别分析的基本模型判别分析的基本模型就是判别函数,它表示为分组变量与满足假设的条件的判别变量的线性函数关系,其数学形式如下:其中,y是判别函数值;xi
为各判别变量;bi为相应的判别系数。从上述判别函数的方程式可以看出,它与一般多元线性回归模型的形式一致。所以,我们可以将判别函数值(dicriminantfunctionvalue)看成是因变量,而将判别系数看成是回归系数。但实际上鉴别模型与线性回归有本质上的区别。首先,判别函数中的y并不代表原来输入的因变量的估计。在判别分析中所输入的因变量是一个定性的分组变量,表示案例所在的不同组别,通常以连贯的整数作为编码。而在分析输出的判别函数中的y却是一个间距变量,并且它并不直接与分组变量有数量联系,只代表在某一空间上的坐标。其次,回归分析的方程式只有一个,而判别分析中的函数往往并不是只有一个,在判别变量较多时,判别函数也往往有多个。判别函数值y又常简称为判别值(discriminantscore)。其判别系数(discriminantcoefficientorweight)表示各判别变量对于判别函数值的影响,其中b0是常数项。判别模型对应的几何解释是,各判别变量代表了k维空间。每个案例按其判别变量值成为这一k维空间中的一个点。如果各组案例就其判别变量值有明显不同,就意味着每一组将会在这一空间的某一部分形成明显分离的蜂集点群。即使这些组的点群在空间位置上有少量重叠,其各自的“领域”也大体可以分清。为了概括这个组的位置,我们可以计算它的领域的中心。中心的位置可以用这个组别中各案例在每个变量上的组平均值作为其坐标值。因为每个中心代表了所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理解。然而,仅看单个变量会使我们只从单一方向观察;当有很多变量时,这样的信息也许会复杂得难于理解。可以证明,实际可能用不着用这么多维度来完整地代表一个组的中心的相对位置。因此,判别分析可以帮助我们精简对鉴别用处不大的维度。总而言之,判别分析将这些空间分布特征与已知分组属性之间的联系加以拟合,并估计出各判别系数的最优估计,并且对于整个模型和各参数估计进行评价和检验。模型估计的过程可简略描述如下:首先将判别变量表示的k维空间进行旋转,寻找某个角度使各分组平均值的差别尽可能大,然后将其作为鉴别的第一维度。在这一维度上可以代表或解释原始变量组间方差中最大的部分。上述判别函数就表达了将原始数量值转换至这一维度的系数方程式。对应第一维度的判别函数称为第一判别函数。然后按照同一原则寻找第二维度,并建立第二判别函数。如此下去,直至推导出所有判别函数。建立后续判别函数的条件是,后一个函数必须与前面所有的函数正交,即判别函数之间完全独立(完全不相关)。实际上这样推导出的函数有min(k,g-1)个,即等于判别变量个数或分组个数减1两者中的较小者。其实,这已经有可能将原来的k维加以精简了。比如判别变量有8个,而组型分为3种,实际上能够得到的判别函数只有2个,即我们只要从两个维度来进行案例分组即可。如果判别变量的数目大于分组数目时,能推导的判别函数虽然还是k维,但这时所有案例的空间分布将最有利于识别分组。得到的每一个函数都反映判别变量组间方差的一部分,可以用所占比例表示其相对重要性。各判别函数所代表的组间方差比例之和为100%。其实,推导出来的判别函数也不见得所有都真的有实用价值。往往先推导的那些判别函数作用很大,而后面推导出的函数只代表很少一部分方差。即使在对案例鉴别分组时忽略它们,也不会造成鉴别错误的明显增加。所以,这些实际效用不大的判别函数,也可以被精简掉。判别分析的方法判别分析(Discriminatory
Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
判别分析的方法费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。判别分析的方法贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。判别模型一.
判别模型中的各参数指标二.判别分析模型的统计检验判别分析模型的各参数指标一个判别分析不光要有基本模型,还需要多个不同指标来表示模型的不同方面。有的用于表示数量关系,有的用于评价和比较。下面分别对鉴别模型中所涉及的主要指标加以介绍。为了避免有的参数计算过程所必须涉及的矩阵代数形式或其他复杂的数学公式,这里将不对每个参数的来龙去脉加以详细讨论。由于本在介绍判别分析时将与SPSS统计软件的应用相结合,我们用不着在估计过程的细节上花费许多功夫,因为只要我们正确地输入数据和制定判别分析的程序命令,计算机能够提供全部统计结果。所以,在此中我们将只讨论每个指标的意义和用途。判别系数又称函数系数(functioncoefficient),其中还进一步分为两种:非标准化的和标准化的。非标准化判别系数(unstandardizeddiscriminantcoefficient)也称粗系数(rowcoefficients)。将原始变量值(即粗数据,rawdata)直接输入模型,得到的系数估计即非标准化的“粗”系数。得到非标准化的判别系数就意味着我们得到了求解的判别分析基本模型。非标准化判别系数类似于回归分析中的非标准化系数,非标准化的判别系数的大小并不能反映相应变量在鉴别作用上的大小。这是因为,由于原始变量所取的测量单位有所不同,因此非标准化系数之间没有可比性。标准化判别系数通过对于非标准化系数加以特定形式的调整,就得到标准化判别系数(standardizeddiscriminantcoefficient)。以标准化系数表达的判别函数不再有常数项,并且函数中出现的自变量不再是原始变量,而是标准化的变量。也就是说,如果将经过标准化的变量输入鉴别模型,那么可以直接得到标准化的回归系数。标准化使得每个变量都以自己的平均值作为数轴原点,以自己的标准差作为单位。这样一来,每个案例的原始变量值现在则一方面表现为与平均值之间的距离,另一方面以正负号形式表示了自己偏离平均值的方向。并且,各标准化系数因为一致以其标准差来测量也具有了可比性。哪个变量的标准化系数绝对值大,就意味着将对鉴别值有更大的影响,于是可以用来比较各变量对鉴别值的相对作用。但是正如分析中回归系数只表达自变量轴与回归线之间的角度,但并不反映各案例点与回归线之间的拟合程度一样,判别系数(即使是标准化的判别系数也一样)也只是表达判别变量与鉴别值之间的这样一种关系。所以仅仅由于标准化判别系数绝对值大,就认为相应自变量对于整个鉴别力(注意这里说的是鉴别力而不是鉴别值)最有用仍然是有问题的。如果判别系数实际上拟合效果很不好,那么即使对鉴别值有很大作用,但是鉴别值在鉴别准确性方面仍会存在很大问题。因此,我们在判断各个变量对鉴别力的影响时,除了要看标准化判别系数的绝对值以外,还要检查它的结构系数。在判别分析中结构系数(structuralcoefficient)又被称为判别负载(disciriminantloading),它实际上是某个判别变量xi与鉴别值y之间的相关系数,它表达两者之间的拟合水平。当这个系数的绝对值很大(接近+1或-1)时,这个函数表达的信息与这个变量的信息几乎相同。当这个系数接近于0时,它们之间就没有什么共同之处。类似在因子分析中所做的那样,如果一些变量与一个函数之间有很大的结构系数值,我们就可以用这些变量的名字命名这个函数。如果这些变量似乎有类似方面的特征,我们可以以这种总的特征来命名这个函数。结构系数结构系数有两种,一种是总结构系数,另一种是组内结构系数。总结构系数基于总相关之上。它们的用途是在于识别由这些函数携带的在分组间进行鉴别的信息。然而,有时我们的兴趣在于探求一个函数与分组内部的变量的紧密联系程度。这一信息可以从汇合的组内相关(Pooledwithin-groupscorrelations),又称为组内结构系数(within-groupsstructurecoefficient)得到。SPSS判别分析提供的就是这样一种组内结构系数。SPSS在判别分析时还能自动按组内结构系数分组,它选择最大的一些组内结构系数标上星号,并且按组排序列出。分组的矩心分组的矩心(groupcentroid)描述在鉴别空间中每一组案例的中心位置。它是通过将式(1)基本模型中代入所有判别变量的平均值所计算出来的。其结果,每个判别函数的计算值便是每个分组在各鉴别轴上的坐标值。考察在鉴别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。前面曾经提到,有时判别分析可以推导出多个判别函数,然而这些判别函数不一定都很有用。可以根据一定指标来描述其对于鉴别的效用。鉴别能力强的需要保留,在对未知分组的那些案例进行鉴别时所应用。对于鉴别能力很差的判别函数,为了使鉴别工作简约,可以将其略去。略去这样的判别函数,一般不会对总的鉴别结果有明显的影响。这里所说的鉴别力,既包括了每个判别变量对于判别函数的作用,也包括了本判别函数对于所有原始变量总方差的代表性。鉴别力指数鉴别力指数(potencyindex)就是这样一个指标,有时它也被更直接地称为方差百分比(percentofvariance)。判别分析通过一个判别函数所能代表的所有原始变量的总方差百分比来表示每个判别函数的鉴别力。在判别分析中,一个判别函数所代表的方差量用所对应的特征值(eigenvalue)来相对表示。那么特征值的合计就相对代表了总方差量。而每个特征值占这一合计的比例就是相应判别函数能够代表的总方差比例,即它的鉴别力指数。当然,鉴别力指数越大的判别函数越重要。而那些鉴别力指数很小的判别函数则可以被精简掉。我们已经讨论的前五个指标都用不着考虑数据的抽样及推断性质。它们对于总体资料和任何类型的样本都同样适宜。但残余鉴别力(residualdiscrimination)有所不同。当资料来自于一个样本,计算出判别函数而又想推断它在鉴别总体案例时的情况,就要涉及统计显著性的问题了。这里的讨论按照案例来自简单随机抽样的情况进行统计检验,如果是其他抽样方法,最好在解释检验结果时要保守一些,并将更大的注意力放在这些结果的实际重要性上。残余鉴别力对判别函数统计显著性的检验是间接地进行的。不是去检验这个函数本身,而是在推导一个函数之前检查在这个鉴别模型中的残余鉴别力。残余鉴别力的含义是,在以前计算的函数已经提取过原始信息之后,残余的变量信息对于鉴别分组的能力。如果残余鉴别力过小,那么即使在数学上可行,再推导其他函数也没有意义了。残余鉴别力是用统计量Wilks’Lambda来测量的。实际上,在我们得到SPSS关于推导函数的输出统计以后,首先要检查的就是残余鉴别力的检验,以评价到哪一步推导是有意义的。需要加以注意的是,每一步统计显著的结果实际上说明下一步推导函数是有意义的。在出现不显著的结果以后,研究人员就用不着进一步分析后面给出的判别函数,而应将注意力转向标准化判别系数。结构系数、鉴别力指数的分析。有的时候,即使一个函数统计上显著,但其他指标表明其鉴别作用不大时,也可以略去不用。Fisher判别系数可以用来直接进行一个案例的鉴别。也就是说,如果有这套系数,再有一个新的案例的数据时,可以直接进行手工计算鉴别。因此有了Fisher判别系数就能够非常简便地在没有计算机的情况下对于新的案例进行鉴别。Fisher判别系数SPSS判别分析应用一.
关于SPSS判别分析中的例题SPSS判别分析的程序SPSS判别分析的输出格式判别分析的实例应用关于例题为了使我们在实际上机应用SPSS操作判别分析时减少输入原始数据的麻烦,这里我们使用所提供的原始数据。该数据有全国30个省、市、自治区的案例,原有5个变量,分别为多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入、城镇人口比例。假设我们将这些变量作为判别变量来对各地区进行鉴别分组,以便更好分类指导工作。那么,现在还必须要有一个分组变量才能完成判别分析。假设有理由可以断定其中的一些地区归为一类、二类和三类地区,但是同时还有一些地区则很难进行类型归属,于是我们可以建立一个分组变量TYPE来反映每个案例的分组属性。如果我们已经根据原始数据建立了SPSS数据文件,那么现在只需要再新加一个分组变量并按照下列变量TYPE的数据输入即可。在这个分组变量中,编码1、2、3分别表示一类、二类和三类,“.”表示缺失值,在输入数据时将相应单元格跳过即可。数据输入工作完成后,可以将该工作数据文件另存为一个文件T9_1.sav。然后我们就可以根据已知分组类型的案例建立鉴别方程,计算各种判别分析统计指标,并在此基础上完成未知分组属性的那些案例的鉴别分组工作。1.SPSS判别分析数据格式在SPSS中进行判别分析时,所有判别变量的格式与一般情况毫无二致,只是对于分组变量有一定要求。分组变量的案例有两种情况:第一种是已知所属分组类型,判别分析根据它们来建立判别函数;第二种是未知所属分组类型,需要通过分析进行鉴别。已知所属分组类型的案例在分组变量上的编码以连贯的整数表示不同类型,比如本章例题中那样以1、2、3表示三种分组类型。SPSS在判别分析时将以这些编码的案例来建立判别函数、计算其他统计指标。未知所属类型的案例在分组变量上的编码取值必须是已知分组类型的编码值域以外的值或者空缺作为缺失值对待。比如本章例题中将这些案例的分组变量值空缺。SPSS在建立判别函数以后,将重新根据判别函数将所有已知和未知分类属性的案例重新鉴别分类,并提供分组报告。将已知分组类型与重新鉴别的结果相比较,也是一种检查判别函数鉴别力的一个途径。
利用SPSS菜单定义判别模型及各项参数数据准备工作完成后,便可以开始进行判别分析工作了。首先,在SPSS的Analyze的菜单中选择Classify一项,然后再选择其中的Discriminant一项,便进入了判别分析窗口。在判别分析窗口中左侧的变量目录中,用光标点击选择判别分析的分组变量(使其背景变暗),再点击上面一个箭头键将这一变量调入GroupingVariable一栏。然后,点击该栏目之下的DefineRange键,打开小窗口定义分组变量的值域。本章例题已知分组案例的分组编码最小值为1,最大值为3,所以将这两1值分别输入Minimum和Maximum栏目,然后点击Continue继续下面的步骤。Discriminant对话框在判别分析窗口中的变量目录中,选择判别变量,并通过中下部的箭头键将其调入Independents一栏。于是鉴别模型便定义完毕。但是,还需要定义输出格式及其他SPSS程序的设置。点击判别分析窗口下面的Statistics键,打开统计输出格式窗口。在左下部的FunctionCoefficients(函数系数)栏目中,选择Fisher’s和Unstandardized使相应的方格打叉。前者Fisher系数可以用来直接进行案例的鉴别,而后者是要求输出非标准化判别系数,于是我们可以知道判别函数式。然后,点击统计输出窗口下部的Continue键继续下面的工作。点击判别分析窗口下面的Classify键,打开统计分类窗口。在右下部的Display(显示)栏目中,选择Resultsforeachcase和Summarytable,使相应的方格打叉。前者是要求输出每个案例的鉴别结果,使我们了解具体案例的鉴别情况,后者是鉴别的概要信息。在这个窗口还可以要求SPSS输出鉴别结果的图形,比如本章最后所提供的所有分组混合的鉴别图(Combined-groupsplots)。在这个窗口还可以设置先验概率(priorprobabilities)。其中有两种选择,即各组相等(allgroupsequal)和按各组案例规模(computefromgroupsizes)。前者是SPSS判别分析的默认状态;后者在各类已知分组的案例规模差别很大时可能采用,这就意味着在鉴别中要考虑各分组类型的规模分布。比如,已知分组的案例中,某一组规模数量很大,是其他组的数倍。如果有理由认为这种分布差异在未知分组的那一部分案例或总体上也存在,那么希望在判别分析中考虑这种分布影响时,便可以选择后者设置。在本窗口设置工作完成以后,点击统计输出窗口右上角的Continue键继续下面的工作。如果需要将每一个案例的鉴别结果存入原来的数据文件以备其他分析,这时可点击判别分析窗口下面的Save键,打开保存窗口。能够保留案例鉴别结果中的三种信息,按上下顺序列在保留窗口,依次为:预测的案例分组;鉴别值;分组属性的概率。如果选择保存,SPSS可将这些数据附加在工作数据窗口中相应案例的原有数据之后。其中,预测的分组是最终结果,只有一项,变量名为dis_1。鉴别值则根据判别函数的数目而定,第一函数鉴别值将定名为dis1_1,第二函数鉴别值将定名为dis2_1,等等。根据各判别函数所得到的鉴别概率也依函数数目而定,第一函数鉴别概率将定名为dis1_2,第二函数鉴别概率将定名为dis2_2,等等。然后,点击统计输出窗口右上角的Continue键回到判别分析窗口。所有模型设置工作完成以后,点击判别分析窗口右上角OK键,SPSS便开始执行所有指定的分析工作,输出统计结果和统计图,保存数据。注意SPSS判别分析的保存数据只是将要求的数据存放在工作数据窗口,如果需要这些附加数据永久保存,则需要运行SPSS主菜单上File栏中的Save命令。关于各项主要鉴别指标的输出格式已经在讨论指标时提供,这里主要讨论的是案例鉴别结果和概要结果的输出格式。(1)每个案例的判别结果鉴别工作的主要目的是通过已知分组案例信息建立判别函数,再利用判别函数对所有案例进行重新鉴别分组。SPSS判别分析可以输出所有案例的鉴别结果,研究人员可从中获得案例的鉴别分组。SPSS判别分析结果的输出格式SPSS判别分析对于案例鉴别结果的输出格式如下:其输出中各栏依顺序为:案例序号。案例缺失值情况、选择情况、实际分组类型、具有最大鉴别概率的分组类型、其条件概率(conditionalprobability,符号为P(D/G))。其后验概率(posteriorprobability,符号为P(G/D))、具有第二大鉴别概率的分组类型、其后验概率、鉴别值。实际分组类型一栏提供的是原始数据中案例的组别编码值。如果案例不属于定义的各组别,即分组编码在定义组别编码值域以外或为缺失值时,将作为未知分组属性处理。那么,在这一栏中将注明为UNGRPD,表示尚未分组(ungrouped)。最大概率类型可能是研究人员最关心的鉴别结果,它是通过判别分析形成的组别。如果已知分组的案例经过再鉴别却得出不同的分组属性,输出将在实际分组编码的后面标注一个星号加以特别注明。(2)判别分析的概要结果SPSS判别分析输出鉴别的概要结果,提供原始数据中各种分组类型与鉴别出的各种分组类型的案例数交互表,并提供相应的所占比例。判别分析的实例应用1.打开数据文件T9_1.sav;2.Analize→Classify→Discriminant打开Discriminant对话框;3.确定判别分类变量,将Type变量放入GroupingVariable栏中,并定义分类的组数,(Minmum1,Maxmum3);将5个变量放入IndependentVariable栏中,选择Enterindependentstogether选择项;4.打开DiscrimnantAnalysis:Statistics对话框,在左下部的FunctionCoefficients(函数系数)栏目中,选择Fisher’s和Unstandardized使相应的方格打叉。前者Fisher系数可以用来直接进行案例的鉴别,而后者是要求输出非标准化判别系数,于是我们可以知道判别函数式。5.打开DiscrimnantAnalysis:Classify对话框,在右下部的Display(显示)栏目中,选择CasewiseResults和Summarytable,使相应的方格打叉。前者是要求输出每个案例的鉴别结果,使我们了解具体案例的鉴别情况,后者是鉴别的概要信息。6.如果需要将每一个案例的鉴别结果存入原来的数据文件以备其他分析,这时可点击判别分析窗口下面的Save键,打开DiscriminantAnalysis:Save保存窗口。能够保留案例鉴别结果中的三种信息,按上下顺序列在保留窗口,依次为:预测的案例分组;鉴别值;分组属性的概率。如果选择保存,SPSS可将这些数据附加在工作数据窗口中相应案例的原有数据之后。7.在DiscriminantAnalysis各窗口定义完毕,单击OK,系统执行Discriminant程序。输出结果分析:该表是判别分析过程的总结。对于判别变量type有记录14个,16个记录是缺失值。该表反映判别变量type在3组中的分布情况。该表是判别函数小结,由以下部分组成:函数代号Function。Eigenvalue两个判别函数的特征值,是组间平方和与组内平方和之比。最大特征值与组均值最大的向量对应。%ofVariance方差的百分比。Cumulative方差累积百分比,最后累积值是100%。CanonicCorrelation判别相关系数,是组间平方和与总平方和之比的平方根。被平方的是由组间差异解释的变异总和的比。该表是Wilks’Lambda统计量,该组统计量进行的检验的零假设是各组各变量均值相等。无论哪种检验方法,都是对判别函数的有效性进行检验。判断该判别函数能否将两类很好地区分开。Wilks’Lambda统计量的取值范围在0~1之间,值接近0表示组均值不同,值接近1表示组均值没有不同(等于1表示所有均值相同)。Chi-Square是对Wilks’Lambda的卡方转换,用以确定其显著性。Df是获取显著性水平的自由度。Sig.是零假设成立的概率。该表为标准化的判别函数的系数,由此表可以得到两个判别函数:Y1=1.03784x1-0.78122x2-1.47771x3+1.46174x4+0.15392x5Y2=0.20164x1-0.03439x2-0.59251x3-0.11642x4+1.51750x5该表是组内结构系数矩阵表。SPSS在判别分析时还能自动按组内结构系数分组,它选择最大的一些组内结构系数标上星号,并且按组排序列出。上述输出中可以看出,x2
和x1被放在一组,它们与第一函数的联系更为密切。根据判别变量的原有定义,这两个变量都是测量计划生育水平的,因此我们可以称第一函数为计划生育函数。而x5
、x3
和x4被放在另一组,它们与第二函数联系密切。这些变量都是描述社会经济发展水平的,所以可以称第二函数为社会经济函数。非标准化的判别系数,我们也可以根据该表推导出两个判别函数:Y1=65.6113916+0.2777410x1-0.7069548x2-0.2314016x3+0.0016683x4+0.0145724x5Y2=1.5560233+0.0539604x1-0.0311224x2-0.0927843x3-0.000132867x4+0.1436736x5该表是组(类)均值(重心)处的判别函数值。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度山东省环保工程承建合同2篇
- 2024年度煤矸石用于园林绿化合同3篇
- 某中学教师年度考核方案
- 2024年度城市基础设施建设沥青材料采购合同3篇
- 2024年度融资合同融资金额及还款方式3篇
- 英语口语提升攻略
- 《金融工具与市场》课件
- 艺术之路的追求
- 2024年度房地产租赁合同标的及租金调整条款2篇
- 二零二四年房产交易合同书3篇
- 2024年江西省财投供应链金融有限公司招聘笔试参考题库附带答案详解
- (2024年)戴明环(PDCA循环)管理培训教材课件
- 2024年政府工作报告基础知识试题及答案(100题)
- JTG F80-1-2004 公路工程质量检验评定标准 第一册 土建工程
- 科普皮肤护肤知识讲座
- 痛性眼肌麻痹综合征临床分析
- 新能源汽车技术职业生涯规划
- 环境保护行业污染治理措施培训
- 科普文化墙设计理念
- 安全联锁保护系统投用、摘除、停运审批管理制度
- 演示文稿昆体良
评论
0/150
提交评论