第7讲 聚类分析与判别分析_第1页
第7讲 聚类分析与判别分析_第2页
第7讲 聚类分析与判别分析_第3页
第7讲 聚类分析与判别分析_第4页
第7讲 聚类分析与判别分析_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第11章章 聚类分析与判别分聚类分析与判别分析析第一节第一节 聚类分析与判别分析原理简介聚类分析与判别分析原理简介 处理分类问题 一、一、 聚类分析聚类分析 又称,群分析。做什么? 把没有分类信息的资料按照相似程度归类。怎么做? 系统聚类法(应用较广)和非系统聚类法 二、二、 判别分析判别分析做什么? 在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样品进行判别分析。怎么做? 距离判别、贝叶斯(Bayes)判别、费歇(Fisher)判别等第二节第二节 K-均值聚类法分析均值聚类法分析【K-Mean Cluster

2、】过程过程 又称快速聚类法,属于非系统聚类。一、一、K-均值聚类法基本原理均值聚类法基本原理 K均值聚类法迭代终止条件:两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的 倍到达迭代次数的上限 K均值聚类的优缺点:优点:优点:占有内存少、计算量小、处理速度快,特别适合大样 本的聚类分析 缺点:缺点:1、应用范围有限,要求用户指定分类数目; 2、只能对观测量聚类,而不能对变量聚类; 3、所使用的聚类变量必须都是连续性变量。 二、引例二、引例(练习一)(练习一)例1 利用如下数据将以下城市按照空气指标分类。下表中,表示城市空气质量指标为“颗粒物”、“二氧化硫”、“二氧化碳”和“天数”,

3、其中“天数”指空气质量达到或好于二级的天数。(数据文件:主要城市空气质量指标.sav)1、对聚类变量标准化、对聚类变量标准化【Analyze】 / 【Descriptives Statistics】/【 Descriptives 】思考:为什么要标准化?2、执行【Analyze】 / 【Classify】/【K-means Cluster】标记观测量框,相当于观测量记录号类数目栏,设置聚类数选择聚类方法(迭代过程不断更新聚类中心)(迭代过程聚类中心一直不变)聚心框,用于设置最终聚心和初始聚心存取(将最终聚心保存到指定的文件或数据集中)(若不选,则自动生成初始聚心)Iterate:设置迭代参数最

4、大迭代次数栏收敛标准值栏(不超过1)使用移动平均:选择,则表示在迭代过程中每分配一个观测量到某类后立刻计算新的聚心;不选,则表示当所有的观测量分配完再计算各类聚心Save New Variables:选择保存新变量的方式聚类成员选项。选择,则工作文件中将建立一个名为”QCL_1”变量,其值为各观测量的聚类后最终所属的类别。聚类中心距离选项。选择,则工作文件中将建立一个名为”QCL_2”变量,其值为各观测量与所属类的聚心间的欧氏距离。Options对话框用于指定输出统计量值(输出初始聚心)(输出方差分析表)(每个观测量的聚类信息选项,显示每个观测量最终被聚入的类别、各观测量与最终聚心的欧氏距离,

5、以及最终各类聚心间的欧氏距离)缺失值框,指定缺失值处理方式结果解读:结果解读:1、初始聚类中心表、初始聚类中心表列出由系统给出的各类的初始聚类中心。2、迭代史表、迭代史表列出迭代过程中各类聚类心的改变值。说明:聚类过程经过6次迭代才终止,初始聚类中心之间的最小距离为2.976.3、最终聚类中心表、最终聚类中心表列出各类的最终聚类心。4、每类中的样品数目表、每类中的样品数目表列出每个类钟的观测量数目、有效观测量数目以及缺失观测量数目。第三节 系统聚类法【HIERARCHICAL】过程 一、系统聚类法的基本思想是:视观测量(或者变量)各自成为一类;找性质最接近的两个类合并成一个新类,计算在新的类别

6、分划下各类之间的距离;再将性质最接近的两类合并,直到所有模式聚成一类为止。 系统聚类法优点:既可以对观测量也可以对变量进行聚类;所使用的变量既可以是连续变量也可以是分类变量;提供的距离计算方法和结果显示方法也很丰富。 二、引例二、引例(练习二)(练习二)例2 观测量聚类:观测量聚类:按照交通情况对各地进行聚类。数据文件:各地区交通事故情况(2004).sav,其中变量:city(城市名称)、happen(事故发生次数)、death(死亡人数)、injuried(受伤人数)、loss(损失折款)。1、对聚类变量标准化、对聚类变量标准化【Analyze】 / 【Descriptives Stati

7、stics】/【 Descriptives 】2、执行、执行【Analyze】/【Classify】/【Hierarchical Cluster】用于放置进行分层聚类的变量标记观测量,对观测量聚类时才被激活(对观测量聚类)(对变量聚类)选择显示内容(显示统计量值)(显示图形)Statistics:选择要输出的统计量只有在主对话框选择Statistics时才被激活(输出一张概述聚类进度的表格)(输出一个相似性矩阵来显示各项间的距离)样品隶属类单选框(表示不输出样本隶属类表)(指定一个分类数目,然后输出样品隶属表)(指定两个分类数,然后输出其间各种分类的样品隶属表)Plots:选择要输出的图形(龙

8、骨图)(冰柱图)(显示全部聚类结果的冰柱图)(限制聚类解范围)(最小聚类解)(最大聚类解)(步长)(不输出冰柱图)(输出垂直冰柱图)(输出水平冰柱图)Method:选择具体的聚类方法(选择不同的类间距离的测量方法)(选择距离测度方法)(为间隔测度的连续型变量提供距离算法)(默认欧氏距离的平方)(为频数计数变量提供测度计数数据的不相似方法)(默认卡方测度)(为二元变量提供二值数据的不相似性测度)(默认二元变量欧氏距离的平方)(转换值框,用于选择数据标准化方法)(对变量)(对数据)(转换测度框,用于选择测度转换方法)(绝对值转换法)(变号转换法)(重新调节测度值到范围0-1转换法)Save New

9、 Variables:选择保存新变量的方式只有对观测量聚类才能被激活样品隶属类单选框(表示不输出样本隶属类结果)(指定一个分类数目,然后建立新变量输出样品隶属结果)(指定两个分类数,然后建立新变量输出其间各种分类的样品隶属结果)结果解读:结果解读:1、观测量概述表、观测量概述表2、聚类进度表、聚类进度表描述系统聚类法的具体实现步骤。(聚类步数)(具体合并哪两类)类间距离测度系数该步聚类合并的两类上一次出现的步骤数该步生成的新类下一次合并将出现的在第几步3、龙骨图、龙骨图横向距离表示差异的大小例3 变量聚类:按照日照数对月份进行聚类。数据文件:主要城市日照对数.sav,其中,“city”表示“城

10、市名称”,各月份的日照数为“Jan”、“Feb”、“Dec”。执行执行【Analyze】/【Classify】/【Hierarchical Cluster】为什么不标准化?要求输出龙骨图和垂直冰柱图 结果解读:结果解读:1、观测量概述表、观测量概述表2、聚类进度表、聚类进度表3、垂直冰柱图、垂直冰柱图(16.0以上版本)以上版本)从下往上看,显示了各变量依次在不同聚类时的分类归属情况。聚类个数 说明:若两根冰柱图中间有空隙,则代表对应聚类个数下,这两个变量(或观测量)是属于不同类的。相反,若两根冰柱相连,则代表这两个变量(或观测量)在该聚类个数下是属于一类的4、龙骨图、龙骨图第四节第四节 两步

11、聚类法两步聚类法【TWOSTEPTWOSTEP CLUSTER CLUSTER】过程过程探索性聚类方法,解决海量数据或者具有复杂类别结构的聚类分析问题。 一、两步聚类法基本原理一、两步聚类法基本原理两步聚类方法具有以下特点:具备同时处理分类变量与连续变量的能力;自动选择聚类数;通过预先选取样本中的部分数据构建聚类模型,两步聚类可以处理大样本量的数据。两步聚类法的一般步骤:第一步:第一步:预聚类。对记录进行初始的归类,且自定义最大类别数。主要通过构建和修改聚类特征树(CF Tree)来完成。第二步:第二步:正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定

12、聚类的类别数目。可根据传统的聚类方法进行聚类,常用合并型分层聚类法。注:注:两步聚类在预先构建聚类模型时依据进入的样本随机考虑聚类数,导致对数据进入的次序敏感,不同的进入次序会得到不同的聚类结果。解决办法:解决办法:(1)使用一指定随机变量并以此排序,控制样本进入的顺序,再进行两步聚类,并重复几次此过程以检验聚类结果的稳定性;(2)如果样本量不是很大,又不用同时处理多类数据,可以使用其他的经典聚类方法。二、引例二、引例(练习三)(练习三)例4 对数据文件“University of Florida graduate salaries.sav”中的数据用两步聚类法进行聚类。【Analyze】/【

13、Classify】/【Twostep Cluster】分类变量或连续变量(当作分类变量)连续变量选择距离的测量方法对数似然值欧氏距离连续变量计数框聚类数目单选框系统自动决定分类数目自定义分类数目聚类准则单选框指标越小,聚类效果越好Options对话框用于建立CF树过程的这个算法工具内存分配框,选择算法最大的内存分配量(连续变量标准化框)(对前面提到的聚类特征树的选项设置)Plots:图形子对话框输出各变量在聚类中比重图输出各变量在聚类饼分图(变量重要性图形框:输出一类独特的图形,用来比较各个变量对聚类结果的重要性)每个变量一张图,用直条长度确定该变量对于各个类别的重要性每个类别两张图,一张比较

14、连续变量对于聚类结果的重要性,一张比较分类变量对于聚类结果的重要性(直条长度)(重要性测度单选框,用于选择变量重要性的测度方法)设置置信度勾选则系统自动删除不重要的分析变量Output:输出子对话框选择要输出的统计量输出反映各类的轮廓特征的质心表和频数表输出聚类中心表自动聚类结果列表在文件中创建一个新的变量,保存各个观测量的所属类别选择输出聚类的最终模型或聚类特征树到指定位置 结果解读:八个部分结果解读:八个部分1、TwoStep Cluster部分部分(1)自动聚类结果列表)自动聚类结果列表列出了不同类别数的不同指标,这些指标用于确认最佳类别数。越小越好,确认最佳类别数进一步确认最佳类别数(

15、峰值)(峰值)(峰值)(峰值)(2)类别分布表)类别分布表表中列出了每个类别所包含的观测量数目。说明:系统认定类别数为4类,每类中包含的观测量数目都相差不大。2、Cluster Profiles部分部分输出各类的轮廓特征。质心表:质心表:用于输出连续变量在每个类别中的均值和标准差。3、Frequencies部分部分分类变量频数表。(1)变量)变量“Gender”频数表频数表(2)变量)变量“Graddate”频数表频数表(3)变量)变量“College”频数表(略)频数表(略)说明:女性主要被分配到第一类和第三类中,其中,第一类多达71.6%。4、Attribute Importance部分部

16、分聚类饼图,聚类分布表的图形表示(将每一类别用饼图形式表示)。5、Within Cluster Percentage部分部分分类变量在各个类别中的占比图。(1)变量)变量“Gender”在聚类中的比重图在聚类中的比重图说明:第一类中全为女性,占比100%,第二、四类全为男性,第三类男女比例基本相当,女性略多。(2)变量)变量“College”在聚类中的比重图在聚类中的比重图(2)变量)变量“Graddate”在聚类中的比重图在聚类中的比重图6、Within Cluster Variation部分部分连续变量在各个类别中的误差图,质心表的图形表示。注:用图形表示均值与95%置信区间的范围。7、C

17、ategorical Variablewise Importance部分部分4个类别中分类变量重要性图,用长条的长度和方向来表示各个变量在每一类中的重要性。(1)类别)类别1中分类变量的重要性图中分类变量的重要性图(2)类别)类别2中分类变量的重要性图中分类变量的重要性图(3)类别)类别3中分类变量的重要性图中分类变量的重要性图(4)类别)类别4中分类变量的重要性图中分类变量的重要性图8、Continuous Variablewise Importance部分部分4个类别中连续变量重要性图,用长条的长度和方向来表示各个变量在每一类中的重要性。(1)类别)类别1中连续变量的重要性图中连续变量的重

18、要性图(2)类别)类别2中连续变量的重要性图中连续变量的重要性图(3)类别)类别3中连续变量的重要性图中连续变量的重要性图(4)类别)类别4中连续变量的重要性图中连续变量的重要性图注:本例只有一个连续变量,输出无意义。第五节 判别分析【DiscriminantDiscriminant】过程 一、判别分析简介一、判别分析简介干什么? 判别样品所属类型的一种统计方法与聚类分析的关系 相同点:解决分类问题 不同点:判别分析是在已知研究对象分成若干类型,对未 知类型的样品进行判别分类 判别分析的一般步骤 常用判别法距离判别法距离判别法:根据已知分类的数据,分别计算各类的均值(重心),判别准则是任给一次

19、观测,若它与第i类的重心距离最近,就认为它来自第i类。 注意: 距离一般采用马氏距离; 距离判别适合对自变量均为连续变量的情况进行分类; 距离判别对各类的分布无特定的要求。FisherFisher判别法判别法:借助方差分析的思想构造一个判别函数,其中判别系数的确定原则是使得类间的区别最大,而且类使得类间的区别最大,而且类内的离差最小内的离差最小,利用判别函数计算出待判样品的判别指标,然后与判别临界值进行比较,判别它的类属。Fisher判别对各类分布、方差都没有限制。但当总体个数较多时,计算比较麻烦。BayesBayes判别法:判别法:在考虑先验概率的前提下,利用Bayes公式计算样品来自第i类

20、的后验概率,使用错判损失最小的概念使用错判损失最小的概念作判别准则作判别准则,建立判别函数,将待判样品归入来自概率最大类。Bayes判别主要用于多类判别,它要求总体呈多元正态分布.逐步判别法:逐步判别法:逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。二、引例二、引例(练习四)(练习四)例5 利用表格中的数据判断待判国家的人口发展水平。数据文件:“1995年人类发展报告部分数据.sav”,其中,选取了

21、高发展国家和中等发展国家各5个作为两组样品,另外选了4个国家作为待判别样品。注:利用逐步判别法判别待判样品的类别。其中待判样品的“region”变量值为缺失值【Analyze】/【Classify】/【Discriminant】分组变量设置变量的取值范围自变量,选入建立判别函数所需变量逐步判别法所有自变量同时进入判别函数定义记录选择条件Statistics:统计量子对话框(描述统计量)均值、标准差单因素方差分析假设各类协方差矩阵相等,Boxs M检验(判别函数系数)(矩阵)类内相关矩阵类内协方差矩阵对每一类分别显示协方差矩阵总样本的协方差矩阵Stepwise:逐步判别法对话框(判逐判别分析时用

22、的拟合方法)(终止逐步判别临界值)引入变量临界值剔除变量临界值引入变量临界值剔除变量临界值(选择每一步需要输出的统计量)汇总表每一对类间的F比值矩阵Classification:分类对话框(先验概率)各类先验概率均相等基于各类样本量占总样本量的比例计算先验概率(使用协方差矩阵)使用合并类内协方差矩阵进行分类使用各类协方差矩阵进行分类(图形)生成全部类的散点图,若只有一个判别函数,则生成直方图对每一类分别生成散点图,若只有一个判别函数,则生成直方图生成根据判别函数值将观测量分到各类去的边界,若只有一个判别函数,则不显示(显示)输出每个观测量判别后的所属类别限制输出分类结果的观测量数目(输出分类小结表,对每一类输出判定正确和错判的观测数)对每一观测量输出除它之外的其他观测量导出的判别函数的分类结果Save:保存对话框选择建立新变量将判别分析结果保存到当前工作文件中。建立新变量将判别分析结果保存预测观测量所属类的值保存判别指数保存各观测量属于各类的概率值 结果解读:五个部分结果解读:五个部分1、Discriminant部分部分(1)记录纳入情况简报表)记录纳

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论