第二章----聚-类-分-析_第1页
第二章----聚-类-分-析_第2页
第二章----聚-类-分-析_第3页
第二章----聚-类-分-析_第4页
第二章----聚-类-分-析_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【教学目的】通过本章的教学应使学生了【教学目的】通过本章的教学应使学生了 解聚类分析的方法和作用,了解聚类分解聚类分析的方法和作用,了解聚类分 析中常用的距离和相似系数以及它们各析中常用的距离和相似系数以及它们各 自的特点及适用范围。掌握系统聚类法,自的特点及适用范围。掌握系统聚类法, 能够应用系统聚类法解决实际数据分析能够应用系统聚类法解决实际数据分析 问题。问题。 【教学重点】本章的重点是系统聚类法。【教学重点】本章的重点是系统聚类法。 聚类分析又称群分析、点群分析,是定 量研究分类问题的一种多元统计方法。 人类认识世界往往首先将被认识的对象 进行分类,因此分类学便成为人类认识世界 的基础

2、科学。在社会生活的众多领域中都存 在着大量的分类问题。以前人们主要靠经验 和专业知识做定性分类处理,致使许多分类 带有主观性和任意性,不能很好地揭示客观 事物内在的本质差别与联系,特别是对于多 因素、多指标的分类问题,定性分类更难以 实现准确分类。 l 随着生产技术和科学的发展,人类的 认识不断加深,分类越来越细,要求也越 来越高,光凭经验和专业知识分类是不能 取得令人满意的结果。为了克服定性分类 存在的不足,于是把数学方法引进分类学 中,形成了数值分类学,后来随着多元分 析的引进,聚类分析又逐渐从数值分类学 中分离出来,形成一个相对独立的分支。在 多元统计分析中,聚类分析在许多领域中 都得到

3、了广泛的应用,取得了许多令人满 意的成果。 认为所研究的样品或指标之间存在认为所研究的样品或指标之间存在 着程度不同的相似性,于是根据一批样着程度不同的相似性,于是根据一批样 品的多个观测指标,找出能够度量样品品的多个观测指标,找出能够度量样品 或变量之间相似程度的统计量,并以此或变量之间相似程度的统计量,并以此 为依据,采用某种聚类法,将所有的样为依据,采用某种聚类法,将所有的样 品或变量分别聚合到不同的类中,使同品或变量分别聚合到不同的类中,使同 一类中的个体有较大的相似性,不同类一类中的个体有较大的相似性,不同类 中的个体差异较大。中的个体差异较大。 聚类分析包括很多种方法,系统聚 类法

4、是最基本、最常用的一种,此外还 有有序样品聚类法、动态聚类法、模糊 聚类法、图论聚类法、聚类预报法等, 不同的方法适合解决不同类型的问题, 本章主要介绍最常用的系统聚类法。 Q型聚类型聚类是对样品进行分类,即对观测进 行分类。根据观测有关变量的特征,将特征相 似的样品归为一类。它是聚类分析中用的最多 的一种,具有以下优点:优点: 1.可综合利用多个变量的信息对样品进行 分类; l 2.分类结果直观,聚类谱系图非常清楚地 表现 分类结果; l 3.所得结果比传统分类方法更细致、全面、 合理。 l R型聚类型聚类是对变量进行分类处理。一 般来说,可以反映研究对象特点的变量有 许多,由于对客观事物的

5、认识有限,往往 难以找出彼此独立且有代表性的变量,影 响对问题进一步的认识和研究,因此往往 需要先进行变量聚类,找出相互独立又有 代表性的变量,而又不丢失大部分信息。 lR型聚类分析的主要作用:型聚类分析的主要作用: 1. 可了解个别变量之间及变量组合之间的 亲疏程度; 2. 根据变量的分类结果以及它们之间的关 系,可以选择主要变量进行回归分析或Q 型聚类分析。 聚类分析用于系统类群相似性的研 究,其实质上是寻找一种能客观反映样品 或变量之间亲疏关系的统计量,然后根 据这种统计量把样品或变量分成若干类。 常用的统计量有距离和相似系数。 是两个事物离得多近的度量。性质 越接近的元素其相似系数的绝

6、对值越接 近于1;彼此无关的元素其相似系数的绝对 值越接近于0。相似的元素归为一类,不相 似的元素归为不同的类。 l是两个事物离得多远的度量。将一个样 品看作空间的一个点,在空间定义距离,距 离近的点归为一类,距离远的点归为不同 的类。 l1.间隔尺度间隔尺度: 是用连续的实值变量来表 示的,是由测量或计数、统计所得到的 量。如:经济统计数字、抽样调查数据、 身高、体重、年龄、速度、压力等。 l2.有序尺度有序尺度: 没有明确的数量表示,而 是划分一些等级,等级之间有次序关系。 如:毕业论文成绩有:优、良、中、及 格、不及格之分;体质状况有好、中、 差三个等级;某产品质量可分为一等品、 二等品

7、、三等品三个等级等。 l3.名义尺度名义尺度: 既没有数量表示,也没有 次序关系,而是表现为某种状态,其值 通常是非数值数据。如:性别有男、女; 颜色有红、黄、蓝、绿等;医疗诊断中 的阴性、阳性等。 l不同类型的变量,其距离和相似系数的 定义方法有很大差异。用得较多的是间 隔尺度,因此只介绍间隔尺度的距离和 相似系数的定义。 ln个样品p项指标形成的原始数据资料矩 阵中,每一行表示一个样品,每一列表 示一个变量。因此,两个样品的相似性 可用矩阵中两行的相似程度来刻划;两 个变量的相似性可用矩阵中两列的相似 程度来刻划。 l1. 距离定义距离定义:将n个样品看成p维空间中的n个 点,两个样品间相

8、似程度可用p维空间中两点 的距离来度量。 l (1)明氏距离)明氏距离 l (2)马氏距离)马氏距离 l (3)兰氏距离)兰氏距离 l 计算出任何两个样品之间的距离排成距离阵D, 根据D可对n个点进行分类,距离近的点归为一 类,距离远的点归为不同的类。 l2. 相似系数:相似系数:将n个样品看成p维空间中 的n个向量。 l(1) 夹角余弦夹角余弦 l(2) 相关系数相关系数 l以上是样品分类常用的距离和相似系数 定义,它是在p维空间中来研究n个样品 间的相似;而对变量分类是在n维空间中 来研究p列变量间的相似,其相似性也用 距离和相似系数来度量。 l在实际问题中,对样品分类常用距离,在实际问题

9、中,对样品分类常用距离, 对指标分类常用相似系数;用距离时找对指标分类常用相似系数;用距离时找 最小的元素并类,用相似系数时找最大最小的元素并类,用相似系数时找最大 的元素并类。的元素并类。 l系统聚类分析也叫分层聚类分析,是目 前国内外使用得最多的一种方法,有关 它的研究极为丰富,聚类分析的方法也 最多。 l(1)计算)计算n个样品两两之间的距离记为矩阵个样品两两之间的距离记为矩阵D; l(2) 首先构造首先构造n个类,每一类中只包含一个个类,每一类中只包含一个 样品;样品; l(3) 合并距离最近的两类为新类;合并距离最近的两类为新类; l(4) 计算新类与当前类的距离,若类的个数计算新类

10、与当前类的距离,若类的个数 已经等于已经等于1,则转入,则转入5,否则回到,否则回到3; l(5) 画谱系图;画谱系图; (6)决定类的个数和类。系统聚类允许一类)决定类的个数和类。系统聚类允许一类 整个地包含在另一类内,但在这两类间不能有整个地包含在另一类内,但在这两类间不能有 其他类与之重叠。其他类与之重叠。 l样品之间可以用不同的方法定义距离, 类与类之间的距离也有多种定义。用不 同的方法定义类与类之间的距离,就产 生了不同的系统聚类方法。 l(1)最短距离法:)最短距离法:定义类与类之间距离 为两类最近样品的距离,使空间浓缩, 形成链状,分类效果不好; l (2)最长距离法:)最长距离

11、法:定义类与类之间距离 为两类最远样品的距离,受奇异值的影 响大; l(3)中间距离法:)中间距离法:介于最长与最短距离 之间的一种距离,当=-1/4时,即为三角 形的中线,以它作为类与类间距离。 l (4)重心法:)重心法:以两类重心之间的距离作 为两类间的距离。重心即该类样品的均 值。每合并一次类,都要重新计算新类 的重心。不具单调性,图形逆转,限制 了其应用,可能引起局部最优,但在处 理异常值方面较稳健。 l(5)类)类 平平 均均 法:法: 以两类元素两两之间 距离平方的平均作为类间距离的平方。 l(6 )可变类平均法:)可变类平均法:与5相比,考虑了 两类Gp与Gq之间距离Dpq的影

12、响。 l(7)可)可 变变 法:法: 其中是可变的,分类 效果与的选择关系极大,常取负值。 l(8)离差平方和法:又称)离差平方和法:又称Ward法,法,其基本思 想是认为同类样品的离差平方和应当较小,类 与类的离差平方和应当较大。首先n个样品各 自成一类,然后每次缩小一类,每缩小一类离 差平方和就要增大,选择使离差平方和增加最 小的两类合并,直到所有样品归为一类。它分 类效果较好,应用较广泛,对异常值较敏感。 l l以上8种聚类方法,只有两点区别: l(1) 类与类之间距离定义不同;类与类之间距离定义不同; l(2)计算新类与其他类的距离所用的公计算新类与其他类的距离所用的公 式不同,因而并

13、类距离不同;式不同,因而并类距离不同; l各种方法并类步骤完全一样。在采用欧 氏距离时,可归结为统一的递推公式, 对编制微机程序提供了很大的方便。 l在一般情况下,用不同的方法聚类的结 果是不会完全一致的,怎样比较各种方 法的优劣呢?至今还没有合适的衡量标 准,因为不存在一种总是最优的聚类方 法。类的结构(规模、形状、个数)、 奇异值、相似测度选择都会影响结果。 在实际应用中,一般采用以下两种处理 方法: l(1)根据分类问题本身的专业知识结合 实际需要来选择分类方法,并确定分类 个数; (2)多用几种分类方法去作,把结果中 的共性提出来,对有争议的样品用判别 分析去归类。 l(1)在聚类分析

14、中,应根据不同的目的选 用不同的指标,例如选拔运动员所用的 指标(身体形态、身体素质、心理素质、 生理功能等)与分课外活动小组所选用 的指标不相同,对啤酒按价格分类与按 成分分类所用的指标也不相同。一般来 说,选择哪些变量应该具有一定的理论 支持,但在实践中往往缺乏这样强有力 的理论基础,一般根据实际工作经验和 l所研究问题的特征人为的选择变量,这些变量 应该和分析的目标密切相关,反映分类对象的 特征,在不同研究对象上的值具有明显差异, 变量之间不应该高度相关。选变量时并不是加 入的变量越多,得到的结果越客观。有时,加 入一两个不合适的变量就会使分类结果大相径 庭。变量之间高度相关相当于加权,

15、此时,有 两种处理方法:(1)首先进行变量聚类,从 每类中选一代表性变量,再进行样品聚类; (2)进行主成分分析或因子分析,降维,使 之成为不相关的新变量,再进行样品聚类。 l(2 )标准化问题)标准化问题 指标选用的度量单 位将直接影响聚类分析的结果。例如将 高度的单位由米改为英寸,或者将重量 单位由千克改为磅,可能产生非常不同 的聚类结构。一般来说,所用度量单位 越小,变量的值域就越大,对聚类结果 的影响也越大。为了避免对变量单位选 择的依赖,数据应当标准化。数据量纲 不同时,必须进行标准化;但如果量纲 相同,可数量级相差很大,这时也应该 进行标准化。 lSAS语言是SAS软件系统的基础。

16、SAS语 言有它自己的对变量、常量、表达式的 一系列规定,有一系列标准函数,有它 自己的语句、语法,可以按一定规则构 成程序。 lSAS程序由两种步骤组成:程序由两种步骤组成: l(1)DATA步骤,或称步骤,或称DATA步、数据步步、数据步:以 DATA语句打头,后面跟建立SAS数据集任务 的语句,作用是完成建立SAS数据集的任务, 这些数据集是可以由SAS系统进行分析的; l(2)PROC步骤,或称步骤,或称PROC步、过程步步、过程步:以 PROC语句打头,后面跟与分析数据有关的语 句,作用是调用分析过程对指定的数据集进行 统计分析,给出分析结果。 l在SAS程序中,每个语句以语句关键字

17、开头, 后面跟语句操作数或选择项,最后以分号结束。 一个SAS语句可以占若干行,可以从任意一列 开始,但必须在语句结束处加分号,因为SAS 系统是根据分号判断哪些文字属于一个语句的, 因此在一行上可以写几个SAS语句,只要每个 语句都用分号结束。SAS关键字是用于SAS语 句开头的特殊单词。SAS名字在SAS程序中标 识各种SAS成分,如变量、数据集、数据库, 等等。SAS 名字由1到8个字母、数字、下划线 组成,第一个字符必须是字母或下划线。SAS 关键字和SAS 名字都不区分大小写。语句关键 字用大写或小写方式都可以,但不可简化,必 须原样照写。每个步以RUN语句结束。当一个 步后面跟着另

18、一个步时,前面一个步的RUN语 句可以省略。 l一个DATA步后面可以跟几个PROC步, 也可以若干个DATA步后面跟几个PROC 步;或以PROC步打头,后面跟若干个 DATA步,再跟PROC步,程序中的每个 步都是相应独立的,彼此不能交叉,不 能嵌套。 DATA AA; lINPUT NO AGE HEIGHT WEIGHT; lCARDS; l1 11 152 41 l2 12 158 44 l3 11 150 45 l; lRUN; lPROC PRINT; lRUN; lDATA AA; lINPUT NO AGE HEIGHT WEIGHT; lCARDS; l1 11 152 41 2 12 158 44 3 11 150 45 l4 10 146 39 5 12 165 50 6 11 16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论