




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类 别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必 须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能 建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和 分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而 是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此 相似,而在不同类里的这些对象
2、倾向于不相似。聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通 常有三种相似性度量一一距离、匹配系数和相似系数。距离和匹配系数常用来度 量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相 似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通 常变量按取值的不同可以分为:定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又 称为间隔尺度变量。定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以 再分为:有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化 程度分为文盲、小学、中学、大学等。名义尺
3、度变量:变量用一些类表示,这些类之间既无等级关系,也无数量 关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用 的是距离。11 .距离1.数据矩阵设七为第i个样品的第J个指标数据矩阵如下表n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品 之间的距离记为dj,在聚类过程中,相距较近的点倾向于归为一类,相距较远 的点应归属不同的类。所定义的距离匕一般应满足如下四个条件:d 0,对一切i, j ;且d3 ,工)=0当且仅当工=工j i j i j dj = d,对一切 i, j ; a、 d* + dk,对一切 i
4、, j, k2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:闵科夫斯基(Minkowski)距离豚I1d (q) = |x - x q qk=1这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:1)当q = 1时,d=|七-X.J称为绝对值距离,常被形象地称为“城市 k=1街区”距离;当q = 2时,d二U、-xj2;,称为欧氏距离,这是聚类分析中最k=1常用的距离; 当q = 8时,d(8)= maxx -x ,称为切比雪夫距离。j1 0(i = 1,2,n; j = 1,2,p)时,第,个样品与第j个样品间的兰 氏距离为d (L) = E xk - xjkjk=1 七 +
5、L这个距离与各变量的单位无关,但没有考虑指标间的相关性。马氏距离(Mahalanobis)距离第,个样品与第j个样品间的马氏距离为d (M) = J(x x ) S -1(x x )其中x = (x , x,,x ), x = (x , x,x ), S为样品协方差矩阵。ii1 i2ip jj1 j 2jp使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程, 故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化, 这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。斜交空间
6、距离第/个样品与第j个样品间的斜交空间距离定义为d* = 空(x -x )(x -x )r 2 ijp 2ik jk il jl kl其中r是变量x与变量x间的相关系数。当p个变量互不相关时,d*= j) , klklij p即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变 量,则有相应的定义距离的方法。定性变量的距离下例只是对名义尺度变量的一种距离定义。例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1) 取值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、 会计和金融;职业(x4)取值
7、为教师和非教师;居住处(x5 )取值为校内和校 外;学历(x6)取值为本科和本科以下。现有两名学员:x1=(男,英,统计,非教师,校外,本科)x2 =(女,英,金融,教师,校外,本科以下)这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值 为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1, 不配合的变量数为m2,则它们之间的距离可定义为, m d =212 m + m一、.2按此定义本例中气与x 2之间的距离为3。1.2 .匹配系数当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。第/个样品与第j个样品的匹配系数定义为5 =芝Zk,其中k=1显
8、然匹配系数越大,说明两样品越相似。1.3.相似系数聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。设C表示x与x的相似系数,它一般应满足如下三个条件: j 1 j c. V 1,对一切i, j ; c = 1,当且仅当存在常数a和b,使得x . = ax + b ; c = c.,对一切 i, j .最常用的相似系数有以下两种:1.夹角余弦变量xi与七的夹角余弦定义为七_ 注2.乙22ki kj TOC o 1-5 h z k=1k=1它是Rn中变量xi的观测向量(x ,x,,x )与变量x的观测向量1i2inij(x
9、,x ,,x )之间夹角9的余弦函数,即c (1) = cos9 .1j 2jnjijijij相关系数变量x与七的相关系数为V 7-、/-、4(x - x. )(x - x ,)c (2) =一:k亿(xki- x. )2.亿气一 x )22k=1k=1其中x 二乙,x二; k=1k=12 .聚类分析从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传 统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、 有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法 的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度看,需
10、要由聚类学习算法自动确定标记,而分类学 习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学 习。从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别 的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观 察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析 还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。聚类分析的流程及数据来源聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度 定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别 而言,首先
11、要获取关于本机组的大量运行参数,既要有机器平稳运行、正 常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。 这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据 库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检 数据。常用的聚类分析方法系统聚类法系统聚类法(Hierarchical clustering method )是目前使用最多的一种方法。其 基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间 的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和 其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所
12、有的样品全 在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。系统聚类法的步骤为:首先各样品自成一类,这样对n组样品就相当于有n 类;计算各类间的距离,将其中最近的两类进行合并;计算新类与其余各类 的距离,再将距离最近的两类合并;重复上述的步骤,直到所有的样品都聚为 一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚 类步骤如下:规定样品之间的距离,计算样品的两两距离,距离矩阵记为s(0),开始 视每个样品分别为一类,这时显然应有D(p, q) = d ;pq选择距离矩阵S()中的最小元素,不失一般性,记其为口(p,q),则将G, 与Gq合并为一新类,
13、记为弓疽 有Gm = G, u Gq ;计算新类G与其他各类的距离,得到新的距离矩阵记为S,、;mV17对、重复开始进行第步,直到所有样本成为一类为止。(1)值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不 止一个时,则可以将其同时合并。动态聚类法开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又 一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最 优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一 个使目标函数较好者,这样由两类变成了三类。如此下去
14、,一直分裂到每类只有 一个样品为止(或用其他停止规则)。(4)加入法将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入 后,即得聚类图。3.总结体会聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上 收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学 和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用 作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比 如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是 不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度股权抵押证券化投资协议书
- 集体劳动合同范本2025年度(文化产业员工)
- 农村公路养护管理合同(含交通安全设施维护)
- 妇产科医师培训计划及内容
- Unit 4 Drawing in the park Period 3 词汇与语法过关 同步练习(含答案含听力原文无音频)
- 家长会学生主持发言稿
- 上海市业主总包分包合同
- 2024年公司劳动合同
- 2025年江西货运从业资格证考试模拟考试题库答案大全
- IT支持与服务记录表格
- 《中小学科学教育工作指南》解读与培训
- 跨学科主题学习的意义与设计思路
- 2025年浙江国企台州黄岩站场管理服务有限公司招聘笔试参考题库附带答案详解
- 2025年中国土木工程集团有限公司招聘笔试参考题库含答案解析
- 2025广西壮族自治区考试录用公务员(4368人)高频重点提升(共500题)附带答案详解
- 神经病 《神经病学》习题集学习课件
- 教科版三年级下册科学全册单元教材分析
- 2025年国家铁路局工程质量监督中心招聘历年高频重点提升(共500题)附带答案详解
- 2024年03月浙江南浔银行春季招考笔试历年参考题库附带答案详解
- 加快形成农业新质生产力
- 2025年中粮集团招聘笔试参考题库含答案解析
评论
0/150
提交评论