




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于数据分组处理方法的聚类分析模型牛亚旭 信研1401 马超 信研1402传统的聚类方法数据分组处理聚类分析方法实例分析 传统的聚类分析 人类认识世界的一种重要方法就是将认识的对象进行分类,分门别类的对事物进行研究,要远比在一个混杂多变的集合中更清晰明了和细致。一、概述 通常,人们可以凭经验和专业知识来实现分类,而聚类分析作为一种定量方法,从数据分析的角度,给出一个更准确更细致的分类工具。二、三种聚类方法1、系统聚类 系统聚类法是聚类分析中用得较多的一种方法。 它通过建立、并逐步更新距离系数矩阵(或相似系数矩阵),找出并合并最接近的两类,直到全部分类对象被合并为一类为止。 据此合并过程,可以做
2、出聚类图(或称分群图、谱系图),并确定类的个数和最后聚成的各类。以样本聚类为例,系统聚类法的工作步骤如下: 计算全部n个样品两两间的距离dij,并构成n维距离系数矩阵D。 将每个样品作为一类,共构成n类。上述的n维矩阵D即为类间的距离系数矩阵。 由系数矩阵找出并合并距离最近的类为一新类,于是总的类数将至少减1。记下参加合并的类的序号与距离。 若只剩下一类了,转至步骤。否则计算新类与当前其他各类的距离,调整系数矩阵D,然后返回步骤。 根据步骤中记录的序号和距离,画出聚类图。 确定类的个数,最后得到所聚成的各类。2、分解聚类法分解聚类法是将类由少变多的聚类法。先把全部个体当作一类,然后再分为两类,
3、三类,直到所有的个体自成一类。3、动态聚类法动态聚类法是先将样品粗略地分一下类,然后再按照某种原则进行修正,直至分类比较合理为止。其过程如下图1所示。图1 动态聚类框图 在上述介绍的三种聚类方法中,系统聚类法和分解聚类法有一个共同点,就是样品一旦被归到某个类后就不再变了,这就要求分类的方法比较准确;而且当样品个数较大时,相应的计算量过大。 而动态聚类法可弥补它们的不足。 数据分组处理(GMDH)聚类分析 与前面提到的通常的聚类方法相比,传统的聚类方法中关于划分方法以及层次的方法这两个重要因素需要依赖于建模人员的先验知识,因而较多的依赖于建模人员的主观因素。 客观聚类分析方法(OCA)能自动、客
4、观地确定聚类个数并找到最优聚类方案,通过算法步骤的剖析和算例分析,对客观聚类分析方法的核心构建,即一致性准则的不足进行评价,利用偶极子给出了新的一致性准则,提出了数据分组处理(GMDH)聚类分析方法。一、基本原理二、算法实现2.2 基于偶极子的数据样本分组 从n个数据样本x1,x2,xn可以得到 个偶极子,2.1中dij为该偶极子的值。将它们由小到大排列取前k=n/2个彼此没有共同样本的偶极子,将这些偶极子的xi构成子集A,样本xj构成子集B,这样使用偶极子将数据样本集合平均分成两个子集A和B。 在产生A和B之后,按同样的方法从剩余的偶极子可得到样本子集C和D作为检测集。2nC2.3 进行聚类
5、 step1:将子集A和B分别聚为k类; 把产生子集A,B的全体k个偶极子按他们的值从小到大的顺序进行编号,称该编号为这个偶极子的编号或其中两个样本的编号。Step2:将子集A和B分别聚成k-1类; 分别将子集A和B中距离最近的两个类聚为一类,则子集A和B都被聚成k-1个类。Step3: 重复step2,将子集A和B分别聚成k-2个类,注意各子集中类与类之间的距离由两类中距离最近的样本间的距离给出。此时集合AUB中仍有k个列 继续上述过程,直到将子集A和B聚成两个类。Step4: 找出所有准则值 的聚类方案,它们为最优聚类方案的候选方案。0c2.4 运用检测集C和D找出一个唯一的最优聚类方案
6、在检测集C和D上进行聚类,方法与在A,B集进行的聚类过程相同,考察在A,B集上 的几种聚类方案,看哪种聚类方案在检测集C,D上也满足 ,则这个聚类是要找的最优的聚类方案。0c0c当找不到当找不到 时怎么办?时怎么办?0c2.新一致性准则: 假设集合A,B已分别聚为k类,偶极子总数为q,集合AUB的偶极子总数为p,该列与子集的子集形成的类的总数为r,则有:NMrkNpqMc新准则 表示需要拆分的偶极子的数目。NMc 因为本文的方法是基于偶极子的聚类,偶极子被拆分的数目越少,则聚类结果越优。因此,基于偶极子定义的新准则 的值越小,聚类方案越优。c 实例研究基于信息基础设施的国家(地区)聚类分析 按
7、照信息基础设施的发展现状,对世界的20个国家(地区进行聚类),信息基础设施的发展状况的属性(变量)又六个,(1)CALL每千人拥有的电话线长度;(2)MOVECALL-每千户居民蜂窝移动电话数;(3)FEE-高峰时期每三分钟国际电话的成本;(4)COMPUTER-每千人拥有的计算机数;(5)MIPS-每千人中计算机的功率;(6)NET-每千人互联网络户主数。各国(地区)信息基础设施的发展状况数据见下表:聚类步骤如下:1)产生偶极子以及子集A和B 偶极子(12,10),(14,13),(9,8),(19,3),(20,7),(6,4),(18,17),(16,15),(5,2) 样本子集A=12
8、,14,9,19,20,6,18,16,5 样本子集B=10,13,8,3,7,4,17,15,22) 按子集A,B用一致性准则 聚类 下表给出了各聚类方案中 的值,由表可知,除去k=9的情况外,k=4,k=3和k=2时,都有 ,哪个是最优方案呢?cc0c3)按子集C,D用一致性准则 聚类产生集合C,D的偶极子为:(12,11),(10,17),(3,5),(15,14),(18,13),(20,2),(19,8),(16.9),(7.6) 除去k=9的情况外,在集合C,D上没有出现一个 为0的方案,不能为唯一确定最优聚类方案提供补充信息,一致性准则 失效。ccc4)用新一致性准则 聚类: 重复2)3)两步,但用新一致性准则,结果如下表,在集合A,B上得到三种最优候选聚类方法:k=4,k=3,k=2,利用聚合C,D进行检测,k=4时, =3;k=3时, =2,k=2时, =1,k=2时 的值最小,因此最优的聚类方案分两类ccccc 第一类:10,12,13,14,15,16,17,18,11,即巴西,墨西哥,俄罗斯,波兰,匈牙利,马来西亚,泰国,智利和印度。这一类转型的国家和亚洲以及拉美的发展中国家,这些国家经济较不发达,基础设施较薄弱,基于信息基础设施较落后的国家。第二类:8,9,3,19,20,7,6,4,5,2,1,即中国台湾,韩国,德国,法国,英国,新加坡
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 买房有物业合同范本
- bt合同ppp合同范本
- 企业人事聘用合同范本
- 出租保安服装合同范本
- 单位购仪器合同范本
- 先打款后开票合同范本
- 协议付款合同范例
- 上门宴席服务合同范本
- 东莞企业劳务合同范本
- 儿童游泳班合同范本
- 2025年企业法务顾问聘用协议范本
- 教育部人文社科 申请书
- 无菌手术台铺置的细节管理
- 《康复评定技术》课件-第五章 运动控制
- 议论文8(试题+审题+范文+点评+素材)-2025年高考语文写作复习
- 【理特咨询】2024生成式人工智能GenAI在生物医药大健康行业应用进展报告
- 2025新人教版英语七年级下单词默写表(小学部分)
- 2025年春新外研版(三起)英语三年级下册课件 Unit6第1课时Startup
- 2025江苏苏州高新区狮山商务创新区下属国企业招聘9人高频重点提升(共500题)附带答案详解
- 《蒙牛集团实施财务共享过程中存在的问题及优化建议探析》8800字(论文)
- 平抛运动的经典例题
评论
0/150
提交评论