版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析一、聚类分析(ClusterAnalysis)简介聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。数理统计中的数值分类有两种问题:
判别分析:已知分类情况,将未知个体归入正确类别
聚类分析:分类情况未知,对数据结构进行分类基本思想
聚类分析的基本思想:对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。(1)根据一批样品的多个指标,具体找出一些能够度量样品或指标之间的相似程度的统计量。(2)以这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。
基本思想
按相似程度的大小把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来,形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图),用它把所有样品(或指标)间的亲疏关系表示出来。要做聚类分析,首先得按照我们聚类的目的,从对象中提取出能表现这个目的的特征指标;然后根据亲疏程度进行分类。聚类分析根据分类对象的不同可分为Q型和R型两大类Q型是对样本进行分类处理,其作用在于:具有共同特点的样本聚在一起所得结果比传统的定性分类方法更细致、全面、合理二、聚类对象R型是对变量进行分类处理,其作用在于:可以了解变量间及变量组合间的亲疏关系可以根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析2相似性度量进行“相关性”或“相似性”度量。在相似性度量中常常包含有许多主观上的考虑,但是最重要的是考虑指标性质或观测的尺度。
当样品进行聚类时,“靠近”往往是距离。同时对指标进行聚类时,根据相关系数或某种关联性度量来聚类。Q型样品间的“相似性”度量—距离
设每个样品有p个指标,观察值记为(1)每个样品可看成是p维空间的一个点。于是,可用各点之间的距离来衡量各样品点之间的接近程度。
样品和之间的距离,一般应满足如下条件:(ⅰ),且时当且仅当;(ⅱ);(ⅲ);
有时所用的距离不满足(ⅲ),但在广义的角度上仍称为距离。常用的距离有如下几种:
3、明考斯基距离(Minkowski)1、绝对距离(Block距离)2、欧氏距离(Euclideandistance)4、切比雪夫距离(Chebychev)6.马氏距离5.数据的标准化以上距离与各变量的量纲有关,为了消除量纲的影响,可对数据标准化。
例1欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较他们数字的表达式比较恰当。表列举出英语,挪威语,丹麦语,荷兰语,德语,法语,西班牙语,意大利语,波兰语,匈牙利语和芬兰语的1,2,…,10的拼法,希望计算这11种语言之间的语言的距离.11种欧洲语言的数词选择适用的距离在聚类分析中通常要结合实际问题来选择适用的距离,有时应根据实际问题定义新的距离,显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,特别是每个单词的第一个字母。可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如:英语和挪威语中只有1和8的第一个字母不同,则它们之间的距离为2。1、夹角余弦2、相关系数R型聚类统计量
对两个指标之间的相似程度用相似系数来刻划,相似系数绝对对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远.三系统漠聚类毕分析1.系统梯聚类态分析目的基胞本思训想是银:距离磁相近驱的样另品(款或变全量)刮先聚童成类似,距躲离相远包的后聚成汗类,泼过程铺一直摔下去体,每糊个样通品(仰或变量阿)总术能聚锈到合晶适的属类中悠。系统期聚类奔分析部过程葵是:假设筛总共占有n个样货品(攀或变燃量)奇,第焰一步鉴将每个样妥品(触或变苦量)铺独自钢聚成望一类艰,共贤有n类;第二而步根论据所樱确定销的样剧品(房诚或变旱量)虹“距赞离”泄公式见,将距卖离较垒近的否两个穷样品桃(或赤变量雕)聚揪合为姨一类互,其他样凳品(搏或变嗽量)挤仍各锄自聚玻为一腿类,霞共有n-1类;第三贩步将恭“距光离”威最近找的两唐个类流进一嚼步聚盛成一繁类,滴共聚成n-2类;……以上源步骤偏一直浊进行辉下去蹲,最后将所阀有的杰样品驴或变此量)醋聚成趁一类撇。将整偿个分炸类系源统地头画成拉一张借谱系龟图,免所以烫有时系统器聚类字分析也叫谱系康聚类浴分析。2.类间幼距离首先倚定义押类与纺类之检间地伙距离届,又偶类间醋的距纹离定趁义不同己产生面不同绕的系扮统聚糟类分援析。椅常见废的类此间的搅距离有法。质它们安的归抓类步陡骤基衣本是顺一致浸的。8种之柔多,今与之吗相应篮的系宪统聚森类分栽析也伯有8种之虽多、分别宿为最舰短距泪离法互、最挡长距耍离法捎、中寒间距读离法透、重生心法、尾类平喉均法蓝、可躬变类励平均萄法、鞠可变机法和纸离差株平方租和用i罢,荒j表示臂样品丑。用保表示辱与哗之失间的掩距离,用农与满表示配两个咽类,所包柳含的煎样品体数分妨别为与恶之促间的观距离刷用牺表偶示。仙下面林给出捎四种割最常慌用的具类与涝类之货间距烫离的养定义馒。1、最慕短距桑离(Ne席ar编es晕t猫Ne舟ig身hb破or霜)x21•x12•x22•x11•即定乞义变与搏之间磨的距锤离为扎与泊中怕最近超的两樱个样之品的足距离按。类与事类之垃间的雹最短悄距离缴有如方下的豆递推衡公式轻。设弄由畜与合并匆而成,则饰与其架它类浑的最减短距味离为1、根据贷样品衫的特烫征,册规定石样品患之间胁的距煌离形,倦共有迁个社。将论所有朱列表森,记删为D(0)表,烛该表赵是一喷张对鞠称表找。所虏有的作样本灵点各下自为词一类劫。2、选择D(0)表中伙最小按的非奔零数脏,不愤妨假湖设把,于敬是将薯和铁合踩并为弓一类分,记行为奋。开始况各样稍本自套成一筑类最短微距离嚼法进杜行聚锣类分难析的树步骤赢如下晴:3、利梯用递妄推公口式计侄算新晃类与肾其它恩类之马间的娇距离昂。分肢别删除D(0)表的露第p,q行和猴第p,q列,害并新披增一征行和师一列忽添上妈的结顺果,辰产生D(1)表。4、在D(1)表艇再选载择最小的非咸零数唯,其宽对应启的两减类有记构成铁新类忘,再稼利用伍递推雅公式扯计算作新类饮与其狐它类捉之间世的距浴离。贯分别鸭删除D(1)表广的相冶应的创行和傍列,急并新鼓增一斧行和疑一列北添上赴的新忽类和慈旧类丝式之间后的距以离。蛛结果避,产堵生D(2)表辽。类吵推直自至所碑有的遮样本诵点归伏为一混类为角止。最短开距离垫法进节行聚服类分神析的东步骤掉如下因:(1)定义局样品红之间由的距冰离(2)找出距离最小元素,设为,则将
合并成一新类记为
,记为
(3)按上式计粮算新扎类与鹿其他解类之持间的神距离完。(4)栏重复勒(2),虾(3)的痕步骤注,直缴到将抹所有座元素并成勾一类胶为止乔。(如果均某一略步距勿离最华小的托元素也不止使一个害,则裁将对应这蚁些最霉小元撇素的腹类可温以同剩时合翅并)例2设有6个样观品,慰每个件只测菠一个钉指标显,分普别是1,2,5,7,9,10,试克采用绝对情值距离清用最短疾距离法将瞎它们甲进行竭分类已。解徐(1)样参品首紫先采介用绝跳对值复距离党,计炮算样孕品之间的累距离学阵为D(0变).G1G2G3G4G5G6G10G210G3430G46520G587420G6985210D(0泼)G2={2}G1={1}G3={5}G4={7}G5={9}G6={10}G7G8G9G10123D2.最长缸距离袖(Fu攻rt小he过stNe况ig顷hb镰or)•••x11•x21••••即定垫义漠与夏之间针的距朴离为接与吩中辜最远冬的两号个样驼品的劣距离陵。类与缝类之炸间的抬最长晕距离砍有如仗下的剂递推超公式咽。设止由搂与合并养而成,则钢到永的雕最长用距离柜为2.最长盘距离枝(Fu援rt助he雁st所N首ei离gh极bo饿r)••••••组间丧平均乌连接剂(Be帆tw毫ee对n-恒gr论ou姨p忠Li清nk难ag旧e)3.类平签均距拣离组内倒平均据连接疤法(Wi确th浆in丹-g离ro度up笛L帅in稿ka因ge叛)x21•x12•x22•x11•3.类平做均距催离4.重心称法(Ce稍nt唐ro起idcl牺us黑te水ri傅ng皇):均值风点的挖距离••将p和q合并穿为k,则k类的袖样品烛个数床为它的亩重心适是某一类r的重心是,它找与新悉类k的距拢离是经推番导可奏以得摆到如暮下递冰推公依式:设聚类到某一步,类p与q分别有样品、个,例2设有6个样哑品,丝式每个选只测溜一个傅指标混,分候别是1,2,5,7,9,10,试羊采用福欧氏产距离尝的平蚀方,试用赔重心专法将折它们护进行统分类滋。G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910D2(0垫)G7G3G4G8G70G312.250G430.2540G86420.256.250D2(1缝)其中D2(2国)G7G9G8G70G920.250G86412.250D2(3碌)G7G10G70G1039.06250G1={1}G2={2}G3={5}G4={7}G5={9}G6={10}2412.5D1G9G7G8G10G115.动态乱聚类加法(擦快速普聚类泽法)系统时聚类坐法是一腾种比血较成始功的辣聚类貌方法乐。然窗而当译样本如点数级量十素分庞大时,观则是骨一件章非常侧繁重杨的工驰作,毙且聚年类的疲计算安速度赖也比附较慢渠。比如手在市毁场抽迈样调拘查中景,有4万人晕就其圆对衣已着的裂偏好惜作了竿回答泻,希倍望能会迅速甲将他选们分匀为几逢类。这时织,采龄用系到统聚捐类法阻就很阅困难酸,而抽动态碗聚类筑法就芹会显顽得方波便,奇适用舟。动态惩聚类票使用最于大击型数晕据。基本议思想咸:选郊取若嫁干个森样品恼作为由凝聚蠢点,寄计算堵每个甩样品闲和凝沸聚点愿的距乐离,吓进行赞初始萝分类铃,然魔后根炕据初深始分唤类计线算其栽重心昌,再驻进行壮第二季次分谅类,尿一直矩到所秤有样冰品不脾再调兼整为承止。选择润凝聚俊点分茫类修改去分类分类晋是否御合理分类滨结束Ye袄sNo用一播个简陷单的飞例子暂来说石明动牲态聚纹类法队的工拘作过翻程。棉例如凳我们渔要把球图中节的点坑分成虎两类韵。快速旱聚类冈的步蓬骤:1、随会机选唐取两活个点烧和垦作为停凝聚刻点。2、对围于任鹿何点远,驶分别摩计算3、若贴,约则将围划为廊第一帮类,滩否则劳划给死第二旨类。4、分别计算两个类的重心,则得和,以其为新的凝聚点,对空间中的点进行重新分类,得到新分类。(b)任取两个凝聚点(c)第一次分类(d)求各类中心(a)空间的群点(e百)第二自次分糠类动态荷聚类旁法优点喷:计览算量曾小,置方法趋简便偷,可撞以根屠据经伪验,蜻先作垮主观炭分类偷。缺点田:结喊果受小选择稍凝聚嗽点好忙坏的坚影响纱,分焦类结酷果不犁稳定穿。第一脱,选税择凝烂聚点客;第二阀,初私始分嫩类;对于圈取定鞋的凝售聚点幻玉,视随每个城凝聚渠点为胸一类户,将械每个设样品角根据类定义况的距勉离向楼最近凑的凝桶聚点酬归类世。第三臂,修文改分栏类得到简初始羡分类纷,计绿算各凶类的闪重心乳,以扬这些节重心帆作为宋新的穴凝聚杂点,肯重新忘进行裕分类煎,重别复步掏骤2,3,直纤到分点类的疫结果址与上胀一步员的分加类结成果相郊同,资表明厚分类鞠已经赔合理铃为止殖。动态尘聚类伐法的馆基本戚步骤富:例3:某阀商店5位售缸货员氧的销膛售量爹和教建育程猾度如揭下表讽:售货员12345销售量(千件)116
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《电子秤的精度介绍》课件
- 小班安全坐椅子
- 生态安全与国家安全
- 幼儿园安全知识家长会
- 艺术教育培训劳动合同聘用导师
- 员工福利发放细则
- 地下经济钻井施工协议
- 轨道交通设备招投标科研申请表
- 企业购置二手房限时委托
- 体育馆消防改造施工合同模板
- 部编版二年级语文上册第七单元质量评价试卷(含答案)
- 2024年2024婚内财产协议书模板正规范本
- 《县级(区域)医疗资源集中化运行规范 第1部分:集中审方中心(征求意见稿)》编制说明
- 现浇混凝土桩板墙施工方案
- 分布式光伏发电项目EPC总承包 投标方案(技术方案)
- 纺织设备科技创新与产业升级考核试卷
- 第五单元 简易方程 (单元测试)- 2024-2025学年五年级上册数学人教版
- 2024版【教科版】小学综合实践活动四年级上册教案
- 2024年江苏省高中信息技术合格考真题Python操作题第八套试卷及答案
- 计算机应用基础练习题库(含答案)
- 福建中闽能源股份有限公司招聘笔试题库2024
评论
0/150
提交评论