版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
K-means聚类算法1ppt课件.
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
该算法认为类是由距离靠近的对象组成的,因此把得到紧凑且独立的类作为最终目标。2ppt课件.
假设数据集合为(x1,
x2,…,
xn),并且每个xi为d维的向量,K-means聚类的目的是,在给定分类组数k(k
≤
n)值的条件下,将原始数据分成k类:
S
=
{S1,
S2,
…,
Sk}
在数值模型上,即对以下表达式求最小值:
3ppt课件.算法过程:(1)随机选取K个对象作为初始聚类中心;(2)将数据样本集合中的样本按照最小距离原则分配到最邻近聚类;(3)根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心;(4)重复步骤2.3直到聚类中心不再变化。4ppt课件.数学表达式:n:样本数。k:样本分为k类。rnk:第n个样本点是否属于第k类,属于则rnk=1,不属于则rnk=0。μK:第k个中心点。5ppt课件.k-means要做的就是最小化这个函数。迭代的方法:
1、固定μK,得到rnk。
2、固定rnk,求出最优的μK。6ppt课件.
求rnk
求μK7ppt课件.8ppt课件.K-means算法性能分析
优点:
1、k-均值算法框架清晰,简单,容易理解。
2、对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N。
3、当结果类是密集的,而类与类之间区别明显时,它的效果最好。9ppt课件.缺点:
1、要求必须事先给出要生成的类的数目k,这个k值的选定是非常难以估计。
2、对初值敏感,对于不同的初始值,可能会导致不同的聚类结果。
3、对于"噪声"和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。10ppt课件.K-means算法变体(一)k-medoids算法(K-中心点算法)不采用聚类中对象的平均值作为参照点,而是选用聚类中位置最中心的对象,即中心点(medoid)作为参照点。11ppt课件.K-中心点算法思想:首先随机选择k个对象作为中心,把每个对象分配给离它最近的中心。然后随机地选择一个非中心对象替换中心对象,计算分配后的距离改进量。聚类的过程就是不断迭代,进行中心对象和非中心对象的反复替换过程,直到目标函数不再有改进为止。12ppt课件.K-medoids算法流程如下:
1、任意选取K个对象作为初始中心点(O1,O2,…Oi…Ok)。
2、将余下的对象分到各个类中去(根据与中心点最相近的原则);
3、对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。选择E最小的那个Or来代替Oi。这样K个中心点就改变了。
13ppt课件.其中:p是空间中的样本点,
oj是类簇cj
的中心点。4、重复2、3步直到K个medoids固定下来。14ppt课件.K-means算法与K-medoids算法结果对比:15ppt课件.K-means算法变体(二)K-means++算法
使用K-means算法时,我们可以在输入的数据集中随机的选择k个点作为初始的聚类中心,但是随机选择初始点可能会造成聚类的结果和数据的实际分布相差很大。16ppt课件.不同初始点,结果不同。17ppt课件.
k-means++算法选择初始聚类中心的基本思想是:初始的聚类中心之间的相互距离要尽可能的远。1、从输入的数据点集合中随机选择一个点作为第一个聚类中心。2、对于数据集中的每一个点x,计算它与最近聚类中心的距离D(x)。3、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大。
18ppt课件.
对于每个点,我们都计算其和最近的一个聚类中心的距离D(x)并保存在一个数组里,然后把这些距离加起来得到Sum(D(x))。再取一个随机值Random(0<Random<Sum)然后用Random-=D(x),直到其<=0,此时的点就是下一个聚类中心。4、重复2和3直到k个聚类中心被选出来19ppt课件.K-means算法与k-means++算法选取初始点对比:
K-meansk-means++20ppt课件.K-means算法变体(三)FuzzyC-Means(模糊C均值算法FCM)
是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。
隶属矩阵U允许有取值在0-1间的元素。不过,加上归一化规定,一个数据点的隶属度的和总等于1:21ppt课件.
把n个元素xi(i=1,2,…,n)分为c个模糊组,目标函数:其中,m是大于1的实数,加权实数。uij
是xi属于类别j隶属度,cj是类j的聚类中心。22ppt课件.算法步骤:1、用值在0,1间的随机数初始化隶属矩阵U,使其满足下面的约束条件:
2、计算c个聚类中心ci,i=1,…,c。
23ppt课件.3、更新隶属度U矩阵。4、算法停止条件:其中0<ɛ
<1。24ppt课件.K-means算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年绿色消费市场项目公司成立分析报告
- 2025年重庆警察学院马克思主义基本原理概论期末考试参考题库
- 2026年中国医疗诊断设备行业分析及发展前景预测报告
- 2026年中国一分钟凝胶成像仪行业市场发展战略分析及投资前景专项预测报告
- 2025年云南财经职业学院马克思主义基本原理概论期末考试笔试题库
- 2026国机集团招聘面试题及答案
- 2026年通讯设备生产经理招聘面试题目分析
- 2026贵州公路建设养护集团校招面试题及答案
- 2026广州公交集团秋招面笔试题及答案
- 2026年广告行业创意总监招聘面试题目及答案
- 创伤失血性休克中国急诊专家共识(2023)解读课件
- 2022资源环境承载能力和国土空间开发适宜性评价技术指南
- 电气工程师生涯人物访谈报告
- 职位调动申请表模板
- 2022年内蒙古交通运输厅所属事业单位考试真题及答案
- 选词填空(试题)外研版英语五年级上册
- 露地胡萝卜秋季栽培
- 历年天津理工大学高数期末考试试卷及答案
- 妇产科学(第9版)第二章女性生殖系统解剖
- GB/T 9122-2000翻边环板式松套钢制管法兰
- GB/T 16895.6-2014低压电气装置第5-52部分:电气设备的选择和安装布线系统
评论
0/150
提交评论