![K-means聚类算法PPT参考幻灯片_第1页](http://file1.renrendoc.com/fileroot_temp2/2020-10/21/facd7b78-a470-4519-9c1b-75980751b0b5/facd7b78-a470-4519-9c1b-75980751b0b51.gif)
![K-means聚类算法PPT参考幻灯片_第2页](http://file1.renrendoc.com/fileroot_temp2/2020-10/21/facd7b78-a470-4519-9c1b-75980751b0b5/facd7b78-a470-4519-9c1b-75980751b0b52.gif)
![K-means聚类算法PPT参考幻灯片_第3页](http://file1.renrendoc.com/fileroot_temp2/2020-10/21/facd7b78-a470-4519-9c1b-75980751b0b5/facd7b78-a470-4519-9c1b-75980751b0b53.gif)
![K-means聚类算法PPT参考幻灯片_第4页](http://file1.renrendoc.com/fileroot_temp2/2020-10/21/facd7b78-a470-4519-9c1b-75980751b0b5/facd7b78-a470-4519-9c1b-75980751b0b54.gif)
![K-means聚类算法PPT参考幻灯片_第5页](http://file1.renrendoc.com/fileroot_temp2/2020-10/21/facd7b78-a470-4519-9c1b-75980751b0b5/facd7b78-a470-4519-9c1b-75980751b0b55.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、K-means聚类算法,报告人:张鸣磊,1,2020/10/23,K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类是由距离靠近的对象组成的,因此把得到紧凑且独立的类作为最终目标。,2,2020/10/23,假设数据集合为(x1,x2, ,xn),并且每个xi为d维的向量,K-means聚类的目的是,在给定分类组数k(kn)值的条件下,将原始数据分成k类: S=S1,S2,Sk 在数值模型上,即对以下表达式求最小值:,3,2020/10/23,算法过程: (1)随机选取K个对象作为初始聚类中心; (2)将数据样
2、本集合中的样本按照最小距离原则分配到最邻近聚类; (3)根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心; (4)重复步骤2.3直到聚类中心不再变化。,4,2020/10/23,数学表达式: n:样本数。 k:样本分为k类。 rnk:第n个样本点是否属于第k类,属于则rnk=1, 不属于则rnk=0。 K:第k个中心点。,5,2020/10/23,k-means 要做的就是最小化 这个函数。 迭代的方法: 1、固定K,得到rnk。 2、固定rnk,求出最优的K。,6,2020/10/23,求rnk 求K,7,2020/10/23,8,2020/10/23,K-means算法性能分析
3、优点: 1、k-均值算法框架清晰,简单,容易理解。 2、对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,KN,tN 。 3、当结果类是密集的,而类与类之间区别明显时,它的效果最好。,9,2020/10/23,缺点: 1、要求必须事先给出要生成的类的数目k,这个k值的选定是非常难以估计。 2、对初值敏感,对于不同的初始值,可能会导致不同的聚类结果。 3、对于噪声和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。,10,2020/10/23,K-means算法变体,(一)k-medoids算法(K-中心点算法)
4、不采用聚类中对象的平均值作为参照点,而是选用聚类中位置最中心的对象,即中心点(medoid)作为参照点。,11,2020/10/23,K-中心点算法思想: 首先随机选择k个对象作为中心,把每 个对象分配给离它最近的中心。 然后随机地选择一个非中心对象替换中心对象,计算分配后的距离改进量。聚类的过程就是不断迭代,进行中心对象和非中心对象的反复替换过程,直到目标函数不再有改进为止。,12,2020/10/23,K- medoids算法流程如下:1、任意选取K个对象作为初始中心点(O1,O2,OiOk)。2、将余下的对象分到各个类中去(根据与中心点最相近的原则);3、对于每个类(Oi)中,顺序选取一
5、个Or,计算用Or代替Oi后的消耗E(Or)。选择E最小的那个Or来代替Oi。这样K个中心点就改变了。,13,2020/10/23,其中:p是空间中的样本点, oj是类簇 cj 的中心点。 4、重复2、3步直到K个medoids固定下来。,14,2020/10/23,K-means算法与K- medoids算法结果对比:,15,2020/10/23,K-means算法变体,(二)K-means+算法 使用K-means算法时,我们可以在输入的数据集中随机的选择k个点作为初始的聚类中心,但是随机选择初始点可能会造成聚类的结果和数据的实际分布相差很大。,16,2020/10/23,不同初始点,结果
6、不同。,17,2020/10/23,k-means+算法选择初始聚类中心的基本思想是:初始的聚类中心之间的相互距离要尽可能的远。 1、从输入的数据点集合中随机选择一个点作为第一个聚类中心。 2、对于数据集中的每一个点x,计算它与最近聚类中心的距离D(x)。 3、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大。,18,2020/10/23,对于每个点,我们都计算其和最近的一个聚类中心的距离D(x)并保存在一个数组里,然后把这些距离加起来得到Sum(D(x)。再取一个随机值Random(0 Random Sum)然后用Random -= D(x),
7、直到其=0,此时的点就是下一个聚类中心。 4、重复2和3直到k个聚类中心被选出来,19,2020/10/23,K-means算法与k-means+算法选取初始点对比:,K-means k-means+,20,2020/10/23,K-means算法变体,(三)Fuzzy C-Means(模糊C均值算法FCM) 是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。 隶属矩阵U允许有取值在0-1间的元素。不过,加上归一化规定,一个数据点的隶属度的和总等于1:,21,2020/10/23,把n个元素xi(i=1,2,n)分为c个模糊组, 目标函数: 其中,m是大于1的实数,加权实数。uij是xi属于类别j隶属度,cj是类j的聚类中心。,22,2020/10/23,算法步骤: 1、用值在0,1间的随机数初始化隶属矩阵U,使其满足下面的约束条件: 2、计算c个聚类中心ci,i=1,c。,23,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度可再生能源并网合同范本
- 金华浙江金华永康市环境卫生管理处工作人员招聘笔试历年参考题库附带答案详解
- 西安2025年陕西西安音乐学院专任教师招聘20人笔试历年参考题库附带答案详解
- 舟山2025年浙江舟山市定海区昌国街道招聘公益性岗位笔试历年参考题库附带答案详解
- 八年级上学期1月期末语文试题(PDF版无答案)-3
- 漯河2024年河南漯河西城区现代服务业开发区工作委员会人才引进笔试历年参考题库附带答案详解
- 温州浙江温州平阳县科学技术局招聘编外工作人员笔试历年参考题库附带答案详解
- 温州2025年浙江温州永嘉县人民医院医共体永嘉县妇幼保健院招聘(一)笔试历年参考题库附带答案详解
- 泉州2025年福建南安市卫生事业单位招聘编制内卫生类工作人员51人笔试历年参考题库附带答案详解
- 普洱2025年云南普洱第二中学招聘编外教学人员笔试历年参考题库附带答案详解
- 广西壮族自治区北海市2024-2025学年九年级上学期1月期末化学试题(含答案)
- 2025年浙江绍兴杭绍临空示范区开发集团有限公司招聘笔试参考题库附带答案详解
- 2024年殡仪馆建设项目可行性研究报告(编制大纲)
- 基本药物制度政策培训课件
- 2025年3月日历表(含农历-周数-方便记事备忘)
- 小红书营销师(初级)认证理论知识考试题库(附答案)
- 2025年民营医院工作总结及2025年工作计划
- 2025年九年级物理中考复习计划
- 急诊科护理未来五年规划
- 农业机械设备供货及售后服务方案
- 《跟单信用证统一惯例》UCP600中英文对照版
评论
0/150
提交评论