下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上K-means聚类算法一、K-means聚类原理1.1 聚类算法的原理我们经常接触到的聚类分析,一般都是数值聚类,一种常见的做法是同时提取 N 种特征,将它们放在一起组成一个 N 维向量,从而得到一个从原始数据集合到 N 维向量空间的映射总是需要显式地或者隐式地完成这样一个过程,然后基于某种规则进行分类,在该规则下,同组分类具有最大的相似性。聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类
2、别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。1.2 K-means聚类原理假设我们提取到原始数据的集合为(x1, x2, , xn),并且每个xi为d维的向量(d维向量由原始数据的d个特征组成),K-means聚类的目的就是,在给定分类组数k(k n)值的条件下,将原始数据分成k类 S = S1, S2, , Sk, 1.3 K-means聚类步骤算法步骤一般如下:1、从D中随机取k个元素,作为k个簇的各自
3、的中心。2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。4、将D中全部元素按照新的中心重新聚类。5、重复第4步,直到每个簇的中心基本不再变化。6、将结果输出。1.4 K-means聚类简单实例对数据点进行聚类,详细步骤如下所示:首先 3 个中心点被随机初始化,所有的数据点都还没有进行聚类,默认全部都标记为红色,如下图所示:然后进入第一次迭代:按照初始的中心点位置为每个数据点着上颜色,重新计算 3 个中心点,结果如下图所示:可以看到,由于初始的中心点是随机选的,这样得出来的结
4、果并不是很好,接下来是下一次迭代的结果:可以看到大致形状已经出来了。再经过两次迭代之后,基本上就收敛了,最终结果如下:二、k-means聚类算法的应用聚类就是按照一定的标准将事物进行区分和分类的过程,该过程是无监督的,即事先并不知道关于类分的任何知识。聚类分析又称为数据分割,它是指应用数学的方法研究和处理给定对象的分类,使得每个组内部对象之间的相关性比其他对象之间的相关性高,组间的相异性较高。聚类算法被用于许多知识领域,这些领域通常要求找出特定数据中的“自然关联”。自然关联的定义取决于不同的领域和特定的应用,可以具有多种形式。典型的应用例如:1. 商务上,帮助市场分析人员从客户基本资料库中发现不同的客户群,并用购买模式来刻画不同客户群的特征;2. 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。3. 生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群固有结构的认识;4. 地理信息方面,在地球观测数据库中相似区域的确定、汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上可以发挥作用;5. 聚类也能用于在网上进行文档归类来修复信息;6. 在电子商务网站建设数据挖掘中的应用,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44713-2024节地生态安葬服务指南
- 水粉烟花课件教学课件
- 出游应急预案
- 旅游业安全规范解析
- 2024年大型并网风力发电机组发电机项目资金需求报告代可行性研究报告
- 物业小区危险源识别
- 吉林省2024七年级数学上册第1章有理数1.7有理数的减法课件新版华东师大版
- 彩色的雨教案反思
- 建筑业薪酬政策
- 林业安防施工合同
- 牛肉拉面创业计划书
- 入院患者健康宣教课件
- 软件开发成果移交单
- 重庆渝中区2023-2024学年七年级上学期期末数学评估卷(含答案)
- 酸汤火锅推广方案
- 孩子的性格特点及其培养方法
- 《珍惜青春主题班会》课件
- LED封装工艺流程图解
- 中央团校培训心得体会
- 医药代表拜访中的客户需求分析技巧
- 大沥废旧金属行业分析报告
评论
0/150
提交评论