




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、v1.0可编辑可修改k-mea ns聚类”数据分析、数据挖掘一、概要分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息, 并 且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满 足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要 求,则代价非常大,这时候可以考虑使用聚类算法。 聚类属于无监督学习,相比 于分类,聚类不依赖预定义的类和类标号的训练实例。本文介绍一种常见的聚类 算法一一k均值和k中心点聚类,最后会举一个实例:应用聚类方法试图解决 一个在体育界大家颇具争议的问题中国男足近几年在亚洲到底处于几流水 平。二、聚类问题所谓聚类问题,就是给定一
2、个元素集合 D,其中每个元素具有n个可观 察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相 异度尽可能低,而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。与分类不同,分类是示例式学习,要求分类前明确各个类别,并断言每个 元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给 定类别数量,是无监督学习的一种。目前聚类广泛应用于统计学、生物学、数据 库技术和市场营销等领域,相应的算法也非常的多。本文仅介绍一种最简单的聚 类算法k均值(k-means)算法。三、概念介绍区分两个概念:hard clustering : 一个文档要么属于类 w,要么不属于类w
3、,即文档对确定的类 w是二值的1或0。soft clustering : 一个文档可以属于类 w1,同时也可以属于 w2,而且文档属于 一个类的值不是0或1,可以是这样的小数。K-Means就是一种hard clustering,所谓K-means里的K就是我们要事先指定分类的个数,即K个。k-mea ns算法的流程如下:1)从N个文档随机选取K个文档作为初始质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的各个类的质心4)迭代23步直至满足既定的条件,算法结束 在K means算法里所有的文档都必须向量化,n个文档的质心可以认为是这n 个向量的中心
4、,计算方法如下:这里加入一个方差RSS的概念: RSS, = 爪吐厂KRSS =匸 RSSkk= 1RSSk的值是类k中每个文档到质心的距离,RSS是所有k个类的RSS值的和 算法结束条件: 1)给定一个迭代次数,达到这个次数就停止,这好像不是一个好建议2) k个质心应该达到收敛,即第n次计算出的n个质心在第n+ 1次迭代时候位 置不变。3) n个文档达到收敛,即第n次计算出的n个文档分类和在第n+ 1次迭代时候 文档分类结果相同。4) RSS值小于一个阀值,实际中往往把这个条件结合条件1使用回过头用RSS讨论质心的计算方法是否合理RSS(u)二胡氐(巧 _ 丽tnE I蓼-评= 匸2伽- g
5、)为了取得RSS的极小值,RSS对质心求偏导数应该为0,所以得到质心可见,这个质心的选择是合乎数学原理的K-mea ns方法的缺点是聚类结果依赖于初始选择的几个质点位置,看下面这个例子:J kdi一-x2Xd3X一- x1XXLJ10 1121 1 *34如果使用2-means方法,初始选择d2和d5那么得到的聚类结果就是di, d2, d3 d4, d5, d6,这不是一个合理的聚类结果解决这种初始种子问题的方案:1)去处一些游离在外层的文档后再选择2) 多选一些种子,取结果好的(RSS小)的K个类继续算法3) 用层次聚类的方法选择种子。我认为这不是一个合适的方法,因为对初始N 个文档进行层
6、次聚类代价非常高。以上的讨论都是基于K是已知的,但是我们怎么能从随机的文档集合中选择这个k值呢我们可以对k去1N分别执行k-means,得到RSS关于K的函数下图:gL当RSS由显著下降到不是那么显著下降的 K值就可以作为最终的K,如图可以选 择4或9。四、算法及示例k均值算法的计算过程非常直观:1、从D中随机取k个元素,作为k个簇的各自的中心。2、分别计算剩下的元素到 k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。3、根据聚类结果,重新计算 k个簇各自的中心,计算方法是取簇中所有元素各自维度的算 术平均数。4、将D中全部元素按照新的中心重新聚类。5、重复第4步,直到聚类结果不再变化
7、。6、将结果输出。由于算法比较直观,没有什么可以过多讲解的。下面,我们来看看k-means算法一个有趣的应用示例:中国男足近几年到底在亚洲处于几流水平今年中国男足可算是杯具到家了,几乎到了过街老鼠人人喊打的地步。对于目前中国男足在亚洲的地位,各方也是各执一词,有人说中国男足亚洲二流,有人说三流,还有人说根本不入流,更有人说其实不比日韩差多少,是亚洲一流。既然争论不能解决问题,我们就让数据 告诉我们结果吧。下图是采集的亚洲 15只球队在2005年-2010年间大型杯赛的战绩(由于澳大利亚是后来 加入亚足联的,所以这里没有收录)。12345673910111213141516中日韩伊沙伊卡阿dr泰
8、越迥BJ朝印克尔昔别50281725O4-BI91540其中包括两次世界杯和一次亚洲杯。我提前对数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。这样做是为了使得所有数据变为标量,便于后续聚类。下面先对数据进行0,1规格化,下面是规格化后的数据:6v1.0可编辑可修改22356799101112131屯1516fi-sr克克尔苗别国本国館牲匸匸y兹国南曼林鲜尼中日韩伊抄伊卡阿乌垂越阿巴朝印111- Ml-JI5 Ji o.16 6 6 1
9、7 7 7 - o o O16 8 17 6 O 0Go o0 5 5 5-5 2 o O 0O5 5 15DAM其中包括两次世界杯和一次亚洲杯。我提前对数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。这样做是为了使得所有数据变为标量,便于后续聚类。下面先对数据进行0,1规格化,下面是规格化后的数据:7v1.0可编辑可修改10*和曰/!:/个入 bin/Debug/krtiejris. EXE1 -212436fl,51961500.6
10、92821.21249G1212436I732OS1ft.1033230.796731.3163SfP,692821.2124361212436CL 1961501.212436B.51?61501.212360.$196150.S92820.519615.21243fc&51 呵 5i 212436& 51961501,212436晋.51961500.&92S200.51961SB.69282Q0.S196151-2124366_S1?6150EncZhang百 Tech Blog (httpJ/leoo2sk cnblogs com)从做到右依次表示各支球队到当前中心点的欧氏距离,将每支
11、球队分到最近的簇,可对各支球队做如下聚类:中国C,日本A,韩国A,伊朗A,沙特A,伊拉克C,卡塔尔C,阿联酋C,乌兹别克斯坦 B,泰国C,越南C,阿曼C,巴林B,朝鲜B,印尼Co第一次聚类结果:A:日本,韩国,伊朗,沙特;B:乌兹别克斯坦,巴林,朝鲜;C:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼。下面根据第一次聚类结果,调整各个簇的中心点。A 簇的新中心点为: +0+/4= , (0+/4=,+/4= = , , 用同样的方法计算得到B和C簇的新中心点分别为, , , 1, ,用调整后的中心点再次进行聚类,得到: file:/ El丿个人丈匕 /kmns/kmeari/bi n/D
12、bLig/icnnans.EXE0683200,1558851.21243603637311.2124361-7320510-0519&2(1.7967431.3163E99.1558856.692821.2124361-3G832P1.360320.51?&1501-368329 51961509.8487050.S196151-3G832.51961501.3G832019G1S01.368320.51H1S0团.848705e8.S196153.848705陌0.5196151.368320.5196150EricZhangs Tech Blog (tittp /le2sk cnblogs com第二次迭代后的结果为:中国C,日本A,韩国A,伊朗A,沙特A,伊拉克C,卡塔尔C,阿联酋C,乌兹别克斯坦 B, 泰国C,越南C,阿曼C,巴林B,朝鲜B,印尼Co结果无变化,说明结果已收敛,于是给出最终聚类结果:亚洲一流:日本,韩国,伊朗,沙特亚洲二流:乌兹别克斯坦,巴林,朝鲜亚洲三流:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼看来数据告诉我们,说国足近几年处在亚洲三流水平真的是没有冤枉他们,至少从国际杯赛战绩是这样的。其实上面的分析数据不仅告诉了我们聚类信息,还提供了一些其它有趣的信息,例如从中可以定量分析出各个球队之间的差距
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部组件机加工理论学习手册练习试题及答案
- 复合超硬材料制造工上岗证考试题库及答案
- 各种变换器、传感器项目安全风险评价报告
- 石油开采工技能测试题库及答案
- 初中化学化学竞赛活动资源的开发与利用研究 - 以激发学生学习动力为例
- 固井工公司招聘笔试题库及答案
- 中国呼吸酒精测试装置行业市场规模及投资前景预测分析报告
- 铝镁粉球磨工上岗证考试题库及答案
- 贵州 节能评估报告
- 中国白蛋白整体行业市场深度分析及发展前景预测报告
- 金属标牌的粉末喷涂工艺考核试卷
- 2025年《民航服务心理学》课程标准(含课程思政元素)
- 系统补丁升级管理制度
- 先天性甲状腺功能减退症诊治指南解读
- 事业单位请假新版制度管理统一规定
- 2025年公路养护工人职业技术知识考试题与答案
- 放疗基本知识介绍-1
- 2025小学科学新教材培训学习心得体会
- 阳光房制作安装合同协议书范本8篇
- 2025年供应链管理与优化专业考试试题及答案
- 租借医生执业证合同协议
评论
0/150
提交评论