


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据挖掘与商务智能实验》实验报告实验题目:聚类分析:K-Means姓名:王俊学号:202330850164指导教师:张大斌实验时间:2023.11.102023年11月10日实验题纲:实验目的了解熟悉SPSSModeler及其相关知识掌握SPSSModeler工具建立K-Means聚类的方法学会运用SPSSModeler聚类进行相关内容的分析实验内容本实验是以我国31个省市自治区2023年各地区经济开展的数据为例,来讨论K-Means的具体操作。文件名为K-Means.sav,它是一个SPSS类型的文件。文件中的变量x1至x11依次表示:人口及分性别的人口数,反映各地区的人口水平;出生预期寿命和每万人平均病床数,反映各地区人民的健康水平;大专以上文化程度人口比例反映各地区的教育水平;人均GDP。第三产业增加值占GDP的比例、人均道路面积、省会城市空气质量到达并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济开展和社会环境水平等。本次实验分析的目的,根据所给变量研究我国3个省会自治区的综合开展水平,分析哪些省会自治区处在相同的开展结构水平上。具体实验步骤如下所示。实验步骤与结果步骤1.创立K-means聚类数据流通过“Statistics文件〞节点导入本节分析文件K-means.sav。选择“字段选择〞—“类型〞节点,双击“类型〞节点,在类型的编辑窗口中,设置“地区〞角色为“无〞,如下图在“建模〞卡中选择“K-means〞节点,将其连接到数据流中。步骤2设置相关参数点击鼠标右键,选择菜单中“编辑〞选项进行参数设置,在“模型〞模块下指定聚类数目为4,勾选“生成距离字段〞和“数值〞选项,如下图在“专家〞模块下,勾选“模式〞下的“专家〞选项,其他保持不变步骤3运行结果本例的聚类的结果如下图由图10-4分析结果得到了4类所包含的样本数〔分别是2,4,,10,15〕以及样本所占的百分比〔48.4%,32.3%,12.9%,6.5%〕在图10-5中可以知道每一个变量属于哪一类以及它与类中心的欧氏距离。从结果图10-5中可以知道31条数据共分为4类,例如上海和北京在第一类中,广西和江西在第二类中,同样的KMD—K-Means中可以知道每一个地区与对应类的中心的之间的距离。实验分析与扩展练习扩展训练:请总结K均值聚类的优缺点答:主要优点:1.K均值是解决聚类问题的一种经典算法,简单、快速。对处理大数据集,该算法是相对可伸缩和高效率的。因为它的复杂度是0(nkt),其中,n是所有对象的数目,k是簇的数目,t是迭代的次数。通常k<<n且t<<n。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。2.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。主要缺点:1.在簇的平均值被定义的情况下才能使用,这对于处理符号属性的数据不适用。必须事先给出k〔要生成的簇的数目〕,而且对初值敏感,对于不同的初始值,可能会导致不同结果。它对于“躁声〞和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。当数据数量不是足够大时,初始化分组很大程度上决定了聚类,影响聚类结果。对初始化条件敏感。无法确定哪个属性对聚类的奉献更大。使用算术平均值对outlier不鲁棒。因为基于距离,故结果是圆形的聚类形状。K均值很难处理非球形的簇和不同大小的簇,K均值可以发现不是明显别离的簇。五、结论与讨论(重点)通过此次实验课,了解了以下知识点:1.KMeans算法的根本思想是初始随机给定K个簇中心,按照最邻近原那么把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。2.K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年常州工程职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年山东商务职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- icl相关知识课件
- 2025年宁夏职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年北京市顺义区高三一模数学试卷(含答案解析)
- 血友病的护理
- 脑血栓的诊断
- AFP防治知识培训课件
- 护理文化与护士
- 2019交通安全课件
- 消化内镜进修总结汇报
- 山东省临沂市河东区2023-2024学年七年级下学期期中测试历史试题
- 江苏省昆山、太仓、常熟、张家港市2023-2024学年下学期七年级数学期中试题
- 生物地球化学性疾病试题
- 休闲与旅游农业课件
- 感觉障碍护理课件
- 体育运动员参赛健康状况证明模板
- 教师的挑战:宁静的课堂革命
- 菲亚特博悦说明书
- 空调维保服务方案(技术方案)
- 高空发光字安装应急预案
评论
0/150
提交评论