




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataMiningandDataAnalysiswithR数据挖掘与数据分析:基于R语言合作QQ:243001978
K均值聚类合作QQ:243001978算法原理01算法示例02模型理解03R语言编程04章节内容9.1
算法原理K均值聚类是经典的划分聚类算法,是一种迭代的聚类分析算法,在迭代过程中不断移动聚类中心,直到聚类准则函数收敛为止,迭代步骤如下:①随机选择K个点作为质心;②将每个数据对象划分到距离最近的质心所在的类中;③计算每个类中数据对象的均值作为新的质心;④重复步骤②和③,直到质心不再发生变化或达到最大迭代次数。最优K值选取
最优K值选取手肘法SSE和K值关系示例图:
从上图目测,肘部对应的K值为4,即为最佳聚类数。当目测法难以识别肘部位置时,可以通过观测斜率、斜率变化量等指标进行定量判断。最优K值选取
最优K值选取
距离度量
K均值算法延伸K-Means++:对K均值算法随机初始化质心的过程进行优化,使初始质心的选择更合理,从而提升算法收敛速度。elkanK-Means:利用两边之和大于第三边,以及两边之差小于第三边的三角形性质,来减少距离的计算,相较于传统的K-Means迭代速度有很大的提高。MiniBatchK-Means:使用样本集中的部分样本来做传统的K-Means,这样可以避免样本量太大时的计算难题,算法收敛速度大大加快,但聚类的精确度也会有所降低。为了增加算法的准确性,一般会运行多次MiniBatchK-Mean算法,并选择其中最优的聚类簇。9.2
算法示例例9-1:对如下年龄数据进行聚类:[14,15,16,18,18,20,21,21,23,28,34,40,43,49,60,61]。K值设定为2,随机选择16和23作为两个质心,使用欧式距离。步骤如下:(1)计算距离,并进行第一次迭代将各样本点划分到距离最近的质心所在的类(Group)中,并更新各个聚类的质心(Mean),得到以下分类结果:141516181820212123283440434960611621022455712182427334445239875532205111720263738表9-1各样本点与质心的距离矩阵Group1(16)Group2(23)Mean1(16)Mean2(23)[14,15,16,18,18][20,21,21,23,28,34,40,43,49,60,61]16.236.36表9-2第一次迭代结果9.2
算法示例(2)将两个分组中样本数据的均值作为新的质心,并重复之前步骤Group1(16.2)Group2(36.36)Mean1(16.2)Mean2(36.36)[14,15,16,18,18,20,21,21,23][28,34,40,43,49,60,61]18.445表9-3第二次迭代结果Group1(18.4)Group2(45)Mean1(18.4)Mean2(45)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-4第三次迭代结果Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代结果9.2
算法示例(3)算法终止条件:新求得的质心和原质心相同,如表9-5所示。最终,得到以下两类:Group1(19.4)=[14,15,16,18,18,20,21,21,23,28]Group2(47.83)=[34,40,43,49,60,61]Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代结果9.3
模型理解K均值聚类优点:聚类效果较优。原理比较简单,比较容易实现,收敛速度快。算法可解释性比较强。K均值聚类缺点:K值选取不当可能会导致较差的聚类结构。采用迭代方法,得到的结果只是局部最优,在大规模数据上收敛较慢。如果各隐含类别的数据不均衡,会导致聚类效果不佳。不适合发现非凸面形状的簇,或者大小差别很大的簇。对噪声点和异常点比较敏感。初始聚类中心的选择很大程度上会影响聚类效果。9.4R语言编程案例使用R语言内置的iris数据集,忽略种类变量Species,对150种鸢尾花植物样本进行K均值聚类分析,数据集情况如下:#R编程示例-iris数据集head(iris)输出:
属性名称属性解释属性示例Sepal.Length花瓣长度5.1Sepal.Width花瓣宽度3.5Petal.Length花萼长度1.4Petal.Width花萼宽度0.2Species所属物种setosa表9-6iris数据属性解释数据预处理对花瓣长度、花瓣宽度、花萼长度和花萼宽度四种属性进行z-score标准化处理df<-scale(iris[1:4])head(df)输出:
确定最佳K值R语言factoextra包中的fviz_nbclust()函数可对最佳K值进行选择
fviz_nbclust(x,FUNcluster=NULL,method=c(“silhouette”,“wss”,),diss=NULL,k.max=10,...),参数含义如下:
FUNcluster:用于聚类的函数,可用的参数值为:kmeans,cluster::pam,cluster::clara,cluster::fanny,hcut等;method:用于评估最佳簇数的指标;diss:相异性矩阵,由dist()函数产生的对象,如果设置为NULL,那么表示使用dist(data,method="euclidean")计算data参数,得到相异性矩阵;k.max:最大的簇数量,至少是2。确定最佳K值使用手肘法确定最佳K值,代码及结果如下
从图9-4可见,最佳K值应为2library(factoextra)library(ggplot2)#method设置为手肘法”wss”fviz_nbclust(df,kmeans,method="wss")输出:
图9-5手肘法结果图确定最佳K值使用轮廓系数法确定最佳K值,代码及结果如下
从图9-5可见,K=2时轮廓系数最大,因此最佳K值为2library(factoextra)library(ggplot2)#method设置为轮廓系数法”silhouette”fviz_nbclust(df,kmeans,method="silhouette")输出:
图9-6轮廓系数法结果图聚类及可视化R语言中的kmeans(x,centers,iter.max,nstart)方法用于聚类x:数据集(矩阵或数据框);centers:要提取的聚类数目;iter.max:最大迭代次数;nstart:初始聚类中心的选择次数。K均值聚类对初始中心值的选择较为敏感,通过设置nstart值尝试多种初始值配置,以得到最好结果。除较大数据集外,通常将nstart设置为20或25。由于初始中心是随机选择的,聚类前使用set.seed()函数指定随机种子保证结果可复现聚类及可视化聚类并可视化的代码和结果如下set.seed(1234)km.res<-kmeans(df,2,nstart=25)#可视化结果fviz_nbclust(km.res,d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 若尔盖县2025年数学三下期末质量检测模拟试题含解析
- 食品供应合同范本
- 天津市红桥教育中学心2025年第二学期初三期初考试语文试题含解析
- 中建-工程分包合同
- 辽宁省朝阳市建平县2019-2020学年八年级上学期期末物理试题【含答案】
- 书店员工合同协议书
- 古诗阅读渔歌子赏析课件
- 发热症状评估考试试题及答案
- 高中信息技术 《For…Next语句》教学设计 沪教版选修1
- 七年级地理下册 7.5 北极地区和南极地区教学设计 (新版)湘教版
- B超健康知识讲座课件
- 煤炭仓储协议合同
- 政 治薪火相传的传统美德 教案-2024-2025学年统编版道德与法治七年级下册
- 3.1伟大的改革开放+课件高中政治统编版必修一中国特色社会主义
- 2025届山东省济南市高三下学期一模英语试题(原卷版+解析版)
- 2025年(四川)公需科目(心理健康与职业发展主题)题库及答案
- 肺功能课件完整版本
- 2025年兰考三农职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- 《计算机网络基础》课件-OSI参考模型
- 贵州民族建筑知到智慧树章节测试课后答案2024年秋贵州民族大学
- 2022年全国森林、草原、湿地调查监测技术规程-附录
评论
0/150
提交评论