




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概述KMEANS算法又被成为K均值算法,是一种常用的聚类算法,由于不需要根据给定的训练集训练模型因此是一种无监督学习算法。其本质是根据选定的参数K将数据分类成K类,在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类。算法原理:1、以下图样本散点图展示数据集的整体分布情况2、K值是KMEANS最重要的选择参数,直接决定着数据聚类的类别数量,在选择K值后,会在数据中随机选择K个数据样本最为初始中心点,如K=3,则结果如下图所示
3、计算和中心点距离最近的点,将其归入同类4、每个类别当有了两个以上的数据时,类的中心就会发生变化,因此类中一旦有新的数据被划入时就需要重新计算整个类的中心点,这一步的计算也是整个算法的核心,所以称为K均值算法5、通过几步计算之后的结果,能够更直观的展示出类的聚合情况和中心点的位置情况
6、判断聚类过程结束的标准有两个,一是中心点的位置不再发生变化,即结果收敛;二是执行了最够多次的迭代次数(通俗可以理解为计算了几次中心点位置)注意事项:1、K值是整个算法中最重要的参数,但是也是最不好确定的参数,如果需要比较好的确定K值,需要采用其他验证算法,如计算样本离最近聚类中心的总和,总和越小,则聚类的效果越好;轮廓系数,轮廓系数的范围为-1至1之间,数字越大则聚类效果越好;兰德指数,范围为-1至1之间,数字越大则聚类效果越好;同质化得分,如果所有的聚类都只包含属于单个类的成员的数据点则聚类结果将满足同质性,其取值范围为0至1之间,值越大意味着聚类结果与真实情况越吻合。2、以上验证方法虽然对于确定K值有效,但是验证过程需要额外的计算力资源,并且占用的计算力接近于聚类过程所需要的计算力资源,数据集如果较大,则计算力的消耗会产生叠加效应。3、较为简易的方法为,从数据集中随机抽取部分小规模数据,以散点图等可视化手段来观察数据的可能聚类数量,以此来判断K的取值。这种方法可以认为是经验法的一种表现形式,相比经验法的完全定性分析,随机抽取数据观察能够在经验的基础上增加定量的分析部分,虽然随机抽取的数据也可能有误差,但是抽取的数据量越多,则准确度越高。4、因为初始的中心点选择是根据K的值随机选择K个点,所以选择的随机性加上迭代过程造成算法的结果只是局部最优解,毕竟反复的计算最短距离的点和类的中心都是在局部已经聚合的类的基础上进行的,而不是从全局的范围进行。算法使用场景:1、隐含类别的数据较为平衡的情况,如隐含类别的数据量差别较大,则聚类的效果就较差。2、数据最好是凸数据,即隐含类别间的差异越大,则聚类效果越好,因为中心点不再变化所需要的迭代次数较少,比较容易收敛。3、一般作为数据预处理,或者用于辅助分类贴标签使用,因为在已经经过分类的数据上再进行聚类,准确度会非常高。阿里云PAI平台算法模块及参数设置说明:inputTableName:输入表表名selectedColNames:输入表中用于训练的列名,默认选择所有列即仇丁2»0「2代让加$:输入表中指定哪些分区参与训练,默认选择所有分区centerCount:聚类数K,是算法中最重要的参数,决定数据的聚类数量loop:最大迭代次数,算法中非常重要的参数,当最大迭代次数到达但是仍然无法收敛时,则停止计算accuracy:中心点计算终止条件,如果两次迭代之间变化低于该值,算法终止,默认值0.0,值过大则会出现欠拟合情况,值较小则中心点容易在小范围间变化造成计算结果无法收敛distanceType:距离度量方式,euclidean(欧式距离),cosine(夹角余弦),cityblock^哈顿距离),默认为欧式距离旧工0位0W0坨。~:质心初始化方法,random(随机采样),topk(输入表前k行),uniform(均匀分布),external(指定初始质心表),默认值为随机采样initCenterTableName:初始质心表名,当质心初始化方法采用指定初始质心表方式时采用seed:初始随机种子数,正整数,默认值为当前时间,seed设置为固定值则每次聚类结果是稳定的enableSparse:输入表数据是否为稀疏格式,默认值为非稀疏格式itemDelimiter:当输入表数据为稀疏格式时,kv间的分割符,默认值为空格★Delimiter:当输入表数据为稀疏格式时,key和value的分割符,默认值冒号modelName:输出模型的模型名idxTableName:输出聚类结果表,和输入表对应,并指明聚类后每条记录所属的类号idxTablePartition:输出聚类结果表的分区表名clusterCountTableName:输出聚类统计表,统计各个聚类包含的点的数目centerTableName:输出聚类中心表coreNum
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业自动化与智能制造成长关系研究
- 工作中的自我管理与领导力培养
- 工业设计在产品创新中的作用与价值
- 工业风与极简风办公室对比分析
- 工作效率提升与团队协作技巧
- 工业领域智慧能源管理案例
- 工作效率工具使用经验分享
- 工厂企业消防安全检查标准
- 工厂生产线的日常巡检要点与技巧
- 工程勘测的数字化与安全技术保障
- 广西版五年级下册美术全册教案【完整版】
- 湖北省襄阳市2024-2025学年高三上学期9月月考+英语试卷(含答案)
- 2023年版成人机械通气患者俯卧位护理解读
- 河南省郑州市管城回族区2023-2024学年五年级下学期期末数学试卷
- 2025年全年日历含农历(1月-12月)
- 2024年安徽省高考物理试卷(真题+答案)
- 2024年江苏省宿迁市中考地理试题(含答案)
- 《学前儿童健康教育》6-3学前儿童安全教育活动的组织与实施课件
- DB43-T 2745-2023 地理标志产品 汨罗粽子
- DBJ50-255-2022 建筑节能(绿色建筑)工程施工质量验收标准
- 乒乓球体育课教案
评论
0/150
提交评论