大数据技术与应用项目R语言聚类分析原理_第1页
大数据技术与应用项目R语言聚类分析原理_第2页
大数据技术与应用项目R语言聚类分析原理_第3页
大数据技术与应用项目R语言聚类分析原理_第4页
大数据技术与应用项目R语言聚类分析原理_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术与应用项目——R语言聚类分析原理

项目来自北京诺程佳华教育科技有限公司教学目标•熟悉K-means和分层聚类的基本概念;•熟悉在R语言中做K-means和分层聚类。

R语言聚类分析原理聚类的目的是将相似的数据样本聚集在一起标记成不同的类别(称为簇)。1.K-means聚类K-means聚类的基本流程为•设置类别的数量k•随机指定k个点为类别的几何中心(centroid);•将数据样本归到最近的几何中心所在的簇;•重新计算几何中心;•重复上两步直到每个类别达到稳定状态,即数据样本的类别不再变化。

R语言聚类分析原理K-means聚类的主要特点有以下两点:•需要在开始时指定类别的数量,可以凭借直觉,也可以采用交叉验证或信息论的方法;•聚类的结果不是决定性的,即根据初始随机指定的几何中心不同,得到的最终聚类结果也会不同。R语言中可调用函数kmeans(x,centers)做K-means聚类,其中参数centers表示类别的数量或初始几何中心的数据样本。

R语言聚类分析原理2.分层聚类分层聚类是一种聚合(agglomerative)方法,即从下往上,将小类逐渐聚成大类的方法。其基本流程为•计算所有数据样本之间的距离,并选出距离最近的一对样本;•将距离最近的两个样本合并成一个簇;•找出下一对距离最近的样本或簇并合并,重复该过程;•用系统树图(dendrogram)表示聚类的顺序。

R语言聚类分析原理分层聚类的主要特点有以下两点:•聚类结果是决定性的,即只要参数方法一定,在同一数据集上得到的聚类结果总是一定的;•类别的数量切分并不一定十分明确;主要用于探索性数据分析。

R语言聚类分析原理R语言中可调用函数hh<-hclust(dist(dataFrame),method)做分层聚类,返回一个类型为hclust的对象,其中函数dist()返回各样本之间的距离或相似度,默认为欧式距离,参数method指定计算两个簇之间距离的方法,method="average"表示取两个簇中各样本变量的均值作为簇的代表计算距离,method="complete"表示取两个簇中距离最远的两个样本距离作为簇的距离。可以调用函数plot(hh)画出分层聚类的系统树图。

R语言聚类分析原理3.实验数据本实验所用数据为150个鸢尾属植物的数据,位于程序包datasets中名称为iris,包含了5个字段:花萼长度(Sepal.Length)、花萼宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论