《R语言数据挖掘》第九章 R的特色聚类:揭示数据内在结构_第1页
《R语言数据挖掘》第九章 R的特色聚类:揭示数据内在结构_第2页
《R语言数据挖掘》第九章 R的特色聚类:揭示数据内在结构_第3页
《R语言数据挖掘》第九章 R的特色聚类:揭示数据内在结构_第4页
《R语言数据挖掘》第九章 R的特色聚类:揭示数据内在结构_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章R的特色聚类:揭示数据内在结构学习目标理论方面,理解各种特色聚类方法的特点、核心原理和基本实现思路,掌握不同方法的适用性和应用场景实践方面,掌握R的各种特色聚类方法的实现、应用以及结果解读,能够正确运用不同聚类方法解决实际应用中的数据全方位自动分组问题BIRCH聚类概述BRICH聚类借鉴层次聚类的思路,采用欧氏距离、绝对距离、组间平均链锁法以及类内离差平方变化度量观测与小类、小类与小类的距离,并依距离最近原则指派观测到相应的类中。适合于聚类变量均为数值型的情况。特色:第一,有效解决了计算资源,尤其是内存空间有限条件下的高维大数据集的聚类问题第二,能够实现在线数据的动态聚类第三,以聚类角度进行噪声数据的识别BIRCH聚类聚类特征第j个小类的聚类特征一般由3组数值组成聚类特征具有可加性BIRCH聚类聚类特征树利用树形结构反映聚类结果的层次关系聚类特征树的规模取决于两个参数:分支因子B和阈值T压缩数据存储空间,各个节点仅存储聚类特征BIRCH聚类BIRCH聚类过程:

采用逐个随机抽取和处理观测数据的方式,建立聚类特征树初始化聚类特征树,对每个观测做如下判断处理:BIRCH聚类BIRCH认为,包含较多观测的叶节点为大叶节点,对应着一个观测分布的稠密区域。包含较少观测的叶节点为小叶节点,对应着一个观测分布的稀疏区域当小叶节点包含的观测个数少到一定程度,如观测个数仅为大叶节点个数的很小比例时,小叶节点中的观测即为离群点。可剔除小叶节点后继续建树BIRCH聚类的R实现BIRCH聚类的函数birch(x=矩阵,radius=聚类半径,keeptree=TRUE/FALSE)birch.getTree(CF对象名)动态新数据的聚类birch.addToTree(x=新数据集,birchObject=已有的CF对象名)birch.getTree(birchObject=新CF对象名)优化聚类解kmeans.birch(CF对象名,center=聚类数目,nstart=1)birch.killTree(birchObject=CF对象名)BIRCH聚类的R实现模拟数据的BIRCH聚类生成混合高斯分布的随机数进行BIRCH聚类将动态新数据添加到聚类特征树中,对比新数据添加前后聚类特征树的变化情况利用K-Means聚类优化BIRCH聚类结果利用分层聚类优化BIRCH聚类结果,并与K-Means优化方式进行对比BIRCH聚类的R实现BRICH聚类应用:两期岗位培训的比较SOM网络聚类概述SOM,最早是2001年芬兰科学家Kohonen提出的一种可视化高维数据的方法,属人工神经网络范畴SOM聚类基于观测点在聚类特征空间中的距离空间中距离较近的观测属于同一类,距离较远的观测分属不同的类SOM网络聚类的特色:通过模拟人脑神经细胞,引入“竞争”机制完成聚类过程SOM网络聚类SOM网络的拓扑结构网络包含两层:一个输入层和一个输出层输入层中的每个输入节点与输出节点相连,且连接强度通过连接权重测度。输出节点之间有侧向连接SOM网络聚类SOM聚类过程第一,数据预处理第二,确定聚类的初始类中心第三步,t时刻,随机读入观测数据x(t),分别计算它与K个类质心的欧氏距离D(t),并找出距离最近的类质心。这个类质心对应的输出节点即为“获胜”节点,是对第t个观测样本最“敏感”的节点,记为Winc(t)第四步,调整“获胜”节点Winc(t)和其邻接节点的网络权值第五步,上述第三步和第四步会不断反复,直到满足迭代终止条件为止。迭代终止条件是:权值基本稳定或者到达指定迭代的次数SOM网络聚类网络权值调整涉及两个问题第一,调整算法第二,怎样的节点应视为“获胜”节点的邻接节点以Winc(t)为中心

覆盖范围内的输出节点均视为Winc(t)的邻接节点SOM网络聚类的R实现som函数som(data=矩阵,grid=网络结构,rlen=100,alpha=学习率,radius=邻域半径,n.hood=邻域范围形状)SOM网络聚类的可视化函数plot(x=som函数结果对象名,type=图形类型名)模拟数据的SOM网络聚类SOM网络聚类的R实现SOM网络聚类应用:手写邮政编码识别拓展SOM网络聚类拓展SOM网络:红酒品质预测预测途径直接预测:输出变量y并不参与SOM网络的建模,聚类过程与输出变量没有关系。仅到预测阶段才涉及输出变量基于拓展SOM网络的预测:输出变量y全程参与SOM网络的建模,聚类结果体现了输出变量与输入变量的取值关系,输出变量对聚类过程有重要影响。具体定义:拓展SOM网络聚类的R实现R函数xyf(data=矩阵或数据框,Y=输出变量,grid=网络结构,rlen=迭代周期数,alpha=学习率,radius=邻域半径,xweight=0.5,contin=TRUE/FALSE)拓展SOM网络预测应用DBSCAN聚类基于密度的聚类模型中的经典是DBSCAN聚类DBSCAN聚类的相关概念核心点P:若任意观测点O的邻域半径内的邻居个数不少于minPts,则称观测点O为核心点若观测点Q的邻域半径内的邻居个数少于minPts且位于核心点P邻域半径的边缘线上,则称点Q是核心点P的边缘点核心点P的直接密度可达点Q:若任意观测点Q在核心点P的邻域半径范围内,称观测点Q为核心点P的直接密度可达点核心点P的密度可达点Q:若存在一系列观测点O1,O2,…,On,且Oi+1(i=1,2,…,n-1)是Oi的直接密度,且O1=P,On=Q,则称点Q是点P的密度可达点噪声点:除上述点之外的其他观测点DBSCAN聚类DBSCAN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论