《多元统计分析及R语言》第7章聚类分析_第1页
《多元统计分析及R语言》第7章聚类分析_第2页
《多元统计分析及R语言》第7章聚类分析_第3页
《多元统计分析及R语言》第7章聚类分析_第4页
《多元统计分析及R语言》第7章聚类分析_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题:采用何种方法将样本或指标进行分类处理?问题提出聚类方法模糊聚类法系统聚类法快速聚类法(kmeans)食品衣着设备医疗交通教育居住杂项北京4934.051512.88981.131294.072328.512383.961246.19649.66天津4249.311024.15760.561163.981309.941639.831417.45463.64河北2789.85975.94546.75833.511010.51895.06917.19266.16山西2600.371064.61477.74640.221027.991054.05991.77245.07内蒙古2824.891396.86561.71719.131123.821245.09941.79468.17辽宁3560.211017.65439.28879.081033.361052.941047.04400.16吉林2842.681127.09407.35854.8873.88997.751062.46394.29黑龙江2633.181021.45355.67729.55746.03938.21784.51310.67………………………第7章聚类分析7.1聚类分析的概念和类型7.2聚类统计量7.3系统聚类法7.4Kmeans聚类法7.5聚类分析的一些问题7.1聚类分析的概念和类型思想:研究样品或指标(变量)之间存在着程度不同的相似性(亲疏),并按相似程度不同将指标和样品形成一个分类系统。指标样本X1X2…Xp1x11x12…x1p2x21x22…x2p3x21x22…x2p……………nxn1xn2…xnp聚类方法类型R型聚类:对变量的聚类Q型聚类:对样品的聚类7.2聚类统计量定义:用来进行类型划分的统计量,对样品进行划分统计量为距离,对变量进行划分的统计量为相似系数。聚类统计量相似系数距离兰氏距离欧式距离马氏距离相关系数夹角余弦1.距离-样本公式(1)明氏距离q=1,绝对值距离q=2,欧式距离q=∞,切比雪夫距离(2)马氏距离(3)兰氏距离(4)程序实现dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2)x数据矩阵,数据框架method计算方法,“euclidean(欧式)”,“maximum(切比雪夫)“,”manhattan(绝对数)”,“canberra(兰氏)“,”binary”or“minkowski(明氏)"diag是否包含对角线元素upper是否需要上三角pMinkowski距离的幂次123426.32535.3854.12342.2364.1234.24351.4145.09951dist(X,)#欧式距离dist(X,method=“manhattan”)#绝对值距离1234283754356526712.相似系数-指标公式:(1)夹角余弦(2)相关系数(3)距离和相关系数转换7.3系统聚类法取距离方法类平均法最短距离最长距离n个样本分成n类计算任何两类距离最小距离归为1类整个过程画成聚类图离差平方和法(Ward法)重心法中心距离法1.基本思想2.系统聚类法计算公式(1)最短距离法距离:Gp与Gq合并为Gr后,Gr与其它类Gs之间距离:(2)最长距离法距离:Gp与Gq合并为Gr后,Gr与其它类Gs之间距离:(1)最短距离法分析过程D0G1G2G3G4G5G106.325.382.231.41G204.124.125.09G304.245.00G401.00G50D1G1G2G3G6G106.325.381.41G204.124.12G304.24G60D2G2G3G7G204.124.12G304.24G7045213(3)中间距离法取最短距离和最长距离的折中:(4)重心法距离:设Gr={Gp,Gq},则:递推公式:(5)类平均法两类之间距离平方:两类元素两两之间的平均基本公式:(6)离差平方和法(Ward法)设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gi中的第i个样品,nt为Gt中样品的个数,是Gt的重心,则Gt的样品离差平方和为:如果Gp和Gq合并为新类Gr,类内离差平方和为:统一递推公式方法αrαsβγ最短距离法1/21/20-1/2最长距离法1/21/201/2类平均法nr/npns/np00中间距离法1/21/2-1/40重心法nr/npns/np-αrαs0Ward法(nq+nr)/(nq+np)(nq+ns)/(nq+np)-nq/(nq+np)0结论:六种系统聚类法的并类原则和过程完全相同,不同之处在于类与类之间的距离定义不同。(7)程序实现hc<-hclust(dist(X),“ward")#ward距离法cbind(hc$merge,hc$height);plot(hc)#聚类图[,1][,2][,3][1,]-4-51[2,]-111.414[3,]-224.123[4,]-334.123hc<-hclust(dist(X),method="single")#最短距离法cbind(hc$merge,hc$height)#分类过程plot(hc)#聚类图[,1][,2][,3][1,]-4-51[2,]-112.100[3,]-2-34.123[4,]238.356问题:使用31个省、市、自治区调查资料对区域消费做类型划分,并作出聚类分析图。食品衣着设备医疗交通教育居住杂项北京4934.051512.88981.131294.072328.512383.961246.19649.66天津4249.311024.15760.561163.981309.941639.831417.45463.64河北2789.85975.94546.75833.511010.51895.06917.19266.16山西2600.371064.61477.74640.221027.991054.05991.77245.07内蒙古2824.891396.86561.71719.131123.821245.09941.79468.17辽宁3560.211017.65439.28879.081033.361052.941047.04400.16吉林2842.681127.09407.35854.8873.88997.751062.46394.29黑龙江2633.181021.45355.67729.55746.03938.21784.51310.678.实例分析程序实现plot(d7.2)library(mvstats)H.clust(d7.2,"euclidean","single",plot=T)#最短距离法7.4kmeans聚类法任选所有样本分成k类使用欧式最小距离将某样本划入离中心最近的类中重新计算两个新类的中心坐标整个过程画成聚类图1.基本思想分完未分完优点:分类速度快,占用内存少任选n个样本分成k簇计算每个簇对象均值(中心对象),计算每个对象与这些中心对象的距离根据欧式最小距离对相应对象进行划分重新计算有变化簇均值,如C中新的中心点与之前A中的中心点相比变化极小,则迭代结束2.Kmeans聚类原理与计算未分完分完生成聚类图3.随机模拟实验结论:Kmeans准确将均值为0和1的两类数据聚类开,体现了其准确性和快速性,采用系统聚类则可能死机。x1=matrix(rnorm(10000,mean=0,sd=0.3),ncol=10)#均值1,标准差为0.3的1000x10的正态随机数矩阵x2=matrix(rnorm(10000,mean=1,sd=0.3),ncol=10)x=rbind(x1,x2)cl=kmeans(x,2)#kmeans聚类pch1=rep("1",1000)pch2=rep("2",1000)plot(x,col=cl$

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论