误差分析课件聚类分析之快速聚类法_第1页
误差分析课件聚类分析之快速聚类法_第2页
误差分析课件聚类分析之快速聚类法_第3页
误差分析课件聚类分析之快速聚类法_第4页
误差分析课件聚类分析之快速聚类法_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

误差分析课件聚类分析之快速聚类法第一页,共二十六页,2022年,8月28日聚类分析样品间相似性的度量快速聚类分析及实例目录第二页,共二十六页,2022年,8月28日分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。第三页,共二十六页,2022年,8月28日基本思想是:通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类。聚类分析的介绍第四页,共二十六页,2022年,8月28日聚类分析和判别分析是研究分类问题的数据分析方法。聚类分析和判别分析的比较聚类分析判别分析区别进行聚类分析前对总体有几种类型并不知道总体分类已给定,在总体分布或来自总体训练样本基础上,对新样品判定属于哪个总体联系判别分析中的训练样本往往是从聚类分析中得到的第五页,共二十六页,2022年,8月28日引入:如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。第六页,共二十六页,2022年,8月28日设X=为所关心的p个指标,对此指标作n次观测得n组观测值称这n组观测数据为n个样品。这样,每个样品可看成p维空间的一个点,n个样品组成p维空间的n个点,我们可以用各点之间的距离来衡量个样品点之间的靠近程度。样品间相似性的度量第七页,共二十六页,2022年,8月28日1欧氏距离2绝对距离3Minkowski距离其中m≥1,又称为Lm距离。4Chebyshev距离是Minkowski距离当m→+∞时的极限。广义的“距离”:第八页,共二十六页,2022年,8月28日由于不同指标通常有不同的量纲,这会引起各取值的分散程度差异较大,有时会造成很不合理的结果,为了消除此种影响,常需要在分析前对数据进行标准化处理。5方差加权距离

标准化数据的欧氏距离就是方差加权距离。第九页,共二十六页,2022年,8月28日?6马氏距离通常都是尝试各种不同距离分析,最终采用最有利于分类的距离定义。[]åå==-=---=--=-niiTniiinjiTjijixnxxxxxnSxxxSxxSxxxxd11212111))((11,,,)()()(其中算得的协方差矩阵:是由样品其中L第十页,共二十六页,2022年,8月28日令形成n个样品两两之间的距离矩阵:

其中第十一页,共二十六页,2022年,8月28日

思想:首先将样品粗糙得分类,然后再依据样品间的距离按一定规则逐步调整,直至不能再调整为止。

适合于:样本数目较大的数据集的聚类分析

局限性:需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。解决办法:实际中一般要对多个分类的数目进行尝试,以找出合理的分类结果快速聚类分析及实例第十二页,共二十六页,2022年,8月28日1选择聚点(聚类中心点)

经验选择将n个样品人为地(或随机地)分为k类,以每类的均值向量(称为重心)作为聚点。最大最小原则先选择所有样品中相距最远的两个样品为初始的两个聚点,然后,选择第3个聚点(与前两个聚点的距离最小者),按相同的原则依次选取下去,直至选出k个聚点。第十三页,共二十六页,2022年,8月28日(1)随机选择聚类种子点或中心点;(2)将每个观察样本分配给最近的种子;(3)重新把每个聚集中的中心点作为种子;(4)不断重复上述过程直到种子的变化足够小为止。

快速聚类法的步骤第十四页,共二十六页,2022年,8月28日快速聚类法的步骤设k个初始聚点的集合是用下列原则实现初始分类:这样,将样品分成不相交的k类,以上初始分类的原则是每个样品以最近的初始聚点归类,这样得到一个初始分类第十五页,共二十六页,2022年,8月28日2.从出发,计算新的聚点集合,以的重心作为新的聚点:其中是类中的样品数。这样,得到新的聚点集合从出发,将样品作新的分类。记得到分类这样依次进行下去。第十六页,共二十六页,2022年,8月28日在以上递推计算过程中,不一定是样品,又一般不是的重心。当m逐渐增大,分类趋于稳定,此时,就会近似为的重心,从而算法即可结束。实际计算时,从某一步m开始,分类与完全相同,计算即告结束。3.设在第m步得到分类第十七页,共二十六页,2022年,8月28日实例:国产轿车市场竞争格局的快速聚类分析

通过几个主要的汽车网站,收集2006年11月6-12日目前汽车产品的车型主要参数和厂家指导价.利用SPSS软件,采用聚类分析的方法,对目前主要的轿车产品进行了聚类处理。第十八页,共二十六页,2022年,8月28日车型的生产企业和企业所属集团代码的说明

1-中国(自主品牌)2-欧洲3-日本4-美国5-韩国第十九页,共二十六页,2022年,8月28日按照上述的方法和分类原则进行数据收集,共产生了158个车型及其相关数据涵盖了轿车市场绝大部分生产企业和车型,可视为国产轿车的总体,所以该研究能反映出目前国产轿车竞争的全貌。第二十页,共二十六页,2022年,8月28日聚类分析过程及结果由研究者指定聚类成多少类(如k个)SPSS确定k个初始类中心点迭代过程(IterationHistory)聚类结果在确定聚类数目的过程中,尝试了聚类数为8-15个共8个聚类方案,以有助于识别相竞争的车型,并尽可能与轿车级别的划分相一致为判断依据,13个聚类数所得到的结果是最为令人满意的。SPSS根据样本数据的情况选择k个有代表性的样本数据作为初始类中心,初始类中心也可以由用户自行指定。SPSS逐一计算每一个记录到各个类别中心点的欧氏距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成的类别中心点;按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类,更新类别中心点;重复,直到达到终止迭代的判断要求为止。第二十一页,共二十六页,2022年,8月28日聚类结果低端产品高端产品第二十二页,共二十六页,2022年,8月28日直观上我们可以发现:11类和12类间距离最小,说明低端产品的差异相对较小10类和7类类间的距离最大,说明高端产品之间差异增大第11类主要为普及型轿车,这类产品是市场竞争最为激烈的领域,为进一步展示各车型间的竞争关系,应对其进行再次聚类。第二十三页,共二十六页,2022年,8月28日排量(毫升)价格(元)整备质量(千克

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论