电子商务概论课件_第1页
电子商务概论课件_第2页
电子商务概论课件_第3页
电子商务概论课件_第4页
电子商务概论课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 聚类分析法9.1 聚类与聚类分析 9.2 聚类分析的种类 9.3 聚类分析实例和分析软件简介 第1页,共49页。8/5/20221信息分析方法与应用学习目标 掌握聚类分析的原理 掌握聚类分析的种类 掌握聚类分析的方法 了解聚类分析的一般使用环境 了解各种聚类分析软件的优缺点 了解聚类分析的使用技巧 第九章 聚类分析法第2页,共49页。8/5/20222信息分析方法与应用9.1 聚类与聚类分析9.1.1聚类分析的含义 1.含义 “物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。 聚类(clustering)是对大量未知标注的数据

2、集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,其过程被称为聚类。 2.聚类分析的作用 聚类是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。 第3页,共49页。8/5/20223信息分析方法与应用9.1.2聚类分析的原理 1.聚类分析的定义 聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径,一个是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类与类之间的距离,用

3、点与点间距离来描述作品或变量之间的亲疏程度;二是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。 9.1 聚类与聚类分析第4页,共49页。8/5/20224信息分析方法与应用9.1.2聚类分析的原理 2.聚类分析的种类 聚类分析按照分组理论依据的不同,可分为系统聚类法、动态聚类法、模糊聚类、图论聚类等多种聚类方法。 (1)系统聚类分析法。是在样品距离的基础上定义类与类的距离,首先将n个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过

4、程图称为聚类谱系图。 (2)动态聚类分析法。是将n个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称调优法。 (3)模糊聚类分析法。是利用模糊数学中模糊集理论来处理分类问题的方法,他对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。 (4)图论聚类分析法。是利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。 9.1 聚类与聚类分析第5页,共49页。8/5/20225信息分析方法与应用9.1.2聚类分析的原理 3.聚类分析中样品或变量亲疏程度的测定 (1)变量类型与数据变换: 通常变

5、量类型是按照计算尺度、定序尺度、定距尺度、定比尺度分类。其中,前两者又称为定性资料,后两者又称为定量资料。在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切的关系,不同类型的变量在定义距离或相似性测度时具有很大的差异。另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比较。 9.1 聚类与聚类分析第6页,共49页。8/5/20226信息分析方法与应用9.1.2聚类分析的原理 1)中心化变换 对于一个样本数据,观测p各指标,n个样品的数据资料阵为 9.1 聚类与聚类分析

6、第7页,共49页。8/5/20227信息分析方法与应用9.1.2聚类分析的原理 2)规格化变换(极差规格变换) 规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据.规格化后的数据为 进行了规格化变换后的数据特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。 9.1 聚类与聚类分析第8页,共49页。8/5/20228信息分析方法与应用9.1.2聚类分析的原理 3)标准化变换 标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即 9.1 聚类与聚类分析

7、第9页,共49页。8/5/20229信息分析方法与应用9.1.2聚类分析的原理 4)对数变换 对数变换主要是对原始数据取对数。即 对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。 9.1 聚类与聚类分析第10页,共49页。8/5/202210信息分析方法与应用9.1.2聚类分析的原理 (2)多维空间的距离 对于p个观测指标,n个样品的样本数据,每个样品有p个变量,故每个样品都可以看成是p维空间上的一个点,n个样品就是的过程维空间上的n个点。聚类分析中,对样品进行分类时,通常采用距离来表示样品之间的亲疏程度,因此需定义样品之间的距离,即第i个样品与第j个样品之间的距离,记为,

8、所定义的距离一般满足以下四个条件: 9.1 聚类与聚类分析第11页,共49页。8/5/202211信息分析方法与应用9.1.2聚类分析的原理 (3)距离以及相似系数的选择原则 一般说来,同一批数据采用不同的相似性尺度,就会得到不同的分类结果,这主要是因为不同指标代表了不同意上的相似性。因此在进行数值分类时,应注意相似性尺度的选择,选择的基本原则是: 1)所选择的相似性尺度在实际应用中应有明确的意义。 2)根据原始数据的性质,选择适当变换方法,再根据不同的变换方法选择不同的距离或相似系数。如标准化变换处理下,相关相似系数和夹角余弦一支;又如原始数据在进行聚类分析之前已经对变量的相关性做了处理,则

9、通常可采用欧式距离而不必选用斜交空间距离。再如选择距离时,还须和选用的聚类方法一致。 3)适当的考虑计算量的大小,如对样品量较多的聚类问题,不适宜选择斜交空间距离,因采用该距离时,计算量较大。 9.1 聚类与聚类分析第12页,共49页。8/5/202212信息分析方法与应用9.2 聚类分析的种类 9.2.1 系统聚类分析法 9.2.2 动态聚类分析法 9.2.3 模糊聚类分析法 9.2.4 图论聚类分析法第13页,共49页。8/5/202213信息分析方法与应用1.基本思想和分析步骤 (1)基本思想 系统聚类分析的基本思想是,把n个样品看成p维(p个指标)空间的点,而把每个变量看成p维空间的坐

10、标轴,根据空间上点与点的距离来进行分类。 9.2.1 系统聚类分析法9.2 聚类分析的种类 第14页,共49页。8/5/202214信息分析方法与应用(2)系统聚类分析的一般步骤 1)对数据进行变换处理; 2)计算各样品之间的距离,并将距离最近的两个样品合并成一类; 3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果累的个数大于1,则继续并类,直至所有样品归为一类为止; 4)最后绘制系统聚类谱系图,按不同的分类标准,得出不同的分类结果。 9.2 聚类分析的种类 第15页,共49页。8/5/202215信息分析方法与应用 2.常用系统聚类分析方法(1)最短距离法(2)最长距离法 9.2

11、 聚类分析的种类 第16页,共49页。8/5/202216信息分析方法与应用(3)中间距离法 (4)重心法9.2 聚类分析的种类 第17页,共49页。8/5/202217信息分析方法与应用(5)类平均法(6)可变类平均法9.2 聚类分析的种类 第18页,共49页。8/5/202218信息分析方法与应用(7)可变法(8)离差平方和法9.2 聚类分析的种类 第19页,共49页。8/5/202219信息分析方法与应用3. 系统聚类分析方法的统一公式 由于聚类方法的合并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,所以可得到不同的递推公式。 1969年维希特提出了统一的公式,这

12、为编制统一的计算机程序提供了极大的方便性。 9.2 聚类分析的种类 第20页,共49页。8/5/202220信息分析方法与应用其中系数对不同聚类方法有不同的取值。如表所示:第21页,共49页。8/5/202221信息分析方法与应用9.2.2 动态聚类分析法 (1)选择凝聚点 凝聚点就是一批有代表性的点,是待形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大影响,通常选择凝聚点的方法为: 1)凭经验选择凝聚点。 2)根据数据情况将全部样品人为地凭经验分成k类,之后计算每一类的重心,将这些重心作为凝聚点。 3)用密度法选择凝聚点。 4)用前k个样品作为凝聚点。 9.2 聚类分析的种类

13、第22页,共49页。8/5/202222信息分析方法与应用9.2.2 动态聚类分析法 (2)初始分类 有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其他原则分类。 以下是其他几种初始分类方法: 1)人为分类,凭经验进行初始分类。 2)选择一批凝聚点后,每个样品按与其距离最近的凝聚点归类。 3)选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离最近的凝聚点那一类,并立即重新计算该类的重心,以代替原来的凝聚点,在计算下一个样品的归类,直至所有样品都划到相应的类中为止。 9.2 聚类分析的种类 第23页,共

14、49页。8/5/202223信息分析方法与应用9.2.2 动态聚类分析法 (2)初始分类 4)做数据标准化处理。令对每一个样品分别计算 5)用其他聚类方法得到一个分类,这个分类就作为初始分类。 9.2 聚类分析的种类 第24页,共49页。8/5/202224信息分析方法与应用9.2.2 动态聚类分析法(3)分类函数 按照修改原则不同,动态聚类方法有按批修改法、逐个修改法、混合法等。这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原则是,每一步修改都将使对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计算过程是收敛的。9.2 聚类分析的种类 第25页,共49页。8/5/202225

15、信息分析方法与应用9.2.2 动态聚类分析法(3)分类函数 9.2 聚类分析的种类 第26页,共49页。8/5/202226信息分析方法与应用 2.动态聚类分析步骤 (1)首先将原始数据进行标准化处理; (2)选择预定数目凝聚点进行初始分类; (3)计算每一类的重心,将重心作为凝聚点,然后计算每一个样品与重心凝聚点的距离,并将它归入与凝聚点距离最近的那一类别。每归入一个样品之后,重新计算该类的重心,并用新计算的重心替代原凝聚点,如果新凝聚点与老凝聚点重合,则分类过程终止。9.2 聚类分析的种类 第27页,共49页。8/5/202227信息分析方法与应用9.2.3 模糊聚类分析法1.模糊聚类分析

16、的基本思想 模糊聚类法是将模糊集的概念应用到聚类分析中所产生的一种聚类方法。它是根据研究对象本身的属性而构造的一个模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系,根据分类关系得到相应的聚类结果。 9.2 聚类分析的种类 第28页,共49页。8/5/202228信息分析方法与应用2.模糊聚类分析步骤 第一步:对原始数据进行变换 9.2 聚类分析的种类 第29页,共49页。8/5/202229信息分析方法与应用2.模糊聚类分析步骤 第二步:建立模糊相似矩阵。 9.2 聚类分析的种类 第30页,共49页。8/5/202230信息分析方法与应用2.模糊聚类分析步骤 第三步:获得模糊分类关系。 9

17、.2 聚类分析的种类 第31页,共49页。8/5/202231信息分析方法与应用2.模糊聚类分析步骤 第四步:进行模糊聚类。 对满足传递性的模糊相似矩阵 进行聚类处理。将类逐渐合并,最后得到聚类谱系图,从而进行合理的分类。9.2 聚类分析的种类 第32页,共49页。8/5/202232信息分析方法与应用 9.2.4 图论聚类分析法 1.图论聚类分析的基本思想 图论聚类法又称为最小支撑树聚类方法。图论聚类法的基本思想为,一个多变量的样品可以用多维空间中的一个来代表。在多维空间中,如果样品点在某些区域密度很高,而在另一些区域密度很低,甚至空白,且高密度区域被空白或低密度区所分隔,这样就形成了最自然

18、的、最能体现样品分布结构的聚类。9.2 聚类分析的种类 第33页,共49页。8/5/202233信息分析方法与应用 2.图论聚类分析的基本原理最小支撑树 9.2 聚类分析的种类 第34页,共49页。8/5/202234信息分析方法与应用 9.3 聚类分析实例和分析软件简介 9.3.1运用SPSS的聚类分析 【例9-1】 某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标,要求运用SPSS软件按其各自特点进行分类。 通过表9-6列出了4个类中心位置,通过表9-7列出了最终的类中心位置之间的欧氏距离;最后表9-8给出了每一类的样本数,4种类型

19、的企业分别有4家、10家、3家和3家。第35页,共49页。8/5/202235信息分析方法与应用 图9-2 SPSS数据录入第36页,共49页。8/5/202236信息分析方法与应用表9-6 最终聚类中心位置 Final Cluster CentersCluster1234盈利能力58849078领导才干59808353组织文化78836563员工发展74806367第37页,共49页。8/5/202237信息分析方法与应用表9-7 最终聚类中心间距离 Distances between Final Cluster CentersCluster1234134.29143.87926.72523

20、4.29125.66635.720343.87925.66632.404426.72535.72032.404第38页,共49页。8/5/202238信息分析方法与应用表9-8 四种企业类型分类 Number of Cases in each ClusterCluster14.000210.00033.00043.000Valid20.000Missing.000第39页,共49页。8/5/202239信息分析方法与应用单因素发差分析表 ANOVAClusterErrorFSig.Mean SquaredfMean Squaredf盈利能力803.611362.1351612.933.000领

21、导才干898.472345.2861619.840.000组织文化447.361350.104168.929.001员工发展287.222340.755167.047.003第40页,共49页。8/5/202240信息分析方法与应用 【例9-2】某饮料公司对市场上的16种不同品种饮料的成分进行调查,通过分层聚类的方法找到消费者对于饮料产品的消费特征,其饮料品种如图所示: 9.3 聚类分析实例和分析软件简介第41页,共49页。8/5/202241信息分析方法与应用在SPSS软件中输入数据文件:第42页,共49页。8/5/202242信息分析方法与应用表9-10 16种饮料成分图 饮料编号热量咖啡

22、因钠价格1207.23.315.52.8236.85.912.93.3372.27.38.22.4436.70.410.545121.74.19.23.5689.1410.23.37146.74.39.71.8857.62.213.62.1995.908.51.310199010.63.51149.886.33.71216.64.76.33.71338.53.77.721404.213.12.215118.84.77.24.11610708.34.2第43页,共49页。8/5/202243信息分析方法与应用表9-11 聚类分析步骤图Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 212440.51000426978.13000103515113.1300074213132.2151095811159.3300096110183.63000157516259.375301181214328.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论