版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、5.8 聚类分析聚类分析一、聚类分析的经济背景一、聚类分析的经济背景二、聚类分析的数学解释二、聚类分析的数学解释三、聚类分析在经管中的应用三、聚类分析在经管中的应用一、聚类分析的经济背景一、聚类分析的经济背景(一)单指标分类(一)单指标分类:单指标排序(二)多指标分类:(二)多指标分类:各地区居民生活水平指标: 经济生活质量指数 教育生活质量指数 健康生活质量指数 居住生活质量指数 按已知数据对30个省进行分类研究。(三)聚类分析的功能:(三)聚类分析的功能: 建立一种分类方法,将一批样品或变量按照建立一种分类方法,将一批样品或变量按照它们在性质上的亲疏程度进行分类。它们在性质上的亲疏程度进行
2、分类。(四)描述亲疏程度的途径:(四)描述亲疏程度的途径: 1、对样品进行分类:、对样品进行分类:把每个样品看成是把每个样品看成是m维维(变量的个数)空间的一个点,在(变量的个数)空间的一个点,在m维坐标系维坐标系中,定义点与点之间的某种距离,距离越近,中,定义点与点之间的某种距离,距离越近,其亲密程度越好;其亲密程度越好; 2、对变量进行分类:、对变量进行分类:定义某种相似系数,定义某种相似系数,性质越接近的变量,他们之间的相似系数越接性质越接近的变量,他们之间的相似系数越接近于近于1(-1),彼此无关的变量,它们之间的相),彼此无关的变量,它们之间的相似系数越接近于似系数越接近于0。二、聚
3、类分析的数学解释二、聚类分析的数学解释 (一)聚类分析(一)聚类分析 当确定了样品或变量间的距离或相似系数后,就当确定了样品或变量间的距离或相似系数后,就要对样品或变量进行分类。要对样品或变量进行分类。 1、层次聚类:、层次聚类:首先是在样品距离的基础上定义类首先是在样品距离的基础上定义类与类之间的距离,即首先将与类之间的距离,即首先将n个样品自成一类,然后个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离这个过程直到所有的样品归为一类与类之间的距离这个过程直到所有的样品归为一类为止,将这一过程作成图,称为聚类谱系图类为
4、止,将这一过程作成图,称为聚类谱系图(Hierarchical Diagram);); 2、迭代聚类、迭代聚类(快速聚类):快速聚类):将将n个样品初步分类,个样品初步分类,然后根据分类函数尽可能小的原则,对已分类别进然后根据分类函数尽可能小的原则,对已分类别进行调整,直到分类合理为止,这一过程称为调优法。行调整,直到分类合理为止,这一过程称为调优法。(二)层次聚类分析(二)层次聚类分析 层次聚类分析(系统聚类)(层次聚类分析(系统聚类)(Hierarchical Cluster)是聚类分析中应用最广泛的一种,凡是具是聚类分析中应用最广泛的一种,凡是具有数值特征的变量和样本都可以采用层次聚类分
5、析,有数值特征的变量和样本都可以采用层次聚类分析,选择不同的距离和聚类方法可以获得满意的数值分类选择不同的距离和聚类方法可以获得满意的数值分类效果。效果。 1、层次聚类分析的步骤:、层次聚类分析的步骤:(1)聚类前首先对数据进行变换处理(选择相关性小且贡献大)聚类前首先对数据进行变换处理(选择相关性小且贡献大的指标,转化成无量纲的数据);的指标,转化成无量纲的数据);(2)聚类分析时先分成)聚类分析时先分成n 类,计算样品之间的距离,并将距离类,计算样品之间的距离,并将距离最近的两个样品并成一类;最近的两个样品并成一类;(3)选择并计算类与类之间的距离,并将距离最近的两类合并,)选择并计算类与
6、类之间的距离,并将距离最近的两类合并,如果类的个数大于如果类的个数大于1,则继续,直到所有的样品并为一类为止;,则继续,直到所有的样品并为一类为止;(4)最后绘制层次聚类谱系图(树状图)。)最后绘制层次聚类谱系图(树状图)。 2、数据变换处理(标准化处理)、数据变换处理(标准化处理): (1)极差正规化(极差从)极差正规化(极差从0到到1):):从变量的数据中从变量的数据中找出最大和最小值,其差称为极差。每一个原始数据找出最大和最小值,其差称为极差。每一个原始数据减去变量的最小值,再除以极差,则得到极差正规化减去变量的最小值,再除以极差,则得到极差正规化数据(最大数为数据(最大数为1,最小数为
7、,最小数为0);); (2)标准化变换(标准差为)标准化变换(标准差为1):):把数值标准化到标把数值标准化到标准差为准差为1(均值为(均值为0,方差为,方差为1);); 3、距离:、距离:应满足如下条件:个样品之间的距离。个样品和表示用和为个指标的均值和标准差个指标,第个样品的第表示ijijjjijdjid;Sxjjix (1)dij=0 (2)dii=0 (3)dij=dji (4)dij=dik+dkj欧氏距离欧氏距离欧氏平方距离欧氏平方距离切贝谢夫距离切贝谢夫距离布洛克距离布洛克距离明可斯基距离明可斯基距离用户自定义用户自定义4、相似系数、相似系数 在对变量进行分类时,通常采用相似系数
8、来表示在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。变量之间的亲疏程度。 相似系数定义如下:相似系数定义如下:jiijijjiijijijijcccayyccyyc)3(1)2(1) 1 (应满足如下关系:间的相似系数,则与表示变量设之间。的取值在时,当两指标相似;与,说明时相关系数取值为当)相关系数(,说明两者不相关。度,取值为正交时,夹角为与当两指标相似;与,说明,取值为时夹角为当):夹角余弦(101)()()(: )209010)(cosasin) 1 (ij12121ij12121ijjijijixxxxxxxxnCorrelatioPearsonjijijixxxxe
9、Comkjjkmkiikmkjjkiikmkjkmkikmkjkik5、聚类方法常用的聚类方法有如下常用的聚类方法有如下7种:种:(1)最短距离法(最近邻元素)(最短距离法(最近邻元素)(Nearest Neighbor):): 两类的距离定义为一类的所有个体与另一类的所有两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最小者。个体之间的距离最小者。(2)最长距离法(最远邻元素)(最长距离法(最远邻元素)(Further Neighbor):): 两类的距离定义为一类的所有个体与另一类的所有两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最大者。个体之间的距离最大者。(3)
10、中间距离法(中位数聚类)中间距离法(中位数聚类)Median clustering):): 两类的距离定义采用界于最短距离和最长距离之间两类的距离定义采用界于最短距离和最长距离之间的中间距离(取三角形的中线)。的中间距离(取三角形的中线)。(4)重心法(质心聚类)(重心法(质心聚类)(Centroid clustering):): 将两类的距离定义为两类重心之间的距离将两类的距离定义为两类重心之间的距离(5)类平均法类平均法(组内的联接)(组内的联接)(within group linkage):): 将两类的距离定义为两类元素两两之间的平均平方距离。将两类的距离定义为两类元素两两之间的平均平
11、方距离。(6)可变类平均法可变类平均法(组之间的联接)组之间的联接) (Between group linkage) 将类平均法和中间距离法进行组合,得到一个组合的距离。将类平均法和中间距离法进行组合,得到一个组合的距离。(7)离差平方和法(离差平方和法(Ward 的方法)(的方法)(Wards method):): 利用方差分析的思想:如果类分得合理,则同类样品之间的利用方差分析的思想:如果类分得合理,则同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大。离差平方和应当较小,类与类之间的离差平方和应当较大。(三)迭代聚类法(三)迭代聚类法(K-平均值聚类)平均值聚类) 层次聚类
12、法在聚类过程中需要存储距离矩阵,并且在每一步的层次聚类法在聚类过程中需要存储距离矩阵,并且在每一步的并类过程中都需要做很多计算,这样,当样本量很大时会需要较大的并类过程中都需要做很多计算,这样,当样本量很大时会需要较大的计算机内存空间和较长的计算时间。迭代聚类法克服了层次聚类法的计算机内存空间和较长的计算时间。迭代聚类法克服了层次聚类法的这两个缺点,具有占计算机内存小、速度快的优点,适用于大样本的这两个缺点,具有占计算机内存小、速度快的优点,适用于大样本的聚类分析。聚类分析。 迭代聚类法的聚类过程分为以下四步:迭代聚类法的聚类过程分为以下四步:(1)指定要形成的聚类数,对样本进行初始分类并计算
13、每一类的重)指定要形成的聚类数,对样本进行初始分类并计算每一类的重心;心;(初始分类中心)初始分类中心)(2)调整分类。计算每个样本点到各类重心的距离,把每个样本点)调整分类。计算每个样本点到各类重心的距离,把每个样本点归入距重心最近的那一类;归入距重心最近的那一类; (3)重新计算每一类的重心;)重新计算每一类的重心; (4)重复步骤()重复步骤(2)一()一(3),直到没有样本点可以再调整为止。),直到没有样本点可以再调整为止。 迭代聚类法的关键是选择初始分类,不同的初始分类用于同一数据迭代聚类法的关键是选择初始分类,不同的初始分类用于同一数据往往也会得出不同的结果。往往也会得出不同的结果
14、。 进行初始分类的方法分两种情况:一是已知初始聚类中心;二是未进行初始分类的方法分两种情况:一是已知初始聚类中心;二是未知初始聚类中心。知初始聚类中心。 (1)在已知初始聚类中心的情况下,按照距离最近的原则,把离初)在已知初始聚类中心的情况下,按照距离最近的原则,把离初始聚类中心最近的样本点归入一类,形成初始分类,然后计算每一类的始聚类中心最近的样本点归入一类,形成初始分类,然后计算每一类的重心。初始聚类中心通常是根据经验人为地进行选择,例如:重心。初始聚类中心通常是根据经验人为地进行选择,例如: 根据以往的研究经验,选择每一类中有代表性的样本点作为初始聚根据以往的研究经验,选择每一类中有代表
15、性的样本点作为初始聚类中心;类中心; 将样本先用其他方法分类,将每一类的重心作为初始聚类中心。将样本先用其他方法分类,将每一类的重心作为初始聚类中心。 可以使用数据文件中的前可以使用数据文件中的前k个无缺失值的样本点作为初始聚类中心。个无缺失值的样本点作为初始聚类中心。 (2)在未知初始聚类中心的情况下,指定某种聚类方法对样本点进)在未知初始聚类中心的情况下,指定某种聚类方法对样本点进行初始分类,一般的统计软件都有从原始数据中估计初始聚类中心,进行初始分类,一般的统计软件都有从原始数据中估计初始聚类中心,进行初始分类的功能。行初始分类的功能。三、聚类分析在经管研究中的应用例1:商厦分类(一)层
16、次聚类分析1、打开SPSS软件2、输入数据(商厦评分.sav)3、在SPSS中选定:分析分类系统聚类 4、选定平方欧氏距离5、输出“组之间的联接”法 聚类谱系图6、对聚类谱系图进行分析Statistics聚类谱系图聚类谱系图冰柱图冰柱图三、聚类分析在经管研究中的应用三、聚类分析在经管研究中的应用例例2 各地区居民生活水平指标:各地区居民生活水平指标: 经济生活质量指数经济生活质量指数 教育生活质量指数教育生活质量指数 健康生活质量指数健康生活质量指数 居住生活质量指数居住生活质量指数 按已知数据对按已知数据对30个省进行分类研究个省进行分类研究。最短距离法最长距离法重心法组间连接法离差平方和法(二)迭代聚类分析1、打开SPSS软件2、输入数据(e5-8-1)3、在SPSS中选定:分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出口石油产品2024年度运输合同
- 电气设备安装与保护04合同
- 二零二四年度网络安全维护合同:网站防护与数据安全协议
- 泵站设备融资租赁合同(二零二四年)
- 二零二四年度广告牌清洗承包合同
- 二零二四年度彩钢房安全评估与拆除安装合同
- 二零二四年度网络安全审查服务合同
- 2024年度数据管理与保护合同
- 第七章2024年度商标使用许可合同
- 房东房屋租赁合同范本
- 一例ANCA相关性血管炎患者的护理查房
- “变废为宝从我做起”科学调查体验活动方案【9篇】
- 无人机山区配送可行性研究
- 延安医院电子报告
- JB T 6527-2006组合冷库用隔热夹芯板
- 2024年江苏省高中学业水平考试合格考生物试卷试题(含答案详解)
- 2024年全国初中数学联合竞赛试题参考答案及评分标准
- 幼儿园三年发展规划(2023-2026年)
- 生涯发展展示
- 心电图机行业市场前景展望报告
- 体育文化传承与发展
评论
0/150
提交评论