应用多元分析聚类分析详解演示文稿_第1页
应用多元分析聚类分析详解演示文稿_第2页
应用多元分析聚类分析详解演示文稿_第3页
应用多元分析聚类分析详解演示文稿_第4页
应用多元分析聚类分析详解演示文稿_第5页
已阅读5页,还剩161页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用多元分析聚类分析详解演示文稿现在是1页\一共有166页\编辑于星期六优选应用多元分析聚类分析现在是2页\一共有166页\编辑于星期六3系统聚类分析直观,易懂。快速聚类快速,动态。有序聚类保序(时间顺序或大小顺序)。现在是3页\一共有166页\编辑于星期六4

例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§6.1引言现在是4页\一共有166页\编辑于星期六5现在是5页\一共有166页\编辑于星期六6现在是6页\一共有166页\编辑于星期六7

我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:

(21-20)2+(23-23)2+(22-22)2=1

计算1号和2号得分的离差平方和:

(28-18)2+(29-23)2+(28-18)2=236

计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?现在是7页\一共有166页\编辑于星期六8

聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。现在是8页\一共有166页\编辑于星期六9

思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:小类与小类之间按什么来刻画相似程度现在是9页\一共有166页\编辑于星期六10

变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。

(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。§2距离和相似系数现在是10页\一共有166页\编辑于星期六11

(2)有序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。

(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。现在是11页\一共有166页\编辑于星期六12二、数据的变换处理

所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。

1、中心化变换中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。设原始观测数据矩阵为:现在是12页\一共有166页\编辑于星期六13

中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n—1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n—1)倍,所以这是一种很方便地计算方差与协方差的变换。现在是13页\一共有166页\编辑于星期六14

2、极差规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:现在是14页\一共有166页\编辑于星期六15

经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据短阵中任何两列数据乘积之和是两个变量相关系数的(n-1)倍,所以这是一种很方便地计算相关矩阵的变换。4.对数变换对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:现在是15页\一共有166页\编辑于星期六16

三、样品间亲疏程度的测度

研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。现在是16页\一共有166页\编辑于星期六17

变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。

注:变量聚类放到因子分析后面现在是17页\一共有166页\编辑于星期六18一、距离

定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件)现在是18页\一共有166页\编辑于星期六19常用距离

设和是第i和j个样品的观测值,则二者之间的距离为:明氏距离1明氏距离现在是19页\一共有166页\编辑于星期六20

明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。现在是20页\一共有166页\编辑于星期六21标准化变换标准化变换是对变量的数值和量纲进行变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:现在是21页\一共有166页\编辑于星期六222兰氏(LaceWilliams)距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:

这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。现在是22页\一共有166页\编辑于星期六23

3

马氏距离

这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为:

分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。现在是23页\一共有166页\编辑于星期六24

马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。现在是24页\一共有166页\编辑于星期六25例如,假设有一个二维正态总体,它的分布为:

现在是25页\一共有166页\编辑于星期六26

4斜交空间距离

由于各变量之间往往存在着不同的相关关系,用正交空间的距离来计算样本间的距离易变形,所以可以采用斜交空间距离。

当各变量之间不相关时,斜交空间退化为欧氏距离。现在是26页\一共有166页\编辑于星期六27

二、相似系数

设和是第和个样品的观测值,则二者之间的相似系数应满足:现在是27页\一共有166页\编辑于星期六28

1、夹角余弦

夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量2、相关系数

现在是28页\一共有166页\编辑于星期六29距离和相似系数选择的原则一般说来,同一批数据采用不同的亲疏测度指标,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,也就是说,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此我们在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有:现在是29页\一共有166页\编辑于星期六30(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。现在是30页\一共有166页\编辑于星期六31(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如若在进行聚类分析之前已经对变量的相关性作了处理,则通常就可采用欧氏距离,而不必选用斜交空间距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。现在是31页\一共有166页\编辑于星期六32

(3)适当地考虑计算工作量的大小。如对大样本的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,我们应根据研究对象的特点作具体分折,以选择出合适的亲疏测度指标。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的亲疏测度指标。现在是32页\一共有166页\编辑于星期六330…┇┇┇┇0…0…

至此,我们已经可以根据所选择的距离构成样本点间的距离表,样本点之间被连接起来。现在是33页\一共有166页\编辑于星期六34样本数据与小类、小类与小类之间的度量1、最短距离(NearestNeighbor)x21•x12•x22•x11•现在是34页\一共有166页\编辑于星期六352、最长距离(FurthestNeighbor

)•••x11•x21••••现在是35页\一共有166页\编辑于星期六36••••••3、类平均距离(Between-groupLinkage)现在是36页\一共有166页\编辑于星期六371、组内平均连接法(Within-groupLinkage)x21•x12•x22•x11•现在是37页\一共有166页\编辑于星期六38重心法(Centroidclustering):均值点的距离••现在是38页\一共有166页\编辑于星期六39离差平方和法连接2,41,56,5现在是39页\一共有166页\编辑于星期六40红绿(2,4,6,5)8.75

离差平方和增加8.75-2.5=6.25

黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=0故按该方法的连接和黄红首先连接。现在是40页\一共有166页\编辑于星期六41计划学时:4学时教学课型:理论课教学目的与要求:掌握系统聚类法的基本原理,几种常见系统聚类法教学重点:系统聚类分析的基本原理,几种常见系统聚类法教学难点:系统聚类分析的基本原理,几种常见系统聚类法的应用教学方法、手段与媒介:根据教材用多媒体课件课堂讲授作业:P2311-5教学过程与内容:现在是41页\一共有166页\编辑于星期六42§6.3系统聚类法1、根据样品的特征,规定样品之间的距离,共有个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。(一)步骤

开始各样本自成一类,根据样品的特征,规定样品之间的距离和类与类间的距离,将距离最近的两类合并为一个新类,计算新类与其他类的距离,重新合并距离最近的两个类,每次减少一个类,直到所有的样本被合并为一个类.现在是42页\一共有166页\编辑于星期六433、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。2、选择D(0)表中最小的非零数,不妨假设为,于是将和合并为一类,记为:现在是43页\一共有166页\编辑于星期六444、在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。现在是44页\一共有166页\编辑于星期六45(二)常用的种类

1、最短距离法

步骤:(1)规定样品间的距离,计算n个样品间的距离矩阵D(0);

(3)计算新类与任一类之间距离的递推公式为(2)选择D(0)中最小元素,设为,则将和合并成一个新类,记为,即;现在是45页\一共有166页\编辑于星期六46在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)求得,其余行列上的距离值不变,得到新的距离阵,记作。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止.

注如果某一步中最小元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。现在是46页\一共有166页\编辑于星期六47

设抽取五个样品,每个样品只有一个指标,它们是1,2,6,8,11。用最短距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:

0

10

540

7620

109530(1)求出距离阵现在是47页\一共有166页\编辑于星期六48

0

40

620

9530(2)中

,和被聚为新类,得.

现在是48页\一共有166页\编辑于星期六49039040(3)中的最小元素是,合并为,计算与其它类间的距离得.现在是49页\一共有166页\编辑于星期六50040(4)中的最小元素是,合并为,计算与其它类间的距离得.

(5)将合并为,所有5个样品合并为一类.现在是50页\一共有166页\编辑于星期六51各步聚类的结果:(1,2)(3)(4)(5)(1,2)(3,4)(5)(1,2)(3,4,5)(1,2,3,4,5)现在是51页\一共有166页\编辑于星期六52Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;现在是52页\一共有166页\编辑于星期六53

TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.7692现在是53页\一共有166页\编辑于星期六54现在是54页\一共有166页\编辑于星期六55最长距离法的递推公式

假设第K类和第L类合并成第类,第M类与其它各旧类的距离按最长距离法为:2、最长距离法现在是55页\一共有166页\编辑于星期六56

用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:

0

10

540

7620

109530现在是56页\一共有166页\编辑于星期六57

0

50

720

10530(2)中

,和被聚为新类,得.

现在是57页\一共有166页\编辑于星期六580510050(3)中的最小元素是,合并为,计算与其它类间的距离得.现在是58页\一共有166页\编辑于星期六59(4)中的最小元素是,合并为,计算与其它类间的距离得.0100

(5)将合并为,所有5个样品合并为一类.现在是59页\一共有166页\编辑于星期六60Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;现在是60页\一共有166页\编辑于星期六61TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.9231现在是61页\一共有166页\编辑于星期六62现在是62页\一共有166页\编辑于星期六63例

对305名女中学生测量八个体型指标:相关矩阵列于表6.3.5.用相关系数度量各对变量间的相似性。用最长距离法进行聚类。现在是63页\一共有166页\编辑于星期六64表6.3.5各对变量间的相关系数1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000现在是64页\一共有166页\编辑于星期六651.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000现在是65页\一共有166页\编辑于星期六661.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000现在是66页\一共有166页\编辑于星期六670.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000现在是67页\一共有166页\编辑于星期六681.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000现在是68页\一共有166页\编辑于星期六691.0000.2370.5831.0000.3191.0000.3450.5770.5391.000现在是69页\一共有166页\编辑于星期六700.3450.5391.0001.0000.2371.000现在是70页\一共有166页\编辑于星期六711.0000.2371.000现在是71页\一共有166页\编辑于星期六72Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;现在是72页\一共有166页\编辑于星期六73Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;现在是73页\一共有166页\编辑于星期六74现在是74页\一共有166页\编辑于星期六753、中间距离法最长距离最短距离中间距离现在是75页\一共有166页\编辑于星期六76中间距离法的递推公式现在是76页\一共有166页\编辑于星期六77

用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:

0

10

6.252.250

362512.250

644930.2540

现在是77页\一共有166页\编辑于星期六78现在是78页\一共有166页\编辑于星期六79

0

40

30.2512.250

56.2530.2540现在是79页\一共有166页\编辑于星期六80四、类平均法

类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间类平均法的递推公式

假设第K类和第L类合并成第类,第M类与其它各旧类的距离按最短距离法为:现在是80页\一共有166页\编辑于星期六81现在是81页\一共有166页\编辑于星期六82递推公式:可变类平均法类间距离的另一定义现在是82页\一共有166页\编辑于星期六83例续

0

10

25160

493640

100812590

现在是83页\一共有166页\编辑于星期六84

0

20.50

42.540

90.52590现在是84页\一共有166页\编辑于星期六85

0

31.50

90.5170

现在是85页\一共有166页\编辑于星期六86051.170现在是86页\一共有166页\编辑于星期六87Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;现在是87页\一共有166页\编辑于星期六88现在是88页\一共有166页\编辑于星期六89

分别为GK和GL的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。重心法,也称为样品的均值法。设GK和GL

为两个类五、重心法现在是89页\一共有166页\编辑于星期六90递推公式:重心法在处理异常值方面比其他系统聚类法更稳健现在是90页\一共有166页\编辑于星期六91

类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。

离差平方和法的思路是,当k固定时,选择使S达到最小的分类。先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为六、离差平方和法现在是91页\一共有166页\编辑于星期六92类内离差平方和:类中各样品到类重心(均值)的平方欧氏距离之和.

设类和合并成新类,则和的类内离差平方和分别为:

现在是92页\一共有166页\编辑于星期六93

间的平方距离为:现在是93页\一共有166页\编辑于星期六9400.512.524.550081840.5212.54.5000现在是94页\一共有166页\编辑于星期六95013.528.1760.1701212.54.500现在是95页\一共有166页\编辑于星期六96030.2560.17010.670现在是96页\一共有166页\编辑于星期六97056.030现在是97页\一共有166页\编辑于星期六98G1={1}G2={2}G4={8}G5={11}G3={6}G5G8G7G6D02648图6.3.6离差平方和法树形图现在是98页\一共有166页\编辑于星期六99Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=wnonormnosquare;Proctreehorizontal;Run;现在是99页\一共有166页\编辑于星期六100例6.3.3表列出了1999年全国31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据.这八个变量为:现在是100页\一共有166页\编辑于星期六101表6.3.14消费性支出数据北京2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57201.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861561.86492.42200.49218.36220.69459.62360.48147.761410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32689.73435.69514.66795.87575.76323.36天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江现在是101页\一共有166页\编辑于星期六102安徽1844.78430.29271.28126.33250.56513.18314.00151.392709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99509.39160.121675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74587.02218.272057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.97203.21240.24575.10430.36223.46福建江西山东河南湖北湖南广东广西海南重庆四川现在是102页\一共有166页\编辑于星期六103贵州1673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447.95259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05432.46235.82250.28541.30344.85214.40云南西藏陕西甘肃青海宁夏新疆现在是103页\一共有166页\编辑于星期六104dataexample633;inputregion$x1-x8;cards;

bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;

现在是104页\一共有166页\编辑于星期六105procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;现在是105页\一共有166页\编辑于星期六106

根据信息基础设施的发展状况,对世界20个国家和地区进行分类。这里选取了发达国家,新兴工业化国家、拉美国家、亚洲开发国家、转型国家等不同类型的20个国家的资料:

call-每千人拥有的电话线数;

callmove—每千户居民拥有的蜂窝移动电话数

fee—高峰时期每三分钟国际电话成本

computer—每千人拥有的计算机(每秒百万指令)

mips—每千人中的计算机功率(每秒百万指令)

net-每千人互联网户主数现在是106页\一共有166页\编辑于星期六107datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;现在是107页\一共有166页\编辑于星期六108procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;现在是108页\一共有166页\编辑于星期六109datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;现在是109页\一共有166页\编辑于星期六110其中method=single选项指出用最短距离法聚类。除此之外在SAS中可供选择的方法还有:最长距离法complete)类平均法(average)最小方差法(ward)重心法(centroid)离差平方和法(ward)中间距离法(median)可变类平均法flexible)outtree=b选项要求生成一个输出数据集,用于画树状图的proctree可使用该数据,可省略。Id语句指出聚类时的标识变量,如果缺省,系统采用obn个案序号作为观测的标识。现在是110页\一共有166页\编辑于星期六111pseudo选项要求计算伪F统计量和伪Std选项要求对数据进行零均值及方差为1的标准化处理proctree是画树状谱系图的过程步,它是使用CLUSTER

过程的输出数据来画谱系图。graphics指定画谱系图时使用高分辨率图形。horizontal指定画谱系图时用水平横画。制聚类之前的数据处理,主要有noonrm—防止将数据规范化为单位均值和单位均方;standard—将变量进行标准化,均值为零,标准差为1。统计量。现在是111页\一共有166页\编辑于星期六112现在是112页\一共有166页\编辑于星期六113计划学时:4学时教学课型:理论课教学目的与要求:掌握系统聚类法类数的选择,系统聚类法的性质教学重点:系统聚类类数的选择教学难点:系统聚类类数的选择原理,系统聚类法的性质教学方法、手段与媒介:根据教材用多媒体课件课堂讲授作业:教学过程与内容:现在是113页\一共有166页\编辑于星期六114七、系统聚类法的统一统一距离的定义现在是114页\一共有166页\编辑于星期六115系统聚类法的参数表方法最短距离法0最长距离法0中间距离法0可变法0类平均法00可变类平均法0重心法0离差平房和0现在是115页\一共有166页\编辑于星期六116系统聚类法的性质1、单调性:

最短距离法、最长距离法、可变法、类平均法、可变类平均法、离差平方和法具有单调性。2、空间的浓缩与扩张

设有两种系统聚类法,第i步的距离阵分别为A、B,若AB,则称前一方法比后一方法扩张,后一方法比前一方法浓缩。现在是116页\一共有166页\编辑于星期六117(3)当时,D(变平)D(平);

时,D(变平)D(平).

(1)D(短)D(平),D(重)D(平).(2)D(长)D(平).

现在是117页\一共有166页\编辑于星期六118八、确定类的个数

在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。

1、给定阈值T

通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。现在是118页\一共有166页\编辑于星期六1192、观察样本的散点图3、使用统计量(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论