版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用多元分析聚类分析newnew第一页,共一百六十八页,编辑于2023年,星期六第六章聚类分析第二页,共一百六十八页,编辑于2023年,星期六系统聚类分析直观,易懂。快速聚类快速,动态。有序聚类保序(时间顺序或大小顺序)。第三页,共一百六十八页,编辑于2023年,星期六
例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§6.1引言第四页,共一百六十八页,编辑于2023年,星期六第五页,共一百六十八页,编辑于2023年,星期六第六页,共一百六十八页,编辑于2023年,星期六
我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:
(21-20)2+(23-23)2+(22-22)2=1
计算1号和2号得分的离差平方和:
(28-18)2+(29-23)2+(28-18)2=236
计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?第七页,共一百六十八页,编辑于2023年,星期六
聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。第八页,共一百六十八页,编辑于2023年,星期六
思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:小类与小类之间按什么来刻画相似程度第九页,共一百六十八页,编辑于2023年,星期六
变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。
(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。§2距离和相似系数第十页,共一百六十八页,编辑于2023年,星期六
(2)有序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。
(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。第十一页,共一百六十八页,编辑于2023年,星期六二、数据的变换处理
所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。
1、中心化变换中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。设原始观测数据矩阵为:第十二页,共一百六十八页,编辑于2023年,星期六
中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n—1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n—1)倍,所以这是一种很方便地计算方差与协方差的变换。第十三页,共一百六十八页,编辑于2023年,星期六
2、极差规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:第十四页,共一百六十八页,编辑于2023年,星期六
经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据短阵中任何两列数据乘积之和是两个变量相关系数的(n-1)倍,所以这是一种很方便地计算相关矩阵的变换。4.对数变换对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:第十五页,共一百六十八页,编辑于2023年,星期六
三、样品间亲疏程度的测度
研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。第十六页,共一百六十八页,编辑于2023年,星期六
变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。
注:变量聚类放到因子分析后面第十七页,共一百六十八页,编辑于2023年,星期六一、距离
定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件)第十八页,共一百六十八页,编辑于2023年,星期六常用距离
设和是第i和j个样品的观测值,则二者之间的距离为:明氏距离1明氏距离第十九页,共一百六十八页,编辑于2023年,星期六
明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。第二十页,共一百六十八页,编辑于2023年,星期六标准化变换标准化变换是对变量的数值和量纲进行变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:第二十一页,共一百六十八页,编辑于2023年,星期六2兰氏(LaceWilliams)距离这是兰思和维廉姆斯(Lance&Williams)所给定的一种距离,其计算公式为:
这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。第二十二页,共一百六十八页,编辑于2023年,星期六
3
马氏距离
这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为:
分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。第二十三页,共一百六十八页,编辑于2023年,星期六
马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。第二十四页,共一百六十八页,编辑于2023年,星期六例如,假设有一个二维正态总体,它的分布为:
第二十五页,共一百六十八页,编辑于2023年,星期六
4斜交空间距离
由于各变量之间往往存在着不同的相关关系,用正交空间的距离来计算样本间的距离易变形,所以可以采用斜交空间距离。
当各变量之间不相关时,斜交空间退化为欧氏距离。第二十六页,共一百六十八页,编辑于2023年,星期六
二、相似系数
设和是第和个样品的观测值,则二者之间的相似系数应满足:第二十七页,共一百六十八页,编辑于2023年,星期六
1、夹角余弦
夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量2、相关系数
第二十八页,共一百六十八页,编辑于2023年,星期六距离和相似系数选择的原则一般说来,同一批数据采用不同的亲疏测度指标,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,也就是说,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此我们在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有:第二十九页,共一百六十八页,编辑于2023年,星期六(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。第三十页,共一百六十八页,编辑于2023年,星期六(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如若在进行聚类分析之前已经对变量的相关性作了处理,则通常就可采用欧氏距离,而不必选用斜交空间距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。第三十一页,共一百六十八页,编辑于2023年,星期六
(3)适当地考虑计算工作量的大小。如对大样本的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,我们应根据研究对象的特点作具体分折,以选择出合适的亲疏测度指标。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的亲疏测度指标。第三十二页,共一百六十八页,编辑于2023年,星期六0…┇┇┇┇0…0…
至此,我们已经可以根据所选择的距离构成样本点间的距离表,样本点之间被连接起来。第三十三页,共一百六十八页,编辑于2023年,星期六样本数据与小类、小类与小类之间的度量1、最短距离(NearestNeighbor)x21•x12•x22•x11•第三十四页,共一百六十八页,编辑于2023年,星期六2、最长距离(FurthestNeighbor
)•••x11•x21••••第三十五页,共一百六十八页,编辑于2023年,星期六••••••3、类平均距离(Between-groupLinkage)第三十六页,共一百六十八页,编辑于2023年,星期六1、组内平均连接法(Within-groupLinkage)x21•x12•x22•x11•第三十七页,共一百六十八页,编辑于2023年,星期六重心法(Centroidclustering):均值点的距离••第三十八页,共一百六十八页,编辑于2023年,星期六离差平方和法连接2,41,56,5第三十九页,共一百六十八页,编辑于2023年,星期六红绿(2,4,6,5)8.75
离差平方和增加8.75-2.5=6.25
黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=0故按该方法的连接和黄红首先连接。第四十页,共一百六十八页,编辑于2023年,星期六计划学时:4学时教学课型:理论课教学目的与要求:掌握系统聚类法的基本原理,几种常见系统聚类法教学重点:系统聚类分析的基本原理,几种常见系统聚类法教学难点:系统聚类分析的基本原理,几种常见系统聚类法的应用教学方法、手段与媒介:根据教材用多媒体课件课堂讲授作业:P2311-5教学过程与内容:第四十一页,共一百六十八页,编辑于2023年,星期六§6.3系统聚类法1、根据样品的特征,规定样品之间的距离,共有个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。(一)步骤
开始各样本自成一类,根据样品的特征,规定样品之间的距离和类与类间的距离,将距离最近的两类合并为一个新类,计算新类与其他类的距离,重新合并距离最近的两个类,每次减少一个类,直到所有的样本被合并为一个类.第四十二页,共一百六十八页,编辑于2023年,星期六3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。2、选择D(0)表中最小的非零数,不妨假设为,于是将和合并为一类,记为:第四十三页,共一百六十八页,编辑于2023年,星期六4、在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。第四十四页,共一百六十八页,编辑于2023年,星期六(二)常用的种类
1、最短距离法
步骤:(1)规定样品间的距离,计算n个样品间的距离矩阵D(0);
(3)计算新类与任一类之间距离的递推公式为(2)选择D(0)中最小元素,设为,则将和合并成一个新类,记为,即;第四十五页,共一百六十八页,编辑于2023年,星期六在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)求得,其余行列上的距离值不变,得到新的距离阵,记作。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止.
注如果某一步中最小元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。第四十六页,共一百六十八页,编辑于2023年,星期六
例6.3.1
设抽取五个样品,每个样品只有一个指标,它们是1,2,6,8,11。用最短距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:
0
10
540
7620
109530(1)求出距离阵第四十七页,共一百六十八页,编辑于2023年,星期六
0
40
620
9530(2)中
,和被聚为新类,得.
第四十八页,共一百六十八页,编辑于2023年,星期六039040(3)中的最小元素是,合并为,计算与其它类间的距离得.第四十九页,共一百六十八页,编辑于2023年,星期六040(4)中的最小元素是,合并为,计算与其它类间的距离得.
(5)将合并为,所有5个样品合并为一类.第五十页,共一百六十八页,编辑于2023年,星期六各步聚类的结果:(1,2)(3)(4)(5)(1,2)(3,4)(5)(1,2)(3,4,5)(1,2,3,4,5)第五十一页,共一百六十八页,编辑于2023年,星期六Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;第五十二页,共一百六十八页,编辑于2023年,星期六
TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.7692第五十三页,共一百六十八页,编辑于2023年,星期六第五十四页,共一百六十八页,编辑于2023年,星期六最长距离法的递推公式
假设第K类和第L类合并成第类,第M类与其它各旧类的距离按最长距离法为:2、最长距离法第五十五页,共一百六十八页,编辑于2023年,星期六
例
用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:
0
10
540
7620
109530第五十六页,共一百六十八页,编辑于2023年,星期六
0
50
720
10530(2)中
,和被聚为新类,得.
第五十七页,共一百六十八页,编辑于2023年,星期六0510050(3)中的最小元素是,合并为,计算与其它类间的距离得.第五十八页,共一百六十八页,编辑于2023年,星期六(4)中的最小元素是,合并为,计算与其它类间的距离得.0100
(5)将合并为,所有5个样品合并为一类.第五十九页,共一百六十八页,编辑于2023年,星期六Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;第六十页,共一百六十八页,编辑于2023年,星期六TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.9231第六十一页,共一百六十八页,编辑于2023年,星期六第六十二页,共一百六十八页,编辑于2023年,星期六例6.3.2
对305名女中学生测量八个体型指标:相关矩阵列于表6.3.5.用相关系数度量各对变量间的相似性。用最长距离法进行聚类。第六十三页,共一百六十八页,编辑于2023年,星期六表6.3.5各对变量间的相关系数1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第六十四页,共一百六十八页,编辑于2023年,星期六1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第六十五页,共一百六十八页,编辑于2023年,星期六1.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000第六十六页,共一百六十八页,编辑于2023年,星期六0.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000第六十七页,共一百六十八页,编辑于2023年,星期六1.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000第六十八页,共一百六十八页,编辑于2023年,星期六1.0000.2370.5831.0000.3191.0000.3450.5770.5391.000第六十九页,共一百六十八页,编辑于2023年,星期六0.3450.5391.0001.0000.2371.000第七十页,共一百六十八页,编辑于2023年,星期六1.0000.2371.000第七十一页,共一百六十八页,编辑于2023年,星期六Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;第七十二页,共一百六十八页,编辑于2023年,星期六Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;第七十三页,共一百六十八页,编辑于2023年,星期六第七十四页,共一百六十八页,编辑于2023年,星期六3、中间距离法最长距离最短距离中间距离第七十五页,共一百六十八页,编辑于2023年,星期六中间距离法的递推公式第七十六页,共一百六十八页,编辑于2023年,星期六
用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:
0
10
6.252.250
362512.250
644930.2540
第七十七页,共一百六十八页,编辑于2023年,星期六第七十八页,共一百六十八页,编辑于2023年,星期六
0
40
30.2512.250
56.2530.2540第七十九页,共一百六十八页,编辑于2023年,星期六四、类平均法
类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间类平均法的递推公式
假设第K类和第L类合并成第类,第M类与其它各旧类的距离按最短距离法为:第八十页,共一百六十八页,编辑于2023年,星期六第八十一页,共一百六十八页,编辑于2023年,星期六递推公式:可变类平均法类间距离的另一定义第八十二页,共一百六十八页,编辑于2023年,星期六例6.3.1续
0
10
25160
493640
100812590
第八十三页,共一百六十八页,编辑于2023年,星期六
0
20.50
42.540
90.52590第八十四页,共一百六十八页,编辑于2023年,星期六
0
31.50
90.5170
第八十五页,共一百六十八页,编辑于2023年,星期六051.170第八十六页,共一百六十八页,编辑于2023年,星期六Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;第八十七页,共一百六十八页,编辑于2023年,星期六第八十八页,共一百六十八页,编辑于2023年,星期六
分别为GK和GL的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。重心法,也称为样品的均值法。设GK和GL
为两个类五、重心法第八十九页,共一百六十八页,编辑于2023年,星期六递推公式:重心法在处理异常值方面比其他系统聚类法更稳健第九十页,共一百六十八页,编辑于2023年,星期六
类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。
离差平方和法的思路是,当k固定时,选择使S达到最小的分类。先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为六、离差平方和法第九十一页,共一百六十八页,编辑于2023年,星期六类内离差平方和:类中各样品到类重心(均值)的平方欧氏距离之和.
设类和合并成新类,则和的类内离差平方和分别为:
第九十二页,共一百六十八页,编辑于2023年,星期六
间的平方距离为:第九十三页,共一百六十八页,编辑于2023年,星期六00.512.524.550081840.5212.54.5000第九十四页,共一百六十八页,编辑于2023年,星期六013.528.1760.1701212.54.500第九十五页,共一百六十八页,编辑于2023年,星期六030.2560.17010.670第九十六页,共一百六十八页,编辑于2023年,星期六056.030第九十七页,共一百六十八页,编辑于2023年,星期六G1={1}G2={2}G4={8}G5={11}G3={6}G5G8G7G6D02648图6.3.6离差平方和法树形图第九十八页,共一百六十八页,编辑于2023年,星期六Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=wnonormnosquare;Proctreehorizontal;Run;第九十九页,共一百六十八页,编辑于2023年,星期六例6.3.3表6.3.14列出了1999年全国31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据.这八个变量为:第一百页,共一百六十八页,编辑于2023年,星期六表6.3.14消费性支出数据北京2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57201.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861561.86492.42200.49218.36220.69459.62360.48147.761410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32689.73435.69514.66795.87575.76323.36天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江第一百零一页,共一百六十八页,编辑于2023年,星期六安徽1844.78430.29271.28126.33250.56513.18314.00151.392709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99509.39160.121675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74587.02218.272057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.97203.21240.24575.10430.36223.46福建江西山东河南湖北湖南广东广西海南重庆四川第一百零二页,共一百六十八页,编辑于2023年,星期六贵州1673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447.95259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05432.46235.82250.28541.30344.85214.40云南西藏陕西甘肃青海宁夏新疆第一百零三页,共一百六十八页,编辑于2023年,星期六dataexample633;inputregion$x1-x8;cards;
bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;
第一百零四页,共一百六十八页,编辑于2023年,星期六procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;第一百零五页,共一百六十八页,编辑于2023年,星期六
根据信息基础设施的发展状况,对世界20个国家和地区进行分类。这里选取了发达国家,新兴工业化国家、拉美国家、亚洲开发国家、转型国家等不同类型的20个国家的资料:
call-每千人拥有的电话线数;
callmove—每千户居民拥有的蜂窝移动电话数
fee—高峰时期每三分钟国际电话成本
computer—每千人拥有的计算机(每秒百万指令)
mips—每千人中的计算机功率(每秒百万指令)
net-每千人互联网户主数第一百零六页,共一百六十八页,编辑于2023年,星期六datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;第一百零七页,共一百六十八页,编辑于2023年,星期六procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;第一百零八页,共一百六十八页,编辑于2023年,星期六datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;第一百零九页,共一百六十八页,编辑于2023年,星期六其中method=single选项指出用最短距离法聚类。除此之外在SAS中可供选择的方法还有:最长距离法complete)类平均法(average)最小方差法(ward)重心法(centroid)离差平方和法(ward)中间距离法(median)可变类平均法flexible)outtree=b选项要求生成一个输出数据集,用于画树状图的proctree可使用该数据,可省略。Id语句指出聚类时的标识变量,如果缺省,系统采用obn个案序号作为观测的标识。第一百一十页,共一百六十八页,编辑于2023年,星期六pseudo选项要求计算伪F统计量和伪Std选项要求对数据进行零均值及方差为1的标准化处理proctree是画树状谱系图的过程步,它是使用CLUSTER
过程的输出数据来画谱系图。graphics指定画谱系图时使用高分辨率图形。horizontal指定画谱系图时用水平横画。制聚类之前的数据处理,主要有noonrm—防止将数据规范化为单位均值和单位均方;standard—将变量进行标准化,均值为零,标准差为1。统计量。第一百一十一页,共一百六十八页,编辑于2023年,星期六第一百一十二页,共一百六十八页,编辑于2023年,星期六计划学时:4学时教学课型:理论课教学目的与要求:掌握系统聚类法类数的选择,系统聚类法的性质教学重点:系统聚类类数的选择教学难点:系统聚类类数的选择原理,系统聚类法的性质教学方法、手段与媒介:根据教材用多媒体课件课堂讲授作业:教学过程与内容:第一百一十三页,共一百六十八页,编辑于2023年,星期六七、系统聚类法的统一统一距离的定义第一百一十四页,共一百六十八页,编辑于2023年,星期六系统聚类法的参数表方法最短距离法0最长距离法0中间距离法0可变法0类平均法00可变类平均法0重心法0离差平房和0第一百一十五页,共一百六十八页,编辑于2023年,星期六系统聚类法的性质1、单调性:
最短距离法、最长距离法、可变法、类平均法、可变类平均法、离差平方和法具有单调性。2、空间的浓缩与扩张
设有两种系统聚类法,第i步的距离阵分别为A、B,若AB,则称前一方法比后一方法扩张,后一方法比前一方法浓缩。第一百一十六页,共一百六十八页,编辑于2023年,星期六(3)当时,D(变平)D(平);
时,D(变平)D(平).
(1)D(短)D(平),D(重)D(平).(2)D(长)D(平).
第一百一十七页,共一百六十八页,编辑于2023年,星期六八、确定类的个数
在聚类分析过程中类的个数如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度物联网技术应用与研发合同
- 二零二四年旅游景区厕所新建合同
- 2024年度电梯应急照明与指示系统合同3篇
- 二零二四年度农业机械化作物种植技术转让合同
- 二零二四年度餐馆火灾保险合同
- 2024年度土地使用权转让合同标的2篇
- 二零二四年度版权许可合同:数字音乐版权分销与授权协议
- 二零二四年度电动汽车充电电缆合同
- 二零二四年度国际贸易与进出口合作合同
- 2024年度房地产行业市场预测合作合同2篇
- 民事诉讼模拟法庭剧本
- 尿液检查的临床应用
- 第三节 影响气候主要因素讲课
- 整车及零部件编码规则
- 血液透析充分性评估标准-PPT课件
- (高清正版)JJF 1908-2021 双金属温度计校准规范
- 事故调查与根源分析教程
- 《内环境与稳态》教学设计与问题反思
- 猜猜我有多爱你绘本 (2)
- 儿童通信知识教学(课堂PPT)
- 政审介绍信格式范文
评论
0/150
提交评论