




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章聚类分析§6.1引言§6.2距离和相似系数§6.3系统聚类法§6.4动态聚类法1§6.1引言聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。2相似性的不同定义3§6.2距离和相似系数相似性度量:距离和相似系数。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的测量尺度:间隔、有序和名义尺度。间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。4对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。本章主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离二、相似系数5一、距离设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yp)′为两个样品,则所定义的距离一般应满足如下三个条件:(i)非负性:d(x,y)≥0,d(x,y)=0当且仅当x=y;(ii)对称性:d(x,y)=d(y,x);(iii)三角不等式:d(x,y)≤d(x,z)+d(z,y)。6常用的距离1.明考夫斯基(Minkowski)距离2.兰氏(Lance和Williams)距离3.马氏距离4.斜交空间距离71.明考夫斯基距离明考夫斯基距离(简称明氏距离):
这里q>0。明氏距离的三种特殊形式:(i)当q=1时,
,称为绝对值距离,常被形象地称作“城市街区”距离;(ii)当q=2时,
,这是欧氏距离,它是聚类分析中最常用的一个距离;(iii)当q=∞时,
,称为切比雪夫距离。8绝对值距离图示9对各变量的数据作标准化处理当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令
其中和sii分别为xi的样本均值和样本方差。102.兰氏距离当所有的数据皆为正时,可以定义x与y之间的兰氏距离为该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。113.马氏距离x和y之间的马氏距离为
其中S为样本协差阵。124.斜交空间距离x和y之间的斜交空间距离定义为
其中rij是第i个变量与第j个变量间的相关系数。当p个变量互不相关时,该距离即为欧氏距离的1/p倍。13名义尺度变量的一种距离定义例6.2.1某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。现有两名学员: x=(男,英,统计,非教师,校外,本科)′y=(女,英,金融,教师,校外,本科以下)′一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为故按此定义,本例中x
与y
之间的距离为2/3。14二、相似系数变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。15相似系数一般需满足的条件(1)cij=±1,当且仅当xi=axj+b,a(≠0)和b是常数;
(2)|cij|≤1,对一切i,j;
(3)cij=cji,对一切i,j。16两个向量的夹角余弦171.夹角余弦变量xi与xj的夹角余弦定义为
它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j,⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij。182.相关系数变量xi与xj的相关系数为如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。19相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令这里dij为第i个样品与第j个样品的距离,显然cij满足定义相似系数的三个条件,故可作为相似系数。距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令则dij满足距离定义的三个条件。20§6.3系统聚类法系统聚类法(或层次聚类法,hierarchicalclusteringmethod)是通过一系列相继的合并或相继的分割来进行的,分为聚集的(agglomerative)和分割的(divisive)两种,适用于样品数目n不是很大的情形。聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。21一开始每个样品各自作为一类22分割系统法的聚类步骤与聚集系统法正相反。由n个样品组成一类开始,按某种最优准则将它分割成两个尽可能远离的子类,再用同样准则将每一子类进一步地分割成两类,从中选一个分割最优的子类,这样类数将由两类增加到三类。如此下去,直至所有n个样品各自为一类或采用某种停止规则。聚集系统法最为常用,本节集中介绍其中常用的八种方法,所有这些聚类方法的区别在于类与类之间距离的定义不同。23§6.3系统聚类法一、最短距离法二、最长距离法三、类平均法四、重心法*五、中间距离法六、离差平方和法(Ward方法)
七、系统聚类法的统一八、类的个数24一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即图6.3.1最短距离法:DKL=d2325最短距离法的聚类步骤(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。(2)选择D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM=
GK∪GL。
(3)计算新类GM与任一类GJ之间距离的递推公式为26递推公式的图示理解27最短距离法的聚类步骤
在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM,该行列上的新距离值由上述递推公式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1)。(4)对D(1)重复上述对D(0)的两步得D(2),如此下去直至所有元素合并成一类为止。28如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结,且有一种挑选长链状聚类的倾向,称为链接(chaining)倾向。由于最短距离法是用两类之间最近样本点的距离来聚的,因此该方法不适合对分离得很差的群体进行聚类。29例6.3.1设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值距离。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1
D(0)30其中G6=G1∪G2其中G7=G3∪G4G6G3G4G5G60G340G4620G59530表6.3.2
D(1)表6.3.3
D(2)G6G7G5G60G740G593031其中G6=G1∪G2表6.3.4
D(3)G6G8G60G840图6.3.2最短距离法树形图32Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;33
TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.76923435二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即图6.3.3最长距离法:DKL=d1536最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。递推公式:37对例6.3.1采用最长距离法,其树形图如图6.3.4所示,它与图6.3.2有相似的形状,但并类的距离要比图6.3.2大一些,仍分成两类为宜。图6.3.4最长距离法树形图38Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;39TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.92314041异常值的影响最长距离法容易被异常值严重地扭曲。42例6.3.2对305名女中学生测量八个体型指标: x1:身高
x5:体重 x2:手臂长
x6:颈围 x3:上肢长
x7:胸围 x4:下肢长
x8:胸宽表6.3.5 各对变量之间的相关系数
x1x2x3x4x5x6x7x8x11.000
x20.8461.000
x30.8050.8811.000
x40.8590.8260.8011.000
x50.4730.3760.3800.4361.000
x60.3980.3260.3190.3290.7621.000
x70.3010.2770.2370.3270.7300.5831.000
x80.3820.4150.3450.3650.6290.5770.5391.00043表6.3.5各对变量间的相关系数1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000441.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000451.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000460.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000471.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000481.0000.2370.5831.0000.3191.0000.3450.5770.5391.000490.3450.5391.0001.0000.2371.000501.0000.2371.00051Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;52Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;5354图6.3.5八个体型变量的最长距离法树形图55三、类平均法有两种定义。一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为
图6.3.6类平均法56递推公式:57另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即它的递推公式为类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。58对例6.3.1采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作
。G1G2G3G4G5G10G210G325160G4493640G5100812590表6.3.659G6G3G4G5G60G320.50G442.540G590.52590表6.3.7G6G7G5G60G731.50G590.5170表6.3.860G6G8G60G851.170G6G8G60G851.170表6.3.9图6.3.7类平均法树形图61Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;6263四、重心法类与类之间的距离定义为它们的重心(均值)之间的欧氏距离。设GK和GL的重心分别为
,则GK与GL之间的平方距离为图6.3.8重心法64合并GK和GL之后的新类GM的重心是
其中nM=nK+nL为GM的样品个数。重心法的递推公式为与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。65*五、中间距离法设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ,DLJ和DKL为边长组成的三角形,取DKL边的中线作为DMJ。DMJ的计算公式为图6.3.9中间距离法的几何表示66六、离差平方和法(Ward方法)(类内)离差平方和:类中各样品到类重心(均值)的平方欧氏距离之和。设类GK和GL合并成新类GM,则GK,GL和GM的离差平方和分别是
对固定的类内样品数,它们反映了各自类内样品的分散程度。67类内离差平方和的几何解释类内离差平方和WK是类GK内各点到类重心点的直线距离之平方和。68定义GK和GL之间的平方距离为
也可表达为
离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。69图6.3.10离差平方和法与重心法的聚类比较70离差平方和法的平方距离递推公式为对例6.3.1采用离差平方和法进行聚类。图6.3.11离差平方和法树形图71最短距离法、最长距离法和类平均法都属于连接方法,它们既可以用于样品的聚类,也能够用于变量的聚类。本章介绍的其他聚类方法都将只能用于样品的聚类。例6.3.3表6.3.10列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是 x1:食品
x5:交通和通讯 x2:衣着
x6:娱乐教育文化服务 x3:家庭设备用品及服务
x7:居住 x4:医疗保健
x8:杂项商品和服务分别用最短距离法、重心法和Ward方法对各地区作聚类分析。为同等地对待每一变量,在作聚类前,先对各变量作标准化变换。72表6.3.10 消费性支出数据
单位:元地区x1x2x3x4x5x6x7x8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.9362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.5414.72281.84212.1内蒙古1303.97524.29254.83192.17249.81463.09287.87192.96辽宁1730.84553.9246.91279.81239.18445.2330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龙江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.935271034.98720.33462.03江苏2207.58449.37572.4211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.9209.7393.99509.39160.12山东1675.75613.32550.71219.79272.59599.43371.62211.8473河南1427.65431.79288.55208.14217337.76421.31165.32湖北1783.43511.88282.84201.01237.6617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.6226.45广东3055.17353.23564.56356.27811.88873.061082.82420.81广西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重庆2303.29589.99516.21236.55403.92730.05438.41225.8四川1974.28507.76344.79203.21240.24575.1430.36223.46贵州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.7330.95西藏2646.61839.7204.44209.11379.3371.04269.59389.33陕西1472.95390.89447.95259.51230.61490.9469.1191.34甘肃1525.57472.98328.9219.86206.65449.69249.66228.19青海1654.69437.77258.78303244.93479.53288.56236.51宁夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.3344.85214.474dataexample633;inputregion$x1-x8;cards;
bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;
75procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;76
根据信息基础设施的发展状况,对世界20个国家和地区进行分类。这里选取了发达国家,新兴工业化国家、拉美国家、亚洲开发国家、转型国家等不同类型的20个国家的资料:
call-每千人拥有的电话线数;
callmove—每千户居民拥有的蜂窝移动电话数
fee—高峰时期每三分钟国际电话成本
computer—每千人拥有的计算机(每秒百万指令)
mips—每千人中的计算机功率(每秒百万指令)
net-每千人互联网户主数77datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;78procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;79datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;80其中method=single选项指出用最短距离法聚类。除此之外在SAS中可供选择的方法还有:最长距离法complete)类平均法(average)最小方差法(ward)重心法(centroid)离差平方和法(ward)中间距离法(median)可变类平均法flexible)outtree=b选项要求生成一个输出数据集,用于画树状图的proctree可使用该数据,可省略。Id语句指出聚类时的标识变量,如果缺省,系统采用obn个案序号作为观测的标识。81pseudo选项要求计算伪F统计量和伪Std选项要求对数据进行零均值及方差为1的标准化处理proctree是画树状谱系图的过程步,它是使用CLUSTER
过程的输出数据来画谱系图。graphics指定画谱系图时使用高分辨率图形。horizontal指定画谱系图时用水平横画。制聚类之前的数据处理,主要有noonrm—防止将数据规范化为单位均值和单位均方;standard—将变量进行标准化,均值为零,标准差为1。统计量。82图6.3.12最短距离法83图6.3.13重心法84图6.3.14离差平方和法85从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚类要求,它将31个地区分为以下三类:第Ⅰ类:北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的沿海地区。
第Ⅱ类:天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。
第Ⅲ类:山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在我国基本上属于经济较落后地区,城镇居民的消费水平也是较低的。如果分为五类,则广东和西藏将各自为一类。86图6.3.15离差平方和法所分三类的平行图87七、系统聚类法的统一Lance和Williams于1967年将(书中介绍的)八种系统聚类法的递推公式统一为:其中αK,αL,β,γ是参数,不同的系统聚类法,它们有不同的取值。表6.3.11列出了上述八种方法四个参数的取值。1.单调性2.空间的浓缩与扩张
88表6.3.11 系统聚类法参数表891.单调性令Di是系统聚类法中第i次并类时的距离,如果一种系统聚类法能满足D1≤D2≤D3≤⋯,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。902.空间的浓缩与扩张设A=(aij)和B=(bij)是两个元素非负的同阶矩阵,若aij≥bij(对一切i,j),则记作A≥B。该记号仅在本节中使用。设有两种系统聚类法,它们在第i步的距离矩阵分别为Ai和Bi,i=0,1,⋯,n−1,若Ai≥Bi,i=1,⋯,n−1,则称第一种方法比第二种方法使空间扩张,或第二种方法比第一种方法使空间浓缩。以类平均法为基准,有如下一些结论:(1)D(短)≤D(平),D(重)≤D(平)。(2)D(长)≥D(平)。(3)当0<β<1时,D(变平)≤D(平);当β<0时,D(变平)≥D(平)。91例6.3.4
(最短距离法的链接倾向)92(1)采用最短距离法。可以算得,当聚成两类时,C1和C11组成一类,其余所有的点组成另一类,这里出现了链接现象;当聚成三类时,C1和C11组成第Ⅰ类,其余的C点组成第Ⅱ类,所有的A点和B点组成第Ⅲ类。(2)采用类平均法。经算得,当聚成两类时,一类由所有C点构成,另一类由所有A点和所有B点构成;当聚成三类时,A点群、B点群和C点群各自作为一类。93从直观的图形中进行主观聚类当p=2时,可通过目测散点图从直觉上来判断所采用的正规聚类方法是否合理。我们甚至可以直接在散点图上进行主观的聚类,其效果未必逊于正规的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。当p=3时,我们可使用SAS软件的交互式数据分析菜单系统产生三维旋转图,通过旋转
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国柱上油开关项目投资可行性研究报告
- 中信股合同范本
- 年产xxx方形井盖项目可研报告模板
- 写字楼出租合同范本2篇
- 买车不过户合同范本
- 供水设备承接合同范例
- 股票激励计划股票
- CT模拟定位机项目安全风险评价报告
- 小麦精深加工产业化示范项目可行性研究报告建议书
- 科技助力生物多样性保护案例与实践
- 浙江省杭州市2022-2023学年七年级下学期语文期中质量检测试卷(含答案)
- 【真题】2023年南京市中考语文试卷(含答案解析)
- 安徽安庆家乡介绍
- 自动测试系统第1章第1节测试系统发展综述
- 2024年河南省水务规划设计研究有限公司人才招聘笔试参考题库附带答案详解
- 山地光伏设计方案
- 2022广州美术学院附属中学(广美附中)入学招生测试卷语文
- 北师大版(2019)选择性必修第三册Unit 7 Careers Topic Talk 导学案
- 春节复工复产安全教育培训
- 2024年广西公务员考试行测真题及答案解析
- 护理质量改进项目
评论
0/150
提交评论