SPSSPPT学习课件PPT课件_第1页
SPSSPPT学习课件PPT课件_第2页
SPSSPPT学习课件PPT课件_第3页
SPSSPPT学习课件PPT课件_第4页
SPSSPPT学习课件PPT课件_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-12-1511 2、非参相关分析 如果数据不满足正态分布的条件,应使用Spearman 和Kendall相关分析方法1)Spearman相关系数是Pearson相关系数的非参形式,是根据数据的秩而不是根据实际值计算的。它适合有序数据或不满足正态分布假设的等间隔数据。计算时,必须对连续变量值排秩,对离散变量排序。其计算公式为:222)()()(SSRRSSRRiiii 式中,Ri是第i个x值的秩, Si是第i个y值的秩。 、 分别是Ri和Si的平均值。RS第1页/共128页2021-12-1512)()sgn()sgn(2010TTTTyyxxjijiji2)Kendalls tau-

2、b也是一种对两个有序变量或两个秩变量间的关系程度的测量,因此也属于一种分参测度。分析时考虑金额结点(秩次相同)的影响。计算公式:其中,101)sgn( zIf z0If z0If z=02/ )2(0nnT2/ ) 1(1iittT2/ ) 1(2iiuuTti(或ui)是x(或y)的第i组结点x(或y)值的数目,n为观测量数。第2页/共128页2021-12-1513相关系数统计意义的检验 相关系数检验的零假设:总体中两个变量间的相关系数为0。SPSS相关分析过程给出了该假设成立的概率。 Pearson和Spearman相关系数假设检验t值计算公式:212rrnt 相关系数的取值介于-1和=

3、1之间, 2个变量之间的相关系数为-1,则为绝对负相关; 2个变量之间的相关系数为1,则为绝对正相关; 2个变量之间的相关系数为0,则表示二者没有关联。式中r是相关系数,n为样本观测数量,n2为自由度。第3页/共128页2021-12-1514观测 号12345678910体重(克)83726990909590917570鸡冠重(毫克)564218845610790683148表81 连续变量相关分析实例数据表一、连续变量的相关分析实例 例:十只小鸡的体重与鸡冠的数据如表81所示(数据文件:1小鸡(相关).sav):例题分析例题分析第4页/共128页2021-12-1515图81 双变量相关主

4、对话框1、分析步骤选择选择weight weight 和和coronarycoronary变量进变量进入入 变量框中;在相关系数栏内变量框中;在相关系数栏内选择选择PearsonPearson;在显著性检验栏;在显著性检验栏选择选择“双侧检验双侧检验”;复选;复选“标记标记显著性相关显著性相关”2)输入数据,依次单击分析输入数据,依次单击分析相相关关双变量相关,打开主对话框双变量相关,打开主对话框1)第5页/共128页2021-12-1516CORRELATIONS /VARIABLES=weight coronary /PRINT=TWOTAIL NOSIG /STATISTICS DESC

5、RIPTIVES XPROD /MISSING=PAIRWISE .注:如在这一步单击“粘贴”,打开Syntax对话框,然后,单击Syntax窗口的Run图标即可开始分析。图82双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标均值和标准差准差”、“差积偏差和的方差差积偏差和的方差”、“成对排除个案成对排除个案”选项选项 单击确定单击确定3)第6页/共128页2021-12-1517表82 描述性统计量表 从表中可看出,变量weight的均值为82.50,标准差为10.014,观测数为10;变量coronaryt的均值为60.00,标准差为27.596,观测数为10;描描 述述

6、性性 统统 计计 量量82.5010.0141060.0027.59610体重鸡冠重均值标准差N2、结果分析第7页/共128页2021-12-1518 从表中可看出, Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,这两者之间不相关的双尾检验值为0.001。体重观测值的协方差为100.278,而鸡冠重观测值的协方差为761.556,体重和鸡冠重的协方差为239.111。 从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。并且,否定了小鸡的体重与鸡冠重之间不相关的假设。表83 Pearson相关系数距阵相相 关关 性性1.

7、865*.001902.5002152.000100.278239.1111010.865*1.0012152.0006854.000239.111761.5561010Pearson 相关性显著性(双侧)平方与叉积的和协方差NPearson 相关性显著性(双侧)平方与叉积的和协方差N体重鸡冠重体重鸡冠重在 .01 水平(双侧)上显著相关。*. 第8页/共128页2021-12-1519例: 为研究集团迫使个人顺从的效应,一些研究者用F量表和为测量地位欲而设计的一种量表对12名大学生进行调查。欲知道对权威主义的评分之间相关的信息。(数据文件:2权威(Spearman相关).sav)结果列于表8

8、4学生ABCDEFGHIJKL权威主义265110983412711地位欲342181110671259表84权威主义和地位欲评秩二)、有序变量的Spearman分析实例第9页/共128页2021-12-151101、分析步骤图83 双变量相关主对话框图84 双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标准均值和标准差差”、“差积偏差和的方差差积偏差和的方差”、“成成对排除个案对排除个案”选项选项 单击确定单击确定3)选择选择powerpower和和position position 变量进入变量变量进入变量框;在相关系数栏内选择框;在相关系数栏内选择SpearmanSpea

9、rman选选项;在显著性检验栏选择项;在显著性检验栏选择“双侧检双侧检验验”;复选;复选“标记显著性相关标记显著性相关”2)输入数据,依次单击分析输入数据,依次单击分析相关相关双双变量,打开双变量相关主对话框变量,打开双变量相关主对话框1)第10页/共128页2021-12-15111 从表中可看出,权威主义和地位欲的相关系数为0.818,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.001,否定假设,即权威主义与地位欲是相关的。表85 Spearman秩相关系数相相 关关 系系 数数1.000.818*.0011212.818*1.000.001.1212相关系

10、数Sig.(双侧)N相关系数Sig.(双侧)N权威主义地位欲Spearman 的 rho权威主义地位欲在置信度(双测)为 0.01 时,相关性是显著的。*. 2、结果分析第11页/共128页2021-12-15112(三)、有序变量的Kendall分析实例 仍用前例中的数据(数据文件:权威(Spearman相关).sav) 。操作过程相同,只是在第2)步在Correlation Coefficients栏内选择Kendalls选项。结果如表86表86 Kendalls 秩相关系数 从表中可看出,权威主义和地位欲的相关系数为0.667,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的

11、假设检验值为0.003,否定假设,即权威主义与地位欲是相关的。Kendall相关分析所得到的结果类似于Spearman分析。相相 关关 系系 数数1.000.667*.0031212.667*1.000.003.12121.000.818*.0011212.818*1.000.001.1212相关系数Sig.(双侧)N相关系数Sig.(双侧)N相关系数Sig.(双侧)N相关系数Sig.(双侧)N权威主义地位欲权威主义地位欲Kendall 的 tau_bSpearman 的 rho权威主义地位欲在置信度(双测)为 0.01 时,相关性是显著的。*. 第12页/共128页2021-12-15113

12、自己动手啊!自己动手啊!实践8-1 下列数据为12位学生的体重与血压,现要了解学生的体重与血压是否相关。编号体重血压12345678910111268485660835662597758756495988796110155135128113168120115链接链接数据文件见“课堂练习”8章中的“相关1.sav”第13页/共128页2021-12-151148.2 偏相关分析偏相关的概念 简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。例如身高、体重与肺活量之间的关系如果使用Pearson相关分析计算相关

13、系数,可以得出肺活量与身高和体重均存在较强的线性关系。 但实际上,如果对体重相同的人,分析身高和肺活量。是否越长的高的人,肺活量越大呢?显然,答案是否定的。正是因为身高与体重有着线性关系,体重与肺活量存在线性关系,因此,得出身高与肺活量之间存在着较强的线性关系的错误结论。第14页/共128页2021-12-15115 偏相关分析的任务是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。 例如,可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。 可在控制销售能力与各种其它经济指标的情况下研究销售量与广告费用的关系等。第15页/共128页2021-12-15

14、116偏相关系数的计算 控制了变量z,变量x、y之间的偏相关和控制了两个变量z1、z2, 变量x、y之间的偏相关系数计算公式分别为:)1 (1 (22,yzxzyzxzxyzxyrrrrrr)1)(1 (2,2,2121, 2121zyzzxzyzzxzzxyzzxyrrrrrr rxy,z是控制了z的条件下,x、y之间的偏相关系数。 rxy是变量x、y间的简单相关系数或称零阶相关系数。rxz、ryz分别是变量x、z间的和变量y、z间的简单相关系数,依此类推。偏相关系数的检验偏相关系数检验方法同相关系数检验方法。第16页/共128页2021-12-15117 下图为四川绵阳地区3年生中山柏的数

15、据,分析月生长量与月平均气温、月降水量、月平均日照时数、月平均湿度这4个气候因素哪个因素有关。例 (数据文件:3偏相关)图85四川绵阳地区3年生中山柏的数据例题分析例题分析第17页/共128页2021-12-151181、分析步骤PARTIAL CORR /VARIABLES= hgrow hsun BY humi rain temp /SIGNIFICANCE=TWOTAIL /STATISTICS=DESCRIPTIVES CORR /MISSING=LISTWISE .图86 偏相关分析主对话框单击单击“粘贴粘贴”,在,在SyntaxSyntax窗窗口中生成第一次分析的程序:口中生成第一

16、次分析的程序:4)选择双尾检验,显示实际的显著性概率选择双尾检验,显示实际的显著性概率3)确定第一次分析的变量和控制变量:选择确定第一次分析的变量和控制变量:选择生长生长量与月平均日照时数(量与月平均日照时数(hgrow hgrow 和和hsunhsun)进入变进入变量框中;选择量框中;选择月平均湿度月平均湿度(humi)(humi)、降雨量、降雨量(rain)(rain)、月平均气温、月平均气温(temptemp)作为控制变量)作为控制变量2)输入数据,依次单击分析输入数据,依次单击分析相关相关偏相关,打偏相关,打开偏相关对话框开偏相关对话框1)第18页/共128页2021-12-15119

17、 复制与修改程:在Syntax窗口中选择第一次偏相关分析程序,复制并粘贴4次 在后三段程序中删除了 STATISTICS 子命令,因为只要执行一次该子命令,就给出所有变量的统计量。 在Syntax窗口菜单中选择“运行” “全部”,提交运行。CORRELATIONS /VARIABLES= hgrow hsun humi rain temp /PRINT=TWOTAIL NOSIG /STATISTICS= DESCRIPTIVES /MISSING=LISTWISE .PARTIAL CORR /VARIABLES= hgrow hsun BY humi rain temp /SIGNIFIC

18、ANCE=TWOTAIL /MISSING=LISTWISE .PARTIAL CORR /VARIABLES= hgrow humi BY hsun rain temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE .PARTIAL CORR /VARIABLES= hgrow rain BY hsun humi temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE .PARTIAL CORR /VARIABLES= hgrow temp BY hsun humi rain /SIGNIFICANCE=TWOTAIL /M

19、ISSING=LISTWISE .第19页/共128页2021-12-15120描描 述述 性性 统统 计计 量量9.45927.177871298.891734.662621280.253.3611285.216797.488341215.98337.4991912生长量(cm)月平均日照时数月平均湿度月降雨量(mm)月平均气温(c)均值标准差N2、分析结果与解释与结论为基本描述统计量:各因素的均值、标准差合样本数表87 基本描述统计量表第20页/共128页2021-12-15121相相关关性性1.704*.374.709*.983*.011.232.010.0001212121212.70

20、4*1-.051.702*.690*.011.875.011.0131212121212.374-.0511.384.292.232.875.217.3571212121212.709*.702*.3841.715*.010.011.217.0091212121212.983*.690*.292.715*1.000.013.357.0091212121212Pearson 相关性显著性(双侧)NPearson 相关性显著性(双侧)NPearson 相关性显著性(双侧)NPearson 相关性显著性(双侧)NPearson 相关性显著性(双侧)N生长量(cm)月平均日照时数月平均湿度月降雨量(m

21、m)月平均气温(c)生长量(cm)月平均日照时数月平均湿度月降雨量(mm)月平均气温(c)在 0.05 水平(双侧)上显著相关。*. 在 .01 水平(双侧)上显著相关。*. 为零相关矩阵,可看出生长量与湿度的相关系数最小,显著性检验结果是不相关的概率为23,生长量与月平均湿度无关。与其他几个气候因素均有明显的线性关系。 由于各气候因素的相互影响,生长量与各变量间的相关系数并未反映出各变量间的真实情况,因此应看偏相关的结果 。表88 相关性表第21页/共128页2021-12-15122相相 关关 性性1.000.632.06807.6321.000.068.70相关性显著性(双侧)df相关性

22、显著性(双侧)df生长量(cm)月平均日照时数控制变量月平均湿度 & 月降雨量(mm) & 月平均气温(c)生长量(cm)月平均日照时数表89 偏相关分析结果相相 关关 性性1.000.731.02507.7311.000.025.70相关性显著性(双侧)df相关性显著性(双侧)df生长量(cm)月平均湿度控制变量月平均日照时数 & 月降雨量(mm) & 月平均气温(c)生长量(cm)月平均湿度生长量与月平均日照时数的偏相关生长量与月平均湿度的偏相关第22页/共128页2021-12-15123相相关关性性1.000-.491.18007-.4911.000.1

23、80.70相关性显著性(双侧)df相关性显著性(双侧)df生长量(cm)月降雨量(mm)控制变量月平均日照时数 & 月平均湿度 & 月平均气温(c)生长量(cm)月降雨量(mm)相相 关关 性性1.000.977.00007.9771.000.000.70相关性显著性(双侧)df相关性显著性(双侧)df生长量(cm)月平均气温(c)控制变量月平均日照时数 & 月平均湿度 & 月降雨量(mm)生长量(cm)月平均气温(c)生长量与月平均气温的偏相关生长量与降雨量的偏相关第23页/共128页2021-12-15124 根据上表可得出:中山柏生长量与气温关系最密切,相

24、关系数0.9774,显著性水平为0.000;其次是湿度,相关系数0.7310,假设成立的概率为2.5;显著性水平为0.000;日照时数,相关系数0.6318,不相关的概率为6.8。与降雨量没有线性关系。 由上可看出,偏相关分析结果与简单相关分析结果会有很大区别。TEMPHUMIHSUNRAINHGROW0.97740.73100.6318-O.4906DF7777P0.0000.0250.6800.180表810 偏相关分析汇总结果第24页/共128页2021-12-15125自己动手啊!自己动手啊!实践8-282、保险业为了研究客户性格的效应,用量表对12个客户进行调查。现想了解对权威(Po

25、wer)欲的评分和对地位欲(Position)的评分之间相关的信息。(次序型变量的Spearman分析)编号Powerposition12345678910111237621110945138124532912117813610链接链接数据文件见“课堂练习”8章中的“相关2.sav”第25页/共128页2021-12-151268.3 8.3 距离分析距离分析距离分析概述 距离分析是对观测量之间或变量之间相似或不相似程度的一种测度。是计算一对变量之间或一对观测量之间的广义距离。 距离分析可用于因子分析、聚类分析、或多维定标分析,有助于分析复杂的数据集。例如,可以根据汽车的一些特性,如发动机的大

26、小、每加仑汽油能行驶的距离和马力来测度两种汽车的相似性等。第26页/共128页2021-12-15127有关的统计量 1、不相似性测度 1)对等间隔数据的不相似性(距离)测度可使用的统计量:Euclidean distanace(欧氏距离)、 Squared Euclidean distanace(欧氏距离平方)、Chebychev(切贝谢夫)、Block(区组)、Minkowski(明可斯基)或Customized(自定义)统计量。 2)计数数据,使用卡方或斐方(方) 3)对二值数据,使用欧氏距离、 欧氏距离平方、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。 2、相似性测度 1)

27、等间隔数据使用统计量皮尔逊相关或余弦。 2)测度二元数据相似性使用的统计量有20余种。第27页/共128页2021-12-15128 例:下图是市场上销售 汽车的一些基本情况。(数据文件:4car(距离).sav)图87 汽车销售基本情况例题分析例题分析第28页/共128页2021-12-151291、分析步骤图88 距离分析主对话框 将分析数据表中的三个变量:mpg(每加伦汽油能行驶的距离) 、engine(发动机)、 horse(马力)、 weight(重量 )、accel(加速时间)、 year(发明时间)、 origin(来源国家 cylinder(气缸数)等。现要根据每加伦汽油能行驶

28、的距离、重量、加速时间来进行分类,以区别那些汽车比较类似。选择选择weightweight、mpg mpg 和和accelaccel变量进入变量进入变量框中;在计算距离变量框中;在计算距离 栏选择变量栏选择变量间;在度量栏内选择不相似性选项间;在度量栏内选择不相似性选项2)输入数据,依次单击分析输入数据,依次单击分析相关相关距离,打开距离,打开 距离主对话框距离主对话框1)第29页/共128页2021-12-15130图89 距离分析非相似性对话框 单击单击“度量度量”按钮,打开不相似性度量对话框。在框按钮,打开不相似性度量对话框。在框内选择内选择Euclidean Euclidean 距离、

29、重新标度到距离、重新标度到 0 0 1 1全距全距 单击确定单击确定3)第30页/共128页2021-12-151312、分析结果与解释与结论案案例例处处理理摘摘要要39898.0%82.0%406100.0%N百分比N百分比N百分比有效缺失合计案例 从表811可看出,有效观测为398个,带缺省值的观测为8个,共406观测。 表811 变量的基本信息表第31页/共128页2021-12-15132近近似似矩矩阵阵.000.998.000.998.0001.000.0001.000.000Miles per GallonVehicle Weight (lbs.)Time to Accelerat

30、efrom 0 to 60 mph (sec)Miles perGallonVehicleWeight (lbs.)Time toAcceleratefrom 0 to 60mph (sec)重调整比例 Euclidean 距离这是一个不相似性矩阵表812 距离距阵 表812中,汽车重量和加速时间之间的距离为1.000,汽车重量和每加伦汽油能行驶的距离之间的距离为0.998。第32页/共128页2021-12-15133自己动手啊!自己动手啊!实践8-383、不同的赛艇的性能数据如下。根据每加仑汽油能行驶的距离、重量、加速时间来进行分类,以区别那些赛艇补缴类似。(距离分析)链接链接数据文件见“

31、课堂练习”8章中的“相关3.sav”第33页/共128页2021-12-15134第九章第九章 聚类分析与判别分析聚类分析与判别分析回目录回目录第34页/共128页2021-12-151359.1 聚类分析与判别分析概述聚类分析1、样本聚类 又称为Q型聚类。是根据被观测对象的特征,即反映被观测对象的特征的各变量值进行分类。 例如,使用k-Mean聚类分析,可根据对电视机外观偏好的特点把电视机外观分为k组,并把该结果用于确定营销市场的分类。 聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。第

32、35页/共128页2021-12-151362、变量聚类 又称为R型聚类。进行变量聚类,可找出彼此独立且具有代表性的自变量,而又不丢失大部分信息。 例如,制衣业制定衣服型号是根据人体各部分尺寸数据找出最有代表性的指标,如身长、胸围、裤长、腰围等作为衣服的代表性指标。判别分析 判别分析是根据表面事物特点的变量值和它们所属的类,求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。例如,可根据啤酒中含有的酒精成分、钠成分及所含热量数值对啤酒进行分类。 判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。第36页/共128页2021-

33、12-15137 1、距离:是指两个事物离的多远的测量,通常将每一个样品看成m维(变量个数)空间中的一个点, 在m维空间定义点与点之间的距离,距离较近的点归为同一类,较远的则归为不同的类。 几个术语 2、相似系数:是是指两个事物离的多近的测量,性质越接近的样品,它们之间的相似系数越接近1(或-1),而彼此无关的样品之间的相似系数越接近0。在进行聚类处理时,将比较相似的样品归为一类,不太相似的归为不同的类。第37页/共128页2021-12-151389.2 二步聚类 二步聚类过程是一个探索性的工具,为揭示自然的分类或分组而设计。是数据集内部的而不是外观上的分类。 其特点是:l 分类变量和连续变

34、量均可参与两步聚类分析l 该过程可自动确定分类数l 可高效分析大数据集l 用户可自己制定用于运算的内存容量 二步聚类过程除了使用欧氏距离外,为了处理分类变量和连续变量,还使用似然距离测度,它要求模型中的变量是独立的。分类变量是多项式分布,连续变量是正态分布。二步聚类概述第38页/共128页2021-12-15139 第一步:首先对每个观测量进行考察,确定类中心。根据相同者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中。这个过程称作构建一个分类的特征树(CF)。 第二步:使用凝聚算法对特征树的叶结点分组,凝聚算法可产生一个结果范围。为确定最好的类数,对每一个聚类结果使用AI

35、C或BIC判据作为聚类判据进行比较,得出最后的聚类结果。 二步聚类过程的输出提供聚类得出结果的类数判据( AIC、BIC )、聚类最终结果的类频数等各类变量的描述性统计量,可产生类频数条形图、类频数饼图和变量重要性图。二步聚类过程第39页/共128页2021-12-15140有关术语 1)Cluster Features(CF)Tree,聚类特征树:在聚类的第一步,根据计算的距离确定的类结构。每类一个节点,属于该类的观测量就是该节点的树叶,由于树叶的不断增加构成树枝。 2)AIC或BIC:在聚类的第二步凝聚过程中用到的两个判据,是两个算法即Akaik(AIC)判据或贝叶斯判据(BIC)。 3)

36、Tuning the Algorithm(协调算法):两步聚类过程可自动进行聚类,也可人为控制聚类过程。在人为控制下,可指定参数,此称为调谐( Tuning )。 4)Noise Handing(噪声处理):由于两步聚类要处理大数据集,在构建CF树时,如果指定了类数和算法的参数,在第一步聚类过程中,当观测量多时,CF树可能会满,不在树上的观测量就称为噪声,需调整算法参数,这种处理称为噪声处理。 5)Outlier(局外者):根据噪声处理参数聚类结果,被丢掉的观测量称为局外者,单独构成一类,不计在聚类结果的类数中。第40页/共128页2021-12-15141 例(数据文件:1两步聚类.sav)

37、 汽车制造商需评价当前汽车市场,以确定他们的汽车在市场上的竞争地位,通常对汽车对探访的数据进行分类达到此目的,可用自动的两步聚类分析来完成。变量名含义变量名含义manufact厂商horsepow马力model型号wheelbas轴距sales销售量width宽度resale4年后销售量length长度type类型Curb-wgt限重price价格Fuel-cap燃料容量Engine-s发动机尺寸mpg燃料功效表91 例题变量说明例题分析例题分析第41页/共128页2021-12-151421、分析过程图91 二步聚类分析主对话框选择选择typetype变量进分类变量框;将变量进分类变量框;将

38、priceprice、Engine-sEngine-s、horsepowhorsepow、 wheelbaswheelbas、widthwidth、lengthlength、Curb-wgtCurb-wgt、Fuel-capFuel-cap、 mpgmpg变量变量送入连续变量框送入连续变量框2)按分析按分析分类分类两步聚类顺序,两步聚类顺序,打开两步聚类分析主对话框打开两步聚类分析主对话框1)第42页/共128页2021-12-15143图92 二步聚类分析图形对话框单击图表按钮,打开图表对话框。在单击图表按钮,打开图表对话框。在“变量重要性绘制变量重要性绘制”中选择中选择“变量的重要性等级变

39、量的重要性等级”下的下的“根据变量根据变量”选项;复选项;复选选“置信度置信度”。单击。单击“继续继续”3)第43页/共128页2021-12-15144图93 二步聚类分析统计量对话框 单击输出按钮,打开输出对话框。选择单击输出按钮,打开输出对话框。选择“统统计量计量”下的下的“信息准则(信息准则(AICAIC或或BICBIC)”; “工工作数据作数据”下的下的“创建聚类成员变量创建聚类成员变量”;单击;单击“继继续续” 单击确定单击确定4)第44页/共128页2021-12-15145自自 动动 聚聚 类类1214.377974.051-240.3261.0001.829885.924-8

40、8.128.3672.190897.55911.635-.0481.368931.76034.201-.1421.036968.07336.313-.1511.5761026.00057.927-.2411.0831086.81560.815-.2531.6871161.74074.926-.3121.0201237.06375.323-.3131.2391316.27179.207-.3301.0461396.19279.921-.3331.0751477.19981.008-.3371.0761559.23082.030-.3411.3011644.36685.136-.3541.044聚

41、类数123456789101112131415Schwarz 的Bayesian 准则 (BIC)BIC 变化aBIC 变化的比率b距离度量的比率c变化是相对于表中先前的聚类个数而言。a. 变化的比率与两个聚类解的变化相关。b. 距离度量的比率以当前聚类的个数为基础而不是先前的聚类个数为基础。c. 聚类运算的次序号对每个可能类数计算聚类判据。一好的结果应有相当大的BIC值和大的距离测度的比值BIC变化是当前BIC值减去前一个BIC值的差BIC变化的比率是当前BIC值与前一个BIC值的比值距离测度的变化率表93 自动聚类过程 从表中可看出,按BIC最小值取最后的聚类结果,为3类。聚为3类时的BI

42、C变化率和距离变化率都相当大。第45页/共128页2021-12-15146聚聚 类类 分分 布布6240.8%39.5%3925.7%24.8%5133.6%32.5%152100.0%96.8%53.2%157100.0%123组合聚类已排除的案例总计N组合 %总计 %表93 聚类过程结果各类频数 观测量总数为157个,5个由于在一个或几个变量中有缺失值被剔出。152个被分配到各类中,62个第一类;39个第二类;51个第三类。第46页/共128页2021-12-15147表94 各类的类中心质质 心心19.6167126.5618237.2998027.331827.64407010.18

43、517517.38118714.4186692.1943.5593.7003.049.4238.9358.94931.0498143.24187.92232.96184.8130.25939.04954.40856.823102.595112.972109.022107.4144.07999.65375.76447.717868.53972.74472.92471.0891.93664.17812.18553.4647178.235191.110194.688187.0599.653414.441510.351213.47122.837423.967593.578903.37618.31086

44、7.671766.297204.63659314.97922.06418.44317.9591.86994.28942.04453.937627.2419.5123.0223.843.5782.9102.0604.305Price inthousandsEngine sizeHorsepowerWheelbaseWidthLengthCurb weightFuel capacityFuelefficiency123组合聚类123组合聚类均值标准差 显示每类中观测量的均值、标准差。表明连续变量很好地将各类分开了。1类中的车辆是便宜、小、燃料功效最高;2类特征是适度的价格、较大汽缸。3类昂贵、大的

45、和适度的燃料效率。第47页/共128页2021-12-15148由于该表太宽,不好看。可将其外形改变: 2)在该表的透视表中使用鼠标拖曳左下角和右侧的图案 ,即可旋转该表。 1)打开“视图”菜单中的工具栏对话框,点击 图标,打开该表的透视表(图)图94 透视表对话框第48页/共128页2021-12-15149V Ve eh hi ic cl le e t ty yp pe e6154.5%12.5%0.0%3997.5%5145.5%0.0%112100.0%40100.0%123组合聚类频率百分比频率百分比AutomobileTruck表95 按车辆分类的频数表 第一、三类包括小汽车,第一

46、类中有唯一1款卡车;第二类均为卡车。第49页/共128页2021-12-15150123聚类聚类15.00020.00025.00030.00035.00040.00045.000Price in thousandsPrice in thousands参考线为总体均值 = 27.332均值的同时 95% 置信区间均值的同时 95% 置信区间123聚类聚类2.02.53.03.54.04.5Engine sizeEngine size参考线为总体均值 = 3.0均值的同时 95% 置信区间均值的同时 95% 置信区间图9-5 连续变量的并列均值图均值95的区间该类这个本来的均值样本中该变量的总均

47、值 为连续变量的并列均值图,每个变量生成1个图,共9个。 从价格图中可看出,三类的价格置信区间没有交叉,说明三类的平均价格不同,三类很好的分开了 从发动机尺寸图中可看出,第一类较小,而第二、三类的较大。这两类的发动机尺寸没有很好的分开。a 价格b 发动机尺寸第50页/共128页2021-12-15151 LengthFuel efficiencyPrice in thousandsWheelbaseWidthHorsepowerFuel capacityCurb weightEngine size 变变量量-20-15-10-50510Student的 tStudent的 t临界值 检验统计量

48、应用了 Bonferroni 调整两步聚类类别号 = 1两步聚类类别号 = 1 Price in thousandsHorsepowerLengthWidthEngine sizeWheelbaseCurb weightFuel capacityFuel efficiency 变变量量-10-505Student的 tStudent的 t临界值 检验统计量应用了 Bonferroni 调整两步聚类类别号 = 2两步聚类类别号 = 2 Fuel capacityWheelbaseFuel efficiencyPrice in thousandsCurb weightEngine sizeLeng

49、thWidthHorsepower 变变量量-5.0-2.50.02.55.07.510.0Student的 tStudent的 t临界值 检验统计量应用了 Bonferroni 调整两步聚类类别号 = 3两步聚类类别号 = 3图9-6 各连续变量的重要性图b 第二类a 第一类c 第三类 变量以其值递减的顺序放在y轴上,横轴是统计量t值。图中竖线为变量重要性的临界值。对每个要考虑其显著性的变量,它的t统计量必须在正或负方向上超过竖线。负t值表明在该类中,该变量的值通常比总均值小;正t值表明该变量值通常比总均值大。图a:各变量重要性测度均超过临界值,可认为所有连续变量对形成第一类均有贡献。燃烧效

50、率比总均值大,其它变量取值比均值小。图b:宽度、尺度、马力和价格对第二类形成不重要图c:前后轴间距离、燃料容量对形成第三类不重要,而燃烧效率刚达到有重要意义的程度。第51页/共128页2021-12-15152 Vehicle type 变变量量05101520卡方卡方临界值检验统计量应用了 Bonferroni 调整两步聚类类别号 = 1两步聚类类别号 = 1图9-7 分类变量在第一类中的重要性图 为分类变量在各类中的重要性图。每类一个图,此列出一个。它表明分类变量type在第一类中的重要性。 横轴是卡方值,竖线为变量重要性的临界值。超过竖线表明该分类变量对该类的形成是重要的。因聚类只指定了

51、一个分类变量,因此只有一条。第52页/共128页2021-12-151539.3 9.3 快速样本聚类分析快速样本聚类分析(K KMeans ClusterMeans Cluster) 快速样本聚类,也称逐步聚类或动态聚类。其基本思路为:开始按照一定方法选择一批凝聚点(聚心),其后按样品想最近的凝聚点凝聚,形成起始分类,然后按最近距离原则修改不合理的分类,直到合理为止。 其与分层聚类法相比,在处理过程中,不需保存距离矩阵,因而计算量小,适合大数据文件的分析。快速样本聚类分析概述第53页/共128页2021-12-15154 1、选择用于聚类分析的变量,必须是数值型变量,且至少1个。为了清楚地表

52、明各观测量最后聚到哪一类,还应指定一个表明观测量特征的变量作为标识的变量,例如编号、姓名之类的变量; 2、指定聚类数目,即要将样品分为几类; 3、选择k个样品为聚类种子(起始聚心)。K最小值为2,最大值不超过样品个数(小于等于观测数); 4、按照起始聚心距离最小原则将各观察量分到各聚心所在的类中去,形成第一次替代的k类; 5、计算该类中所有变量的平均值,作为第二次替代的聚心; 6、重复1和4步,直到达到指定的替代次数或达到替代终止的条件(收敛因子),聚类程序结束;快速样本聚类分析步骤第54页/共128页2021-12-15155 7、输出聚类结果 8、根据研究对象的背景知识,按某个分类标准或分

53、类原则,得出最终的分类结果。 注意:快速聚类使用的是欧氏距离平方,各变量权数相等。 如果使用其它统计量进行聚类,必须使用分层聚类方法进行聚类分析。快速聚类变量必须是连续变量。 如果测定变量值的单位不同,应该对聚类变量使用描述性统计过程进行标准化后再进行聚类分析,否则,会得出错误结论第55页/共128页2021-12-15156 (一)、使用系统默认值实例分析 例 从不同的地区采集七块花岗岩,测其部分化学成分(数据表名:2花岗岩(快速聚类).sav),根据5个变量对花岗岩的产地进行分类。表96 七块花岗岩化学成分数据例题分析例题分析第56页/共128页2021-12-151571、操作步骤图98

54、 快速聚类分析主对话框 将变量将变量5 5个变量作为分个变量作为分析变量选入变量框中。其它析变量选入变量框中。其它为默认为默认 单击单击OKOK2)打开数据文件花岗岩打开数据文件花岗岩( (快速快速聚类聚类).sav).sav1)第57页/共128页2021-12-15158表97 初始类中心表98 最终类中心的变量值初初 始始 聚聚 类类 中中 心心75.2073.72.140.0331.86.77.91.285.212.78sio2tio2feocaok2o12聚类最最终终聚聚类类中中心心75.1872.86.150.0851.991.23.83.545.074.09sio2tio2feo

55、caok2o12聚类2、结果分析 为初始凝聚点。由于未指定聚类的初始凝聚点,而是由系统确定。 是三次迭代后类凝聚点点变化。由于没有指定迭代次数及收敛判据,系统默认最大迭代次数为10,收敛参数为0。第58页/共128页2021-12-15159表910 聚类总结表99 迭代过程中类中心的变化量 给出了每一类的观测数及缺失值的情况。迭迭代代历历史史记记录录a a.8641.443.835.236.000.000迭代12312聚类中心内的更改由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 3.113。a. 每每个个聚聚类类中

56、中的的案案例例数数2.0005.0007.000.00012聚类有效缺失 给出了迭代终止时凝聚点的各变量值。第59页/共128页2021-12-151601、操作步骤(二)、使用选择项的实例分析例子同上,现使用各选项进行分析,可与前分析对比。图99 快速聚类分析主对话框在在“聚类数聚类数”栏中键入栏中键入3 3,即,即预定类数位预定类数位3 3;由系统选择初;由系统选择初始凝聚点,建立包含这三个始凝聚点,建立包含这三个观测的数据文件并存盘;选观测的数据文件并存盘;选择聚类方法,本例选择择聚类方法,本例选择“迭迭代与分类代与分类”项,参数为默认项,参数为默认值值2)打开数据文件花岗岩打开数据文件

57、花岗岩( (快速聚快速聚类类).sav).sav1)第60页/共128页2021-12-15161图911 快速聚类分析选项对话框图910 快速聚类分析保存新变量对话框打开选项对话框,选择打开选项对话框,选择统计量栏中所有项。缺统计量栏中所有项。缺失值为默认。失值为默认。 单击确定单击确定4)单击存储按钮,选择单击存储按钮,选择“聚类成员聚类成员”和和“与聚与聚类中心的距离类中心的距离”3)第61页/共128页2021-12-15162表911 初始类中心表912 迭代过程中类中心的变化量 表911列出了初始凝聚点的各变量值。上例是系统默认聚类数2,此为指定3,因此与表91区别较大。 表912

58、表明该聚类过程一共经过了2次迭代就终止。框中的数字表示每次迭代后新的凝聚点与初始凝聚点间的距离。2、结果分析初始聚类中心初始聚类中心75.2072.7473.72.140.100.0331.861.41.77.91.72.285.214.992.78sio2tio2feocaok2o123聚类迭代历史记录迭代历史记录a a.208.351.326.000.000.000迭代12123聚类中心内的更改由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 2.518。a. 第62页/共128页2021-12-15163表913

59、各观测量所属类 表914 最终的类中心 表913为聚类结果列出各观测量所属类,其中的观测用序号No来标识,最后一列数表示观测与凝聚点之间的欧氏距离。 表914列出了最终凝聚点的各变量对应值。聚聚 类类 成成 员员1.2081.2082.3192.1342.3513.3263.326案例号1234567聚类距离最最 终终 聚聚 类类 中中 心心75.1872.4373.51.150.120.0331.991.43.92.83.75.235.074.842.97sio2tio2feocaok2o123聚类第63页/共128页2021-12-15164表915 方差分析表 为方差分析表。可看出各变量

60、的类间误差大于类内误差。最后一列的概率值则表明所选择的分析变量能很好地区分类间的差异,因为它接受类间的无差异的概率都很小。由于选择的类使得不同类的观测间的距离达到最大,故这里的F检验只用来做简单检验。此表只用来做简单描述。A AN NO OV VA A4.5322.063471.441.001.0082.000437.704.003.5672.022425.700.005.2222.008428.325.0042.7912.042466.796.001sio2tio2feocaok2o均方df聚类均方df误差FSig.F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论