




已阅读5页,还剩76页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS 19(中文版)统计分析实用教程 电子工业出版社 1 第八章 回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 2 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 3 8.1 回归分析概述 (1)确定性关系与非确定性关系 变量与变量之间的关系分为确定性关系和非确定性关系, 函数表达确定性关系。研究变量间的非确定性关系,构造变量 间经验 公式的数理统计方法称为回归分析。 (2)回归归分析基本概念 回归分析是指通过提供变量之间的数学表达式来定量描述 变量间相关关系的数学过程,这一数学表达式通常称为经验 公 式。我们不仅可以利用概率统计知识,对这个经验公式的有效 性进行判定,同时还可以利用这个经验公式,根据自变量的取 值预测 因变量的取值。如果是多个因素作为自变量的时候,还 可以通过因素分析,找出哪些自变量对因变量的影响是显显著的 ,哪些是不显显著的。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 4 (3)回归归分析的一般步骤骤 n第1步 确定回归方程中的因变量和自变量。 n第2步 确定回归模型。 n第3步 建立回归方程。 n第4步 对回归方程进行各种检验。 拟合优度检验 回归方程的显著性检验 回归系数的显著性检验 n第5步 利用回归方程进行预测。 8.1 回归分析概述 SPSS 19(中文版)统计分析实用教程 电子工业出版社 5 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 6 8.2线性回归分析 8.2.1 基本概念及统计统计 原理 1.基本概念 线性回归假设因变量与自变量之间为线 性关系,用一定 的线性回归模型来拟合因变量和自变量的数据,并通过确定 模型参数来得到回归方程。根据自变量的多少,线性回归可有 不同的划分。当自变量只有一个时,称为一元线性回归,当自 变量有多个时,称为多元线性回归。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 7 8.2线性回归分析 (2) 统计统计 原理 一元回归方程和多元回归方程 一元线性和多元线性回归分析的核心任务就是估计其中的参 数。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 8 8.2线性回归分析 8.2.2 SPSS实实例分析 【例8-1】现有1992年-2006年国家财政收入和国内生产总值 的数据如下表所示,请研究国家财政收入和国内生产总值 之 间的线性关系。 年份国内生产总值 (单位:亿元 ) 财政收入 (单位:亿元 ) 年份 国内生产总值 (单位:亿元 ) 财政收入 (单位:亿元 ) 199226923.53483.37200099214.613395.23 199335333.94348.952001109655.216386.04 199448197.95218.102002120332.718903.64 199560793.76242.202003135822.821715.25 199671176.67407.992004159878.326396.47 199778973.08651.142005183867.931649.29 199884402.39875.952006210871.038760.20 199989677.111444.08 SPSS 19(中文版)统计分析实用教程 电子工业出版社 9 8.2 线性回归分析 第1步 分析:这是一个因变量和一个自变量之间的问题,故应 该考虑用一元线性回归解决。 第2步 数据组织:定义三个变量,分别为“year”(年份)、“x” (国内生产总值)、“y”(财政收入)。 第3步 作散点图,观察两个变量的相关性:依次选择菜单“图 形旧对话框散点/点状简单分布”,并将“国内生产总值”作 为x轴,“财政收入”作为y轴,得到如下所示图形。 可以看出两变量具有较强 的线性关系,可以用一元 线性回归来拟合两变量。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 10 8.2 线性回归分析 第4步 一元线性回归分析设置: 选择菜单“分析回归线性”,打开“线性回归”对话框 ,将变量“财政收入”作为因变量 ,“国内生产总值”作为 自变量。 打开“统计量”对话框,选上“估计”和“模型拟合度”。 单击“绘制(T)”按钮,打开“线性回归:图”对话 框,选用DEPENDENT作为y轴,*ZPRED为x轴作图。并且选择“ 直方图”和“正态概率图” 作相应的保存选项设置,如预测值、残差和距离等。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 11 8.2 线性回归分析 第5步 主要结果及分析: 变量输入和移去表 表中显示回归模型编号、进入模 型的变量、移出模型的变量和变 量的筛选方法。可以看出,进入 模型的自变量为“国内生产总值” 。 模型综述表 R=0.989,说明自变量与因变 量之间的相关性很强。R方 (R2) =0.979,说明自变量“国 内生产总值”可以解释因变量 “财政收入”的97.9%的差异 性。 模型输入的变量移去的变量方法 1国内生产总值.输入 a. 已输入所有请求的变量。 b. 因变量: 财政收入。 模型RR 方调整 R 方 标准估计的误差 1.989a.979.9771621.66312 a. 预测变 量:(常量),国内生产总值 。b. 因变量 :财政收入。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 12 8.2 线性回归分析 方差分析表 表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统 计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看 出,F统计量的观测值为592.25,显著性概率为0.000,即检验假设 “H0:回归系数B = 0”成立的概率为0.000,从而应拒绝原假设,说明 因变量和自变量的线性关系是非常显著的,可建立线性模型。 模型平方和df均方FSig. 1 回归1.557E911.557E9 592.250 残差34187286.770132629791.290 总计1.592E914 a. 预测变 量:(常量),国内生产总值 。b. 因变量:财政收入。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 13 8.2 线性回归分析 回归系数表 表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标 准化的回归系数值、统计量t值以及显著性水平(Sig.)。从表中可看出, 回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为 0.197。因此,可以得出回归方程:财政收入=-4993.281 + 0.197 国内生 产总值。 模型非标准化系数标准系数tSig. B标准误差试用版 1(常量)-4993.281919.356-5.431.000 国内生产总值.197.008.98924.336.000 回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设 ,这也说明了回归系数的显著性,说明建立线性模型是恰当的。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 14 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 15 8.3 曲线估计 8.3.1 基本概念及统计统计 原理 (1) 基本概念 曲线估计(曲线拟合、曲线回归)则是研究两变量间非线 性关系的一种方法,选定一种用方程表达的曲线,使得实际数 据与理论数据之间的差异尽可能地小。如果曲线选择 得好,那 么可以揭示因变量与自变量的内在关系,并对因变量的预测 有一定的意义。 在曲线估计中,需要解决两个问题:一是选用哪种理论模 型,即用哪种方程来拟合观测值 ;二是当模型确定后,如何选 择合适的参数,使得理论数据和实际数据的差异最小。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 16 8.3 曲线估计 (2) 统计原理 在曲线估计中,有很多的数学模型,选用哪一种形式的回 归方程才能最好地表示出一种曲线的关系往往不是一个简单的 问题,可以用数学方程来表示的各种曲线的数目几乎是没有限 量的。在可能的方程之间,以吻合度而论,也许存在着许多吻 合得同样好的曲线方程。因此,在对曲线的形式的选择上, 对采取什么形式需要有一定的理论,这些理论是由问题本质 决定的。 (3) 分析步骤 首先,在不能明确究竟哪种模型更接近样本数据时,可在上述 多种可选择的模型中选择几种模型; 其次,SPSS自动完成模型参数的估计,并输出回归方程显著 性检验的F值和概率p值、决定系数R2等统计量; 最后,以判定系数为主要依据选择其中的最优模型,并进行预 测分析等。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 17 8.3 曲线估计 8.3.2 SPSS实实例分析 【例8-3】 表8.16是19892001年国家保费费收入与国内生产总值产总值 的数据 ,试试研究保费费收入与国内生产总值产总值 的关系。 年度保费收入国民生产总值年度保费收入国民生产总值 19804.64517.81991239.721662.5 19817.84860.3199237826651.9 198210.35301.8199352534560.5 198313.25957.4199463046670 1984207206.7199568357494.9 198533.18989.1199677666850.5 198645.810201.41997108073142.7 198771.0411954.519981247.376967.2 1988109.514922.319991393.2280579.4 1989142.616917.820001595.988228.1 1990178.518598.420012109.3694346.4 SPSS 19(中文版)统计分析实用教程 电子工业出版社 18 8.3 曲线估计 第1步 分析:先用散点图的形式进行分析,看究竟是否具有一元 线性关系,如果具有一元线性关系,则用一元线性回归分析,否 则采用曲线估计求解。 第2步 数据组织:定义为三个变量,分别是“year”(年度)、“y” (保费收入)和“x”(国内生产总值),输入数据并保存。 第3步 作散点图初步判定变量的分布趋势: 保费收入y随国内生产总值 x的提高而逐渐提高,而且 当国内生产总值达到一定 水平后,保费收入的增幅 更加明显。因此用线性回 归模型表示x,y的关系是 不恰当的。于是应找拟合 效果好的模型。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 19 8.3 曲线估计 第4步 进行曲线估计:依次选择菜单“分析回归曲线估计” ,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定 系数R2),其所有模型的拟合优度R2如下表所示。 模型名称R Square(R2) 直线(Linear)0.941 二次曲线(Quadratic)0.973 复合曲线(Compound)0.789 生长曲线(Growth)0.789 对数曲线(Logarithmic)0.772 三次曲线(Cubic)0.990 S曲线(S)0.946 指数曲线(Exponential)0.789 逆函数(Inverse)0.481 幂函数(Power)0.972 逻辑 函数(Logistic)0.789 从决定系数(R方即R2)来看 ,三次曲线效果最好(因为 其R2值最大),并且方差分 析的显著性水平(Sig.)为 0。故重新进行上面的过程 ,只选“三次曲线(Cubic )”一种模型。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 20 8.3 曲线估计 第5步 结果与分析。 三次曲线模型拟合效果的检验表 复相关系数R = 0.995,R2 = 0.990,经校正后的R平方值为 0.989。故可判断保费收入与国 内生产总值 之间有较显 著的三 次曲线关系 方差分析表 相伴概率Sig.=0.000 说明模型具有显著 的统计 学意义。 RR方调整R方估计值的标准误 .995.990.98964.883 自变量为 国内生产总值 。 平方和df均方FSig. 回归7800612.55932600204.186 617.659.000 残差75775.960184209.776 总计7876388.51821 自变量为 国内生产总值。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 21 8.3 曲线估计 回归系数表 从表中可知因变量与自变量的三次回归模型为: y=-166.430+0.029x-5.364E-7x2+5.022E-12x3 未标准化系数标准化系数 tSig. B标准误Beta 内民生产总值.029.0051.5065.836.000 国内生产总值 * 2-5.364E-7.000-2.554-4.277.000 国内生产总值 * 35.022E-12.0002.093 (常数)-166.43045.399-3.666.002 SPSS 19(中文版)统计分析实用教程 电子工业出版社 22 9.2 曲线估计 拟合效果图 从图形上看出其拟合效果非常好。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 23 8.3 曲线估计 说明:说明: 曲线估计是一个自变量与因变量的非线性回归过程,但 只能处理比较简单的模型。如果有多个自变量与因变量呈非 线性关系时,就需要用其他非线性模型对因变量进行拟合, SPSS 19中提供了“非线性”过程,由于涉及的模型很多,且 非线性回归分析中参数的估计通常是通过迭代方法获得的, 而且对初始值的设置也有较高的要求,如果初始值选择不合 适,即使指定的模型函数非常准确,也会导致迭代过程不收 敛,或者只得到一个局部最优值而不能得到整体最优值。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 24 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 25 8.4.1 基本概念及统计原理 (1)基本概念 Logistic回归分析就是针对因变量是定性变量的回归分析。根据因变 量取值类别数量不同,Logistic回归分析又分为二元Logistic回归分析和 多元Logistic回归分析。二元Logistic回归模型中因变量只可以取两个值1 和0(虚拟因变量),而多元Logistic回归模型中因变量可取多个值。 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 26 (2)统计原理 logit变换 8.4 二元Logistic回归分析 Logistic回归模型 Logistic回归模型 SPSS 19(中文版)统计分析实用教程 电子工业出版社 27 (3)统计检验 与线性回归一样,拟合时也要考虑模型是否合适、哪 些变量该保留、拟合效果如何等问题。线性回归中常用的 是决定系数R2,T检验、F检验等工具在这里均不再适用。在 Logistic回归中常用的检验有-2对数似然检验(-2 log( likelihood), -2LL)、Hosmer和Lemeshow的拟合优度检验 、Wald检验等。 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 28 8.4.2 SPSS实例分析 【例8-4】 诊断发现 运营不良的金融企业是审计 核查的一项重要功能 ,审计 核查的分类失败会导致灾难性的后果。下表列出了66家公司的 部分运营财务 比率,其中33家在2年后破产(Y = 0),另外33家在同期 保持偿付能力(Y = 1)。请用变量X1(未分配利润/总资产 )、X2(税 前利润/总资产 )和X3(销售额/总资产 )拟合一个Logistic回归模型 。 8.4 二元Logistic回归分析 X1X2X3YX1X2X3YX1X2X3YX1X2X3Y -62.8-89.51.704316.41.31-27.96.31.3031.415.71.91 3.3-3.51.1047161.91-48.26.81.6021.5-14.411 -120.8-103.22.50-3.342.71-49.2-17.20.308.55.81.51 -18.1-28.81.103520.81.91-19.2-36.70.8040.65.81.81 -3.8-50.60.9046.712.60.91-18.1-6.50.9034.626.41.81 -61.2-56.21.7020.812.52.41-98-20.81.7019.926.72.31 -20.3-17.4103323.61.51-129-14.21.3017.412.61.31 -194.5-25.80.5026.110.42.11-4-15.82.1054.714.61.71 20.8-4.31068.613.81.61-8.7-36.32.8053.520.61.11 -106.1-22.91.5037.333.43.51-59.2-12.82.1035.926.421 -39.4-35.71.205923.15.51-13.1-17.60.9039.430.51.91 -164.1-17.71.3049.623.81.91-381.61.2053.17.11.91 -308.9-65.80.8012.571.81-57.90.70.8039.813.81.21 7.2-22.62037.334.11.51-8.8-9.10.9059.5721 -118.3-34.21.5035.34.20.91-64.7-40.1016.320.411 -185.9-2806.7049.525.12.61-11.44.80.90 -34.6-19.43.4018.113.54121.7-7.81.61 SPSS 19(中文版)统计分析实用教程 电子工业出版社 29 第1步 分析:共有3个自变量,均是定量数据类型,而因变 量是定性的,取值有两种状态(0和1),这是一个典型的可 用二元Logistic回归解决的问题。 第2步 数据组织:定义三个自变量X1,X2和X3,再定义因变 量Y,输入数据并保存。 第3步 二元Logistic回归归分析设设置: (设置过程详见教材p195-197) 第4步 主要结结果及分析: 数据的基本信息表 8.4 二元Logistic回归分析 未加权的案例aN百分比 选定案例包括在分析中66100.0 缺失案例0.0 总计66100.0 未选定的案例0.0 总计66100.0 a. 如果权重有效,请参见分类表以获得案例总数。 给出了数据进入 模型的记录数 SPSS 19(中文版)统计分析实用教程 电子工业出版社 30 模型系数的检验结检验结 果 8.4 二元Logistic回归分析 其中常数项系数为0.000 ,其相伴概率为1,可见 常数项不显著。X1,X2 和X3的相伴概率分别是 0.000,0.000和0.094, 如果以5%为置信的话, X1和X2的系数通过了检 验,即这两个变量是显 著的。 BS.E,WalsdfSig.Exp (B) 步骤 0常量.000.246.00011.0001.000 得分dfSig. 步骤 0变量X131.6211.000 X219.3581.000 X32.8001.094 总统计 量37.6133.000 SPSS 19(中文版)统计分析实用教程 电子工业出版社 31 模型全局检验结检验结 果表 8.4 二元Logistic回归分析 共采用了三种检验方法,分别是步 与步间的相对似然比检验、块( Block)间的相对似然比检验和模 型间的相对似然比检验。由于本例 中只有一个自变量组且采取强行进 入法将所有变量纳入模型,所以三 种检验方法的结果是一致的,模型 有显著的统计意义。 模型情况摘要表 。主要给出-2对数似然 值的两个决定系数,从 数据上看,模型的拟合 度不错。 卡方dfSig. 步骤 1步骤85.6833.000 块85.6833.000 模型85.6833.000 步骤 -2 对数似然值 Cox & Snell R 方 Nagelkerke R 方 15.813a.727.969 a. 因为参数估计的更改范围小于 .001,所以估计在迭 代次数 12 处终 止。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 32 模型分类预测值类预测值 表 8.4 二元Logistic回归分析 此时模型的预测 准确率已达到 97%。 表格从左到右依次表示变量 及常数项的系数值(B)、 标准误差(S.E.)、Wald卡 方值、自由度(df)、相伴 概率(Sig.)、Exp(B)。 由于各回归系数均为正数, 取相应的指数后会大于1,表 示X1,X2和X3的取值越大,“ 两年后具有偿付能力”的可能 性比“两年后破产”的可能性 就越大, 已观测已预测 Y百分比校 正两年后破 产 两年后仍有偿付 能力 步骤 1 Y 两年后破产32197.0 两年后仍有偿付 能力 13297.0 总计百分比97.0 a. 切割值为 .500。 Logistic模型的参数拟拟合表 BS.E,WalsdfSig.Exp (B)EXP(B)的95% C.I. 下限上限 步骤 1aX1.331.3011.2131.2711.393.7722.511 X2.181.1072.8621.0911.198.9721.478 X35.0875.0821.0021.317161.979.0083430718.695 常量-10.15310.840.8771.349.000 a. 在步骤 1 中输入的变量: X1, X2, X3. SPSS 19(中文版)统计分析实用教程 电子工业出版社 33 Logistic回归归模型 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 34 The End SPSS 19(中文版)统计分析实用教程 电子工业出版社 35 第九章 聚类和判别分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 36 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 37 9.1 聚类与判别分析概述 9.1.1 基本概念 (1) 聚类类分析 聚类分析的基本思想是找出一些能够度量样本或指标之 间相似程度的统计量,以这些统计量为划分类型的依据,把 一些相似程度较大的样本(或指标)聚合为一类,把另外一 些彼此之间相似程度较大的样本又聚合为一类。根据分类对 象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种 。 (2) 判别别分析 判别分析是判别样本所属类型的一种统计方法。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 38 9.1 聚类与判别分析概述 9.1.2 样样本间亲间亲 疏关系的度量 (1)连续变连续变 量的样样本间间距离常用度量 主要方法有欧氏距离(Euclidean Distance)、欧氏平方 距离(Squared Euclidean Distance)、切比雪夫距离( Chebychev Distance)、明可斯基距离(Minkowski Distance )、用户自定义距离(Customize Distance)、Pearson相关 系数、夹角余弦(Cosine)等。(公式见教材表7.9) (2)顺顺序变变量的样样本间间距离常用度量 常用的有 统计量(Chi-square measure)和 统计量( Phi-square measure)。(公式见教材表7.10) SPSS 19(中文版)统计分析实用教程 电子工业出版社 39 9.1 聚类与判别分析概述 9.1.1 基本概念 (3) 二者区别别 不同之处在于,判别分析是在已知研究对象分为若干类 型(或组别)并已取得各种类型的一批已知样本的观测量数据 的基础上,根据某些准则建立判别式,然后对未知类型的样本 进行差别分析。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 40 9.1 聚类与判别分析概述 说明:说明: 聚类分析的目的是找到样本中数据的特点,因此应注 意所选择的变量是否已经能够反应所要聚类样本的主 要特点。 聚类分析时应注意所选择的变量是否存在数量级上的 差别。如果一个样本包含不同数量的变量,则应先对 变量进行标准化处理,而后再进行聚类。 变量间的关系度量模型与样本间相类似,只不过一个 用矩阵的行进行计算,另一个用矩阵的列进行计算。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 41 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 42 9.2 二阶聚类 9.2.1 基本概念及统计统计 原理 (1)基本概念 二阶聚类(TwoStep Cluster)(也称为两步聚类)是一个探索性的分 析工具(),为揭示自然的分类或分组而设计 ,是数据集内部的而不是外 观上的分类。它是一种新型的分层聚类算法(Hierarchical Algorithms),目 前主要应用到数据挖掘(Data Mining)和多元数据统计 的交叉领域模 式分类中。该过 程主要有以下几个特点: 分类变 量和连续变 量均可以参与二阶聚类分析; 该过 程可以自动确定分类数; 可以高效率地分析大数据集; 用户可以自己定制用于运算的内存容量。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 43 9.2 二阶聚类 9.2.1 基本概念及统计统计 原理 (2) 统计 原理 两步法的功能非常强大,而原理又较为复杂。他在聚类过 程中除了使用传统的欧氏距离外,为了处理分类变量和连续 变量,它用似然距离测度,它要求模型中的变量是独立的,分 类变量是多项式分布,连续变 量是正态分布的。分类变量和 连续变 量均可以参与两步聚类分析。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 44 9.2 二阶聚类 9.2.1 基本概念及统计统计 原理 (3)分析步骤 第1步 预聚类:对每个观测变量考察一遍,确定类中心。根据 相近者为同一类的原则,计算距离并把与类中心距离最小的观 测量分到相应的各类中去。这个过程称为构建一个分类的特征 树(CF)。 第2步 正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚 算法可用来产生一个结果范围。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 45 9.2 二阶聚类 9.2.2 SPSS实实例分析 【例9-1】 某机构为了调查学生性别和所学专业与毕业后 初始工资的情况,调查抽取了60个学生的数据,如表9.1所示 (其中“性别”1代表男性,0代表女性;“学科”1代表农学,2代 表建筑,3代表地质,4代表商务,5代表林学,6代表教育,7 代表工程,8代表艺术),试根据样本指标进行聚类分析。 (数据参见教材P206) 第1步 分析:由于自变量中不仅有连续属性,也有分类变量, 故采用二阶聚类进行分析。 第2步 数据组织:按表所示定义变量,输入数据并保存。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 46 9.2 二阶聚类 第3步 二阶聚类设置:按“分析分类两步聚类”顺序打开“ 二阶聚类分析”对话框,并按下图进行设置。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 47 9.2 二阶聚类 第4步 主要结果及分析: 二阶聚类的模型概要和聚类质量情况 聚类个案情况图 从中可以看出,此算法 采用的是两步(二阶) 聚类,共输入3个变量 ,将所有个案聚成3类 。聚类的平均轮廓值为 0.6(其范围值为-1.0 1.0,值越大越好) ,说明聚类质量较好。 可以看出各类所占的比例情况 SPSS 19(中文版)统计分析实用教程 电子工业出版社 48 9.2 二阶聚类 第4步 主要结果及分析: 各个案所属的分类号情况 SPSS 19(中文版)统计分析实用教程 电子工业出版社 49 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 50 9.3 K-均值聚类 9.3.1 基本概念及统计统计 原理 (1)基本概念 K-均值聚(也称快速聚类)是由用户指定类别 数的大样本资料的逐 步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类数 。分类变 量和连续变 量均可以参与两步聚类分析。 (2)统计统计 原理 如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。 由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标,n个 变量组成n维空间。每个观测量在n维空间中是一个点。K个事先选定的观 测量就是k个聚类中心,也称为初始类中心。 按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在 的类中去;形成第一次迭代形成的k类。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 51 9.3 K-均值聚类 根据组成每一类的观测量计算每个变量的均值,每一类中的n个均值 在n维空间中又形成k个点,这就是第二次迭代的类中心。 按照这种方法迭代下去,直到达到指定 的迭代次数或达到中止迭代 的判据要求时,迭代就停止了,聚类过程也就结束了。 (3)分析步骤 第1步 指定聚类数目k; 第2步 确定k个初始类中心; 第3步 根据距离最近原则进行分类; 第4步 重新确定k个类中心; 第5步 迭代计算。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 52 9.3 K-均值聚类 9.3.2 SPSS实实例分析 【例9-2】测量12名大学生对高等数学的心理状况和学习 效果,主要包括四个因素:学习动机、学习态度、自我感觉、 学习效果,具体数据如下表所示。试将该12名学生分成3类以 分析不同心理状况下学生的学习效果。 编号学习动 机学习态 度自我感觉学习效果 140805444 237735646 343707558 450778577 547878963 667708469 7773757100 880377382 983407696 1087437591 1160577085 1270506990 SPSS 19(中文版)统计分析实用教程 电子工业出版社 53 9.3 K-均值聚类 第1步 分析:由于已知分成3类,故可采用快速分类法。 第2步 数据组织组织 :按如上表的表头所示建立变量,将“编号 ”变量的数据类型设为字符型(作为标识变 量)。 第3步 快速聚类设类设 置,按“分析分类K-均值聚类”顺序 打开“K-均值聚类分析”对话框,将“学习动机”、“学习 态度”、“自我感觉”、“学习效果”四个变量选入“变量 ”列表框。将“编号”变量移入“个案标记依据”框中;将“ 聚类数”设为3。 其余“迭代”、“保存” 和“选项”设置参见教材。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 54 9.3 K-均值聚类 第4步 主要结结果及分析: 初始聚类中心表 Cluster 123 学习动 机406777 学习态 度807037 自我感觉548457 学习效果4469100 迭代历史表 由表可知,第一次迭代后,3个类的 中心点分别变化了8.193,9.889和 13.472。一共进行了10次迭代,达 到聚类结果的要求(达到最大迭代次 数),聚类分析结束。 由于没有指定初始聚类中心 ,列出了由系统指定的类中 心。与原数据比较,发现它 们分别是第1、第6和第7号 个案。 迭代聚类中心内的更改 123 18.1939.88913.472 23.9097.6314.701 31.3031.526.672 4.434.305.096 5.145.061.014 6.048.012.002 7.016.002.000 8.005.0003.996E-5 9.0029.768E-55.709E-6 10.0011.954E-58.155E-7 a. 迭代已停止,因为完成了最大次数的迭代。迭代 无法收敛。任何中心的最大绝对坐标更改为 .000。 当前迭代为 10。初始中心间的最小距离为 48.518。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 55 9.3 K-均值聚类 最终聚类中心表 如第1类的学习动机值为39,学习态 度值为77,自我感觉值为55,学习 效果值为45。 样本数情况 可看出第1,2,3类中分别含 有2,4,6个样本 聚类 123 学习动 机395276 学习态 度777644 自我感觉558370 学习效果456791 聚类12.000 24.000 36.000 有效12.000 缺失.000 SPSS 19(中文版)统计分析实用教程 电子工业出版社 56 9.3 K-均值聚类 分类保存情况 查看数据文件,可看到多出两 个变量,分别表示每个个案的 具体分类归属和与类中心的距 离。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 57 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程 电子工业出版社 58 9.4 系统聚类 9.4.1 基本概念与统计统计 原理 (1)基本概念 系统聚类是效果最好且经常使用的方法之一,国内外对 它进行了深入的研究,系统聚类在聚类过程中是按一定层次 进行的。具体分成两种,分别是Q型聚类和R型聚类,Q型聚类 是对样本(个案)进行的分类,它将具有共同特点的个案聚集 在一起,以便对不同类的样本进行分析;R型聚类是对变量进 行的聚类,它使具有共同特征的变量聚在一起,以便对不同类 的变量进行分析。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 59 9.4 系统聚类 9.4.1 基本概念与统计统计 原理 (2) 统计原理 系统聚类是根据个案或变量之间的亲疏程度,将最相似的对象聚集在一 起。根据系统聚类过程的不同,又分为凝聚法和分解法两种。凝聚法的原理 是将参与聚类的每个个案(或变量)视为一类,根据两类之间的距离或相似 性,逐步合并直到合并为一个大类为止;分解法的原理是将所有个案(或变 量)都视为一类,然后根据距离和相似性逐层分解,直到参与聚类的每个个 案(或变量)自成一类为止。 在层次聚类中,度量数据之间的亲疏程度是极为关键的。在衡量样本与 样本之间的距离时,一般使用的距离有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距离、Block距离、明可斯基距离(Minkowshi )、夹角余弦(Cosine)等。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 60 9.4 系统聚类 9.4.1 基本概念与统计统计 原理 (2) 统计原理 衡量样本数据与小类、小类与小类之间亲疏程度的度量 方法主要有以下7种: 最短距离法(Nearest Neighbor) ; 最短距离法(Nearest Neighbor) ; 最长距离法(Furthest Neighbor) ; 类间平均链锁法(Between-groups Linkage); 类内平均链锁法(Within-groups Linkage) ; 重心法(Centriod Clustering) ; 中间距离法(Median Clustering); 离差平方和(Wards Method)。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 61 9.4 系统聚类 9.4.2 SPSS实现举实现举 例 【例9-3】已知29例儿童的血中血红蛋白、钙、镁、铁、锰、 铜的含量如下表,试对数据进行变量聚类分析。 ordercamgfemncuhemogl ordercamgfemncuhemogl 154.8930.86448.70.0121.0113.51672.2840.12430.801.210.75 272.4942.61467.30.0081.64131755.1333.02445.80.0120.91810.5 353.8152.86 425.61 0.0041.2213.751870.0836.81409.80.0121.1910.25 464.7439.18469.80.0051.22141963.0535.07384.100.85310 5 58.837.67 456.55 0.0121.0114.25 20 48.7530.53342.90.0180.9249.75 643.6726.18 395.78 0.0010.59412.752152.2827.14 326.29 0.0040.8179.5 754.8930.86448.70.0121.0112.52252.2136.18 388.54 0.0241.029.25 886.1243.79 440.13 0.0171.7712.252349.7125.43331.10.0120.8979 960.3538.2394.40.0011.14122461.0229.27 258.94 0.0161.198.75 1054.0434.23405.60.0081.311.752553.6828.79292.80.0481.328.5 1161.2337.354460.0221.3811.52650.2229.17292.60.0061.048.25 1260.1733.67383.20.0010.91411.252765.3429.99312.80.0061.038 1369.6940.01416.70.0121.35112856.3929.292830.0161.357.8 1473.8932.94312.50.0641.157.252966.1231.93344.200.6897.5 1547.3128.55294.70.0050.8387 SPSS 19(中文版)统计分析实用教程 电子工业出版社 62 9.4 系统聚类 第1步 分析:根据题目要求,需进行变量聚类分析(即R型聚 类),故采用系统聚类分析中的R型聚类进行处理。 第2步 数据组织:如上表定义七个变量:“order”(编号)、 “ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜 )和“hemogl”(血红蛋白),其中“order”为字符串型,其余变 量为数值型。 第3步 进行按变量聚类的设置: 按“分析分类系统聚类”打开“系统聚类分析”对话框 ,将“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、 “cu”(铜)和“hemogl”(血红蛋白)几个变量选入“变量”列 表框。设置按“变量”分类,并选择输 出“统计量”和“图”,以 激活“统计量(S)”和“绘制(T)“两个按钮。 具体如下 面图所示。 SPSS 19(中文版)统计分析实用教程 电子工业出版社 63 9.4 系统聚类 SPSS 19(中文版)统计分析实用教程 电子工业出版社
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药剂学科研伦理与合规性试题及答案
- 未来趋势健康管理师考试试题及答案
- 药理作用机制考题及答案
- 生字闯关考试题及答案
- 肺结核分型试题及答案
- 卫生管理考试成功的要素试题及答案
- 病理技术面试题及答案
- 育婴师职业生涯规划试题及答案
- 病理学试题及答案
- 激光技术在新能源领域的应用试题及答案
- 实验室危险化学品安全管理
- 新疆乌鲁木齐市(2024年-2025年小学六年级语文)部编版期末考试(上学期)试卷及答案
- 初中数学新课程标准(2024年版)
- 计算机网络技术基础(微课版)(周舸第6版) 各章课后习题
- 中华传统文化进中小学课程教材指南
- 医疗抢救设备仪器培训
- 多模态数据应用案例分析
- 2025年中国电信云网资源管理技能认证考试题库(含各题型)
- 青春自护-远离不良诱惑主题班会
- 结构化面试的试题及答案
- 架空管道安装方案
评论
0/150
提交评论