《SPSS回归分析》PPT课件.ppt

上传人：x*** IP属地：四川上传时间：2019-01-24 格式：PPT 页数：81 大小：5.40MB 积分：15 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPSS 19(中文版)统计分析实用教程电子工业出版社 1 第八章回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 2 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 3 8.1 回归分析概述（1）确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系，函数表达确定性关系。研究变量间的非确定性关系，构造变量间经验公式的数理统计方法称为回归分析。（2）回归归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程，这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识，对这个经验公式的有效性进行判定，同时还可以利用这个经验公式，根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候，还可以通过因素分析，找出哪些自变量对因变量的影响是显显著的，哪些是不显显著的。 SPSS 19(中文版)统计分析实用教程电子工业出版社 4 （3）回归归分析的一般步骤骤 n第1步确定回归方程中的因变量和自变量。 n第2步确定回归模型。 n第3步建立回归方程。 n第4步对回归方程进行各种检验。拟合优度检验回归方程的显著性检验回归系数的显著性检验 n第5步利用回归方程进行预测。 8.1 回归分析概述 SPSS 19(中文版)统计分析实用教程电子工业出版社 5 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 6 8.2线性回归分析 8.2.1 基本概念及统计统计原理 1.基本概念线性回归假设因变量与自变量之间为线性关系，用一定的线性回归模型来拟合因变量和自变量的数据，并通过确定模型参数来得到回归方程。根据自变量的多少，线性回归可有不同的划分。当自变量只有一个时，称为一元线性回归，当自变量有多个时，称为多元线性回归。 SPSS 19(中文版)统计分析实用教程电子工业出版社 7 8.2线性回归分析 (2) 统计统计原理一元回归方程和多元回归方程一元线性和多元线性回归分析的核心任务就是估计其中的参数。 SPSS 19(中文版)统计分析实用教程电子工业出版社 8 8.2线性回归分析 8.2.2 SPSS实实例分析【例8-1】现有1992年-2006年国家财政收入和国内生产总值的数据如下表所示，请研究国家财政收入和国内生产总值之间的线性关系。年份国内生产总值（单位：亿元）财政收入（单位：亿元）年份国内生产总值（单位：亿元）财政收入（单位：亿元） 199226923.53483.37200099214.613395.23 199335333.94348.952001109655.216386.04 199448197.95218.102002120332.718903.64 199560793.76242.202003135822.821715.25 199671176.67407.992004159878.326396.47 199778973.08651.142005183867.931649.29 199884402.39875.952006210871.038760.20 199989677.111444.08 SPSS 19(中文版)统计分析实用教程电子工业出版社 9 8.2 线性回归分析第1步分析：这是一个因变量和一个自变量之间的问题，故应该考虑用一元线性回归解决。第2步数据组织：定义三个变量，分别为“year”（年份）、“x” （国内生产总值）、“y”（财政收入）。第3步作散点图，观察两个变量的相关性：依次选择菜单“图形旧对话框散点/点状简单分布”，并将“国内生产总值”作为x轴，“财政收入”作为y轴，得到如下所示图形。可以看出两变量具有较强的线性关系，可以用一元线性回归来拟合两变量。 SPSS 19(中文版)统计分析实用教程电子工业出版社 10 8.2 线性回归分析第4步一元线性回归分析设置：选择菜单“分析回归线性”，打开“线性回归”对话框，将变量“财政收入”作为因变量，“国内生产总值”作为自变量。打开“统计量”对话框，选上“估计”和“模型拟合度”。单击“绘制（T）”按钮，打开“线性回归：图”对话框，选用DEPENDENT作为y轴，*ZPRED为x轴作图。并且选择“ 直方图”和“正态概率图” 作相应的保存选项设置，如预测值、残差和距离等。 SPSS 19(中文版)统计分析实用教程电子工业出版社 11 8.2 线性回归分析第5步主要结果及分析：变量输入和移去表表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出，进入模型的自变量为“国内生产总值” 。模型综述表 R=0.989，说明自变量与因变量之间的相关性很强。R方 (R2) =0.979，说明自变量“国内生产总值”可以解释因变量 “财政收入”的97.9%的差异性。模型输入的变量移去的变量方法 1国内生产总值.输入 a. 已输入所有请求的变量。 b. 因变量: 财政收入。模型RR 方调整 R 方标准估计的误差 1.989a.979.9771621.66312 a. 预测变量：（常量），国内生产总值。b. 因变量：财政收入。 SPSS 19(中文版)统计分析实用教程电子工业出版社 12 8.2 线性回归分析方差分析表表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出，F统计量的观测值为592.25，显著性概率为0.000，即检验假设 “H0：回归系数B = 0”成立的概率为0.000，从而应拒绝原假设，说明因变量和自变量的线性关系是非常显著的，可建立线性模型。模型平方和df均方FSig. 1 回归1.557E911.557E9 592.250 残差34187286.770132629791.290 总计1.592E914 a. 预测变量：（常量），国内生产总值。b. 因变量：财政收入。 SPSS 19(中文版)统计分析实用教程电子工业出版社 13 8.2 线性回归分析回归系数表表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平（Sig.）。从表中可看出，回归模型的常数项为-4993.281，自变量“国内生产总值”的回归系数为 0.197。因此，可以得出回归方程：财政收入=-4993.281 + 0.197 国内生产总值。模型非标准化系数标准系数tSig. B标准误差试用版 1（常量）-4993.281919.356-5.431.000 国内生产总值.197.008.98924.336.000 回归系数的显著性水平为0.000，明显小于0.05，故应拒绝T检验的原假设，这也说明了回归系数的显著性，说明建立线性模型是恰当的。 SPSS 19(中文版)统计分析实用教程电子工业出版社 14 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 15 8.3 曲线估计 8.3.1 基本概念及统计统计原理 (1) 基本概念曲线估计（曲线拟合、曲线回归）则是研究两变量间非线性关系的一种方法，选定一种用方程表达的曲线，使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好，那么可以揭示因变量与自变量的内在关系，并对因变量的预测有一定的意义。在曲线估计中，需要解决两个问题：一是选用哪种理论模型，即用哪种方程来拟合观测值；二是当模型确定后，如何选择合适的参数，使得理论数据和实际数据的差异最小。 SPSS 19(中文版)统计分析实用教程电子工业出版社 16 8.3 曲线估计 (2) 统计原理在曲线估计中，有很多的数学模型，选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题，可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在可能的方程之间，以吻合度而论，也许存在着许多吻合得同样好的曲线方程。因此，在对曲线的形式的选择上，对采取什么形式需要有一定的理论，这些理论是由问题本质决定的。 (3) 分析步骤首先，在不能明确究竟哪种模型更接近样本数据时，可在上述多种可选择的模型中选择几种模型；其次，SPSS自动完成模型参数的估计，并输出回归方程显著性检验的F值和概率p值、决定系数R2等统计量；最后，以判定系数为主要依据选择其中的最优模型，并进行预测分析等。 SPSS 19(中文版)统计分析实用教程电子工业出版社 17 8.3 曲线估计 8.3.2 SPSS实实例分析【例8-3】表8.16是19892001年国家保费费收入与国内生产总值产总值的数据，试试研究保费费收入与国内生产总值产总值的关系。年度保费收入国民生产总值年度保费收入国民生产总值 19804.64517.81991239.721662.5 19817.84860.3199237826651.9 198210.35301.8199352534560.5 198313.25957.4199463046670 1984207206.7199568357494.9 198533.18989.1199677666850.5 198645.810201.41997108073142.7 198771.0411954.519981247.376967.2 1988109.514922.319991393.2280579.4 1989142.616917.820001595.988228.1 1990178.518598.420012109.3694346.4 SPSS 19(中文版)统计分析实用教程电子工业出版社 18 8.3 曲线估计第1步分析：先用散点图的形式进行分析，看究竟是否具有一元线性关系，如果具有一元线性关系，则用一元线性回归分析，否则采用曲线估计求解。第2步数据组织：定义为三个变量，分别是“year”（年度）、“y” （保费收入）和“x”（国内生产总值），输入数据并保存。第3步作散点图初步判定变量的分布趋势：保费收入y随国内生产总值 x的提高而逐渐提高，而且当国内生产总值达到一定水平后，保费收入的增幅更加明显。因此用线性回归模型表示x，y的关系是不恰当的。于是应找拟合效果好的模型。 SPSS 19(中文版)统计分析实用教程电子工业出版社 19 8.3 曲线估计第4步进行曲线估计：依次选择菜单“分析回归曲线估计” ，将所有模型全部选上，看哪种模型拟合效果更好(主要看决定系数R2)，其所有模型的拟合优度R2如下表所示。模型名称R Square（R2）直线（Linear）0.941 二次曲线（Quadratic）0.973 复合曲线（Compound）0.789 生长曲线（Growth）0.789 对数曲线（Logarithmic）0.772 三次曲线（Cubic）0.990 S曲线（S）0.946 指数曲线（Exponential）0.789 逆函数（Inverse）0.481 幂函数（Power）0.972 逻辑函数（Logistic）0.789 从决定系数（R方即R2）来看，三次曲线效果最好（因为其R2值最大），并且方差分析的显著性水平（Sig.）为 0。故重新进行上面的过程，只选“三次曲线（Cubic ）”一种模型。 SPSS 19(中文版)统计分析实用教程电子工业出版社 20 8.3 曲线估计第5步结果与分析。三次曲线模型拟合效果的检验表复相关系数R = 0.995，R2 = 0.990，经校正后的R平方值为 0.989。故可判断保费收入与国内生产总值之间有较显著的三次曲线关系方差分析表相伴概率Sig.=0.000 说明模型具有显著的统计学意义。 RR方调整R方估计值的标准误 .995.990.98964.883 自变量为国内生产总值。平方和df均方FSig. 回归7800612.55932600204.186 617.659.000 残差75775.960184209.776 总计7876388.51821 自变量为国内生产总值。 SPSS 19(中文版)统计分析实用教程电子工业出版社 21 8.3 曲线估计回归系数表从表中可知因变量与自变量的三次回归模型为： y=-166.430+0.029x-5.364E-7x2+5.022E-12x3 未标准化系数标准化系数 tSig. B标准误Beta 内民生产总值.029.0051.5065.836.000 国内生产总值 * 2-5.364E-7.000-2.554-4.277.000 国内生产总值 * 35.022E-12.0002.093 （常数）-166.43045.399-3.666.002 SPSS 19(中文版)统计分析实用教程电子工业出版社 22 9.2 曲线估计拟合效果图从图形上看出其拟合效果非常好。 SPSS 19(中文版)统计分析实用教程电子工业出版社 23 8.3 曲线估计说明：说明：曲线估计是一个自变量与因变量的非线性回归过程，但只能处理比较简单的模型。如果有多个自变量与因变量呈非线性关系时，就需要用其他非线性模型对因变量进行拟合， SPSS 19中提供了“非线性”过程，由于涉及的模型很多，且非线性回归分析中参数的估计通常是通过迭代方法获得的，而且对初始值的设置也有较高的要求，如果初始值选择不合适，即使指定的模型函数非常准确，也会导致迭代过程不收敛，或者只得到一个局部最优值而不能得到整体最优值。 SPSS 19(中文版)统计分析实用教程电子工业出版社 24 主要内容 8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 25 8.4.1 基本概念及统计原理（1）基本概念 Logistic回归分析就是针对因变量是定性变量的回归分析。根据因变量取值类别数量不同，Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析。二元Logistic回归模型中因变量只可以取两个值1 和0（虚拟因变量），而多元Logistic回归模型中因变量可取多个值。 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 26 （2）统计原理 logit变换 8.4 二元Logistic回归分析 Logistic回归模型 Logistic回归模型 SPSS 19(中文版)统计分析实用教程电子工业出版社 27 （3）统计检验与线性回归一样，拟合时也要考虑模型是否合适、哪些变量该保留、拟合效果如何等问题。线性回归中常用的是决定系数R2，T检验、F检验等工具在这里均不再适用。在 Logistic回归中常用的检验有-2对数似然检验（-2 log（ likelihood）, -2LL）、Hosmer和Lemeshow的拟合优度检验、Wald检验等。 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 28 8.4.2 SPSS实例分析【例8-4】诊断发现运营不良的金融企业是审计核查的一项重要功能，审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率，其中33家在2年后破产（Y = 0），另外33家在同期保持偿付能力（Y = 1）。请用变量X1（未分配利润/总资产）、X2（税前利润/总资产）和X3（销售额/总资产）拟合一个Logistic回归模型。 8.4 二元Logistic回归分析 X1X2X3YX1X2X3YX1X2X3YX1X2X3Y -62.8-89.51.704316.41.31-27.96.31.3031.415.71.91 3.3-3.51.1047161.91-48.26.81.6021.5-14.411 -120.8-103.22.50-3.342.71-49.2-17.20.308.55.81.51 -18.1-28.81.103520.81.91-19.2-36.70.8040.65.81.81 -3.8-50.60.9046.712.60.91-18.1-6.50.9034.626.41.81 -61.2-56.21.7020.812.52.41-98-20.81.7019.926.72.31 -20.3-17.4103323.61.51-129-14.21.3017.412.61.31 -194.5-25.80.5026.110.42.11-4-15.82.1054.714.61.71 20.8-4.31068.613.81.61-8.7-36.32.8053.520.61.11 -106.1-22.91.5037.333.43.51-59.2-12.82.1035.926.421 -39.4-35.71.205923.15.51-13.1-17.60.9039.430.51.91 -164.1-17.71.3049.623.81.91-381.61.2053.17.11.91 -308.9-65.80.8012.571.81-57.90.70.8039.813.81.21 7.2-22.62037.334.11.51-8.8-9.10.9059.5721 -118.3-34.21.5035.34.20.91-64.7-40.1016.320.411 -185.9-2806.7049.525.12.61-11.44.80.90 -34.6-19.43.4018.113.54121.7-7.81.61 SPSS 19(中文版)统计分析实用教程电子工业出版社 29 第1步分析：共有3个自变量，均是定量数据类型，而因变量是定性的，取值有两种状态（0和1），这是一个典型的可用二元Logistic回归解决的问题。第2步数据组织：定义三个自变量X1，X2和X3，再定义因变量Y，输入数据并保存。第3步二元Logistic回归归分析设设置：（设置过程详见教材p195-197）第4步主要结结果及分析：数据的基本信息表 8.4 二元Logistic回归分析未加权的案例aN百分比选定案例包括在分析中66100.0 缺失案例0.0 总计66100.0 未选定的案例0.0 总计66100.0 a. 如果权重有效，请参见分类表以获得案例总数。给出了数据进入模型的记录数 SPSS 19(中文版)统计分析实用教程电子工业出版社 30 模型系数的检验结检验结果 8.4 二元Logistic回归分析其中常数项系数为0.000 ，其相伴概率为1，可见常数项不显著。X1，X2 和X3的相伴概率分别是 0.000，0.000和0.094，如果以5%为置信的话， X1和X2的系数通过了检验，即这两个变量是显著的。 BS.E,WalsdfSig.Exp (B) 步骤 0常量.000.246.00011.0001.000 得分dfSig. 步骤 0变量X131.6211.000 X219.3581.000 X32.8001.094 总统计量37.6133.000 SPSS 19(中文版)统计分析实用教程电子工业出版社 31 模型全局检验结检验结果表 8.4 二元Logistic回归分析共采用了三种检验方法，分别是步与步间的相对似然比检验、块（ Block）间的相对似然比检验和模型间的相对似然比检验。由于本例中只有一个自变量组且采取强行进入法将所有变量纳入模型，所以三种检验方法的结果是一致的，模型有显著的统计意义。模型情况摘要表。主要给出-2对数似然值的两个决定系数，从数据上看，模型的拟合度不错。卡方dfSig. 步骤 1步骤85.6833.000 块85.6833.000 模型85.6833.000 步骤 -2 对数似然值 Cox & Snell R 方 Nagelkerke R 方 15.813a.727.969 a. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 12 处终止。 SPSS 19(中文版)统计分析实用教程电子工业出版社 32 模型分类预测值类预测值表 8.4 二元Logistic回归分析此时模型的预测准确率已达到 97%。表格从左到右依次表示变量及常数项的系数值（B）、标准误差（S.E.）、Wald卡方值、自由度（df）、相伴概率（Sig.）、Exp（B）。由于各回归系数均为正数，取相应的指数后会大于1，表示X1，X2和X3的取值越大，“ 两年后具有偿付能力”的可能性比“两年后破产”的可能性就越大，已观测已预测 Y百分比校正两年后破产两年后仍有偿付能力步骤 1 Y 两年后破产32197.0 两年后仍有偿付能力 13297.0 总计百分比97.0 a. 切割值为 .500。 Logistic模型的参数拟拟合表 BS.E,WalsdfSig.Exp (B)EXP(B)的95% C.I. 下限上限步骤 1aX1.331.3011.2131.2711.393.7722.511 X2.181.1072.8621.0911.198.9721.478 X35.0875.0821.0021.317161.979.0083430718.695 常量-10.15310.840.8771.349.000 a. 在步骤 1 中输入的变量: X1, X2, X3. SPSS 19(中文版)统计分析实用教程电子工业出版社 33 Logistic回归归模型 8.4 二元Logistic回归分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 34 The End SPSS 19(中文版)统计分析实用教程电子工业出版社 35 第九章聚类和判别分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 36 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 37 9.1 聚类与判别分析概述 9.1.1 基本概念 (1) 聚类类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同，聚类分析可分为对样本的聚类和对变量的聚类两种。 (2) 判别别分析判别分析是判别样本所属类型的一种统计方法。 SPSS 19(中文版)统计分析实用教程电子工业出版社 38 9.1 聚类与判别分析概述 9.1.2 样样本间亲间亲疏关系的度量 (1)连续变连续变量的样样本间间距离常用度量主要方法有欧氏距离（Euclidean Distance）、欧氏平方距离（Squared Euclidean Distance）、切比雪夫距离（ Chebychev Distance）、明可斯基距离（Minkowski Distance ）、用户自定义距离（Customize Distance）、Pearson相关系数、夹角余弦（Cosine）等。（公式见教材表7.9） (2)顺顺序变变量的样样本间间距离常用度量常用的有统计量（Chi-square measure）和统计量（ Phi-square measure）。（公式见教材表7.10） SPSS 19(中文版)统计分析实用教程电子工业出版社 39 9.1 聚类与判别分析概述 9.1.1 基本概念 (3) 二者区别别不同之处在于，判别分析是在已知研究对象分为若干类型（或组别）并已取得各种类型的一批已知样本的观测量数据的基础上，根据某些准则建立判别式，然后对未知类型的样本进行差别分析。 SPSS 19(中文版)统计分析实用教程电子工业出版社 40 9.1 聚类与判别分析概述说明：说明：聚类分析的目的是找到样本中数据的特点，因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量，则应先对变量进行标准化处理，而后再进行聚类。变量间的关系度量模型与样本间相类似，只不过一个用矩阵的行进行计算，另一个用矩阵的列进行计算。 SPSS 19(中文版)统计分析实用教程电子工业出版社 41 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 42 9.2 二阶聚类 9.2.1 基本概念及统计统计原理（1）基本概念二阶聚类（TwoStep Cluster）（也称为两步聚类）是一个探索性的分析工具（），为揭示自然的分类或分组而设计，是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法（Hierarchical Algorithms）,目前主要应用到数据挖掘（Data Mining）和多元数据统计的交叉领域模式分类中。该过程主要有以下几个特点：分类变量和连续变量均可以参与二阶聚类分析；该过程可以自动确定分类数；可以高效率地分析大数据集；用户可以自己定制用于运算的内存容量。 SPSS 19(中文版)统计分析实用教程电子工业出版社 43 9.2 二阶聚类 9.2.1 基本概念及统计统计原理（2）统计原理两步法的功能非常强大，而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外，为了处理分类变量和连续变量，它用似然距离测度，它要求模型中的变量是独立的，分类变量是多项式分布，连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。 SPSS 19(中文版)统计分析实用教程电子工业出版社 44 9.2 二阶聚类 9.2.1 基本概念及统计统计原理（3）分析步骤第1步预聚类：对每个观测变量考察一遍，确定类中心。根据相近者为同一类的原则，计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树（CF）。第2步正式聚类：使用凝聚算法对特征树的叶节点分组，凝聚算法可用来产生一个结果范围。 SPSS 19(中文版)统计分析实用教程电子工业出版社 45 9.2 二阶聚类 9.2.2 SPSS实实例分析【例9-1】某机构为了调查学生性别和所学专业与毕业后初始工资的情况，调查抽取了60个学生的数据，如表9.1所示（其中“性别”1代表男性，0代表女性；“学科”1代表农学，2代表建筑，3代表地质，4代表商务，5代表林学，6代表教育，7 代表工程，8代表艺术），试根据样本指标进行聚类分析。（数据参见教材P206）第1步分析：由于自变量中不仅有连续属性，也有分类变量，故采用二阶聚类进行分析。第2步数据组织：按表所示定义变量，输入数据并保存。 SPSS 19(中文版)统计分析实用教程电子工业出版社 46 9.2 二阶聚类第3步二阶聚类设置：按“分析分类两步聚类”顺序打开“ 二阶聚类分析”对话框，并按下图进行设置。 SPSS 19(中文版)统计分析实用教程电子工业出版社 47 9.2 二阶聚类第4步主要结果及分析：二阶聚类的模型概要和聚类质量情况聚类个案情况图从中可以看出，此算法采用的是两步（二阶）聚类，共输入3个变量，将所有个案聚成3类。聚类的平均轮廓值为 0.6（其范围值为-1.0 1.0，值越大越好），说明聚类质量较好。可以看出各类所占的比例情况 SPSS 19(中文版)统计分析实用教程电子工业出版社 48 9.2 二阶聚类第4步主要结果及分析：各个案所属的分类号情况 SPSS 19(中文版)统计分析实用教程电子工业出版社 49 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 50 9.3 K-均值聚类 9.3.1 基本概念及统计统计原理（1）基本概念 K-均值聚（也称快速聚类）是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类，然后逐步调整，得到最终分类数。分类变量和连续变量均可以参与两步聚类分析。（2）统计统计原理如果选择了n个数值型变量参与聚类分析，最后要求聚类数为k。由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标，n个变量组成n维空间。每个观测量在n维空间中是一个点。K个事先选定的观测量就是k个聚类中心，也称为初始类中心。按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去；形成第一次迭代形成的k类。 SPSS 19(中文版)统计分析实用教程电子工业出版社 51 9.3 K-均值聚类根据组成每一类的观测量计算每个变量的均值，每一类中的n个均值在n维空间中又形成k个点，这就是第二次迭代的类中心。按照这种方法迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，迭代就停止了，聚类过程也就结束了。（3）分析步骤第1步指定聚类数目k；第2步确定k个初始类中心；第3步根据距离最近原则进行分类；第4步重新确定k个类中心；第5步迭代计算。 SPSS 19(中文版)统计分析实用教程电子工业出版社 52 9.3 K-均值聚类 9.3.2 SPSS实实例分析【例9-2】测量12名大学生对高等数学的心理状况和学习效果，主要包括四个因素：学习动机、学习态度、自我感觉、学习效果，具体数据如下表所示。试将该12名学生分成3类以分析不同心理状况下学生的学习效果。编号学习动机学习态度自我感觉学习效果 140805444 237735646 343707558 450778577 547878963 667708469 7773757100 880377382 983407696 1087437591 1160577085 1270506990 SPSS 19(中文版)统计分析实用教程电子工业出版社 53 9.3 K-均值聚类第1步分析：由于已知分成3类，故可采用快速分类法。第2步数据组织组织：按如上表的表头所示建立变量，将“编号 ”变量的数据类型设为字符型（作为标识变量）。第3步快速聚类设类设置，按“分析分类K-均值聚类”顺序打开“K-均值聚类分析”对话框，将“学习动机”、“学习态度”、“自我感觉”、“学习效果”四个变量选入“变量 ”列表框。将“编号”变量移入“个案标记依据”框中；将“ 聚类数”设为3。其余“迭代”、“保存” 和“选项”设置参见教材。 SPSS 19(中文版)统计分析实用教程电子工业出版社 54 9.3 K-均值聚类第4步主要结结果及分析：初始聚类中心表 Cluster 123 学习动机406777 学习态度807037 自我感觉548457 学习效果4469100 迭代历史表由表可知，第一次迭代后，3个类的中心点分别变化了8.193，9.889和 13.472。一共进行了10次迭代，达到聚类结果的要求（达到最大迭代次数），聚类分析结束。由于没有指定初始聚类中心，列出了由系统指定的类中心。与原数据比较，发现它们分别是第1、第6和第7号个案。迭代聚类中心内的更改 123 18.1939.88913.472 23.9097.6314.701 31.3031.526.672 4.434.305.096 5.145.061.014 6.048.012.002 7.016.002.000 8.005.0003.996E-5 9.0029.768E-55.709E-6 10.0011.954E-58.155E-7 a. 迭代已停止，因为完成了最大次数的迭代。迭代无法收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 10。初始中心间的最小距离为 48.518。 SPSS 19(中文版)统计分析实用教程电子工业出版社 55 9.3 K-均值聚类最终聚类中心表如第1类的学习动机值为39，学习态度值为77，自我感觉值为55，学习效果值为45。样本数情况可看出第1，2，3类中分别含有2，4，6个样本聚类 123 学习动机395276 学习态度777644 自我感觉558370 学习效果456791 聚类12.000 24.000 36.000 有效12.000 缺失.000 SPSS 19(中文版)统计分析实用教程电子工业出版社 56 9.3 K-均值聚类分类保存情况查看数据文件，可看到多出两个变量，分别表示每个个案的具体分类归属和与类中心的距离。 SPSS 19(中文版)统计分析实用教程电子工业出版社 57 主要内容 9.1 聚类与判别分析概述 9.2 二阶聚类 9.3 K-均值聚类 9.4 系统聚类 9.5 判别分析 SPSS 19(中文版)统计分析实用教程电子工业出版社 58 9.4 系统聚类 9.4.1 基本概念与统计统计原理（1）基本概念系统聚类是效果最好且经常使用的方法之一，国内外对它进行了深入的研究，系统聚类在聚类过程中是按一定层次进行的。具体分成两种，分别是Q型聚类和R型聚类，Q型聚类是对样本（个案）进行的分类，它将具有共同特点的个案聚集在一起，以便对不同类的样本进行分析；R型聚类是对变量进行的聚类，它使具有共同特征的变量聚在一起，以便对不同类的变量进行分析。 SPSS 19(中文版)统计分析实用教程电子工业出版社 59 9.4 系统聚类 9.4.1 基本概念与统计统计原理 (2) 统计原理系统聚类是根据个案或变量之间的亲疏程度，将最相似的对象聚集在一起。根据系统聚类过程的不同，又分为凝聚法和分解法两种。凝聚法的原理是将参与聚类的每个个案（或变量）视为一类，根据两类之间的距离或相似性，逐步合并直到合并为一个大类为止；分解法的原理是将所有个案（或变量）都视为一类，然后根据距离和相似性逐层分解，直到参与聚类的每个个案（或变量）自成一类为止。在层次聚类中，度量数据之间的亲疏程度是极为关键的。在衡量样本与样本之间的距离时，一般使用的距离有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距离、Block距离、明可斯基距离（Minkowshi ）、夹角余弦（Cosine）等。 SPSS 19(中文版)统计分析实用教程电子工业出版社 60 9.4 系统聚类 9.4.1 基本概念与统计统计原理 (2) 统计原理衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下7种：最短距离法（Nearest Neighbor）；最短距离法（Nearest Neighbor）；最长距离法（Furthest Neighbor）；类间平均链锁法（Between-groups Linkage）；类内平均链锁法（Within-groups Linkage）；重心法（Centriod Clustering）；中间距离法（Median Clustering）；离差平方和（Wards Method）。 SPSS 19(中文版)统计分析实用教程电子工业出版社 61 9.4 系统聚类 9.4.2 SPSS实现举实现举例【例9-3】已知29例儿童的血中血红蛋白、钙、镁、铁、锰、铜的含量如下表，试对数据进行变量聚类分析。 ordercamgfemncuhemogl ordercamgfemncuhemogl 154.8930.86448.70.0121.0113.51672.2840.12430.801.210.75 272.4942.61467.30.0081.64131755.1333.02445.80.0120.91810.5 353.8152.86 425.61 0.0041.2213.751870.0836.81409.80.0121.1910.25 464.7439.18469.80.0051.22141963.0535.07384.100.85310 5 58.837.67 456.55 0.0121.0114.25 20 48.7530.53342.90.0180.9249.75 643.6726.18 395.78 0.0010.59412.752152.2827.14 326.29 0.0040.8179.5 754.8930.86448.70.0121.0112.52252.2136.18 388.54 0.0241.029.25 886.1243.79 440.13 0.0171.7712.252349.7125.43331.10.0120.8979 960.3538.2394.40.0011.14122461.0229.27 258.94 0.0161.198.75 1054.0434.23405.60.0081.311.752553.6828.79292.80.0481.328.5 1161.2337.354460.0221.3811.52650.2229.17292.60.0061.048.25 1260.1733.67383.20.0010.91411.252765.3429.99312.80.0061.038 1369.6940.01416.70.0121.35112856.3929.292830.0161.357.8 1473.8932.94312.50.0641.157.252966.1231.93344.200.6897.5 1547.3128.55294.70.0050.8387 SPSS 19(中文版)统计分析实用教程电子工业出版社 62 9.4 系统聚类第1步分析：根据题目要求，需进行变量聚类分析（即R型聚类），故采用系统聚类分析中的R型聚类进行处理。第2步数据组织：如上表定义七个变量：“order”（编号）、 “ca”（钙）、“mg”（镁）、“fe”（铁）、“mn”（锰）、“cu”（铜）和“hemogl”（血红蛋白），其中“order”为字符串型，其余变量为数值型。第3步进行按变量聚类的设置：按“分析分类系统聚类”打开“系统聚类分析”对话框，将“ca”（钙）、“mg”（镁）、“fe”（铁）、“mn”（锰）、 “cu”（铜）和“hemogl”（血红蛋白）几个变量选入“变量”列表框。设置按“变量”分类，并选择输出“统计量”和“图”，以激活“统计量（S）”和“绘制（T）“两个按钮。具体如下面图所示。 SPSS 19(中文版)统计分析实用教程电子工业出版社 63 9.4 系统聚类 SPSS 19(中文版)统计分析实用教程电子工业出版社

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《SPSS回归分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《SPSS回归分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档