版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,1,数学建模讲座,多元统计分析,为振兴中华而读书!,.,2,第一部分 理论分析,1.1 相关分析 1.2 路径分析 1.3 结构方程模型 1.4 聚类分析 1.5 因子分析,.,3,相关分析,.,4,(一)相关关系 (1)函数关系:(如:销售额与销售量;圆面积和圆半径.) 是事物间的一种一一对应的确定性关系.即:当一个变量x取一定值时,另一变量y可以依确定的关系取一个确定的值 (2)统计关系:(如:收入和消费;身高的遗传.) 事物间的关系不是确定性的.即:当一个变量x取一定值时,另一变量y的取值可能有几个.一个变量的值不能由另一个变量唯一确定,.,5,概述,统计关系的常见类型: 线性相关:
2、正线性相关、负线性相关 非线性相关 统计关系不象函数关系那样直接,但却普遍存在,且有强有弱.如何测度?,.,6,概述,(二) 相关分析的任务 研究对象:统计关系 相关分析旨在测度变量间线性关系的强弱程度,.,7,相关分析,(一)目的 通过样本数据,研究两变量间线性相关程度的强弱. (二)基本方法 绘制散点图、计算相关系数,.,8,绘制散点图,(一)散点图 将数据以点的形式绘制在直角平面上.比较直观,可以用来发现变量间的关系和可能的趋势.,体现了正相关趋势,.,9,绘制散点图,(二)基本操作步骤 (1)菜单选项:graphs-scatter (2)选择散点图类型: simple:简单散点图(显示
3、一对变量的散点图) overlay:重叠散点图(显示多对变量的散点图) (3)选择x轴和y轴的变量 (4)选择分组变量(set markers by):分别以不同颜色点的表示 (5)选择标记变量(label case by): 散点图上可带有标记变量的值(如:职工号),.,10,计算相关系数,(一)相关系数 (1)作用: 以精确的相关系数(r)体现两个变量间的线性关系程度. r:-1,+1; r=1:完全正相关; r=-1:完全负相关; r=0:无线性相关; |r|0.8:强相关; |r|0.3:弱相关,.,11,计算相关系数,(一)相关系数 (2)说明: 相关系数只是较好地度量了两变量间的线
4、性相关程度,不能描述非线性关系. 如:x和y的取值为:(-1,-1) (-1,1) (1,-1) (1,1) r=0 但 xi2+yi2=2 数据中存在极端值时不好 如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1) r=0.33 但总体上表现出: x=y 应结合散点图分析,.,12,计算相关系数,(一)相关系数 (3)种类: 简单线性相关系数(Pearson):针对定距数据. (如:身高和体重),.,13,计算相关系数,(一)相关系数 (3)种类: Spearman相关系数:用来度量定序或定类变量间的线性相关关系(如:不同年龄段与不同收入段,职称和受教育年份) 利用秩(数
5、据的排序次序).认为:如果x与y相关,则相应的秩Ui、Vi也具有同步性. 首先得到两变量中各数据的秩( Ui、Vi),并计算Di2统计量. 计算Spearman秩相关系数,与简单相关系数形式完全相同. 若两变量存在强正相关性,则Di2应较小,秩序相关系数较大.若两变量存在强负相关性,则Di2应较大,秩序相关系数为负,绝对值较大,.,14,计算相关系数,(一)相关系数 (3)种类: Kendall相关系数:度量定序定类变量间的线性相关关系 首先计算一致对数目(U)和非一致对数目(V) 如: 对x和y求秩后为: x: 2 4 3 5 1 y: 3 4 1 5 2 x的秩按自然顺序排序后: x: 1
6、 2 3 4 5 y: 2 3 1 4 5 一致对:(2,3) (2,4)(2,5)(3,4)(3,5)(1,4)(1,5)(4,5) 非一致对:(2,1)(3,1) 然后计算Kendall相关系数. 若两变量存在强相关性,则V较小,秩序相关系数较大;若两变量存在强负关性,则V较大,秩序相关系数为负,绝对值较大,.,15,计算相关系数,(二)相关系数检验 应对两变量来自的总体是否相关进行统计推断. 原因:抽样的随机性、样本容量小等 (1)H0:两总体零相关 (2)构造统计量,简单相关系数,Spearman系数,大样本 下,近似正态分布,kendall系数,大样本 下,近似正态分布,.,16,计
7、算相关系数,(二)相关系数检验 (3)计算统计量的值,并得到对应的相伴概率p (4)结论: 如果pa,不能拒绝H0.,.,17,计算相关系数,(三)基本操作步骤 (1)菜单选项:analyze-correlate-bivariate. (2)选择计算相关系数的变量到variables框. (3)选择相关系数(correlation coefficients). (4)显著性检验(test of significance) tow-tailed:输出双尾概率P. one-tailed:输出单尾概率P,.,18,计算相关系数,(四)其他选项 statistics选项:仅当计算简单相关系数时,选择输
8、出哪些统计量. means and standard deviations:均值、标准差; cross-product deviations and covariances:分别输出两变量的离差平方和(sum of square 分母)、两变量的差积和(cross-products分子)、协方差(covariance 以上各个数据除以n-1),.,19,偏相关分析,(一)偏相关系数 (1)含义: 在控制了其他变量的影响下计算两变量的相关系数。 虚假相关. 研究商品的需求量和价格、消费者收入之间的关系.因为:需求量和价格之间的相关关系包含了消费者收入对商品需求量的影响;收入对价格也产生影响,并通
9、过价格变动传递到对商品需求量的影响中。 又如:粮食产量与平均气温、月降水量、平均日照时间、温度之间的关系的研究。,.,20,偏相关分析,(2)计算方法:,.,21,偏相关分析,(二)基本操作步骤 (1).菜单选项:analyze-correlate-partial (2).选择将参加计算的变量到variable框. (3).选择控制变量到controlling for 框。 (4)option选项: zero-order correlations:输出简单相关系数矩阵,.,22,路径分析,.,23,2020/12/2,23,第十章 路径分析,目录 上页 下页 返回 结束,20世纪初,“Pear
10、son原理”占着生物遗传学(在过去几乎就是我们现在所称作的统计学)的统治地位。Pearson原理的一个基本内容就是相关关系是现实生活中最基本的关系,而因果关系仅仅是完全相关的(理论)极限。这种理论认为没必要寻找变量之间的因果关系,只需计算相关系数。然而相关分析逐渐暴露出自身的很多局限:一是相关分析仅仅反应变量之间的线性关系;二是相关分析反应变量之间的关系是对称的,而很多变量之间的关系是非对称的;三是只有在正态假设下,相关思想才是有效的。,.,24,2020/12/2,24,第十章 路径分析,目录 上页 下页 返回 结束,在遗传学中,很多现象具有明显的因果关系,如父代与子代的基因关系,父代在前,
11、子代在后,二者的关系只能是单向的,而非对称的。对这种变量结构进行思考,遗传学家Sewall Wright于1918-1921年提出路径分析(path analysis),用来分析变量间的因果关系。现代的路径分析由生物遗传学家、心理测验学家、计量经济学家以及社会学家的推进,引入隐变量(latent variable, 又称unmeasured variable, 不可观测变量),并允许变量间具有测量误差,并且极大似然估计代替了最小二乘法,成为路径系数主流的估计方法。,.,25,2020/12/2,25,第十章 路径分析,目录 上页 下页 返回 结束,路径分析现在成为多元分析的一种重要方法,广泛应
12、用于遗传学、社会学、心理学、经济问题和市场调研领域。然而习惯上把基于最小二乘的传统的路径分析称作路径分析,而把基于极大似然的路径分析称作结构方程式模型(Structural Equation Modeling,SEM)。本节主要介绍传统的路径分析,不进行特别说明,本节所提到的路径分析均指基于最小二乘的路径分析,结构方程式模型方在下节介绍。,.,26,2020/12/2,26,目录 上页 下页 返回 结束,一、路径图,路径分析的主要工具是路径图,它采用一条带箭头的线(单箭头表示变量间的因果关系,双箭头表示变量间的相关关系)表示变量间预先设定的关系,箭头表明变量间的关系是线性的,很明显,箭头表示着
13、一种因果关系发生的方向。在路径图中,观测变量一般写在矩形框内,不可观测变量一般写在椭圆框内,对于简单的路径模型,可以直接用字母表示变量,绘出路径图。,.,27,2020/12/2,27,目录 上页 下页 返回 结束,图10-1是一个简单的路径路,A是父亲智商,B是母亲智商,C1、C2是两个成年子女的智商, 是与A,B不相关的另外原因变量。一般来说,父母亲的智商之间不存在关系;父母亲的智商对子女的智商存在因果关系,用单箭头表示,子女的之间,存在相关关关系,用双箭头表示。箭头上的字母表示路径系数,路径系数反应原因变量对结果变量的相对影响大小。在路径分析中一般采用经过标准化后的变量,没有特别说明,均
14、指经过标准化后的变量。可以把图10-1写为方程式的形式:,(10.1),.,28,2020/12/2,28,目录 上页 下页 返回 结束,式(10.1)实际上是普通的多元回归方程,多元回归分析是因果关系模型的一种,但它是一种比较简单的因果关系模型,各个自变量对因变量的作用并列存在,它仅包含一个环节的因果结构。路径分析的优势在于它可以容纳多环节的因果结构,通过路径图把这些因果关系很清楚地表示出来,据此进行更深层次的分析,如比较各种因素之间的相对重要程度,计算变量与变量之间的直接与间接影响,这在后面会涉及到。,图10-2是有关一种消费性电子产品(如手机)路径分析的例子(这里省略了路径系数),四个变
15、量耐用性、操作的简单性、通话效果和价格两两相关,决定感知价值,同时通过感知价值决定忠诚度。相对于图10-1,它具有两层的因果关系。接下来主要以图10-2为例,说明路径图中的一些基本概念。,.,29,2020/12/2,29,目录 上页 下页 返回 结束,10.1.1 路径图,.,30,2020/12/2,30,目录 上页 下页 返回 结束,路径图上的变量分为两大类:一类是外生变量(exogenous variable,又称独立变量,源变量),它不受模型中其他变量的影响,如图10-2中的耐用性、操作的简单性、通话效果和价格。与此相反,另一类是内生变量(endogenous variable,又称
16、因变量或下游变量),在路径图上至少有一个箭头指向它,它被模型中的其它一些变量所决定,如图10-2中的感知价值由耐用性、操作的简单性、通话效果和价格四个变量和随机误差e5决定,忠诚度取决于四个外生变量、感知价值和随机误差e6。此外,我们可以将路径图中不影响其它变量的内生变量称为最终结果变量(ultimate response variable),最终结果变量不一定只有一个。图10-2中忠诚度是最终结果变量。,.,31,2020/12/2,31,目录 上页 下页 返回 结束,其他变量(A)对内生变量(B)的影响有两种情况:若A直接通过单向箭头对B具有因果影响,称A 对B有直接作用(direct e
17、ffect);若A 对B的作用是间接地通过其他变量(C)起作用,称A 对B有间接作用(indirect effect),称C为中间变量(mediator variable)。变量间的间接作用常常由多种路径最终总合而成。图10-2中,四个外生变量耐用性、操作的简单性、通话效果和价格既对忠诚度有直接作用,同时通过感知价值对忠诚度具有间接作用。,.,32,2020/12/2,32,目录 上页 下页 返回 结束,如果模型中包含中间变量,首先从理论角度考虑,这个中间作用是否有理论依据,其次实际工作者会提出这样的问题:“模型中中间变量的中间影响显著吗?”,这些问题涉及到对中间变量的间接作用进行检验。Bar
18、ron, R.M. 其中 proc calis 是调用SAS中的CALIS过程,选项cov要求对协方差阵进行分析,没有cov选项时则计算和分析相关阵;而data=wheaton是调用我们分析所用的数据库(注:这是SAS自带的数据库);选项tech=lm代表的是使用Levenberg-Marquandt或Newton-Raphson的最优化方法,这里使用的是后者;选项edf=931指明了自由度的个数,即931个样本数据。,.,118,2020/12/2,118,目录 上页 下页 返回 结束,结构方程模型的计算机实现,根据这些规定,表11-1的语句给出了上例中“神经错乱”数据的RAM结构模型(注意
19、表11-1中第五列给出字母与图11-1中稍有不同)。,其中 Vnames 1 F1-F3, 2 E1-E6 D1-D3;给出了隐变量和误差变量的名字。 拿ram语句的第一行来说明路径图的描述,即该箭头为单箭头,从变量7出发,指向变量1,箭头表示的系数值为1。,.,119,2020/12/2,119,目录 上页 下页 返回 结束,结构方程模型的计算机实现,通过运行上面的程序,输出结果11-1(这里仅给出了检验结果,读者运行时还会看到反映变量关系的其他结果,在此不一一列出),可以通过这一结果对模型的正确性进行判断。,.,120,2020/12/2,120,目录 上页 下页 返回 结束,结构方程模型
20、的计算机实现,LISREL软件简介 LISREL(linear structural relations)是专门为进行结构方程分析而编写的统计分析软件。与SAS软件中的CALIS有所不同的是,LISREL的路径图可以在输出结果中直观给出,并能够在图形窗口进行编辑和修改。 LISREL能够在图形窗口进行编辑和修改路径图。用光标点击命令行的path diagram或相应的图标,即进入图形窗口。在图形窗口命令行点击model,可以选择显示不同的图形。对模板图形进行修改和变动,可以得到所需的路径图。图形窗口命令行的其他命令的用途分别是:exit退出该窗口,kind调出其他统计结果以便对路径图进行修改,
21、options修改统计数值得小数位显示长度,print打印路径图,zoom对路径图进行放大和缩小,re-estimate是根据统计分析结果对路径图进行修改之后再次运行估计程序。,.,121,2020/12/2,121,目录 上页 下页 返回 结束,结构方程模型的计算机实现,首先,需要编写并运行程序命令。LISREL程序包含一子程序PRELIS,该子程序对结构方程模型数据进行预处理。该程序包括多个指令,指示原始数据的出处以及变量信息和结果的存入。表11-2 以程序的形式简略的给出了PRELIS的基本指令。,.,122,2020/12/2,122,目录 上页 下页 返回 结束,结构方程模型的计算机
22、实现,原始数据经过预处理可以得到其协方差矩阵。根据协方差矩阵开始编写LISREL程序。如表11-3所示。,.,123,2020/12/2,123,目录 上页 下页 返回 结束,11.5 结构方程模型的计算机实现,.,124,2020/12/2,124,目录 上页 下页 返回 结束,结构方程模型的计算机实现,LISREL能够提供结果路径图并且能够在图形窗口进行编辑和修改路径图。用光标点击命令行的pathdiagram或相应的图标,即进入图形窗口。在图形窗口命令行点击model,可以选择显示不同的图形(x模型、y模型和结构模型)。 由于篇幅所限,对LISREL的介绍只限于此。有兴趣的读者请参阅有关
23、的LISREL软件书籍或该软件命令行中的help。,.,125,2020/12/2,125,目录 上页 下页 返回 结束,一个实例,为了使读者对结构方程模型的实际应用过程有一个总体的把握,本章引用了一个运用结构方程模型解决问题的真实案例供读者参考。此案例是Richard Rosenfeld; Steven F Messner; Eric P Baumer等人将社会资本作为隐变量,考察社会资本(social capital)和社会谋杀率(homicide rate)之间的结构关系。,.,126,2020/12/2,126,目录 上页 下页 返回 结束,一个实例,社会资本与谋杀率之间的假定关系如图
24、11-7所示,根据Robert Putnam对社会资本的定义,社会资本指的是社会组织特点,例如社会网络、社会标准、信任、为共同利益而采取的行动和合作。因此Rosenfeld et al 对社会资本的评价着重考虑了两个方面:人与人之间的信任(trust)和公众对公共事业的参与(civic engagement)。为什么社会资本与社会谋杀率之间存在联系呢?主要从经典犯罪学的三个方面来考虑:社会控制力度(informal and formal social control)、道德水准下降程度(anomie)和社会压力(strain)。社会资本的变化对上述三个因素产生影响,从而影响了谋杀率的高低。对模
25、型中人与人之间的信任和公众对公共事业的参与两个外生变量的数量化采用了 GSS(general social survey)的数据,如表11-4所示。,.,127,2020/12/2,127,目录 上页 下页 返回 结束,一个实例,.,128,2020/12/2,128,目录 上页 下页 返回 结束,一个实例,为了得到无偏估计,影响谋杀率的其他因素必须考虑在模型之内。根据以前关于谋杀率模型的研究并通过主成分分析,得到了两个主要因子。第一个因子定义为“剥夺”(deprivation),相应的“人口结构”(population structure)、年龄构成(age composition)、失业率
26、(unemployment)、男性离婚率(male divorce)和南方州(south)为其他几个因子。,.,129,2020/12/2,129,目录 上页 下页 返回 结束,一个实例,根据LISREL8.14,并采用极大似然估计对上述所讨论的模型进行估计。文中比较了两个模型:模型1没有将隐变量社会资本加入模型;模型2则考虑了社会资本。如表11-5所示:,.,130,2020/12/2,130,目录 上页 下页 返回 结束,一个实例,从模型2的拟合指数可以看出模型拟合较好,均方根残差RMSEM也表明模型拟合很好。将社会资本加入模型提高了谋杀率解释的方差。接下来做的是考虑一个递归模型,即认为社
27、会资本和谋杀率之间的作用是相互的,并且在新模型中对老模型作了一些修改,将不显著的变量年龄构成和失业率去掉,结果如表11-6所示。路径图如图11-8所示。,.,131,2020/12/2,131,目录 上页 下页 返回 结束,一个实例,.,132,.,133,聚类分析,.,134,聚类分析概述,概念: 聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如:细分市场、消费行为划分 聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.,.,135,聚类分析概述,两类:
28、(A B) (C D E) 三类:(A B) (C) (D E),依据平均得分的差距,差距较小的为一类. 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.,.,136,亲疏远程度的衡量指标 相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 定距型个体间的距离: 把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 欧氏距离(EUCLID) 平方欧氏距离(SEUCLID),聚类分析概述,.,137,品质型个体间的距离,姓名 授课方式 上机时间 选某门课程 张三 1
29、1 1 李四 1 1 0 王五 0 0 1,聚类分析概述,.,138,品质型个体间的距离 简单匹配(simple matching)系数:适用二值变量。,个体j,个体i,1 0 1 a b 0 c d,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。,聚类分析概述,.,139,品质型个体间的距离 简单匹配(simple matching)系数:适用二值变量。,姓名 授课方式 上机时间 选某门课程 张三 1 1 1 李四 1 1 0 王五 0 0 1 (张三,李四):a=2 b=1
30、c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 张三距李四近,聚类分析概述,.,140,品质型个体间的距离 根据临床表现研究病人是否有类似的病,姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 .,聚类分析概述,.,141,品质型个体间的距离 雅科比(Jaccard)系数:适用二值变量,个体j,个体i,1 0 1 a b 0 c d,a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数
31、 特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化,聚类分析概述,.,142,品质型个体间的距离 雅科比(Jaccard)系数:适用二值变量,姓名 授课方式 上机时间 选某门课程 张三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1) 王五 0 (1) 0(1) 1(0) (张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (张三,李四) 1: a=2 b=1 c=0 d
32、=0 J(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同),聚类分析概述,.,143,品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病,姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 .,结论:张三和李四最有可能得类似的病;李四和王五不太有可能,聚类分析概述,.,144,品质型个体间的距离 卡方距离:计数变量,聚类分析概述,.,145,说明 聚类过程中如果数据在数量级上存在差异时,
33、应进行标准化处理。 例如: 样本的欧氏距离 元 万元 (1,2) 26500081.623 (1,3) 218000193.700 (2,3) 47000254.897,聚类分析概述,.,146,聚类分析概述,说明 聚类分析中的变量选择问题 变量应和聚类分析的目标密切相关 聚类结果仅是所选定变量所具数据特点的反应. 变量之间不应具有高度相关性,否则相当于给这些变量进行了加权 聚类分析包括:个案聚类和变量聚类两种。 聚类分析包括:分层聚类和快速聚类,.,147,分层聚类,思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类 其次,将最“亲密”的个体聚成
34、一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 可见,随着聚类的进行,类内的“亲密”性在逐渐减低,.,148,分层聚类,思路 以分解的方式聚类 首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 可见,随着聚类的进行,类内的亲密性在逐渐增强,.,149,分层聚类,“亲疏”程度的衡量对象 个体间距离 个体和小类间、小类和小类间的距离,.,150,分层聚类,个体
35、和小类、类和类间的距离 最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离 最长距离法(furthest neighbor): 两类间的距离定义为两类中距离最远的两个个案之间的距离 平均链锁法(within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法(between-groups linkage):只考虑两类间个案的距离 组内平均链锁法(With-groups linage):考虑所有个案间的距离,.,151,分层聚类,基本操作步骤 1.基本操作 A.菜单选项: analyze-cla
36、ssify-hierachical cluster B.选择参与聚类分析的变量入variables框 C.选择一字符型变量作为个案的标记变量(label cases) D.选择个案聚类还是变量聚类,.,152,分层聚类,基本操作步骤 2. 选择距离计算方法(method选项) cluster method:计算类间距离的方法 measure:计算样本距离的方法 transform values:对数据进行标准化处理 by variable:以变量为单位标准化,适于个案聚类 by case:对个案为单位标准化,适于变量聚类,.,153,分层聚类,进一步的工作 1.数据输出(statistics选
37、项) agglomeration schedule:凝聚状态表(默认) distance matrix:样本的距离矩阵 cluster membership:类成员 none:不输出类成员(默认) single solution:聚成n类时各样本的归属 range of solutions:聚成mn类时各样本的归属(mn总样本数),.,154,分层聚类,进一步的工作 2. 图形输出(plot选项) dendrogram:树型图 icicle:冰柱图 all cluster:聚类的每一步均在冰柱图中体现 specified range of clusters:将聚类的第n1类开始到第n2类结束,
38、间隔n3类的聚类分析过程在冰柱图中体现 orientation:冰柱图的方向 vertical:纵向; horizontal:横向,.,155,分层聚类,进一步的工作 3. 结果保存(save选项) single solution:生成一新变量存储在聚成n类时各样本属于哪一类(cluN_M: N为聚类数,M为第几次做的) range of solutions:生成若干个变量分别存放聚成nm类时各样本的归属情况,.,156,分层聚类,聚类数目的确定 聚类数目确定尚无统一标准,一般原则: 各类所包含的元素都不应过多 分类数目应符合分析的目的 分层聚类中可以将类间距离作为确定类数目的辅助工具 SPS
39、S中,聚类过程中,类间距离呈增加趋势 类间距离小,类的相似性大;距离大,相似性小 绘制碎石图(X轴为类距离,Y轴为类数),.,157,K-means快速聚类,(一)出发点 希望: 克服分层聚类在大样本时产生的困难,提高聚类效率 做法: 通过用户事先指定聚类数目的方式提高效率 因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解,.,158,K-means快速聚类,(二)思路 1.指定最后要聚成K类 2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心 3.系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类,完成
40、一次迭代 4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心) 5.重复3步和4步,直到达到指定的迭代次数或达到终止迭代的条件,.,159,K-means快速聚类,(二)思路 SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程. 达到指定迭代次数(maximum iteration),默认10次。 收敛标准(convergence),默认0.02,即:本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.,.,160,K-means快速聚类,(三)基本操作步骤 A.菜单选项:analyze-classify-k means cluster B.
41、选定参加快速聚类分析的变量到variables框 C.确定快速聚类的类数(number of clusters).类数应小于个案总数 D.选择聚类方法(method):默认iterate and classify,即:在聚类的每一步都重新计算新的类中心 E.确定聚类终止条件(iterate),.,161,K-means快速聚类,(四)其他 1. 保存快速聚类的结果(save) cluster membership:将各个案所属类的类号保存到qcl_1变量中 distance from cluster center:将各样本距所属类中心的距离保存到qcl_2变量中.,.,162,K-means快
42、速聚类,(四)其他 2.输出选项(option) initial cluster centers:输出初始类中心点 ANOVA table:输出各类的方差分析表 cluster information for each case:输出每个样本的分类结果和距离,.,163,K-means快速聚类,(四)其他 3. use running means项: 选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关. 不选中:表示完成了所有个案的依次分配后再计算类中心.省时.,.,164,K-means快速聚类,(四)其他 4.用户指定类中心(center) read init
43、ial from:若不指定则系统自动确定初始类中心。指定则从某.sav文件中读入初始类中心数据(应设一个名为Cluster_的变量名)。 Write final as:在分析的最后将各类中心写入某.sav文件,.,165,因子分析,.,166,因子分析的提出,为尽可能完整描述一个事物,往往要收集它的许多指标 多指标产生的问题: 计算处理麻烦 信息重叠 从众多的指标中剔除一些指标又会造成信息丢失,.,167,因子分析的基本思想,因子分析的基本出发点 将原始指标综合成较少的指标,这些指标能够反映原始指标的绝大部分信息(方差) 这些综合指标之间没有相关性 因子变量的特点 这些综合指标称为因子变量,是
44、原变量的重造 个数远远少于原变量个数,但可反映原变量的绝大部分方差 不相关性 可命名解释性,.,168,因子分析的基本步骤,确认待分析的原始变量是否适合作因子分析 构造因子变量 利用旋转方法使因子变量具有可解释性 计算每个样本的因子变量得分,.,169,因子分析的数学模型,数学模型(xi为标准化的原始变量;Fi为因子变量;kp) 也可以矩阵的形式表示为: X=AF+,F:因子变量 A:因子载荷阵 aij: 因子载荷 : 特殊因子,.,170,因子分析的相关概念,因子载荷 在因子变量不相关的条件下,aij就是第i个原始变量与第j个因子变量的相关系数。aij绝对值越大,则Xi与Fi的关系越强 变量的共同度(Communality) 也称公共方差。Xi的变量共同度为因子载荷矩阵A中第i行元素的平方和,可见:Xi的共同度反应了全部因子变量 对Xi总方差的解释能力,.,171,因子分析的相关概念,因子变量Fj的方差贡献 因子变量Fj的方差贡献为因子载荷矩阵A中第j列各元素的平方和,可见:因子变量Fj的方差贡献 体现了同一因子Fj对原始所有 变量总方差的解释能力 Sj/p表示了第j个因子解释原所 有变量总方差的比例,.,172,原有变量是否适合作因子分析,计算原有变量的相关系数矩阵 一般小于0.3就不适合作因子分析,.,173,确定因子变量-主成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园幼小衔接方案幼儿园幼小衔接教育计划范文
- 检查检验标本管理制度
- 指标与目标管理制度
- 经营分析与财务预测制度
- 大学校园门卫信息登记制度
- 科技公司财务合规合同
- 电力行业绩效考核方案设计
- 马赛克买卖合同
- 云计算+教育行业合作合同
- 中外合作经营企业合同
- 大部分分校:地域文化形考任务三-国开(CQ)-国开期末复习资料
- 《大学生工匠精神及培养研究》
- 二零二四年物流园区建设合作协议
- 医疗机构舆情应急处置预案
- 中国计量大学《数据科学导论》2022-2023学年第一学期期末试卷
- 第六单元《平移、旋转和轴对称》-2024-2025学年三年级数学上册单元测试卷(苏教版)
- OECD -二十国集团 经合组织公司治理原则2023
- 2024年广东省深圳市33校联考中考英语一模试卷
- 新版标准日本语.中级单词
- 2024年全新初二生物上册期末试卷及答案(人教版)
- 大学生心理健康与发展学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论