第十二讲聚类分析和因子分析_第1页
第十二讲聚类分析和因子分析_第2页
第十二讲聚类分析和因子分析_第3页
第十二讲聚类分析和因子分析_第4页
第十二讲聚类分析和因子分析_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二讲聚类分析和因子分析第1页,共24页,2023年,2月20日,星期二聚类分析specialforspss层次聚类分析中的Q型聚类层次聚类分析中的R型聚类快速聚类分析判别分析第2页,共24页,2023年,2月20日,星期二+`

聚类分析---物以类聚。特点:探索性的分析。在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。它能够将一批一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。*不同于相关系数(变量之间的关系)聚类分析:样本间的相关第3页,共24页,2023年,2月20日,星期二层次聚类分析中的Q型(样本间:哪几个样本很像)聚类根据样本之间的距离进行计算。常用算法:欧式距离各个变量相减再求和欧式距离的平方(X2+X1)2+…….Chebychev距离

Block距离

Minkovsky距离

Customized距离第4页,共24页,2023年,2月20日,星期二第5页,共24页,2023年,2月20日,星期二第6页,共24页,2023年,2月20日,星期二层次聚类分析中的Q型聚类打开聚类1分析---分类---层次聚类(系统聚类)---选择个案第7页,共24页,2023年,2月20日,星期二层次聚类分析中的R型聚类与Q型聚类不同的是,R型聚类计算的是变量之间的距离,而不是样本之间的距离。打开聚类2分析---分类---层次聚类(系统聚类)---选择变量第8页,共24页,2023年,2月20日,星期二快速聚类分析由于聚类分析对计算机要求很高,因此当出现大样本的情况下,层次聚类分析往往速度较慢,因此采用快速聚类分析。快速聚类分析要求用户根据经验指定聚类最终形成多少种类。第9页,共24页,2023年,2月20日,星期二快速聚类分析打开聚类3分析---分类---K均值聚类第10页,共24页,2023年,2月20日,星期二因子分析降维第11页,共24页,2023年,2月20日,星期二主成分分析与因子分析的概念需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。第12页,共24页,2023年,2月20日,星期二因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析就是这样一种降维的方法。第13页,共24页,2023年,2月20日,星期二因子分析用较少因子反映原始资料多个变量的信息。特点:1。因子变量的数量远少于原有的指标变量的数量。2。因子变量不是对原有变量的取舍,而是对原有变量信息的重构。3。因子变量之间不存在线性相关关系。第14页,共24页,2023年,2月20日,星期二因子分析要求(p<<m)

F1-FM是原有变量X1-XP是新变量(因子变量)建立原有因子和新因子的联系第15页,共24页,2023年,2月20日,星期二上式通过化简,可得:F=BX+aeX:因子变量B:载荷矩阵其中βij称为因子载荷,是第i个原有变量在第j个因子变量上的负载,即βi在第j个因子变量上的相对重要性。即βij绝对值越大,公共因子与原有变量关系越强。第16页,共24页,2023年,2月20日,星期二由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:确定因子数量的因素(机器决定)特征值>1累计贡献率>0.8(新因子至少代表就因子80%以上的信息)第17页,共24页,2023年,2月20日,星期二几个基本概念:因子载荷:表示该因子对变量的影响程度,代表了因子和原先变量的相关系数。也称为变量在因子上的载荷。旋转矩阵:对因子载荷进行旋转,使系数向0和1两极分化。(运算复杂),想让因子载荷矩阵做两极分化,看清楚哪个因子系数作用程度更大因子得分系数:每一个变量在不同因子上的具体数据值。第18页,共24页,2023年,2月20日,星期二成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。第19页,共24页,2023年,2月20日,星期二重要结果分析这里的InitialEigenvalues就是特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。第20页,共24页,2023年,2月20日,星期二特征值的贡献还可以从SPSS的所谓碎石图看出第21页,共24页,2023年,2月20日,星期二这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。看绝对值:eg.数学:第二个因子作用大,归为文科因子第22页,共24页,2023年,2月20日,星期二因子变量分析步骤:1。确定待分析的原有若干变量是否适合于因子分析。(检验方法:巴德迪特检验;kmo>

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论