主成分分析原理及详解_第1页
主成分分析原理及详解_第2页
主成分分析原理及详解_第3页
主成分分析原理及详解_第4页
主成分分析原理及详解_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第14章主成分分析1概述1.1基本概念i.i.i定义主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相 关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。1.1.2 举例为什么叫主成分,下面通过一个例子来说明。假定有N个儿童的两个指标 x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体 x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的 Z2,于是这N个点在新坐标轴上的坐标位置发生了改变; 同时这N个点的性质

2、也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的 80%,贝U Z2只反映总信息的20%。这样新指标 乙称为原指标的第一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Zi这一个指标代替原来的两个指标( x1与x2),这种做法符合PCA提出的基本要求,即 减少指标的个数,又不损失或少损失原来指标提供的信息。1.1.3 函数公式通过数学的方法可以求出Zi和Z2与x1与x2之间的关系。Zi=liiXi+ 112X2Z2=l21X 1+ I22X2即新指标Zi和Z2是

3、原指标x1与x2的线性函数。在统计学上称为第一主成分和第二 主成分。若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。通过旋转和改变原点(坐标 0点),就可以得到第一主成分、第二主成分和第三主成 分。如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成 分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。1.2 PCA 满足条件1.2.1 一般条件一般来说,N个对象观察p个指标,可以得到 N*p个数据(矩阵)。只要 p 个指标之间存在有相关关系,就可以通过数学的方法

4、找到一组新的指标,它们需要满足的条件如下。1)Z i 是原指标的线性函数,且它们相互垂直;2)各个 Z i 互不相关;3)各个 Z i 加起来提供原指标所含的全部的信息,且Z1 提供信息最多, Z2次之,依次类推。1.2.2 PCA 的一般步骤( 1)输入或打开数据文件;( 2)数据进行标准化处理;( 3)计算矩阵的相关系数;(4)求相关矩阵的特征根入1、入2、入3,并将它们按大小排序。( 5)求特征向量和各主成分;( 6 )计算各主成分的贡献率;( 7)解释各主成分的含义上述的步骤大部分由 SPSS执行,用户需要选择观测对象、选择变量,收集数据,将数据输入SPSS程序,最后选择需要多少个主成

5、分,解释各主成分的实际意义。1.3SPSS运行主要选择项1.3.1 操作步骤Analyzes/data reduction/factor/open factor analyzes/对话框,主要有 5 个对话框,下面简要介绍。因子分析主对话框。主要用来选择变量、选择输出结果内容和多少、选择PCA有关数学处理如是否旋转,提取多少个因子数,是否保存各个因子得分等。Factor An alysis:因子分析;Descriptive :描述性统计选项;Extractio n :提取因子选项;Rotation :旋转选择;Scores :因子得分选项;Option :其它选项。1.3.2主对话框1.3.3

6、 Descriptive 对话框Statistics:统计数据Un ivariate descriptive :单变量描述性统计;In itial solution:初始解的统计量。Correlati on matrix :相关矩阵Coeffcie nts:相关系数矩阵。In verse :相关系数矩阵逆矩阵。Sig nifica nee levels:相关系数显著性水平。Reproduced :再生相关矩阵。给出因子分析后的相关矩阵。Factor Iknalysis: DtscriptivsStatisticsJ 1-UnAAil BIIBIIIIIII lllllllll I IiL&mM

7、J Blllllllllllllllll I-BA&L1-LI- Univariate descriptives:、 11 ,fP initial solutionCorrelation Matrix厂 Coefficients厂 Significance levels厂旦eterminani厂 Inverse 厂 Reproduced 厂 Anti-jmager KMO and Bartletfs test uJ sphericity1.3.4 Extraction method提取公因子方法Method:方法Prin cipal comp onents an alyze:主成分分析Un w

8、eight least squares:未加权最小二乘法Gen eralized least squares:广义最小二乘法Analysis :分析Coeffcie nts matrix:相关系数矩阵。Covaria nee matrix :协方差矩阵。Display :显示Un rotated factor soluti on :非旋转因子解。Screen plot of the eigenvalues :特征值碎石图。Extract:提取。Eige nvalues over 1 :系统默认值是 1,表示提取特征值大于1的因子。Number of factor 2 :提取公因子的个数。理论上

9、有多少个因子广 QuartimaxEquamaxC PromaxKappa i41.3.5 Rotation method旋转方法对话框Method:None. .C VarimaxC Direct ObliminDelta:卩Display厂 Loading plot(s|Fterations for Convergence:Method :方法None :不进行旋转Quartimax :四分位最大正交旋转Varimax :方差最大正交旋转。Equamax:相等最大正交旋转。Display :显示Rotation solution :旋转解。Loading plots :旋转因子空间的载荷图

10、。1.3.6 Scores因子得分对话框Save as variables:将因子得分数据存入为新变量。Regressio n:用回归法计算因子得分。Bartlett :巴特尼特法计算因子得分。Anderso-rubin , Anderso-rubin :法计算因子得分。Dispaly factor score coefficient matrx,显示因子得分系数矩阵。365#1.3.7 Option 对话框Fact or Aiiialysi $ : Opti oilsMissing Values11 uni 11 i m m m m 111111 11111 o m 1111111111 w

11、、住 Exclude cases listwisej c Exclude cases pairwise 广 Replace with meapCoefficient Display Format r Sorted by size r Suppress absolute values less than:Missing Values :缺失值处理Exclude cases list wise :删除全部缺省值的个案。Exclude cases pair wise :成对删除含有缺省值的个案。Replace with mean :用均值替代缺省值。Coefficie nt display format因子得分系数矩阵的显示格式。Sorted by size:按大小排列。回到主对话框上。Variables

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论