




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十四讲 因子分析 n第一部分 主成分分析 n第二部分 因子分析 第一部分第一部分 主成分分析主成分分析 1 1、 主成分分析的基本原理主成分分析的基本原理 2 2、 主成分分析的数学模型主成分分析的数学模型 3 3、 主成分分析的步骤主成分分析的步骤 主成分分析的基本原理 主成分的概念由Karl Pearson在1901年提出的。 他是考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原 始变量中导出少数几个主分量,使它们尽可能多地 保留原始变量的信息,且彼此间互不相关。 主成分分析的目的:数据的压缩;数据的解释 l常被用来寻找判断事物或现象的综合指标,并对综合指 标所包含的信息进行适当的解释 什么是主成分分析? (principal component analysis) n对这两个相关变量所携带的信息(在统计上信息往往是 指数据的变异)进行浓缩处理 n假定只有两个变量x1和x2,从散点图可见两个变量存 在相关关系,这意味着两个变量提供的信息有重叠 主成分分析的基本思想 (以两个变量为例) n如果把两个变量用 一个变量来表示, 同时这一个新的变 量又尽可能包含原 来的两个变量的信 息,这就是降维的 过程 n椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据 的变化明显较大,而短轴方向变化则较小 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量 和原始变量间存在一定的数学换算关系,同时这两个新变量之 间彼此不相关,而且长轴变量携带了大部分的数据变化信息, 主成分分析的基本思想 (以两个变量为例) 短轴变量只携带了一小 部分变化的信息(变异) 此时,只需要用长轴方 向的变量就可以代表原 来两个变量的信息。这 样也就把原来的两个变 量降维成了一个变量。 长短轴相差越大,降维 也就越合理 n多维变量的情形类似,只不过是一个高维椭球,无法 直观地观察 n每个变量都有一个坐标轴,所以有几个变量就有几主 轴。首先把椭球的各个主轴都找出来,再用代表大多 数数据信息的最长的几个轴作为新变量,这样,降维 过程也就完成了 主成分分析的基本思想 (以两个变量为例) n找出的这些新变量 是原来变量的线性 组合,叫做主成分 主成分分析的数学模型 n数学上的处理是将原始的p个变量作线性组合,作为新的 变量 n设p个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为 主成分分析的数学模型 主成分分析的数学模型 aij为第i个主成分yi和原 来的第j个变量xj之间的 线性相关系数,称为载 荷(loading)。比如, a11表示第1主成分和原 来的第1个变量之间的 相关系数,a21表示第2 主成分和原来的第1个 变量之间的相关系数 p xxx, 21 p yyy, . 21 n选择几个主成分?选择标准是什么? n被选的主成分所代表的主轴的长度之和占了主轴 总程度之和的大部分 n在统计上,主成分所代表的原始变量的信息用其 方差来表示。因此,所选择的第一个主成分是所 有主成分中的方差最大者,即Var(yi)最大 n如果第一个主成分不足以代表原来的个变量,在 考虑选择第二个主成分,依次类推 n这些主成分互不相关,且方差递减 主成分的选择 n究竟选择几个主成分才合适呢? n一般要求所选主成分的方差总和占全部方差的 80%以上就可以了。当然,这只是一个大体标准 ,具体选择几个要看实际情况 n如果原来的变量之间的相关程度高,降维的效果 就会好一些,所选的主成分就会少一些,如果原 来的变量之间本身就不怎么相关,降维的效果自 然就不好 n不相关的变量就只能自己代表自己了 主成分的选择 主成分分析的步骤 n 对原来的p个指标进行标准化,以消除变量 在水平和量纲上的影响 n 根据标准化后的数据矩阵求出相关系数矩 阵 n 求出协方差矩阵的特征根和特征向量 n 确定主成分,并对各主成分所包含的信息 给予适当的解释 主成分分析的步骤 【例例】根据我国31个省市自治区2006年的6项主要 经济指标数据,进行主成分分析,找出主成分 并进行适当的解释 主成分分析 (实例分析) 用SPSS进行主成分分析 第1步 选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框 第2步 在主对话框中将所有原始变量选入【Variables 】 第3步 点击【Descriptives】,在【correlation Matrix】下选择【Coefficirnts】,点击【Continue】 回到主对话框 第4步 点击【Extraction】,在【Display】下选择【 Scree Plot】,点击【Continue】回到主对话框 第5步 点击【Rotation】,在【Display】下选择【 Loading Plot】,点击【Continue】回到主对话框 点击【OK】 单变量描述统计分析 。输出单变量的基本 统计量,包括每个变 量的均值、标准差及 其有效例数 初始解。默认选项。 输出因子分析的初始 解,显示初始公共因 子方差、特征值及其 解释变量的百分比。 1、相关系数矩阵; 2、显著性水平; 3、相关系数矩阵的行 列值; 4、相关系数矩阵的逆 矩阵; 5、再生相关系数矩阵 。输出因子分析的估计 量相关系数矩阵,并显 示参差值,即原始相关 系数矩阵与再生相关系 数矩阵之间的差值; 6、反映射相关系数矩 阵。包括负片相关系数 矩阵。反映射相关系数 矩阵的对角线可以显示 变量的抽样适度测试值 KMO和球形Bartlett检验。 分析矩阵选项 : 1、相关系数 矩阵。用于指 定利用分析变 量相关矩阵为 提取因子的依 据,当参与分 析的变量测度 单位不同时, 选择该选项 分析矩阵选项 : 2、协方差矩 阵。指定利用 分析变量的协 方差矩阵为提 取因子的依据 。 选择和因子提 取方法有关的 输出选项: 1、非旋转因 子解。要求显 示未经旋转的 因子载荷、公 共因子方差和 特征值; 选择和因子提 取方法有关的 输出选项: 2、碎石图。每 个因子的方差 图,该图利用 特征值为两个 坐标轴。碎石 图可以决定保 留因子的数量 提取因子的准 则: 1、特征值:该 选项指定因子 的特征值; 2、指定提取公 因子的数目。 收敛的最大迭代次数 因子旋转方式: 1、不进行旋转; 2、方差最大正交旋转 法; 3、直接斜交旋转方法 ; 4、四分位最大正交旋 转法; 5、等量正交旋转法; 6、斜交旋转法 输出与因子旋转相关 的信息: 1、旋转解; 2、因子载荷散点图。 SPSS的输出结果 各变量之间的相关系数矩阵 变量之间的存在较强的相关关系,适合作主成分分析 SPSS的输出结果 (选择主成分) 表3 各主成分所解释的原始变量的方差 该表是选则主成分的主要依据 n“Initial Eigenvalues”(初始特征根) l实际上就是本例中的6个主轴的长度 l特征根反映了主成分对原始变量的影响程度,表示引入 该主成分后可以解释原始变量的信息 l特征根又叫方差,某个特征根占总特征根的比例称为主 成分方差贡献率 l设特征根为,则第i个主成分的方差贡献率为 l比如,第一个主成分的特征根为3.963,占总特征根的的 比例(方差贡献率)为66.052%,这表示第一个主成分解释 了原始6个变量66.052%的信息,可见第一个主成分对原 来的6个变量解释的已经很充分了 根据什么选择主成分? = p i ii 1 ll n根据主成分贡献率 l一般来说,主成分的累计方差贡献率达到80%以上的前 几个主成分,都可以选作最后的主成分 l比如表3中前两个主成分的累计方差贡献率为95.57% n根据特特征根的大小 l一般情况下,当特征根小于1时,就不再选作主成分了, 因为该主成分的解释力度还不如直接用原始变量解的释 力度大 l比如表3中除前两个外,其他主成分的特征根都小于1。 所以SPSS只选择了两个主成分 l就本例而言,两个主成分就足以说明各地区的经济发展 状况了 根据什么选择主成分? nSPSS还提供了一个更 为直观的图形工具来帮 助选择主成分,即碎石 图(Scree Plot) n从碎石图可以看到6个 主轴长度变化的趋势 n实践中,通常结合具体 情况,选择碎石图中变 化趋势出现拐点的前几 个主成分作为原先变量 的代表,该例中选择前 两个主成分即可 根据什么选择主成分? (Scree Plot) 拐点 怎样解释主成分? 主成分的因子载荷矩阵 l表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是 主成分分析模型中的系数aij l比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个 变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该 变量的代表性就越大 n根据主成分分析模型和因子载荷,可以得到 两个主成分与原来6个变量之间的线性组合 表达式如下 怎样解释主成分? (主成分与原始变量的关系) 注意:表达式中的不是原始变量,而是标准化变量 n 载荷图(Loading Plot)直观显示 主成分对原始6变量的解释情况 n 图中横轴表示第一个主成分与原 始变量间的相关系数;纵轴表示 第二个主成分与原始变量之间的 相关系数 n 每一个变量对应的主成分载荷就 对应坐标系中的一个点,比如, 人均GDP变量对应的点是(0.670 ,0.725) n 第一个主成分很充分地解释了原 始的6个变量(与每个原始变量都 有较强的正相关关系),第二个 主成分则较好地解释了居民消费 水平、人均GDP和年末总人口 这3个变量(与它们的相关关系较 高),而与其他变量的关系则较 弱(相关系数的点靠近坐标轴) 怎样解释主成分? (Loading Plot) 相关系数的点越 远离坐标轴,主 成分对原始变量 的代表性就越大 。这3个点远离 主成分2的坐标 第二部分 因子分析 因子分析的意义和数学模型 因子分析的步骤 因子分析的应用 因子分析的意义和数学模型 n由Charles Spearman于1904年首次提出的 n与主成分分析类似,它们都是要找出少数几个新的 变量来代替原始变量 n不同之处:主成分分析中的主成分个数与原始变量 个数是一样的,即有几个变量就有几个主成分,只 不过最后我们确定了少数几个主成分而已。而因子 分析则需要事先确定要找几个成分,也称为因子 (factor),然后将原始变量综合为少数的几个因子, 以再现原始变量与因子之间的关系,一般来说,因 子的个数会远远少于原始变量的个数 什么是因子分析? (factor analysis) n因子分析可以看作是主成分分析的推广和扩展,但 它对问题的研究更深入、更细致一些。实际上,主 成分分析可以看作是因子分析的一个特例 n简言之,因子分析是通过对变量之间关系的研究, 找出能综合原始变量的少数几个因子,使得少数因 子能够反映原始变量的绝大部分信息,然后根据相 关性的大小将原始变量分组,使得组内的变量之间 相关性较高,而不同组的变量之间相关性较低。因 此,因子分析属于多元统计中处理降维的一种统计 方法,其目的就是要减少变量的个数,用少数因子 代表多个原始变量 什么是因子分析? (factor analysis) n因变量和因子个数的不一致,使得不仅在数学模 型上,而且在实际求解过程中,因子分析和主成 分分析都有着一定的区别,计算上因子分析更为 复杂 n因子分析可能存在的一个优点是:在对主成分和 原始变量之间的关系进行描述时,如果主成分的 直观意义比较模糊不易解释,主成分分析没有更 好的改进方法;因子分析则额外提供了“因子旋 转(factor rotation)”这样一个步骤,可以使分析 结果尽可能达到易于解释且更为合理的目的 因子分析的数学模型 n原始的p个变量表达为k个因子的线性组合变量 n设p个原始变量为 ,要寻找的k个因子(kp) 为 ,主成分和原始变量之间的关系表示为 因子分析的数学模型 因子分析的数学模型 系数aij为第个i变量与第k个 因子之间的线性相关系数 ,反映变量与因子之间的 相关程度,也称为载荷 (loading)。由于因子出现 在每个原始变量与因子的 线性组合中,因此也称为 公因子。为特殊因子,代 表公因子以外的因素影响 k fff, 21 p xxx, 21 n共同度量(Communality) n因子的方差贡献率 因子分析的数学模型 (共同度量Communality和公因子的方差贡献率 ) 变量xi的信息能够被k个 公因子解释的程度,用 k个公因子对第i个变量xi 的方差贡献率表示 第j个公因子对变量 xi的提供的方差总和 ,反映第j个公因子 的相对重要程度 因子分析的步骤 n因子分析要求样本的个数要足够多 l一般要求样本的个数至少是变量的5倍以上。同时,样本 总数据量理论要求应该在100以上 n用于因子分析的变量必须是相关的 l如果原始变量都是独立的,意味着每个变量的作用都是不 可替代的,则无法降维 n检验方法 l计算各变量之间的相关矩阵,观察各相关系数。若相关矩 阵中的大部分相关系数小于0.3,则不适合作因子分析 l使用Kaiser-Meyer-Olkin检验(简称KMO检验)和 Bartlett 球度检验(Bartletts test of sphericity)来判断(SPSS将两种 检验统称为“KMO and Bartletts test of sphericity”) 因子分析的步骤 (数据检验) nBartlett球度检验 l以变量的相关系数矩阵为基础,假设相关系数矩阵是单位 阵(对角线元素不为0,非对角线元素均为0)。如果相关矩 阵是单位阵,则各变量是独立的,无法进行因子分析 nKMO检验 l用于检验变量间的偏相关性,KMO统计量的取值在01 之间 l如果统计量取值越接近1,变量间的偏相关性越强,因子 分析的效果就越好 lKMO统计量在0.7以上时,因子分析效果较好;KMO统 计量在0.5以下时,因子分析效果很差 因子分析的步骤 (数据检验) n n Principal Principal componentscomponents( (主成分法主成分法) ):多数情况下可以使用该方多数情况下可以使用该方 法法( (这也是这也是SPSSSPSS的默认选项的默认选项) )。通过主成分分析的思想提取公因。通过主成分分析的思想提取公因 子,它假设变量是因子的线性组合子,它假设变量是因子的线性组合 n n UnweightUnweight Least Least SquareSquare( (不加权最小平方法不加权最小平方法) ):该方法使实际:该方法使实际 的相关矩阵和再生的相关矩阵之差的平方和达到最小的相关矩阵和再生的相关矩阵之差的平方和达到最小 n n Generalized Generalized Least Least SquareSquare( (加权最小平方法加权最小平方法) ):用变量值进行:用变量值进行 加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的 平方和达到最小平方和达到最小 n n Maximum Maximum LikelihoodLikelihood( (最大似然法最大似然法) ):该方法不要求数据服从:该方法不要求数据服从 正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用较好 n n Principal Principal Axis Axis FactoringFactoring( (主轴因子法主轴因子法) ):该方法从原始变量的:该方法从原始变量的 相关性出发,使得变量间的相关程度尽可能地被公因子解释相关性出发,使得变量间的相关程度尽可能地被公因子解释 因子分析的步骤 (因子提取) n因子数量的确定 l用公因子方差贡献率提取:与主成分分析类似, 一般累计方差贡献率达到80%以上的前几个因子 可以作为最后的公因子 l用特征根提取:一般要求因子对应的特征根要大 于1,因为特征根小于1说明该共因子的解释力度 太弱,还不如使用原始变量的解释力度大 n实际应用中,因子的提取要结合具体问题而定 ,在某种程度上,取决于研究者自身的知识和 经验 因子分析的步骤 (因子提取) n 因子命名是因子分析重要一步 l一个因子包含了多个原始变量的信息,它究 竟反映了原始变量的哪些共同信息? l因子分析得到的因子的含义是模糊的,需要 重新命名,以便对研究的问题作出合理解释 l可通过考察观察因子载荷矩阵并结合实际问 题完成 l命名已经不是统计问题。它需要研究者自身 的专业素质和对实际问题背景的了解程度, 这需要更多的实践经验 因子分析的步骤 (因子命名) n观察因子载荷矩阵 l如果因子载荷aij的绝对值在第i行的多个列上都有较 大的取值(通常大于0.5),表明原始变量与多个因子 都有较大的相关关系,意味着原始变量xi需要由多个 因子来共同解释 l如果因子载荷aij的绝对值在第j列的多个行上都有较 大的取值,则表因子fi能共同解释许多变量的信息, 而对每个原始变量只能解释其中的少部分信息,表明 因子不能有效代表任何一个原始变量,因子的含义模 糊不清,难以对因子给出一个合理的解释 l需要进行因子旋转,以便得到更加合理的解释 因子分析的步骤 (因子命名) n因子旋转(factor rotation)的目的是使因子的含义 更加清楚,以便于对因子的命名和解释 n旋转的方法有正交旋转和斜交旋转两种 l正交旋转是指坐标轴始终保持垂直90度旋转,这样 新生成的因子仍可保持不相关 l斜交旋转坐标轴的夹角可以是任意的,因此新生成的 因子不能保证不相关。因此实际应用中更多地使用正 交旋转 lSPSS提供5种旋转方法,其中最常用的是Varimax( 方差最大正交旋转)法 因子分析的步骤 (因子命名旋转) nVarimax(方差最大正交旋转):最常用的旋转方法。使各 因子保持正交状态,但尽量使各因子的方差达到最大, 即相对的载荷平方和达到最大,从而方便对因子的解释 nQuartimax(四次方最大正交旋转):该方法倾向于减少和 每个变量有关的因子数,从而简化对原变量的解释 nEquamax(平方最大正交旋转):该方法介于方差最大正 交旋转和四次方最大正交旋转之间 nDirect Oblimin(斜交旋转):该方法需要事先指定一个因 子映像的自相关范围 nPromax:该方法在方差最大正交旋转的基础上进行斜交 旋转 因子分析的步骤 (因子命名旋转) n因子得分(factor score)是每个因子在每个样本 上的具体取值,它由下列因子得分函数给出 因子分析的步骤 (计算因子得分) 因子得分函数 因子得分是各变 量的线性组合 因子分析的应用 【例例】根据我国31个省市自治区2006年的6项主要 经济指标数据,进行因子分析,对因子进行命 名和解释,并计算因子得分和排序 因子分析 (实例分析) 3131个地区个地区6 6项经济指标的因子分析项经济指标的因子分析 用SPSS进行因子分析 第1步 选择【Analyze】【Data Reduction-Factor】主对话框。将所 有原始变量选入【Variables】 第2步 点击【Descriptives】【correlation Matrix】【KMO and Bartletts test of sphericity】(其他选项根据需要) 【Continue】 第3步 点击【Extraction】,在【Method】框中选择因子的提取方法(本例 使用隐含的Principal components);在【Extract】中输入选择因子 的最小特征根(隐含的是特征根大于1);在【Display】下选择 【Scree Plot】 【Continue】 第4步 点击【Rotation】,在【Method】框中选择因子旋转方法(隐含的不 旋转,本例选择【Varimax】);在【Display】下选择【Loading Plot】 【Continue】 第5步 点击【Scores】,并选中【Display factor Score coefficient matrix】(SPSS隐含的估计因子得分系数的方法是Regression) 【Continue】 【OK】 数据的相关性检验 因子分析 (实例分析) KMO检验和Bartlett球度检验 Bartlett球度检验统计量为277.025。检验的P值接近0。 表明6个变量之间有较强的相关关系。而KMO统计量为 0.695,接近0.7。适合作因子分析 共同度量 因子分析 (实例分析) 变量共同度量 所有变量的共同度量都在80%以上,因此,提取出的 公因子对原始变量的解释能力应该是很强的 因子方差贡献率 因子分析 (实例分析) 各因子所解释的原始变量的方差 除最后3列外,其余部分与主成分分析中的表相同。 “Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。旋转 后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了 一些变化。 VarimaxVarimax法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵 因子分析 (实例分析) 旋转后的因子载荷矩阵 第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这 几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子1 姑且命名为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变 量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑 且命名为“消费水平”因子 (是否合理读者自己评判) n n 原始的原始的6 6个变量与两个因子的关系个变量与两个因子的关系( (模型表达模型表达) ) 因子分析 (实例分析) 因子分析的数学模型 表达式中的xi已 经不是原始变量 ,而是标准化变 量 旋转后的因子载荷图旋转后的因子载荷图 因子分析 (实例分析) 旋转后的因 子载荷系数 更加接近于 1(如果旋转 后的因子载 荷系数向0 1分化越明显 ,说明旋转 的效果越好) ,从而使因 子的意义更 加清楚了 按回归法按回归法(Regression)(Regression)估计的因子得分系数矩阵估计的因子得分系数矩阵 因子分析 (实例分析) 因子得分系数矩阵 根据因子得分系数矩阵可将因子表示为变量的线性组合 n由因子得分系数矩阵,可以将公因子表示为各变量的 线性组合。得到的因子得分函数为 因子分析 (实例分析) 上面表达式中的xi标准化变量。根据这一表达式便可以计算每个 地区对应的第一个因子和第二个因子的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危急重症患者护理基本技能
- 南京信息职业技术学院《化工过程测控技术》2023-2024学年第二学期期末试卷
- 武汉船舶职业技术学院《汽车运用工程》2023-2024学年第二学期期末试卷
- 沈阳化工大学《外科学概论》2023-2024学年第二学期期末试卷
- 浙江省绍兴市诸暨市2024-2025学年初三第三次诊断考试数学试题含解析
- 郑州卫生健康职业学院《大学英语(Ⅳ)-职场英语》2023-2024学年第一学期期末试卷
- 江苏省无锡江阴市2024-2025学年高三学生学业调研抽测(第一次)生物试题含解析
- 漯河职业技术学院《高级编程》2023-2024学年第二学期期末试卷
- 嘉应学院《跨文化传播案例解析》2023-2024学年第二学期期末试卷
- 湖南省长沙市长铁一中2025年初三第三次质量考评试卷语文试题含解析
- 阅读提取信息课件
- 医保业务培训大纲
- 中国职工保险互助会陕西办事处招聘考试真题2024
- 商铺施工方案
- 北师大版2024-2025学年度第二学期一年级数学期中检测(含答案)
- 第10课 养成遵纪守法好习惯
- 2025修订版《保障中小企业款项支付条例》解读学习课件
- 江苏省2024年中职职教高考文化统考烹饪专业综合理论真题试卷
- 市政工程施工部署与资源配置计划
- 2025年理化检验面试试题及答案
- 11.1 化学与人体健康(课件)-2024-2025学年九年级化学人教版下册
评论
0/150
提交评论