版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于主成分分析 (2)第一张,PPT共二十七页,创作于2022年6月学习目标了解主成分分析的数学模型;熟悉主成分分析的方法步骤;掌握主成分分析的作用和应用领域;掌握PRINCOMP过程并运用此过程进行数据分析。第二张,PPT共二十七页,创作于2022年6月概述主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法
2、研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 第三张,PPT共二十七页,创作于2022年6月概述科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带
3、来很多麻烦,增加了分析问题的复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立的,否则,估计的结果是不准确的,甚至是相反的结论,产生误导。第四张,PPT共二十七页,创作于2022年6月概述在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失
4、去了许多有用的信息,容易得出片面的结论。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。第五张,PPT共二十七页,创作于2022年6月概述主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种
5、事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。第六张,PPT共二十七页,创作于2022年6月主成分分析简介 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。第七张,PPT共二十七页,创作于2022年6月主成分分析的方
6、法步骤 主成分分析的过程,就是确定原来变量xj( )在各主成分zi( )上的载荷lij。从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。假设有k个指标x1,x2,xk,每一个指标有n个观测值,它们的标准化指标变量是 ,第八张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤对原始指标数据进行标准化变换:将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则:第九张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤计算相关系数矩阵:其中,第十张,PPT共二十七页,创作于202
7、2年6月主成分分析的方法步骤计算相关矩阵的特征值和特征值所对应的特征向量:求主成分的问题,实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为:第十一张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤求得k个非负特征值 ,将这些特征值按从小到大的顺序排列为:再由解得每一特征值对应的特征向量,从而求得各主成分:第十二张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤计算主成分贡献率及累计贡献率各主成分互不相关,即的相关系数:于是,各主成分间的相关系数矩阵为单位矩阵。一般地,主成分Zi的贡献率为:第十三张,PPT共二十七页,创作于20
8、22年6月主成分分析的方法步骤确定主成分的个数当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。一般说,确定主成分个数的准则有两个:以累积贡献率来确定:当前P个主成分的累积贡献率达到某一特定值时(一般采用70%85%为准则),则保留前P个主成分。根据特征值大小来确定,一般地,取特征值大于或等于1为准则。若有s个特征值大于或等于1,那么就可以确定主成分的个数为s个。一般可以将两种确定主成分个数的方法结合起来,选出有实际意义的主成分。第十四张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤计算主成分载荷第i个主成分Zi的特征值的平方根与第j原始指标X
9、j的系数lij的乘积为因子载荷。由因子载荷所构成的矩阵为因子载荷阵。实际数,因子载荷qij就是第i主成分Zi与第j原始指标Xj之间的相关系数,它反映了主成分Zi与原始指标Xj之间联系的密切程度与作用方向。第十五张,PPT共二十七页,创作于2022年6月主成分分析的方法步骤计算主成分得分如果标准化指标变量 的第i个主成分是:其中, ,是xj的标准化指标变量。那么,第i个主成分可以转换为原始指标变量的线性组合: 第十六张,PPT共二十七页,创作于2022年6月主成分分析的应用 研究多个指标变量之间的依存关系,是医学研究中很重要的一件事情。但是,在研究多个指标变量之间的依存关系时,经常会遇到两个问题
10、:指标变量过多,使得分析难度增加;变量之间的共线性存在,即变量之间不完全独立,这种情况造成分析结果不稳定或不正确。因此,解决自变量之间的多重共线性和减少变量个数对依存关系的分析就很重要了。第十七张,PPT共二十七页,创作于2022年6月主成分分析的应用根据主成分分析原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法。另一方面,主成分分析可以用较少的变量取代较多的不独立的原变量,减少分析中变量的个数。概括地说,主成分分析有以下几方面的应用:第十八张,PPT共二十七页,创作于2022年6月主成分分析的应用对原始指标进行综合:主成分分析
11、的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。第十九张,PPT共二十七页,创作于2022年6月主成份分析SAS程序 SAS系统中利用PRINCOMP过程对数据进行主成分分析。PRINCOMP过程的语法格式如下:PROC PRINCOMP DATA= OUT= O
12、UTSTAT= NOINT COV N STD VARDEF 选项;VAR 变量/选项;PARTIAL 变量;RUN;第二十张,PPT共二十七页,创作于2022年6月主成份分析SAS程序DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。OUT选择项指定统计量的输出数据集名,该数据集保存的是样本的原始指标变量和主成分得分变量。OUTSTAT指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵、特征值和得分系数。NOINT选择项指令系统使用未对均值校正的相关系数矩阵或方差协方差矩阵进行主
13、成分分析,它等价于主成分模型中不含常数项。第二十一张,PPT共二十七页,创作于2022年6月主成份分析SAS程序COV选择项指令系统用方差协方差矩阵计算主成分,如果该选择项缺省,系统用相关系数矩阵计算主成分。N选择项给出主成分的个数。STD选择项指令系统在输出数据集中,主成分得分变量的方差被标准化为1。VAR语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。PARTIAL语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,PARTIAL X;它表示偏相关系数或偏方差、协方差是以变量X为混杂变量的,即所有的相关系数都表示的是在X不
14、变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在VAR语句中。第二十二张,PPT共二十七页,创作于2022年6月本章小节 在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。本章介绍了主成分分析的数学模型、方法步骤以及主成分分析的应用。我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少
15、的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。第二十三张,PPT共二十七页,创作于2022年6月本章小节本章对主成分分析的数学模型、分析方法步骤以及应用问题进行了详细地阐述。我们在学习的过程中,要熟悉主成分分析的方法步骤:对原始指标数据进行标准化变换、计算相关系数矩阵、计算相关矩阵的特征值和特征值所对应的特征向量、计算主成分贡献率及累计贡献率、确定主成分的个数、计算主成分载荷和计算主成分得分。第二十四张,PPT共二十七页,创作于2022年6月本章小节主成分分析有以下几方面的应用:对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025下半年四川凉山越西县招聘中小学教师100人高频重点提升(共500题)附带答案详解
- 2025上海市体育发展服务中心拟聘人员历年高频重点提升(共500题)附带答案详解
- 2025上半年浙江杭州市五云山医院高层次、紧缺专业人才招考聘用4人通知高频重点提升(共500题)附带答案详解
- 2025上半年四川遂宁市安居区部分事业单位考试招聘7人高频重点提升(共500题)附带答案详解
- 2025上半年四川省自贡市事业单位招聘(1121人)高频重点提升(共500题)附带答案详解
- 建筑装饰翰林府施工合同
- 传媒公司制片人聘任合同
- 建筑材料质量检验操作手册
- 2024圆通速递快递服务收费标准及合同规定3篇
- 2024年离婚财产分割夫妻合同标准格式版B版
- 2024-2030年中国奶粉行业营销策略及未来5发展趋势报告
- 2024年度危化品安全管理员聘用合同2篇
- 2025届杭州第二中学高三第五次模拟考试数学试卷含解析
- 广东省广州海珠区2023-2024学年八年级上学期期末物理试卷(含答案)
- 开题报告:新业态下大学生高质量充分就业实现路径研究-基于双边匹配的视角
- 江苏南京市栖霞区八校联考2024-2025学年九年级上册历史调研试卷(含答案)
- 医院满意度调查系统方案
- 2024年度企业信息化建设与技术实施合同3篇
- 银行贷款保证合同范本
- 2024年自考《00504艺术概论》考试复习题库(含答案)
- GB/T 25229-2024粮油储藏粮仓气密性要求
评论
0/150
提交评论