




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、罗树生主成分分析x2c1x1x2C1x1x2x3主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将多个具有较强相关性的实测变量综合成少量综合变量。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。 主成分分析的几何解释平移、旋转坐标轴 根据旋转变换的公式: 旋转变换的目的是为了使得n个样品点在Cl轴方向上的离 散程度最大,即Cl的方差最大。变量Cl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量
2、C2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Cl轴上,对数据中包含的信息起到了浓缩作用。 Cl,C2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Cl轴上,而C2轴上的方差很小。Cl和C2称为原始变量x1和x2的综合变量。C简化了系统结构。 我们作如下定义: (1) 若C1=w11X1+w12X2+ +w1pXp,且使 Var(C1)最大,则称C1为第一主成分; 但系数w若无限制可使Var(C1)无限大,故加约束条件: w112+w122+ +w1p2=1 组合系
3、数( w11, w12, w1p)可看作一个向量,代表p维空间中的一个方向,相当于全部n个个体在该方向上的一个投影。要求Var(C1)最大就是要找一个最“好”的方向,使得所有个体在该方向上的投影最为分散。 如果第一主成分不足以代表原所有p个变量,则考虑第二个主成分: C2=w21X1+w22X2+ +w2pXp,要求使 Var(C2)最大;约束条件: w212+w222+ +w2p2=1 Cov(C1,C2)=0 Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数)为零,目的是为了使C1中已有的信息不在C2中出现。结果是在与第一个向量垂直的所有方向中,找到一个使得所有个体在其上的投影
4、与在其它方向上的投影相比最为分散。 同样的方法,可以继续寻找第三、第四主成分,至多有p个。主成分的性质 : 主成分C1,C2,Cp具有如下几个性质: (1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数Corr(Ci,Cj)=0 i j (2) 组合系数(wi1,wi2,wip)构成的向量为单位向量, wi12+wi22+ +wip2=1(3) 各主成分的方差是依次递减的, 即Var(C1)Var(C2)Var(Cp) (4) 总方差不增不减, 即Var(C1)+Var(C2)+ +Var(Cp) =Var(x1)+Var(x2)+ +Var(xp)=p这一性质说明,主成分是原变量
5、的线性组合,是对原变量信息的一种重组,主成分不增加总信息量,也不减少总信息量。(5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij=wij(6) 令X1,X2,Xp的相关矩阵为R, (wi1,wi2,wip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值i就是第i主成分的方差, 即Var(Ci)= i 其中i为相关矩阵R的第i个特征值(eigenvalue)12p0(7)第i个主成分对所有原变量的贡献为:(8)所有主成分对原变量xj的贡献为:求主成分的步骤1.计算相关系数矩阵R2.解特征方程|R-I |=0,求出相关阵R的特征根(eigenvalue)i,且
6、按从大到小顺序排列: 1 2 p ,3.求矩阵R关于i的满足正规条件的特征向量(eigenvector):Li=(li1, li2,lip)特征向量即为主成分系数。当变量较多时,特征根的计算较复杂,需借助计算机软件实现。一个简单例子例1. 测得10名幼儿的身高,体重如下表,求主成分。对象号x1 体重(kg)x2 身高(cm)116.3108213.0 88318.3111415.0 95511.9 88614.4 95713.5 94812.1 88913.3 931013.5 95均数 14.13 95.5标准差 1.965847 7.9895773.求特征向量Li1=1.9547所对应的特
7、征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071, l12=0.7071, 第一主成分为:C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。 主成分的数目的选取 如前所述,p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小。 一般来说,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。 例2:测
8、得某地19-22岁年龄的部分城市男生身体形态指标:身高(x1,cm)、坐高(x2,cm)、体重(x3,kg)、胸围(x4、cm)、肩宽(x5,cm)、骨盆宽(x6,cm)。试进行主成分分析。特征值、方差比例和累积贡献率本例考虑保留3个主成分,累积贡献率可达90%。主成分Ci表达式:SPSS软件不能直接给出主成分系数wij,经过FACTOR 过程产生的是因子负荷系数,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子负荷系数输入数据编辑窗口,利用 “主成分相应特征根的平方根与特征向量乘积为因子负荷系数”的性质用TRANSFORMCOMPUTE 来计算特征向量,得到主成分的线性表达式
9、。因子负荷系数转换为主成分系数(特征向量)特征向量:Prin1Prin2Prin3Prin4Prin5Prin6x10.522386-.195138-.190578-.2547110.2159430.735666x20.525457-.081135-.166475-.3889580.312044-.664032x30.511104-.181008-.1046390.336278-.756343-.099605x40.346489-.0463000.7410220.4563170.346929-.010197x50.1883790.656718-.4713550.4963100.2539520.
10、015620 x60.1850380.6993940.392082-.464976-.3147870.087106主成分的应用一、主成分综合评价 医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题: 1. 各指标量纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重叠; 3.相加时需要考虑各指标的权重。 主成分分析可方便解决以上问题。例3. 为评价31个地区的生殖健康状况,某研究者考察了此31个地区的4个有关生殖健康指标的得分,这4个指标的得分均是越高越好,它们各自反映了生殖健康的一个方面。
11、对这31个地区进行综合评价。特征向量:Prin1Prin2Prin3Prin4x10.499296-.3807370.7759410.060475x20.518859-.132563-.338619-.773660 x30.510915-.290727-.5197290.619940 x40.4695260.8677240.1146010.116050第一主成分贡献率达到82.66%,考虑只以第一主成分作为综合评价指标。C1=0.4993X1+0.5189X2+0.5109X3+0.4695X 4这里Xj为标准化值。根据上述主成分得分计算公式,可得出31个地区各自的主成分得分。根据得分的大小顺
12、序可将这些地区分组。如需分为4个组,则可取第25分位数、中位数、第75分位数为分界点。分值最高的25%为生殖健康较优组。二、主成分回归当自变量间存在明显共线性时,回归方程的结果可能出现重大问题,以致无法解释。主成分之间相关性为零,可解决原变量的共线性问题。主成分回归指用原变量的主成分代替原自变量作回归分析。主成分回归的步骤1.求自变量的主成分;2. 舍去贡献率近于0的主成分;3.将留下的主成分代替原变量,建立与应变量的回归方程;4.将主成分的表达式代入回归方程,得到原自变量与应变量的回归方程。例4. 有22例胎儿受精龄(Y,周)与胎儿外形测量指标:身高(X1,cm),头围(X2,cm),体重
13、(X3,g)的数据。试求由X1,X2,X3推算Y的回归方程。用原始资料建立回归方程,得:y=11.0117+1.6927x1-2.1589x2+0.0075x3 这里x2的系数为负,意为头围与胎儿周龄成负相关,与实际情况不符。原因是3个自变量之间相关性较强:最大条件指数=1/3=1184.7, 说明x1-x3存在严重共线性。进行主成分分析,得到特征值和特征向量:1=2.9261, l1=( 0.58057 0.58107 0.57034)2=0.0714, l2=(- 0.41852 -0.38789 0.82121)3=0.00247, l3=( 0.69841 -0.71547 0.017
14、99)根据特征向量计算出主成分C1和C2,取这两个主成分与y作回归C1=0.58057X1+0.58107X2+0.57034X3C2= - 0.41852 X1+ -0.38789 X2+ 0.82121 X3其中,Xi是原始变量xi标准化变换后的变量:X1=(x1-33.0455)/9.7102, X2=(x2-23.2636)/6.8575X3=(x3-936.9091)/690.3048得到方程:y=23.7273+3.8822C1+3.0991C2再将C1和C2与原变量x1-x3的关系代入上式即得出主成分回归方程:y=10.4369+0.09854x1+0.1537x2+0.0069x3此结果用到C1和C2,累积贡献率为99.92%,即最终
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030工业级油酸产业市场深度分析及发展趋势与投资战略研究报告
- 2025-2030室内儿童乐园行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全自动小吊车市场前景分析及投资策略与风险管理研究报告
- 2025-2030全球及中国记录图表纸行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 工业窑炉节能改造项目可行性研究报告
- 河北省石家庄市外国语学校2024年化学九年级第一学期期末统考试题含解析
- 徐州生物工程职业技术学院《秘书文档管理》2023-2024学年第一学期期末试卷
- 重庆工程职业技术学院《社区预防》2023-2024学年第一学期期末试卷
- 成都工业职业技术学院《影视照明基础》2023-2024学年第一学期期末试卷
- 广东省佛山市顺德区容桂中学2025届八年级数学第一学期期末考试试题含解析
- 新安全生产法2025全文
- 河北省2025年中考数学真题试卷(含答案)
- 福建福州金山中学2024~2025学年高一下册期末考试数学试题含解析
- 2025年中国共产党支部工作条例(试行)暨党支部建设标准化工作知识竞赛考试试题(综合题库)(含答案)
- 2025年广东省高考生物真题(解析版)
- 2024年哈尔滨市道里区执法辅助人员招聘考试真题
- 学堂在线 研究生的压力应对与健康心理 期末考试答案
- 2025年7月自考13811绩效管理试题及答案含解析
- (新版)传染病防治监督试题库(含答案)
- 浙江省中考英语考纲(共6页)
- 委会、全委会和工作报告标题汇编
评论
0/150
提交评论