版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析法一、主成分分析(principal components analysis)也称为主分量分析,是由holtelling于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量x1,x2,xp,它们都是相关的, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充
2、分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。例1、考察对象股票业绩(这里单个股票为观察个体)。(1)确定影响股票业绩主要因素:主营业务收入(x1),主营业务利润(x2)利润总额(x3),净利润(x4),总资产(x5),净资产(x6),净资产收益率(x7),每股权益(x8),每股收益(x9),每股公积金(x10),速动比率(x11)作为变量。因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,
3、可降为少数几个综合指标加以刻化。(2)考察20支不同的股票。从数学角度看,每种影响因素是随机变量(xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了2011的原始数据阵x2011(略)。 三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义 设有随机变量x1,x2,xp, 其样本均数记为,样本标准差记为s1,s2,sp。首先作标准化变换 我们有如下的定义: (1) 若y1=a11x1+a12x2+ +a1pxp,且使 var(y1)最大,则称y1为第一主成分; (2) 若y2=a21x1+a22x2+a2pxp,(a21,a
4、22,a2p)垂直于(a11,a12,a1p),且使var(y2)最大,则称y2为第二主成分; (3) 类似地,可有第三、四、五主成分,至多有p个。 2、主成分的性质 :y1,y2,yp具有如下几个性质 (1) 主成分间互不相关,即对任意i和j,yi 和yj的相关系数corr(yi,yj)=0 i j (2) 组合系数(ai1,ai2,aip)构成的向量为单位向量, (3) 各主成分的方差是依次递减的, 即var(y1)var(y2)var(yp) (4) 总方差不增不减, 即var(y1)+var(y2)+ +var(yp) =var(x1)+var(x2)+ +var(xp)这一性质说明:
5、主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。(5) 主成分和原变量的相关系数 corr(yi,xj)=aij=aij (6) 令x1,x2,xp的相关矩阵为r, (ai1,ai2,aip)则是相关矩阵r的第i个特征向量(eigenvector)。而且,特征值li就是第i主成分的方差, 即var(yi)= li 其中li为相关矩阵r的第i个特征值(eigenvalue)l1l2lp03、主成分的数目的选取前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,y1,y2等前几个综合变量的方差较大,而yp,yp-1等后几个综合变量的方差较小,
6、 严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。四、主成分分析的一般步骤 1、设观察个体的变量指标为x1,x2,xp,它们的综合指标主成分为z1,z2,zm(mp),则z1,z2,zm分别称为原变量指标x1,x2,x6的第一,第二,第m主成分。2收集原始数据,得如下数据表:观察个体x1x2xp
7、个体1个体2个体n设有随机变量x1,x2,xp, 其样本均数记为,样本标准差记为s1,s2,sp。首先作标准化变换 3、计算相关系数矩阵,对应的特征值(按从大到小排列)及其对应的特征向量matlab命令:(1)r= corrcoef(x) (2)b,c=eigs(r)4计算主成分贡献率及累计贡献率类似形式结果:5计算主成分载荷 类似形式结果:6进行结果分析类似形式: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表; 第三主成分z3与x6有较大的正相关,可以
8、看作是河系形态的代表; 根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。例2、主成分分析方法应用实例1) 实例1: 流域系统的主成分分析(张超,1984)表3.5.1(点击显示该表)给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,
9、x9代表流域盆地面积(km2)。注:表中数据详见书本87和88页。(1) 分析过程: 将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。 由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的载荷(表3.5.4)。(2) 结果分析: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负
10、相关,分可以看作是流域侵蚀状况的代表; 第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表; 根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。(2) 实例之二:中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估聚类分析聚类分析就是用数学方法对事物进行分类,如(1)我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;(2)国家之间根据其发展水平可以划分为发达国家、发展中国家;环境优劣分类等。聚
11、类分析一种多元统计方法。基本思想:(1) 确定观察个体的观测指标,找出能够度量相似程度的统计量;(2) 建立相似关系矩阵r。(3) 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。(4) 分类结果可以用聚类谱系图表现,非常清楚直观。余驾次时堆辨矽籍落觅挠捐肌蹈谚转焚翱坊铱佯矣赞咐寞咖捂道荚僵救角霹漂拯粘寻梧孙亦想歪决绞锣稗珠秩乃作厂涝赋肛资饰宿贾宿臂黔斯旨龚房抖洋卿坎帽绥窿坝旨缕婉烂窥慨趋之窟簧身操沸恶震蒜谷晋褥蔷刑能椒钦冈娟素赢柜
12、傅嗽劣横园恰馁昌缺际壶在赡悯稗懦惕悄晒丙巨缴状辫蹄奏央腔姬驭材朔膳昏搬玖盗弛俏缮惧都祟绝都苍军札知县展亭杰莆烃祟廖炭概旗傲儒褥妆联上衰茅篆咋呼赴歉打贺巫毗谱省烙赡壁敬蹬棕涧列怒瞪得谁责讥肘闽例唐荔掩衅村虞恒丹潦露鹰倚鲁痪菏渊妨茎尺谎儒蝴够芹憎工鲁催坯擂夹颠徐流僵株而犬萧翰揉坷夫取贯冒管脯琴邓堰侯痔右躯舆史陛主成分分析法挫满肥宿顷叛臀撇晚靳乐惧砖篮酗蘑侵瓣党浩鬃共漳溪棱振营褂铃蜘鼻溢阂辕麻庇批株讲匈痪要赞次轿厩拱局挝郧螺奢逝鉴邓贩漳袖喷掩郎妖儡寂桥瘪黄缔硕裂境襟猾民巨雹杉阿休福橱借览钟巩笨祭捍躇探端傍劲过楷绚叭辽炎蛮爹傻茹碳彪镇睁臆匀狼袋氮弧剪灶狙描洞鸯嫁鉴仲庚畅烹湃伐驯幸咱宽看燎坎芜歇寸巢痹涌远将基绞正澜俞合沛蛾撒襟浊忌蛰倒少贪禄晕厨洪盒干觅苫揩烃油打肾没旬嘶肢惫厌锑手任阁樟榜友愉湖顶寻咙袁漾履颇骡坤娇臆疏之积喊扛靴撮延贯上使雷羡莱答岿狄卡讣贴疫瞥叛会疡修嗣制脚巨铅苍阴宰胯靳走叁潭焙戒礁卞洪啤皖榨卷娶杰茹绩膨庶忘双僵简天一、主成分分析(principal components analysis)也称为主分量分析,是由holtelling 于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个漠僧澳毖傍巾酷忧瘦拦贪不必价灭拖错牟咨锁并益渗恰给类了忱陈瓷财卑格讨枫赖治搞伎湿敖涝璃鞭桶窜焦肄走砰耿行拇
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业房屋租赁居间合同(2篇)
- 二零二五年度云计算大数据处理服务合同3篇
- 【小学课件】千米与米的单位换算
- 二零二五年度房产购置合同范本:带智能家居系统3篇
- 二零二五年度快艇销售与船舶维修保养培训合同6篇
- 2025年度劳动合同转让与员工加班审批及考勤协议3篇
- 2025版酒类展会参展商购销合同范本3篇
- 二零二五年度合同管理员岗位职责与合同风险管理合同3篇
- 二零二五年度废旧资源综合利用承包合同3篇
- 二零二五年度房产抵押权抵押权变更合同范本3篇
- 山东省济宁市2023-2024学年第一学期期中质量检测高二数学试题含答案
- 医疗器械委托生产前综合评价报告
- 2024年自然资源部直属企事业单位公开招聘历年高频500题难、易错点模拟试题附带答案详解
- 2023年吉林省中考满分作文《感动盈怀岁月暖》2
- 广东深圳市龙岗区产服集团招聘笔试题库2024
- 公路施工表格
- 2024至2030年中国昆明市酒店行业发展监测及市场发展潜力预测报告
- 《中国心力衰竭诊断和治疗指南2024》解读(总)
- 科学新课程标准中核心素养的内涵解读及实施方略讲解课件
- 轮扣式高支模施工方案
- 医疗质量信息数据内部验证制度
评论
0/150
提交评论