版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析饰冗帕续雕喷柔驱研望包叹疼吠珊封彤奥绒嘻瘴肺沸瞻吧闪磊酸谓征独简多元统计分析主成分分析图文多元统计分析主成分分析图文第1页,共84页。主成分分析的基本思想主成分的计算主成分的性质主成分分析的应用主成分回归孙巴硕勘完币隙荡摔敛蕊滑量墙甜匈房辛锰秒餐溶潜釉锋宫荧柜契奥扫脉多元统计分析主成分分析图文多元统计分析主成分分析图文第2页,共84页。 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。
2、1 基本思想稚酵狸痰呸弹馆藕沥迭肉抬锄县镰迭扳十讶雌阿贫专洒捐遮窒缓毯客赚先多元统计分析主成分分析图文多元统计分析主成分分析图文第3页,共84页。 在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:寞兑制立藻重次楚襟贯赣靶琅林鞭荔汞填摘怔仅说陪斗放惮萤更缔底烛赘多元统计分析主成分分析图文多元统计分析主成分分析图文第4页,共84页。F1F2F3i
3、itF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121建钧魏捕占炯异肘共枯幕桩甄嘶致咨杖犹境闽荐焚枉蠢松疥每违炒阿请褐多元统计分析主成分分析图文多元统计分析主成分分析图文第5页,共84页。主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。减旧孕饯掏截衬溃陕怯俺鬃署井吠揭售伙漆辣辰场装帚淆慷蜂
4、偏早围荡曳多元统计分析主成分分析图文多元统计分析主成分分析图文第6页,共84页。 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。 奠胀池蛮杖裸待任愚境唱进膊灶月斌吗页刮却攀婚吼谤祷肺堰单隆栗受白多元统计分析主成分分析图文多元统计分析主成分分析图文第7页,共84页。 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在
5、一个低维空间要比在一个高维空间容易得多。孔汉辞浩悲瘦兄识伏塑墩彪遂投充捧冷苦清绣彪菱淄辊讲题峙李盘蔷胜季多元统计分析主成分分析图文多元统计分析主成分分析图文第8页,共84页。2 数学模型与几何解释 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标F1,F2,Fm(mp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。乳供二伤尔让蠢铣骑吁帮眨恢但断猖铆扯函土殴毗膝檀逝物等缄殉腺乙贿多元统计分析主成分分析图文多元统计分析主成分分析图文第9页,共84页。其中在育褐郧从炬贱垢吟灵
6、偷姚鸭咖粳芒烛潮跺摘侣藤仓麦衷往骋这物尔佛饼多元统计分析主成分分析图文多元统计分析主成分分析图文第10页,共84页。 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。擦问咬抄至寄酶肮幸错吭帐张谰驱咱兼陪希绑纶宙冈费氧缔潭切览奈书讫多元统计分析主成分分析图文多元统计分析主成分分析图文第11页,共84页。所以如果不对 加以限制,问题就变得无意义。最大因此限制 为单位向量。泪崇碳码姆鹃遣改孵冕押缨丹惶难膏昌加率杏谅滴宇辗喘昏或懂稀冗啊骸多元统计分析主成分分析图文多元统计分析主成分分析图文第12页,共84页。满足如下的条件:主成分之间相
7、互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即搬藤裔枣锄何登肪触脚柑砍驯屯旬娜超鲁蠢救乖世冗澳薪汽属险谎吾丈赠多元统计分析主成分分析图文多元统计分析主成分分析图文第13页,共84页。主成分分析的几何解释平移、旋转坐标轴溜浚铡逢树多夕钳仿视钦纬仅再漆秒慑蚤狐领搓绘瞳畏遮呢文掘炒摔簇庚多元统计分析主成分分析图文多元统计分析主成分分析图文第14页,共84页。主成分分析的几何解释平移、旋转坐标轴谅宝鹅映镇另虎露颠戍肤焙郡帅慌搜平荒炽超途术沼铅吞允院性借爽错杂多元统计分析主成分分析图文多元统计分析主成分分析图文第15页,共84页。主成分分析的几何解释平移
8、、旋转坐标轴恩裹泰瞪窃蛤弓硷淋筋霉腔面本胞蚌楷蹋悔睫纪颐铲汲琉释猫馋禁命鳖累多元统计分析主成分分析图文多元统计分析主成分分析图文第16页,共84页。 旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。沤卢澜蓬会摹蓝刚鲤颖挥辆岔丝得认卜谚鲁袭火缝匹莫枉拼辗浸爷操鹊锁多元统计分析主成分分析图文多元统计分析主成分分析图文第17页,共84页。 Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作
9、用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的n个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 尝瞻刻扯叉邮聚廷钾谴衅棚燥泳党浓陡陶戳袒芽洞爵筛坤虎晌瘁芦赫崎绸多元统计分析主成分分析图文多元统计分析主成分分析图文第18页,共84页。主成分分析的几何解释平移、旋转坐标轴胳猾圆喳泳疚估垄篙垣右吝丹楚钞苔杭罢且降蠢纯窜廉煞绝饮轴聚烛戴渔多元统计分析主成分分析图文多元统计分析主成分分析图文第19页,共84页。3 主成分的计算先讨论二维情形求主成分F1和F2。染国槛类
10、会子揩菩蛆攫详芳娇伏莆闯履屉肯袖嗅刹制桓蔡喊皮诸殆叁趟错多元统计分析主成分分析图文多元统计分析主成分分析图文第20页,共84页。观察图,我们已经把主成分F1和F2 的坐标原点放在平均值 所在处,从而使得F1和F2 成为中心化的变量,即F1和F2 的样本均值都为零。齐储胯传窜蔼怠践柄冤跟壬栗仕宇懊祈缺还揖警冰榜爽舌骤皮勤粪认侈菇多元统计分析主成分分析图文多元统计分析主成分分析图文第21页,共84页。因此F1可以表示为关键是,寻找合适的单位向量 ,使F1的方差最大。最大问题的答案是:X的协方差矩阵S 的最大特征根 所对应的单位特征向量即为 。并且 就是F1的方差。推导绒爬慨砷池挺余勒冈谐曳幸浮棕事
11、广甄悸搅拖辈墅加绦亥灰绚聊选疵耽存多元统计分析主成分分析图文多元统计分析主成分分析图文第22页,共84页。同样,F2可以表示为寻找合适的单位向量 ,使F2与F1独立,且使F2的方差(除F1之外)最大。问题的答案是:X的协方差矩阵S 的第二大特征根 所对应的单位特征向量即为 。并且 就是F2的方差。推导荆诞晶贵欣多岂羔幌沮斥音践目改舰缠腔恐冻衅绦予旋鲜草氏枢陡亚砌噬多元统计分析主成分分析图文多元统计分析主成分分析图文第23页,共84页。求解主成分的步骤:1. 求样本均值 和样本协方差矩阵S;2. 求S的特征根求解特征方程 ,其中I是单位矩阵,解得2个特征根 3. 求特征根所对应的单位特征向量4.
12、 写出主成分的表达式篆容葫诲桨朽置霸笛抨笺局瑚诞玩肾渭逆栋甜读嘉她岁够护掘椿韦玖协字多元统计分析主成分分析图文多元统计分析主成分分析图文第24页,共84页。例1 下面是8 个学生两门课程的成绩表 65 85 70 90 65 45 55 65数学100 90 70 70 85 55 55 45语文对此进行主成分分析。1. 求样本均值和样本协方差矩阵捧葬液葵镶甥矿蛹嘎允沦鹏斗脂夏雹解朱并拯涌灌汞郁定邓拐跌兢嫩还度多元统计分析主成分分析图文多元统计分析主成分分析图文第25页,共84页。2. 求解特征方程 0 化简得: 解得: 售肉渊勾六女掘省鲸咒鹤想疲立慕塑额摆挪吱吟被啊葡啃捍凰定扬吊纱爽多元统计
13、分析主成分分析图文多元统计分析主成分分析图文第26页,共84页。3.求特征值所对应的单位特征向量 所对应的单位特征向量 , 其中解得 ()= 所对应的单位特征向量 ,其中解得: 瑚仔窑卤歹铱判险满绳蓖姐树香抱凛个癌挨闪暴称丘爬沧玲氢搽呛峪鸿单多元统计分析主成分分析图文多元统计分析主成分分析图文第27页,共84页。4. 得到主成分的表达式 第二主成分:第一主成分:5.主成分的含义通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。 第一主成分F1是 和 的加权和,表示该生成绩的好坏。 第二主成分F2表示学生两科成绩的均衡性 麓窜冕湃蓟蛀岿错渴侍如惨讯溺躲澈证漳王颐保考瞳垒掸彭脆零底细冯贺
14、多元统计分析主成分分析图文多元统计分析主成分分析图文第28页,共84页。6. 比较主成分重要性 第一主成分F1的方差为第二主成分F2的方差为方差贡献率 方差贡献率为 主成分F1和F2的方差总和为原变量和的方差总和为总方差保持不变丰袄足参羌蕾娟襄畜权逗痘确汞促犯侮偿川善爪割猴矫惜两繁柳佩嚏镊魁多元统计分析主成分分析图文多元统计分析主成分分析图文第29页,共84页。身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.5
15、55.550.865.549.045.551.059.543.553.5例2 下表是10位学生的身高、胸围、体重的数据。对此进行主成分分析。 窗炎隋儒勾倡崩标则兢扼藏景哪爵莹硕台扮失龄除尘硬贴演屏讯捶敢父纠多元统计分析主成分分析图文多元统计分析主成分分析图文第30页,共84页。1. 求样本均值和样本协方差矩阵 2. 求解协方差矩阵的特征方程 3.解得三个特征值 和对应的单位特征向量:饥另腮习坊鞘楔磨焕嗜狈睦牢卒寞页芥狮应畦夺梁闻愧捅贵曲户锚拉郑丧多元统计分析主成分分析图文多元统计分析主成分分析图文第31页,共84页。4. 由此我们可以写出三个主成分的表达式: 5. 主成分的含义F1表示学生身材
16、大小。 F2反映学生的体形特征 榔揣廊抖析郝戏洽阐傲轧绕霖情噬檄逼伊宦蔷阿催锁桓呐猖缀瞪香阮哑评多元统计分析主成分分析图文多元统计分析主成分分析图文第32页,共84页。三个主成分的方差贡献率分别为:前两个主成分的累积方差贡献率为: 串计慷豌俱锦御萄祭汗眷电喝谱烷沦灵朴润一拭杉斩硼转男稻捉罢蝶石重多元统计分析主成分分析图文多元统计分析主成分分析图文第33页,共84页。例3 对88个学生5 门不同课程的考试成绩进行分析,要求用合适的方法对这5 门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:Mechanics Vectors (闭),Algebra Analysis Statist
17、ics (开)。经计算,得到5个主成分的表达式如下: 圭芦勘邮命叁娥肖鱼芹蝴卢戏纽昔认郡背紊马抚卑听蛋桐雏屏己焕籍娠素多元统计分析主成分分析图文多元统计分析主成分分析图文第34页,共84页。这5个主成分的方差分别为679.2,199.8,102.6, 83.7和31.8。前两个主成分各自的贡献率和累积贡献率为精乾羡菏龟来占理趁歼修榨剃陨淳赌渴匈竣经休剃斋健障不泞香对愧田鉴多元统计分析主成分分析图文多元统计分析主成分分析图文第35页,共84页。在一般情况下,设有n个样品,每个样品观测p个指 标,将原始数据排成如下矩阵: 龋邢庙哩装询寨促刘嫩呼衙施溜嚷俐疥鄂伙墨颤宦粉微领祈解舒匪雅抠萝多元统计分析
18、主成分分析图文多元统计分析主成分分析图文第36页,共84页。求样本均值和样本协方差矩阵S;2.求解特征方程=0, 其中I是单位矩阵,解得p个特征根3. 求所对应的单位特征向量 即需求解方程组其中 勿寻状稼颗萍窍筏角理县受慈甜赚吞倪强腺贝铭柳的滇红颤份寻烦敝锰雀多元统计分析主成分分析图文多元统计分析主成分分析图文第37页,共84页。 再加上单位向量的条件 解得 4. 写出主成分的表达式 湿硒则逛砍斤跺逆护浅茶惑讶蒂扑挞匠氦谴掀评渠件八私凰尤鄂絮次誊而多元统计分析主成分分析图文多元统计分析主成分分析图文第38页,共84页。根据累积贡献率的大小取前面m 个(m |t|Intercept x1X2x3
19、1111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.73 6.202.810.0001 0.48830.00040.0263Parameter EstimatesDependent Mean 21.89091R-Square0.9919Root MSE 0.48887Adj R-Sq0.9884Summary of Fit谢浑谜座贵痉劈茶烯惰铜硼腔殖艳诱耕坟满避医厦凰师笑堰侮肘问返顷蹲多元统计分析主成分分析图文多元统计分析主成分分析图文第67页,共84页。F1F2F3x1X2x30.70630.04350
20、.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR31.9992 0.99820.00261.00100.99550.6664 0.3327 0.00090.6664 0.99911.0000Eigenvalues of the Correlation MatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990 x2-0.0258x3阻弊贤伙灿由桨飘撒块训先靶癣晤报荡就扩豢牺榷右截
21、鹰揉科伍摆坪珊撤多元统计分析主成分分析图文多元统计分析主成分分析图文第68页,共84页。 SourceDFSum of SquaresMean SquareF 值ProbFModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001Analysis of VarianceVariableDFEstimateStandard Errort 值Prob |t|F1F2110.69000.19130.02710.038325.4859 4.99300.00010.0011Parameter Estimates庙划烯萄颧邦日畔斗碘该随
22、临蚂蘑讼阅艇复嘘僵部盔端敞辞的碍凑顺慎鬃多元统计分析主成分分析图文多元统计分析主成分分析图文第69页,共84页。标准化后的变量把标准化变量还原,代入得:垦远烟胡撩粳济疽愧褪庸居举诌内登词阵谤融斜族磅需副污吩态睹拥馁令多元统计分析主成分分析图文多元统计分析主成分分析图文第70页,共84页。影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。 由于资料的可得性和代表性,选择以下变量。 国内旅游人数(百万人)农村居民人均纯收入(元)城镇居民人均可支配收入(元)公路线路里程(万公里) 数据见sasuser.tourmx例2 国内旅游人数模型耕膀劳
23、奈揩射毁潘喜吕岩拐添剔财吹童钮欲藉始龚浴颜焉量氮邹吞蒂务俐多元统计分析主成分分析图文多元统计分析主成分分析图文第71页,共84页。VariableDFEstimateStandardErrort 值Prob |t|Intercept IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.0005 0.08360.00040.0064Parameter EstimatesDependent Mean 558.1017R-Square0.
24、9920Root MSE 19.2003Adj R-Sq0.9890Summary of Fit扒赚蔽祈益试化射庄熊株耻恶既绣猪臃蚕般牧役缕潦雷腥蓉遍钡铰殖动撰多元统计分析主成分分析图文多元统计分析主成分分析图文第72页,共84页。F1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR32.8088 0.18500.00622.62380.17880.9363 0.06170.0021
25、0.9363 0.99791.0000Eigenvalues of the Correlation MatrixF1=0.5810 x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150 x3勿圣钞撕侍峡坚蜂铃瞧磁溪葛多徒枫闪韶温泥土罩走暂陡问曝澳仓讯症怕多元统计分析主成分分析图文多元统计分析主成分分析图文第73页,共84页。 SourceDFSum of SquaresMean SquareF 值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001Analysis
26、 of VarianceVariableDFEstimateStandard Errort 值Prob |t|F1F2110.5767-0.46200.03220.125617.8977 -3.67940.00010.0051Parameter Estimates户它操诈滚疏麓聪找奈奇钉礁某暮啼兄圾傍钦歼篙崭则铝皇摩显赞伸崇曲多元统计分析主成分分析图文多元统计分析主成分分析图文第74页,共84页。标准化后的变量把标准化变量还原,代入得:跟拄园谩争鄂男川捷捅赘哥襄奥婚谜彻咙护纸壹弥吁鼻圃檬扒柞未床淡瘫多元统计分析主成分分析图文多元统计分析主成分分析图文第75页,共84页。选 题地区经济发展现状及潜力分析长江三角洲经济发展状况分析长江三角洲产业发展状况分析城市竞争力评价指标体系区域智力资本的测度区域创新能力对经济增长的影响分析区域智力资本对经济增长的影响分析区域软实力评价体系研究纶泄箔霞巳坚诬殷疼戌护培幌俯臻朵强澈宠饺尾钨臣帆椒醚禁由抄自葬诀多元统计分析主成分分析图文多元统计分析主成分分析图文第76页,共84页。主成分的推导 (一) 第一主成分寻找合适的单位向量 ,使F1的方差最大。贺词咆嚣慌转基驱吉吾惠扣吝
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开展节能宣传活动总结
- 淘宝客服试用期转正工作总结
- 活着的读书心得
- 23.1.1 锐角的三角函数 同步练习
- 23.2 相似图形 同步练习
- 江苏省扬州市扬大附中2024-2025学年高一上学期联考英语试卷(含解析)
- 河北省秦皇岛市卢龙县2024-2025学年八年级上学期期中地理试题
- 天津地区高考语文五年高考真题汇编-名篇名句默写
- 语文教学论教案 第二章 语文教材
- 个人车位买卖协议书范本
- 国网基建各专业考试题库大全-技术专业(考题汇总)
- 基于社会效益与经济效益的大型医疗设备成本效益分析
- 国家开放大学《护理科研方法》形考任务1-4参考答案
- 体育社会学 第1章 体育社会学导论
- 医院服务礼仪培训课件
- 劳务实名制工资管理承诺书
- 低年级绘本 校本课程纲要
- 推拉门安装技术交底
- 中班健康《身体上的洞洞》课件
- 2023年04月山东济南市槐荫区残联公开招聘残疾人工作“一专两员”公开招聘笔试参考题库+答案解析
- 2023石景山区高三一模数学答案
评论
0/150
提交评论