主成分和因子_第1页
主成分和因子_第2页
主成分和因子_第3页
主成分和因子_第4页
主成分和因子_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学─从数据到结论第十章主成分分析和因子分析

汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?

需要高度概括在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。本章介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。10.1主成分分析成绩数据(student.txt)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。SPSS数据形式从本例可能提出的问题目前的问题是,能否把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能否利用找到的综合变量来对学生排序或据此进行其他分析呢?空间的点例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,由横坐标和纵坐标所代表;每个观测值都有相应于这两个坐标轴的两个坐标值;空间的点如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。椭圆的长短轴当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。椭圆的长短轴如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆的长短轴相差得越大,降维也越有道理。主轴和主成分多维变量的情况和二维类似,也有高维的椭球,只不过不那么直观罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。主轴锣和主尼成分正如集二维阿椭圆伸有两匪个主感轴,极三维胆椭球烟有三挺个主矿轴一嫁样,愁有几淘个变兔量,鞠就有井几个我主轴影。和二薯维情姥况类稳似,秀高维域椭球辫的主片轴也煎是互蜻相垂撞直的寺。这些伸互相历正交社的新乖变量蒸是原窝先变僚量的塑线性枣组合俱,叫靠做主使成分(p梨ri悦nc炼ip琴al挂c幕om虽po偏ne幕nt配)。主成躺分之汉选取选择华越少亩的主甘成分烂,降讽维就炕越好宾。什捎么是宵标准僚呢?那就坝是这依些被需选的较主成猴分所客代表缩慧的主秋轴的右长度奏之和勇占了博主轴水长度陆总和壮的大捆部分都。有些唯文献误建议像,所热选的象主轴击总长值度占诊所有敌主轴本长度很之和锦的大约85袭%即可岭,其聪实,这只超是一箩个大袄体的斜说法;具疾体选婚几个胃,要峡看实减际情近况而狸定。主成咳分分陪析的炉数学要寻矩找方垃差最辨大的叨方向耐。即蔽,使向量X的线炎性组寄合a’X的方跳差最趴大的堂方向a.而Va箭r(a’X)=a’C限ov奔(X脑)a;由于Co药v(筒X)未知净;于是望用X的样本欠相关露阵R来近软似.要寻稍找向骡量a使得a’Ra最大(注意哄相关粉阵和借协方提差阵莫差一池个常衫数)这涉竿及相岗关阵值和特种征值嘴。回顾阴一下矛吧!选择俱几个执主成迹分呢?要看究“贡帆献率.”对于掀我们色的数拣据,SP舅SS输出逃为这里煎的In后it心ia悉lEi雾ge车nv缓al枕ue提s就是险这里酿的六模个主曲轴长止度,音又称团特征屠值(砖数据芽相关和阵的搭特征逗值)。头两铃个成设分特括征值掉累积盒占了删总方周差的81钓.1呢42较%。后关面的踩特征膏值的冬贡献柄越来崖越少域。特征派值的顾贡献门还可头以从SP犬SS的所视谓碎盏石图境看出怎么律解释挺这两钻个主掀成分坐。主破成分何是原棒始六迈个变奔量的尿线性江组合赛。这剖由下妖表给药出。这里肾每一描列代忌表一池个主才成分傲作为惹原来傲变量判线性驼组合释的系兰数(盆比例劫)。喊比如下第一事主成声分为领数学壮、物肃理、暗化学青、语举文、堵历史晃、英豪语这托六个促变量潜的线闭性组福合,夕系数废(比训例)逼为-0寺.8低06优,钉-0广.6泊74叠,岁-0倡.6摊75塘,孕0.胶89肃3,养0花.8迁25崭,麻0.兽83崇6。如用x1,x2,x3,x4,x5,x6分别丛表示岸原先款的六橡个变己量,台而用y1,y2,y3,y4,y5,y6表示蹦新的寺主成洋分,炭那么责,第绘一和列第二授主成猴分为这些雷系数窃称为面主成虏分载梳荷(lo坦ad妥in拒g),它表握示主患成分和和相谷应的尘原先罗变量槐的相幅关系鞠数。比如y1表示炊式中x1的系集数为-0贞.8砍06,这涉就是歌说第破一主耕成分稠和数搁学变淡量的低相关侍系数钢为-0潜.8叨06。相关称系数(绝对钟值)值越大熄,主降成分蔑对该据变量慎的代凉表性古也越脑大。土可以鸦看得侨出,南第一凤主成头分对粗各个帅变量轨解释朱得都食很充补分。控而最防后的吐几个奋主成途分和终原先化的变屯量就朝不那尸么相闷关了侮。可以晨把第渠一和笋第二甩主成倍分的石载荷蚕点出皇一个植二维融图以横直观帖地显龄示它螺们如祖何解兆释原煌来的社变量涝的。挽这个斑图叫百做载残荷图奇。该图左面你三个饰点是圈数学兼、物姻理、危化学绪三科,右边算三个为点是醒语文浴、历移史、变外语屠三科奏。图中扬的六扰个点俗由于逃比较痛挤,价不易蒙分清缝,但替只要迷认识团到这距些点精的坐偷标是泉前面防的第训一二滑主成永分载案荷,肃坐标票是前视面表樱中第狐一二屿列中前的数满目,惜还是梳可以宴识别段的。10跨.2因子植分析主成稳分分少析从麦原理晒上是遮寻找制椭球悠的所减有主咽轴。浪原先损有几撑个变遗量,陕就有押几个精主成衰分。而因塔子分扶析是梨事先离确定冰要找市几个慌成分软,这榴里叫倦因子献(fa那ct典or)(比如坦两个候),豆那就绢找两染个。这使晚得在阅数学臂模型痰上,渡因子恨分析安和主筝成分定分析俯有不委少区浇别。孤而且亲因子备分析段的计侮算也咬复杂够得多浮。根互据因锐子分隐析模晚型的恩特点刊,它妈还多赵一道搬工序冻:因阳子旋聪转(fa棍ct合or援r叼ot夏at驳io财n);这个舰步骤跌可以虑使结焦果更友好。10摇.2因子励分析对于绍计算敌机,盈因子蚕分析算并不孔费事能。从输朱出的稍结果拥来看贯,因忙子分级析也剪有因仁子载耍荷(fa规ct投or丹l间oa辣di骂ng)的概块念,什代表放了因煎子和远原先袍变量瓣的相嚷关系侵数。渗但是齐在因因子分口析公贡式中成的因愿子载锁荷位绒置和倦主成耐分分即析不目同。因子船分析归也给吐出了臂二维详图;帖其解自释和矿主成建分分娱析的恒载荷论图类土似。主成蒸分分魂析与乡丰因子耐分析能的公记式上湿的区抹别主成绍分分做析因子丛分析(m炼<p覆)因子喷得分对于腔我们动的数肺据,SP赴SS因子鹿分析华输出晒为这个校表说慈明六遣个变戴量和佳因子摊的关虫系。旬为简和单记画,我懒们用x1,x2,x3,x4,x5,x6来表完示ma项th(数学膝),ph师ys(物理绑),ch道em(化学乐),li痒te锡ra籍t(语文形),hi租st浸or箭y(历史晕),en孙gl醒is解h(英语痰)等单变量沃。这困样因晓子f1和f2与这土些原突变量合之间聋的关秤系是杏(注禁意,释和主链成分恼分析息不同工,这硬里把元成分孔(因秒子)倘写在叙方程羡的右商边,活把原序变量裁写在惭左边辈;但光相应夹的系遭数还他是主抢成分毕和各任个变晓量的诊线性扔相关歪系数束,也只称为爷因子汗载荷霸):这里傅,第一唐个因呢子主催要和胞语文洪、历扩史、涂英语歇三科惕有很朽强的惯正相插关;而第席二个姻因子捷主要炸和数饥学、乎物理班、化秩学三恋科有扣很强卡的正迷相关。因此芹可以谱给第舞一个悲因子菊起名势为“文身科因辟子”,而好给第蒜二个玩因子衬起名江为“理劝科因宴子”。从这经个例扩子可剩以看崇出,奏因子幕分析权的结烧果比如主成景分分洲析解犁释性笔更强桂。这些非系数芬所形股成的事散点久图(狸在SP学SS中也让称载双荷图消)为可以喇直观刺看出柱每个童因子宇代表巧了一滴类学倒科计算痰因子豪得分可以惨根据歪输出算出泼每个附学生还的第郑一个集因子枯和第蹦二个泄因子启的大有小,步即算退出每个肠学生的因扩子得诸分f1和f2。该输敌出说陷明第塑一和爪第二誉主因刮子为葛(习输惯上洽用字戏母f来表只示因跑子)渣可以车按照闷如下萌公式路计算是,该纠函数润称为饼因子兰得分瘦(fa凯ct心or僻s刑co管re)。人们油可以优根据跑这两裕套因匆子得利分对谱学生组分别我按照压文科则和理从科排慰序。扭当然伪得到焰因子给得分蜓只是SP斗SS软件蛇的一霉个选嚼项。10聪.3因子呜分析咱和主波成分戒分析歼的一品些注绣意事坝项可以辨看出跳,因裳子分钟析和确主成谨分分箱析都伪依赖抹于原晨始变奖量,厕也只迟能反恐映原津始变交量的叮信息吊。所避以原扭始变缘瑞量的前选择遣很重竞要。另外这,如宣果原邻始变直量都蛛本质逃上独盲立,情那么唉降维嗽就可柄能失押败,腐这是刷因为尚很难赏把很岭多独千立变则量用拜少数灿综合骗的变平量概婶括。艇数据际越相燃关,美降维铺效果幸就越浙好。10轧.3因子枯分析昏和主征成分脱分析咬的一茶些注半意事愈项在得暗到分畜析的屿结果会时,法并不发一定迎会都绿得到卖如我六们例考子那考样清最楚的狗结果秒。这庄与问斧题的岁性质屑,选持取的塑原始垫变量夸以及诉数据继的质弟量等叫都有恢关系在用浙因子述得分侨进行椒排序授时要块特别涌小心真,特骡别是御对于称敏感扑问题造。由疾于原稠始变泥量不唯同,权因子木的选年取不连同,志排序途可以么很不冲一样译。SP隶SS实现(因子抢分析毯与主放成分舅分析)拿st阴ud约en皆t.劳sa宿v为例分,选An扑al臣yz词e-Da甚ta本R拉ed镰uc关ti软on-Fa竞ct姜or进入虑主对抖话框披;把ma巩th、ph柿ys、ch击em、li毫te渐ra六t、hi更st愧or浮y、en敲gl耍is栋h选入Va扭ri越ab模le庭s,然后吩点击Ex捐tr要ac旦ti亭on,在Me洒th惕od选择目一个们方法亿(如温果是泡主成魔分分腿析,拔则选Pr洒in桃ci赛pa茄l丢Co乖mp活on睛en择ts),下面旱的选知项可说以随剑意,扔比如俊要画秃碎石脏图就咐选Sc炸re名epl争ot,另外棍在Ex物tr四ac括t选项悼可以邪按照财特征倘值的鹊大小迎选主布成分徐(或果因子窜),渠也可逃以选剖定因恼子的何数目表;之后骨回到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论