SSS数据教程主成分与因子sss_第1页
SSS数据教程主成分与因子sss_第2页
SSS数据教程主成分与因子sss_第3页
SSS数据教程主成分与因子sss_第4页
SSS数据教程主成分与因子sss_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第13章主成分分析与因子分析介绍:1、主成分分析与因子分析的概念2、主成分分析与因子分析的过程主成分分析与因子分析的概念需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的,但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。主成分分析与因子分析的概念(续)由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:特征值>1累计贡献率>0.8主成分分析实例P316-不旋转使用默认值进行最简单的主成分分析(默认为主成分分析法:Principalcomponents)例子P316:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析,data13-01a,数据见下一张幻灯片)菜单:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,house其他使用默认值(主成分分析法Principalcomponents,选取特征值>1,不旋转)比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(ComponentMatrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop0.581f1+0.806f2School0.767f1-0.545f2employ0.672f1+0.726f2Services0.932f1-0.104f2house0.791f1-0.558f2每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包含信息的93.4%。f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化,这就要使用选择项。洛衫矶对12个人口调查区的数据编号

总人口

中等学校平均

总雇员数专业服务

中等房价no

pop

校龄School employ项目数Services house1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 13000因子分析实例322-旋转Rotation由于系数没有很明显的差别,所以要进行旋转(Rotation:method一般用Varimax方差最大旋转),使系数向0和1两极分化,例子同上菜单:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,houseExtraction:使用默认值(method:Principalcomponents,选取特征值>1)Rotation:method选VarimaxScore:Saveasvariables和DisplayfactorscoreCoefficientmatrix比较有用的结果:两个主成分(因子)f1,f2及旋转后的因子载荷矩阵(RotatedComponentMatrix)

,根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop0.01602

f1+0.9946f2School0.941f1-0.00882f2employ0.137f1+0.98f2Services0.825f1+0.447f2house0.968f1-0.00605f2第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子);而第二主因子对总人口和总雇员数有较大的载荷(代表人口-人口因子).P326比较有用的结果:因子得分fac1_1,fac2_1。其计算公式:因子得分系数和原始变量的标准化值的乘积之和(P326)。然后可以利用因子得分进行聚类p327(Analyze->Classify->HierarchicalCluster)。主成分分析实例P330-不旋转

市场研究中的顾客偏好分析在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常用到主成分分析方法(因子没有旋转)。例子P330:数据来自SAS公司,1980年一个汽车制造商在竞争对手中选择了17种车型,访问了25个顾客,要求他们根据自己的偏好对17种车型打分。打分范围0~9.9,9.9表示最高程度的偏好。data13-02a(17×25:17个case,25个变量V1-V25)菜单:Analyze-DataReduction-FactorVariables:V1-V25Extraction:method:Principalcomponents Extract:Numberoffactors:3要三个主成分Score:Saveasvariables比较有用的结果:3个主成分及其因子载荷矩阵(ComponentMatrix):第一主成分和第二主成分的载荷图(Loadingplots)比较有用的结果:因子得分fac1_1,fac2_1,fac3_1。然后可以利用因子得分进行各种分析:做偏好图:用fac1_1,fac2_1做散点图(Graphs->Scatter:X-fac1_1,Y-fac2_1):第一主成分反映了车的产地,第二主成分反映了车的特性(质量、动力、座位数等)具体见P332-334补充:主成分分析和因子分析以下的讲义是吴喜之教授有关主成分分析和因子分析的讲义,我觉得比书上讲得清楚。主成分分析和因子分析

汇报牢什么占?假定鞋你是声一个临公司孔的财待务经渔理,坛掌握简了公膜司的生所有揭数据挂,比考如固定聋资产粒、流贷动资肿金、奔每一恰笔借蒜贷的戒数额则和期因限、笑各种岩税费赢、工衬资支技出、库原料馒消耗到、产绪值、染利润军、折伶旧、哈职工涌人数昼、职穗工的哨分工役和教类育程荐度等磁等。如果寻让你责向上垃面介狱绍公断司状先况,域你能猴够把叫这些辩指标菊和数汉字都原封稳不动蔽地摆价出去导吗?当然馋不能侄。你必贫须要选把各肚个方杯面作昆出高藏度概旦括,用一更两个薄指标建简单捆明了储地把盖情况当说清廊楚。主成倍分分圆析每个惹人都训会遇快到有很多乒变量的数卡据。比如调全国肉或各骗个地牲区的勾带有讨许多岂经济确和社华会变增量的屡数据象;各蚊个学抢校的巨研究纲、教凤学等仗各种拉变量见的数躬据等元等。这些茂数据添的共粉同特挎点是茄变量金很多暗,在山如此贸多的撞变量俱之中疾,有茫很多棒是相缠关的响。人圆们希柿望能肿够找栽出它目们的少数夏“代耗表”来对陵它们咐进行亭描述仍。本章市就介蝇绍两愧种把学变量轻维数旨降低裁以便蚀于描因述、迈理解润和分购析的王方法由:主成粒分分型析(pr榨in烧ci筹pa泥l掏co窄mp肉on砍en柱t胡an劈燕al陵ys司is)和因子库分析(fa景ct撤or条a蚁na晶ly市si债s)。实际念上主成例分分熔析可食以说警是因妄子分蝇析的稿一个端特例。在世引进嗓主成食分分崭析之撞前,贼先看甩下面酷的例耗子。成绩秧数据咳(st露ud闲en极t.sa彩v)10酷0个雅学生绝的数粱学、咐物理准、化开学、纺语文峰、历顽史、债英语宜的成违绩如城下表窄(部村分)。从本片例可渡能提满出的慢问题目前核的问凶题是滨,能巨不能爱把这乞个数喊据的6个变馋量用语一两网个综钳合变棕量来盲表示挎呢?这一斤两个畏综合袖变量佳包含技有多话少原稳来的监信息住呢?能不俩能利高用找坟到的酷综合励变量疫来对达学生永排序有呢?考这一历类数克据所示涉及坑的问黄题可娃以推因广到诊对企锡业,苦对学融校进静行分转析、截排序派、判挺别和纤分类古等问俱题。主成山分分雁析例中蛛的的坦数据诞点是情六维哄的;询也就才是说利,每祥个观裙测值陶是6章维空私间中拜的一物个点罩。我何们希取望把孔6维受空间站用低浆维空匆间表弊示。先假顺定只鱼有二风维,柄即只踢有两艇个变很量,讯它们撑由横衣坐标蚊和纵便坐标和所代极表;迹因此术每个惧观测哨值都康有相识应于则这两碑个坐样标轴各的两挎个坐抄标值裹;如阵果这攻些数护据形讽成一泰个椭馋圆形斯状的朱点阵虎(这技在变缘瑞量的番二维叫正态渴的假游定下必是可较能的烘)那么造这个呢椭圆零有一宇个长灿轴和套一个鼓短轴擦。在晨短轴泼方向随上,零数据程变化虎很少贼;在覆极端劫的情统况,压短轴伯如果结退化装成一圈点,像那只柔有在倘长轴类的方击向才爽能够栋解释豪这些佳点的所变化贫了;摘这样乌,由锡二维虹到一研维的朵降维租就自拾然完逃成了祖。主成体分分甘析当坐研标轴咱和椭毛圆的欲长短棒轴平养行,踢那么陶代表绳长轴胖的变普量就杏描述瓜了数努据的丢主要运变化滤,而努代表摇短轴猾的变踩量就巧描述饥了数肢据的粒次要换变化躁。但是俗,坐卷标轴朽通常挥并不据和椭席圆的杏长短奋轴平敬行。穷因此亩,需稿要寻哑找椭起圆的宣长短悄轴,智并进咏行变敢换,脊使得楼新变赛量和陡椭圆啄的长夹短轴组平行岛。如果部长轴贱变量报代表廉了数尤据包逝含的受大部孔分信招息,道就用先该变转量代垮替原闹先的沃两个螺变量茧(舍貌去次挥要的票一维坟),箱降维镇就完闷成了群。椭圆随(球成)的卡长短路轴相网差得骆越大墙,降梁维也曲越有泉道理盆。主成乱分分娇析对于丑多维演变量羽的情龄况和您二维寄类似翁,也捞有高获维的冻椭球韵,只报不过携无法范直观臣地看游见罢俱了。首先冷把高障维椭选球的伯主轴六找出鼻来,蓬再用渣代表托大多弊数数童据信侨息的铸最长下的几垄个轴西作为唐新变粮量;单这样先,主仙成分拔分析碰就基忘本完杏成了瓶。注意夹,和汽二维师情况脏类似街,高剪维椭苍球的欧主轴废也是蜂互相储垂直瓜的。宁这些紧互相驻正交思的新续变量众是原澡先变斑量的饺线性暴组合铃,叫己做主松成分润(pr亚in初ci后pa铃l杨co烧mp缸on愤en区t)械。主成械分分捏析正如瓜二维雀椭圆覆有两行个主捎轴,洪三维爪椭球桌有三压个主私轴一循样,随有几凭个变备量,型就有蒜几个溉主成辛分。选择委越少送的主巨成分依,降木维就肢越好溉。什杠么是及标准欺呢?欲那就科是这舅些被衫选的爆主成割分所喘代表新的主销轴的律长度迹之和灯占了墓主轴站长度算总和坑的大才部分穴。有铲些文条献建附议,喘所选解的主渠轴总爬长度匀占所宵有主楼轴长桑度之漆和的大约绕85凶%即可架,其闭实,这只束是一驰个大短体的前说法;具锋体选守几个批,要摧看实路际情疮况而盯定。对于笼我们日的数伍据,SP版SS输出洗为这里爪的In售it害ia竟lEi羊ge俊nv初al致ue复s就是岗这里滑的六击个主伙轴长告度,努又称幼特征星值(侵数据连相关脏阵的责特征震值)。头两淋个成店分特植征值扰累积正占了友总方紫差的昂81榆.1昂42刊%。馒后面棋的特虾征值绝的贡谷献越警来越龟少。特征努值的沃贡献费还可挨以从SP早SS的所陷谓碎安石图嫩看出怎么维解释粮这两棍个主冻成分协。前蒸面说雅过主矮成分肃是原劈燕始六削个变帜量的竞线性逃组合逝。是麻怎么昂样的夸组合仰呢?SP照SS可以输出肃下面那的表曲。这里炭每一剩列代傍表一馋个主名成分会作为辩原来闪变量误线性茎组合次的系摆数(潜比例期)。廊比如港第一香主成鬼分作体为数含学、扎物理盟、化岁学、块语文毙、历蚁史、世英语阻这六燥个原软先变纱量的币线性险组合触,系你数(温比例晕)为知-0薯.8中06唤,话-0歪.6释74执,降-0开.6正75首,询0.净89根3,竞0己.8毙25缺,容0.桌83村6。如用x1,x2,x3,x4,x5,x6分别掩表示溪原先伙的六障个变葡量,勉而用y1,y2,y3,y4,y5,y6表示谢新的括主成垮分,铺那么疫,原掉先六京个变唱量x1,x2,x3,x4,x5,x6与第黑一和冲第二办主成兼分y1,y2的关元系为辈:X1=-社0.考80樱6y1+胡0.拿35煮3y2X2=-植0.下67留4y1+畅0.患53黄1y2X3=-忽0.阻67昏5y1+晌0.吉51贸3y2X4=雀0.慎89擦3y1+浅0.油30爱6y2x5=浙0.克82肾5y1+古0.须43汪5y2x6=拖0.逗83束6y1+齐0.秃42握5y2这些蚁系数军称为秤主成火分载绳荷(lo茅ad要in约g)驶,它表俱示主锯成分雹和相河应的涝原先兄变量宝的相穗关系部数。比如x1表示黄式中y1的系凉数为胳-0醋.8甜06拜,这蕉就是萌说第融一主贝成分静和数木学变踩量的塑相关备系数尝为-锐0.骨80映6。相关煌系数胃(绝糟对值检)越拥大,挺主成糕分对烫该变根量的月代表凑性也椅越大疼。可诊以看略得出绘,第铃一主晶成分摩对各支个变电量解荣释得蒙都很养充分报。而达最后分的几条个主柏成分珍和原蜡先的窗变量帆就不讽那么疮相关妖了。可以溜把第葱一和杠第二省主成宫分的清载荷贵点出岂一个布二维黄图以遮直观摘地显调示它苏们如孙何解生释原塔来的概变量邮的。馋这个哥图叫知做载仗荷图扔。该图左面溜三个份点是撤数学搬、物红理、桐化学庸三科,右边端三个散点是捉语文踏、历励史、链外语题三科响。图中爪的六希个点声由于暗比较拔挤,势不易宋分清遮,但丧只要迟认识帜到这也些点攻的坐酿标是降前面夕的第葬一二屯主成纷分载压荷,蛛坐标精是前贯面表廉中第纠一二特列中尝的数苹目,贵还是免可以熟识别撤的。因子然分析主成屑分分枕析从课原理嘉上是叼寻找惠椭球球的所夫有主抵轴。址因此狸,原眯先有白几个谜变量晃,就倘有几蹄个主奇成分弦。而因昂子分满析是呆事先秩确定笼要找监几个锯成分董,这喜里叫奥因子走(fa洒ct征or前)(比如疑两个束),妹那就锡找两舰个。这使侍得在辛数学竿模型宝上,旺因子单分析围和主妈成分霉分析追有不慎少区优别。誓而且范因子破分析恋的计素算也潮复杂诵得多鹿。根据忧因子赠分析谋模型皱的特副点,善它还郊多一江道工佣序:碍因子屯旋转骑(fa畅ct荣or骑r麦ot啦at某io祥n)浑;这个持步骤未可以钟使结堤果更难好。当然斤,对都于计迎算机拘来说孔,因糖子分恨析并划不比待主成浪分分遇析多添费多罢少时洗间。从输粗出的参结果硬来看夹,因皱子分桶析也候有因闻子载弹荷(fa歌ct甘or宰l瓶oa半di溉ng班)的概范念,省代表乐了因乌子和缸原先湖变量给的相慨关系疑数。固但是淹在输咳出中旱的因胞子和拖原来雾变量术相关额系数文的公庭式中授的系设数不棕是因密子载音荷,更也给的出了吊二维眨图;旺该图狮虽然铺不是陵载荷外图,溜但解疲释和禽主成女分分色析的程载荷宫图类嚼似。主成酿分分昆析与亚因子脂分析户的公钥式上洪的区铁别主成风分分怖析P3照12因子篇分析隆(m<幻玉p)P3扫14因子州得分P3搏15对于像我们北的数吸据,SP兰SS因子妖分析旷输出笼为这里晋,第一模个因盗子主俗要和芳语文淋、历逗史、勇英语扁三科口有很例强的宋正相当关;而第滩二个非因子州主要句和数管学、拨物理凝、化拆学三坏科有惕很强滩的正昨相关。因为此可泊以给落第一日个因临子起半名为“文趟科因馆子”,而拣给第投二个裙因子怠起名业为“理奖科因浙子”。从牛这个誉例子陕可以贩看出终,因耽子分脆析的泊结果纵比主堂成分棵分析赌解释住性更矩强。这两猎个因豆子的恭系数移所形笼成的有散点泪图(劣虽然待不是乱载荷仰,在SP泉SS中也赞称载强荷图萝,可以谷直观者看出固每个冠因子宁代表芒了一获类学狮科计算座因子瞎得分可以精根据选前面底的因构子得感分公困式(竹因子斧得分叛系数回和原夫始变灯量的是标准珍化值乞的乘动积之叼和)世,算秋出每版个学便生的皆第一伞个因尘子和来第二毫个因僚子的搂大小府,即场算出每个脾学生的因康子得摧分f1和f2。人们臭可以唤根据息这两醒套因达子得脆分对伟学生碰分别混按照耍文科染和理桃科排洋序。涛当然付得到吸因子旅得分孩只是SP氏SS软件爹的一震个选是项(沿可将炊因子奔得分禽存为喂新变呜量、句显示柱因子曾得分音系数咳矩阵页)因子缠分析昌和主溉成分眠分析箭的一弃些注裕意事指项可以碑看出免,因孩子分缎析和挂主成尚分分芹析都起依赖剧于原刷始变亏量,名也只离能反朽映原舰始变少量的停信息妨。所更以原锅始变惕量的英选择论很重秘要。另外精,如贼果原敬始变挂量都越本质咐上独衣立,部那么顶降维荐就可廉能失互败,透这是粗因为朴很难渣把很展多独舌立变预量用让少数值综合撤的变臂量概静括。刘数据度越相崇关,篮降维瞒效果歼就越该好。在得祝到分希析的稿结果以时,掠并不啊一定池会都丑得到削如我许们例醉子那逗样清僻楚的战结果谷。这扮与问协题的战性质垂,选侦取的艇原始酬变量座以及本数据裙的质园量等伴都有握关系在用框因子丧得分矛进行呆排序金时要惨特别隆小心萝,特澡别是翠对于久敏感业问题恐。由迫于原杜始变疤量不兼同,么因子泰的选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论