毕业设计主成分分析_第1页
毕业设计主成分分析_第2页
毕业设计主成分分析_第3页
毕业设计主成分分析_第4页
毕业设计主成分分析_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于主成分分析的免费师范生生源多因素分析高玉梁(陕西师范大学计算机科学学院,陕西西安710062)摘要:应用主成分分析原理,以少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成几个主成分,再以这几个主成分的奉献率为权数进行加权平均,构造出一个综合评价函数。本文以目前国家正在实行的免费师范生政策为背景,对陕西师范大学的免费师范生进行了系统性的问卷式抽样调查,并对调查结果进行整理记录和主成分分析,从而提取出免费师范生生源变化的重要影响因素(即特性)。本文所应用的学科为模式辨认,涉及到的理论方法是特性选择与特性提取,同时深刻理解K-L变换的定义、概念,以及在特性提取中的应用。关键词:主成分分析综合评估特性选择特性提取BasedonPrincipalComponentAnalysisintheVariousSourceofTuition-freeNormalCollegeStudentGaoYuliang(CollegeofComputerScience,ShaanxiNormalUniversity,Xi′an710062,Shaanxi,China)Abstract:Thetheoryofprinciplecomponentanalysiscanuselesscomprehensivevariablestoinsteadofthemultivariatevariables,thismethodcansimplifythestructureofthedataandaggregatetheoriginalindexintoseveralprincipalcomponents.Regardingthecontributionrateofthisprincipalcomponentasright,countweightedaverageandmakeupacomprehensiveassessmentfunction.ThepapertakethepresentcountrypolicyofTuition-freeNormalCollegeStudentasabackground,thenthestudentsintheShaanxiNormalUniversityhasbeencarriedonasystematicquestionnaireanditusesthetheorytoanalysisthestatisticalresults,thusextractthemajoreffectfactors(Thatischaracteristic)tothechangingsourceoftuition-freeNormalCollegeStudent.TherelatedsubjectsisPatternRecognition,inthisprocess,thefeatureselectionandextractionarealsoused.Atthesametime,accordingtotheanalysis,itneedstounderstandsomethingasdefinitions,conceptsofKarhunen-LoeveTransformanditsapplicationinfeatureextraction.Keywords:principlecomponentanalysiscomprehensiveassessmentfeatureselectionfeatureextraction

1.绪论 41.1课题的背景及提出的意义 41.1.1课题提出的背景 41.1.2课题提出的意义 41.2研究现状 41.2.1主成分分析理论简介 41.2.2理论原理及基本思想 51.2.3主成分分析理论在实验研究的应用情况 52.主成分分析的前提 62.1模式辨认 62.2样品与特性 62.3特性提取 62.4特性选择 72.5K-L变换 73.主成分分析的设计与实现 73.1基本概念 73.2主成分分析方法的设计 83.3主成分分析方法的计算环节 103.4主成分分析方法的实例 103.5主成分分析方法的优缺陷 124.关于免费师范生生源问题分析 134.1研究方法 134.2生源分析过程 144.2.1原始数据的标准化解决 144.2.2计算相关系数矩阵 154.2.3计算R的特性值与特性向量 164.2.4拟定主成分个数 164.2.5综合评价 174.3计算机分析相关代码 195结论 21结束语 21附录【参考文献】 21致谢 221.绪论1.1课题的背景及提出的意义1.1.1课题提出的背景2023年国家决定在六所教育部直属的师范大学进行师范生免费教育,在这一政策实行三年以来,事实已经证明这六所大学(北京师范大学、华东师范大学、东北师范大学、华中师范大学、陕西师范大学、西南大学)的生源较之以前发生了明显的变化,至于是什么因素引起了这个变化呢?不外乎是个人、家庭、社会等诸多方面的因素直接或间接导致的,在这些因素中,大多数人也肯定是由于同样的某些理由使他们选择了报读上述院校,鉴于这个事实,本文就选用主成分分析方法去探讨免费师范生生源多因素这一问题。1.1.2课题提出的意义免费师范生生源因素众多,而基于主成分分析的免费师范生生源多因素分析的目的则在于在我们对这种分析方法的原理充足理解下,灵活地运用一种科学理论去解释现实问题,培养理论联系实际的能力。同时,在免费师范生生源问题日益得到社会各界重视的前提下,运用一种科学理论去分析这一热门话题,一方面得出的结论具有较高的可信度,反之,另一方面假如结论和人们的直观感觉相一致,也同时对主成分分析方法的科学性和合理性进行了验证。1.2研究现状1.2.1主成分分析理论简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元记录分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),由于每个变量都在不同限度上反映这个课题的某些信息。但是,在用记录分析方法研究这个多变量的问题时,变量个数太多自然就增长课题的复杂性。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽也许少的新变量,使得这些新变量是两两不相关的,并且这些新变量在反映的信息方面尽也许保持原有的信息。它是模式辨认学科中特性选择所运用到的方法之一。1.2.2理论原理及基本思想设法将本来众多具有一定相关性变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽也许多地反映本来变量的信息的记录方法,这即是主成分分析理论的原理之所在,它也是数学上解决降维的一种方法。通常数学上的解决就是将本来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表达F1包含的信息越多。因此在所有的线性组合中选取的F1应当是方差最大的,故称F1为第一主成分。假如第一主成分局限性以代表本来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映本来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是规定Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第m个主成分,这m个主成分包含本来P个指标的所有信息。1.2.3主成分分析理论在实验研究的应用情况“多元记录分析”是近几十年来迅速发展起来的一门学科。随着微机的普遍使用及记录软件的推广普及,回归分析、判别分析、聚类分析因子分析、相应分析等等,各种多元记录方法已广泛应用于自然科学各学科乃至社会科学各个领域。主成分分析是一种常用的多元记录分析方法,相对于其他记录学方法,它更强调用数据自身来指导分析过程,而不是依赖于事先给定的某些假设。主成分分析在地震预测中的应用。根据主成分分析可以得到反映地震强度异常特性的综合指标形,发现该指标在2次地震前出现明显的异常变化,震后异常恢复,综合指标形可以较好地反映地震活动异常增强的特性。主成分分析在生命科学研究中的应用。生物样品特性谱的复杂多变性,对生物的每一个细小特性都进行解决分析已经是不现实的一种方法,因此很多的记录分析方法自然就被排除了,而主成分分析对于高维度的分子生物学数据则似乎是一种最恰当的分析方法。主成分分析在经济评价中的应用。在研究较复杂的经济问题时,运用多元记录分析中的主成分分析,可从多个经济指标中找出起支配作用的共同因素,从而抓住重要矛盾,以较少的变量进行定量分析,对公司的经济效益进行公正的评价。此外,主成分分析方法已经被作为一种科学的分析方法广泛地运用于工农业生产、环境保护、商业赚钱等等,并且主成分分析方法的应用领域会随着技术的进步越来越广阔。2.主成分分析的前提2.1模式辨认所谓模式辨认技术,是随着现代科学技术的发展,特别是计算机技术的发展而形成的一种模拟人的各种辨认能力和方法的技术。它基本上属于一种自动判别和分类的理论。模式辨认当前重要运用在地球环境的调查研究、生物医学工程、生产管理自动化、军事侦查等领域。模式辨认技术是在计算机上实现的,而计算机只辨认数字和字符,故所有模式都必须一方面数值化或符号化,才干进行自动辨认,也就是说前提是对模式的特性测量数值化。2.2样品与特性在模式辨认中,被观测的每个对象成为一个样品。对每个样品必须拟定一些与辨认有关的因素,作为研究的根据;每个因素成为一个特性。例如,在研究地震危险区域划分时,每个样品是一块区域,与之相应的特性可以取该区域内的各项地质地貌特性,如主活动断裂数,主活动断裂的端点及交汇点个数,区域内的最大高程等。又如,在医学诊断中,每个样品是一个患者,特性便可取与诊断有关的各项病理指标等,如体温、血压、白血球数目等。2.3特性提取模式辨认建立在对模式特性量化的基础上,也就是说,一方面要对表征模式的各种特性加以量测或量化,得到每一模式的特性数值集合或特性向量,然后根据不同类型模式具有不同的特性数值集合,进行自动辨别。特性的引入通常要通过一个从少到多,又从多到少的过程。所谓从少到多,是指在设计辨认方案的初期阶段应尽量多地列举出各种也许与分类有关的特性,这样可以充足运用各种有用的信息,改善分类效果,这一环节称为特性提取或特性抽提,如运用K-L变换的分类来进行特性提取。这里产生的问题是特性数值向量的分量个数很多(或维数很多),但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特性来进行辨别,这是需要考虑的问题。由于模式辨认是由计算机自动解决的来完毕的,在模式维数很高的情况下,计算量太大,且辨认精度并不一定随着维数增多而提高,因此就很有必要对已有的众多特性进行选择与提取,也就是说需要选择最有代表性的特性,此外,针对不同的研究对象,还需要进行不同的特性组合。2.4特性选择为了使特性数目从多到少,需要进行所谓的特性选择。特性选择通常涉及两方面的内容:一方面是对单个特性的选择,即对每个特性分别进行评价,从中找出那些对辨认作用最大的特性,如K-W检查、直方图方法、不拟定性选择等等;另一方面是从大量原有特性出发,构造少数有效的新特性,有时也称为降维映射,如主成分分析、相应分析。在模式辨认技术中最常使用的特性选择方法就是降维映射方法,而降维对分方法中所得到的新特性D,D是原有特性X1,X2,X3的二次函数,因此这种映射称为非线性映射。目前比较普遍使用的降维映射方法仍然是线性映射,即各个新特性Yi(i=1,2,…,v,v<n)与旧特性X1,X2,…,Xn之间的关系为Yi=Ai1+Ai2X2+…+AinXn,i=1,2,…,v其中各Aij是常数在本文的免费师范生生源多因素分析中,我们采用的是线性映射的主成分分析这一方法来进行特性选择这一过程。2.5K-L变换K-L变换(Karhunen-LoeveTransform)是建立在记录特性基础上的一种变换,K-L变换的突出优点是相关性好,是均方误差意义下的最佳变换,它在数据压缩技术中占有重要地位,但需要先知道信源的协方差矩阵并求出特性值。求特性值与特性向量并不是一件容易的事,维数较高时甚至求不出来。即使能借助计算机求解,也很难满足实时解决的规定,并且从编码应用看还需要将这些信息传输给接受端。这些因素导致了K-L变换在工程实践中不能广泛使用。人们一方面继续寻求解特性值与特性向量的快速算法,另一方面则寻找一些虽不是“最佳”、但也有较好的去相关与能量集中的性能且容易实现的一些变换方法。而K-L变换就经常作为对这些变换性能的评价标准。3.主成分分析的设计与实现3.1基本概念设有一批样品,假定对每个样品取n个特性,即X=(x1,x2,……,xn)T,规定构造n个新特性y1,y2,……,yn,并使得它们满足以下1)、2)、3)3个条件:每个新特性是原有各特性的线性组合,即yi=ui1x1+ui2x2+…+uinxn,i=1,2,…,n,①或yi=uTiX,ui=(ui1,ui2,…,uin)T,i=1,2,…,n,其中uij是常数,各个新变量之间是互不相关的,即相关系数为零,即r(yi,yj)=0,i,j=1,2,…n;i≠j②3)u1使y1的方差达成极大值,u2使y2的方差达成次大,即var(y1)≥var(y2)≥…≥var(yn)≥0③需要注意的是上述方差达成极大须加上某种限制,否则线性组合的权值无穷大就没故意义了,实际问题常规定ui12+ui22+…+uin2=1以方便计算。满足以上条件的新特性y1,y2,……,yn,分别称为样品点的第1、2、…、n个主成分,其中样品的数学模型如下:X=(x1,x2,……,xn)T=,m为样品的个数.由以上的变换可以看出主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增长总信息量,也不减少总信息量。3.2主成分分析方法的设计如何求出样本数据的的主成分y1,y2,……,yn,或者说如何求出各个ui,一方面求出全体样品点特性的协方差矩阵Sx或者是相关系数矩阵R,其表达如下:或R(相关系数矩阵R算法见相关书籍)通过对同一原始数据的协方差矩阵和相关系数矩阵主成分分析进行比较研究,发现两者的应用与研究目的有关,若不加区别,将会暴露各自的优点与局限性。因此,在实际应用中,选择哪种矩阵进行主成分分析,应视具体的研究目的而定,下面的问题讨论均以协方差矩阵为例。这里S的下表x表达这是相应于旧特性x1,x2,…,xn的协方差矩阵,求出的n个特性值,,…,和与之相应的特性向量u1,u2,…,un,每个是一个数,而与之相应的特性向量ui是一个列向量ui(ui1,ui2,……,uin)T,它们之间的关系是Sxui=ui,i=1,2,…,n④关于样品协方差的定义如下:在N个样品中,第i个特性和第j个特性的之间的协方差为,则可以用如下公式求出,Sij=⑤表达样品点中第i个特性的均值,由此协方差公式可以的出Sx是对称矩阵,即,因而在计算时只规定出它的上三角形或下三角形部分即可,并且Sx主对角线元素就是特性的方差。在求和ui就相称于解以上方程,具体解法可在各种计算方法中找到。假如我们在解方程时还规定正交归一条件成立,即uTiuj=0且uTiui=1成立,则各个ui就是唯一拟定的。现在我们需要说明的是用以上方法求出的各个ui就可以满足前面所说的3个条件1)、2)、3)。令yi=uTiX,i=1,2,…,n,则也就是要满足如下关系:=或Y=UX⑥于是y1,y2,……,yn就是由x1,x2,……,xn经线性变换而得到的新特性。可以证明,当通过上述形式的线性变换后,假如相应于X的协方差矩阵是Sx,那么相应于Y的协方差矩阵就是Sy=USxUT,注意到UT的每列恰好是Sx的一个特性向量并运用条件④就可以得到:SxUT==UT∧⑦其中∧是以,,…,为主对角线元素的对角阵,再运用教归一条件又可得到:Sy=USxUT=UUT∧=∧⑧这就是说:新特性y1,y2,……,yn两两之间的协方差为零,即它们是不相关的。这样,我们已经找到了解决主成分分析问题的关键,即求原始协方差矩阵的特性值和特性向量,整个思绪中需要注意的是三条件的作用:条件1)是现行条件,反映新旧特性之间的关系是简朴的,易于计算的,条件2)是不相关性,表白每个新特性有着独立的作用,条件3)是方差极大条件,主成分按序对原有样品的反映依次减弱。3.3主成分分析方法的计算环节下面,我们来具体叙述主成分分析的计算环节。假定原始资料矩阵已知。根据样品协方差公式⑤求出原有特性的协方差矩阵Sx或相关系数矩阵R;用任意一种计算方法求出Sx或R的所有特性值,,…,和相应的特性向量u1,u2,…,un,并对求出的特性值按从大到小的顺序排列,即≥≥…≥,特性向量也应按照相应特性值的顺序排列。这时已经可以求出n个新特性y1,y2,……,yn,它们满足条件Y=UX,其中U等于矩阵(u1,u2,…,un)的转置,并且Sy=∧是对角阵。在Sx中,主对角线之和S11+S22+…+Snn等于原有各特性方差之和。在Sy中,,,…,分别等于新特性y1,y2,……,yn的方差,并且++…+之值仍然等于S11+S22+…+Snn.由表达式①可以看出主成分的个数最多有n,否则主成分分析数据就毫无意义,由于总方差不增不减,y1,y2等前几个综合变量的方差较大,而yn-1,yn等后几个综合变量的方差较小。严格说来,只有前几个综合变量才称得上主成分,后几个综合变量实为次成分。为了便于问题的分析,实践中总是对最终得到的主成分进行取舍,如何进行取舍,我们定义第i个主成分yi的方差奉献率为/(++…+)⑨而前m(m≤n)个主成分y1,y2,……,ym的累计方差奉献率计求解如下:(++…+)/(++…+)⑩保存多少个主成分取决于保存部分的累计方差奉献率,实践中,粗略规定一个比例便可决定保存几个主成分;假如多留一个主成分,累积方差增长无几,便不再多留,如当前m个主成分的累计方差奉献率已经足够大,如超过85%时,就可以只选取前m个主成分的作为新的特性,我们认为前m个主成分基本包含了本来的样品信息,这时有关系:=3.4主成分分析方法的实例主成分分析方法在各个领域都有广泛的应用,特别是在平常生活中对一些简朴指标的快速分析,如我们知道生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装生产时,不也许按照这么多指标来做,怎么办呢?一般情况,生产者考虑几个综合指标,诸如标准体形、特形等,运用主成分分析方法分析类似问题时,使我们在研究复杂问题时,容易抓住重要矛盾,简化问题求解过程。下面以两个简朴的例子说明主成分分析方法的过程及环节:假设有两批样品,每批样品数为N=4,特性数为n=2,两批样品的原始资料见下表,两批样品的原始资料样品集样品集样品特性X1X2X3X4样品特性X1X2X3X4x1x21-12-21-12-2x1x21-12-2-112-2根据上面所讲的计算环节,一方面计算每批样品的协方差矩阵,结果为::特性值=20/3,=0特性向量u1=(1/,1/)T,u2=(-1/,1/)T:特性值=16/3,=4/3特性向量u1=(1/,1/)T,u2=(-1/,1/)T由此可知,对于两组样品运用主成分分析所得的新特性都是:即新特性y1,y2所表达的变换即将主成分所在的坐标系旋旋转45。,如下图x2x2y2y1y2y12211-2-112x1-2-112x1-1-1-2-2下面分别对两组数据计算主成分的累计方差奉献率,对PA有:/(+)=100%,/(+)=0即只用第一主成分y1已包含了原数据的所有信息,这一点在本例中是显而易见的,由于所有的四个点都分布在y1轴上.对PB有:/(+)=80%,/(+)=20%即只用第一主成分y1时,要损失原有信息的20%.接下来我们将两组数据合并为一组,再进行一次主成分分析,合并后的样数为N′=10,协方差矩阵、特性值、特性向量如下:特性值′=36/7,′=4/7,特性向量u1、u2与上面的相同,组在合并两个样本数据后只有协方差与特性值发生变化,其累计奉献率如下:/(+)=90%,/(+)=10%即此时只用第一主成分y1时,要损失原有信息的10%,通过上面的例子可以看出,主成分的最少可认为一个,并且第一个主成分也有也许100%包含本来指标的所有信息,这是最抱负的一种情形,事实上,解决问题时我们总会按序多取几个主成分以保证累计奉献率足够大。到这里,关于主成分分析方法就基本完毕,但是在分析实际问题时仍然还会有一些额外的解决,比如说具体实践问题时,为了消除各项指标由于量纲单位不同所带来的不可比性,将各项指标先用相应的方法进行标准化解决,以方便分析过程,而上述所给的例子就没有这个问题,只是单纯的数学式的方法求解过程。再者,实际中,在得出各主成分后,有时将累计奉献率达成85%的前m个主成分做线性组合,并以每个主成分的方差奉献率做系数构造一个综合评价函数等等。3.5主成分分析方法的优缺陷主成分分析方法的局限性在于有时的数据标准化解决丢失了原有信息,此外该方法是对原有数据的线性组合,实际中指标之间、主成分与原始数据之间有时都呈现非线性关系,这样用主成分分析方法去分析这类数据,必然导致评价结果与事实偏差很大。但是,总体来看,主成分分析方法克服了多重共线性问题,抓住了分析问题的重要矛盾,简化了计算过程,对很多问题来说,都是一种有效实用的分析方法,这也是该方法应用领域越来越广阔的因素之一。4.关于免费师范生生源问题分析4.1研究方法目前,免费师范生政策已经在国家实行三年,社会对该项政策的关注也越来越明显,重要体现在究竟该政策能否对国家的师资队伍进行充实,能否对教育事业的发展起到振兴作用,而这一点就和免费生选择这几所免费院校的初衷直接相关,也就是说生源多因素问题对这项政策的结果有着实质性的影响。2023年7月将是第一批免费师范生走向教育工作岗位的时间,不久这项政策的利弊都能展现在公众的眼前,考虑到科学分析问题的前瞻性及免费师范生生源分析还是一个比较新奇的研究课题,本小节就针对生源问题进行主成分分析问题。对陕西师范大学的若干年级、院系进行有针对性的问卷式调查,本次共抽查涵盖2023、2023、2023三个年级至少八个院系的300名免费师范生,学生对问卷进行五分钟的作答,最终收集到的有效问卷为273份。每份问卷中包含24个(依次用X1、X2、X3、…、X24表达)涉及到生源问题的相关指标(问卷内容见下表):调查内容重要为家庭影响、个人因素、社会舆论三大方面。在调查问卷的设计过程中,我们充足考虑了不同群体对于免费师范生的见解,尽量多地列举了各种也许存在的影响因素,最大限度地运用各种有用的信息,以便于问卷的调查面足够的广泛和有目的性,最后从50个问题中挑选除了有代表性的24个问题展开调查,从上面的问卷可以看出调查内容已经体现绝大多数学生报考免费院校的因素,也就是说此问卷的结果是有效的,可以用以分析问题的一个依据。(点击截图连接,查看原始数据)此外,主成分分析时量纲的选取对结果影响很大,但本例中并不涉及到量纲问题,注意上述问题的选项是以A、B、C、D、E、F等表达的,并且不同的问题选项数目也是不同的,为了使主成分分析过程基简化,可以对记录结果的进行一下简朴的变换,这里只在记录结果时用1、2、3、4、5、6代替A、B、C、D、E、F(注:主成分分析时,量纲的不同有时要用到相关的公式,对数据的每一个结果都进行原始数据的标准化解决),记录结果见附件,截图如下:原始变量矩阵Xn×p经标准化解决后变为新矩阵Zn×p,标准化过程如下:Zij=(i=1,2,…,N;j=1,2,…,pN为样品数,p为特性数目)其中=,若使用相关系数矩阵,则相关系数矩阵R的求解如下:R=,rjk=j,k=1,2,…,p接下来就是求相关系数矩阵R的特性值与特性向量,其算法在前面已经具体讲述过,这里就不再赘述。上述截图中题号(行)表达一个样品的所有各项特性(X1-X24),而列则表达所有样品的某一特性数据,最后一行均值表达所有样品点中每项特性的总体均值,结果精确到小数点后一位。4.2生源分析过程针对有24个特性指标的273份样品,我们在分析的第一步就是要设法对该273×24原始数据矩阵进行标准化解决,然后求解相关系数矩阵,之后计算特性值与特性向量,得出主成分的奉献率及累计奉献率后对主成分个数进行取舍,最后假如有必要可以计算各主成分的载荷。4.2.1原始数据的标准化解决这里我们直接用Matlab软件对273个原始样本数据进行标准化解决,虽然本例不涉及到量纲问题,但标准化后的数据易于分析,最后得到的273×24标准化矩阵截图如下:点击截图连接查看标准化后的原始数据对原始数据的标准化,在各种多元记录软件中都会存在,如spss、matlab等,目的在于消除实际数据中碰到的量纲问题,标准化后的数据均值为0,方差为1,这样不同指标的数据就可以放在一个矩阵中了。这里完整的标准化数据请看附表excel中的标准化后的数据。4.2.2计算相关系数矩阵对上面得出的标准化矩阵,求出24个特性两两之间的相关系数矩阵R,矩阵R是一个主对角线均为1的对称矩阵,该24阶对称方阵如下:由相关系数矩阵可以看出第4个和第5个特性的相关性比较大,它们都是关于父母亲学历的特性。同时第6个和第7个相关性也比较大,它们都是关于父母亲职业的特性。4.2.3计算R的特性值与特性向量特性值按从大到小排如下:3.156572.136211.661211.417351.315621.240111.174761.126631.019160.9542730.9302010.8853420.8187420.7844410.7449950.6847490.6351640.6034750.5634650.5264020.4909190.4341930.3734120.322606相应于相应特性值的特性向量如下:4.2.4拟定主成分个数由各个特性值所计算出来的奉献率由大到小依次为:13.15%8.90%6.92%5.91%5.48%5.17%4.89%4.69%4.25%3.98%3.88%3.69%3.41%3.27%3.10%2.85%2.65%2.51%2.35%2.19%2.05%1.81%1.56%1.34%一般的主成分分析由累积奉献率不低于85%来拟定主成分的个数,这里通过计算可以看出前17个值的和为86.19%,若将主成分个数定为17个,分析仍显繁杂,这里我们采用累积奉献率不低于71%来拟定主成分个书,图示如下:分量编号特性值奉献率累积奉献率13.1565713.15%13.15%22.136218.90%22.05%31.661216.92%28.97%41.417355.91%34.88%51.315625.48%40.36%61.240115.17%45.53%71.174764.89%50.42%81.126634.69%55.11%91.019164.25%59.36%100.9542733.98%63.34%110.9302013.88%67.22%120.8853423.69%70.91%130.8187423.41%74.32%140.7844413.27%77.59%150.7449953.10%80.69%160.6847492.85%83.54%170.6351642.65%86.19%180.6034752.51%88.70%190.5634652.35%91.05%200.5264022.19%93.24%210.4909192.05%95.29%220.4341931.81%97.10%230.3734121.56%98.66%240.3226061.34%100%4.2.5综合评价这里我们得到前12个主成分的表达式如下:y1=0.012598x1-0.18782x2-0.12962x3+0.283764x4+0.265504x5+0.249046x6+0.18712x7-0.38983x8-0.16819x9-0.09475x10-0.24184x11-0.24848x12+0.072682x13-0.19081x14-0.05003x15+0.124847x16-0.27187x17-0.19753x18+0.142663x19-0.26515x20-0.30218x21+0.263069x22-0.09579x23+0.058289x24y2=0.085992x1+0.15156x2+0.272794x3-0.35002x4-0.40103x5-0.29597x6-0.32763x7-0.21656x8-0.31737x9-0.05175x10-0.07484x11-0.29629x12-0.1765x13-0.18528x14-0.07729x15+0.0236x16-0.1351x17-0.1026x18+0.017827x19-0.11165x20-0.21933x21-0.2628x22-0.10026x23+0.029705x24…………y12=-0.02118x1-0.15366x2+0.20281x3+0.12350x4+0.05355x5-0.15537x6+0.21784x7+0.14155x8-0.22448x9-0.05785x10+0.31639x11-0.12674x12-0.31209x13+0.01326x14+0.37253x15+0.51607x16+0.18469x17+0.20232x18+0.02319x19-0.00879x20-0.12657x21+0.06774x22-0.13962x23-0.19369x24其中xi表达原始数据经标准化后的相应值,从各xi的前面的系数来看,第一主成分y1重要由x8和x21影响,而这两个指标均为免费师范生报考免费院校的最重要因素,说明y1重点反映了学生个人的因素;y2重要由x4和x5决定,这两个指标是典型的家庭影响因素(父母亲的学历);y3则由个人的性别x1和对免费师范生的态度x24来决定,属性别事业因素;y4则有个人选择免费师范生的重要外界因素x11和将来也许面临的政策上的限制x17等等来决定,称为未来影响因素;y5涉及到师范生免费的利与弊的对比,如x16和x23的对比;y6可以称为家庭条件与志向间的关系,x3(家庭收入)和x10(偏远地区支教)的关系;y7反映的是一个不拟定外界条件,当初意向与现实的差距所产生的不利之因素;y8重点反映家庭经济因素与将来择业间的关系,如x2等;y9体现的是外界的影响因素及自己所能承受的条件,可称为个人倾向因素;y10为学生对国家政策的自发响应观念,是一种受外部约束的外界因素;y11是仍然为家庭因素与国家政策之间的共同作用因素;y12同样反映的是免费政策所带来的限制因素对生源的影响。4.3计算机分析相关代码运用主成分分析方法对上节记录结果进行分析,一方面,必须构造24个特性的协方差矩阵或相关系数矩阵,至少要进行(C224+24)次计算,对于大量数据的计算,人工算法是不现实的,这里有必要借助于计算机去构造相应矩阵和相应的特性值与特性向量。下面重要重要介绍运用Matlab的矩阵计算功能编程实现主成分分析。函数作用:zscore(A),用matlab自带的标准化函数对原始数据进行标准化。此外有的地方对原始数据采用总和标准化进行标准数据,这里我们采用前者,但给出后者的代码cwstd.mcwfac.m,计算相关系数矩阵;计算特性值和特性向量;对主成分进行排序;计算各特性值奉献率;挑选主成分(累计奉献率大于85%),输出主成分个数;计算主成分载荷cwscore.m,计算各主成分的得分和综合排序cwprint.m,读入数据,调用以上函数1cwstd.m%cwstd.m,用总和标准化法标准化矩阵functionstd=cwstd(vector)cwsum=sum(vector,1);%对列求和[a,b]=size(vector);%矩阵大小,a为行数,b为列数fori=1:aforj=1:bstd(i,j)=vector(i,j)/cwsum(j);endend注:本例中用matlab自带的zscore函数进行标准化2cwfac.m%cwfac.mfunctionresult=cwfac(vector);fprintf('相关系数矩阵:\n')std=CORRCOEF(vector)%计算相关系数矩阵fprintf('特性向量(vec)及特性值(val):\n')[vec,val]=eig(std)%求特性值(val)及特性向量(vec)newval=diag(val);[y,i]=sort(newval);%对特性根进行排序,y为排序结果,i为索引fprintf('特性根排序:\n')forz=1:length(y)newy(z)=y(length(y)+1-z);endfprintf('%g\n',newy)rate=y/sum(y);fprintf('\n奉献率:\n')newrate=newy/sum(newy)sumrate=0;newi=[];fork=length(y):-1:1sumrate=sumrate+rate(k);newi(length(y)+1-k)=i(k);ifsumrate>0.85break;endend%记下累积奉献率大85%的特性值的序号放入newi中fprintf('主成分数:%g\n\n',length(newi));fprintf('主成分载荷:\n')forp=1:length(newi)forq=1:length(y)result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));endend

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论