主成份分析因子分析毕业论文终稿_第1页
主成份分析因子分析毕业论文终稿_第2页
主成份分析因子分析毕业论文终稿_第3页
主成份分析因子分析毕业论文终稿_第4页
主成份分析因子分析毕业论文终稿_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE II 学科分类号 110 黑龙江科技大学本科学生毕业论文学 号院 (系)指导教师 20摘 要经济是指一个国家国民经济的总称。我们要提高某地方人民的生活水平,要更好更快地发展某个地区,就必须充分了解这个地区现有的经济发展状况。因此,现有的经济发展状况研究对将来的发展有着非常重要的指导意义。主成分分析也称主分量分析,就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子的相互关系,同时根据不同因子还可以对变量进行分类。主成分分析与因子分析都是多元分析

2、中处理降维的一种统计方法。本文通过学习与查阅相关资料找到黑龙江省个地级市的个具有代表性指标,运用统计分析软件对这些指标进行主成分分析和因子分析得到特征值、方差贡献率及公共因子等相关数据。并利用这些数据对个市经济水平划分等级。关键词 主成分分析 因子分析 经济 统计分析软件 Abstract Economy refers to the floorboard of the national economy of a country. We will improve the level of a local peoples life, to somewhere better and faster d

3、evelopment, we must fully understand the current situation of economic development. Therefore, the existing research on the development of future economic development has a very important guiding significance.Principal component analysis (also called principal component analysis, is to try the origi

4、nal index combined into a new set of several comprehensive index instead of the original index has nothing to do with each other, at the same time, according to the actual need to recommend a few less comprehensive response as much as possible the original information of indicators. Is a generalizat

5、ion of the principal component analysis and factor analysis, it is also will have the intricate relationship between variables comprehensive to a small number of several factors, and to recreate the relationship of the original variables and factor, at the same time according to different factors ca

6、n also categorize variables,. Principal component analysis and factor analysis is a multivariate analysis of a statistical method of dealing with the dimension reduction. In this article, through learning and access to relevant data found nine representative indexes of 12 cities in heilongjiang prov

7、ince, using the SPSS statistical analysis software to the indicators of principal component analysis and factor analysis of the characteristic value, the variance contribution rate and public factor and related data. And using the data of 13 cities economic grade level.Key words Principal component

8、analysis Factor analysis Economic SPSS statistical analysis softwarPAGE VI目 录 TOC o 1-3 h z u HYPERLINK l _Toc390087295 摘 要 PAGEREF _Toc390087295 h I HYPERLINK l _Toc390087296 Abstract PAGEREF _Toc390087296 h II HYPERLINK l _Toc390087297 第1章 绪 论 PAGEREF _Toc390087297 h 1 HYPERLINK l _Toc390087298 1.

9、1 选题的背景和提出 PAGEREF _Toc390087298 h 1 HYPERLINK l _Toc390087299 1.1.1 选题的背景 PAGEREF _Toc390087299 h 1 HYPERLINK l _Toc390087300 1.1.2 选题的提出 PAGEREF _Toc390087300 h 2 HYPERLINK l _Toc390087301 1.2 选题的意义和目的 PAGEREF _Toc390087301 h 3 HYPERLINK l _Toc390087302 1.2.1 选题的意义 PAGEREF _Toc390087302 h 3 HYPERL

10、INK l _Toc390087303 1.2.2 选题的目的 PAGEREF _Toc390087303 h 3 HYPERLINK l _Toc390087304 1.3 主成分分析和因子分析的发展及应用 PAGEREF _Toc390087304 h 4 HYPERLINK l _Toc390087305 1.3.1 主成分分析的发展及应用 PAGEREF _Toc390087305 h 4 HYPERLINK l _Toc390087306 1.3.2 因子分析的发展及应用 PAGEREF _Toc390087306 h 4 HYPERLINK l _Toc390087307 1.4

11、本文主要研究内容 PAGEREF _Toc390087307 h 5 HYPERLINK l _Toc390087308 第2章 主成分与因子分析 PAGEREF _Toc390087308 h 6 HYPERLINK l _Toc390087309 2.1 主成分分析的内容 PAGEREF _Toc390087309 h 6 HYPERLINK l _Toc390087310 2.1.1 主成分分析原理和基本思想 PAGEREF _Toc390087310 h 6 HYPERLINK l _Toc390087311 2.1.2 主成分的几何意义 PAGEREF _Toc390087311 h

12、 6 HYPERLINK l _Toc390087312 2.1.3 主成分分析的性质 PAGEREF _Toc390087312 h 8 HYPERLINK l _Toc390087313 2.2 主成分分析的求解方法和数学模型 PAGEREF _Toc390087313 h 8 HYPERLINK l _Toc390087314 2.3 主成分分析的基本步骤 PAGEREF _Toc390087314 h 11 HYPERLINK l _Toc390087315 2.4 因子分析的内容 PAGEREF _Toc390087315 h 12 HYPERLINK l _Toc390087316

13、 2.4.1 因子分析原理和基本思想 PAGEREF _Toc390087316 h 12 HYPERLINK l _Toc390087317 2.4.2 因子分析的性质 PAGEREF _Toc390087317 h 13 HYPERLINK l _Toc390087318 2.5 因子分析的求解方法和数学模型 PAGEREF _Toc390087318 h 13 HYPERLINK l _Toc390087319 2.5.1 数学模型(正交因子模型) PAGEREF _Toc390087319 h 13 HYPERLINK l _Toc390087320 2.5.2 因子模型中公共因子,因

14、子载荷量的统计意义 PAGEREF _Toc390087320 h 14 HYPERLINK l _Toc390087321 2.5.3 因子旋转与因子得分 PAGEREF _Toc390087321 h 15 HYPERLINK l _Toc390087322 2.6 计算步骤 PAGEREF _Toc390087322 h 16 HYPERLINK l _Toc390087323 第3章 主成分与因子分析在黑龙江省城市经济水平研究中的应用 PAGEREF _Toc390087323 h 17 HYPERLINK l _Toc390087324 3.1主成分分析法 PAGEREF _Toc3

15、90087324 h 18 HYPERLINK l _Toc390087325 3.2 因子分析法 PAGEREF _Toc390087325 h 21 HYPERLINK l _Toc390087326 3.3 综合评价结果分析 PAGEREF _Toc390087326 h 25 HYPERLINK l _Toc390087327 结 论 PAGEREF _Toc390087327 h 27 HYPERLINK l _Toc390087328 致 谢 PAGEREF _Toc390087328 h 28 HYPERLINK l _Toc390087329 参考文献 PAGEREF _Toc

16、390087329 h 29Contents TOC o 1-3 h z u HYPERLINK l _Toc390088799 Abstract PAGEREF _Toc390088799 h I HYPERLINK l _Toc390088800 Abstract PAGEREF _Toc390088800 h II HYPERLINK l _Toc390088801 Chapter 1 Introduction PAGEREF _Toc390088801 h 1 HYPERLINK l _Toc390088802 1.1 The background of the selected to

17、pic and put forward PAGEREF _Toc390088802 h 1 HYPERLINK l _Toc390088803 1.1.1 The background of the selected topic PAGEREF _Toc390088803 h 1 HYPERLINK l _Toc390088804 1.1.2 Topic selection is put forward PAGEREF _Toc390088804 h 2 HYPERLINK l _Toc390088805 1.2 Subject of meaning and purpose PAGEREF _

18、Toc390088805 h 3 HYPERLINK l _Toc390088806 1.2.1 The significance of topic selection PAGEREF _Toc390088806 h 3 HYPERLINK l _Toc390088807 1.1.2 The purpose of the topic PAGEREF _Toc390088807 h 3 HYPERLINK l _Toc390088808 1.3 The principal component analysis and factor analysis of the development and

19、application PAGEREF _Toc390088808 h 4 HYPERLINK l _Toc390088809 1.3.1 Principal component analysis of the development and application PAGEREF _Toc390088809 h 4 HYPERLINK l _Toc390088810 1.3.2 The development and application of factor analysis PAGEREF _Toc390088810 h 4 HYPERLINK l _Toc390088811 1.4 T

20、he main research contents in this paper PAGEREF _Toc390088811 h 5 HYPERLINK l _Toc390088812 Chapter 2 principal components and factor analysis PAGEREF _Toc390088812 h 6 HYPERLINK l _Toc390088813 2.1 The content of the principal component analysis PAGEREF _Toc390088813 h 6 HYPERLINK l _Toc390088814 2

21、.1.1 Principle of principal component analysis and basic ideas PAGEREF _Toc390088814 h 6 HYPERLINK l _Toc390088815 2.1.2 The geometric meaning of the principal component PAGEREF _Toc390088815 h 6 HYPERLINK l _Toc390088816 2.1.3 The nature of the principal component analysis PAGEREF _Toc390088816 h 8

22、 HYPERLINK l _Toc390088817 2.2 The principal component analysis method and mathematical model PAGEREF _Toc390088817 h 8 HYPERLINK l _Toc390088818 2.3 The basic steps of principal component analysis PAGEREF _Toc390088818 h 11 HYPERLINK l _Toc390088819 2.4 The content of the factor analysis PAGEREF _T

23、oc390088819 h 12 HYPERLINK l _Toc390088820 2.4.1 Factor analysis principle and basic ideas PAGEREF _Toc390088820 h 12 HYPERLINK l _Toc390088821 2.4.2 The nature of the factor analysis PAGEREF _Toc390088821 h 13 HYPERLINK l _Toc390088822 2.5 The method of calculating the factor analysis and mathemati

24、cal model PAGEREF _Toc390088822 h 13 HYPERLINK l _Toc390088823 2.5.1 Mathematical model (orthogonal factor model) PAGEREF _Toc390088823 h 13 HYPERLINK l _Toc390088824 2.5.2 Factor model of public factor, factor loading amount of statistical significance PAGEREF _Toc390088824 h 14 HYPERLINK l _Toc390

25、088825 2.5.3 Factor rotation and factor score PAGEREF _Toc390088825 h 15 HYPERLINK l _Toc390088826 2.6 Calculation steps PAGEREF _Toc390088826 h 16 HYPERLINK l _Toc390088827 Chapter 3 Principal component analysis and factor analysis in the application of urban economy in heilongjiang province PAGERE

26、F _Toc390088827 h 17 HYPERLINK l _Toc390088828 3.1 Principal component analysis PAGEREF _Toc390088828 h 18 HYPERLINK l _Toc390088829 3.2 The factor analysis method PAGEREF _Toc390088829 h 21 HYPERLINK l _Toc390088830 3.3 Comprehensive evaluation results PAGEREF _Toc390088830 h 25 HYPERLINK l _Toc390

27、088831 Conclusions PAGEREF _Toc390088831 h 27 HYPERLINK l _Toc390088832 Acknowledgements PAGEREF _Toc390088832 h 28 HYPERLINK l _Toc390088833 References PAGEREF _Toc390088833 h 29PAGE PAGE 31第1章 绪 论1.1 选题的背景和提出1.1.1 选题的背景经济的发展不仅仅意味着 HYPERLINK /view/338341.htm t _blank 国民经济规模的扩大,更意味着经济和 HYPERLINK /vi

28、ew/517282.htm t _blank 社会生活素质的提高。所以,经济发展涉及的内容比单纯的 HYPERLINK /view/73375.htm t _blank 经济增长更为广泛。 就现代经济而言,发展的含义十分丰富复杂。发展总是与发达、 HYPERLINK /view/143403.htm t _blank 工业化、 HYPERLINK /view/124658.htm t _blank 现代化、增长之间交替使用。 一般来说,经济发展包括三种含义1:第一种,经济量的增长,即一个 HYPERLINK /view/8426.htm t _blank 国家或地区产品和 HYPERLINK

29、/view/148928.htm t _blank 劳务的增加,它是经济发展的物质基础;第二种, HYPERLINK /view/187174.htm t _blank 经济结构的改善,即一个 HYPERLINK /view/8426.htm t _blank 国家或地区的技术、 HYPERLINK /view/61661.htm t _blank 产业结构、收入分配、 HYPERLINK /view/245611.htm t _blank 消费结构及 HYPERLINK /view/522382.htm t _blank 人口结构等经济结构的变化;第三种,经济质量的完善和提升,即一个 HYP

30、ERLINK /view/8426.htm t _blank 国家或地区 HYPERLINK /view/188272.htm t _blank 经济效益的提升、 HYPERLINK /view/629948.htm t _blank 经济稳定程度、卫生健康状况的完善、自然环境和 HYPERLINK /view/30800.htm t _blank 生态平衡以及政治、文化和人的现代化进程。在近10年加快改革开放的步伐中,我国地区之间的发展不平衡呈现了不断的加剧局面。有调查显示,目前中国城市与农村发展差异化比较严重,在第九个五年计划期间所统计到的数据显示,中国农业从业者的收入一直在下降,粮食产品

31、的价格也在下降,虽然收成增产了,但收入却不见增加,地方政府对城市经济发展的重视程度要远远大于农业。除了造成了农村经济发展失衡外,也促使了城市经济发展过程中贫富差距问题的深化,也使社会分配不公平现象得到剧增,更令社会当中不稳定的因素有所增加。除去城乡发展不平衡,我国东中西部发展差距也较大,主要表现在以下两方面:一是在资本存量方面:沿海地区由于开放得比较早,以乡镇企业为代表的民营经济迅速增长,资本大量累积;同时因为改革开放一系列优惠政策的实施,成功地吸引了大量国外资本的输入,这为沿海地区快速的经济增长提供了充足的资本投入。但是由于中西部地理位置和政策的影响资本存量都不及东部,而而还有愈演愈烈的趋势

32、。二是科技投入方面:东部是优势地区,据调查显示1990年东部地区从事科技活动人数是中部地区的2倍,西部地区的3倍;迄今,东部此类人才数量增加到中部的2.5倍,西部的4倍。尤其是在2000年东部从事科技活动人员比上年激增48%,但中西部地区同期分别只增长了19%、32%。东部地区20世纪90年代以来加大了研发经费投入力度,2000年东部研发经费支出比上年增长了87%,到2010这一年经费开支增加到2000年的2.4倍,而中西部地区研发经费支出基本保持1.31的态势,在1990到1999年增长较慢,2000年开始逐年稳步增长,但从绝对数量来看远低于东部地区。经济发展不能以危害环境为代价,可持续发展

33、的要求是一个 HYPERLINK /view/8426.htm t _blank 国家或地区的发展不能影响其他国家或地区的发展,可持续性则意味着维持全人类福利的 HYPERLINK /view/9306.htm t _blank 自然资源基础,使 HYPERLINK /view/30803.htm t _blank 生态环境和经济社会 HYPERLINK /view/1646035.htm t _blank 协调全面地发展。了解我国各省市经济发展情况对推动我国经济发展有着重要作用,所以对各省经济的研究是很必要的。1.1.2 选题的提出黑龙江省位于中国东北部,是我国著名的老工业基地,2008年全

34、年实现地区生产总值(GDP)8310.0亿元,在各省自治区中排名17位,按可比价格计算比上年增长11.8%,连续五年保持11.6%以上的增幅,整体经济继续在较高的增长平台运行。其中,第一产业增加了1089.1亿元,增长8.2%;第二产业增加了4365.9亿元,增长12.1%;第三产业增加了2855亿元,增长12.4%。三次产业构成为13.1:52.5:34.4。第一、二、三产业对GDP的增长贡献率分别为7.8%、55.7%和36.5%。人均地区生产总值为21727元,增长11.7%。经济发展布局进一步优化。全年哈大齐工业走廊项目区实现工业总产值296.4亿元,比上年增长37.6%;创造利税46

35、.5亿元,增长92.1%。全年完成固定资产投资投资117.8亿元,增加241项新开工项目,新增入251户区企业,新增了182户的投产企业。东部煤电化基地建设区充分挖掘和发挥电力、煤化工、冶金、建材原料、生物工程等产业的优势,坚持走新型工业化道路。东北亚经济贸易开发区积极主动推进区域的经济贸易合作,打造了面向东北亚、亚欧大陆的经济贸易开发区。加快大小兴安岭生态功能保护区发展特色产业、生态产业等替代产业,优化产业结构,加快基础设施建设,努力形成以生态经济为主的产业格局。两大平原农业综合开发试验区主要抓好农业基础建设、农业结构调整,做大做强畜牧产业,以大力推进农业标准化、规模化和产业化经营,致力于打

36、造销售收入千亿元以上龙头企业集群,创出一批知名品牌。北国风光特色旅游开发区积极开发具有国际性、地域性和市场竞争力较强的旅游精品和品牌。哈牡绥东对俄贸易加工区的对内对外开放战略升级逐步加快。增强了高新科技产业集中开发区发挥高新技术集聚效应,发展取得积极进展的有服务外包产业、动漫基地。黑龙江省主要有12个地级市,这些城市的综合发展是带动周边地区经济发展的重要动力。这些城市的发展状况直接关系到城市自身和周边地区(尤其是小城镇)的进步,对这些城市进行分析评价,从而有效的根据城市的实际情况,采取促进经济和社会发展的有效措施。对黑龙江省的经济研究的现况是没有把这12个城市放在一起进行多指标综合评价。而目前

37、国内外关于多指标综合评价的方法很多,根据权重确定方法的不同,这些方法可大致分为两类;一类是主观赋权法,如层次分析法,德尔菲法等,多是采用综合咨询评分的定向方法,这类方法因受到人为因素的影响,往往会夸大或降低了某些指标的作用,致使排序的结果不能完全真实地反应事物间真实关系;另一类是客观赋权法,即根据各指标间的相关关系或各指标值的变异程度来确定权数,避免了人为因素带来的偏差,如主成分分析法和因子分析法。1.2 选题的意义和目的1.2.1 选题的意义经济是指一个国家国民经济的总称2。区域经济是在一定区域内经济发展的内部因素与外部条件相互影响而形成的综合性经济概念,它受到该区域的自然条件、资源开发和利

38、用状况、社会经济条件以及经济政策等各种因素的制约和影响。经济发展为一个国家摆脱贫困落后状态,走向经济和社会生活现代化的过程。区域经济发展不仅意味着该区域国民经济规模的扩大,更意味着经济和社会生活素质的提高。我们要提高某地方人民的生活水平,要更好更快地发展某个地方,就必须充分了解这个地方现有的经济发展状况。因此,现有的经济发展状况研究对将来的发展有着非常重要的指导意义。1.2.2 选题的目的本文利用主成分分析和因子分析的方法对经济发展水平进行综合分析,按照城市的经济实力评价各城市的发展层次,认识到城市之间竞争力的差异,城市经济发展的优势和劣势,从而促进各省经济全面、协调、共同发展。1.3 主成分

39、分析和因子分析的发展及应用1.3.1 主成分分析的发展及应用主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。首先是由K皮尔森对非随机变量引入的3,而后H霍特林将此方法推广到随机变量的情形。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素)因为每个变量都在不同程度上反映这个课题的客观信息。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是

40、适应这一要求产生的,是解决这类题的理想工具。主成分分析往往会在大型研究中成为一个中间环节,用于解决数据信息浓缩等问题,这就可能产生各种各样的组合方法。主成分所关心的问题,是通过一组变量的几个线性组合来解释这组变量的方差-协方差结构,它的一般目的是数据的压缩以及数据的解释。在一些欧美国家用核主成分分析的方法也就是主成分分析的改进方法,其采用非线性方法提取主成分,把核主成分分析应用到人脸识别中。在国外运用主成分分析的方法对肝素钠、肝素钙等低分子肝素相关产品的销售额数据进行处理,形成新的指标体系,而后应用BP神经网络的方法建立模型,评价模型的拟合能力。在日本运用主成分分析的方法对地质行分析,从而来预

41、测地震避免不必要的损失。同时,主成分作为一种优秀的降维提取主要信息的手段,先后在海洋学、地质学、地球物理学、资源科学等中都得到了一定程度的应用。我国经过近几十年来的发展,运用主成分分析的方法对高光谱遥感矿物信息特征提取已经取得了很大进展。在国内运用主成分分析的方法对人口、教育、地区的经济发展等方面研究,都取得了一定的成果。1.3.2 因子分析的发展及应用在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因而分析法就是从研究变量内部相关的依赖关

42、系出发把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。这样我们就对原始的数据进行分类归并,将相关比较密切的变量分别归类,归结多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共子因子。因子分析法是两种分析形式的 HYPERLINK /view/7841327.htm t _blank 统一体,即验证性分析和纯粹的探索性分析。因子分析最早是由英国的 HYPERLINK /view/4268.htm t _blank 心理学家CharlesSpearman在1904年的时候,提出单一化的智能因子(ASingleIntellect

43、ualFactor)开始。随着试验的深入,大量个体样本被分析研究,证明了Spearman的单一智能因子理论是不充分的。同时,人们渐渐认识到有必要考虑多元因子。20世纪30年代,瑞典心理学家Thurstone打破了流行的单因子理论假设,经长期实践研究,他大胆提出了多元因子分析(MultipleFactorAnalysis)理论。Thurstone在他的心智向量(VectorsofMind,1935)一书中,阐述了多元因子分析理论的数学和逻辑基础。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,

44、是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。因子分析法(FactorAnalysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别4。因子分析在市场调研中有着广泛的应用,主要包括:经济发展的研究、评价指标结构、消费者习惯和态度研究(U&A)、品牌形象和特性研究、服务质量调查、个性测试、形象调查、市场划分识别、顾客、产品和行为分类。1.4 本文主要研究内容本文首先是了解了国内外经济发展的基础及黑龙江省经济发展的现状,接着学习研究主成分分析和因子分析的基本思路和步骤,

45、并将其理论与本文所研究的内容结合,其目的在于找到目前影响黑龙江省经济发展指标的主要因素,并根据得到的数学模型对黑龙江省经济发展情况进行综合分析。然后通过学习与查阅相关资料找到黑龙江省12个地级市的10个具有代表性指标,运用spss统计分析软件对这些指标进行主成分分析和因子分析得到特征值、方差贡献率及公共因子等相关数据。并利用这些数据对12个市经济水平划分等级。最后对论文进行总体的评价,指出本文的不足,以期待改进的新方案。第2章 主成分与因子分析2.1 主成分分析的内容2.1.1 主成分分析原理和基本思想Karl parson在1901年最先引进了主成分的概念5,但是当时只是对非随机变量讨论的。

46、Hotelling在1933年将这个概念推广到随机变量。主成分分析的思想是降维,在损失很少信息的前提下把多个指标转化为较少的几个综合指标。通常情况下将转化生成的综合指标称为主成分,原始变量的线性组合就是每个主成分,且各个主成分之间是各不相关的,这就使得主成分比原始变量具有更优越的性能3。通常数学上的处理就是将原来个指标作线性组合,作为新的综合指标,但是这种现行组合,如果不加以限制,则可以有很多,我们应该选取方差最大的作为第一主成分,较大的作为第二主成分,一次类推可以构造出第三、四,等个主成分。不难想像这些主成分之间不仅不相关,而且他们的方差一次递减。因此在实际问题中,就挑选前几个最大成分,虽然

47、这样会损失一些信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新信息,因为在某次额实际工作中的研究中得益较多,这种不仅减少了变量的数目还抓住了主要矛盾的做法更有利于问题的分析和处理。2.1.2 主成分的几何意义从代数学的点看,成分就是个变量的一些特殊的线性组合6,在几何上这些线性组合正是把构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义6。设有个样品,每个样品有个变量记为,它们的综合变量记为。当时,原变量是设它们有图3-1的相关关系: 图3-1 相关关系图对于二元正态分布变量,个点的

48、散步大致为一个椭圆,若在椭圆长轴方向取坐标轴,在短轴方向取,这相当于在平面上作一个坐标变换,即按逆时针方向旋转角度,根据旋轴变换公式新老坐标之间有关系: 我们看到,是原变量和的线性组合,用矩阵表示是显然。从上图还容易看出二维平面上的个点的波动(可用方差表示)大部分可以归结为在轴上的波动,而在轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑方向上的波动,忽略方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量即可。而是椭圆的长轴。一般情况,个变量组成维空间,个样品就是维空间的个点,对元正态分布变量来说,找主成分的问题就是找维空间中椭球体的主轴问题。2.1.3 主成分分析

49、的性质(1) 各主成分之间互不相关,若原变量服从正态,则各主成分之间互相独立7;(2) 全部个主成分所反映的例样品的总信息,等于个原变量的总信息。信息量的多少,用变量的方差来度量。若将个原变量标准化后,每个变量的方差都为,故方差之和为,此时,求得主成分的方差之和也为;(3) 各主成分的作用大小是:(4) 第个主成分的贡献率是()100,为贡献率之和;(5) 前个主成分的累计贡献率是()100。在应用时,一般取累计贡献率为7085或以上所对应的前个主成分即可。在资料所含的变量个数、样品数及累计贡献率固定的前提下,的比值越小,则说明此资料用主成分分析越合适。2.2 主成分分析的求解方法和数学模型求

50、解主成分的方法主要有两种,一是从原始变量的协方差矩阵结构入手,二是从原始变量的相关性矩阵结构入手。(1) 从协方差矩阵出发求解主成分为8:设矩阵,将的特征值依大小顺序排列,不妨设为矩阵各特征值对应的标准正交特征向量,则对任意向量有 所以我们把的协方差矩阵的非零特征值,对应的标准化特征像量,分别作为系数向量分别称为随机向量的第一主成分,第二主成分,,第主成分。于是随机与随机向量之间存在关系: (2-1)(2) 从相关系数矩阵出发求解主成分为:首先数据矩阵元素进行标准化 (2-2)式中,和分别表示变量的期望与方差,于是有 (2-3)于是对原始变量进行如下标准化: (2-4)显然有 (2-5)因此,

51、原始变量的相关矩阵实际是对原始变量标准化后的协方差阵。由相关阵求主成分的过程与主成分个数的确定准则实际上是与由协方差阵出发求主成分的过程与主成分个数的确定准则是一致的。求得的主成分与原始变量表示为:。 数学模型设有个样品,每个样品观测项指标(变量):,得到原始数据资料库: (2-6)其中, 。用数据矩阵的个向量(即个指标向量)作线性组合(即综合指标向量)为9: (2-7)上述方程要求:且系数由下列原则决定: (1) 与不相关;(2) 是与的一切线性组合(系数满足上述方程组)中方差最大的,与是不相关的的一切线性相关中方差最大的,是与都不相关的的所有线性组合的最大者。这里要说明两点:一个是数学模型

52、中为什么作线性组合?基于两种原因: = 1 * GB3 数学上比较容易处理 = 2 * GB3 在实践中效果很好。另一个要说明的是每次选取的主成分要使Var()最大,如果不加限制就可使Var(),这样就没什么意义了,常用的限制是要求,。2.3 主成分分析的基本步骤设原始资料矩阵为:(1) 将原始数据进行标准化处理:进行标准化的目的在于消除原始数据各指标的量纲不同,公式如下: (2-8)其中为每一列指标的标准值;为每一列指标的均方差。标准化处理后,得到新的矩阵(2) 建立变量的相关系数阵:根据公式建立样本的相关系数矩阵;(3) 求特征根和特征向量:根据公式求出其前个特征值根据公式解出与特征值对应

53、的单位正交化特征向量。4. 写出主成分将原变量转换成主成分的线性组合,且具有正交特征,综合成为相应,而基本信息量保持不变。这样确定的综合变量分别称作原变量的第一、第二、第个主成分,且应在总方差中所占比例依次递减。2.4 因子分析的内容2.4.1 因子分析原理和基本思想1904年,Charles Spearman发表一篇著名论文对智力检验得分进行统计分析视为因子分析的起点10。因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长的时间。后来,由于电子计算机的出现,才使因子分析的理论研究

54、和计算问题,有了很大的进展。目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为

55、因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同的变量相关性较低。因为因子分析的内容很丰富,本文仅介绍因子分析常用的两种类型:型因子分析(对变量作因子分析)和型因子分析(对样品作因子分析)。2.4.2 因子分析的性质因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量解释原始变量之间的相关关系11。因子性质主要表现变量之间关联度上,根据关联度可以划分为特殊因子和公共因子,利用因子分析,减少分析变量个数,通过对变量的相关关系探测,将原始变量进行分类。其中共同度表明的第个分量对于的每一分量共同依赖程度。如果

56、它的值越大,依赖程度就越大.方差贡献是衡量公共因子相对重要性的指标。越大,表明公共因子对的贡献越大,或者说对的影响和作用就越大12。2.5 因子分析的求解方法和数学模型2.5.1 型因子分析数学模型13简记为且满足:i) ;ii) 即和是不相关的;iii) 即不相关且方差皆为1. 即不相关,且方差不同。其中是可实测的个指标所构成的维随机向量,是不可观测的向量,称为的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为高维空间中相互垂直的个坐标轴;称为因子载荷是第个变量在第个公共因子上的负荷,如果把变量看成维因子空间中的一个向量,则表示在坐标轴上的投影,矩阵称为因子载荷矩阵;称为的特殊因子,

57、通常理论上要求的协方差阵是对角阵,包括随机误差14。因子分析的目的就是通过模型以代替,由于,从而达到简化变量维数的愿望。2.5.2 因子模型中公共因子,因子载荷量的统计意义为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量15。(1) 因子载荷的统计意义已知模型:由于在标准化下有:因此,公式中F同一所以上式可写成: (因为各因子不相关,所以相关系数为0)故因子载荷的统计意义就是第个变量与第个公共因子的相关系数即表示依赖的分量(比重)。因此用统计学的术语应该叫做权,但

58、由于历史的原因,心理学家将它叫做载荷,即表示第个变量在第个公共因子上的负荷,它反映了第个变量在第个公共因子上的相对重要性。(2) 公因子的方差贡献率的统计意义将因子载荷矩阵中各列元素的平方和记为 称为公共因子对的贡献,即表示同一公共因子对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。 2.5.3 因子旋转与因子得分建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转即用一个正交阵右乘使旋转后的因子载荷

59、阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。这种变换因子载荷的方法称为因子轴的旋转,而旋转的方法有很多。如正交旋转,斜交旋转等。因子分析的最后一步是计算因子得分。因子变量确定后,便可计算各因子得分即每个样本上的具体数值,新变量形成了因子变量,它和原变量的得分是相对应的。想要在以后分析中用因子变量代替原有变量进行数据建模,就要有因子得分,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化的目标16。2.6 计算步骤因子分析法的步骤入下:(1) 将原始数据标准化,为书写方便记为;(2) 建立

60、变量的相系数阵;(3) 求的特征根及相应的单位特征向量,分别记为和;(4) 对施行方差最大正交旋转;(5) 计算因子得分。第3章 主成分与因子分析在黑龙江省 城市经济水平研究中的应用对黑龙江省12个地级市选取10个主要经济指标17(见表3-1),-国内生产总值(亿元)、-工业总产值(亿元)、-人均GDP(元)、-工业企业单位数(个)、-固定资产投资(亿元)、-社会消费品零售总额(亿元)、-财政收入(万元)、-金融机构存款年底余额(亿元)、-年末人口数(万人)、-财政支出(万元)。运用spss软件进行主成分和因子分析。表3-1 经济指标城市哈尔滨4550.22503.74581011424127

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论