主成分法运用_第1页
主成分法运用_第2页
主成分法运用_第3页
主成分法运用_第4页
主成分法运用_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学简介及在实践中的应用-以主成分分析法分析影响房价因素为例姓 名: 阳 飞学 号: 2111601015学 院: 经济管理学院指导教师: 吴 东 武时 间:二一七年一月六日1 简介统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著近代欧洲各国国家学纲要一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是指“国家显著事项的比较和记述”

2、或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的统计讲义录一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的统计学在日本出版,同时在国内发行。这本书是我国最早的一本“统计

3、学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。它是随着人类社会的发展、治国和管理的需要而产生和发展起来的,至今已有四五千年的历史。现实生活中,统计工作已经作为一种认识社会经济现象总体和自然现象总体的实践过程。一般包括统计设计、统计调查、统计整理和统计分析四个环节。统计资料是指通过

4、统计工作而取得的用来反映社会经济现象的数据资料的总称。 由统计工作所取得的各项数字资料及有关文字资料,一般都会反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。也称为统计信息,它是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料包括刚刚调查取得的原始资料和经过一定程度整理、加工的次级资料。其所形式的成果较直观地可分为:统计表、统计图、统计年鉴、统计公报、统计报告和其他有关统计信息的载体等等。统计科学也称统计学,它是统计工作经验的总结和理论概括,是经过系统化后的知识体系。统计学是在后来研究如何搜集、整理和分析统计

5、资料的理论与方法,是应用数学的一个分支。主要通过利用概率论和数理统计来建立数学模型,通过模型可以把收集得到的所有数据,进行量化的分析、总结,从而进行推断和预测,以为后期所做的为相关决策提供依据和参考价值。现如今,统计学已经被广泛的应用在各门学科之上,包括从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。假设给定一组数据,统计学就可以通过摘要简单地来描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称之为推论统计学。这两种用法都可以被称作为

6、应用统计学。特别强调的是还有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。总体来说,“统计”一词的三方面涵义是紧密联系的,统计资料是统计工作的成果,统计工作与统计科学之间是实践与理论的关系。对于“统计学”,百度百科上是这样解释的:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。随着社会经济的高速发展,人们已经逐渐进入了各种数据的时代。小到分析生活中的柴米油盐的价格分析,探究究竟怎样才能用有限的物资来满足生活所需,这就需要我们考虑用怎样的方法才能实现最大的目的;大到宇宙中的天体运行,分析各行星是如何运动的,以便于我们探究宇宙

7、的秘密,为航天事业做贡献。这种爆炸似的数据就迫切需要我们去获取、处理、分析、挖掘出其中有价值的信息。统计学就是为解决一系列数据问题而产生的一门学科,这门学科主要就是将生产生活中实际遇到的数据问题上升到理论层次,用用各种理论的方法来解决这些难题,得出一系列的结论;然后再将理论返回用于实际生活中,通过站在各种不同的视角,给出不同的政策建议。统计学最大的优点就是能够将理论与实际相结合,能够真正意义上的在实际中体现统计的价值,是的爆炸式的数据变得清晰客观。2 统计原理及其应用在学习统计学的方法时,主要的方法有聚类分析、主成分分析、因子分析、对应分析、典型相关分析等。2.1相关统计方法及原理2.1.1聚

8、类分析聚类分析是将个体或对象分类,使得同一类别的对象之间的相似性比与其他类的对象的相似性更强。目的是在于使类间对象的同质性最大化和类与类间对象的异质性最大化。这样就能把比较复杂的对象归成类,处理起来就大为方便。具体方法是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程度较大的样品或指标又聚合为一类,关系密切的聚合到一个小的类单位,关系疏远的聚合到另外一分类单位,知道把所有的样品或指标都聚合完毕。把不同的类型一一划分出来,形成一个有小到大的分类系统。最后把整个分类系统

9、画成一张分群图(又称谱系图),用它就把所有的样品或指标间的亲疏关系表示出来。2.1.2主成分分析主成分分析(principal components analysis)也称主分量分析,是由Hotelling于1933年首先提出来的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而能够抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题

10、得到简化,提高分析效率。这样分析的原因是既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始数据变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。2.1.3因子分析因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分子更加倾向于

11、描述原始变量之间的相关关系。因此,因子分析的出发点是原始变量的相关矩阵。因子分析不仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常把前者称之为R型因子分析,后者称之为Q型因子分析。2.1.4对应分析对应分析是R型因子分析和Q型因子分析的结合,它也是利用降维的思想已达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。对应分析的一大特点就是可以在一张二维图上同时表示出两类属性变量的各种状态,以直观地描述原始数据结构。2.1.5典型相关分析典型相关分析是研究两组变量之间相关关系的多元统计方法。他借用主

12、成分分析的降维思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各个主成分互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。近二十年来,随着计算机的发展以及各种统计软件的开发,作为一门基础学科的统计学在金融、保险、生物、医学、军事、经济、体育、运筹管理和工程技术等领域得到了广泛应用。许多领域因为运用了统计工具及统计思想而得到了延伸。2.2统计学的相关应用2.2.1统计学在经济学中的应用 统计学在经济学中的作用主要有两方面,一是在其工具性上,统计学作为经济研究的基础工具,其作用自然不可小觑;二是在其思想性

13、方面,统计学是一门严谨的学问,其严谨的思想在追求精确和理性的经济学中占据重要的地位。经济学是研究在约束的条件下的最优化选择,即在资源稀缺的条件下,如何达到收益的最大化。于是,在研究中就存在成本、收益等等的概念和运算。同时,由于经济活动的多样性,研究中存在许多变化的因素,导致了经济研究的错综复杂,而统计学的用处就是在于为许多复杂的思想和现象提供了简洁而明了的解释,为许多错综的数据提供了计算模型,从而使经济研究简洁条理。如金融顾问们利用各种统计信息来引导投资这件事,拿股票投资来说,顾问们检查包括市盈率和红利在内的一系列金融数据。通过将某只个股的数据与股票市场平均数进行比较,金融顾问们就能够判断该只

14、股票的价值是被高估还是被套。2.2.2统计学在医学上的应用医学科研是一种目的性的研究,属于应用研究,是应用基础理论知识,以某一过程、方法、工艺、技术路线的研究成果上进行的研究。根据研究目的、内容选择好统计分析方法,即对不同性质的研究资料,应用不同的统计方法给予分析比较和评价,是保证科研成果真实性和可靠性的重要手段。常用的医学统计方法根据数据的基本类型而定时。如表:表1 数据类型和相应的统计方法数据类型差异比较的指标显著性比较法计量资料计数资料半定量资料。平均值率(%)等级、记分T检验、U检验、F检验U检验非参数检验(秩和、Ridit)2.2.3 统计学在社会生活中的应用 统计全国人口

15、状况、农业收成、经济情况等数据,对一国经济与社会发展做统计性调查与研究。经过多年的发展,统计学在社会生活中的应用被专家学家们系统化专业化,形成了不同流派不同类别的统计学。而现在的人文社会统计分类便是对社会生活中统计学应用的专业化成果。 人口普查、经济情况调查等都是统计学在社会生活中的应用。早在17世纪,统计学在社会生活中的应用就被提出了。在约翰·格朗特1662年出版了对死亡表的自然观察和政治考察一书中,格朗特通过观察客观现象的数量关系,揭示出一系列统计规律,如男婴出生高于女生,男性死亡高于女性等,同时他还用最新颖的方法编制出了死亡率表。18世纪中末叶到19世纪中末叶期间概率

16、论与统计学成功结合,使得统计学在生活中的应用更加被加以重视。 2.2.4 统计学在生命科学及生物制药领域的应用 统计知识在生命科学、生物制药领域的应用是十分广泛的。以至于包括分子生物学中的统计方法、生物制药技术中的统计方法、流行病规律研究与探索的统计方法、人类染色体工程研究中的统计方法在内的各统计应用领域在不断发展壮大中。 在医药学中,关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究,都普遍使用统计方法;19世纪中叶基因学说的创立,也是依赖于统计推断技术。2.2.5 统计学在企业生产及社会经济生活中的应用 统计学在企业生产、经济生活中的应用很广,其

17、中包括了保险精算、金融业数据库建设与风险管理、宏观经济监测与预测等一系列经济研究应用问题。 在金融业的统计学应用方面,运用统计方法研究金融风险,建立风险监测系统,不仅能够为管理层宏观调控金融市场提供科学的理论依据,而且对投资个人和机构实施风险控制具有重要指导作用。 企业经济管理对统计学的运用也是必不可少的。其中,统计方法在企业质量管理中的应用研究就是一个典型的应用实例。“九五”期间,“ISO9000”认证成为国际贸易中所要求的供方质量保证能力和水平的标志。ISO9000族标准中有许多要素涉及到统计技术与方法的应用,例如紧密结合某企业或某产品的生产过程,运用统计方法,实施产品

18、设计、生产的全过程控制,同时还可将统计学中的“6”质量标准应用于企业的质量管理中。 统计学知识在企业生产管理中的应用当然不只限于企业质量管理。利用统计学知识还可以进行企业财务风险分析、顾客行为分析、商品市场的变化趋势及经济环境的研究等。在进行企业的财务分析时,可使用统计数量方法,提供精确地采取比率与衡量指标,从而对企业的偿债能力、盈利能力和抵抗风险能力作出评价并找出存在的问题;在顾客行为分析方面,利用市场调查、资料采矿技术及资料库行销功能,強化行销及客服能力,提供满足顾客需求的产品及服务。 2.2.6 统计学的其他应用统计学研究还渗透到国家经济安全、金融危机的预警系统,投资

19、项目的风险管理研究也依赖统计学者研究解决。 “十五”期间,统计学在旅游经济、假日经济和休闲时间方面的研究应用也被凸显出来。此领域统计指标体系的建立问题的研究包括旅游客流量、宾馆入住率、景点门票收入、餐饮业收入、航空、铁路等运输客流量的预测研究等,根据对人民生活水平、生活质量及其休闲时间的规律研究,制定有关政策,进而开发经济市场。 对于我国居民消费模式的量化研究方面也有重要意义。研究我国居民消费与收入之间的关系,考虑影响消费的众多因素,利用统计数据,建立消费模型,量测我国居民的消费水平,探讨影响居民消费的主要因素。利用统计学预防犯罪,应用的研究方法是相关回归分析法。利用统计学

20、侦破案件(“语言DNA”),应用的研究方法是聚类分析。 民调在选举中的预测功能:通过选择民调模式与应用时机,进行民调,对民调结果进行推估预测。二、理论基础土地购置费是指房地产开发企业通过各种方式取得土地使用权而支付的费用。包括通过划拨方式取得的土地使用权所支付的土地补偿费、附着物和青苗补偿费、安置补偿费及土地征收管理费;通过出让方式取得土地使用权所支付的出让金;通过“招、拍、挂”方式取得的土地使用权所支付的资金等。大量研究表明土地购置费与房地产价格存在一定的相关关系。国内生产总值(GDP)是指一个国家在一定时期内生产的所有最终产品和劳务的市价值。是国民经济核算的核心指标,也是衡量一个

21、国家或地区总体经济状况重要指标。房地产业是中国经济发展的重要产业之一,它对我国的经济发展影响巨大,房价的上涨直接推动了GDP的快速增长。房地产开发投资额是货币形式表现的房地产开发企业在一定时期内进行房屋建设及土地开发所完成的工作量及有关费用的总称。除房产外还包括土地使用权出让金、土地征用及拆迁安置补偿费、前期工程费、建安工程费、基础设施费、公共配套设施费、不可预见费、开发期间税费。作为区域经济协调发展的重要组成部分,其内在的紧急体制直接影响房价的变化。实证研究通过查阅南昌市统计年鉴得到20102015年南昌市各项指标的原始数据相关信息如表2。表2 所取指标代码及其单位指标代码指标类别指标单位X

22、1国内生产总值亿元X2社会商品零售总额亿元X3年末总人口万人X4房地产开发投资额亿元X5地方财政预算内收入亿元X6货物进出口总额百万美元X7房地产企业购置土地面积万/平方米X8货物运输量万吨X9城乡居民年末储蓄余额亿元X10在岗职工平均工资元X11房地产开发竣工房屋面积万/平方米X12商品房销售面积万/平方米其中所列原始数据的样本量N=6,变量指标P=12。各指标值如表3。 表3 各指标赋值表X1X2X3X4X5X6X7X8X9X10X11X1220154000.011662.9520.38485.37389.3411464.389.7135632491.3957730433.82901.02

23、20143667.9613004.9517.73414.07342.2112226.4254.51127092149.3351848510.97824.6620133336.031132.8510.08406.14291.919722.331571646892373.75841.3920123000.5995.1507.87344.36240.028287.43129.4595251853.5743769417.92689.8620112688.87928.3504.95279.89187.037883.71208.9388441603.9639816446.1849

24、9.1320102200.1764.9502.25230.15146.475303.64164.4583261417.5835038399.12520.84主成分分析通常把转化生成的综合指标成为主成分,其中每个主成分都是原始变量的线性组合,且每个主成分之间互不相关,使得主成分比原始变量具有更优越的性能。为了消除量纲和数量级的不同,使得不同的指标数据能够具有可比性,在软件SPSS中需要将原始数据进行标准化处理。数据标准化处理的过程如下:(i=1,2n; j=1,2p)其中:这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问

25、题得到简化,提高分析效率。表4 各指标标准化后的取值X1X2'X3'X4'X5'X6'X7'X8'X9'X10'X11'X12'20151.29411.375160.91151.400191.45255-1.33560.074861.09581.329941.451.3321-0.291220140.789211.004691.21140.998860.57091.49881.712610.65120.821080.7320.57452.0371920130.28451-0.06480.226-0.0233

26、0.31787-0.176-1.20030.74860.277990.1270.4903-0.40012012-0.2257-0.3737-0.339-0.4974-0.1914-0.652-0.2627-0.134-0.2823-0.25-0.166-0.42832011-0.6995-0.782-0.498-0.8175-0.83480.71490.33724-1.244-0.8544-0.74-0.851-0.4422010-1.4427-1.1594-1.513-1.0609-1.3152-0.0501-0.6618-1.118-1.2923-1.32-1.38-0.4756将标准化后

27、的值计算相关矩阵R,其中:其中:R=r11r1pr61r6p (p=12)标准化处理的指标数据的相关系数为:1n-1t=1nXtiXtj.(i,j=1,2p)经SPSS操作,得到的相关矩阵见表5表5 各指标间的相关系数X1X3X2X4X6X5X7X8X9X10X11X12相关X11.000.972.442.988.961.995-.175.962.989.993.377.932X3.9721.000.546.941.945.982-.115.997.960.984.501.886X2.442.5461.000.338.639.457.700.543.338.416.845.369X4.988.

28、941.3381.000.918.987-.287.934.995.981.233.965X6.961.945.639.9181.000.949.100.932.911.937.559.862X5.995.982.457.987.9491.000-.191.977.991.994.363.949X7-.175-.115.700-.287.100-.1911.000-.115-.309-.231.625-.273X8.962.997.543.934.932.977-.1151.000.954.977.480.887X9.989.960.338.995.911.991-.309.9541.000.

29、992.269.947X10.993.984.416.981.937.994-.231.977.9921.000.380.917X11.377.501.845.233.559.363.625.480.269.3801.000.131X12.932.886.369.965.862.949-.273.887.947.917.1311.000表6 解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %19.09175.75875.7589.09175.75875.75822.41420.11795.8752.41420.11795.8753.3252.70798.582

30、4.1321.10299.6845.038.316100.00064.161E-163.468E-15100.00072.151E-161.792E-15100.00082.518E-172.098E-16100.00091.682E-171.402E-16100.00010-3.377E-16-2.814E-15100.00011-4.202E-16-3.502E-15100.00012-5.120E-16-4.267E-15100.000提取方法:主成份分析。由表我们可以看到前面2个主成分Y1,Y2的方差和占全部方差的比例的95.875%。我们就选取Y1为第一主成分,Y2为第二主成分,且这

31、两个主成分之方差和占全部方差的95.875%,即基本上保留了原来指标的信息,这样由原来的12个指标就转化为2个指标,起到了降维的作用其中相关矩阵的前两个特征根的特征向量如图1.图1 成分特征根的特征值分布从SPSS中得到的主成分系数矩阵如表6.表6成份矩阵成份矩阵a成份12X1.992-.082X3.990.030X2.531.806X4.971-.217X6.969.180X5.996-.091X7-.112.944X8.984.023X9.976-.212X10.989-.112X11.446.816X12.928-.230提取方法 :主成份。由表得到的前两个主成分Y1,Y2的线性组合为:

32、Y1=0.992X1*+0.990X2*+0.531X3*+0.971X4*+0.969X5*+0.996X6*-0.112X7*+0.984X8*+0.976X9*+0.989X10*+0.446X11*+0.928X12*Y2=-0.082X1*-0.030X2*+0.806X3*-0.217X4*+0.180X5*-0.091X6*+0.944X7*+0.023X8*-0.212X9*-0.112X10*+0.816X11*-0.230X12*Xi*(i=112)指标准化后的Xi值。4 结论主成分的经济意义是可以由得到的主成分中的各线性组合中的权数较大的几个指标的综合意义来确定。在综合因

33、子 Y1中,X1、X2、X4、X5、X6、X8、X10的系数远大于其他变量的系数。因此,Y1主要是国内生产总值、社会商品零售总额、房地产开发投资额、地方财政预算内收入、货物进出口总额、货物运输量、在岗职工平均工资这7各指标的综合反映。由于Y1用来评价影响南昌市房地产价格的因素有75.758%的把握,因此这7各指标可以算是反映房地产价格影响因素的主要指标。另一方面,从Y1的线性组合中可以看出这七个单项指标在综合因子Y1中的所占的比重相当,这就进一步说明了这七项指标用来考察影响南昌市房地产价格因素是有着类似的权重关系,不能忽略其中任何一个指标的价值。同时我们可以看出在Y2中放映的是房地产开发商购置

34、土地面积对房价水平的综合反映,从Y2的综合表达式中我们可以了解到房地产开发商购置土地面积对房价的影响至关重要。因此,综合以上分析,我们就从12个未知权重的指标中选取了八个对房地产价格具有较大影响因素的指标。为了分析各指标在主成分所反映的情况,还将标准化后的原始数据带入主成分表达式计算各指标的主成分得分,由各样品的主成分得分就可在二维空间中描出各指标的分布情况。表7 成份得分系数矩阵成份12X1.109-.034X3.109.012X2.058.334X4.107-.090X6.107.075X5.110-.038X7-.012.391X8.108.010X9.107-.088X10.109-.046X11.049.338X12.102-.095图1 主成分得分二维空间分布从图1中可以看出能够将所有指标分为三大类,分别位于三个区间。其中位于第一象限的X2、X3、X6、X8、X11为一类;位于第二象限的X7为一类;位于第四象限的X1、X4、X5、X9、X10、X12为一类。5 政策及建议根据以上分析,并结合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论