统计建模与R软件课程报告_第1页
统计建模与R软件课程报告_第2页
统计建模与R软件课程报告_第3页
统计建模与R软件课程报告_第4页
统计建模与R软件课程报告_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计建模与研究软件课程报告对某地区农业生态经济发展进行了主成分分析摘要主成分分析的主要目的是用较少的变量解释原始数据中的大部分变化,并将许多高度相关的变量转化为独立或不相关的变量。通常,选择几个新的变量,称为主成分,它们比原始变量少,可以解释大多数数据的变化,并用于解释数据的综合指标。换句话说,主成分分析实际上是一种降维方法。关键词:主成分分析相关矩阵相关函数目录1导言21.1主成分方法介绍22总体主要构成部分22.1主成分的定义和推导22.2主要成分的性质32.3从相关矩阵中找出主成分52.4相关r功能63数据模拟7模型的结论和评价12参考文献121导言1.1主成分法简介主成分分析是一种将多

2、个指标转化为几个综合指标的统计分析方法。它由皮尔逊(1901)提出,后来由霍特林(1933)发展。主成分分析是通过降维技术将多个变量转化为几个主成分的方法。这些主成分能够反映原始变量的大部分信息,它们通常表示为原始变量的线性组合。主成分分析,又称主成分分析,旨在利用降维的思想将多个指标转化为几个综合指标。在实证研究中,为了全面系统地分析问题,必须考虑许多影响因素。这些因素通常被称为指标,在多元统计分析中它们也被称为变量。由于每个变量都在一定程度上反映了研究问题的一些信息,并且指标之间存在一定的相关性,因此所获得的统计数据所反映的信息在一定程度上存在重叠。当用统计学方法研究多元问题时,过多的变量

3、会增加计算量和分析的复杂性。人们希望在定量分析的过程中,涉及的变量更少,获得的信息更多。主成分分析是解决这类问题的理想工具。2总体主要组成部分2.1主要组件的定义和导出假设是一个p维随机变量,并假设。考虑以下线性变换(2.1)容易看见,(2.2),(2.3)我们希望方差达到最大,即约束优化问题解决方案。因此,它是具有最大特征值的特征向量(它可以被设置为)。此时,它被称为第一主成分。类似地,期望的方差被最大化并被要求。因为是特征向量,所以所选的应该是正交的。类似于前面的推导,它是第二大特征值的特征向量。称为第二主成分。一般来说,对于协方差矩阵,有一个正交矩阵,它被转换成对角矩阵,即(2.4)并且

4、,矩阵的列对应于主成分。2.2主要成分的性质主要组件具有以下属性:(1)主成分的均值和协方差矩阵。纪念,由于(2.5)所以有。(2)主成分总方差由于因此或者,其中是协方差矩阵的第一个对角元素。可以看出,主成分分析将p个原始变量的总方差分解为p个无关变量的方差之和。表示主成分在总方差中的比例是主成分的贡献率。第一主成分的贡献率最大,表明其解释原始变量的能力最强,而其解释原始变量的能力依次下降。主成分分析的目的是减少变量的数量,所以一般不使用所有的P主成分,忽略一些方差较小的主成分,这不会对总方差带来很大的影响。前m个主成分的贡献率之和称为主成分的累积贡献率,它表示解释能力。与p相比,m通常较小,

5、因此累积贡献率达到较高的百分比(如80% 90%)。此时,可以用它来代替,以达到降维的目的,但信息的损失并不多。(3)原始变量与主成分的相关系数根据公式(1.5)(2.6)也就是说,(2.7)所以,(2.8),(2.9)在实际应用中,我们通常只对相关系数感兴趣。(4)各主成分对原始变量的贡献率上面提到的累积贡献率的概念衡量了一个主成分从原始变量中提取了多少信息,那么应该用什么指标来衡量它包含了多少信息呢?这个指数是复相关系数的平方,它被称为每个主成分对原始变量的贡献率,被写成。(2.10)取公式(1.7)两边的方差,得到,(2.11)因为,它实际上是一个加权平均值。从公式(1.10)到公式(1

6、.11),对的贡献率可以如下获得。(2.12)(5)原始变量对主成分的影响等式(1.5)也可以写成,它被称为第一个原始变量上的第一个主成分的负荷,它测量该对的重要性。2.3从相关矩阵开始寻找主成分当每个变量的单位不完全相同时,或者虽然单位相同,但变量之间的数值相差很大时,直接从协方差矩阵进行主成分分析是不合适的。为了使主成分分析平等地对待每个原始变量,消除不同单位可能造成的影响,原始变量往往是标准化的,即,(2.13)显然,的方差矩阵是的相关矩阵。由相关矩阵导出的主成分法与由协方差导出的主成分法完全相似,并且得到的一些主成分更简洁。如果相关矩阵的P个特征值是对应的单位特征向量并且彼此正交,则对

7、应的P个主成分是,点菜,然后。相关矩阵的主成分具有以下性质:(1)在哪里。(2)。(3)变量与主成分的相关系数为,(4)主成分对的贡献率为。(5)。2.4相关r功能与主成分分析相关的功能主要包括:1.1.princomp函数主成分分析最重要的函数是princomp()函数,其使用格式为princomp(公式,数据=空,子集,na.action,(公式是没有响应变量的公式(类似于回归分析和方差分析,但没有响应变量),数据是一个数据框架。或者.原则(x,cor=假,分数=真,协方差=空,子集=代表(真,代表(矩阵(x),)x是用于主成分分析的数据,以数字矩阵或数据框的形式给出;Cor是一个逻辑变量

8、。当cor=真时,样本的相关矩阵用于主成分分析;当cor=FALSE(默认值)时,样本的协方差矩阵用于主成分分析。Covmat是一个协方差矩阵,如果数据不是由x提供的,它可以由协方差矩阵提供。2 .汇总功能summary()函数的目的是提取主成分信息,其使用格式为总结(对象,载荷=假,截止值=0.1,(其中对象是由princomp()获得的对象;负载是一个逻辑变量。当载荷=真时,显示载荷的内容,而当载荷=假时,不显示它们。3 .负载函数loads()函数显示主成分分析载荷的内容,这些载荷实际上是对应于主成分的列载荷(x),其中x是通过函数princomp()获得的对象。4 .预测功能predi

9、ct()函数是预测主成分的值,其使用格式为预测(对象、新数据、(其中,object是princomp()获得的对象,newdata是由预测值组成的数据框,当newdata为默认值时,预测现有数据的主成分值。5 .创建复制功能Screeplot()函数是绘制砾石图的主要组成部分,其使用格式是screplot(x,npcs=最小值(10,长度(x$sdev),type=c(“bar plot”),“线路”),主要=部门(替代(x),)x是princomp()获得的对象;NPC是提取的主要成分的数量;类型是描述绘制的砾石图的类型:“柱状图”是直方图类型,“线”是直线图类型。3数据模拟表1农业生态经济

10、系统各区域单元的相关数据序列号1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011 752.35452.2632.31414.4641.45527.0663100.6951.06765.6011 181.54270.1218.2660.1627.47412.4894143.7391.33633.2051 436.12354.2617.48611.8051.89217.5345131.4121.62316.6071 405.09586.5940.68314.4010.30322.932668.3372

11、.03276.2041 540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071 501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1

12、651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011 255.42211.5511.1023.1330.0103.4251699.2650.65460.7021 251.03220.914.3834.6150.0115.59317118.5050.66163.3041 246.47242.1610.

13、7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011 124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021 313.11236.2926.7247.1620.09210.078:人口密度(人/平方公里):人均耕地面积(亩)森林覆盖率(%):农民人均纯收入(元/人):人均粮食产量(公斤/人):经济作物占作物播种面积的比例(%):耕地与土地面积之比(%):果园与林地面积之比(%):灌溉面积与耕地面积之比(%)通过主成分分析,第一主成分被命名为,第二主成分被命名为,第三主成分被命名为,依此类推。目前,M个主成分的累积贡献率达到80%以上,所以我们说大脑的大小与前M个主成分有关。并求解变换后的和之间的相关系数。首先,以数据框的形式输入数据。用主成分分析法选择相关矩阵作为主成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论