主成分分析法在粮食产量中的应用_第1页
主成分分析法在粮食产量中的应用_第2页
主成分分析法在粮食产量中的应用_第3页
主成分分析法在粮食产量中的应用_第4页
主成分分析法在粮食产量中的应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析法在粮食产量中的应用摘 要主成分分析的基本思想是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原指标,并根据实际需要从中取几个较少的综合指标尽可能多的反映原来指标的信息。主成分分析法适合处理一些多变量,数据大的问题,具有广泛的应用。本文利用主成分分析法的方法对粮食产量问题予以分析。由于粮食产量受多个因素的影响,所以利用主成分分析法中降维的思想,通过多元回归分析,得到回归预测的模型。由于预测的模型存在共线的可能,所以进一步对所预测的模型进行检验,从而得到最优的模型。【关键词】 主成分分析 因子分析 粮食问题Principal Component Analysis and

2、Its ApplicationsAbstractAlphaThe basic idea of principal component analysis is to try to reassemble the original indicators into a new set of several mutually independent comprehensive index to replace the original index, and according to the actual need to be taken several less comprehensive index

3、as much as possible to reflect the original indicators information. Principal component analysis method is suitable to deal with some multivariate data big problem, with a wide range of applications.In this paper, the principal component analysis methods are analyzed for food production problems. Be

4、cause food production affect multiple factors, so the use of principal component analysis in dimensionality reduction ideas, through multiple regression analysis, regression prediction model. May be due to the presence of the line model prediction, the prediction model further tested to obtain the o

5、ptimal model. 【 key words】principal component analysis factor analysis food issues目 录一、引言1二、主成分分析法的基本概念1(一)主成分分析法的简介1(二)主成分分析法的特点1(三)主成分分析法的基本原理1三、主成分分析法的应用2(一)问题的提出2(二)样本数据的选择2(三)问题分析3(四)定义变量3(五)用SPSS进行主成分分析的步骤3(六)模型的建立与求解4四、结束语9参考文献:9致谢11主成分分析及其应用 一、引言主成分分析也称主分量分析,是利用降维的思想,把多指标转化为少数几个综合指标。在实际问题的研究

6、中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。本文主要针对我国的粮食问题,采用主成分分析的方法,利用SPSS软件对影响我国粮食产量的因素做出分析,从而得到最优的预测模型。二、主成分分析法的基本概念(一)主成分分析法的简介主成分分析法主要是将影响问题的多种因素简化,把有相关性的因素删除,通过剩下的主要因素来分析问题。例如,企业活动中的活动项目数与项目经费、经费支出等之间会存在较高的相关性;学生综合测

7、评中的基础课成绩和选修课成绩、获奖学金次数等之间也会存在较高的相关性。因而我们通过运用主成分分析法来解决多变量的问题。主成分分析法Principal component analysis(PCA)是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,个变量就有个主成分。(二)主成分分析法的特点主成分分析法是在不丢失重要信息的基础下,把众多的变量缩减为几个主要因素,缩减后的变量通常有以下

8、特点:1.缩减后的主要成分的个数小于原来变量的个数。2.缩减后的主要成分必须含有大部分的原始信息。3.缩减后的主要成分应该不再具有相关性。4.主成分具有命名解释性。(三)主成分分析法的基本原理主成分分析实际上是一种降维方法。主要思想是将原本具有相关性的多个变量(例如个变量),通过降维,选出新的数量较少的不相关变量,组成新的综合性指标来代替原来指标。设为原变量中的第一个具有线性相关的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差越大,表示包含的信息越多。常常希望第一主成分所含的信息量最大,因此在所有的线性组合中选取的应该是的所有线性组合中方差最大的,故称为第一

9、主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取第二个主成分指标,为有效地反映原信息,已有的信息就不需要再出现在中,即与要保持独立、不相关,用数学语言表达就是其协方差,所以是与不相关的的所有线性组合中方差最大的,故称为第二主成分,依此类推构造出的为原变量指标第一、第二、第个主成分。根据以上分析得知:(1)与互不相关,即。(2) 是的一切线性组合(系数满足上述要求)中方差最大的,即是与都不相关的的所有线性组合中方差最大者。为构造的新变量指标,即原变量指标的第1、第2、第个主成分。 三、主成分分析法的应用(一)问题的提出粮食是国家的根本,失去粮食或者缺少粮食不仅会对我们个人的生活产生影

10、响,对国家乃至世界都会有很大的冲击。在我国,人口数量庞大,对粮食的需求量也相应增大,因此要使粮食品种的产和销、供与求满足动态的平衡,确保生产足够数量的粮食。而粮食的产量是随着投入生产要素的变化而变化的,反映出投入与产出之间存在着一种数量关系,这种关系可以用一种数学表达式表现出来,这种表达式常称作生产函数。而本文将利用主成分分析法,研究粮食产量与影响因素之间的关系,以此寻找粮食稳定增产的有效途径(二)样本数据的选择全文以2009年版的中国统计年鉴2009为资料来源,用到了1995年到2008年14年的数据作为样本点。利用SPSS软件,建立以粮食的播种面积、成灾面积、有效灌溉面积、农业机械总动力和

11、农业化肥施用量为变量的多元线性回归模型,对影响粮食产量的因素进行实证分析。表1年份粮食产量(万吨)/Y播种面积(千公顷)/X1成灾面积(千公顷)/X2农用机械总动力(万千瓦)/X3有效灌溉面积(千公顷)/X4化肥施用量(万吨)/X51995 46662 110060 45824 36118 49281 3594 1996 50454 112548 46991 38547 50381 3828 1997 49417 112912 53427 42016 51239 3981 1998 51230 113787 50145 45208 52296 4084 1999 50839 113161 49

12、980 48996 53158 4124 2000 46218 108463 54688 52574 53820 4146 2001 45264 106080 52215 55172 54249 4254 2002 45706 103891 46946 57930 54355 4339 2003 43070 99410 54506 60387 54014 4412 2004 46947 101606 37106 64028 54478 4637 2005 48402 104278 38818 68398 55029 4766 2006 49804 104958 41091 72522 5575

13、0 4928 2007 50160 105638 48992 76590 56518 5108 2008 52871 106793 39990 82190 58472 5239 数据来源:2009年版的中国统计年鉴2009(三)问题分析每年的粮食产量受很多因素的影响,例如劳动生产力,环境气候变化,技术提高等,为了包含这些基本因素,本文选择了以农业化肥施用量、粮食播种面积、成灾面积、有效灌溉面积、农业机械总动力等为解释变量,以粮食产量为被解释变量。(四)定义变量:表示粮食产量(万吨);: 表示粮食播种面积(千万顷);: 表示成灾面积(公顷);: 表示农业机械总动力(万千瓦);: 表示有效灌溉面积

14、(千公顷);: 表示化肥施用量(万吨);(五)用SPSS进行主成分分析的步骤1.利用SPSS对模型进行初步拟合(1)将原始数据输入SPSS数据编辑窗口并命名。(2)在SPSS窗口点击分析,选择回归分析中的线性菜单项,调出线性回归的主界面。(3)将变量移入相应变量框。(4)方法选择:Enter。点击统计按钮,选择我们想要观察的选项,例如:回归系数的估计、模型拟合、共线性诊断等。(5)点击确定。通过以上步骤即可得到最终模型的拟合优度检验表、方差分析表、系数分析表、共线性诊断表等。2.利用SPSS进行因子分析(1)在SPSS窗口中点击分析,选择数据缩减中的因子分析菜单项,调出因子分析主界面。(2)将

15、变量移入变量框。(3)点击描述,在相关矩阵中点击系数和显著性水平,然后点击继续。其他均为系统默认选项。(4)点击确定。通过如上步骤即可得到特征根和方差贡献率和因子载荷阵表。3.利用SPSS对模型进行逐步回归(1)在SPSS窗口点击分析,选择回归分析中的线性菜单项,调出线性回归的主界面。(2)将变量移入变量框。(3)方法选择:Stepwise。点击统计按钮,选择同之前一样的选项。(4)点击确定。通过以上步骤即可得到拟合的模型中只包含有用变量的相关分析表。(六)模型的建立与求解1. 多元回归模型的初步建立与初步检验1.1多元回归模型的初步建立(1)对粮食产量与粮食播种面积、成灾面积、农业机械总动力

16、、有效灌溉面积、化肥施用量建立一个回归模型:(注:是待定系数)(2)利用SPSS软件,通过最小二乘估计得到系数的估计值,如表2。表2 系数分析表CoefficientsModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta(Constant)播种面积成灾面积农用机械总动力有效灌溉面积化肥施用量-36622.5090.618-0.119-0.149-0.1329.08616184.8350.0770.0390.1730.3793.6521.017-0.255-0.775-0.1161.600-2.

17、2637.977-3.035-0.866-0.3492.4880.0530.0000.0160.4120.7360.038Dependent Variable: 粮食产量B是待定系数值;Std. Error是标准误差;T检验是比较平均值的方法,Sig值是t值的显著性,它的意思是说,平均值是在百分之几的概率上是相等的。所以t和Sig两者是等效的,看Sig就够了。Sig值要求小于给定的显著性水平,一般是0.05、0.01等,Sig越接近于0越好。一般将这个sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等。我们认为平均值相等的几率还是比

18、较大的,说明差异是不显著的,从而认为两组数据之间平均值是相等的。如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组数据之间平均值是不相等的。(3)确定初步模型方程由表2可以看到B对应的一列即为待定系数值,便可得到初步拟合后的多元回归线性方程:1.2多元回归模型的初步检验表3 最终模型的拟合优度检验表 Model SummaryModelRR SquareAdjustedR SquareStd. Error of the Estimate10.9840.9680.949626.81275Pr

19、edictors: (Constant), 化肥施用量, 成灾面积, 播种面积, 有效灌溉面积, 农用机械总动力Dependent Variable: 粮食产量是相关系数;R Square是相关系数的平方,又称判定系数,判定线性回归的拟合程度,越大越好,一般的,大于0.8说明方程对样本点的拟合效果很好,0.50.8之间也可以接受;Adjust R Square是调整后的判定系数;Std. Error of the Estimate是估计标准误差。表4 回归模型的方差分析表ANOVAModelSum of SquaresdfMean SquareFSig.RegressionResidualTo

20、tal9649826131431539964141458131929965239289449.1270.000Predictors: (Constant), 化肥施用量, 成灾面积, 播种面积, 有效灌溉面积, 农用机械总动力Dependent Variable: 粮食产量F是检验方程显著性的统计量,是平均回归平方和与平均剩余平方和之比,越大越好。“Sig”,Sig=significance,意为“显著性”,后面的值就是统计出来的P值,如果P值是 ,则为差异显著,如果,则差异极显著。(1)从表3可以看到,,很接近1,表明模型拟合程度很好。而表4中的,而查表得,所以,并且F检验的显著性概率(Si

21、g)为0.000,反映变量间呈高度线性。因此,我们可以得出结论:之间存在显著的线性关系。(2)但从表2总的T检验的显著性概率(Sig)可以看出的参数大于显著性水平,说明差异不显著,所以没有通过检验。我们首先考虑在变量间可能存在多重共线性。2.优化模型2.1因子分析诊断表5 KMO检验和巴特利球体检验表KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.0.589Bartletts Test of SphericityApprox. Chi-SquareDfSig.90.78100.000可以看到KMO的检验

22、系数,巴特利球体检验的统计值的显著性概率,满足做因子分析的条件,可以进行因子分析。表6 变量间的相关系数矩阵表Correlation Matrix播种面积成灾面积农用机械总动力有效灌溉面积化肥施用量Correlation播种面积成灾面积农用机械总动力有效灌溉面积化肥施用量1.0000.311-0.649-0.565-0.5720.3111.000-0.491-0.370-0.508-0.649-0.4911.0000.9680.990-0.565-0.3700.9681.0000.954-0.572-0.508-0.9900.9541.000从表6相关系数矩阵中,我们可以发现,具有高度相关性。

23、表7 总方差解释表Total Variance ExplainedComponentInitial EigenvaluesTotal% of VarianceCumulative %123453.6590.7450.5570.0360.00373.17914.89911.1380.7200.06473.17988.07799.21699.936100.00Initial Eigenvalues是初始特征根;从总方差解释中可以看出,只有变量的特征值是大于1的,所有适合作为降维的公因子,它解释的累积方差为73.179%。表8 变量的因子载荷阵表Component MatrixComponent1播

24、种面积成灾面积农用机械总动力有效灌溉面积化肥施用量-0.718-0.5830.9870.9410.971在因子载荷矩阵中,我们可以看出,第一个主成分因子是和高度相关的。2.2模型建立在因子分析的基础上,我们使用SPSS软件中的逐步分析,来观测模型的拟合。 表9 最终模型拟合的优度检验表Model SummarydModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1230.590a0.947b0.979c0.3480.8970.9580.2940.8780.9462326.74253966.42299645

25、.900041.750a:Predictors: (Constant), 播种面积b:Predictors: (Constant), 播种面积, 化肥施用量c:Predictors: (Constant), 播种面积, 化肥施用量, 成灾面积d:Dependent Variable: 粮食产量 从表9中可以看出:第一种建立的模型(即只有一个变量)的,调整后的为0.294;第二种建立的模型(即有两个变量)的,调整后的为0.878;第三种建立的模型(即有三个变量)的,调整后的为0.946。因为值越接近1,拟合程度越好,所以由值我们可以得出第三种模型的拟合程度较好。表10 方差分析表ANOVAMod

26、elSum of SquaresdfMean SquareFSig.1RegressionResidualTotal346766456496476999641414112133467664554137306.4050.026a2RegressionResidualTotal893677071027370799641414211134468385393397347.8430.000b3RegressionResidualTotal95469546417186899641414310133182318241718676.2800.000ca:Predictors: (Constant), 播种面积

27、b:Predictors: (Constant), 播种面积, 化肥施用量c:Predictors: (Constant), 播种面积, 化肥施用量, 成灾面积d:Dependent Variable: 粮食产量 从表10中可以看出:第一种模型的,,并且Sig.=0.026;第二种模型的,并且Sig.=0.000;第三种模型的,并且Sig.=0.000。看F检验的显著性概率sig的数值,在0.01至0.05之间就是显著,小于0.01就是极显著。所以由表中的Sig我们也可以看出第三种模型的拟合程度最好。表11系数分析表CoefficientsaModelUnstandardized Coeffi

28、cientsStandardized CoefficientstSig.BStd.ErrorBeta1(Constant)播种面积9851.4470.35915228.340.1420.5900.6472.5310.5300.0262(Constant)播种面积化肥施用量-46430.50.6735.1319700.650.0720.6701.1070.904-4.7869.3777.6520.0010.0000.0003(Constant)播种面积化肥施用量成灾面积-37137.60.6784.330-0.1346923.740.0480.4950.0351.1160.763-0.287-5

29、.36414.1338.753-3.8240.0000.0000.0000.003a:Dependent Variable: 粮食产量 从表11我们可以看出三种模型拟合的参数,由此可写出方程:第一种模型方程:;第二种模型方程:;第三种模型方程:。根据和,得出的结论,我们可以确定模型最佳的拟合方程为。2.3 最终模型的确定最后的回归方程为:通过以上分析,我们可以得到结论:粮食的产量与播种面积,受灾面积,化肥施用量有密切关系。经济解释: 播种面积每增加1千公顷,粮食产量就增加0.678万吨。 成灾面积每增加1千公顷,粮食产量就减少0.134万吨。化肥施用量每增加1万吨,粮食产量就增加4.330万吨,说明对我国的粮食产量的影响较大。2.4 结论与建议经过实证分析,粮食产量的主要受化肥施用量、播种面积和成灾面积的影响。播种面积的增加和成灾面积的减少使粮食产量增加,化肥施用量的增加使得粮食产量增加,但在实际中,有限的土地上只能施用有限的化肥。近年来城市化和工业化不得不再占用耕地,在耕地不足的情况下,为减少污染而将减少化肥施用的情况下,粮食产量将更多的依赖于技术进步。以下总结了四点粮食增产的建议。第一,加强耕地保护

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论