2015指导的及申请免答辩报告数1_第1页
2015指导的及申请免答辩报告数1_第2页
2015指导的及申请免答辩报告数1_第3页
2015指导的及申请免答辩报告数1_第4页
2015指导的及申请免答辩报告数1_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、省各地区农业发展的多元统计分析统数学与应用数学专业 2011(1)班 20113823指导教师:副教授内容摘要:省是农业大省,农业发展水平总体较好,但各地区之间仍然一定差异,因此对各地区农业发展的分析有着什么重要的意义,既关乎发展又与人们生活水平关。首先,利用省 2013 年统计年鉴上有关农业发展的数据,通过模糊 C 均值聚类,对各地区总体上分为高中低三类;随后,利用主成分分析法对这些地区进行排名;之后建立判别模型,并计算了误判率,得到了对各地区的符合先前的三类;最后,根据得到的分析结果,对省各地区农业发展提出合适的建议。对省各地区农业发展的统计分析有助于清晰的认识当前农业发展状况,制定出合理

2、的发展计划,农业发展既需要因地制宜,又需要与时俱进。发展程度较高地区需要继续保持,并优化其发展模式,发展程度较低地区要吸取宝贵经验,加快发展本地农业。坚持可持续的发展现代农业,提高与人们生活水平,最终建设成小康。:农业发展;多元统计分析;主成分分析;可持续发展Abstract:Anhui is a big agricultural province, the development of agricultural economy overall isgood, but a certain difference truly existed amongdifferent regions, the

3、analysis of the development of agricultural economy for each region matters a lot, it is related to nationaleconomical development and alsoly bound up to peoples living standard. Firstly, generallywe divided all of the regions into three catagories: high, medium, low in accordance with the related d

4、ata about agricultural economy development from the statistical yearbook in 2013 by the fuzzy c-means clustering method, and then ranked them by principle component analysis, afterthat ,set up a discrimination m and caculated the misjudgement rate to list them into eachcatagories, in the end,we gave

5、 the suitable advice to all of the region in different levelsaccording to the outcome from the analysis. A statistical analysis to the different regions in Anhui Province helped to clearly recogonized the present situation of the agricultural economy development ,draw up equal development project, b

6、ecause the development of the agriculture should not only adjust measures to local conditions but also keep pace with the times. The high level regions should keep its advantage and optimize its development patterns, the lower level regions should learn valuable lessons from others and make a accele

7、rate development. We should preserve in the sustainable development of modern agriculture, improve the social economy andpeoples living standard to found a moderately prosperous society ultimately.Key words: The Development of Agricultural Economy;Multivariate Statistical Analysis;Principal componen

8、t analysis;Sustainable development目 录1.省各地区农业发展聚类分析11.1 农业发展数据11.2 利用模糊 C 均值聚类. 12.各地区农业发展主成分分析32.1 各地区农业发展不同32.2 利用主成分分析对这些地区进行排名33.判别各地区情况,计算误判率53.1 选取地区进行判别53.2判别54.对各地区农业发展提出合适的建议7参考文献:9附录 1:10附录 2:11附录 3:12附录 4:13省位于祖国的中部,毗邻长三角,这片大地上流淌着长江与淮河,独特的气候条件与优越的地理位置使成为了农业大省。由于地域广阔,农业种类多,产量各不相同,在其各地区之间之一

9、定的差距。因此研究各地区农业发展具有深刻意义。1.省各地区农业发展聚类分析省地域广阔,南北农业差距明显,南方主要农作物则是水稻,而北省农业发展情况1,可以大致性的对各地区农业发展情况做方则盛产小麦、大豆等。为了更探究将省各地区农业发展分成三类,更有出最优的、方针,因地制宜,从而使农业持续的增长。1.1 农业发展数据从 2013 年统计年鉴各地区农业总产值(万元)、耕地面积(公顷)、粮食产量(吨)、农业机械总动力(万千瓦)数据,得到表 1。表 1省各地区农业发展相关数据1.2 利用模糊 C 均值聚类模糊 C 均值聚类是硬 C 均值聚类的推广,硬划分是指一个样品要么属于指定的类,要么不属于该类,二

10、者必居其一。而模糊聚类则放松此要求,即样品以一定的概率属于某个指定类。设 X = n Ì R 为样品集,n 为样品容量。将 X 分成 c 类,等价s1地 区农业总产值(万元)耕地面积(公顷)粮食产量(吨)农业机械总动力(万千瓦)合 肥淮 北亳 州宿 州蚌 埠阜 阳淮 南滁 州六 安马鞍山芜 湖宣 城铜 陵池 州安 庆黄 山1961762490809210770123294131453174253086449889915746961584619639258964160913749974994755071465184418773337560136080499702480447295078

11、57568911342640710243389112463017575715311823476829202980174740030337801190089442578437697342612155523338213376764150703449066210163901336993130374615300865755325219593416863782577607875046621786386681291902233711429674于将集合 X 表示成= j,i ¹ j2 ULU设uij 是第 j 个样品属于第 i 个中心的隶属度,则j= ì1x j Î X iu

12、í0(1)x Ï Xijîji其中 j = 1,2,L, n, i = 1,2,L, c.U = (uij ) 是一个c ´ n的矩阵,称为隶属度矩阵或特征矩阵,其中每一列的元素只有一个 1,其余全部为 0。硬划分的一个延拓是将隶属度矩阵定义为:cåuij= 1(uij ³ 0)(2)i=1此时的聚类称为模糊 C 均值聚类。模糊 C 均值聚类通过求解如下的优化问题:ncåå ijJ (U ,V ) =u| x - v |2Minm(3)mijj =1 i=1其中v = v , v,L, v Ì Rs (1

13、 < c < n) 是聚类中心;m > 1是加权指数;m 的取12c值能够影响聚类的效果。通过求解如下的方程得到聚类中心和隶属度矩阵5:nå(u )m xijjj =1v =(1 £ i £ c)(4)inå(uj =1)mij| x - v |2cu = å(ji)1/(m-1) -1(1 £ i £ c,1 £ j £ n)(5)ij| x - x |2k =1jk上述求解过程是一个不断重复的过程,直到达到误差范围之内。根据此,编写了相关程序(附录 1),得到聚类中心矩阵,其种,利用

14、中每一行为聚类中心的坐标值。æ1.99380.0007 ö0.47800.10630.31154.4477ç÷Center = ç 0.55380.91300.0002 ÷ç1.61202.72280.0004 ÷èø为了形成较为鲜明的对比和更方便简洁的描述各地区发展状况,结合表 12可以先人为将省各地区农业发展分为高、中、低三类。根据中心坐标Center 的特点可以得到第一行聚类中心数据明显高于其它两行数据,因此将这类地区称为农业发展程度高地区;第二行聚类中心数据明显低于其它两行数据,因此将这

15、类地区称为农业发展程度低地区;同理,第三行聚类中心代表的是农业发展程度中地区。整理得到的结果见表 2。表 2 各地区农业发展程度聚类结果2.各地区农业发展主成分分析根据一定的指标,将省各地区农业发展情况进行排名,排名之后更加能够形成对比,更调节各地区,发展程度较高地区应该继续保持,较差地区则应借鉴发展程度较高地区的宝贵经验,制定出适合短,实现农业增长,提高人民群众生活水平2。发展的计划,扬长避2.1 各地区农业发展不同省地大物博,农种类丰富,谷物有水稻、小麦、玉米,油料有花生、油菜籽、芝麻,还有各种薯类、豆类以及各种果蔬。农业总体发展较好,省内各地区因气候,地区等不同造成一些发展上的差距。长江

16、地区以水稻为主,而皖南山区及大别山山区盛产茶叶和各种果蔬,北方的淮北地区土地广阔小麦大豆丰富。各地区总体发展也有差别,农业发展情况也受到一定影响。2.2 利用主成分分析对这些地区进行排名在多数实际问题中,往往涉及的数据是多元的统计数据,产生了各种多元统计分析。主成分分析的应用范围非常广泛,诸如投资组合风险管理、企业效益的综合评价、图像特征识别、灾害损失分析等。讲主成分分析与聚类分析、判别分析以及回归分析相结合,还可以解决实际问题。2.2.1 主成分分析的数学模型主成分分析是采取一个数学降维的,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的量,而且彼此之间互不3各地

17、区类别地区名称发展程度高发展程度中发展程度低亳州 宿州 阜阳 滁州 六安合肥 蚌埠 安庆淮北 淮南 马鞍山 芜湖 宣城 铜陵 池州 黄山相关。主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来的变量。通常数学上的处理就是将原来的变量做线性组合,作为新的变量。主成分分析数学模型如下。设p 为实际问题所涉及的 p 个随Tp ) ,其协方差矩阵为量(可称为 p 项指标),记X = (å= (s ij ) p = E( X - E( X )( X - E( X ) T(6)它是一个 p 阶的非负定矩阵。设变量p 经过线性变换后得到的新的综

18、合变量Y1 ,Y2 ,LYp , 即= l11x1 + l12 x2 +L+ l1 p xpì Y1ï Y= l x + l x +L+ lxï 221 122 22 p p(7)íïïîYpL= li1 X1 + li 2 X 2 +L+ l pp xpYi = li1 X1 + li 2 X 2 +L+ lip X p(i = 1,2,L, p) 则 其 中或的系数l1 = (li1 ,li 2 ,L,lip ) (i = 1,2,L, p) 为常数向量。满足以下条件:1)系数向量是向量,即l l T = l 2 + l

19、 2 +L + l 2 = 1 (i = 1,2,L, p)(8)i ii1i 2ip2) Yi 与Yj (i ¹j, i, j = 1,2,L, p) 互不相关,即iji å jcov(Y ,Y ) = ll= 0 (i ¹ j, i, j = 1,2,L, p)T(9)3) Y1,Y2 ,L,Yp 的方差递减,即var(Y1 ) ³ var(Y2 ) ³ L ³ var(Yp ) ³ 0(10)于是,称Y1 为第一主成分,Y2 为第二主成分,以此类推,有第 p 个主成分。这里lij 称主成分系数。2.2.2 用主成分分析

20、排名利用主成分分析的数学模型,结合表 1 的数据,然后利用数学进行编程(见附录 2),根据运行出来的结果,得到了特征值、特征向量及贡献率并将结果列表表示出,见表 3。利用得到的结果显示,最大特征值对应的不是正向量,所以不能用第一主成分得分进行排名,故构造新的实对称矩阵,使得可以用第一主成分进行排名。重新编写程序(见附录 3)根据运行结果把排名结4果整理出来,得到了表 4 并得到了第一主成分得分图见图 1。表 3 特征值、特征向量及贡献率特征值特征向量贡献率0.01300.06002.9270(0.7444,0.3300,0.5805)(-0.6623,0.4757,0.5788)(-0.085

21、1,-0.8153,0.5727)0.00430.02002.9270表 4 各地区主成分分析排名表86420-2-4-60246810121416图 1 第一主成分得分图可以从第一主成分得分图可以看出指标的属性有明显的区别,排名结果较为合理。3.判别各地区情况,计算误判率3.1 选取地区进行判别根据已经将省各地区分为三类和各地区的排名状况,取各类地区排名居中的地区,对其进行判别。农业发展程度高地区选取六安,农业发展程度中地区选取合肥,农业发展程度低地区选取芜湖。3.2判别一种常用的数据判别,它是把决策思想用于判别分析而得到的判别,用判别进行判别归类时,所带来的平均损失为最小,5名次地区名次地

22、区12345678宿州 亳州 六安 阜阳滁州蚌埠 合肥 安庆910111213141516淮北 宣城 芜湖 淮南 马鞍山 池州 黄山 铜陵判别又分两个总体和多个总体的情况。3.2.1讨论设 p 维总体G1 ,G2 ,L,Gk ,Gj 的概率密度为 f j (x), j = 1,2,L, k 。各总体出现的先验概率为p j = P(Gj ) ( j = 1,2,L, k)k满足å p j = 1。又由j =1公式,当出现样品 x 时,总体Gi 的后验概率pi fi (x)P(G | x) =ikå pi fi (x)j =1此时判定 x 来自后验概率最大的那个总体Gi ,这符

23、合判别准则:若推断原则,即P(G | x) = maxP(G | x) ( j = 1,2,L, k)ij1£ j£k则判样本 x Î Gi 。3.2.2 多个正态总体的判别1)当å 1= å 2= L = å k = å 时,设Gj N p (u j , å )( j = 1,2,L, k) 。线性判别函数为W (x) = aT x + bjjj, b = - 1 ui åT å -1u其中a= uTT-1+ ln p ( j = 1,2,L, k)jjjjj2基于误判损失相等的判别准则为x

24、Î G , 若W (x) = maxW (x)iij1£ j£k基于后验概率的判别准则为x Î G , 若d (x) = min22d (x)iii1£ j£k其中d 2 (x) = (x - u )T å -1 (x - u ) - 2 ln p ( j = 1,2,L, k) 。jjjj在实际问题中,由于 u1 , u2 ,Luk 及å 未知,可用各总体的训练样本均值(k) 及 S 估计。2)当å 1 , å 2 ,L, å k 不全相等时,设Gj N p (u j , å

25、; j )( j = 1,2,L, k) ,则6基于后验概率的判别准则为x Î G , 若d (x) = min22d (x)iij1£ j£kjå j- u ) + ln å其中d 2 (x) = (x - uT-1- 2 ln p 。)(xjjjj3.2.3 计算误判率设G1 , G2 为两个总体,m 和 y1 , y2 ,L, yn 是分别来自G1 , G2 的训练样本,以全体训练样本作为 m+n 个新样品,逐个带入已建立的判别准则中判别其归属,这个过程称为回判。回判结果中若属于G1 的样品被误判为属于G2 的个数为 N1 个,属于G2

26、的样品被误判为属于G1 的个数为 N 2 个,则误判率估计为:N1 + N 2p =m + n3.2.4 判别结果及误判率经过一系列编程(附录 4),在中运行得到了六安属于农业发展程度高地区,合肥属于农业发展程度中地区,芜湖属于农业发展程度低地区,符合 1 中的价值。计算出的误判率结果为 0.1538,具有一定的参考4.对各地区农业发展提出合适的建议从 2013 年统计年鉴中找到相关农业发展数据,对各地区农业发展做了多元统计分析,得到了这些地区的排名状况以及将地区按照农业发展分成三类。因此对各地区农业发展提出两点建议:一、因地制宜,发展本地区特色农。根据各地区聚类分析结果不难发现在同一类别地区

27、内的各地区主要农作物大致相同,因此遵循自然规律,发展本地区的特色农十分必要。地域广阔,长江地区雨水充沛,气候炎热,适合水稻种植,因此应该大力发展水稻种植,完善相关水利工程建设;在一些山区,则应该加大果蔬业的发展,总之根据各个地区的自身特点,扬长避短,发挥出最大价值。二、可持续发展,建设现代化农业。在用主成分分析对各地区排名时可以看出排名靠前地区如宿州、亳州及六安等地区本身则属于农业大市,拥有农业发展的众多自然优势,为了做好省农业发展的“领军”作用,必须依靠现代化技术使之保持增长。排名较后地区像铜陵、黄山与淮南等地区主要依靠矿产资7源,旅游资源的丰富来实现的增长,长久的去看,仍然需要重视农业的发

28、展,实现均衡增长,保障人民基本的生活所需。民以食为天,农业发展与人关,是一切其它发展的基础,只有先建设好农业才能全面建设小康。8参考文献:1,.数据分析M.:机械工业,2013.072,.数学实验与建模M.天津:天津大学,2009.063,.数学模型M.:高等教育,2011.014万福永,.数学实验M.:科学,2012.015,.数学建模M.合肥:科技大学,2008.02.6,周生路,.耕地资源变化及其可持续利用与保护对策J.土壤学报,2006,43(4):662672.7,.六种常用的条件系统聚类比较J.卫生统计,2004,21(6):3383408.多元统计分析M.:大学,2004.9.统

29、计M.:统计,200210,.基于多元判别分析和神经网络技术的公司财务困境预警J.系统工程,2005(11):5056.9附录 1:x=1961762 337560 3033780 378490809 1360802107701 4997022329413 4804471453174 2950782530864 575689498899 1134261574696 4071021584619 4338911190089 2574425784 7603769734 7872612155 5045233382 6621337676 1784150703 6384490662 6681016390

30、1291336993 1901303746 223153008 37657553 1142521959 296341686 74;6392589641609137499749947550712463017575715311823476829201465184 298017418773 47400center x=fcm(x,3);F,I=sort(x);I;L1=find(I(3,:)=1),L2=find(I(3,:)=2),L3=find(I(3,:)=3)10附录 2:R =1.00000.96800.92780.89690.96801.00000.98650.95610.92780.9

31、8651.00000.94780.89690.95610.94781.0000R=corrcoef(x); x1=x(:,2:4)./ones(16,1)*std(x(:,2:4); v,d=eig(corrcoef(x1);w=sum(d)/sum(sum(d);F=x1-ones(16,1)*mean(x1)*d(:,3); F1,I1=sort(F,'descend'); F2,I2=sort(I1)11附录 3:A= 1961762 337560 3033780 378490809 1360801190089 257210770123294131453174253086

32、4498899499702480447295078575689113426442578437697342612155523338213376767607875046621781574696 4071021584619 4338914150703 6384490662 668639258964160913749974994755071246301757571531182347682920101639013369931303746129190223153008 37657553 1142521959 296341686 74;1465184 298017418773 47400B=zscore(A

33、);%¶ÔÑù±¾Êý¾Ý±ê×¼»¯v,d=eig(cov(B);%¼ÆËãÐ-·½²î¾ØÕóµÄÌØÕ÷Öµ m,n=size(B);for i=1:nfor j=1:nR(i,j)=2*dot(B(:,i),B(:,j).

34、/sum(B(:,i).2)+sum(B(:,j).2);endend v2,d2=eig(R)q=sum(d2)/sum(sum(d2)F=B-ones(m,1)*mean(B)*d(:,4); F1,I1=sort(F,'descend'); F2,I2=sort(I1)plot(1:m,F,'*')12附录 4:a1=1453174 295078 2612155 5041465184 298017 2521959 296;a2=2107701 499702 4425784 7602329413 4804472530864 5756891574696 407

35、1023769734 7875233382 6624150703 638;a3=490809 136080 1190089 257498899639258913749974994755074187731134261246301531182347682920474001337676 1781016390 1291303746 2231530086575533416863711474;x=1961762 337560 3033780 378;1584619 433891 4490662 668;964160 175757190;n1=size(a1,1);n2=size(a2,1);n3=size

36、(a3,1); n=n1+n2+n3;k=3;p=4;f=p*(p+1)*(k-1)/2;d=(2*p2+3*p-1)*(1/(n1-1)+1/(n2-1)+1/(n3-1)-1/(n-k)/(6*(p+1)*(k-1); p1=n1/n;p2=n2/n;p3=n3/n;m1=mean(a1);m2=mean(a2);m3=mean(a3); s1=cov(a1);s2=cov(a2);s3=cov(a3);s=(n1-1)*s1+(n2-1)*s2+(n3-1)*s3)/(n-k);M=(n-k)*log(det(s)-(n1-1)*log(det(s1)+(n2-1)*log(det(s2

37、)+(n3-1)*log(det(s3); T=(1-d)*MC=chi2inv(0.95,f)if T< chi2inv(0.95,f)1336993disp('Èý×éÊý¾ÝÐ-·½²¾î ØÕóÏàµÈ');elsedisp('Èý×éÊý¾ÝÐ-·½²¾

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论