毕业论文聚类分析方法平均收入水平分类中的应用_第1页
毕业论文聚类分析方法平均收入水平分类中的应用_第2页
毕业论文聚类分析方法平均收入水平分类中的应用_第3页
毕业论文聚类分析方法平均收入水平分类中的应用_第4页
毕业论文聚类分析方法平均收入水平分类中的应用_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.z.----.可修编.学科110**科技大学本科学生毕业论文聚类分析方法在全国各省农民平均收入水平分类中的应用学号院(系)指导教师20-.z.摘要“社会主义新农村建设”是我国目前社会主义建设的一项重要内容,增加农民收入、提高农村地区人民生活水平也是我们国家的当务之急。研究农民平均收入水平可以有效的减弱城乡二元结构,缩小城乡差距,为努力建设城乡一体化体制建设提供科学的方法。利用科学的方法分析和指导“新农村”建设是我们科技人员面临的一项神圣使命。本文主要简述了中国农村的现状,并应用系统聚类分析方法和模糊聚类分析方法对全国农民平均收入水平进行分类,介绍了系统聚类和模糊聚类的原理和方法,并比较了两种方法在这个课题中的优势与劣势,系统聚类法运用简单,结果比较明了,但是运用不灵活,模糊聚类法运用灵活,可以控制分类的粗细程度,但操作复杂。通过本文聚类显示,将全国农民平均收入水平分为5类比较合适,其中**、**、**、**、**、**、**、**、**、**、**、**为一类,**、**、**、**为一类,**、**、**、**、**、**、**、**、**、**为一类,、**为一类,**、**、**为一类。通过聚类结果,了解了全国农民平均收入的状况,具体分析各省的经济状况,制定相应的策略,减小这种经济水平的不平衡,抑制两极分化程度。关键词农民平均收入系统聚类模糊聚类Abstract"Buildinganewsocialistcountryside"iscurrentlyoneofChina'ssocialistconstructionimportantcontent,increasetheirineandimprovethelivingstandardsofpeopleinruralareasisapriorityinourcountry.Studyontheaverageineleveloffarmerscaneffectivelyweakentheurban-ruraldualstructure,narrowingthegapbetweenurbanandruralareas,providescientificinstitution-buildingeffortstobuildurban-ruralintegrationmethod.Usescientificmethodstoanalyzeandguidethe"newcountryside"constructionisasacredmissionfacedbyourscienceandtechnology.ThispaperoutlinesthecurrentsituationinruralChina,andtheapplicationsystemclusteranalysisandfuzzyclusteringanalysisofthenationalfarmers'averageinelevelclassificationsystemintroducedclusteringandfuzzyclusteringtheoryandmethods,andparethetwowaysinthisissueofthestrengthsandweaknessesofthesystemclusterMethodissimple,relativelyclear,buttheuseisnotfle*ible,fle*ibleuseoffuzzyclusteringmethod,youcancontrolthethicknessofthedegreeofclassification,butplicatedtooperate.Throughthisclustershowsthatthenationalaverageineleveloffarmersintofivecategoriesisappropriate,whereJiang*i,Hubei,Hebei,Jilin,Heilongjiang,Henan,Hunan,InnerMongolia,Hainan,Anhui,Sichuan,Chongqing,asaclass,Liaoning,ShandongFujian,Guangdong,asaclass,Guang*i,Ning*ia,*injiang,Shan*i,Guizhou,Gansu,Yunnan,Qinghai,Tibet,Shaan*i,asaclass,Beijing,Shanghaiasaclass,Tianjin,Zhejiang,Jiangsu,asaclass.Byclusteringresults,tounderstandthesituationofthenationalfarmers'averageine,detailedanalysisoftheeconomicsituationintheprovinces,developappropriatestrategiestoreducethislevelofeconomicimbalances,suppresspolarizationdegree.KeywordsAverageineresidentsClusteranalysisFuzzyClustering-.z.-.可修编.目录TC"ChapterIILearnedReview"\l1TC"2.1Clusteranalysis"\l2TC"2.1.1ConceptualClusteringAnalysis"\l3TC"2.1.2Clusteranalysismethodsandprinciples"\l3TC"2.2Similaritymeasure"\l2TC"2.2.1Definethedistance"\l3TC"2.2.2monlyuseddistance"\l3TC"2.2.3Fromtheselectionprinciple"\l3TC"2.2.4Variablemeasureofsimilarity"\l3TC"2.3Systemclusteringmethod"\l2TC"2.3.1ThebasicideaofClusterAnalysis"\l3TC"2.3.2StepClusterAnalysis"\l3TC"ChapterIIIClusteringanalysisoftheaverageineoffarmers"\l1TC"3.1IndustryStatistics"\l2TC"3.2Clusteranalysisoftheaverageineleveloffarmers"\l2TC"3.3StepClusterAnalysis"\l2TC"3.4ClusteranalysisConclusion"\l2TC"ChapterIVConclusionsandOutlook"\l1TC"4.1Findings"\l2TC"4.2Outlook"\l2TCReferences\l1TCThanks\l1摘要IAbstractII第1章绪论11.1论文背景和意义11.2国内外研究状况21.3数据来源31.4本文的主要工作4第二章学术回顾52.1聚类分析52.1.1聚类分析概念5聚类分析方法原理52.2相似度的测量52.2.1.定义距离52.2.2.常用距离6距离选择原则7变量相似性的度量72.3系统聚类法92.3.1系统聚类的基本思想9系统聚类法步骤:132.4模糊聚类分析法13第三章农民平均收入的聚类算法分析213.1行业数据统计213.2系统聚类法在农民平均收入水平的应用223.2.1系统聚类法分析步骤233.2.2系统聚类法分析结果283.3模糊聚类法在农民平均收入水平的应用283.3.1模糊聚类发的分析步骤283.3.2模糊聚类法分析结果30结论32致谢34参考文献35ContentsTOC\f\h\z\uAbstractIAbstractIIChapter1Introduction11.1Paperbackgroundandsignificance11.2Domesticandforeignresearchstatus21.3Datasources31.4Themainworkofthisarticle4ChapterIILearnedReview52.1Clusteranalysis52.1.1ConceptualClusteringAnalysis52.1.2Clusteranalysismethodsandprinciples52.2Similaritymeasure52.2.1Definethedistance52.2.2monlyuseddistance62.2.3Fromtheselectionprinciple72.2.4Variablemeasureofsimilarity72.3Systemclusteringmethod92.3.1ThebasicideaofClusterAnalysis92.3.2StepClusterAnalysis132.4Fuzzyclusteringanalysis13ChapterIIIClusteringanalysisoftheaverageineoffarmers213.1IndustryStatistics213.2Applicationofsystemclusteringmethodinfarmers'averageinelevel-.z.-.可修编.223.2.1Hierarchicalclusteranalysisstep233.2.2Hierarchicalclusteranalysisresults283.3Applicationoffuzzyclusteringmethodinfarmers'averageinelevels283.3.1Fuzzyclusteringanalysisstephair283.3.2Fuzzyclusteringanalysisresults30Conclusions32Acknowledgements34References35TCAbstract\l1TCAbstract\l1TC"Chapter1Introduction"\l1TC"1.1Paperbackgroundandsignificance"\l2TC"1.2Domesticandforeignresearchstatus"\l2TC"1.3Datasources"\l2TC"1.4Themainworkofthisarticle"\l2.z.第1章绪论1.1论文背景和意义自改革开放以来,我国农村经济一直保持着平稳较快发展。但是,与此同时,也出现了一些新的问题。发展中的不平衡、不协调、不可持续问题逐渐突出,城乡发展差距和居民收入分配差距越来越明显,全国各个地区不平衡及居民收入分配差距较大是人民群众比较关心的问题。农民增收关乎社会的稳定和**久安。在农民收入高速增长时期,尽管农村同样存在一些矛盾和问题,但是比较容易得到弥合和解决。但在收入增加缓慢甚至下降时期,由于收入预期不好,收入差距拉大,往往容易导致一些地方干群关系紧*,社会治安下降等等事件的上升。因此农民增收不仅是个经济问题,而且是个社会政治问题,增加农民收入意义重大。目前理论界广泛采用的衡量收入差距的评价主要有基尼系数、泰尔指数、人口收入份额度量指标三大类。基尼系数由于给出了反映居民之间贫富差异程度的数量界线,可以较客观、直观地反映和监测居民之间的贫富差距,预报、预警和防止居民之间出现贫富两极分化。因此得到世界各国的广泛认同和普遍采用。但是没有显示出来在哪里存在分配不公。国际间,并无制定基尼系数的准则,一些问题如应否除税项,应否剔除公共援助受益者,应否剔除非本地居民,或应否加入政府的福利,并没有一致性,以至没有比较的准则。泰尔熵指数和基尼系数之间具有一定的互补性。基尼系数对中等收入水平的变化特别敏感。泰尔熵T指数对上层收入水平的变化很明显,而泰尔熵L和V指数对底层收入水平的变化敏感。聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。它的优势是把性质相近的个体归为一类,使得同一类的个体具有高度的同质性,而不同类的个体差异很大,应用聚类分析模型分析农民平均收入水平的优点是直观,结论形式简明,可以综合利用多个变量的信息对样本进行分类,分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,所得到的结果比传统分类方法更细致、全面、合理。通过聚类分析将全国31个省市的农民平均收入状况进行分类,分为发达地区,较发达地区和不发达地区。通过这次分类了解全国各地农民平均收入不平衡的现象,我们也应当针对各种问题认真的进行考虑,找出解决的办法,加强对较发达地区和不发达的确的经济建设,让发达地区带动不发达地区的发展,让我过各个地区的农民人均差距逐渐缩小,可以有效的减弱城乡二元结构,缩小城乡差距,为努力建设城乡一体化体制建设做出理论贡献,最终达到共同富裕。1.2国内外研究状况目前理论界广泛采用的衡量收入差距的评价主要有基尼系数、泰尔指数、人口收入份额度量指标三大类。基尼系数,是20世纪初意大利经济学家基尼,根据劳伦茨曲线所定义的判断收入分配公平程度的指标,是比例数值,在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。夏华在“泰尔指数及我国行业收入差距中的应用中”指出:泰尔指数是测量收入差距的一种指标,最大的优点是可以做群体分割分析,可将收入依据*种特性分成若干单位,从而得出造成收入差距大小的事哪一个单位。系统聚类分析法在各个行业有很大的用途。赵珊珊在《基于SPSS中系统聚类的CPI分析》中主要研究八大类商品的价格,以2013年1月全国31个省市自治区居民消费价格指数为研究对象,通过用SPSS软件进行实例操作,其使用的简便性和信息反馈的迅捷度名副其实,从分析结果中得到了每种聚类过程的状态凝聚表、形象的冰柱图和树形图,以及得到不同聚类方法的不同结果的比照情况。在数据挖掘中有很好的应用,在数据挖掘中,系统聚类分析法的主要应用有:一是做为其他算法的预处理步骤,如可作为特征和分类算法的预处理步骤,也可将聚类结果进一步关联分析。二是作为一个独立的工具来获得数据分布的情况集中对特定簇做进一步分析。如可用在市场细分、目标顾客定位、业绩评估等方面。三是完成孤立点挖掘。系统聚类法分析在客户细分中的应用:消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。常用的客户分类方法主要有三类:经验描述法,由决策者根据经验对客户进行类别划分;传统统计法,根据客户属性特征的简单统计来划分客户类别;非传统统计方法,即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程。聚类分析在证券投资方面的研究有很大的发掘空间。笔者将聚类分析方法引入到证券投资分析中,对股票的行业因素、公司因素、收益性、成长性等基本层面进行考察,建立了较为全面的综合评价指标体系,衡量样本股票的相似程度。然后通过聚类分析模型来确定投资*围和投资价值。结果表明该方法能帮助投资者准确地了解和把握股票的总体特性,预测股票的发展潜力,并通过类的总体价格水平来预测股票价格的变动趋势,选择有利的投资时机。模糊聚类在国内和国外应用也相当广泛。**交通大学姚晓红姚晓红在《模糊聚类方法在**农业经济类型划分中的应用》中,采用主成分分析的方法来确定权值,将模糊C均值聚类算法目标函数中的欧氏距离用加权欧氏距离来定义,从而可以体现各指标在**省农业经济发展中的影响比例,使模糊聚类结果更符合**省农业经济的实际情况.**大学*小峰在《基于模糊聚类算法的医学图像分割技术研究》中,提出了基于分层技术的图像分割技术,提高分割算法的运行效率.研究了医学图像分割的实时分割技术。针对FCM算法效率低下以及相关改进算法分割效果不理想的问题进行了改进。1.3数据来源2012年,农村居民人均纯收入达到7917元,比上年增加940元,名义增长13.5%,实际增长10.7%。农村居民人均纯收入实际增速比城镇居民人均可支配收入高1.1个百分点。城乡居民收入之比连续三年下降,由2009年的3.33∶1下降到3.10∶1。农民的家庭经营收入份额占农村居民人均纯收入的比重降至44.6%,下降1.6个百分点;工资性收入增至43.5%,提高1.1个百分点。2013年,农户的人均工资收入很可能首次超过家庭经营收入,而成为农户收入的主要来源。农民收入增幅保持在7.5%以上,并有可能跃上9000元台阶。国家统计局局长马建堂20日在国新办发布会上说,根据城乡一体化住户调查,2014年全国居民人均可支配收入20167元,比上年名义增长10.1%,扣除价格因素实际增长8.0%。按常住地分,城镇居民人均可支配收入28844元,比上年增长9.0%,扣除价格因素实际增长6.8%;农村居民人均可支配收入10489元,比上年增长11.2%,扣除价格因素实际增长9.2%。全国居民人均可支配收入中位数17570元,比上年名义增长12.4%。2014年全国居民收入基尼系数为0.469。数据显示,2014年城乡居民收入差距进一步缩小。全年农村居民人均可支配收入实际增速快于城镇居民人均可支配收入2.4个百分点,城乡居民人均可支配收入倍差2.75,比上年缩小0.06。2014年农村居民人均纯收入为9892元,扣除价格因素实际增长9.2%。全年农民工总量27395万人,比上年增加501万人,增长1.9%,其中,本地农民工10574万人,增长2.8%,外出农民工16821万人,增长1.3%。农民工月均收入水平2864元,比上年增长9.8%。1.4本文的主要工作介绍聚类分析的起源与定义,聚类分析的发展过程,聚类分析的优势,聚类分析的大致分析过程。本文主要应用系统聚类方法和模糊聚类方法结合全国31个省市农民平均收入的数据对全国31个省市进行分类,分类完成之后将对比两种方法的优缺点,并对全国各省市的农民收入水平做全面的分析。认真分析各省市的农业的发展状况和限制因素,仔细研究是什么因素导致这些地区农民经济发展的不平衡。最后总结个方面的分析,争取找出关键因素来减缓这种发展不平衡。第二章学术回顾2.1聚类分析聚类分析概念聚类分析(ClusterAnalysis),又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析法是根据研究对象特征对研究对象进行分类的一种多元统计分析技术方法,在区域分类中得到普遍运用。聚类分析通过辨别事物在*些特性上的相似或相异处,按照这些特性将事物划分成几个类别,在同一类中的事物具有高度的同构型,不同类间的事物具有高度的异质性。用聚类分析法对**农村居民收入区域划分,可以将农民收入水平及相关因素相近的区域划分为一类,有利于更好的分析不同类型区域间差异和反映同种类型区域内情况。聚类分析的内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。在本论文中主要介绍系统聚类法和-均值聚类法。2.2相似度的测量2.2.1.定义距离设有n个样品,p个指标,每个样品都有这p个指标的观察值,设第i个样品的第j个指标的观察值为,把n个样品看成是P维空间的n个点,则两个样品间亲疏程度可用P维空间的两点距离来度量。令QUOTE表示样品QUOTE与的距离。即,表示第i个样品与第j个样品之间的距离。一般满足一下四个条件时,就称为距离:,对一切i,j;,等价于i,j;,对一切i,j;,对一切i,j,k;2.2.2.常用距离(1)明氏距离Minkowski距离:;当q=1时,,称为绝对距离,称为绝对距离(Block);当q=2时,,称为欧氏距离(Eudidem);当q=时,,称为切比雪夫距离。(2)马氏距离设与是来自均值向量为,协方差为的总体G中的p维样品则两个样品见的马氏距离为马氏距离又称为广义欧几里得距离。显然,马氏距离与上述各种距离的主要不同时它考虑了观测变量之间的关联性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为加权数的加权欧几里得距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。距离选择原则一般来说,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此,我们在进行聚类分析时,应该注意距离公式的选择。通常选择距离公式应注意遵守以下的基本原则:1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧几里得距离就有非常明确的空间距离概念,马氏距离有消除量纲影响的作用。2)要综合考虑对样本观测数据的预处理和将要采用聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,通常就可采用欧几里得距离。3)要考虑研究对象的特点及计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同作出具体分析。实际中,聚类分析前不妨试探性的多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最适合的距离测度方法。变量相似性的度量多元数据中的变量表现形式为向量形式,在几何上可用多维空间中的一个有向线段表示。在对多元数据进行分析时,相对于数据的大小,我们更多地对变量的变化趋势或者方向感兴趣。因此,变量间的相似性,我们可以从他们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。(1)夹角余弦两变量与看成是p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然。(2)相关系数相关系数经常用来度量变量间的相似性。变量QUOTE与的相关系数定义为显然也有。无论是夹角余弦还是相关系数,他们的绝对值都小于1,作为变量近相似新的度量工具,我们把它统计为,当时,说明变量与完全相似;当趋近于1的时,说明与非常密切;当时,说明与完全不一样;当趋近于0的时,说明与差别很大;据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为或者用表示变量见的远近距离,小则与先聚成一类,这比较符合人们的一般思维习惯。2.3系统聚类法系统聚类的基本思想系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合成一类,其他的样品(或变量)仍各自聚为一类,共聚成n-1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;……以上步骤一直进行下去,最后将所有的样品(或变量)聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统地画成一*谱系图。所以有时系统聚类也称为谱系分析。在进行系统聚类之前,我们首先要定义类与类之间的距离,由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。他们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。用表示样品与之间的距离,表示类与之间的距离。(1)最短距离法——NearestNeighbor定义类与之间的距离为两类最近样品的距离,即为设类与合并成一个新类记为,则任一类与之间的距离为最短距离法进行聚类分析的步骤如下:定义样品之间的距离,计算样品的两两距离,得一距离阵记为,开始每个样品自成一类,显然这时=。找出距离最小元素记为,则将与合并成一个新类,记为,即=。按照上式计算新类与其他类之间的距离。重复(2)、(3)两步,知道所有元素并成一类为止。如果*一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。(2)最长距离法——FurthestNeighbor定义类与之间的距离为两类最远样品的距离,即为。最长距离法与最短距离法的并类步骤完全一样,也是将个各样品先自成一类,然后将距离最小的两类合并。类与合并成一个新类记为,则任一类与之间的距离为再找距离最小两类并类,直至所有的样品全归为一类为止。可以看出,最长距离法与最短距离法只有两点不同:一是类之间的距离定义不同;另一是计算新类与其他类的距离所用的公式不同。(3)中间距离法最短、最长距离定义表示都是极端情况,我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离,而是采用介于两者之间的距离,称为中间距离法。中间距离将类与合并成一个新类记为,则任一类与之间的距离为,设,如果采用最短距离法,则,如果采用最长距离法,则。(4)重心法重心法定义类间距离为两类重心(各类样品的均值)的距离。中心指标对类有很好的代表性,但利用各样本的信息不充分。设QUOTE与分别有样品和个,其重心分别为和,则与之间的距离定义为与之间的距离,这里我们用欧几里得距离来表示,即设将QUOTE与合并为,则内样品个数为,它的重心是,类的重心是,则依据上式它与新类的距离是(5)类平均法类平均法定义类间距离平方为这两类元素两两之间距离平方的平均数,即为(6)可变类平均法由于类平均法没有反映出和之间的距离的影响,因此将类平均法进一步推广,如果将和合并为类与新并类的距离公式为(7)离差平方和法该方法是Ward提出来的,所以又称为Ward法。该方法的基本思想来自于方差分析,如果分类正确,同类样品的离差平方和应该较小,类与类的离差平方和较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止。设将n个样品分为k类…,用表示中的第i个样本,表示中样本的个数,是的重心,则的样品离差平方和为如果与合并成新的类,类内离差平方和分别为它反应了各类内样品的分散程度,如果与两个类相距比较近,则合并后所增加的离差平方和应较小,否则,应较大。于是定义与之间的平方距离为其中,可以证明类间的距离公式为系统聚类法步骤:根据实际情况,确定类和类的个数根据实际情况,确定类和类的个数可选择适当的距离,计算距离把每个样品看成一类,制造n个类计算新类与当前各类距离画聚类图合并最近的两类为一新类判断不是仅有一个类仅有一个类2.4模糊聚类分析法模糊聚类分析法的一般步骤1、第一步:数据标准化(1)数据矩阵设论域为被分类对象,每个对象又有个指标表示其性状,即,于是,得到原始数据矩阵为。其中表示第个分类对象的第个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换:①平移·标准差变换其中,。经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。②平移·极差变换,显然有,而且也消除了量纲的影响。③对数变换取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法①夹角余弦法。②最大最小法。③算术平均最小法。④几何平均最小法。以上3种方法中要求,否则也要做适当变换。⑤数量积法,其中。⑥相关系数法,其中,。⑦指数相似系数法,其中,而。(2)距离法①直接距离法,其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有●海明距离。●欧几里得距离。●切比雪夫距离。②倒数距离法。其中为适当选取的参数,使得。③指数距离法。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法①传递闭包法根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。②布尔矩阵法[10]布尔矩阵法的理论依据是下面的定理:定理设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。布尔矩阵法的具体步骤如下:①求模糊相似矩阵的截矩阵.②若按定理判定为等价的,则由可得在水平上的分类,若判定为不等价,则在*一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,由可得水平上的分类(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:①取(最大值),对每个作相似类,且=,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现,,.此时只要将有公共元素的相似类合并,即可得水平上的等价分类。②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。④以此类推,直到合并到成为一类为止。、最佳阈值的确定在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择*个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:=1\*GB3①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类=2\*GB3②用F统计量确定最佳值。设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。样本指标12km设对应于值的分类数为,第类的样本数为,第类的样本记为:,第类的聚类中心为向量,其中为第个特征的平均值,即,,作统计量,其中为与间的距离,为第类中第个样本与其中心间的距离。称为统计量,它是遵从自由度为,的分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。第三章农民平均收入的聚类算法分析3.1行业数据统计本文的研究对象是2006~20113年全国各省农民平均收入水平的数据统计。我们大家都知道,我国是农业大国,农民的收入水平是我国经济发展的关键。抓好农民的发展,国家才能平稳的发展。本文的研究对象是中国31个省份的农民平均收入统计数据的聚类分析。本文是针对31个省份的平均收入水平,对31个省份进行分类,建立聚类分析模型。以下表格是全国31个省市在2006至2013年的农民水平收入水平:地区20062007200820092010201120122013全国总计35874140476151535919697779178896北京82759440106621166913262147361647618337天津622870107911868810075123211402615841河北38024293479551505958712080819102山西31813666409742444736560163577154内蒙古33423953465649385530664276118596辽宁409047735576595869088297938410523吉林36414191493352666237751085989621黑龙江35524132485652076211759186049634上海913910145114401248313978160541780419595江苏58136561735680049118108051220213598浙江7335826592581000711303130711455216106安徽29693556420245045285623271608098福建483554676196668074278779996711184江西34604045469750755789689278298781山东436849855641611969908342944610620河南32613852445448075524660475258475湖北34193997465650355832689878528867湖南33903904451249095622656774408372广东5080562464006907789093721054311669广西27703224369039804543523160086791海南32563791439047445275644674088343重庆28743509412644785277648073838332四川30023547412144625087612970017895贵州19852374279730053472414547535434云南22502634310333693952472254176141西藏24352788317635324139490457196578陕西22602645313634384105502857636503甘肃21342329272429803425390945075108青海23582684306133463863460853646196宁夏27603181368140484675541061806931新疆27373183350338834643544263947296本文主要运用的是系统聚类法,该方法的思想是先将31个省份划分为31类,选择距离公式,计算各个类之间的距离,将最近的类聚合为一类,重新计算各类之间的距离,知道所有的省份划分为一类。3.2系统聚类法在农民平均收入水平的应用从统计数据来看,可以看出历年来我国农民平均收入水平的发展状况。针对农民平均收入水平进行聚类分析。使用的软件是SPSS软件,首先录入数据:在SPSS软件中有数据视图和变量视图。数据视图是将实际数据录入SPSS中后显示的实际数据,而变量数据是对数据对象的属性变量的定义,包括名称、类型、宽带、小数、数值等相关信息。在统计数据中有9个变量,分别对应各个省份每年的平均收入水平。系统聚类法分析步骤本小节中,根据农民平均收入水平数据,使用SPSS软件中的系统聚类分析,将数据录入SPSS中,进行聚类分析,本文采用系统聚类法中的Ward法,度量标准区间选择平方Euclidean距离:通过系统聚类法分类之后,我们得到了Ward联结表、群集数和树状图,如图所示:系统聚类法分析结果通过树状图可以得到,可以分为5大类:第一类:**、**、**、**、**、**、**、**、**、**、**、**;这些省份经济相对来说比较不发达,科技也同其他省份来说也有一定的差距,其收入水平相差不大,因此归为一类。第二类:**、**、**、**;这些地区科技较先进,土壤相对来说也比较肥沃,相对经济水平趋于较高的相近水平,因此划分为一类。第三类:**、**、**、**、**、**、**、**、**、**;这些地区由于地理因素问题,大部分在西部或者边疆地区,经济水平发展相对落后,生产设备也相对缺乏,因此划分为一类。第四类:、**;这两个地区经济水平比较发达,科技也非常发达,生产设备充足,人们劳动能力和意识也相对较强,因此划分为一类。第五大类:**、**、**;这些地区相对于第四类经济水平来说稍微逊色一点,但也有相当高的经济水平,科技、文化素质都相对较高,高于前三类水平,因此划分为一类。3.3模糊聚类法在农民平均收入水平的应用模糊聚类法主要是应用matlab软件计算出等价矩阵,然后选择合适的值对等价矩阵进行切割,得到相应的分类结果。模糊聚类发的分析步骤第一步,模糊聚类主要应用matlab软件,首先构建数据矩阵(见附录1),表示各省农民平均收入水平指标。第二步,进行数据标准化得到标准矩阵(见附录2),进行数据标准化时使用的是平移极差变换,进行标准化的算法如下:[n,m]=size(*);forj=1:ma(j)=sum(*(:,j))/n;ends=zeros(1,m);forj=1:mfori=1:ns(j)=s(j)+(*(i,j)-a(j))^2;endsigma(j)=(s(j)/(n-1)).^0.5;endfori=1:nforj=1:m*(i,j)=(*(i,j)-a(j))/sigma(j);endend[n,m]=size(*);min*=min(*);%每列最小值ma**=ma*(*);%每列最大值fori=1:nforj=1:m%进行极差标准化Z(i,j)=(*(i,j)-min*(j))./(ma**(j)-min*(j));endend第三步,对得到的标准矩阵建立模糊相似矩阵(见附录3),进行模糊相似矩阵时使用的是最大最小法,其算法如下:[n,m]=size(Z);%求出行属和列数I=ones(n,n);fori=1:nforj=1:na=0;fork=1:m%运用绝对值指数法转化为相似矩阵Y(i,j)=abs(Z(i,k)-Z(j,k))+a;a=Y(i,j);endendendR=(e*p(-0.01*Y)*100)/100;第四步,应用传递闭包法得到等价矩阵(见附录4),得到等价矩阵的算法如下:n,m]=size(R);flag=0;C=R;whileflag==0%求矩阵的传递闭包fori=1:nforj=1:nb=0;fork=1:nB(i,j)=ma*(min(C(i,k),C(k,j)),b);b=B(i,j);endendendifB==Cflag=1;elseC=B;endend第五步,进行聚类,使用的是布尔矩阵法。选择适当的值,对整体进行分类。当等价矩阵元素大于等于值时值变为1,否则变为0,这样得到布尔矩阵,选择其行元素都相等的聚为一类,这样得到其相应的分类情况。模糊聚类法分析结果选择相应的值对等价矩阵进行切割,得到相应的分类结果如下:1.当=0.99758时,总共可以分成9类:第一类:第二类:**第三类:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四类:**、**;第五类:**;第六类:**;第七类:**;第八类:**、**、**、**;第九类:**,**;第十类:**;2.当=0.99468时,总共可以分为8类:第一类:;第二类:**;第三类:**、**、内蒙、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四类:**;第五类:**;第六类:**;第七类:**;第八类:**、**、**;3.当=0.99244,总共可以分为6类:第一类:;第二类:**;第三类:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四类:**;第五类:**;第六类:**;4.当=0.99065时,总共可以分为5类:第一类:;第二类:**;第三类:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;第四类:**;第五类:**、**;5.当=0.98769时,总共可以分为2类:第一类:,**;第二类:**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**、**;结论本文首先利用系统聚类法对全国各省份农民平均收入水平进行聚类分析,利用系统聚类法中的ward聚类法,采用欧式平方距离,得到聚类表、树状图。通过分析树状图可以得出分类结果如下:**、**、**、**、**、**、**、**、**、**为一类,这些地区属于不发达地区,由于地理因素决定,发展经济落后,属于不发达地区;**、**、**、**、**、**、**、**、**、**、**、**为一类,这些地区相对来说经济水平较落后,科技不怎么发达,发展相对缓慢,属于中等地区;**、**、**、**为一类,这些省份是我国的经济大省,经济发展水平相当快速,属于中上等地区;**、**、**为一类,这些地区经济水平相当发达,科技发展水平也在我国的前列,人民素质水平也相当高,属于较发达地区;、**两地是我国最发达的地区,无论经济、科技、文化都在我国的最前列,属于发达地区。接着使用模糊聚类方法对全国农民平均收入进行聚类,聚类结果显示,使用不同的值得到的聚类结果不同,可以选择的值来控制分类的个数。本文采用=0.99758时可分为9类,当=0.99468时,总共可以分为8类,当=0.99244,总共可以分为6类,当=0.99065时,总共可以分为5类,当=0.98769时,总共可以分为2类。使用迷糊聚类可以更明显的看出、**农民平均收入水平在全国中的优势,更能体现出全国农民平均收入的两极分化。通过使用系统聚类法和模糊聚类法对全国农民平均收入水平的聚类分析,可以得到两种方法的优势和劣势。使用系统聚类法可以简化一些运算,应用SPSS软件可以很容易得到聚类分布表和树状图,可以很详细的得到每一步的聚类过程,使聚类过程更加直白,对于一些对问题不是很了解的一些人来说比较适用,但系统聚类法不能很容易的控制分类的个数,而模糊聚类可以控制的值,来控制分类的个数,使用起来更加灵活,对于一些资深比较高的专家来说,对问题比较理解,能够找到适合的值进行分类,但模糊聚类法使用matlab软件,编写算法进行矩阵运算,要得出等价矩阵,运算量比较大,应用起来比较繁琐。通过本文的具体分析,充分认识到我国经济发展的不平衡,虽然部分省份所处的发展条件相似,但由于各省的地理条件、经济发展政策的影响,出现农村收入水平两极分化严重的现象,还受到当地农村经济发展政策的影响。随着经济、科技的不断发展,收入水平的差距将会逐步扩大,将会严重阻碍经济发展和影响社会稳定,。因此如何防止这种差距的进一步扩大将是我们如今研究的一个重要课题。致谢大学生活一晃而过,回首走过的岁月,心中倍感充实,当我写完这篇毕业论文的时候,有一种如释重负的感觉,感慨良多。诚挚的感谢我的论文指导老师*老师。他在忙碌的教学工作中挤出时间来审查、修改我的论文。还有教过我的所有老师们,你们严谨细致、一丝不苟的作风一直是我工作、学习中的榜样;他们循循善诱的教导和不拘一格的思路给予我无尽的启迪。感谢四年中陪伴在我身边的同学、朋友,感谢他们为我提出的有益的建议和意见,有了他们的支持、鼓励和帮助,我才能充实的度过了四年的学习生活。从论文选题到搜集资料,从写稿到反复修改,期间经历了喜悦、聒噪、痛苦和彷徨,在写作论文的过程中心情是如此复杂。如今,伴随着这篇毕业论文的最终成稿,复杂的心情烟消云散,自己甚至还有一点成就感。那种感觉就宛如在一场盛大的颁奖晚会上,我在晚会现场看着其他人一个接着一个上台领奖,自己却始终未能被念到名字,经过了很长很长的时间后,终于有位嘉宾高喊我的大名,这时我忘记了先前漫长的无聊的等待时间,欣喜万分地走向舞台,然后迫不及待地开始抒发自己的心情,发表自己的感想。这篇毕业论文的就是我的舞台,以下的言语便是有点成就感后在舞台上发表的发自肺腑的诚挚谢意与感想:我要感谢,非常感谢我的导师*华南老师。他为人随和热情,治学严谨细心。在闲聊中他总是能像知心朋友一样鼓励你,在论文的写作和措辞等方面他也总会以“专业标准”严格要求你,从选题、定题开始,一直到最后论文的反复修改、润色,*老师始终认真负责地给予我深刻而细致地指导,帮助我开拓研究思路,精心点拨、热忱鼓励。正是*老师的无私帮助与热忱鼓励,我的毕业论文才能够得以顺利完成,谢谢*老师。参考文献:1高惠璇.应用多元统计分析[M].:大学,2005.2郝黎仁.SPSS实用统计分析[M].:中国水利水电,2002.3管琳,李春兰,*博.基于主成分分析法的我国农村居民消费结构的综合评价[J],**农业科学,2011(14):23-264李双杰,顾六宝.用聚类分析法评估区域经济[J].中国农村观察,2001(3),52-56.5卢文岱.SPSSforwindows统计分析[M].:电子工业,2002.6何晓群.多元统计分析(第三版)[M].:中国人民大学2011:123-1497何晓群,*文卿.应用回归分析(第三版)[M].:中国人民大学2011:220-2268王雅鹏.有关农民收入问题的理论浅析2011.059唐功爽.基于SPSS的主成分分析与因子分析的辨析[M].**:**大学,2007:89-12110Landgrebe,J.Wurst,W.&Weizi,G.GenomeBiol.RESEARCH0019(2002)11*学工.模式识别[M]:清华大学,2010,122-12812耿明斋.我国农民收入水平变动趋势分析《经济学家》2002.513Li,C.M.&Klevecz,R.R.Proc.Natl.Acad.Sci..USA103,16254-16259(2006)14王国生.增加农民收入问题讨论综述[J];经济理论与经济管理;2005.15*建杰.农户收入结构变迁及其成因研究[D];**大学;2005年16朱振亚.我国农民保健因素和激励因素的分析研究[D];**大学;2007年17陈希孺.数理统计学简史[M];**:**教育,2002.18姚晓红.模糊聚类分析方法在**农业经济类型划分中的应用[J];**大学,2014.19姚晓红.基于模糊聚类算法的医学图像分割技术研究[J];**大学,2014.20施建中.基于模糊类的非线性系统辨识研究[J];华北电力大学,2012.21李伟地.基于GIS和模糊聚类分析法的农用地定级研究[J];**大学,2013.22杨发全.基于聚类与神经网络的无线通信联合调制识别新方法[D],**大学,2015.23赵珊珊.基于SPSS中系统聚类的CPI分析[D],**大学,2015年附录1:Z=0.87920.90980.91070.91430.93220.89150.90010.91320.59310.59890.59510.60070.63020.69260.71590.74090.25400.25130.23760.22830.24000.26440.26880.27570.16720.17110.15750.13300.12420.13930.13910.14120.18970.20780.22170.20600.19950.22500.23340.24080.29420.31270.32720.31340.33000.36130.36680.37380.23150.23820.25340.24060.26650.29650.30770.31150.21900.23070.24460.23430.26400.30320.30810.31241.00001.00001.00001.00001.00001.00001.00001.00000.53510.54150.53140.52870.53950.56780.57870.58600.74780.75950.74970.73950.74650.75440.75540.75920.13750.15700.16960.16040.17630.19130.19950.20640.39840.40150.39830.38940.37920.40100.41060.41940.20620.21950.22640.22050.22400.24560.24980.25350.33310.33980.33470.33030.33780.36500.37140.38050.17840.19490.19850.19230.19890.22190.22700.23240.20040.21340.22170.21620.22810.24610.25160.25950.19640.20150.20510.20300.20820.21890.22060.22530.43260.42160.42180.41320.42310.44980.45390.45290.10970.11450.11080.10520.10590.10890.11290.11620.17770.18710.19110.18560.17530.20890.21820.22330.12430.15100.16090.15760.17550.21170.21630.22250.14220.15580.16030.15600.15750.18280.18760.192400.00580.00840.00260.00450.01940.01850.02250.03700.03900.04350.04090.04990.06690.06840.07130.06290.05870.05190.05810.06770.08190.09110.10150.03840.04040.04730.04820.06440.09210.09450.09630.020800000000.05210.04540.03870.03850.04150.05760.06450.07510.10830.10900.10980.11240.11840.12360.12580.12580.10510.10930.08940.09500.11540.12620.14190.1510附录2:R=1 0.97938 0.94904 0.94103 0.94623 0.95531 0.95023 0.94995 0.99254 0.97198 0.98769 0.94315 0.96028 0.94738 0.9564 0.94547 0.9473 0.9458 0.96289 0.93832 0.94475 0.94335 0.94255 0.93082 0.93394 0.93541 0.93492 0.93025 0.93391 0.93878 0.938780.97938 1 0.96902 0.96084 0.96615 0.97543 0.97024 0.96995 0.97207 0.99244 0.99159 0.96301 0.9805 0.96733 0.97653 0.96538 0.96725 0.96572 0.98316 0.95807 0.96464 0.96322 0.9624 0.95042 0.95361 0.9551 0.95461 0.94984 0.95357 0.95854 0.958540.94904 0.96902 1 0.99156 0.99704 0.99343 0.99803 0.99793 0.94195 0.9764 0.96087 0.9938 0.98829 0.99826 0.9923 0.99625 0.99817 0.99659 0.98562 0.9887 0.99548 0.99401 0.99317 0.9808 0.9841 0.98564 0.98513 0.98021 0.98406 0.98919 0.989190.94103 0.96084 0.99156 1 0.9945 0.98505 0.99032 0.99061 0.93401 0.96816 0.95276 0.99688 0.97995 0.99329 0.98393 0.9953 0.99338 0.99495 0.9773 0.99712 0.99606 0.99628 0.99758 0.98915 0.99247 0.99403 0.99351 0.98855 0.99244 0.99761 0.997360.94623 0.96615 0.99704 0.9945 1 0.99049 0.99579 0.99608 0.93917 0.97351 0.95803 0.99675 0.98537 0.99878 0.98937 0.9992 0.99887 0.99924 0.9827 0.99164 0.99843 0.99696 0.99611 0.98371 0.98702 0.98856 0.98805 0.98311 0.98698 0.99212 0.992130.95531 0.97543 0.99343 0.98505 0.99049 1 0.99468 0.99439 0.94818 0.98286 0.96722 0.98727 0.99483 0.9917 0.99887 0.9897 0.99161 0.99005 0.99214 0.98221 0.98894 0.98748 0.98664 0.97436 0.97763 0.97916 0.97865 0.97376 0.97759 0.98269 0.982690.95023 0.97024 0.99803 0.99032 0.99579 0.99468 1 0.99954 0.94314 0.97763 0.96208 0.99255 0.98954 0.997 0.99355 0.995 0.99692 0.99534 0.98686 0.98746 0.99423 0.99277 0.99192 0.97957 0.98286 0.9844 0.98389 0.97897 0.98282 0.98795 0.987950.94995 0.96995 0.99793 0.99061 0.99608 0.99439 0.99954 1 0.94286 0.97734 0.96179 0.99284 0.98924 0.9973 0.99326 0.99529 0.99721 0.99564 0.98657 0.98775 0.99452 0.99306 0.99221 0.97986 0.98315 0.98469 0.98418 0.97926 0.98311 0.98824 0.988240.99254 0.97207 0.94195 0.93401 0.93917 0.94818 0.94314 0.94286 1 0.96472 0.98032 0.93611 0.95311 0.94031 0.94926 0.93842 0.94023 0.93875 0.9557 0.93131 0.9377 0.93632 0.93552 0.92387 0.92697 0.92843 0.92794 0.92331 0.92694 0.93177 0.931770.97198 0.99244 0.9764 0.96816 0.97351 0.98286 0.97763 0.97734 0.96472 1 0.9841 0.97034 0.98796 0.97469 0.98397 0.97273 0.97461 0.97307 0.99065 0.96537 0.97198 0.97055 0.96973 0.95765 0.96087 0.96238 0.96188 0.95707 0.96083 0.96584 0.965840.98769 0.99159 0.96087 0.95276 0.95803 0.96722 0.96208 0.96179 0.98032 0.9841 1 0.95491 0.97225 0.95919 0.96832 0.95726 0.95911 0.9576 0.97489 0.95001 0.95653 0.95512 0.9543 0.94242 0.94559 0.94707 0.94658 0.94185 0.94555 0.95048 0.950480.94315 0.96301 0.9938 0.99688 0.99675 0.98727 0.99255 0.99284 0.93611 0.97034 0.95491 1 0.98216 0.99553 0.98615 0.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论