版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专业:管理科学与工程 研究生: 指导教师: 农业是国民经济的基础,粮食是基础的基础。我国是一个人口众多的发展本文在对粮食生产系统进行系统分析的基础上,一方面,从粮食产量的时不确定”问题的特点,将嵌入知识的GM(1,1)模型应用于粮食的短期预测,预测本文提出的嵌入知识的等维新息GM(1,1)预测模型和支持向量机回归预测模关键词:粮食产量预测,GM(1,1)模型,支持向量机ISubject:ResearchontheForecastModelofChinaGrainProduction Specialty:ManagementScienceandEngineering Name:LiXiaodong Supervisor:ProfessorXiShengyang ProfessorWangBoliangAgricultureisthefoundationofthenationaleconomy,whilegrainisthebasisforthefoundation.Chinaisadevelopingcountrywithlargepopulation,sothefoodissueisthetoppriorityofthenationaleconomywithimportantstrategicposition.Theanalysisofthechangeruleandthetendencyforecastofthegrainproductionnotonlyprovidesdecisionmakingfortheformulationofthegrainpolicyandtheimplementationofgrainproductionsystemcontrolbutalsohastheimportantpracticalsignificancetofoodsecurity.Onthebasisofanalysisofthegrainproductionsystem,ontheonehand,studyingthechangesrulefromthetime-seriesofthegrainyield,combinedwiththecharacteristicsofgreysystemtheorytoanalyzesmallsampleandundeterminedproblems,establishestheGM(1,1)modelembeddedknowledgeforgrainproductionforecasting,resultsshowthatthismodelnotonlyhasgoodfittingaccuracy,butalsocandescribethefuturedevelopmenttrendofgrainproductionwithbetterextrapolationpredictableperformance.ontheotherhand,researchingthechangerulefromtherelationshipbetweenthegrainyieldanditsinfluencingfactors,combinedtheadvantagesofsupportvectormachinetosolvelearningproblemssuchassmallsample,nonlinear,highdimensionandlocalminimum,proposedthesupportvectormachinemodelforgrainproductionforecasting.Empiricalresultsshowthatthemodelcanreflectwellthecomplexnonlinearrelationshipbetweengrainyieldanditsprincipalfactorwithhighaccuracyandprecisionfitting.ThegrainproductionforecastingbasedonthedynamicGM(1,1)modelembeddedknowledgeandthesupportvectormachineregressionseparatelyfromthesuperficialandinternalstructurecharacteristicsofthegrainproductionsystemstudyoperationmechanism,whichcanreflectwellthesystemchangeessenceandcanbeusedasaneffectivetoolforforecasting,andoffernewwayofgrainproductionforecasting.KEYWORDS:Grainproductionprediction,GM(1,1)model,SupportvectorDissertationType:Applied11第1目前我国农业已经进入一个新的发展阶段,粮食生产的条件和能力发生了研究背景与研究意粮食生产伴随着人类社会发展进程,提供给人类基本的生活资料,是人类同时粮食也是一种重要的战略资源,粮食安全不仅关系到我国国民经济的13亿人口的大国,也是世界上最大的粮食消费大国,我国国情决定了解决这个我国的历代政治家和军事家都十分重视粮食问题,并把粮食作为一种重要的战略物质,例如,曹操灭袁绍的“官渡之战”,采用“避实击虚”的军事战新中国成立后,我国较长时期处于粮食短缺状态,经过改革开放20多年的努力,粮食生产能力有很大的提高,实现了粮食由长期短缺到总量平衡。20世905t19991始全国粮食产量连续数年下降,到2003年粮食产量只有43070万t,而随着经的粮食安全问题一直是中国政府和社会高度重视的战略问题,2005年中共中央国务院颁发关于提高农业生产能力的意见指出,“加强农业基础、繁荣农村经增收的必要条件”。“十七大”又明确指出,“加大支农惠农力度,严格保护目前我国农业已经进入一个新的发展阶段,粮食生产面临着新的矛盾和问粮食产量预测的文献综国内外学者对粮食产量预测进行了积极的研究,产生了许多新的粮食产量目前国外流行的粮食产量方法主要有遥感技术预测模型、统计动力学生长211遥感技术预测的基本思想是根据各种作物具有不同的光谱特性,即对不同量预测,但是遥感预测受分辨率、时相等因素的影响,对地形复杂、作物种类统计动力学生长模拟预测的基本思想是在植物生理学原理基础上,利用模拟方法研究各种环境因子与作物产量的关系,如温度、光照、等对作物光合作气象产量预测的基本思想是将粮食的实际产量分离成由气象条件决定的气遥感技术预测利用作物的物理特征和现代信息技术的结合,是一种比较先与产量的关系,气象产量预测根据气象因子利用统计思想研究作物产量变化趋目前国内也有学者从事气象产量方面的预测模型研究,文献[3]建立了中国气象产量预测模型,文献[4]将粮食单产分解为时间趋势产量和气象波动产量,通过分析出粮食单产中气象产量分量的时间序列变化规律,综合运用马尔可夫理论和概率密度分布函数,建立相对气象产量预测模型。另外国内学者也致力于粮食产量预测新方法的研究,比较代表性的主要有系统综合因素预测法、仿真技术预测法,灰色预测法、神经网络预测法、混沌预测法等。中国科学院陈锡康教授首次在国际上提出投入占用产出技术,并提出以投入占用产出技术为核心的系统综合因素预测法,该预测方法综合考虑气象条件、社会经济条件和科技水平等因素的影响,并结合边际递减的非线性预测方程和最小绝对和方法关键技术,模型具有较高的预测精度,在技术上和实际应用上已经达到国际领先水平[2]。文献[5]采用数字仿真技术预测未来年份粮食产量的风险概率,即根据风险分析理论,在对任意粮食生产单元的多年粮食单产时间序列的基3础上,将粮食产量的不确定性信息采用数字仿真技术叠加到趋势产量预测模型中,提取出未来年份该生产单元粮食产量不同结果出现概率,该模型不仅可以预测未来年份粮食产量的可能结果,而且给出不同预期产量的概率。文献[6]在对粮食生产系统进行了定性分析的基础上,运用计量经济模型与规划模型,建立了粮食产量的短期预测模型,并借助系统仿真技术实现该系统。文献[7]根据灰色系统理论,首先对定西县的粮食产量时间序列进行平滑性处理,消除粮食产量波动性因素影响,然后对新数据序列建立GM(1,1)预测模型,预测结果仅能得出未来年份粮食产量的平均值。吴玉明等利用神经网络高度的非线性影射及其自学习能力,建立了中国粮食产量神经网络预测模型[8]。苏博等分别建立了GM(1,N)模型和神经网络模型并进行比较研究,即首先根据灰色系统理论,分析影响系统GM(1,N)模型,然后根据神经网络理论建立起粮食产量的神经网络回归模型,预测结果表明神经网络模型优于GM(1,N)模型[9]。姜会飞等根据混沌理论的原理和方法,建立粮食产量的混沌预测模型,该模型具有准确率高、时效长、成本低等优点[10]。国内外对粮食产量的预测研究各有侧重,国外侧重于先进的遥感技术、统本文的研究思路与研究内本文在对粮食生产统计资料的整理分析基础上,主要运用时间序列分析与第一章是绪论部分。首先阐述了论文的研究背景与研究意义,然后介绍目前国内外针对粮食产量预测的研究进展并对其简要分析,最后给出本文的研究411第二章是中国粮食生产系统分析。本章主要运用系统分析原理分析粮食生产系统展开分析,探讨粮食生产系统的特征及其影响因素,为粮食产量定量预测方法的选择提供科学的理论依据。第三章是基于灰色系统理论的中国粮食产量预测研究。在对粮食生产系统的定性分析基础上,本章根据时间序列分析技术,运用灰色系统理论从粮食产量的时间序列角度研究粮食产量的变化趋势。并针对传统灰色预测模型的局限性,提出嵌入知识的等维新息灰色粮食产量预测模型。第四章是基于统计学习理论的中国粮食产量预测研究。在对粮食生产系统的定性分析基础上,本章根据回归分析技术,运用统计学习理论从粮食产量与其影响因子的相互作用关系揭示粮食产量的变化规律,建立了粮食产量与其影响因素的支持向量机回归模型,并根据灰色关联分析理论,解决了输入因子难于确定的问题。第五章为全篇论文的结论。本章主要论述全文的主要研究结果,并对两种理论的预测方法进行分析比较,其次阐明本文的创新之处,最后给出论文需要进一步研究的问题。本文的研究方本文主要采用以下研究方法:1.系统分析技术。在粮食产量系统分析过程中,综合运用农学、经济学、生物学、生态环境学、公共政策学等学科的原理对粮食生产系统进行分析,着重研究粮食产量与各影响因素的变动关系;2.时间序列分析技术与回归分析分析技术。时间序列预测和回归预测都是系统分析的重要预测技术,时序分析侧重于从系统的表面特征挖掘系统的演化信息,从而达到由表及里认识系统的目的,而回归分析侧重于从系统因素间的因果关系与结构关系寻求系统运行规律,进而把握系统因素间的相互作用机制;3.不确定性理论分析技术。本文结合粮食生产系统高度复杂不确定性特点,借助于灰色系统理论与统计学习理论,建立粮食生产系统的不确定分析模型研究系统的变化规律。522第2农业是人们利用太阳能、依靠生物生长发育来获取产品的社会物质生产部粮食生产系统的内粮食生产系统是一个受多种因素制约的复杂系统,在一定时空角度形成和1985-2005年间统计资料进行分析,可以发粮食生产系统的结构分系统结构是系统构成要素在时空上的排列组合方式及其相互作用方式,用生产系统的结构即生产力要素的物质要素、强化因素、间接因素和价值因素[11]。其中物质要素包括劳动者、劳动资料和劳动对象,物质要素构成粮食生产6构成各要素在空间维度分布的联系状态,时间组合方式是指生产系统构成各要素在时间维度运动的先后顺序[12-13]。粮食生产系统的结构决定系统的功能,也就决定了粮食的生产能力,结构的有序性和协调性有利于粮食综合生产能力的提高。粮食生产系统的影响因素分粮食生产系统受科技进步、自然环境、经济环境、政治环境、粮食生产结202050年代的农业经济问题研究中,促使美国农业生产率迅速提高和农业产量迅速增加的重要原因,已经不是土地、人口数量或资本投入的提高,而是人的能力和技术水平的提高,从而提出了人力资本概念[14]。新经济增长理论在研究经济增长时,把技术进步当作一个内生的要素,把知识和人力资本积累看作是经济持续增长的源泉,通过知识积累和人力资本积累的外部效应,全社会总体知识水平的提高所带来的生产要素和规模收益递增。文献[15]研究了我国粮食生产与化肥投入之间的动态关系,结论得出主要依靠化肥为代表的生产要素的边际产量下降,化肥施用量与我国粮食产量的关联度呈波浪形变化,粮食产量并没有随着化肥的大量投入而成正相关,出现报酬递减趋势。由于劳动力、资本、土地等其它生产要素受边际收益递减规律制约,因此依靠科技进步是提高我国粮食生产能力关键途径,它不仅可以突破生产要素资源的约束,而且优化生产要素组合方式,形成新的生产要素资源结构和配置体制,提高粮食生产的投入产出,实现粮食生产能力的可持续发展。尽管中1974-1984770万公顷的情况下,依靠科技进步,粮食单产实现每公顷2527千克上升到3607千克,粮食总产量并没有降低,反而得中国耕地面积的减少是一个不可扭转的长期趋势,提高粮食单产是提高粮食综合生产能力的关键。依科技进步是提高粮食单产的根本途径,以拖拉机为代表的农业机械化技术,提高了劳动生产率,降低了农业生产成本;以全球定位系统、地理信息系统和遥感技术为代表的现代信息技术应用于农业资源、环境和灾害的监测和预报,带来了粮食生产方式的根本变革,大大提高了资源利用率,其中以基因工程、细胞工程为代表的生物技术是科技进步的核心,对提高粮食单产具有决定性的作用。尽管其它科学技术也可以促进粮食产量提高,但是效果并没722部分,使粮食品质向着优质化、营养化的方向发展,这也是其它技术不能相比粮食生产的生物学特性决定了粮食生产系统与自然环境之间具有非常复杂和生产类型,例如,我国南方种植水稻,北方主要种植小麦、玉米、大豆和薯水资源、土地资源是最基本的自然资源,也是农业生产的基本生产要素。300是2.8万亿立方米,人均占有2200立方米,不足世界人均水平的1/4109位。耕地每公顷平均占有水量28500立方米,也仅为世界平均水平的1/5,水资源占全国总量的81%,人口占全国总数的54.7%,耕地面积只占全国的35.9%,北方四区水资源总量只占全国总量的14.4%,耕地面积却占全国的58.3%,从时间上看,我国水资源主要来自大气降水,由于受季风气候影响,降水主要集中在夏秋季,春冬两季降水少[16,17]。在我国干旱地区,水资源成为制约粮食生产的主要因素,我国每年因粮食缺水造成的粮食的减产达25亿千克[18]。我国的水资源浪费严重,农业用水效率很低,加强水资源的保护和利用,耕地是极为宝贵、难以代替的稀缺资源,是粮食生产的基础和粮食安全的8越大。文献[15]对我国的粮食生产系统进行了灰色动态关联分析,研究结果表少。根据统计资料,1998-2003年间我国耕地面积大幅度递减,粮食产量连年递8160t200343069.5t,气候环境直接影响粮食作物的生长,气候一方面为粮食作物生长提供赖以气候环境对粮食产量负面影响程度可以分为两类,一类是灾害性的,例如1999-2003250亿千克左右,因此提高922粮食生产能力是一个动态变化的过程,粮食生产能力的提高应该是粮食的粮食生产必须遵循生态规律,过去由于粮食生产没有正确遵循生态规律,农村地区生态环境恶化和资源退化问题越来越严重,大量施用化肥造成土壤板降[19]。针对农业生态环境的破坏现象,许多科学家提出了“生态农业”概念,今后我国的粮食生产必须从长远利益和整体利益出发,加强对自然环境的由于农业的外部性、公共产品性、弱质性和不稳定性,依靠市场机制并不能有效解决这些问题,需要政府对农业资源在宏观层次上进行调节、引导和控制,以促进农业经济总量平衡,结构优化,要素合理流动,保证农业的持续、稳定、协调发展[20,21]。政府对农业进行宏观调控的一般依据是国家的农业政策,由于农业的特殊性地位,许多国家和政府都非常重视农业政策的制订和实施,邓198210月提出,农业的发展一靠政策,二靠科学的著名论断,把农业政策作为发展农业的重要组成部分。农业政策给予粮食生产以宏观战略管理和指农业政策也是提高粮食生产者积极性和创造性的有力工具,而农民是粮食国从1978197830520t1984年的40700万t,1985年国家采取抑制粮食生产政策,导致粮食播种面积比减少600019842820t,这也说明了国家的粮食政策与粮食产量的变动存在一定的关系。2090年代后期农业基础设施投资的大量增从经济地位上,农业是国民经济的基础,粮食是基础的基础,搞好粮食生农民是粮食生产的主体,粮食我国农民收入的主要来源,搞好粮食生产有利于提高农民收入水平,有利于国民经济的协调发展。从经济组成上,粮食生产系统是社会经济系统的一个组成部分,它必然和经济系统的其它要素进行联系,相互影响、相互制约[12-13]。例如,粮食为粮食加工和食品工业提供生产原料,工业也为粮食生产提供必须的化肥、农药等生产资料和生产工具。从经济性质上,我国农业经济性质发生了很大的变化,已经由过去的自然经济发展成为一个市场经济,必然市场经济运行内在的价格机制、供求机制和竞争机制的影响和制约。例如,自1997年以来,受粮食市场供求关系变化的影响,粮食价格一路下跌,降低粮食生产者收入水平,影响粮食生产积极性,最终造成粮食产量下降。WO后,中国的粮食生产系统要受到国内环境和国际环境的双重影响,这不仅给粮食生产的发展带来了机遇,也带来了很大的挑战,必须在保证国家粮食安全的前提下,完善粮食市场流通体系,充分发挥市场机制在粮食生产系统的作用。22农业市场经济是我国农业经济发展基本方向,也是在经济全球化经济条件下必然选择。完备、高效和有序运行的市场体系是粮食生产系统发展的驱动因素,有利于粮食生产系统内部资源合理利用和优化配置,有利于粮食生产系统整体经济效益的提高,有利于加快我国的农业现代化建设[18]。而我国的农业市场发育程度低,发展和完善农业市场经济是一项重要任务,今后要重点培育和发展农村土地产权市场、劳动力市场、金融市场、技术市场和信息市场等在内的农业要素体系,建立和健全市场运行的制度和规则,提高市场环境对粮食生产系统的支持力。由于作物的单产不同,所以粮食生产结构中不同作物种植面积会影响粮食总产量的变化。我国粮食作物生产品种结构主要包括稻谷、小麦、玉米、大豆和薯类[12-13],稻谷是我国第一主要粮食作物,也是我国居民消费的主要口粮,其播种面积占总播种面积的28%,总产量占整个粮食产量的39%,小麦是我国第二主要粮食作物,也是我国居民消费的主要口粮,其播种面积占总播种面积的25%22%,玉米在粮食生产中比重上升很快,已经成为第三大粮食作物,其播种面积占总播种面积的23%,总产量占整个粮食产量的25%,它不仅可以作为口粮而且是优质的饲料用粮和多种工业原料。大豆是我国传统的重要作物,在历史上,由于谷物供给不足,在不少地方也兼作口粮、饲料和炸油。薯类是指甘薯与马铃薯,在粮食供应紧张,大力发展高产作物时,薯类的面积和产量均有较快上升。近几年趋于下降。薯类作为口粮的重要性已下降,但仍是重要的饲料、工业原料。我国稻谷、玉米的平均单产略高于粮食作物平均单产,小麦单产略低于粮食作物的平均单产。粮食生产品种结构由经济发展水平决定,在经济发展的不同阶段,居民食物消费结构不同。我国居民的食物消费趋势由温饱型向质量型转变,改革开放前,由于经济发展水平不高,粮食产量低,居民的食物消费层次主要是温饱型,改革开放后,随着经济的发展,人民收入水平的提高,粮食产量的增加,居民消费层次趋向于质量型,食物消费的主要目的是提高生活水平,讲究食物的营养性、健康性[22。最近几年居民的食物消费结构变化趋势是,口粮消费量降低,蔬菜、水果、肉类消费量在提高。因此,随着经济发展和人民消费水平的提高,粮食的生产结构一般会发生下述变化:第一,口粮粮食品种在粮食生产结构中的比例将下降,用饲料用粮和工业用粮的粮食品种比例将上升。第二,粮食生产品种将向着优质化、营养化和科学化的方向发展。2.4本章小本章首先分析了粮食系统的内涵及其内部结构特征,然后对粮食生产系统另外通过以上分析也可得出今后我国粮食生产发展模式:在政府宏观调控33第3控制论用颜色的深浅来形容信息的明确程度,根据控制论的观点,灰色系统是界于黑色系统和白色系统的一种系统,黑色系统是指系统内部的信息对外界来说是一无所知的,只有通过它同外界的联系加以观测研究;白色系统是系统内部的信息是完全充分的[23-24]。灰色系统内部的信息一部分是可知的,另一部分是不可知的,系统的因素具有不确定性的关系。粮食生产系统是一个受多种因素制约的复杂系统,同时也是一个开放、动态的发展的系统,并不停地与外界环境进行物质、能量和信息的交换,在现有的认识水平条件下,系统内部许多影响因素不明确,内部作用机理难以识别,因此,粮食生产系统具有“既含有已知信息、又含有未知信息”的不确定灰色系统属性,因此,可以将其看作是灰色系统,并将粮食产量看作此灰系统的行为特征量来处理,运用灰色理论的方法建立粮食产GM(1,1)预测模型,研究粮食系统的内部变化规律,并对其进行科学预测。灰色系统理论认为,尽管粮食系统的表象朦胧、复杂、数据杂乱无章,但是系统总是关联有序、有整体功能的,表征系统行为特征的数据的里乱只不过是多方因素对系统干扰的结果,其后面必然隐含着某种联系。GM(1,1)预测模型撇开了系统要素的因果关系和结构关系以及系统与环境的相互关系的影响,通过粮食产量的原始数据的灰色生成,使里乱的原始数据中蕴涵的规律充分暴露出来,从而挖掘出系统的演化信息,实现对系统运行行为和演化规律的正确描述。灰色系统理论介现代科学技术在高度分化的基础上高度综合的大趋势,导致了具有方法意义的系统科学学科群的出现,系统科学揭示了事物之间更为深刻、更为本质的内在联系,大大促进了科学技术的整体化进程;许多学科内难以解决的复杂问题随着系统科学的出现而解决[25]。在对系统科学与系统工程的研究中,由于内外扰动的存在和认识水平的局限性,人们获得的信息往往带有某种不确定性。随着科学的发展及系统理论研究的深入,人们逐渐认识到系统中存在着各种不确定性因素,对含有不确定性因素的系统的研究,用过去的系统理论和方法已经不能适应,于是,人们把系统分为确定性系统与不确定系统,其中确定性系统是指系统的各因素可以用确定的量来描述的系统,而不确定性系统是指系统的各因素中含有不能用确定的量进行描述的系统[26。随着不确定性系统研究的日益深入,各种系统不确定性系统理论如随机系统理论、模糊系统、粗糙集理论、灰色系统理论等应运而生。其中灰色系统理论,是由我国学者邓聚龙教授在二十世纪八十年代初期创立的一门新兴学科理等抽象系统,结合运用数学方法而形成的一套解决信息不完全系统的理论和方和关注。经过20多年的发展,灰色系统理论已经具有完整的理论体系与科学的灰色序列算将原始数据序列通过某种运算生成新的数据序列,称为灰色序列生成。灰成新信息并揭示系统的动态变化规律[25]X(x(1x(2),x(n))为系统行为特DXD作用后的序列记为XD(x(1)d,x(2)d,...,x(n)d称为D序列算子,称XD为一阶算子作用序列,序列算子的作用可以进行多次,相应的,若D1,D2皆为序列算子,我们称D1D2为二阶算子。灰色序列算子累加生成与累减生成灰色序列生成的核心,在灰色系统占有极其重要的地33减生成的逆运算,对累加生成起着还原作用。累加生成算子(AccumulationGenerationOperatorAGO)和累减生成算子(InverseAccumulationGenerationOperator,IAGO)是一对互逆的序列算子。1.累加生成算子X(0)x(01x(02),x(0ND为序列算子X(0D(x(01)d,x(02)d,,x(0N)d),其kx(0)(k)dx(0)(i),k1,2,,
(3-DX(0)的一次累加生成算子。并DrX(0)r阶累加生成算子,X(0DrX(r)(x(r(1)dx(r2)d,x(rn)d,其中kkx(r)(k)x(r1)(i),k1,2,,
(3-2X(0)x(01x(02),x(0ND为序列算子X(0D(x(0(1)d,x(02)d,,x(0N)d),其x(0)(k)dx(0)(k)x(0)(k1),k2,,
(3-DX(0的一次累减生成算子。并称DrX(0r阶累减生成算子,X(0DrrX(0)(rx(02),rx(03),,rx(0n,其中(r)x(0)(k)(r1)x(0)(k)(r1)x(0)(k1),k2,,
(3-灰色建模理论和方法中,为了寻找原始数据随时间的变化趋势,通过对原在建模的过程中,文献[25]认为冲击扰动项对数据序列的干扰是两方面的,即可以加快数据的发展趋势或使数据序列的振幅变大,又可以减少数据的发展趋势或使数据序列的振幅变小。为了更好地把握事物的本质规律,必须排除扰动项的作用,文献[25]提出缓冲算子概念,并提出缓冲算子三公理。缓冲算子主要起缓解冲击扰动系统的行为数据序列在建模预测的干扰作用。公理1(不动点公理)XDx(n)dx(n公理2(信息充分利用公理)X的每一个数据都应该3(解析化、规范化公理)x(k)dk12,n,都可以一个统一的(x(1),x(2),,x(n初等解析样式来表达。目前缓冲算子还处于初期研究阶段,但这些缓冲算子已经得到广泛的应用。许多缓冲算子都是在缓冲算子三公理的基础上构建出来的,文献[25]构造出强化缓冲算子与弱化缓冲算子,文献[27]与文献[28]在强化缓冲算子的基础上构造出平均强化缓冲算子、加权平均强化缓冲算子及其加权几何平均强化缓冲算子,文献[28]在弱化缓冲算子的基础上构造出平均强化缓冲算子、加权平均强化缓冲算子及其加权几何平均强化缓冲算子。强化缓冲算子Xx(1x(2),x(n为系统行为数据序列D为序XD(x(1)d,x(2)d,...,x(n)d),其中x(k)d
(x(k)x(k
1,k1,2,L,x(n))nk
(3-XD为强化缓冲弱化缓冲算子设Xx(1x(2),x(n为系统行为数据序列D为序XDx(1)dx(2)dx(n)dx(k)dx(k)x(k1)x(n),k1,2,L,nk
(3-X为单调增长序列,单调递减序列或振荡序列时,则称D为弱化缓冲算子。与定性分析相结合,强化缓冲算子可以强化系统行为特征数据的增长趋冲击扰动项不仅可以强化或减弱系统行为特征数据的发展趋势,其实还可趋势转折算子设Xx(1x(2),x(n为系统行为数据序列,D为序XDx(1)dx(2)dx(n)dx(k)d2x(n)x(k),k1,2,L,
(3-XD证明 x(n)d2x(n)x(n)满足缓冲算子的不动点原理,最新信息在转折序列算子作用下是不变的,33QXx(k)x(k1)0,k2,3,,x(k)dx(k1)d2x(n)x(k)2x(n)x(k1)x(k)x(k1)单调增长的系统行为特征数据在趋势转折算子作用下,增长趋势转化为递灰色关联分灰色关联是灰色系统的基本概念。灰色系统理论采用关联度分析的方法进行系统分析,通过灰色关联分析,可以使信息不完全与少数据不确定的灰系统因子量化、序化,从而实现有参考系的、有测度的整体比较[30,31]。近年来,灰色关联分析受到人们越来越多的重视,被广泛地应用于不确定性系统中的各因素之间的关联程度与分析。灰色关联是事物之间的不确定关联,或系统因子之间,因子对主行为之间的不确定关联。灰色关联分析(GreyRelationnalAnalysis,GRA)目的是定量地表对一个抽象的系统进行分析,首先要选准反映系统行为特征的数据序列,X0(x0(1),x0(2),,x0Xi(xi(1),xi(2),,xi(n)),i1,2,,由于系统特征序列与相关因素序列所描述系统的角度不同,导致原始变量序列数据量纲不同和数量级差悬殊,为使各因素具有等级性和等权性,需要对原始数据进行消除量纲和合并数量级处理。目前处理的方法很多,如可运用式(3-8)进行初值化处理,式(3-9)进行区间化处理。iz(k)xi(k),k1,2,,i
(3-xi(k)minxi(kz(k) ,k1,2,,n
(3- maxx(k)minx(k XiX0k点的minmin|x0(k)xi(k)|maxmax|x0(k)xi(k)(x(k),x(k)) (3- |x(k)x(k)|maxmax|x(k)x(k) 01,一般0.5,关联系数只表示各个时刻参考序列XiX0的灰色关联度可以表示为(
,X)
(x(k),x(k
(3-1 1
k通过比较计算出各个影响因素序列对系统行为特征序列关联度的大小,从对于0X0Xi1X0Xi1X0XiXiXjXXs|s0,12,mm2},有XiXjXjXiiXiXjX,有XiXjXjXiXXiXj}|x0(kxi(k|(x0(kxi(k上述四个条件即为灰色关联公理[23,25]。在灰色关联公理中,规范性表明系33是对关联度量化的约束。国内外学者在灰色关联分析的基础上提出了面积关联GM11模型建模机灰色系统理论将任何随机过程看作是在一定时空区域内变化的灰色过程,化规律,同时利用离散数据序列建立相似的微分方程模型。灰色GM(1,1)模型是4个以上的系统行X(0)(x(01x(02),Lx(0n))X(1X(01-AGO序列Z(1X(1紧邻均值生成序列,其z(1k)0.5(x(1kx(1k1kx(0)(k)az(1)(k)
n(3-为GM(1,1)a为发展系数,反映原始序列和累加序列b为灰色作用量,它反映了数据间的变化关系,令x(0) z(1) x(0)(3) Y
B
M
x(0)
z EYB$SETE(YB$)T(YYTYYTBTYBT通过对向量SBTYBTY2BTB$0(BTB)1GM(1,1)
(3-(3-(1)
)
ba
a(k
b,k1,2,L,a
(3- (0)
(k1)(1)
(k1)(1)
(k),k1,
,n
(3-通过上面的分析可以看到,GM(1,1)模型的本质是通过对原始数据序列的累加生成,弱化随机因素的影响,发现其指数规律,然后用指数曲线进行模型拟合,用最小二乘法求解模型参数,因此,GM(1,1)模型预测是拟合数据发展趋势的外推,预测数据的发展趋势与拟合数据序列的变化趋势具有一致性。GM11模型检GM(1,1)模型可以采用关联度检验,后验差检验与平均相对误差检验。一般情况下,GM(1,1)模型检验可采用平均相对误差检验法,根据预测模型计算(1)
(1)
(i(0)
(i
(i(0)
(i
(i)
x(0)(i)(0)x(0)1
(i)100%,i1,2,L,n
(3-nMAPE |(i)n
(3-通常比较平均相对误差的大小来评价GM(1,1)模型的质量,平均相对误差小于历史数据所建立的GM(1,1)模型将不能对系统的未来行为特征值给予准确的预灰色系统理论在粮食产量预测中的应在对GM(1,1)模型建模机理分析的基础上,针对粮食生产系统的不确定性特33GM(1,1)模型参数是通过对原始数据的整理计算出来的,选取不同长度的数据序列,所计算出来的模型参数也不相同,因此系统未来行为特征的预测与数据序列长度存在一定的关系,只要数据序列长度n4,灰色预测模型就满足非唯一性,因此可以从模型集合中选择最优GM(1,1)预测模型。3-11985-2005Tab.3-1ThegrainproductionofChinaduring1985- 1234567892004-3-2Tab.3-2Theaveragerelativeerrorofdifferent模型平均相对误差/%11985-21986-31987-41988-51989-61990-71991-81992-91993-1994-1995-1996-1997-91998-81999-72000-62001-52002-4考虑到过早的统计数据不能反映粮食生产的现在特征,选取中国粮食产量1985-2005年的数据作为样本数据,如表3-1所示。样本数据序列长度n21,可以表示X(0)(x(1),x(2),x(3),,x(21)),根据灰色建模数据序列长n4的18种不同年份区间的数据组成的序列集合,可以表示为F(x(1),x(2),x(3),,x(21)),(x(2),x(3),,x(21),,(x(18),x(19),x(20),根据原始数据序列集合,可以建立18个灰色预测模型,并构成灰色预测模从而在预测模型集合中选取最优模型。理论上,最优预测模型不仅要求具MATLAB7.0语言编辑程序,3-2所示543543210序列长95平均相对误差3-1Fig.3-1Therelationshipcurvebetweenaveragerelativeerrorandsequence从表3-2可以看出,不同预测模型的平均相对误差基本上不相同,GM(1,1)模型平均相对误差的最大值是4.69%,最小值是0.93%。从图3-1可以看出GM(1,1)n的减少总体上呈递减性趋势,即序列长度n越大,则对应模型的平均相对误差越大,对原始数据的拟合精度越低,如当序列长度n依次取212019时,所对应模型的平均相对误差分别为4.69%,4.58%,4.51%;序列长度n33 产量/万 产量/万3-2Fig.3-2ThecomparisonbetweenfitcurveofGM(1,1)Modelandactualmeasurement其次从表3-2与图3-1还可以看出,当序列长度n从21变化到13时,模型的平均相对误差从4.69%递减到4.29%;当序列长度n从12变化到4时,模型的平均相对误差从3.84%递减到0.93%。如果把序列长度n12的序列视为长数据序列,序列长度n12的序列视为短数据序列,相比之下,长数据序列模型的平均相对误差递减速度比较小,而短数据序列模型的平均相对误差递减速度比较大。表明长数据序列模型虽然没有短数据序列拟合精度高,但是比短数据序列模型具有稳定性,系统抗外部干扰能力强,因此更能够反映系统的长期变化趋势及其运动规律,可以为粮食生产系统的未来发展趋势分析提供决策参考。在预测精度要求不高的情况下,可以选取长数据序列模型作为粮食产量的长期趋势性预测。在长序列预测模型集合中,M(4),)与M(5),)的平均相对误差相对较小,分别为4.19%与4.10%,通过计算两模型对最新信息2005年数据的拟合误差,发现前者的拟合误差比后者小,因此可以选取M(4),)作为长数据序列模型集合的最优预测模型。将1988-2005年的数据与M(4),)模型的拟合值绘成图3-2。从图3-2可以看到,长数据序列模型不能体现系统的波动性特征,但是能够很好描述粮食系统长期发展趋势特征。从粮食生产系统的静态建模考虑,根据模型平均相对误差较小原则,从预测模型集合中选择最优预测模型。在预测模型集合中GM(18)(1,1)模型的平均相对误差最小,模型的序列长度n4,可以选择根据2002-2005年的数据建立的3-3所示。在粮食产量的灰色预测过程中,收集的数据有时因为系统受到某种冲击而失真,即系统行为数据序列未能确切地反映系统的真实变化规律,如果不排除冲击干扰,而用已失真的数据直接建模、预测,则得到的定性预测结果很可能与人们直观的定性分析结果大相径庭,从而使预测结果难以置信。在粮食产量的灰色建模过程中,可以先采取下面的灰色序列生成方式作用于原始数据或原始数据序列[33-36],从而排除冲击扰动对系统的干扰,还数据以本来面目,提高模型的预测精度。如果系统行为特征数据在某个时点上发生突变而形成特别异常数据,也就是严重扰动系统的数据,如果剔除严重扰动数据就会留下空穴,因此必须要填补空穴,在序列的起点或终点为空缺时,一般可以通过级比生成或光滑比生成填补空穴,而置于起点或终点之间的数据,也可以采用紧邻均值生成的方式填补孔穴。如果系统行为特征数据发展趋势比原始数据序列趋势加快,可以引入强化缓冲算子,并作用于原始数据序列。对于单调增长的序列,在强化缓冲算子作用下,数据萎缩,强化缓冲算子作用序列的增长速度比原始序列的增长速度增快;对于单调递减序列,在强化缓冲算子作用下,数据膨胀,强化缓冲算子作用序列的递减速度比原始序列的递减速度加快。如果系统行为特征数据发展趋势比原始数据序列趋势减少,可以引入弱化缓冲算子,并作用于原始数据序列。对于单调增长序列,在弱化缓冲算子作用下,数据膨胀,弱化缓冲算子作用序列的增长速度比原始数据序列的增长速度减慢;对于单调递减序列,在弱化缓冲算子作用下,数据萎缩,弱化缓冲算子作用序列的递减速度比原始数据序列的递减速度减缓。如果系统行为特征数据的发展趋势与原始数据序列趋势相比发生了转在建模中对系统原始数据或原始数据序列做出有选择的生成变换,将系统33的定性分析信息融入到GM(1,1)模型,称这种模型为嵌入知识的GM(1,1)模型。嵌入知识的GM(1,1)模型通过定性分析与GM(1,1)模型相结合,使预测模型吸收在中国粮食产量最优灰色模型预测过程中,虽然模型对2002-2005年的数到耕地总量及其科技水平的制约,在未来年份难以保持持续的高增长速度,因果与定性分析不一致。其主要原因是2003年的数据已经严重扰动了系统,已经统外部干扰能力弱,导致预测结果与定性分析有很大的差距,因此,可以视200320022004年的数据均值生成替换异常数据,从而生成序列Y(0)。根据序列Y(0)建立灰色预测模3-4所示。3-3Tab.3-3PredictionresultanalysisoftheoptimumGM(1,1)序号 年
Y(0k)
Y(0)(k)
相对误差/% (k)
(k1002--34-模型方 (1) x(k1) 3-4Tab.3-4PredictionresultanalysisoftheoptimumGM(1,1)modelembedded序号 年
Y(0k)
Y(0)(k)
相对误差/% (k)
(k1002--34--模型方 (1) x(k1) 通过计算分析,嵌入知识的最优预测模型的平均相对误差为0.28%模型的平均相对误差0.93%。实例表明,嵌入知识的最优预测模型不仅比最优预测模型有更高的拟合精度,而且拟合数据增长趋势符合粮食生产的发展趋势特43-5所示。3-52006-2009Tab.3-5TheforecastingvaluesofgrainproductionofChinaduring2006-粮食产量最近几年来党和政府尤其重视粮食安全,积极采取有效措施保护粮食生的基础,从粮食产量的灰色预测模型预测结果来看,我国粮食产量发展趋势良2008年基本上可以恢复到历史的最高水平。粮食生产系统是一个动态发展的系统,在粮食产量的未来预测过程中,随GM(1,1)模型,这样建立的模型更能反映系统的发展变化趋势。1设原始序列为X(0)(xx(,,x(n,经过1-AGO生成新序列X)后建立GM(1,1)模型,如果获得n1时刻实际观测数据,便去掉老信息x)的同时加入新信息x(n),构成新的等维动态序列X(0)(x(,x),,x(nx(n,建立新的GM(1,1)模型,这种采取增加一个新信息数据,去掉老数据,而序列长度保持不变,称这种模型为等维新息灰色预测模型。1根据粮食产量1985-2005n4X(0)(x(kx(k1x(k2)x(k3)),建立等维新息灰色预测模型,并分别对1989-2005年的粮食产量进行预测,运用MATLAB7.03-3所示。3-23-3的实测数据曲线可以看出,我国粮食生产发展呈长期的增333-2产量/万3-3等维新息动态GM(1,1)Fig.3-3ThecomparisonbetweenpredictioncurveofnewinformationdynamicGM(1,1)Modelandactualmeasurementcurve等维新息灰色模型在引入系统的最新信息,去掉老信息同时,不仅能够反析技术,及时将定性分析的信息融入到每个GM(1,1)模型,建立嵌入知识的等维如根据1996-1999X(0)(50453.549417.151229.550838.61灰色预测模型的拟合数据呈增长趋势,而1999年以后由于耕地面积的持续减X(0变换成单调递减序列。首先将1997年的数据采用紧邻均值生成替换X(0)(50453.550842.051229.550838.6),然后将趋势转折算子作用于1X(0的前三个数x(0(1)x(02x(03,得序 2X(0)(52005.5,51617.0,51229.5,22X(02000年的中国粮食产量的预测结果(见表3-6)。预测结果表明,嵌入知识的灰色预测模型的预测精度要高于23-6Tab.3-6Thecontrasttableofforecastingresultsoftwo序 GM(1,1)模
(5) 相对误差/%XXX2
(k1)3538336.9e0.014k(k1)6820131.8e0.0076k
本章小本章从时间序列特征角度寻找粮食生产系统的变化规律,在介绍灰色系统2006-2009年份的粮食产量给予预测,立新息动态GM(1,1)模型,预测结果表明,新息动态GM(1,1)模型不仅有助于提高预测精度,而且能够反映粮食产量的波动变化趋势,克服了传统GM(1,1)模型只适合预测单调递增或递减时间序列的局限性,同时对动态GM(1,1)模型进一步44第4粮食生产是自然环境、经济条件、科技因素等多种因素综合作用的结果,粮食生产与众多的影响因素之间是一种复杂的非线性、不确定性关系,很难用确定的数学模型去描述。传统的预测方法是建立多元线性回归预测模型,但是这种模型因为线性假设、预测的精确度及检验问题受到很大的限制[8]。近几年来,人工神经网络(ArtificialNeuralNetwork,ANN)因其强大的并行处理能力、任意函数逼近以及自学习、自组织、自适应等特点已经在粮食产量预测得到应用,与传统的预测方法相比,采用神经网络建模不需要知道自变量与因变量的之间的关系,通过对样本的学习就可以获得自变量与因变量的复杂的非线性映射关系,克服了建立模型和参数估计的困难,但是神经网络是一种基于大样本的学习方法,因而在小样本情况下,容易出现过学习现象从而导致低的泛化能力;另外神经网络存在收敛速度慢,结构选择及其局部极小值问题,同时受网络复杂结构和样本复杂性的影响较大[37,因而在实际应用过程中具有很大的局限性。统计学习理论是一门专门研究小样本情况下机器学习规律的理论,支持向量机是在这一理论基础上发展起来的新型学习方法,目前已经成为人工智能领域研究的最新热点[38,39]。支持向量机具有完备的统计学习理论基础和出色的学习性能,较好地解决神经网络的小样本、高维数、局部极小点等问题,被认为是神经网络的替代方法,目前已经广泛用于在模式识别、函数逼近、信号处理等方面。因此可以将支持向量机方法应用于粮食产量的预测研究,通过向有限样本学习找到、发现隐含在训练样本背后的规律,建立反映粮食产量与影响因素的非线性关系的支持向量机回归模型。统计学习理机器学习理论主要研究从观测数据寻找未知规律,并利用这些规律对未来与传统的统计学相比,统计学习理论(StatisticalLearningTheory,SLT)是一门专门研究小样本机器学习的理论,Vapnic等人从六、七十年代开始致力于此(SupportVectorMachine,SVM)是在统计学习理论的基础上发展起来的一种支持VC维理论和结构风险最一些学者认为,SLTSVM正在成为继神经网络研究之后新的热点,并将有力机器学习的目的是根据给定样本数据,构造损失函数对系统输出输入之间已知变量y与x存在一定的未知依赖关系,即存在一个未知的联合概率密度函数p(x,y,机器学习问题就是根据给定下面的l个独立的样本。(x1,y1),L(x,y),xR,y Sf(xwwf(xw0yx之间的依R(f)L(y,f(x,w))p(x,
(4-Ly,f(xwf(xwy进行预测所造成的损失。不同类型的学习问题L(y,f(x,w))(yf(x,
(4-学习的目标在于期望风险最小化,由于期望风险式是预测函数在整个样本传统的学习方法采用了经验风险最小化(ExperimentalRiskMinimization,ERM)1lRemp(f)L(yi,f(xi,l
(4-作为对经期望风险的估计,并设计学习方法使它最小化。事实上,经验风44对一个指示函数集,如果存在一个有h个样本的样本集能够被函数集f(x,w)2hh的样本集打散,VC(VapnicChervonenkis)维[38,39]就是用这个函数集中的函数所能h(ln(2l/h)1)ln(/lVapnic和Chervonenkis提出了结构风险最小化原则,为小样本统计理论奠定了基础,研究经验风Remp(fh(ln(2l/h)1)ln(/lR(f)
(f) (4-其中lh是函数集的VC维,VC维反映了函数集的学习能力,VC维越大则学习机器越复杂。这一结论从理论上说明了学习机器的实际风险是R(f)Remp(f)(l/
(4-其中p(f)为训练样本的经验风险,l/h)为置信范围,它是学习机器的VC维和训练样本数的函数,l/h)与样本数和函数的比值成反比。从上式可以看出,样本点数目较多,lh较大,置信范围较小,则实际风险主要有经验风险决定,经验风险的最优解就接近实际的最优解,如果样本数目有限,lh较小,置信范围较大,用经验风险去近似真实风险就有较大的误差,用经验风险最小化的最优解可能具有较差的推广性。在给定的有限样本数目l情况下,样本的VC维h越高,则置信范围越大,导致真实的实际风险和经验风险之间的差别越大。机器学习不仅要控制经验风险最下,而且还要VC维尽量小,以缩小置信范围,才能取得到最小的实际风险,从而对未来有很高的推广性。因此,ERM准则在样本有限时是不合理的,需要同时最小化经验风险和置信范围。统计学习理论提出一种新的策略,即把函数集分解为一个函数子集序列,使各个子集按照VC维的大小排列,在每个子集中寻找最小经验风险,在子集间折中考虑经验风险和置信范围,取得实际风险最小,这种思想称为结构风险最小准则(tructuralRiskMiniization,SRM)。支持向量机分类算支持向量机是统计学习理论最年轻的内容,也是最实用的部分,目前仍处在不断发展的阶段[40,41]。支持向量机在样本分类过程中,能够得到现有信息下的最优解,而不是样本趋于无穷大的最优解,在样本少的情况下也具有良好的分类推广能力。支持向量机算法是从线性可分情况下的最优分类面发展起来的,其基本思想可以从图4-1来说明,圈点和方点分别代表两类样本,这个训练样本集是线性可分的,即可以找到一个分类线H,使得所有的方块位于这个分类线的一侧,而所有的圆圈位于分类线的另一侧,H1和H2分别为过各类中里分类线最近的样本且平行于分类线的直线,它们时间的距离叫分类间隔。根据经验风险最小化原则,可能存在无限多个分类线,而所谓最优分类线就是要求分类线不仅能将两类正确分开,而且使分类间隔最大。前者是保证经验风险最小,而分类间隔最大实际上使推广性的界中的置信范围最小,从而使真实风险最小[42-44。图4-1的分类线就是最优分类线,距离最优分类线的最近的样本向量称为支持向量。它说明间隔最大化的最优划分原则不是依赖于所有点,而是由支持向量决定,在大多数情况下,支持向量的数量只占训练样本集的一小部分,因此可以用支持向量集代替训练样本集进行分类学习。推广到高维,最优分类线就变成最优分类超平面。HH4-1最优分类线示意图Fig.4-1Optimumseparatingline设线性可分样本集为(x1,
x,yxRn,y11n维空间线性判 f(xwTxbwTxb0wb是w |f(x|1,此时离分类超平面最近的样本|f(x|1,则对所有的样本都满足以下 y(wTxb)1,i1,2,,
(4-可以证明[40]2/||w||,要使分类间隔最大等价于使||w||2最小,于是最优超平面可以表示为在条件的约束化问题,求函数44(w)1||||21wT
(4- 2L(w,b,) wwi[yi(wxib)2
(4-其中,i为拉格朗日系数,将上式分别对wbi求偏微分并令它们等于 wyx,
0,[y(wT
b)1]
(4-
ii
i
1 1TmaxWi2ijyiyj(xixj
(4-l
yii0,i0,i1,
(4-这是一个不等式约束条件下二次函数求极值问题,存在唯一最优解,若liiiw**yxiii b*可以由任意一支持向量用式y(wTxb1 liif(x)sgn((w*)Txb*)sgn(*yxTxlii当训练样本集为线性不可分的情况下,考虑到可能存在一些样本不能被超平面正确分类,可以引入变量i0允许错分,则超平面的约束条件为y(wTxb)1,i1,2,L,
(4- min(w,) ||w2
(4-满足上式最小的超平面称为广义最优超平面,广义最优分类超平面的对偶的具体体现[42-47]由于很多实际问题所涉及到的情况是非线性的,如果在原始空间中的简单4-2所示。 K(x,x)(x)T
(4-K(xixj)xixj在其特征空间(xi)(xj)的内积,因此在实际计算过程中,不必考虑映射函数(x)的具体形式,只4-2Fig.4-2Sketchofnonlinearmappingfromsamplespacetocharacteristic 根据泛函分析理论,只要满Mercer定理条件的函数都可以作为核函数。
K(x,x)(xT
r)d,r
K(x,xi)
x
/2神经网络核函数K(xxtanh(k(xTxk 用核函数代替最优分类面的点积,就相当于把原特征空间变换到某一新的44 f(x)sgn(*y((x)T(x))b*)sgn(*yK(
(4- SVMSVM分类问题。上式4-3所示。支持向量机网络中间节点个数是由算yy12sK(x,K(x2,1K(x,s4-3Fig.4-3Sketchofsupportvector通过对支持向量机的分类算法分析可以看到,支持向量机是一种基于结构支持向量机回归算 给定l(x1
xyxRnyR,在函数集中寻求一个最优函数f(x)对输入向量x与输出值y之间的函数关系进行估计,如果所得函数关系是线性函数,则称为线性回归,可以表示为f(x)wTxb,否则称为非线性回归。对于非线性回归问题,SVM的基本思想是首先使用一个非线性映射(x)将数据映射到一个高维特征空间,然后在高维特征空间进行线性回归,最后映射到原空间就完成了输入空间的线性回归,可以表示为f(x)T(x)b。支持向量机回归问题与分类问题不同的是,支持向量机回归的样本点只有一类,所寻求的最优超平面不是使两类样本的间隔最大化,而是使所有样本点里超平面的总偏差最小[48-50]。
[f]
w212112
[f
(4-2lRregfRempfLyi,f(xiw为经验风险,wl控制模型的复杂度参数,C为可调参数,它能够在经验风险和模型复杂度之间进行调节以便使所求的函数具有较好的泛化能力,经验风险是通过损失函数来度量的。支持向量机的损失函数通常采用不敏感损失函数,其定义为:L(y,f(x,w))0,|f(xi)yi|
(4- |f(xi)yi|
4-4-不敏感损失函数Fig.4-4-insensitivefunction不敏感损失函数的含义是当函数的估计值与实际值的误差小于或等于时,可以认为误差为零忽略不计;当两者的误差大于时,定义误差值等于实际误差减去,如图4-4所示。则基于不敏感损失函数,寻求最优回归超平面问(w,,*)
12 12
(4-ll
44
ywT(x)b
,i1,,
(4- wT(x)by*,i1,,
(4- ,*0,i1,,
(4-其中* 上或决策边界内部的样本点,其对应的与* ill点,其对应的与*分别大于零。illL(w,b,***
2
*
, ,
1212
( i
i
(xi
(4- ii ii L分别对wb* w
*)(x),
*)0,C
i
0,C**0(4-lllW(,*)1(*)(*)((x)T(x))y(*)(*)(4-lll
j
ll
*)0,0
C,0*C,i
(4-iiii f(x)(*)(x)T(x)b(*)K(x,x)
(4- 根据库恩塔克(Karush-Kuhn-Tuck,KKT)iiyif(xi)0,i1,,
(4-
i1,,
(4- (Ci)i (C*)*
,i1,,,i1,,
(4-(4- 通过分析可以得出位于决策边界内的样本点其对应的0,*0
C,*0或
0,*C
(0C),*0或
0,*(0C),因此样本在决策边界内部的 样本点* 策边界外的样本*0 上的样本点求出的blby(*)K(x,x (0,C),*
(4- lby(*)K(x,x 0,*(0, (4-l 通常对所有决策边界上的样本分别计算bSuykens和Vandewalle于1999年提出最小二乘支持向量机(LeastSquareSupportVectorMachine,LS-SVM)方法。LS-SVMSVM的一种扩展,其定SVM不同的损失函数,并将其不等式约束改为等式约束。1 lRemp(f)[yif(xilLS-SVM
(4-(w,)
i122122w2
(4-正实数为可调参数,它能够在经验风险和模型复杂度之间进行调节以便使ywT(x)b
i1,,
(4- 通过其对偶形式可以求出目标函数最优解,根据目标函数和约束条件,定12 12L(w,b,,)
22
i(w(xi)biyi
(4-对各参数求偏导数并令其等于零,通过整理最后求解的优化问题可以转化 b 0
(4-I为矩阵,其定义
ij
,其中(x)T(x ,,,)T;11,1,,1)Tyyy,y 根据上面推导得出,LS-SVMllf(x)iK(xi,x)
(4-44标准支持向量机和最小二乘支持向量机在利用结构风险最小化的同时,在支持向量机在粮食产量预测中的应粮食产量与其众多影响因素存在着灰色性、不确定性和非线性的特点,因低。由于粮食生产系统受众多不确定因素的影响,难于确定影响系统的主要因量作为输出向量,利用SVM对输入和输出数据进行训练学习,逼近历史数据所由论文第二章的粮食生产系统分析可知道,科技进步、自然环境、经济环用量、成灾面积、用电量等代表性的主要指标构成预测指标体系,其中机械动1985-2005年的粮食产量、播种面积、机械动力、灌溉面积、化肥用量、成灾面积、用电量的统计数据(见表4-1)作为总样本,并将总样本分为两部分:1985-200218个样本作为拟合训练样本,2003-200534-11985-2005Tab.4-1Thestatisticaldataofgrainproductionandaffectingfactorsduring1985-年 粮食产(((((((2002-粮食产量受播种面积、机械动力、灌溉面积、化肥用量、用电量及其成灾19852002年的粮食生产的统计数据,选取粮食产量Y序列,选取粮食播种面积X1、机械动力X2、灌溉面积X3、化肥用量X4、成灾面积X5、用电量X6作为系统影响因素序列,建立系统特征序列与系统影响因素的灰色关联分析模型。首先根据式(3-8)对系统特征序列和系统影响因素序列进行归一化处理,并根据式(3-10)与式(3-11)444-24-21985-2002Tab.4-2Greycorrelationofgrainproductionandaffectingfactorsduring1985-XXXXX3415264-2可以看出,耕地面积、机械动力、灌溉面积、化肥用量和成灾面积与粮食产量的关联度都在0.8以上,而用电量对粮食产量的关联度不到0.7,因经过灰色关联分析模型的定量分析,确定出耕地面积、机械动力、灌溉面高模型的学习速度和预测精度,分别对样本的输入向量和输出向量用式(3-9)进粮食产量与其影响因子的相互作用关系的预测问题可以看作是一个非线性yF(x1,x2,,xm)其中1,2,,m为支持向量机回归模型的输入向量,y为所对应的输出向量,t为扰动项。支持向量机与神经网络一样,具有较高精度的函数逼近能力,建模不需要知道自变量与因变量的之间的关系,即不需要求出函数的具体表达式,仅通过对样本的学习就可以获得自变量与因变量的复杂的非线性映射关系。按照表4-3可以得到支持向量机回归模型的输入向量与输出向量。4-3Tab.4-3Structureoftheinputvectorsandoutput12x1(2),x2(2),x3(2),x4(2),x5Mmx1(m),x2(m),x3(m),x4(m),x5首先进行核函数选取,基于径向基核函数只含一个参数易于优化的优点,3个未知参数,它们分别是核函数中的参数,损失函数中的参数,目标函数中的正则化参数C。其中参数也称为宽度系数,宽度系数影响着样本数据在高维空间中分布的模型容易产生欠拟合现象;参数控制着拟合管道的宽度大小,影响支持向量的数量,通常情况下值越大,样本的支持向量越少,参数过小时,可能导致模型过拟合,参数过大时,则模型可能欠拟合;参数CVC44平衡,C值越大对样本数据的拟合精度就越高,随着C值的增大,样本的拟合精度和预测精度都会提高,当C增大到一定程度时,拟合精度趋于稳定,当C过大时容易出现过拟合现象,样本的预测精度反而降低。参数的选择直接影响模型的拟合精度和预测精度,如何优化参数使建立的MATLAB7.0编辑程序对数据计算分析,在模型中通过大量参数的试验选择后,确定模型参数分别为C200010.001并2003-2005LS-SVM回归模型进行预测分析,LS-SVM模型参数分别为20001。4-4SVMLS-SVMTab.4-4FittingresultsoftheSVMmodelandLS-SVMmodelduring1985-拟合值拟合值拟合值拟合值-------------------
相对误差/% LS-
相对误差/%平均相对误差 4-44-4的统计数据,可SVM0.035%,平均相对误差为0.03%;利用LS-SVM模型,粮食产量拟合的最大相对误差为0.31%0.11%SVMLS-SVM模型均对样本具4-54-5的计算数据,可以得出如下结论,利用SVM模型,粮食产量预测的最大相对误差为1.35%,平均相对误差为0.52%;利用LS-SVM模型,粮食产量预测的最大相对误差为0.82%0.64%SVMLS-SVM均对样本具有良好的外推预测效果。另外2002-2005年的粮食产量表现出先下降后上升趋势,而支4-5SVMLS-SVMTab.4-5PredictiveresultsoftheSVMmodelandLS-SVMmodelduring2003- 年 实际值/万
相对误差/% LS-
相对误差/% -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《NOIP图的基础算法》课件
- 价值观培训班
- 农药采购合同模板
- 白血病捐款班会
- 仁爱版英语初二八年级上册全册教案
- 2024年度航空公司机队更新与租赁合同3篇
- 仁爱版英语七年级上册教案设计
- 2024年度房产购房合同(标的:杭州市江干区套别墅)3篇
- 治疗性沟通实践报告
- 《新风培训》课件
- 妊娠期高血压疾病的护理课件
- 小区物业消防安全职责与日常检查
- 施工现场危险源辨识及风险评价表
- 烟草专卖许可证新办申请表(国)
- 玩转计算机网络-计算机网络原理智慧树知到课后章节答案2023年下青岛大学
- 安全隐患排查台账(附排查表)
- 核安全工程师-核安全综合知识-辐射防护基础-辐射防护剂量限值
- 音乐治疗学基础理论
- 小学二年级期中家长会课件
- 第六届大学生化学实验技能竞赛初赛笔试试题
- 质量通病防治施工措施及质量通病防治措施
评论
0/150
提交评论