基于支持向量回归与地统计学的农民收入预测_第1页
基于支持向量回归与地统计学的农民收入预测_第2页
基于支持向量回归与地统计学的农民收入预测_第3页
基于支持向量回归与地统计学的农民收入预测_第4页
基于支持向量回归与地统计学的农民收入预测_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/9基于支持向量回归与地统计学的农民收入预测基于支持向量回归与地统计学的农民收入预测我国是一个农业大国,农业的发展、农民的生活状态影响着我国现代化建设的进程。农民收入是反映农业发展与农民生活状态的重要标志。随着我国现代化建设的飞速发展,农民收入水平也得到了大幅度的提升,2016年农村居民人均纯收入已经达到916元。农民收入数据是一种典型的多维时间序列,既受其自身动态时序特性的影响,又与国家政策、农产品产量、天气等多种人为因素和自然因素关系密切,具有明显的复杂非线性特性。分析农民收入的关键影响因素,为“三农”政策的制定等提供有效的指导,是大力发展农业、提高农民生活水平的根本,是实现和谐社会主义与全面小康生活的关键1。国内学者已有许多关于农民收入的研究。宋委倩通过统计分析认为影响诸城市农民收入的主要因素有地区经济发展水平、农产品价格和农业生产资料价格、农业产业结构和经营水平、二三产业发展水平、农村劳动力转移和农民自身素质技能2。卢立香认为农村物质资本投资、农户人力资本投资、产业结构变化和农村剩余劳动力转移是影响我国农民收入增长的最直接因素,并据此建立向量自2/9回归模型,检验结果表明上述4个因素与农民收入之间均存在着显著的相关性3。郑素芳等选取影响我国农民收入的农产品产量、农产品价格、人均播种面积等指标,运用计量模型从定量的角度对各种因素进行综合分析,得出提高农民收入的主要因素是农民的非农业收入和农产品价格1。王亚娜等运用逐步回归法,分析了影响农民收入的因素,结果表明,农村剩余劳动力的转移和农民的受教育水平对农民人均纯收入的影响最显著4。郭庆春采用BP神经网络对农民收入进行建模分析,认为农民收入主要受乡村就业人员数、农村固定资产投资、农作物总播种面积的影响5。但已有研究主要是利用线性模型进行分析,未充分考虑农民收入数据的复杂非线性特性,得出的结论难免有失偏颇。因此,笔者拟针对农民收入数据非线性时间序列的特性,采用非线性支持向量机和地统计学方法综合分析我国农民收入的影响因素,并结合统计数据,预测我国农民收入。1变量选取、数据来源与研究方法从收集的大量影响因素中挑选出与农民收入密切相关的关键因子是农民收入水平预测的一个关键点与难点。目标变量拓阶是反本文由论文联盟HTTP/收集整理映时间序列自身动态时序特性的有效手段,传统的带控制项的自3/9回归滑动平均模型和带受控项的自回归模型等多维时间序列分析方法都属于线性模型68,通过线性方法逐步比较实现拓阶过程,费时耗力,不能有效地反映数据的非线性特征。人工神经网络模型具有非常优异的非线性逼近能力,但存在易陷入局部最小、过学习等缺陷910。支持向量机基于统计学习理论,具有非线性优点1112,并且能有效防止过学习,在众多领域取得了较好的应用效果。且基于地统计学1314采用直接拓阶方法,以一维GS的变程作为时间序列的后效时间长度,具有速度快、全局最优的优点。笔者拟结合SVM,以模型交叉测试均方根误差最小为标准,采用非线性汰选方法对所选全部因子实施多轮评估,逐个剔除次要因子,确定关键因子。变量选取和数据来源近年来我国积极转变农业发展方式、发展现代农业、统筹城乡发展和推进农业建设,影响农民收入的因素日益复杂。预测农民收入,采用不同方法所考虑的因素各不相同。如宋委倩选取农产品价格和农业生产资料价格等进行统计分析2,卢立香选取农村固定资产投资、农村人口数和产业结构等因素进行回归分析3,王亚娜等选取人均农业基本建设投资、人均农业各税税费、人均农业贷款额、人均农业年财政支农额等7个指标建立农民收入影响因素计量模型4。结合已有文献,参照郭庆春等的研究5,该研究选4/9取国民总收入、乡村人口、农村农户固定资产投资额、乡村从业人员、农林牧渔业总产值、农业机械总动力、有效灌溉面积、农用化肥施用折纯量、农作物总播种面积、粮食产量、受灾面积等11个可能与农民收入相关的影响因子,然后从中筛选真正影响农民收入的主要因子。各因子说明如下国民总收入包含了农民收入,农民收入对国民总收入有一定程度的影响;乡村人口以农民为主,是考虑农民收入问题的基数;农村农户固定资产投资额是指在农村建造和购置固定资产的经济活动,一定程度上反映了农民收入的高低;乡村从业人员是指乡村人口中16岁以上实际参加生产经营活动并取得实物或货币收人的人员,是农民收入获取的重要部分;农林牧渔业总产值是传统农业构成农民收入的重要部分;农业机械总动力代表着农业机械化程度,是现代农业发展的代表,关系着农业生产效率,也关系着农民收入的高低;有效灌溉面积是灌溉工程或设备已经配备,能够进行正常灌溉的水田和水浇地面积之和,是现代农业发展的重要指标;农用化肥施用折纯量指实际用于农业生产的化肥数,与农业生产息息相关;农作物总播种面积直接关系着农作物的产量,与农民收入应该为正相关;粮食产量带来的收入,在现在依然是农民收入的主体部分;受灾面积也直接关系着农作物的产量,与农民收入负相关。5/9因为农村农户固定资产投资额等部分数据自1982年才有系统的统计,所以该研究选用19822016年的数据建模,数据来源于国家统计局网站。研究方法数据平稳化处理。农民收入数据呈明显上升趋势,因此宜在数据建模之前以对数线性去趋势平稳化法对30年的目标变量进行平稳化处理15。首先是对目标变量取对数,并进行先行拟合可得对数线性去趋势平稳化后的新目标变量,后续建模都基于平稳化后的新目标变量展开。基于GS的目标变量拓阶。对于在空间分布上既有结构性又有随机性的自然现象,可以通过GS分析其结构性,计算数据的半变异函数值,并给出其区域化变化趋势1314。对某一观察数据F,其半变异函数值R可由下式计算式中,H代表两个样本之间的间隔距离;F与F分别表示样本XI和样本XIH的真实观察值;N表示间隔距离为H时的所有样本对数。若以间隔距离H为横轴,R值为纵轴作图,R随着H的增大逐步增大,当R趋向于稳定时对应的间隔距离H被定义为变程A。变程A代表当数据间隔距离达到A后,该数据之间的空间相关性消失。该研究基于地统计学对一维时6/9间序列进行分析,以变程A来反映时间序列的后效时间长度,设定间隔大于变程A的两年之间不存在相关性,以变程A作为拓阶次数。初始多维时间序列经平稳化处理后,变为,T1,2,30;J1,2,11。首先对一维时间序列Y求半变异函数,时间间隔H以一年为分隔,确定该一维时间序列的后效时间长度A。根据GS原理,对目标变量Y拓A阶。拓阶后的数据样本数变为;自变量个数为。基于SVM的非线性变量汰选。采用LIBSVM平台对模型拓阶16,若数据包含N个样本,P个自变量,基于SVM训练精度RMSE最小原则可对全部P个变量实施非线性筛选,去除无用、冗余的变量,选出影响农民收入的关键因子。具体过程如下第一步,以全部P个自变量构建SVM模型,并获得交叉测试精度RMSEALL。第二步,依次剔除第I个自变量,重新构建SVM模型,得到交叉测试精度RMSEI。第三步,如果MINRMSEI第四步,重复第一至三步骤,直到没有自变量可筛选为止,最终的保留变量即为关键因子,用于一步预测建模。评价指标与参比模型。通过模型评价,可以验证预测模型的有效性以及筛选因子的可信性。多数模型验证方7/9法采用拟合结果作为评价标准,但对时间序列模型而言,应该以其实际预测性能进行评价,而非回代拟合。预测结果评价指标采用均方根误差为对比新模型的有效性,笔者另设置了3个参比模型SVM模型,直接以初始数据构建SVM一步预测模型,目标变量不进行平稳化,不进行拓阶,也不实施自变量筛选;SVMLLD模型,以平稳化后的数据构建SVM模型,既不进行拓阶也不实施自变量筛选;SVMGS模型,对平稳化后的目标变量以GS进行快速拓阶,但不进行自变量筛选。2结果与分析笔者首先对平稳化后的目标变量进行GS分析,以一年为间隔作为H,其半变异函数图见图1。由表1可知,SVM模型以初始数据构建一步预测模型,没有考虑其自身时序动态特性,也没有对初始自变量进行筛选,对带有明显上升趋势目标变量也未进行平稳化处理,其预测精度最差,平均预测差异超过1000元;与SVM模型相比,SVMLLD模型对初始目标变量进行了平稳化处理,其一步预测精度得到了大幅度提高,平均预测差异缩小到482元水平。显然对于农民收入水平这类带有明显趋势的时间序列数据,进行平稳化处理能有效提高其预测精度。SVMGS模型对平稳化后的目标变量进行拓阶处理,考虑了目标变量自身的时序动态,相比SVM模型与SVMLLD模型,其8/9一步预测结果有了明显提高,预测误差下降到400元以下。SVMGSFILTER模型在SVM模型基础上对自变量进行筛选,去除部分冗余自变量,保留了乡村人口、农村农户固定投资额、乡村从业人员、农林牧渔业总产值等4个变量,拓阶所得最近5年的农村居民家庭平均每人纯收入9个重要因子,进一步简化模型。基于该9个重要因子,以1982XX年数据构建SVM一步预测模型,预测XX2016年农民收入,平均预测误差仅为元,相比其他模型,预测精度有了明显提高。乡村人口、农村农户固定投资额、乡村从业人员、农林牧渔业总产值等4个重要指标,其变化趋势与农村民收入趋势见图2。图中所用数据均经过平稳化处理。3结论与启示上述研究结合SVM与GS,针对农民收入水平发展了一种高精度的非线性时间序列预测SVMGSFILTER模型,结果表明SVMGSFILTER模型非线性时间序列预测模型较参比模型大幅度提高了农民收入预测精度;农民的主要收入来源已不是粮食生产,而是向其他农业生产和进城务工等方面转移。提高农民收入是实现全民小康的关键。从该研究结论可知,农民的收入结构主要分为粮食生产、农副产品、9/9进城务工3大部分。政府提高农民收入需要从以上3个方面着手。首先,需要集中力量提高农村务农农民的收入水平。每年数千亿的农业补贴是政府对农业支持的手段之一,但补贴范围太广导致重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论