




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的农产品产量估算模型实证研究目录TOC\o"1-2"\h\u24898基于神经网络的农产品产量估算模型实证研究 112452一、绪论 114878(一)研究背景 130723(二)研究意义 211207(三)国内外研究现状 34819(四)研究内容及技术路线 513978二、有关理论介绍 624758(一)数据处理 6383(二)数据处理的流程 725470(三)多元线性回归 819298(四)BP神经网络模型 86462(五)遗传算法 1120862三、产量预测模型建立 1227639(一)多元线性回归模型 126352(二)BP神经网络模型 172982(三)基于遗传算法的BP神经网络模型 1915480四、总结与展望 22绪论研究背景党的十九大报告明确指出:“要坚持质量第一、效益第一,以供给侧结构性改革为主线,提质增效,加快推进经济发展变化,提高全要素生产率。近年来,宏观经济形势在我国国内产生,国内乃至国际与棉花相关的产业都发了发生翻天覆地的变化。为了应对这种现象的出现,中共中央在经济会议上明确提出供给侧结构性改革这一理念、要求我国经济总基调为稳中求进的趋势。此外,还要贯彻实施创新、协调、绿色、可持续等发展理念。即要做到不仅要增加效益,而且要提高产品质量,这就得要求我们从实际出发,切实的去认识当前经济发展新常态,打破原先固有的经济格局,进而不断的去适应相关行业发展的新变化、新形式,这才是行业生存发展的必由之路。在中国有许多重要的优质棉花生产基地其中之一就在新疆维吾尔自治区。同时新疆维吾尔自治区也是全国唯一的长绒棉生产基地,“世界棉花看中国,中国棉花看新疆”,这句口号并不是空穴来风,但一方面由于新疆生产的优质棉的市场调控机制建立的不够完善,对新疆棉的发展有很大的影响。其中比较突出的问题在于新疆棉花的定位价格存在着转箱的压力,即使使用了价格补贴等多种措施,但效果甚微,其次新疆棉花种植的面积较大但是种类太多,质量上难以统一,而且组织起来所需要的相关程序相当复杂,此外,在生产过程中棉花加工不仅会加深环境污染,造成棉纺织业难以融资,进而导致出现产业聚集效应,这不单单会对新疆棉花产业质量的发展状况造成影响。且长此以往,会造成我国国内的棉花产量波动变换大,出现许多类似于“生产过剩”以及“供不应求”的问题,以及会造成“买棉难”与“卖棉难”等等棘手的问题。如今,国内的棉花生产产业仍然有着反反复复的波动幅度。棉花将长期处于“不足”与“过剩”的变动中。棉花并不像其他农作物一样有着强的抗干扰能力,气候因素、棉花价格以及棉花产量都是棉花生产过程中非常关键的特征因素,这些因素能够可以对国民经济造成很深远的影响,更进一步可能造成全球市场发展不平衡。国家和政府应该积极采取措施,推动棉花供给侧结构改革,对流通体制的变革进行深化,进而构建一个同意的市场体系。随着棉花生产水平的提高,棉纺织业高质量发展的推进,“去库存”这一目标将能够有效的实现。此外应该积极地提供棉花监测预警信息,这样才可以使得棉花的生产、销售、仓储以及进出口行业持久的发展,可以使得棉花相关行业的市场风险以及周期性波动减弱。进而保护产业链各方利益,实现棉花产业的可持续发展,这才是棉花供给侧改革的必由之路。研究意义2017年第十九次全国人民代表大会上,习近平总书记明确指出:“中国特色社会主义已经进入了新时代,我国的主要矛盾已经转化为人民日益增长的对美好生活需要发展不平衡不充分之间的矛盾。即:人民的生活水平以及生活质量在不断提高。而“衣、食、住、行”这四个方面自古以来就是衡量生活水平的标志,尤其是棉花产业是这四个方面的基础。最近几年来,绿色食品,绿色出行等绿色理念开始成为如今一种可持续时尚的潮流。引起了人们对纯天然产品的追求,这使得各种天然纤维开始重新出现在国家趋势发展的前沿。当然,作为天然纤维的棉花,这一种历史悠久的纤维材料越来越受到人们的欢迎。自古以来,就有“世界棉花看中国,中国棉花看新疆”这一口号,新疆的棉花凭借其良好的光泽、透气性、弹性等因素,使得其品质远远超过普通棉花。所以优质的新疆棉花不仅受到广大消费者青睐,而且使得新疆维吾尔自治区的人民为其骄傲。自古以来中国就是农业大国,而新疆一直是我国十分重要的农业大省。新疆维吾尔自治州的农业的国民生产总值对于我国农业的国民生产总值占有很大比重。作为我国重要农作物之一的棉花,其在经济和农业方面有着十分重要的地位。在我国西北边陲的新疆,其经济收入会随着棉花单产的增加而提高,且随着棉花单产的提高,新疆一半以上的农户将会变得富裕,随着棉花种植收入点的增加,农户将能够获得更好的生活质量,这意味着棉花种植农户的生产积极性将会明显提高,且不仅能够增加国内生产总值,而且可以提升广大人民对国家的认可度。农作物的种植面增加能够减少生态方面的破坏,可以有效的解决水土流失以及荒漠化等生态问题。根据新疆棉花产量为主题,本文采用信息学常用方法对数据进行提取和分析。对棉花生长发育的气象因素进行研究,利用多元线性回归模型、BP神经网络模型以及基于遗传算法优化的BP神经网络模型对棉花产量进行综合研究,更为精确地得到预测棉花产量,找到更合适预测棉花产量的方法。这不仅对促进整个棉花产业的进程,而且能够总体增加棉花种植农户的收入,这对人们提高对国家的认可度,对社会的可持续发展有着极其重要的现实意义。国内外研究现状国内研究现状近些年来,我国的科研人员在农作物产量预测方面有着诸多成果。其研究方法可以分为可以遥感技术法、统计动力学法、气象因子预测法、传统农学预测方法、数学统计估算法、机器学习方法等等,宗宸生等科研人员通过改善粒子群算法与常见的BP神经网络模型相结合,进而构建出了IPSO-BP产量预测模型,这一模型给我们进行粮食生产过程预测和决策提供很重要的理论帮助。邢聪仁等科研人员利用BP神经网络结构中常用的随机森林算法,构建了对于2018-2020年安徽省粮食产量的组合预测模型。通过这个模型所计算出的预测产量与现实测量过程中的实际产量之间的误差不足5%,这对于我们对于粮食预测提供了巨大的帮助。张浩等利用免疫算法与遗传算法的优点,改善BP神经网络在农作物产量预测中的缺陷,进而构建了一个以自适应免疫遗传算法(AIGA)的BP神经网络为基础的农作物产量预测模型。施瑶等科研人体利用1987-2017国内粮食产量数据为研究对象,一种以自适应权重的萤火虫算法为基础的SAFA-LSSVM粮食产量预测模型被给出,这个模型大大的减少LSSVM这个模型用来进行产量预测的误差以及产量预测的准度也得到了很大的提升。李毅念等研究人体使用特殊的装置设备对田间麦穗群体图像进行采集,通过不断改变这些图像色彩空间、对这些所获得的图像进行有效的分割、以及对图像上的那些明显的凹点进行检测,以这些为基础进一步得到图像中的所有的麦穗数量,以及使用机器方法研究所获得的图像里面的像素点从而得出来小麦的籽粒数目,从而预测出来小麦的产量。李婉通过分析作物所处的平均温度、光照强度、降水量、以及最高最低温度和实验的土壤湿度等共8个生产要素进行测量,构建出了以遗传算法为基础的优化后的BP神经网络模型,并且通过该模型进行了对甘蔗产量的预测。李娟丽等研究人员建立了一个以ARIMA为基础的模型,凭借这个模型预测出了新疆2011年-2015年的棉花产量。并且通过这个模型得到的预测产量和实际产量之间平均误差为2%-16%。林靖皓等研究人员构建一个C-BiGRU的自我感知模型,并用该模型对广西的芒果总产量的数值进行分析,得到的数值与实际产量误差很小。其又构建了一个以CNN与GRU的模型结构,分析后对于产量预测的部分参数实施了调整和处理。又通过对1991年-2002年的芒果数据完成了测试,这一次测试将九个主要的气象因子考虑在内,凭借这个模型以及九个主要气象因子较为准确的预测了广西等地2003年-2014年芒果的总产量。实际通过C-BiGRU这一模型自有的预测机制预测出来产量和现实测量的实际产量之间的均方误差只有10.67。王少航等研究人员通过构建一个Greymarkov模型,并由该模型较为准确地预测了河南省在1996-2015年的农作物总产量,且通过该模型计算出来的产量均值相对误差为小于1.4%。他的研究方法主要选择了对农作物产量影响十分重要的四个因素,并且通过使用这四个属性结合Greymarkov模型对河南省的粮食产量进行了预测。随后使用基于遗传算法所获得的灰色模型对马尔可夫链进行了完善建模,最终得到了农作物产量的精准预测。使用HenanGrainYield;Jiyu26I复合灰色模型进行测量2017年-2021年吉林省的玉米总产量。最后通过模型得到的预测结果与实际结果之间的平均误差低至4.23%。这一结果的得到主要是根据平稳时间序列模型与灰色模型GM所得到的。国外研究现状众所周知,传统的农作物产量的预测方法包括统计调查方法、天气预报方法以及农业预测方法。特别是统计调查方法,这一方法的工作原理是通过直接考察主要影响农作物产量的因素,如平均温度、降水量、光照强度、土壤湿度等主要因素,建立线性回归模型对作物产量进行估计。但是这种方式虽然操作起来十分容易,但是考虑到其并没有一种可靠有效的机制来使得这种方法在实际操作过程在取得好的效果,故这种方法并不被广泛推广作为主流的作物产量预测方法。农业预测法则是根据农作物产量形成一种机制进行有效的预测,这种预测方法有着高产量的估计精度以及高预测效果,但这种方法的实施机制需要非常多的参数进行处理,且这些参数并不是很容易能够获取,所以这种方法没法广泛推广和应用。天气预测方法这项方法已经发展相对成熟,天气预测方法它的工作原理是通过分析影响作物产量的主要气象因素来进行预测产量。但是,这种方法受气象数据的影响非常大,且该方法很容易受限因为我们所得到的气象数据缺乏连续性以及地面气象站的空间分布不充分等问题所导致。从而这种方法由于其适用条件过多,导致其推广较为困难。总的来说,传统的产量估测方法其工作原理主要基于实地考察,虽然这种方法测量出来的农作物产出精确度高,但这些方法所需要众多的参数,而这些参数的采集需要大量的人力物力财力,且工作开展不仅费时费力,而且其高昂的成本,使得这些方法的适用性不是很强。总的来说,随着农业经济发展以及各种经济危机的到来,对作物产量的准确预测以及评估已经成为了现代农业的新要求,在这种环境下,传统的产量估测方法可以不再能够适用于如今这个动态变化的大环境下。反而这些传统预测方法会限制农作物估测的要求,影响作物行业的发展。美国预测产量的方法常使用普查统计数据,由于美国大部分土地平坦,所以农作物种植面积大,正是因为有这种环境,所以对于产量的统计较为简便,且统计这项工作一般都是由美国国家统计局独立完成,统计完成后与预测的作物产量进行对比,估计其平均误差。欧洲相较于其他国家农业生产水平走在国际前列,它有着更为先进的农业生产科学技术,尤其是遥感技术,这就使得他通过这种技术预测的数据较为准确的与实际作物产量相拟合。但是这种方法需要提前一到两个月计划生产。但是由于如今气象服务科技水平受限,难以有效的对一个月后的的天气信息进行预测,从而导致所得的预测结果与实际结果往往有较大的出入,因此,这种方法往往不适用于长期预测。日本的产量预测方法主要是将气象因素预测模型与作物的动态生长模拟统计模型相结合,而影响作物产量的这些气象因素主要包括各种生物活动的影响、浓度、降水量、太阳辐射强度、温度等自然因子,该模型以这些主要气象因素作为自变量,然后使用该模型对大豆产量进行预测。加拿大由于其只有单一的作物大面积种植。故其常用遥感技术对作物的产量进行预测。例如:通过使用以遥感技术为基础的MODIS-NDVI模型对于用于加拿大在收获前两个月作物产量进行预测。研究内容及技术路线研究内容本文研究新疆乌苏、库车、新河以及沙雅等20多个棉花生产大县的气象数据,这些气象因素包含温度、降水量以及光照强度等自然因子,这些气象数据均属于国家青藏高原科学数据中心。本文通过研究每棉花生产大县来自国家青藏高原科学每日的温度、光照强度、降水量进行记录,以每日0时开始,三小时为一个小周期,记录幅度为2018-2021年。选取的数据为2018-2021年各个产棉大县的单位面积棉花产量,这些所得到的数据均来自与新疆统计年鉴。本研究首先将所得到的数据先进行数据整理,在进行数据筛选,将这些数据整理成2018-2021年中每个年份的平均降水量、平均温度、平均太阳强度以及最高与最低温度等与棉花产量相关的数据,然后将所分好类的数据进行数据归一化的处理,将这些处理过后的数据提取出来依次构建多元线性回归模型、BP神经网络以及以遗传算法为基础的BP神经网络模型。然后根据这三个模型对于棉花产量实际估计准确度,选择准确度最高的那个模型作为能够被广泛推广的模型。技术路线图1-SEQ图\*ARABIC\s11技术路线有关理论介绍数据处理数据处理(dataprocessing)是对所获得的数据进行采集、存储、查找、加工、变换以及传输。系统工程和自动控制流程中有一个基本环节就是数据处理。数据处理贯穿于社会生产和社会生活的各个领域并且数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的处理工具。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理可以分为以下几个部分数据采集:数据采集就是从现实世界的数据中进行采样,这一过程就是完成从现实世界把数据转移到我们当前任务环境中的过程,值得注意的是,在采样过程中,要保证采样的数据分布规律和现实世界中的数据分布规律一样,因为只有这样,采样得到的数据在一定程度上才能能够代替现实世界中的数据。数据标注:数据标注是通过数据标注人员借助计算机标注工具软件对人工智能学习数据进行加工的一种行为通常数据标注的类型包括:数据标注的类型包括了图像数据标注、视频数据标注、语音数据标注、文本数据标注、3D点云数据标注。标注的方式有人工标注、半自动标注、自动标注、众包等。具体选用哪种方式标注数据,要看数据量和数据的类型,有些通用数据是开源采样自动标注方法的,比如使用训练好的人脸检测模型来标注人脸框的位置,而有些特殊数据只能使用人工标注的方法。数据增样:数据增样一般也称为数据增强,如果数据在采样过程中就已经包括了各种复杂环境下的数据,那么可以不用进行数据增强,但是现实情况是,我们大部分数据都是不够完善的,也就是不足以表达真实环境中的数据分布情况,这个时候重新采集数据又比较困难,于是就有了数据增强。数据清洗:清洗的目的就是清洗掉这部分数据。其中删除错误数据可以通过代码工具来实现,也可以人工实现。数据标准化:数据标准化是数据统一的量度,目的是为了让不同维度的数据适合统一规则的约束。数据标准化不只是发生在数据出入网络模型之前,更多的是在网络模型中对数据进行标准化操作。一般来说在数据输入网络模型之前,对数据进行标准化处理是为了统一原始数据的量纲,减小异常数据对于模型训练的影响,更好的获取数据中有效的特征。数据处理的流程数据收集:海量的数据收集是数据挖掘的一个重要环节,如果没有大量的数据,那么通过数据挖掘获得的信息极有可能是虚假的、不可靠的。需要收集一切和研究问题相关的数据,如结构化数据、半结构化数据、异构数据。数据预处理:数据预处理是模型建立前最重要的步骤,准确整齐的数据才能使模型得到可靠结果,而错误杂乱的数据会使模型结果出现较大误差。首先对数据进行抽取,在大量的数据中抽取与研究问题相关的数据。然后对数据进行清洗,包括空缺值和异常值处理。选取的数据不一定是正确的,遇到空值时多使用该数据的平均数或者众数来表示或者填写符合线性拟合的预测值,遇到异常值数据通常将其剔除。最后就是数据转换,通过平滑聚集、数据概化、规范化等方式将数据转换成适合算法处理的形式。建立模型:建立模型是一个不断重复的过程,运用收集来的部分数据多次建模,这部分数据叫做训练集。使用没有进行建模的数据对模型精准度进行测试,这部分数据叫做测试集。使用测试集数据对模型精准度测试的结果不是客观准确的,因为测试集和训练集的数据来自一个数据源,所以还需要与训练集、测试集不同源的数据集对模型的精准度再度测试,这个数据集叫做验证集。模型评价:将模型建立完成并得出结果,需要对模型性能进行评价,判断模型是否具有推广价值,精度是否达到要求。数据挖掘算法建立的模型往往具有很高的准确度,是测试集的数据和训练集的数据同源造成的。模型准确率高的情况可能有许多未被在意的先前条件,冒然的大范围推广会产生巨大的人力物力损失,所以模型推广使用要十分谨慎。判断模型是否可以推广主要有两个方法,一是找专业的人员或机构进行评价,二是运用大量不同来源的数据对模型进行验证,观察其准确率是否稳定。如果以上条件都满足或满足其一,可以小范围推广使用模型。使用小范围推广模型得到的数据与真实数据进行比对,如果模型结果依然准确,再慢慢扩大推广范围。多元线性回归回归分析(RegressionAnalysis)是统计学常常用来进行数据分析的方法,其最主要的应用就是判断所给定的两个或多个变量之间是否具有相关性、构建数学模型来进行判断所给出的特殊因子是否对实际结果有着显著的影响。也就是说,多元线性回归方程能够更好的判断一个自变量因子对因变量的影响。总的来说,我们可以使用线性回归进行分析所给定的自变量用来对因变量的条件期望进行预测。线性回归模型实际上就是构建因变量Y和自变量自变量X之间是否存在相关性的一个模型。BP神经网络模型BP神经网络是一种常用的机器学习模型,凭借其优越的性能使得越来越多的人对它进行认同和验证,到处都能看到它的应用。此外,优秀的自学能力也是BP神经网络模型被广大人们青睐的一点,它可以通过学习逼近任何非线性映射,适用于遥感数据的处理。在此基础上,本章将BP神经网络方法使用到棉花产量的预测中,并使用遗传算法优化BP神经网络计算一开始的权重和阈值,以提高产量模型的预测性能,农业的智能化的发展的技术支持BP神经网络(BackPropagationNeuralNetwork),这一方法主要是由于将误差进一步的反向传播到多层前馈网络,身为使用最多的神经网络模型之一。BP神经网络(backpropagationneuralnetwork)是一种依照误差逆向传播算法所训练出来的多层前馈神经网络,它的网络拓扑结构可以划分为输入层、隐藏层、输出层。而当它的隐藏层数目是1的时候,所构建的BP神经网络将能够以任意精度逼近预测目标。由于其不仅作为一种有着先进性及优越性的机器学习模型,BP神经网络模型从而常常被广泛应用于各个领域并逐渐被各个专家学者认可和采纳。而且其凭借其出色的自学能力使得BP神经网络算法拥有优秀的非线性映射性能、自我学习性能、自适应性能、以及较强的泛化性能以及不错的容错性能,这些优异的能力使得他成为了当前被最广泛使用的神经网络之一,BP神经网络其学习规则是使用梯度下降法去修复权值阈值,也就是说他的工作原理是通过使用梯度搜索方法让这个神经网络模型计算出来的预测产出与实际产出之间差距尽可能的小,进而通过这个神经网络模型去计算出较为精准的信息。BP神经网络包含输入层、输出层以及隐藏层。在这三层中隐藏层往往是一个或者是由多个组成,隐藏层的主要功能是映射的实现,隐藏层和外不一般都没有直接的关联,但输入和输出两者之间的联系往往由其决定。BP神经网络一般分为只有两个阶段,信号进行前向传播处于第一阶段,也就是一开始从输入层进入隐含层,接着到达输出层;误差的反向传播处于第二个阶段,即一开始是从输出层通往隐含层,然后到达输入层这些过程会使得隐含层到输出层的权重和偏值进行调整,同时也会使得输入层通往隐含层的权重与偏值进行修正。图2-1为一个三层BP神经网络模型拓扑结构示意图。由这个图不难看出BP神经网络结构它的每一层有着许多个神经元,而且在这每一层神经元都只有两个相邻层的神经元连结,处于同一层的神经元没有连结关系。
图2-SEQ图\*ARABIC\s11BP神经网络的训练主要由正向传播和误差反向传播这两个过程组成,具体的训练过程可以参考2-2,当处于正向传播时,信号一般都是由输入层进入网络,接着在隐藏层中进行非线性变换,最终通过输出层来生成输出信号。目标输出结果和实际输出结果之间如果其有着很大的差距,则此时进入反向传播过程,也就是把误差通过隐含层往输入层一层一层的传递。而进行反向传播时,所计算出来的误差会分别分配往每一层全部的神经单元,借此来得到每一层神经单元之间的误差信号,凭借这个误差信号为基础去校对每一个单元所占的权重。如此重复使用信息正向传播以及误差反向传播的过程,借此来不断修正网络中每一层所占的权重,最后得到目标输出结果与实际输出结果两者之间为最小的误差,此时便训练终止。图2-SEQ图\*ARABIC\s12遗传算法遗传算法(GeneticAlgorithm,简称GA)一开始是使用计算机对生物系统进行研究的一种算法,遗传算法是一种随机全局搜索优化方法,它用来对处于自然选择以及遗传过程中发生的现象进行模拟,主要是模仿复制、交叉以及变异这些常见的现象,它的原理是从随意一个种群开始,接着随机进行模拟选择、交叉以及变异这些现象,进而使得出现一群能够适应环境的群体逐渐出现,也能够使得这些选定的群体适应环境的变化,使得其能够找到更合适它们居住的生活空间,就这样不断地适应变化,从而能够得到一个更优异的群体,即这一优异的群体就是所要求问题的优质解。遗传算法优化BP神经网络流程如图2-3所示。图2-SEQ图\*ARABIC\s13产量预测模型建立多元线性回归模型本文通过SPSS软件构建多元线性回归模型。表4-1是通过该模型所得到的数据。通过该模型得到的和改善后的分别是0.338及0.321,由于该模型所得到的数值相对较小。这就表示了多元线性回归模型用来进行棉花产量预测会使得其只有较低的拟合程度。标准估算的误差一般指的是通过比较预测所得到的结果以及和计算出来的平均结果之间存在的误差,由表可知标准估计的误差为221.352。德宾-沃森值是用来检验得到的随机误差项之间有没有自相关性的数据,且这些数据的数值位于0-4之内,如果所得到的德宾-沃森值接近0或者是4的时候就说明其有着自相关性,如果得到的数据数值靠近2的时候就说明其不包含自相关性。构建的多元线性回归模型所得到的德宾-沃森其数值是1.325,显然他靠近2,这就说明这些随机误差项没有自相关性。模型1R改善后的标准估计的误差德宾-沃森0.5820.3380.321221,3521.325表3-SEQ表\*ARABIC\s11不难发现在表3-1里面最为关键的的两个值为F值的大小以及显著性的值的大小。所构建的线性回归模型能否有实际用途的两个指标分别为F值的大小以及显著性值的大小。显著性值的大小一般用作于模型中所得到的自变量和因变量两者之间能否具有较为明显的线性关系的一个依据。如果通过该模型求得的显著性值低于5%,那么我们就承认当求得的F值高于Fa(p,m-p-1)的值时说明所构建的这个模型里面的所有的自变量的变化会导致模型里面的因变量发生明显变化,同时也说明所构建的该模型有着实际价值。Fa(p,m-p-1)里面的p常常用来表示模型中所包含的自变量个数,m通常被记做是样本容量,m-p-1是所构建该模型的自由度,a通常被记做是显著性水平的标志(通常0.05为一般数值)。通过该模型计算出来的Fa(p,m-p-1)值为1.36,由于所得到的F值6.4远大于Fa(k,n-k-1)1.48,由表格不难看出该模型的所得到的显著性的大小为0.000(记0.000就是小于0.001),可以得知所构建的多元线性回归模型里面所包含的自变量与实际的因变量有着较为良好的线性关系,也就是说所构建的多元线性回归模型包含一定的实际价值。所构建模型中的线性回归的平方和指的是模型里面的各个自变量的回归值以及所得到的因变量的平均值之间的离差平方和,要说明在某一程度上所构建的线性回归模型拟合程度高即为所求得的这一个值如果它越大。模型中的残差平方和指的是每个因变量所对应的数值与这些因变量所对应的回归值之间的离差平方和大小。如果模型拟合程度好则说明所得到的残差平方和数值越小。不难看出所构建的多元线性回归模型其所对应的回归平方和相对而言则比较小,而所对应的残差平方和相对而言则比较大,这表明所构建的多元线性回归模型具有较差的拟合程度。模型1平方和均方自由度F显著性残差22452425.43421421.567563回归12244758.3462321.578307.4210.000总计34697183.77593表3-SEQ表\*ARABIC\s12表3-2里面的T值以及显著性值是用来评价模型中每一个自变量是否有着较为明显的影响因变量的能力。如果所求的自变量的显著性值低于5%,则表明这个自变量变化有着明显影响因变量的能力。T值与F值原理相同(T检验为单样本)。由3-3不难看出对棉花单产量有明显影响的自变量包括7、8月的平均温度、5、7、10月的平均降雨量、8、9、10月的平均太阳光照强度、8、10月的最高温度和9月最低温度。表3-3中的B对应建立的多元线性回归方程中的系数,而这些数值的正负号则表示了这些得到自变量对棉花单产量的影响呈现的是正向影响还是负向影响。表格中的标准化系数值的大小则代表的是这一自变量处于标准情况对棉花单产的影响程度,如果该数值所对应的绝对值越大则说明其对棉花单产的影响程度越大。未标准化系数标准化系数T显著性B标准误差Beta不变量970.921475.2442.5350.005五月平均温度17.412413.4510.2421.4220.412六月平均温度15.24215.2110.2310,1240.145七月平均温度43.42317.5730.2330.2650.012八月平均温度75.45719.5750.3753.0810,015九月平均温度-18.75216.748-0.142-1.4240.153十月平均温度-8.68418.6580.048-0.3270.594五月降水量73.74942.3120.1532.3140.026六月降水量11.38128.4140.1240.3210.639七月降水量132.85727.4750.3144.7750.001八月降水量37.23132.5730.0671.4750.342九月降水量-35.34428.853-0.072-0.1220.247十月降水量-140.24541.232-0.175-3.4510.000五月平均光照强度0.4120.6540.0470.7340.573六月平均光照强度1.2400.6390.0581.4780.147七月平均光照强度-1.4730.8590.1481.6580.134八月平均光照强度2.3610.8640.185-1.8470.014九月平均光照强度-2.4510.947-0.128-2.4520.047十月平均光照强度-2.1411.132-0.164-2,4660.025五月最高温度4,5877.4750.0140.2410.947六月最高温度0.76911.9470.0050.0680.893七月最高温度5.47114.7960.0540.4630.758八月最高温度-22.65713.274-0.187-2.4630.034九月最高温度-3.4688.236-0.046-0.5420.648十月最高温度-18.4758.648-0.143-2,3740.032五月最低温度-4.6587.463-0.147-0.2370.846六月最低温度-12.7466.743-0.179-1.4750.147七月最低温度-5.4737.928-0.046-0.8930.257八月最低温度-25.7587.753-0.068-0.6530.364九月最低温度14.5747.4730.0951.5760.002十月最低温度7.1866.6540.0160.2430,465表3-SEQ表\*ARABIC\s13注:表格中的0.000表示的是它的值低于0.001通过表3-3的数据不难建立多元线性回归方程:把所收集的数据代入公式中便可以求出棉花的预测产量。图3-1是回归标准差残差的正态P-P图。显然可以看出图3-1内散点均分布在对角线附近,这就说明了所构建的模型其残差基本符合正态分布,构建的线性回归里面的自变量与因变量的关系结果可靠。图3-SEQ图\*ARABIC\s11选取新疆北部的石河子市以及新疆南部的阿克苏市2019-2020年的棉花实际单产量和所建立模型预测单产量进行比对。得到的比较结果见表3-4。不难看出选取的验证区域其棉花的的真实产量比较其预测产量其相对误差约为10,绝对误差值约为181.5,从而可以看出所构建的模型其不具有良好的预测精度。年份预测产量实际产量绝对误差相对误差2019石河子市1676.31831.5155.28.4%2019阿克苏市1769.11957.2188.19.6%2020石河子市1843.51653.2190.311.5%2020阿克苏市2015.71823.4192.310.5%表3-SEQ表\*ARABIC\s14为了更加准确的验证建立的模型的准确度,分别求出通过这个模型的预测产量和实际测量的真实产量两者的均方误差(MSE)、平均绝对误差(MAE)以及平均绝对百分比误差(MAPE)计算公式如下:表示的是棉花的实际单产量,表示的是模型预测的棉花单产量。根据给定的公式以及结合上述表格3-4内的数据,不难计算出来通过该模型预测出来产量的均方误差(MSE)为46672.3、预测出来的平均绝对误差(MAE)约为180.2、计算出来的平均绝对误差(MAPE)约为10.4%。不难看出,这三个所求的值均偏大。所以可以总结说,所建立的多元线性回归方程只含有较低的拟合度。这个模型将会使得预测的棉花产量准确度较低,不适合作为棉花产量预测模型BP神经网络模型记所构建的BP神经网络模型里面的的输入层、输出层以及隐藏层,且每一层的层数都令其为1层。本次实验使用的气象因子为平均降雨量、平均温度、平均光照强度、最高温度以及最低温度共5种,模型中使用的各个气象因子均选择的是4-9月的数据,一共有5*6=30个输入数据,而这个模型只包含棉花单产量这一个输出属性。即所得到的这个BP神经网络模型的有30个输入节点,每个输出层只有一个节。选择一个恰当的隐含节点是模型成功的关键,如果我们所得到较少数量的隐含层节点将会使得使用的算法无法得到足够数量的有用信息,进而这将会对构建的模型精准度造成很大的影响。当隐含层节点数目太多,则会使得所构建的模型存在着拟合过度等棘手问题。由于当前并不存在一个较为精准的公式去计算隐含层所存在最高的最适节点数目。于是实验通过使用较多BP神经网络建模,得到了三个能够计算所包含隐含层节点个数的经验公式: ()所得到的三个公式,其中m是输出层神经元数目,n是输入层神经元数目,z则是0-10之间自然数。本研究拿来对BP神经网络模型计算隐含层节点数目的方法共7个。通过分析可知所构建的BP神经网络模型其和5-10月的平均温度、降雨量、光照强度、最高温度以及最低温度有关。将模型构建完毕并对这个模型实际的预测结果实施综合评价,由此来确定所构建的模型的优缺点。最后把测试集得到的预测产量数据与实际得到的实际产量数据进行比对并做图分析。图3-SEQ图\*ARABIC\s12实际产量与预测产量散点图注:横竖轴单位为千克每公顷图3-SEQ图\*ARABIC\s13实际产量与预测产量折线图注:横轴单位为组,竖轴单位为千克每公顷图4-8里面散点的横坐标为实际产量,纵坐标为预测产量,图4-9中横坐标代表数据编号,纵坐标表示单产量。通过分析可知所构建的模型他所预测的产量与实际产量之间存在较大的差距,也就是说明所构建的模型不具有较高的预测精准度。为了更好的验证所构建的模型能否准确的预测结果,随机抽取7组数据从总的56组测试之中,并通过计算该模型计算出的预测产量与实际产量之间的误差,见表4-8。显然可以看出,通过构建BP神经网络模型进行棉花产量预测,通过这个模型得到的的预测值与实际产量的值两者之间有着较大的绝对误差以及相对误差较大同时结果也相对比较稳定。预测产量(kg/ha)实际产量(kg/ha)绝对误差相对误差1640.21370.5269.719.67%1776.51658.4118.17.1%1758.61900.2141.67.4%1848.12028.7180.68.9%1628.81467.2161.611.1%1900.91749.4151.58.6%1549.31689.3140.08.2%表3-SEQ表\*ARABIC\s15通过公式上述所给的三个公式计算出来的预测产量和实际产量两者之间的均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)依次为38943.7、166.1、10.13%,显然得到的这三项数值均总体偏大。综合可知,通过BP神经网络模型去预测棉花产量结果稳定,精准度较低,所以该模型不太切合对棉花单产量进行预测。最关键的一点是BP神经网络模型也有许多固有缺陷,最突出的就是拿他来解决局部最优解这一类问题。传统的BP神经网络一般使用的都是梯度下降法去修正权值与阈值,这是由于这一点会使得它在训练过程中往往会陷入局部最优解,此外初始权值对BP神经网络模型影响较大,很容易会使得预测精度不足。基于遗传算法的BP神经网络模型记BP神经网络输入层节点为30个,隐含层节点为7个,输出层节点为1个。计算BP神经网络一共有30*7+1*7=217个权值,7+1=8个阈值,遗传算法部分所需要优化的参数为217+8=225。遗传算法中染色体的长度为225。遗传算法中的参数设置为:最大进化代数为150代、种群规模为35,交叉概率为0.8,变异概率为0.03。模型的训练集和测试集比例为9:1(BP神经网络模型与优化模型同时运行使用相同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度关于工程建设的国内竞争性招标合同范本
- 2025建筑工程项目合同协议书范本
- 2025智能设备租赁代理合同
- 凤岗生鲜蔬菜配送合同范例
- 个人出售房产合同样本
- 班级学习成果展示活动计划
- 养殖田螺协议合同样本
- 京东代理合同样本
- 农村鱼苗出售合同标准文本
- epc装饰工程合同标准文本
- 2024年中考地理二轮复习:地理实践与跨学科主题学习(测试)(原卷版)
- 《自然教育》课件-自然游戏
- 部编版语文一年级下册第六单元大单元教学任务群设计
- 2024年中国成人心肌炎临床诊断与治疗指南解读课件
- 【矩阵正定的若干判定方法探究4000字(论文)】
- 脊柱侧弯矫正的七大门派
- 江苏省常州市溧阳市2022-2023学年二年级下学期期中数学试卷
- DZ/T 0430-2023 固体矿产资源储量核实报告编写规范(正式版)
- 姜文导演风格分析
- 2024年山东省青岛市城阳区中考一模物理试题+
- 全民国家安全教育日知识测试题库和答案
评论
0/150
提交评论