下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据挖掘的耕地非农化研究
随着经济的发展,尤其是城市化进程的推进,中国的文化区受到了诸多因素的影响和大量减少,这将不可避免地带来许多问题,影响到可持续和可持续发展。它的关键是中国的粮食危机,以及我们的生存。针对经济发展带来耕地非农化的问题,国内外学者从不同角度对其进行了较为全面系统的研究,研究方法主要集中在定性和定量两个方面。定性的研究偏多,而这仅停留在表面的分析,不能确凿地给出数据解释。定量分析目前也主要是采用统计学的方法。数据库技术的快速发展积累了大量的数据,面临如何从海量数据里发掘有用的知识,数据挖掘技术由此而生。经历多年的发展,数据挖掘技术已日趋稳定、成熟,且易于操作和理解,数据挖掘的研究也逐渐偏向应用领域。其在商业、金融等领域的应用已积累了不少成功经验,可在农业领域的应用却还鲜见。本文分别采用统计分析和数据挖掘两种方法来讨论耕地非农化的问题,通过对比研究两种方法的优缺点,旨在为类似的相关问题进而为农业领域其他问题提供一种新的解决方法和思路。1分析工具的介绍1.1统计学处理ss、模型分析、科研设计SPSS(StatisticalProductandServiceSolution)和SAS、BMDP被国际上称为三大最有影响的统计软件。SPSS作为三大统计软件之一,其功能强大、界面友好、易用、易学,包含了大多尖端的统计分析法,具有良好的数据定义、开放的数据接口、美观灵活的统计图表输出。其被各类科研结构和院校广泛地应用。本文选用它作为统计分析的工具。1.2基于过度挖掘的算法的数据库磺化Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine)的,基于JAVA环境下开源的机器学习(machinelearning)以及数据挖掘(dataminining)软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。本文选用它作为数据挖掘分析的工具。2分析2.1数据收集本文数据来源于《2007年中国农业发展报告》和《2007年中国统计年鉴》,结合实验的目的对数据进行集成和清洗获得实验数据表1。2.2统计分析2.2.1净减耕地与其他经济发展因素的相关分析及回归模型根据分析目标旨在解释耕地非农化与经济发展因素之间的相关性,这里适宜采用多元线性回归模型进行统计分析。作为因果关系分析的基础,首先对表1的数据进行简单相关分析,了解一下各个变量之间的一般相关性。然后依据表1的数据建立年内净减耕地面积与其他相关驱动因子的多元线性回归方程,由此确定各种经济发展因素对耕地面积的影响力。具体思路包括相关分析、多元回归方程的建立、多元回归关系的假设测验、偏回归系数的假设测验、结果的解释,其中两个假设测验是为了验证建立的回归关系的真实性。2.2.2农业和社会服务、农业成灾面积、深度经济指标的分析用SPSS软件对表1各个因子(除年份外)的相关性做简单分析,结果见表2。其中Y、X1、X2、X3、X4、X5、X6分别代表年内净减耕地面积、农业从业人员占社会从业人员的比重、农业各税占财政收入的比重、用于农业支出占财政支出的比重、成灾面积占受灾面积、年末农村住房面积、农村居民家庭恩格尔系数。从表中看出“年内净减耕地面积”分别与“用于农业支出占财政支出的比重”、“农村居民家庭恩格尔系数”两个因子的相关系数为-0.551、-0.557,双尾检验概率p值为0.018、0.016(均小于0.05),故它们之间在0.05水平上显著相关。其次,还可以看出其他因子之间也存在一定的相关性。2.2.3回归模型a.c.a根据表2分析结果剔除部分跟因变量Y(年内净减耕地面积)不相关且和其他自变量有相关性的因素,保留农业从业人员占社会从业人员的比重、农业各税占财政收入的比重、用于农业支出占财政支出的比重、农村居民家庭恩格尔系数。把表1作为数据来源,用SPSS对其做多元线性回归分析,方法设为向后(准则:F-to-remove>=.100的概率)。统计分析结果如下:a.已输入所有请求的变量。b.因变量:年内净减耕地面积。a.因变量:年内净减耕地面积表4给出了回归模型的拟合优度(R方)、调整的优度、估计标准差。从结果看,两种模型回归的可决系数分别为0.681和0.615,说明拟合优度比较接近。表5给出了回归模型的方差分析表。结果显示,F统计值分别为6.927、7.461,对应的p值均为0.003,小于0.05,表明在0.05的显著水平下两种模型的整体回归关系是显著真实的。表6给出了回归系数、标准化的回归系数以及各个回归系数的显著性t测验。T测验的结果表明,在0.05的显著水平下,模型2所有变量的p值均小于0.05,通过了t测验,说明该模型里所有变量对的回归关系是相对真实的。因此模型2比模型1较优化,由表6的回归系数可得到对应的回归方程:Y=2633.079+108.931X1+388.661X2-173.050X3式中,Y表示年内净减耕地面积(千公顷),X1表示农业从业人员占社会从业人员的比重(%),X2表示农业各税占财政收入的比重(%),X3表示农村居民家庭恩格尔系数(%)。2.3数据提取分析2.3.1基于关联规则挖掘的多维立体数据挖掘(DM,DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。具体包括陈述问题、搜集信息、预处理、挖掘数据(评估模型)、解释模型。按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。考虑到目标数据包含多个属性,选取多维关联规则挖掘技术进行分析。挖掘流程如图1。其中D为数据集,R为挖出的关联规则集合。用户通过指定最小支持度和最小可信度分别与频繁项集和关联规则挖掘算法交互,并通过与R的交互对挖掘结果进行解释与评估,从而得出耕地非农化与经济发展因素之间的相关性结论。2.3.2农业互作及其分配由于目标数据是连续的,为了方便关联规则挖掘必须对数据离散化,这里采用自然划分分段法。分别用A、B、C、D、E、F、G代表年内净减耕地面积、农业从业人员占社会从业人员的比重、农业各税占财政收入的比重、用于农业支出占财政支出的比重、成灾面积占受灾面积、年末农村住房面积、农村居民家庭恩格尔系数,分段如表7。对照表7由表1得到事务数据库表8。2.3.3对耕地流失面积的经济发展模型将表8作为数据源,利用WEKA软件选取Apriori算法进行关联规则挖掘,设定最小支持度lowerBoundMinSupport=0.15,最小置信度minMetric=0.9。挖掘结果如图2。挖掘结果显示产生的各项频繁谓词集的大小为:L1(18)、L2(55)、L3(55)、L4(20)、L5(3),总为151个;获取的关联规则为176条。其中含有大量的无趣的规则,因为我们分析的最终目的是了解A属性受其他属性的影响力,即哪些经济发展因子对耕地流失面积有影响,所以我们感兴趣的有趣规则的后件应该只包含A。通过查看,有趣的规则只有12条。例如:47.agr-finaexp=D33==>reduce-land=A23conf:(1)48.engel=G33==>reduce-land=A23conf:(1)47条规则表明用于农业支出占财政支出的比重在10%~12%之间时年内净减耕地面积在0~1000千公顷范围内(支持度=0.17,置信度=1.0),48条则表明农村居民家庭恩格尔系数在50%~55%之间时年内净减耕地面积在0~1000千公顷范围内(支持度=0.17,置信度=1.0)。这两条规则表明了影响耕地面积的单个因子为农业投资的比重和农村居民恩格尔系数,且从数值范围可以看出它们对耕地面积的影响均是负相关。其他更多规则反映了多因子对耕地面积减少的综合影响。3比较试验结果的分析3.1回归关系分析相关分析的结果基本跟数据挖掘结果保持一致,但回归分析结果虽然显示整体经济发展因子跟耕地净减面积之间呈显性线性回归关系,逐步回归后各自变量偏回归关系也显示显著真实,但结果跟数据挖掘不太一致。究其原因是统计分析存在先天不足,即统计分析往往是建立在人为假设的前提下,回归模型是事先假设存在的,想要得出深层次的真实因果关系,往往需要对回归模型进行修正,改变相应的函数关系重新统计,这项工作可能要重复多次。3.2经济发展因子关联规则挖掘的结果跟统计简单相关分析存在一定的吻合,这种吻合从某种程度上证实实验结果的真实性。挖掘结果不但给出了影响耕地面积减少的单个因子,更为主要的是还给出了多个因子对耕地面积的综合影响力,这和现实情况相吻合。事实上影响耕地面积不单是个别因子,而是多种因子综合对耕地面积的变化发挥作用,甚至是对立的几个因子互相消长形成结果。另外,虽然结果包含大量无趣规则,但这些规则也显示了经济发展因子间的相关关系,这和统计相关分析的结果也有一定的吻合。当然,挖掘结果不一定能完全反映现实的真实情况,这和数据集的大小、数据属性的选择以及挖掘算法都有很大的关系。数据挖掘是一门新型技术,它适合从大量信息中发现有用知识,许多算法还有待改进,从而提高挖掘效率、减少无趣结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度欧盟电子商务政策实施细则合同4篇
- 房屋遗产继承合同(2篇)
- 担保合同责任协议书(2篇)
- 2025年度木跳板租赁与售后服务采购合同规范3篇
- 二零二五版摩托车零部件质量检测与认证合同4篇
- 2025年个人创业风险投资合同范本4篇
- 2025年度个人与企业合租创意工作室合同3篇
- 二零二五年度苗木种植基地信息化建设合同4篇
- 2025年度钢材原材料采购质量保证合同
- 2025版企业上市融资民间借款合同样本与上市流程4篇
- 2025水利云播五大员考试题库(含答案)
- 老年髋部骨折患者围术期下肢深静脉血栓基础预防专家共识(2024版)解读
- 中药饮片验收培训
- 手术室专科护士工作总结汇报
- DB34T 1831-2013 油菜收获与秸秆粉碎机械化联合作业技术规范
- 苏州市2025届高三期初阳光调研(零模)政治试卷(含答案)
- 创伤处理理论知识考核试题及答案
- (正式版)HG∕T 21633-2024 玻璃钢管和管件选用规定
- 《义务教育数学课程标准(2022年版)》测试题+答案
- 残疾军人新退休政策
- 《铁路超限超重货物运输规则》(2016)260
评论
0/150
提交评论