土壤大数据(20150405)_第1页
土壤大数据(20150405)_第2页
土壤大数据(20150405)_第3页
土壤大数据(20150405)_第4页
土壤大数据(20150405)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、土壤大数据方法土壤大数据方法张张 维维 理理中国农业科学院农业资源与区划研究所中国农业科学院农业资源与区划研究所 提提 纲纲一、引言一、引言二、方法边界二、方法边界三、应用范围三、应用范围四、相关基本概念四、相关基本概念五、方法基本思想五、方法基本思想六、分析流程设计方法六、分析流程设计方法大数据方法大数据方法 数据体量巨大,达到数据体量巨大,达到TBTB级以至级以至PBPB级,级, 难以通过主流软件工具管理与分析难以通过主流软件工具管理与分析 。 从多渠道、多角度了解事物,对人类从多渠道、多角度了解事物,对人类认识能力认识能力产产生深刻影响生深刻影响 与传统土壤科学研究方法不同,需要与传统土

2、壤科学研究方法不同,需要特定方法学特定方法学1 1、方法发展趋势、方法发展趋势一、一、前言前言受受现代研究主题现代研究主题变化与信息技术发展的驱动变化与信息技术发展的驱动 早期研究主要为对代表性点位或局部地区相关现早期研究主要为对代表性点位或局部地区相关现象和过程的了解,现代对环境安全、粮食安全、象和过程的了解,现代对环境安全、粮食安全、环境变化主题关注度提升,环境变化主题关注度提升,研究覆盖区域变大。研究覆盖区域变大。 从土壤质量管理、流域治理需求角度,对研究区从土壤质量管理、流域治理需求角度,对研究区域域信息精度要求不断提高信息精度要求不断提高,高精度耕地质量与农,高精度耕地质量与农田利用

3、信息是促进农业与环境奖惩政策发挥效力田利用信息是促进农业与环境奖惩政策发挥效力的前提。的前提。 以往土壤科学研究中关于以往土壤科学研究中关于点过程、局部地区或某点过程、局部地区或某一时段一时段已产生大量分散数据已产生大量分散数据 计算机、计算机、3S 3S 、网络技术发展、网络技术发展, ,使得提取和分析多使得提取和分析多类型相关信息,以可视化形式精确表达区域尺度类型相关信息,以可视化形式精确表达区域尺度土壤、生物、环境过程成为可能。土壤、生物、环境过程成为可能。 卫星、传感与测试技术发展卫星、传感与测试技术发展,将产生更多农业与,将产生更多农业与环境主题相关海量信息环境主题相关海量信息一、一

4、、前言前言1 1、方法发展趋势、方法发展趋势受现代研究主题变化与受现代研究主题变化与信息技术发展信息技术发展驱动驱动 本方法具能利用异源、异质、异构、异形多类型本方法具能利用异源、异质、异构、异形多类型信息优势,已成为农业、环境及其相关学科的重信息优势,已成为农业、环境及其相关学科的重要研究方法之一。例如,近年来利用辅助信息和要研究方法之一。例如,近年来利用辅助信息和推理模型描述土壤与环境质量状况与演变特征已推理模型描述土壤与环境质量状况与演变特征已成为土壤学最活跃研究领域。成为土壤学最活跃研究领域。(1 1 )多学科方法融合新方法)多学科方法融合新方法 涉及农业与环境科学、制图学、信息与计算

5、机科学、数据涉及农业与环境科学、制图学、信息与计算机科学、数据科学原理和方法,学科跨度大,各学科方法特征不同。科学原理和方法,学科跨度大,各学科方法特征不同。 农业与环境科学范畴:农业与环境科学范畴:科学目标界定一开始不太清晰,随科学目标界定一开始不太清晰,随研究展开逐步深入和具体,最终阶段完成清晰认知。研究展开逐步深入和具体,最终阶段完成清晰认知。 数据科学范畴:数据科学范畴:对数据结构、分析流程一开始就需要严格对数据结构、分析流程一开始就需要严格而清晰描述,否则难以开展工作。而清晰描述,否则难以开展工作。 两类方法过程不对接,易导致研究过程中科学目标的弱化两类方法过程不对接,易导致研究过程

6、中科学目标的弱化以至迷失。以至迷失。一、一、前言前言 2 2、难点、难点(2)(2)对异源、异质、异构、异形海量数据的抽提,不能采对异源、异质、异构、异形海量数据的抽提,不能采用主流软件工具,用主流软件工具,“需要把工具带到数据中去,而不是需要把工具带到数据中去,而不是将数据转移到工具上来将数据转移到工具上来”,需要研发专用工具。,需要研发专用工具。(3)(3)需要不同领域专业人员合作,研究周期较长,要实现需要不同领域专业人员合作,研究周期较长,要实现预期目标,避免科学目标界定或数据分析流程设计不清预期目标,避免科学目标界定或数据分析流程设计不清晰引起失误,需要遵照本方法进行数据整合和表达设计

7、,晰引起失误,需要遵照本方法进行数据整合和表达设计,类似于在实证性研究中,试验设计是实施研究的基础与类似于在实证性研究中,试验设计是实施研究的基础与前提。前提。 一、一、前言前言 2 2、难点、难点1 1、大数据分析方法、大数据分析方法二、方法边界二、方法边界 对异源、异质、异构、异形、时空上分散数据,就对异源、异质、异构、异形、时空上分散数据,就某一主题进行相关信息分类、提取与整合。某一主题进行相关信息分类、提取与整合。 对科学问题或专业需求的界定主要属于专业领域对科学问题或专业需求的界定主要属于专业领域研究范畴,需要遵照本专业领域方法学,本方法则是研究范畴,需要遵照本专业领域方法学,本方法

8、则是在专题研究过程中涉及到海量空间信息时,对其进行在专题研究过程中涉及到海量空间信息时,对其进行整理、抽提与整合建库的方法学。整理、抽提与整合建库的方法学。方法实质是在科学方法实质是在科学或专业目标引领和带动下,运用数据模型设计、结构或专业目标引领和带动下,运用数据模型设计、结构设计、海量空间信息整合与建库等数据科学设计、海量空间信息整合与建库等数据科学(Science (Science of data)of data)方法,正确实施对异源、异质、异构、异形方法,正确实施对异源、异质、异构、异形海量空间信息的整理、分析、提取与整合建库。海量空间信息的整理、分析、提取与整合建库。2 2、海量空间

9、信息制图方法、海量空间信息制图方法二、方法边界二、方法边界专题图:农业与环境专题调查中,专题图直观展现专题要素空间分布特征,是研究的最终成果之一。专题图制图过程: 专业领域研究范畴:专业领域研究范畴:通过采样设计、采样调查与实验室分析、空间分析与推理模型构建等,阐明专题要素空间分布特征。例如:阐明气候、生物、母质、地形、时间要素对成土过程和土壤质量性状的影响。 地图制图表达范畴地图制图表达范畴:当专题要素空间分布特征已明了,需要按照制图学方法,进行专题要素的渲染与制图符号表达,将数据制成主题突出、层次感清晰、可视性好的地图产品,例如:在土壤图图面清晰表达出不同层级土壤类型分布特征、成土要素影响

10、,适当标识地名、道路等基础地理信息等。2 2、海量空间信息制图方法、海量空间信息制图方法二、方法边界二、方法边界 海量空间信息大比例尺地图制作:数据量大,各分幅图空间要素抽提与表达不能采用相同模式,需要进行差异化表达,不能采用主流软件工具。 本方法是利用高精度海量空间数据进行可视化大本方法是利用高精度海量空间数据进行可视化大比例尺地图制图的方法学,方法核心是融合运用比例尺地图制图的方法学,方法核心是融合运用制图学、地理信息系统技术、计算机技术、软件制图学、地理信息系统技术、计算机技术、软件设计与编程学对空间要素进行差异化筛选与表达设计与编程学对空间要素进行差异化筛选与表达。 大数据分析方法大数

11、据分析方法:贯穿整个研究过程。 大数据制图表达方法大数据制图表达方法: : 处于专业研究过程的末端。 数字土壤成图方法数字土壤成图方法(Digital Soil Mapping):通过采样设计、辅助信息、推理模型与地统计学,减少地面采样调查量,提高专题图精度和可靠性。二、方法边界二、方法边界3 3、与土壤科学实证性研究方法区别、与土壤科学实证性研究方法区别二、方法边界二、方法边界 实证性研究:实证性研究:强调试验与观测数据具有可靠性和重现性,采用重复及统计检验对观测结果进行甄别。 大数据方法:大数据方法:了解海量信息所反映的总体规律,不强调对某一或某些数据的甄别。为对海量数据进行分类、筛选,需

12、了解数据产生条件,重视为各异源、异质、异构数据建立元数据,最重要的元数据:时间、地理坐标、数据代表的内涵、获取数据的试验与测试方法。3 3、与土壤科学实证性研究方法区别、与土壤科学实证性研究方法区别三、应用范围三、应用范围 广泛用于耕地质量状况与演变、污染源解析与防控、水土流失防治、抗旱防涝减灾、气候变化等方面的研究。 我国北斗导航系统精度可达到米级,意味着手机定位信息可达到米,高精度数字土壤分辨率已可达到15 亩,达到地块级,可视化土壤质量信息将使农民更容易采用现代技术和公可视化土壤质量信息将使农民更容易采用现代技术和公益性科研成果益性科研成果地图精准与直观表达正在改变人类经济活动与社会生活

13、地图精准与直观表达正在改变人类经济活动与社会生活四、相关基本概念四、相关基本概念 多学科方法融合,需了解制图学、地理信息系统、空间数据库、数据库设计方法相关原理 制图学制图学. Erwin Raisz(1962): Principles of cartography. McGraw-Hill, P 315 空间数据可视化制图空间数据可视化制图. M. J. Kraak(2010): Cartography: Visualization of Spatial Data. Guilford Publication, P 198 专题图制图与地理信息可视化表达专题图制图与地理信息可视化表达. Ter

14、ry A. Slocum (2009): Thematic Cartography and Geographic Visualization. Pearson Prentice Hall, P 561 地理信息系统与科学地理信息系统与科学. Paul A. Longley(2008): Geographic Information Systems and Science. Wiley, P 536 数据库系统:设计、实施与管理数据库系统:设计、实施与管理. Carlos Coronel (2012): Database Systems: Design, Implementation, and

15、Management. Boston, CENGAGE Learning, P 752 四、相关基本概念四、相关基本概念最必要基本概念:1 空间数据库与空间数据库类型2 海量空间数据组织与管理特征3 异源、异质空间数据特征4 空间集逻辑与存储结构合并表达四元表达式 空间数据库:指地理信息系统数据库,指某一区域内关于一定地理要素特征的数据集合,是以一系列特定结构的文件的形式组织在存储介质之上的。矢量数据栅格数据用具拓扑关系表征空间对象,空间对象属性无数量限制用单元格行、列排列表征空间对象,每个单元格具一个属性数据存储量小数据存储量大结构复杂、数据交换困难结构简单、数据交换容易结构简单、数据交换容

16、易较难进行图层叠加分析易于进行图层叠加分析易于进行图层叠加分析适于刻画点、线和具明确边界的空间对象如土地权属、行政边界、土壤采样点适于刻画具连续性和渐变性特征的空间对象,如地貌、土壤图形显示质量好图形显示质量好、精度高, 需要专业制图软件输出成本低,输出不美观,地图质量较差1 空间数据库与空间数据库类型空间数据库类型四、相关基本概念四、相关基本概念2 海量空间数据组织与管理特征土壤层Soil layer地形层Terrain layer垂直方向 Vertical水平方向 Horizontal 行政区划层 Administrative layer (1)水平与垂直方向特征(2)海量空间数据集: 土

17、壤大数据分析的对象是空间数据土壤大数据分析的对象是空间数据集集。指:垂直方向由一个或多个图层,水平方向由多个分幅图组成的空间数据库。四、相关基本概念四、相关基本概念 空间数据不仅含要素属性数据,还含描述要素空间分布空间数据不仅含要素属性数据,还含描述要素空间分布的空间信息,空间集的空间关系特征、非结构化特征,的空间信息,空间集的空间关系特征、非结构化特征,使得我们需要了解其存储结构,以及使得我们需要了解其存储结构,以及隐含在其物理存储隐含在其物理存储结构之中的逻辑结构结构之中的逻辑结构。 空间数据整合与表达主要通过空间数据整合与表达主要通过数据集逻辑结构带动对实数据集逻辑结构带动对实体库,即数

18、据集存储结构的各项操作体库,即数据集存储结构的各项操作,如数据提取、整,如数据提取、整理、整合、分析与表达。数据集逻辑结构理、整合、分析与表达。数据集逻辑结构2 海量空间数据组织与管理特征(1)水平与垂直方向特征(2)海量空间数据集(3)存储结构与逻辑结构四、相关基本概念四、相关基本概念空间集存储结构与逻辑结构各层级类型空间集存储结构与逻辑结构各层级类型(适于矢量与栅格数据模型适于矢量与栅格数据模型)数据结构层级类型代码存储结构 逻辑结构数据集Dir2 分幅图Dir/Dir1 图层/图层属性表Lay/Sub图层与属性表字段Dat空间对象分类码空间对象分类码Gr 空间对象_ID 分类码在空间集垂

19、直方向, 介于Lay与_ID间层级,一个Lay管理一至多个GR,一个Gr管理一至多个_ID。 一个空间集含一套唯一分类码,同码同涵义,异码异涵义。 Gr隐含性和可变性:Gr隐含实体库Dat中,可随时变为图层。 Gr特性使异源空间库整合中难以用存储结构,适用逻辑结构。四、相关基本概念四、相关基本概念2 海量空间数据组织与管理特征 农业与环境领域,不同主题调查产生异源、异质数据;在同一调查中当调查范围大,各地自然条件差异大,难以采用相同方法与指标,也产生异质信息。 异质空间集,需根据异质类型,对各空间集进行逻辑与存储结构归一化处理,再进行多个空间集整合,将多个局部地区空间集整合为一个大区域空间集(

20、水平方向整合),或将不同类型要素引入一个空间集(垂直方向整合)。异质类型异质类型数据结构特征数据结构特征存储结构不同存储结构不同空间集分幅类型不同,分幅路径名空间集分幅类型不同,分幅路径名(Dir)(Dir)编码不同。编码不同。空间集图层与属性表文件名与数据结构空间集图层与属性表文件名与数据结构(Dat)(Dat)不同。不同。逻辑结构不同逻辑结构不同空间对象唯一分类码空间对象唯一分类码GrGr涵义不同。涵义不同。异源、异质空间数据结构特征异源、异质空间数据结构特征3 异源、异质空间数据特征四、相关基本概念四、相关基本概念 存储结构为显性结构,易判定异源集结构异同。判定逻辑结构异同,需用四元表达

21、式分析各异源库分类码(Gr)涵义 Fra:数据集逻辑与存储结构关系表 Gr:空间集唯一分类码清单表 Dir:数据集分幅图存储路径清单表 Leg:空间集各分幅图分类码清单表FraLegGrDir空间集四元表达式空间集四元表达式4 空间集逻辑与存储结构合并表达四元表达式四、相关基本概念四、相关基本概念四、相关基本概念四、相关基本概念 在土壤大数据分析中,以分类码为基础的图层操作是带动数据筛选、分析与表达的中心。空间数据库的意义与作用取决于其专业内涵,而其专业内涵,或者说是空间数据库的灵魂由图层组织方式体现。五、方法基本思想五、方法基本思想1、海量空间信息分类、提取与整合 整合过程中始终重视科学或专

22、业目标的引导,不仅整合之初制定科学或专业目标,在整个工作过程中还要及时审视目标的落实,只有保证科学或专业目标实现前提下,整合建库技术层面的推进才是有效的。 核心是根据科学目标界定分类码划分依据,并根据界定对空间对象分类和赋码, 编制数据分析流程设计文档:数据量大,不能采用主流软件工具在合理时间完成数据分析,分析过程中科学问题与数据库技术问题交织,流程设计是不同专业人员合作的基础,文档质量影响科学目标和分阶段技术目标的实现。需要设计先行,文档先行。2、海量空间数据制图表达以表达科学层面认知的空间要素分布特征带动地图图面技术制作实现制图表达科学或专业目标,重点是对空间集图层、分类码的筛选和表达。采

23、用空间集四元表达式,通过对空间集逻辑结构,即垂直方向的分析,带动空间集各分幅图空间对象的渲染表达需要采用人机交互式制图技术制图表达中科学或专业层面制图目标的传导五、方法基本思想五、方法基本思想六、大数据分析设计方法六、大数据分析设计方法1 一般性规则(1)五层次设计(2)节点数据与分段流程函数命名2 文档编制规则(1)文档基本格式要求(2)设计文档编制人与使用人3 三类需求设计要点(1)数据抽提、整合流程设计(2)制图表达分析流程设计(3)专用软件工具需求设计五层次设计:流程设计基本方法五层次设计:流程设计基本方法 科学目标和工作边界界定: 文字进行概括性描述。 终始点设计: 终点数据模型 始

24、点数据清单 赋大码设计: 分段流程拆分与节点内涵与赋码设计 节点数据结构设计:从始点至终点逐一完成。 分段流程内分析流程设计:贯通两端节点数据六、大数据分析设计方法六、大数据分析设计方法1 1 一般性规则一般性规则 节点数据与分段流程函数命名节点数据与分段流程函数命名 命名规则 分段流程与节点各自设定函数命名 按节点数据层级特征进行节点数据命名 预留空位以保证主干和高层级分支流程节点函数的稳定性文字释义:界定节点和分段流程涵义与边界函数命名:表达节点及分段流程间逻辑关系1 1 一般性规则一般性规则六、大数据分析设计方法六、大数据分析设计方法全国土壤空间数据库构建流程设计:主干流程与节点函数全国

25、土壤空间数据库构建流程设计:主干流程与节点函数1 1 一般性规则一般性规则六、大数据分析设计方法六、大数据分析设计方法2 2 文档编制规则文档编制规则 每个设计文档先给出该文档设计目标与工作边界。 多文档组成设计,先列出总设计体系架构、各文档 在这一体系架构中分工。 在设计文档中采用代码化、函数化数据命名进行设 计,同时需要给出完整的函数释义。文档基本格式文档基本格式设计文档编制人与使用人设计文档编制人与使用人 农业与环境科研人员:1-4层次需求设计。 软件程序员或数据库技术人员: 分段流程内需求设计。六、大数据分析设计方法六、大数据分析设计方法3 3 三类需求设计要点三类需求设计要点 数据抽

26、提、整合流程设计 五层次设计:目标与边界终始点拆大码节点数据结构节点间流程。 为各异源、异质数据库构建唯一分类码,进行先逻辑、后存储的空间数据分析,用空间集四元表达式给出节点设计。 制图表达分析流程设计 五层次设计:目标与边界终点模版地图与始点数据清单拆大码节点数据结构节点间流程。 利用唯一分类码,带动空间集图例与注记表达。用空间集四元表达式给出节点设计。六、大数据分析设计方法六、大数据分析设计方法3 3 三类需求设计要点三类需求设计要点 专用软件需求设计 层次设计:软件包目标与边界软件包体系架构与组件模块(拆大码) 各模块菜单、人机交互界面和组件模型设计。六、大数据分析设计方法六、大数据分析

27、设计方法 五层次设计:目标与边界终始点拆大码节点数据结构节点间流程。 科学目标引导的数据抽提、整合与制图:科研人员确定信息抽提原则,制图员用MapGIS、ArcGIS、MapInfo主流软件,落实信息抽提原则,完成地图符号与注记表达等操作。 往复进行:软件操作员操作科研人员审阅原则落实需对以亿计数据条目调用、存贮、统计分析、分类码编辑等数据分析操作,主流GIS软件包无法在合理时间内完成。专用软件需求设计:大数据分析中必用示例:示例:IMATIMAT设计设计六、大数据分析设计方法六、大数据分析设计方法功能差异 IMAT主流GIS软件包目标海量信息抽提、整合多幅面组成全图制图表达对单一幅面空间信息的加工表达菜单界面设定方式为构建全图图库设定各异源库要素整合规则为全图设定分幅图差异化要素抽提规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论