第四章 海洋信息处理技术_第1页
第四章 海洋信息处理技术_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章海洋信息处理技术二十一世纪是海洋的世纪,我国是海洋大国,社会经济的发展越快越依赖于海洋,海洋资源的发掘和有效利用日渐被人们所关注,海洋油气等能源也成为各国争抢的对象。世界上各国也都制定海洋开发战略以抓住良好的发展机遇,海洋涉及国家安全、海洋权益维护、社会经济可持续发展,促进国内经济、军事等快速发展,我国在“十二五”规划中首次将发展蓝色海洋经济作为重点发展战略提出。海洋充满了神秘与未知,她的变化和运动时时刻刻影响着我们的生活,只有不断的探索和研究,才能更好的认识海洋,更好的保护和利用海洋。海洋信息处理技术的研究与应用是我国数字海洋建设的重要基础和根本保证。海洋数据资料浩如烟海,它涵盖了海底

2、地形数据、海洋遥感资料、船测数据、浮标资料、模式同化资料等诸多方面。由于海洋数据具有海量性、多类性、模糊性、时空过程性等特点。所以在对数据进行挖掘时要预先对数据进行清洗、转换、选择等预处理。在对数据进行挖掘时,常用的数据挖掘算法有回归算法、统计分析、聚类分析、关联规则挖掘。关联数据挖掘是能够有效的发现数据潜在的规律,聚类分析是一种不依赖于预先定义的类和带类标号的训练数据的非监督学习,实现了在未知类别标签样本集的非监督学习,回归分析是一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系。下面主要介绍了数据处理技术的基本方法。4.1海洋数据特征4.1.1海量性海洋环境数据是大量不同历

3、史、不同尺度、不同区域的数据的积累,需要对海量数据获取、处理和管理的技术支持。早期由于技术手段的匮乏、投入少等原因,海洋环境调查多以年、月为周期,数据量相对较少。近年来,随着各种长期定点观测设备的使用,大量专项调查的开展,以及海洋观测手段的丰富,获取的海洋环境数据量呈几何级数增长。如何将已有的和不断产生的海洋环境数据进行整合、存储、管理和利用已经成为一个急需解决的问题。4.1.2多类性海洋环境数据资料的来源非常广泛:主要包括海洋调查、观测、检测、专项调查、卫星遥感、其他各专项调查资料,以及国际交换资料等,这些资料的质量和精度等相关技术类数据信息又各不相同,包括监测方法、数据提取方法与模型、技术

4、指标、仪器名称及参数、鉴定分析和测试方法、订正与校正方法及所涉及的相关技术标准等。而通过各种专业手段获取的各类海洋基础性数据又分属不同学科,主要包括海洋水文、海洋气象、卫星遥感、海洋化学、海洋生物、海洋地质、海洋地球物理、海底地形、人文地理、海洋经济、海洋资源、海洋管理等。对这些数据来源、数据质量和精度以及数据格式等信息。另外,我国海洋系统不同的单位和部门业已形成了多种多样的数据环境,如数据文件、操作型数据库(或称应用数据库)、以及不甚规范的主题数据库(或称专题数据库、专业数据库)等等,这些现存的数据环境需要进行改造,以保证高效率高质量地利用数据资源。本课题都需要进行深入的调查分析,对在数据上

5、进行的应用操作、数据量的大小及更新频率等信息,也要进行深入了解。才能在更深层次上理解数据、分析数据、规划数据。4.1.3模糊性由于海洋现象具有动态性,有些定义无法像陆地那么明确。海洋中地理区域诸如海陆交接的海滨湿地、海岸带、领海界线、大陆架等界线无法像陆地区界线那样精确和清晰,同样环境分级界限都具有一定的模糊性。若人为划分出区域边界,似乎是给出了精确的边界,实质是给出了不精确的描述。4.1.4时空过程性海洋现象体现出了很强的时空过程性,在持续的一定的时间范围、空间范围内,海洋现象都具有过程性。在海洋现象中,不同时刻的特点是不同的,有些特征会发生变化,以漩涡为例,上一时刻与下一时刻其漩涡中心、漩

6、涡边界、漩涡面积等都可能会发生变化4.1.5动态更新频繁。4.2海洋数据预处理4.2.1数据清洗数据清洗的原理,就是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。数据清洗主要利用回溯的思想,从脏数据产生的源头上开始分析数据,对数据集流经的每一个过程进行考察,从中提取数据清洗的规则和策略。最后在数据集上应用这些规则和策略发现“脏数据”和清洗“脏数据”。这些清洗规则和策略的强度,决定了清洗后数据的质量。4.2.2数据转换数据转换是用一种系统的数据文件格式读出所需数据,再按另一系统的文件格式

7、将数据写入文件。但从根本上讲,系统之间的数据格式转换是系统数据模型之间的转换。两系统能否进行数据转换以及转换的效果如何,从根本上取决于两模型之间的关系。若模型之间差别较大,在转换过程中则必然会导致信息的丢失,在这种情况下,系统之间不适于进行数据格式转换。因此,对空间数据的描述是建立地理信息系统、实现空间数据转换的前提。4.2.3数据选择4.3海洋数据挖掘和分析4.3.1回归预算预测型挖掘就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。从预测的主要功能上来看主要是对未来数据的分类和趋势的输出。分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方

8、法(classification)用于预测数据对象的离散类别;而预测(predication)则用于预测数据对象的连续取值。统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值。回归分析(regressionanalysis),一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系。回归分析预测法,是在分析自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量,它是一种具体的、行之有效的、实用价值很高的常用预测方法。回归分析预测法有多种类型。依据相关关系中自变量的个数不同分类,可分为一元回归分析

9、预测法和多元回归分析预测法。在一元回归分析预测法中,自变量只有一个,而在多元回归分析预测法中,自变量有两个以上。依据自变量和因变量之间的相关关系不同,可分为线性回归预测和非线性回归预测。而借助变量转换,也就是将一个非线性问题转化成一个线性问题,以使得利用线性回归方法可以帮助解决更多的问题。4.3.2统计分析海洋要素的具体属性随着时间变化而变化,一段时间内的海洋要素变化的集合称为总体,而我们通过仪器所得到的实测数据只是总体的一个样本而已。为了研究实测数据所包含的规律,需要统计样本的数字特征。常见的海洋数据的统计特征量,比如位置特征量、离散特征量。(1)位置特征量海洋观测数据样本会分布在一定范围内

10、,比如南海表层水温一般分布在23°C28°C之间,但人们有时会更加关心样本数据集中分布在什么位置,可以使用平均值、众数和中位数等位置特征量来表示。平均值与数学期望既有联系又有区别。数学期望表示随机变量所有可能值的平均值,不会随着观测次数的变化而变化,代表了随机变量本身的固有属性;平均值表示若干次测量值的平均结果,会随着测量次数的变化而变化,如果样本观测次数总够大,也可以把均值看作该样本的数学期望的估计值,平均值具有稳定性,是数学期望的无偏估计量。海洋要素的平均值含义很广泛,从时间上可分为日平均、月平均、年平均和累年平均值等,从空间上可分为垂直平均、断面平均和某海区的大面平均

11、等。平均值的计算方法包括算数平均值、加权平均值和矢量平均值等。(2)离散特征量位置特征量还不能反映出数据序列的全部特征,比如数据集中的位置等,有时尽管两组数据列的平均值相等,但数据离散程度却差别很大,这时就需要引入离散特征量,离散特征量包括极差、距平、平均差和方差等。4.3.3聚类分析聚类分析(Clusteringanalysis)又称为群分析、点群分析、簇分析、簇群分析,它是研究样品(或变量)分类问题的一种多元统计方法。为了将样品(或变量)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。4.3.4关联规则挖掘关联规则可提供许多有价值的信息,关联规则挖掘需要事先指定最小支持度与最小置信度。关联规则挖掘可以使我们得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论