




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上海洋信息管理系统的设计与实现黄冬梅田瑜基王 建 (上海海洋大学信息学院上海 )摘要 为了解决海洋数据的多源异构问题,使用户对大量复杂的海洋数据进行有效的管理,本文设计实现了一套海洋信息管理系统。本文首先介绍了系统的体系结构,然后对各模块进行了详细的阐述,并对海洋数据进行了详细的分析。针对海洋数据存在数据不一致、数据空缺和数据冗余等问题,使用了基于累积变化量的时间序列异常检测方法,有效检测出海洋数据中的异常点,再对异常点进行修正,保证了海洋数据的质量,从而建立一套完善的海洋信息管理系统,使得海洋相关部门的业务流程更加科学化和规范化。关键词 海洋信息管理系统海洋数据数据预
2、处理数据管理时间序列异常检测中图分类号 TP302 文献标识码 ADESIGN AND IMPLEMENTATION OF AN OCEAN INFORMATION MANAGEMENT SYSTEMHuang Dongmei Tian Yuji Wang Jian (College of Information Science, Shanghai Ocean University, Shanghai )Abstract In order to solve the multi-source heterogeneous problem of the ocean data and make use
3、rs to manage a large number of complex ocean data efficiently, an ocean information management system has been designed and implemented in this paper. This paper first introduces the architecture of the system, then gives a detailed exposition of the various functional modules, and carries on detail
4、ed analysis for the ocean data. Because the ocean data has these problems: data inconsistencies, data gaps and data redundancy and so on. Using time series anomaly detection method which is based on the cumulative variation can detect outliers of the ocean data effectively and amend outliers. The me
5、thod ensures the quality of the ocean data, thereby a comprehensive ocean information management system has been established and guides the business process of marine relevant departments scientific and standardized.Keywords Ocean information management system Ocean data Data preprocessing Data mana
6、gement Time series anomaly detection专心-专注-专业0 引言 海洋公益性专项项目:苏北浅滩“怪潮”灾害监测预警关键技术研究及示范应用(-06)。科技部973项目:海量信息的可用性,知识发现和进化(2012CB)。黄冬梅,教授,主研领域:辅助决策,GIS,数据库。田瑜基,硕士,主研领域:辅助决策,GIS。王建,讲师,主研领域:辅助决策,GIS。随着国家用海需求的日益增长及海洋经济的快速发展,对海洋局的管理和服务能力提出了更高的要求。为了满足涉海单位和用户对海洋数据管理和海洋数据分析统计的需求,设计建设海洋信息管理系统势在必行。然而,海洋数据质量的好坏直接影响海
7、洋信息管理系统决策的科学性,目前国内还没有系统的海洋数据质量控制方法,一般采用手工校正处理进行控制,针对大量的海洋数据,本文使用基于累计变化量的时间序列异常检测技术,对采集的海洋数据进行异常检测,将合格的数据及异常修正后的合法数据,存储到海洋信息数据库中,对海洋数据进行管理及应用展示。 1 系统体系结构设计海洋信息管理系统主要包括数据采集,数据预处理,异常检测,数据存储,数据管理和数据展示六部分。该系统的体系结构如图1所示。图1 海洋信息管理系统的体系结构2 系统功能模块设计与实现2.1 数据采集模块数据采集模块包括气象传感器、水文传感器和生物传感器。气象传感器采集气象类数据,包括风速风向,气
8、温,降水量和雾等数据;水文传感器采集数据包括水温、盐度、海流、波浪、潮位、含沙量和悬沙等;生物传感器采集浮游动物、浮游植物和底栖生物等数据。通过分析,发现采集的原始数据存在以下问题:(1)海洋数据在某些字段上存在空值。因此需要对这些数据进行转换和集成工作,对于空值字段需要进行数据的智能填充。(2)各个站点关于台站信息的数据在结构上基本相同,但在数据的完整性和一致性上很差。(3)来自不同数据表的同类数据,具有不同的数据类型。如同样是表示日期数据,有的用日期型,有的用字符型。(4)各台站的海洋数据中或多或少地含有噪声数据,在装入数据仓库前必须进行清洗。综上所述,海洋信息管理系统中的原始数据存在数据
9、不一致性、数据空缺、数据冗余等问题。可见,海洋数据并不能直接用于后继的数据开采,海洋数据预处理是进行数据挖掘的前提。2.2 数据预处理模块海洋数据挖掘是数据挖掘技术在海洋领域中的应用,是从大量的、不完全的、模糊的、有噪声的、随机的海洋数据中,提取隐含其中的、事先未知但又潜在有用的海洋信息和知识的过程1。由于海洋数据主要表现为海洋时间序列,因此,海洋数据挖掘主要是对时序数据的挖掘。据统计,在整个数据挖掘过程中,数据预处理花费60%左右的时间,而后的挖掘工作只占整个工作量的10%左右。经过数据预处理,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。因此,对这些数据进入数
10、据仓库之前进行预处理是进行数据挖掘的必要保证。 海洋信息管理系统中数据预处理主要是通过对数据进行下述清理、集成、变换和归约等四个方面的工作来实现: (1)数据清理是数据进入数据仓库前的规范化工作,是数据完整性和一致性的检查。数据清理例程通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要为了达到以下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。(2)数据集成是将多个数据源中的数据结合起来并统一存储,这些数据源可能包括多个数据库、数据立方体或者一般文件。在数据集成时,需要考虑的问题包括:数据冲突、数据丢失和衍生数据。(3)数据变换是将数据转换成更适合于数据
11、挖掘的形式,主要包括字段的数据类型转换、数据的聚集、数据概化和数据的规范化。通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。(4)数据归约是用来得到数据集的归约表示,它小得多,但是仍然接近于保持原始数据的完整性,其结果与归约前结果相同或几乎相同。2.3 异常检测模块异常检测模块主要是使用基于累计变化量2的时间序列异常点检测方法,对海洋数据进行异常检测,对于合格的数据进行数据存储,对于不合格的数据,对其进行异常点存储,并进行异常分析,再选择适当的修正方法对异常点进行修正。2.4 数据存储模块数据存储模块主要是将经过时间序列异常检测后的合格数据及异常修正后的合法数据,存储到海
12、洋信息数据库(该系统使用SQL Server 2008 R2数据库)中。2.5 数据管理模块数据管理模块主要是对海洋气象、海洋水文和海洋生物等数据进行增加,删除,修改,数据导入,查询,数据分析及统计打印等操作。其中,数据导入功能可以对数据进行批量增加,可以将整个Excel表中的数据导入到数据库中,使得批量数据的导入工作更加快捷方便,提高工作效率。对于查询功能,通过精确查询和模糊查询两种查询方式,实现对海洋数据进行全方位多条件的查询,并将查询效果以图表形式显示。界面效果如图2和图3所示。图2 海洋气象数据管理模块图3 海洋生物数据管理模块数据分析功能是通过台站比较和多年比较,对某一海洋要素的某一
13、历史时间变化趋势和某一海洋要素正常值进行分析,将海洋数据的规律总结出来,并给予用户提示信息,为决策者提供帮助。界面效果如图4所示。图4 多年监测数据比较2.6 数据展示模块数据展示模块将数据分析模块的结果通过图表多种形式进行展示,展示的客户端包括涉海单位、政府用户、公众等。数据展示模块和数据管理模块之间采用GIS服务器,Web服务器,移动信息服务器等实现实时通信和展示。3 关键技术3.1 异常检测技术目前,针对时间序列中异常检测的方法主要有基于频率的方法3、基于特征空间的方法4和机器学习5的方法等,但是这些方法均不适用于海洋时间序列。按照异常的表现形式不同,时间序列的异常可以分为序列异常,点异
14、常和模式异常。本文主要针对海洋时间序列数据的特点,使用基于累计变化量的异常点检测方法,用于检测海洋时间序列中的异常点。3.1.1基于累计变化量的时间序列异常点检测方法本方法涉及一个平均变化量(Mean Change)的统计量,表示这段时间序列中观测值的波动大小,该变量是各个相邻观测值之间的差值和的平均值。如公式(1)所示: (1)其中,是指第个观测值,是指观测值的数目。在前面平均变化量的基础上,提出了累积变化量(Accumulative Change)的概念,并且给出了海洋时间序列异常点的定义。定义1海洋时间序列异常点定义给定一段海洋时间序列点表示的是海洋时间序列在这一时刻的观测值是。表示点的
15、个邻居点的集合,其观测值集合记作,给定阈值,如果点与其个邻居点的累积变化量大于,那么判定点为这段海洋时间序列中的一个异常点,这一判定条件如公式(2)所示: (2)公式(2)中的是指权值向量,赋予每一个变化量不同的权重。其中,这里的权值向量赋值为。通常,在时间轴上,越接近点的邻居点,为其赋予的权值就越大;阈值是指用户给出的一个常量,点的累积变化量和阈值的大小关系,就是判定是否是一个异常点的依据。本文使用基于累积变化量的时间序列异常检测方法来检测海洋数据中的异常点。主要步骤如图5所示:图5 基于累积变化量的时间序列异常点检测方法的主要步骤如上图所示,该方法首先是读取原始数据,并且计算数据的平均变化
16、量。然后遍历每个数据点,查到其邻居点,计算出累积变化量的值,根据平均变化量再计算出阈值T,比较累积变化量和T的大小关系,判定出异常点并进行存储。3.2 异常分析及异常修正技术异常数据产生的原因可能是由于在计算、数据记录、误操作时造成的错误等人为因素,也可能是因为数据的内在特性造成的。根据定义1,一段海洋时间序列中的点被判定为异常点,则点与其邻居点的累积变化量的值通常较大,导致这一结果的原因有很多种,结合海洋时间序列数据的特点将可能的原因归为以下三类:(1)由于数据在录入过程中的错误导致。(2)自然的因素导致。(3)其它的人为因素导致。经过分析,修正异常点的方法主要包括以下四种:(1)依据其它数
17、据的来源,对其进行手工修正,或者由领域专家估计修正,但是这种方法过程复杂、耗时较长、代价较高。(2)可用这个序列的其它时间数据的平均值补修正。但对于连续的异常点,这种方法有时也不会达到满意的效果。(3)可用其它相关序列的数据平均值补缺失。(4)可通过贝叶斯形式化方法工具、回归分析或者判定树推导出可能的数据值,对异常值进行修正6。4 结论本文设计实现了海洋信息管理系统,通过对海洋数据进行详细的分析,发现海洋信息数据库中大量的海洋数据存在数据不一致、数据空缺和数据冗余等特点。为了更好地对海洋数据进行有效的归纳和预处理,提出了一种基于累积变化量的异常点检测方法。这种时间序列异常检测方法能够有效的检测
18、出海洋数据的异常点,再对异常点进行分析,并选择适当的修正方法对异常点进行修正,为海洋信息数据库提供干净、准确、简洁的数据,保证了海洋数据的质量,从而提高了海洋信息管理系统的性能。该系统能够快速高效地对海洋数据进行管理,使海洋数据管理工作实现“快速、准确、全面、专业”的管理要求,可以为海洋相关部门管理决策提供科学的支持。参考文献1 方洪鹰. 数据挖掘中数据预处理的方法研究D. 重庆: 西南大学, 2009.2 林森. 时间序列异常检测的研究与应用D. 南京: 河海大学, 2008.3 Eamonn Keogh, Stefano Lonardi, Bill 'Yuan-Chi' C
19、hiu. Finding Surprising Patterns in a Time Series Database in Linear Time and SpaceC/SIGKDD '02, July, Edmonton, Alberta, Canada. 2002: 23-26.4 A.L.I O1iveira, F.B.L. Neto, S.R.de Lemos Meira. Combining MLP and RBF neural networks for novelty detection in short time series. Lecture Notes in Comp
20、uter Science, 2004: 844-853.5 H.V.Jagadish, N.Koudas, and S.Muthukrishnan. Mining deviants in a time series databaseC/VLDB '99: Proceedings of the 25th International Conference on Very Large Data Bases, San. Francisco, CA, USA, Morgan Kaufmann Publishers Inc., 1999: 102-113.6 肖辉. 时间序列的相似性查询与异常检测D. 上海: 复旦大学, 2005.修改说明:按照贵编辑部审稿专家提出的以下四条修改意见:1、中文摘要需进一步简练;2、英文摘要在语义上必需与中文摘要保持一致,要求互译不走样; 3、参考文献引用偏多,一般56篇即可;4、个别文字、语句需修改,力求描述简练、正确。本人对文章做了如下修改:1、按照第一条修改意见,对本文的中文摘要进行了进一步简要概括。2、按照第二条修改意见,根据修改后的中文摘要对英文摘要进行了相应的修改,并保持中英文摘要一致。3、按照第三条修改意见,将本文的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态保护区管理与规划考核试卷
- 2025标准居间合同范本
- 2025论坛版块经营承包合同示范文本
- 幼儿园快乐宝贝家教学设计
- 隧道施工操作手册
- 苏教版四年级科学上册教案
- T-JAS 16-2023 检验检测机构 产品质量安全风险监测工作 管理规范
- 旅游行业电子合同使用指南二零二五年
- 二零二五出租果树合同书范例
- 送餐员雇佣合同书范例二零二五年
- 水磨钻专项方水磨钻专项方案
- 我爱刷牙幼儿课件
- 职高英语高一试题及答案
- 2024-2025年第二学期一年级语文教学进度表
- 3.1《百合花》课件 统编版高一语文必修上册
- 会展营销学知到智慧树章节测试课后答案2024年秋上海旅游高等专科学校
- 主动脉球囊反搏术(IABP)护理
- 《关于加强中小学地方课程和校本课程建设与管理的意见》专题培训
- 2025年中考物理押题猜想卷(苏州卷)(全解全析)
- 《半导体行业发展历程》课件
- 新能源开发知识培训课件
评论
0/150
提交评论