时间序列在水文数据中的应用_第1页
时间序列在水文数据中的应用_第2页
时间序列在水文数据中的应用_第3页
时间序列在水文数据中的应用_第4页
时间序列在水文数据中的应用_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、时间序列在流域水文数据分析领域的应用摘 要:针对流域水文数据存在的海量、复杂、时空性等一系列特点,面向流域防洪与兴利等主题,建立了以数据层、组织层、挖掘层以及决策层为基础的流域水文数据挖掘体系,针对海量水文数据集,如何更加有效合理的利用它们,从这些数据中间挖掘有用的信息,以促进水利行业发展,随着科技的进步,特别是信息产业的发展,我们进入了一个崭新的信息时代。数据挖掘正是从大量的实际应用数据中,提取隐含在其中的、人们事先不知道的、但潜在有用的信息和知识的过程。本文首先介绍了数据挖掘技术的概念、方法以及水文分析和时间序列的相关概念。其次,本文详细阐述了数据挖掘技术在时间序列的水文数据分析领域的应用

2、,其中对相似性分析的关键技术进行了比较细致的研究,包括模式识别,基于特征点的分段线性表示以及相似性度量。关键词:数据挖掘,时间序列,相似性度量,水文分析目录1 引言12 数据挖掘技术与时间序列水文分析概述12.1 数据挖掘的概念12.2 数据挖掘方法与知识分类22.3 数据挖掘的基本步骤22.4时间序列分析的主要内容:22.5 时间序列的基本概念33 数据挖掘与时间序列在水文数据中的分析应用33.1 水文时间序列数据挖掘的概念33.2水文时问序列数据挖掘研究方向33.3 时间序列相似性分析关键技术研究43.3.1 水文时间序列相似性分析基本原理43.3.2 时间序列的模式识别43.3.3 时间

3、序列-基于特征点的分段线性表示53.3.4 时间序列的相似性度量54 结束语6参考文献71 引言随着信息技术的飞速发展,人类在各个领域所积累的数据正以指数方式增长,现代社会的竞争趋势要求对这些海量的数据进行实时的和深层次的分析,以揭示隐藏在这些数据背后的潜在更有用的信息,为决策部门在决策制定过程中提供重要的参考依据。为了解决这个在信息领域具有普遍性的“知识发现”问题(KDD),数据挖掘(DM,又称为数据采掘、数据开采)技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它不

4、仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。通过数据挖掘技术在基于时间序列的水文数据分析领域的应用,对水文数据具有良好的查询优化机制,可发现时间序列数据库中蕴藏的相似性,有利于掌握数据变化规律和趋势。利用数据挖掘技术时间序列分析理论,建立水资源系列随时间变化趋势分析模型,在浩瀚的历史水文数据库里,发现各种水文要素变化的规律性和要素之间的相关性,为有效预测提供依据,对防洪抗旱,水资源的分配与调度,水利工程建设,工农业生产以及国民经济建设的其它方面都有重

5、要的参考价值和指导意义。2 数据挖掘技术与时间序列水文分析概述2.1 数据挖掘的概念数据挖掘(Data Mining),是从大量的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。数据挖掘,又称为数据库中知识发现,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示。2.2

6、数据挖掘方法与知识分类数据挖掘方法结合了数据库技术、机器学习、统计学等领域的知识,从深层次挖掘有效的模式。常见方法有关联规则、决策树、神经网络、粗糙集法、分类、聚类方法、遗传算法和统计分析方法等,在不同的领域,针对需要解决的具体问题,需要完成的挖掘主题,采用不同的数据挖掘技术或方法。数据挖掘所发现的知识最常见的有以下五类:Ø 广义知识指类别特征的概括性描述知识;Ø 关联知识反映一个事件和其他事件之间依赖或关联的知识;Ø 分类知识反映同类事物共同性质的特征型知识和不同事物之间差异特征知识;Ø 偏差型知识对差异和极端特例的描述,揭示事物偏离常规的异常现象;&

7、#216; 预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据。2.3 数据挖掘的基本步骤Ø 问题的理解和提出:在开始数据挖掘之前最基本的就是理解数据和实际的业务问题,在此基础之上提出问题,对目标有明确的定义。Ø 数据准备:获取原始数据,从中抽取一定数量的子集,建立数据挖掘库。其中涉及到的一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库进行分析。Ø 数据整理:由于数据可能是不完全的、有噪声的、随机的、复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,选择与数据挖掘有关的变量,对变量进行转换,进行初步的描述

8、和分析。Ø 建立模型:在数据整理的基础上,根据预测的目标和数据的特征,选择合适的预测模型或方法建模,得到预测的结果。Ø 评价和解释:对数据挖掘的结果进行评价,选择最优模型,应用于实际问题。其中重要的一点是要结合专业知识才能对结果做出合理的解释和运用于实际。2.4时间序列分析的主要内容:1. 频域分析:一个时间序列可看成各种周期扰动的叠加,频域分析就是确定各周期的振动能量的分配,这种分配称为谱或功率谱。因此频域分析又称谱分析。2. 时域分析:目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。3. 模型分析:20世纪70年代以后,应用最广泛的时间序列模型

9、是平稳自回归滑动平均模型(简称ARMA模型)。两个特殊情况是自回归模型和滑动平均模型。4. 回归分析:如果时间序列可表示为确定性分量与随机性分量之和,根据样本值(数据序列)来估计确定性分量及分析随机性分量的统计规律,属于时间序列分析中的回归分析问题。2.5 时间序列的基本概念时间序列(time series)是按照时问顺序生成的观测值的集合。它是数理统计学的分支。时间序列是指被观测到的依时间次序排列的数据序列。从经济到工程技术,从天文到地理和气象,几乎在各种领域中都会遇到时间序列。时问序列分析包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制和滤

10、波等内容。3 数据挖掘与时间序列在水文数据中的分析应用3.1 水文时间序列数据挖掘的概念水文时间序列的数据挖掘就是将数据挖掘的思想和方法引入水文时间序列的分析中,从待挖掘的水文时间序列中提取系统的特性,再将其与挖掘算法结合,从中获取正确、隐含、有潜在应用价值和最终可理解的水文模式的非平凡过程。其致力于从水文数据集中发现有用的规律和知识,与传统的时间序列分析方法相比具有如下特点:进行数据挖掘时强调待发现规律的未知性,不对规律预先做硬性、严格的假定。认为系统行为不全是规律性的,在大量数据中可提取的知识仅是一小部分,挖掘模式不必要求拟合全体数据。数据分析时不再单纯运用数学知识进行处理,挖掘方中还有来

11、自人工智能领域的模式识别和机器学习的思想和技术。数据分析较灵活,挖掘目标可视具体情况灵活选择。3.2水文时问序列数据挖掘研究方向水文时间序列的分类、聚类和关联规则挖掘技术及优化算法。分类是将数据映射到预先定义好的群组或类的训练集,在该集上运用。数据挖掘分类技术建立分类模型,对未分类的数据进行分类,故分类通常称为指导学习。如洪水过程分矮胖型和尖瘦型两类。聚类一般指无指导学习或分割,聚类的类别未预先定义而是由数据本身决定,不需要训练集。将最相似的数据聚集成簇,由于簇不是预先定义,故需对簇的含义进行解释。关联规则挖掘是识别数据间相互关系,在数据中无直接表示。在水文系统中,一些物理分布的水文信息间有着

12、紧密联系,若利用关联分析中成熟的算法分析数据,得到有用的规则用于水文过程研究将很有意义。3.3 时间序列相似性分析关键技术研究3.3.1 水文时间序列相似性分析基本原理水文时间序列的相似性分析也可称为水文时间序列的相似性查找,即是在水文序列库中找出各类相似的子序列/序列对。这种相似性,实际上表征了包括气候特征、流域下垫面对降雨响应过程等流域水文循环的特点和发展趋势,可用于降雨径流过程的预测,环境演变的分析和水文过程规律分析等方面。时间序列相似性分析的关键技术问题主要有两个方面,一是时间序列的模式识别(特征提取),二是相似性度量的距离标准。3.3.2 时间序列的模式识别通常,水文时间序列的数据量

13、大、维数高且具有噪声的干扰。以时段流量序列为例,假定时段步长为一个小时,认为单个数据点为1个维度,则表示连续一年(以365天计)流量过程需要8760个数据点,亦即8760个维度,其数据量较大,而且这些数据点中众多信息重复,如可能存在多个数据点在同一直线(或近似直线)上表示该直线的情况,造成重复存储浪费。此外,由于人为或仪器故障,可能造成流量数据测量结果的局部噪声,直接用该数据进行相似性分析会影响结果的有效性。综上所述,直接针对水文时问序列进行数据挖掘往往需要花费高昂的计算时间和存储空间的代价,并可能影响计算结果的可靠性。对此,常用的处理方法是对水文时间序列先进行数据提取(也称模式表示),保留水

14、文时间序列中的重要形态特征,消除噪声干扰,降低数据量和数据维数。其优点主要有以下几个方面:1)对时间序列进行压缩和降维,降低存储和计算的时间与空间代价;2)保留时间序列的主要特征,去除细节和噪声干扰,更能反映时间序列的自身特征,有利于提高数据挖掘的效率和准确性:3)水文领域更加关心的是水文时间序列一段时间内的变化规律和发展趋势,而不是时间序列中单个序列点的值,模式识别更能符合这一特点。因此,时间序列的模式识别是时间序列相似性查找的重要基础和先决条件,是时间序列查找中的一个关键性技术问题,模式识别的效果直接影响相似性查找的后续工作进行和最终结果的好坏。3.3.3 时间序列-基于特征点的分段线性表

15、示所谓基于特征点的线性数据提取方法即假定时间序列X=<>,选取某种定义的特征点 (1mn)来代替表示原有序列,由于特征点数据的个数远小于原时间序列的数据点个数,因此能够达到降维的目的。同时,通过定义特征点的选取方法,选取得到的特征点能够表示时间序列的变化特征,消除局部噪声,从而能够为后续的相似性分析奠定基础。特征点的选取规则定义如下:给定常量R0和时间序列X=<>,如果满足如下条件之一,则称数据点 (1mn)是一个特征点:1)m=l或m=n;2) .(1m<m+in,i=1,2,);3.3.4 时间序列的相似性度量一般来说,相似性度量是指定义一个函数sim(X,Y

16、),其中X,Y是来自同一数据集中的两个对象。函数取值通常为(0,1,表示两个对象之间的相似程度。取值越大,表明两个对象之间的相似程度越高,取值越小,表明两个对象越不相似。特别地,取值为1时表明两个对象完全相同。对于复杂的数据对象,要定义它们之间的相似性度量并不是一件容易的事。时间序列的相似性度量定义要满足以下条件:(1)相似性度量允许不精确匹配,支持时间序列的多种形变;(2)相似性度量的计算必须高效;(3)相似性度量应该支持快速索引;(4)相似性度量可以应用于其他数据挖掘领域:如时间序列的聚类和分类、频繁模式的发现和异常发现等。现有的相似性度量方法主要是基于序列间距离的各种方法。即将时间序列的

17、数据集看成是多维几何空间中的点,通过各种数学方法,定义不同的方法计算空间中点据之间的距离,从而通过距离的大小来判断两个时间序列之间的相似性程度,一般距离越大,相似性程度越小,距离越小,相似性程度越大。也有基于时间序列符号化表示后,利用符号字符匹配领域的知识进行的符号距离度量方法。已有的相似性度量方法主要有以下几种:Ø 明可夫斯基(Minkowsb)距离Ø 方差距离Ø DTW距离;与Millkowski距离和方差距离不同,DTw距离不要求点与点之间的一一对应,解决了时间序列发生时间轴伸缩和弯曲后的相似性度量问题。Ø 最长公共子串4 结束语本文在学习了数据挖

18、掘理论的基础上,对其中的时间序列、相似性关键技术分析和模式识别进行了比较详细的研究。数据仓库是一种面向数据应用的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,尤其是决策分析。利用数据仓库从历史数据中挖掘大流域或跨流域水文现象的隐含信息。能有效弥补利用传统水文预报模型进行大范围流域的水文预报时带来信息源增多,预报精度降低等一系列问题。但是该方法对数据的要求比较高。只有在得到大量时间空间分布数据的前提下。分析才能得到比较好的结果。数据挖掘在水文时间序列的应用研究中发展空间巨大,对揭示水文系统的变化规律、提供更多的决策支持信息均有重要的现实指导意义。在水文时间序列研究中,引进了数据挖掘的理论与技术,并结合水文科学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论